자율학습

Similar documents
Holland Bar Stool BL1BKAppStU Appalachian State University Logo Pendant Light with Black Finish - 120V Holland Bar Stool BL1BKArizSt-F Arizona State U


세계 비지니스 정보

<2015 춘계한국사회서비스학회 > 지역자율형사회서비스투자사업 -현황과과제- 한국보건사회연구원김정현 Overview 001 지역자율형사회서비스투자사업 개요 2015 년주요변경사항 002 성과평가 개요 평가지표 활용과개선방안 003 쟁점 포괄보조 시장화 - 3 -


CONTENTS.HWP

INDUS-8.HWP

<32BFF931C0CFC0DA2E687770>


00-1표지

1. 미국관광산업의고용현황 관광산업이전반적인미국경제에미치는영향은 절대적이라기보다는상징적이다. 무역수지가적자 정부기관을제외한산업체중 5위를차지하고있으며, 고용창출면에서관광산업은 3개주를제외한미국의모든 48개주 ( 수도워싱턴DC 포함 ) 에서 10위권내의영향력을발휘하고있다

경제통상 내지.PS

°æÁ¦Åë»ó³»Áö.PDF

우루과이 내지-1

영암군 관광종합개발계획 제6장 관광(단)지 개발계획 제7장 관광브랜드 강화사업 1. 월출산 기( 氣 )체험촌 조성사업 167 (바둑테마파크 기본 계획 변경) 2. 성기동 관광지 명소화 사업 마한문화공원 명소화 사업 기찬랜드 명소화 사업 240

[96_RE11]LMOs(......).HWP


À̶õ°³È²³»Áö.PDF

1.서론 2.본론 1.1. 연구의 목적 누구나 어렸을 때 알록달록한 크레파스로 빨주노초파 남보를 읊어가며 무지개를 그려 본적이 있을 것이다. 대 부분의 아이들이 처음 접하게 되는 색채의 도구는 쉽고 부드럽게 그려지는 크레파스이다. 유 아동에게 있어 색채 교육의 출발점이

<C1A634B1C720C1A632C8A32DC3D6C1BE2E687770>

*통신1802_01-도비라및목차1~11

CHU 통계교육 Workshop (DAY 7. MDA 군집분석 ) 1. 개념 Individual Directed Technique + 범주 ( 그룹 ) 에대한사전정보가없음 + 다변량측정치를동시에고려하여데이터개체분류 + 개체의유사성 (simila

통신1310_01-도비라및목차1~9

True number of clusters = 3 V V1 2 군집의수선택 2.1 군집내와군집간제곱합이용 군집분석은각군집의평균의차이를크게하고 ( 군집간의변동을크게하고 ) 군집내의변동을작게하는 것이좋다. 군집의개수가늘어날수록커지고


<C1A4C3A5BFACB1B D3420C1A4BDC5C1FAC8AFC0DAC0C720C6EDB0DFC7D8BCD220B9D720C0CEBDC4B0B3BCB1C0BB20C0A7C7D120B4EBBBF3BAB020C0CEB1C720B1B3C0B020C7C1B7CEB1D7B7A520B0B3B9DF20BAB8B0EDBCAD28C7A5C1F6C0AF292E687770>

표1

°æÁ¦Àü¸Á-µ¼º¸.PDF

israel-내지-1-4

Resampling Methods

src.hwp

과기대소개최근-수정

표본재추출(resampling) 방법

09 강제근로의 금지 폭행의 금지 공민권 행사의 보장 중간착취의 금지 41 - 대판 , 2006도7660 [근로기준법위반] (쌍용자동차 취업알선 사례) 11 균등대우의 원칙 43 - 대판 , 2002도3883 [남녀고용평등법위

°øÁõ°ú½Å·Ú_º»¹®.PDF

*통신1604_01-도비라및목차1~12

슬라이드 1

제 출 문 환경부장관 귀하 본 보고서를 폐기물관리 규제개선 방안연구 에 관한 최종보고서로 제출합니다 연구기관 한국산업폐기물처리공제조합 연구책임자 연 구 원 연구보조원 이 남 웅 황 연 석 은 정 환 백 인 근 성 낙 근 오 형 조 부이사장 상근이사 기술팀장 법률팀장 기

statistics

*통신1510_01-도비라및목차1~12

특집3. 박경신.hwp

미얀-내지-8차

단순 베이즈 분류기

Microsoft PowerPoint - IPYYUIHNPGFU

<4D F736F F D20B4EBBFF BFB5BEF7BAB8B0EDBCAD2E646F63>

Microsoft Word - SPSS_MDA_Ch6.doc


PowerPoint Presentation

9장. 연관규칙분석과 협업필터링

9장. 연관규칙분석과 협업필터링

세계 비지니스 정보

59

2 ㆍ 大 韓 政 治 學 會 報 ( 第 20輯 1 號 ) 도에서는 고려 말에 주자학을 받아들인 사대부들을 중심으로 보급되기 시작하였고, 이후 조선시대에 들어와서는 국가적인 정책을 통해 민간에까지 보급되면서 주자 성리학의 심 화에 커다란 역할을 담당하였다. 1) 조선시대


고차원에서의 유의성 검정

No Slide Title

취업지원(0222)_인쇄용.hwp

<C0CEC5CDB3DDC1DFB5B6BDC7C5C2C1B6BBE75FC0CEBCE2C5EBC7D5BABB5F E687770>

확률 및 분포

<BFDCB1B9C0CE20C5F5C0DAB1E2BEF7C0C720B3EBBBE7B0FCB0E82E687770>

< BACFC7D1B1B3C0B0C1A4C3A5B5BFC7E228B1E2BCFABAB8B0ED D D20C6EDC1FD2035B1B32E687770>

Tree 기반의 방법


untitled

COVER.HWP

이슈분석 2000 Vol.1

가볍게읽는-내지-1-2

kbs_thesis.hwp


한눈에-아세안 내지-1

시안

2007

기술통계

슬라이드 1


R


제 출 문 국민대통합위원회 위원장 귀하 이 보고서를 연구용역사업 공공갈등의 정치화 경로분석 및 대응방안 연구 과제의 최종보고서로 제출합니다. 2014년 12월 단국대학교 산학협력단장 박 성 완 II

<C5C2BEC8B1BA20BFB5B9AEBDBDB7CEB0C72E687770>

데이터 시각화

Index


<443A5CB1E8BFC144425CBAB8B0EDBCAD5CB4EBC7D0C7F5BDC5B0FAB0E6C0EFB7C228C3D6C1BE295F E2E2E>

LIDAR와 영상 Data Fusion에 의한 건물 자동추출

PowerPoint Presentation

저작자표시 - 비영리 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 이차적저작물을작성할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물

*통신1704_01-도비라및목차1~11

볼리비아-내지-01-1

KAGRO


KAGRO 1-2¿ù

*통신1711_01-도비라및목차1~9

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

통계적 학습(statistical learning)

<C7D0B1B3C7F5BDC520BBE7B7CAB9DFB1BCB0FA20C8AEBBEAC0BB20C0A7C7D120B3D7C6AEBFF720B1B8C3E0B9E6BEC8BFACB1B D30362C20C0CEBCE2BABB292E687770>

13. 다차원척도법 (MultiDimensional Scaling) 13.1 개념및목적 다차원척도법 (mds) 는다차원관측값또는개체들간의거리 (distance) 또는비유사성 (dissimilarity) 을이용하여개체들을원래의차원보다낮은차원 ( 보통 2차원 ) 의공간상에

<B3EDB4DC28B1E8BCAEC7F6292E687770>

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

???? 1

Transcription:

자율학습 박창이 서울시립대학교통계학과 박창이 ( 서울시립대학교통계학과 ) 자율학습 1 / 31

학습내용 주성분분석 (principal component analysis) 군집분석 (clustering) K-평균군집 (K-means clustering) 계층적군집 (hierarchical clustering) 박창이 ( 서울시립대학교통계학과 ) 자율학습 2 / 31

개요 I 자율학습에서는 변수 X1,..., Xp 의 n개의 관측치에서 흥미로운 사실을 발견하는 것을 목표로 함 특히 데이터 시각화나 데이터 전처리에 사용되는 주성분분석과 데이터에서 미지의 부분그룹을 찾고자 하는 군집분석에 대하여 학습 지도학습은 여러 가지 분석법이 잘 구축되어 있고 결과의 평가도 명확한 반면, 자율학습은 흔히 탐색적자료분석의 한 단계로 사용되며 결과의 명확한 평가 기준이 없어 객관적인 평가가 어려움 박창이 (서울시립대학교 통계학과) 자율학습 3 / 31

개요 II 예 100명의유방암환자들의유전자측정값에서환자들의혹은유전자들의부분그룹을찾음온라인쇼핑몰에서유사한구매기록을갖는고객의그룹또는각그룹내의고객이관심있을만한품목을찾음검색엔진에서유사한검색패턴을갖는다른사람들의클릭기록에기반하여특정개인에게보여줄검색결과를선택 박창이 ( 서울시립대학교통계학과 ) 자율학습 4 / 31

주성분분석 I p 가크면 X 1,..., X p 에대하여 ( p 2) 개의산점도를통해변수들의관계를파악하기는어려움. 주성분분석에서는가능한대부분의 정보를포착하는데이터의저차원표현을찾아주어시각화할수있음 주성분을구하는과정 제 1 주성분 : p j=1 φ2 j1 = 1 의조건하에서 Z 1 = φ 11 X 1 + + φ p1 X p 의분산이최대가되는정규화된 (normalized) 계수 (loading) φ 11,..., φ p1 을 찾음 제 j 주성분 : Z 1,..., Z j 1 과상관관계가 0 인 X 1,..., X p 의선형결합들중 가장분산이큰것, j = 2,..., p 박창이 ( 서울시립대학교통계학과 ) 자율학습 5 / 31

주성분분석 II 알고리즘 각변수는평균 0 이라고할때 1 arg max φ 11,...,φ p1 n k = 2,..., p에대하여 n p ( φ j1 x ij ) 2 subject to i=1 j=1 p φ 2 j1 = 1 j=1 1 arg max φ 1k,...,φ pk n n p ( φ jk x ij ) 2 i=1 j=1 p subject to φ 2 jk = 1, j=1 j=1 p φ jl φ jk = 0, l < k 박창이 ( 서울시립대학교통계학과 ) 자율학습 6 / 31

주성분분석 III USArrests 데이터 PC1 PC2 Murder 0.5359-0.4182 Assault 0.5832-0.1880 UrbanPop 0.2782 0.8728 Rape 0.5434 0.1673 PC1 은전반적인범죄율을나타냄 PC2 는도시화정도를나타냄 박창이 ( 서울시립대학교통계학과 ) 자율학습 7 / 31

주성분분석 IV biplot 0.5 0.0 0.5 Second Principal Component 3 2 1 0 1 2 3 UrbanPop Hawaii Rhode Massachusetts Island Utah California New Jersey Connecticut Washington Colorado New York Ohio Illinois Arizona Nevada Wisconsin Minnesota Pennsylvania Oregon Rape Texas Kansas Oklahoma Delaware Nebraska Missouri Iowa Indiana Michigan New Hampshire Florida Idaho Virginia New Mexico Maine Wyoming Maryland rth Dakota Montana Assault South Dakota Tennessee Kentucky Louisiana Arkansas Alabama Alaska Georgia VermontWest Virginia Murder South Carolina North Carolina Mississippi 0.5 0.0 0.5 3 2 1 0 1 2 3 First Principal Component 박창이 ( 서울시립대학교통계학과 ) 자율학습 8 / 31

주성분분석 V 주성분에대한해석 주성분은데이터에가장가까운저차원선형표면을제공함. 가령제 1 주성분은데이터에가장가까운 p 차원직선, 제 2 주성분은데이터에 가장가까운평면을나타냄 첫 M 개의주성분들은데이터에대한 M 차원근사임. 즉, x ij M m=1 z imφ jm (M = min(n 1, p) 이면등호성립 ) 박창이 ( 서울시립대학교통계학과 ) 자율학습 9 / 31

주성분분석 VI First principal component Second principal component 1.0 0.5 0.0 0.5 1.0 1.0 0.5 0.0 0.5 1.0 박창이 ( 서울시립대학교통계학과 ) 자율학습 10 / 31

주성분분석의고려사항 I 변수의표준화 USArrests 데이터에서 Murder, Rape, Assualt는 100,000만명당발생건수이며, UrbanPop은도시지역에사는인구의비율로스케일이다름. 표준화하지않고주성분분석을하면 Assualt 변수의분산이커서 dominate함보통 PCA를적용하기전에표준화를하는데, 변수의측정단위가동일한경우 ( 가령, p개의유전자측정치 ) 에는표준화를하지않을수도있음 박창이 ( 서울시립대학교통계학과 ) 자율학습 11 / 31

주성분분석의고려사항 II Scaled 0.5 0.0 0.5 Unscaled 0.5 0.0 0.5 1.0 Second Principal Component 3 2 1 0 1 2 3 UrbanPop Rape Assault Murder 0.5 0.0 0.5 Second Principal Component 100 50 0 50 100 150 UrbanPop Rape Murder Assau 0.5 0.0 0.5 1.0 3 2 1 0 1 2 3 First Principal Component 100 50 0 50 100 150 First Principal Component 왼쪽 : 표준화된경우, 오른쪽 : 표준화안된경우 박창이 ( 서울시립대학교통계학과 ) 자율학습 12 / 31

주성분분석의고려사항 III 주성분의유일성 Z 의분산과 Z 의분산은동일하므로주성분의계수와점수벡터는 부호를제외하고는유일 계수와점수의곱은항상일정 분산의설명비율 (proportion of variance explained; PVE) m 번째주성분의 PVE: n i=1 ( p j=1 φ jmx ij ) 2 p n j=1 i=1 x ij 2 USArrests 데이터에서제 1 주성분은 62.0%, 제 2 주성분은 24.7% 설명 박창이 ( 서울시립대학교통계학과 ) 자율학습 13 / 31

주성분분석의고려사항 IV 몇개의주성분을사용할것인가? Prop. Variance Explained 0.0 0.2 0.4 0.6 0.8 1.0 Cumulative Prop. Variance Explained 0.0 0.2 0.4 0.6 0.8 1.0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 Principal Component 1.0 1.5 2.0 2.5 3.0 3.5 4.0 Principal Component 박창이 ( 서울시립대학교통계학과 ) 자율학습 14 / 31

군집분석 군집분석은그룹내에서는관측치들이유사하고그룹간에는서로다르도록관측치들을몇개의그룹이나군집으로나누는분석법예유전자관측값에서환자혹은유전자들의군집 market segmentation: 특정형태의광고에반응하거나특정제품을구매할확률이높은사람들에대한군집주요방법 K-평균군집계층적군집 박창이 ( 서울시립대학교통계학과 ) 자율학습 15 / 31

군집분석 : K- 평균군집 I 군집의갯수 K 를사전에지정해야함 C 1,..., C K : K 개의군집에대응되는관측값에대한인덱스집합 C 1 C K = {1,..., n} C k C k =, k k C k 의군집내변동 W (C k ) = 1 C k p i,i C k j=1 여기서 x kj = 1 C k i C k x ij (x ij x i j) 2 = 1 C k i C k j=1 p (x ij x kj ) 2 박창이 ( 서울시립대학교통계학과 ) 자율학습 16 / 31

군집분석 : K- 평균군집 II 최적화 : min K C1,...,C K k=1 W (C k) 알고리즘 1. 각관측값을랜덤하게 K개의군집에배정 2. 군집할당에변화가없을때까지계속 1 각군집에대하여군집의중심 ( 군집내관측치들의평균 ) 을구함 2 각관측치를가장가까운군집의중심에해당하는군집으로할당초기치에따라결과가달라지므로보통여러초기치에대하여가장군집내변동이작은것을선택함 박창이 ( 서울시립대학교통계학과 ) 자율학습 17 / 31

군집분석 : K- 평균군집 III 3- 평균군집단계 Data Step 1 Iteration 1, Step 2a Iteration 1, Step 2b Iteration 2, Step 2a Final Results 박창이 ( 서울시립대학교통계학과 ) 자율학습 18 / 31

군집분석 : K- 평균군집 IV 3- 평균군집결과 (6 회의초기치에대한반복 ) 320.9 235.8 235.8 235.8 235.8 310.9 박창이 ( 서울시립대학교통계학과 ) 자율학습 19 / 31

군집분석 : 계층적군집 I 계층적군집은 dendrogram 형식으로표현할수있음 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 왼쪽 : 완전연결법, 가운데 : 거리 9 에서절단 (2 군집 ), 오른쪽 : 거리 5 에서절단 (3 군집 ) 박창이 ( 서울시립대학교통계학과 ) 자율학습 20 / 31

군집분석 : 계층적군집 II 예시 ( 완전연결법, 유클리드거리 ) 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3 4 1 6 9 2 8 5 7 X2 1.5 1.0 0.5 0.0 0.5 3 4 6 1 9 2 8 5 7 1.5 1.0 0.5 0.0 0.5 1.0 X1 2 는 9 보다 8,5,7 과가까움 박창이 ( 서울시립대학교통계학과 ) 자율학습 21 / 31

군집분석 : 계층적군집 III 높이에따라얻어지는군집간에구조적관계가존재하여계층적군집이라함계층적구조를가정하는것이적합하지않은경우에는부적절가령남녀가 5:5이고미국인, 일본인, 프랑스인이골고루섞여있는집단을생각해보면, 성별로는 2그룹이고국적으로는 3그룹인데이들간에포함 (nest) 관계가없음 박창이 ( 서울시립대학교통계학과 ) 자율학습 22 / 31

군집분석 : 계층적군집 IV 알고리즘 1. n개의관측값각각이하나의군집 2. i = n,..., 2에대하여 1 i개의군집들간의모든쌍별비유사성을구하고최소인군집쌍을찾아서병합 2 i 1개의군집들간의새로운군집간비유사성을구함 박창이 ( 서울시립대학교통계학과 ) 자율학습 23 / 31

군집분석 : 계층적군집 V 군집과정예시 ( 완전연결법, 유클리드거리 ) 9 9 X2 1.5 1.0 0.5 0.0 0.5 3 4 6 1 2 8 5 7 X2 1.5 1.0 0.5 0.0 0.5 3 4 6 1 2 8 5 7 1.5 1.0 0.5 0.0 0.5 1.0 X1 9 1.5 1.0 0.5 0.0 0.5 1.0 X1 9 X2 1.5 1.0 0.5 0.0 0.5 3 4 6 1 2 8 5 7 X2 1.5 1.0 0.5 0.0 0.5 3 4 6 1 2 8 5 7 1.5 1.0 0.5 0.0 0.5 1.0 X1 1.5 1.0 0.5 0.0 0.5 1.0 X1 박창이 ( 서울시립대학교통계학과 ) 자율학습 24 / 31

군집분석 : 계층적군집 VI 연결법 (linkage) 완전 (complete): 군집간의모든쌍에대한비유사성들중최대값을군집간의비유사성으로사용최단 (single): 군집간의모든쌍에대한비유사성들중최소값을군집간의비유사성으로사용평균 (average): 군집간의모든쌍에대한비유사성들의평균값을군집간의비유사성으로사용중심 (centroid): 군집들의중심 ( 가령평균 ) 들간의비유사성을군집간의비유사성으로사용 박창이 ( 서울시립대학교통계학과 ) 자율학습 25 / 31

군집분석 : 계층적군집 VII 연결법예시 ( 유클리드거리 ) Average Linkage Complete Linkage Single Linkage 최단은하나씩연결되며평균과완전연결법이더균형잡힌군집을줌 박창이 ( 서울시립대학교통계학과 ) 자율학습 26 / 31

군집분석 : 계층적군집 VIII 비유사성의측도 예 : 유클리드거리, 상관계수기반의거리, 맨하탄거리등 문제에따라적절한측도가달라짐 ( 예 ) 온라인쇼핑에서추천시스템의경우행은고객, 열은상품을 나타내는행렬형태의데이터를가정. 유클리드거리는자주구매를 하지않는고객들이묶이게되어바람직하지않음. 반면상관계수에 기반한거리는유사한구매패턴을갖는고객을군집으로찾아줌 변수에대한표준화여부도고려해야함 ( 예 ) 자주구매되는상품 ( 양말등 ) 과그렇지않은상품 ( 컴퓨터등 ) 은연간구매수가달라질수있음. 표준화하지않으면자주구매되는상품이군집결과에더많은영향을줌 박창이 ( 서울시립대학교통계학과 ) 자율학습 27 / 31

군집분석 : 계층적군집 IX 유클리드거리와상관계수기반의거리예시 0 5 10 15 20 Observation 1 Observation 2 Observation 3 2 3 1 5 10 15 20 Variable Index 1 과 3 은유클리드거리는작지만상관은약함. 반면 1 과 2 는유클리드 거리는크지만상관은강함 박창이 ( 서울시립대학교통계학과 ) 자율학습 28 / 31

군집분석 : 계층적군집 X 상품의판매량과표준화예시 0 2 4 6 8 10 0.0 0.2 0.4 0.6 0.8 1.0 1.2 0 500 1000 1500 Socks Computers Socks Computers Socks Computers 고객별로색이다름, 왼쪽 : 원구매수, 가운데 : 표준화된구매수, 오른쪽 : 금액 박창이 ( 서울시립대학교통계학과 ) 자율학습 29 / 31

군집분석의고려사항 I 작지만큰영향을주는것들표준화계층적군집에서비유사성의측도, 연결법, dendrogram의절단높이 K-평균군집에서 K값군집의검증군집결과가실제로그런것인지아니면노이즈에의한것인지, 즉, 분석에사용된것과는독립적인관측치를얻었을때그관측치에서도동일한군집을얻을것인가검증하기현실적으로어려움 박창이 ( 서울시립대학교통계학과 ) 자율학습 30 / 31

군집분석의고려사항 II 기타고려사항들이상치의존재여부 K-평균이나계층적군집법과같은 hard한방법으로는알기어렵고혼합모형 (mixture model) 과같은 soft한군집법에서가능데이터를조금바꿔도결과가많이바뀔수있어 robust하지않음하나의데이터에대하여모수를바꿔가며여러가지가능한군집결과를비교할필요가있음. 군집분석은과학적가설이나연구를위한확증적인방법이라기보다는기초적인출발점역할을함 박창이 ( 서울시립대학교통계학과 ) 자율학습 31 / 31