자율학습 박창이 서울시립대학교통계학과 박창이 ( 서울시립대학교통계학과 ) 자율학습 1 / 31
학습내용 주성분분석 (principal component analysis) 군집분석 (clustering) K-평균군집 (K-means clustering) 계층적군집 (hierarchical clustering) 박창이 ( 서울시립대학교통계학과 ) 자율학습 2 / 31
개요 I 자율학습에서는 변수 X1,..., Xp 의 n개의 관측치에서 흥미로운 사실을 발견하는 것을 목표로 함 특히 데이터 시각화나 데이터 전처리에 사용되는 주성분분석과 데이터에서 미지의 부분그룹을 찾고자 하는 군집분석에 대하여 학습 지도학습은 여러 가지 분석법이 잘 구축되어 있고 결과의 평가도 명확한 반면, 자율학습은 흔히 탐색적자료분석의 한 단계로 사용되며 결과의 명확한 평가 기준이 없어 객관적인 평가가 어려움 박창이 (서울시립대학교 통계학과) 자율학습 3 / 31
개요 II 예 100명의유방암환자들의유전자측정값에서환자들의혹은유전자들의부분그룹을찾음온라인쇼핑몰에서유사한구매기록을갖는고객의그룹또는각그룹내의고객이관심있을만한품목을찾음검색엔진에서유사한검색패턴을갖는다른사람들의클릭기록에기반하여특정개인에게보여줄검색결과를선택 박창이 ( 서울시립대학교통계학과 ) 자율학습 4 / 31
주성분분석 I p 가크면 X 1,..., X p 에대하여 ( p 2) 개의산점도를통해변수들의관계를파악하기는어려움. 주성분분석에서는가능한대부분의 정보를포착하는데이터의저차원표현을찾아주어시각화할수있음 주성분을구하는과정 제 1 주성분 : p j=1 φ2 j1 = 1 의조건하에서 Z 1 = φ 11 X 1 + + φ p1 X p 의분산이최대가되는정규화된 (normalized) 계수 (loading) φ 11,..., φ p1 을 찾음 제 j 주성분 : Z 1,..., Z j 1 과상관관계가 0 인 X 1,..., X p 의선형결합들중 가장분산이큰것, j = 2,..., p 박창이 ( 서울시립대학교통계학과 ) 자율학습 5 / 31
주성분분석 II 알고리즘 각변수는평균 0 이라고할때 1 arg max φ 11,...,φ p1 n k = 2,..., p에대하여 n p ( φ j1 x ij ) 2 subject to i=1 j=1 p φ 2 j1 = 1 j=1 1 arg max φ 1k,...,φ pk n n p ( φ jk x ij ) 2 i=1 j=1 p subject to φ 2 jk = 1, j=1 j=1 p φ jl φ jk = 0, l < k 박창이 ( 서울시립대학교통계학과 ) 자율학습 6 / 31
주성분분석 III USArrests 데이터 PC1 PC2 Murder 0.5359-0.4182 Assault 0.5832-0.1880 UrbanPop 0.2782 0.8728 Rape 0.5434 0.1673 PC1 은전반적인범죄율을나타냄 PC2 는도시화정도를나타냄 박창이 ( 서울시립대학교통계학과 ) 자율학습 7 / 31
주성분분석 IV biplot 0.5 0.0 0.5 Second Principal Component 3 2 1 0 1 2 3 UrbanPop Hawaii Rhode Massachusetts Island Utah California New Jersey Connecticut Washington Colorado New York Ohio Illinois Arizona Nevada Wisconsin Minnesota Pennsylvania Oregon Rape Texas Kansas Oklahoma Delaware Nebraska Missouri Iowa Indiana Michigan New Hampshire Florida Idaho Virginia New Mexico Maine Wyoming Maryland rth Dakota Montana Assault South Dakota Tennessee Kentucky Louisiana Arkansas Alabama Alaska Georgia VermontWest Virginia Murder South Carolina North Carolina Mississippi 0.5 0.0 0.5 3 2 1 0 1 2 3 First Principal Component 박창이 ( 서울시립대학교통계학과 ) 자율학습 8 / 31
주성분분석 V 주성분에대한해석 주성분은데이터에가장가까운저차원선형표면을제공함. 가령제 1 주성분은데이터에가장가까운 p 차원직선, 제 2 주성분은데이터에 가장가까운평면을나타냄 첫 M 개의주성분들은데이터에대한 M 차원근사임. 즉, x ij M m=1 z imφ jm (M = min(n 1, p) 이면등호성립 ) 박창이 ( 서울시립대학교통계학과 ) 자율학습 9 / 31
주성분분석 VI First principal component Second principal component 1.0 0.5 0.0 0.5 1.0 1.0 0.5 0.0 0.5 1.0 박창이 ( 서울시립대학교통계학과 ) 자율학습 10 / 31
주성분분석의고려사항 I 변수의표준화 USArrests 데이터에서 Murder, Rape, Assualt는 100,000만명당발생건수이며, UrbanPop은도시지역에사는인구의비율로스케일이다름. 표준화하지않고주성분분석을하면 Assualt 변수의분산이커서 dominate함보통 PCA를적용하기전에표준화를하는데, 변수의측정단위가동일한경우 ( 가령, p개의유전자측정치 ) 에는표준화를하지않을수도있음 박창이 ( 서울시립대학교통계학과 ) 자율학습 11 / 31
주성분분석의고려사항 II Scaled 0.5 0.0 0.5 Unscaled 0.5 0.0 0.5 1.0 Second Principal Component 3 2 1 0 1 2 3 UrbanPop Rape Assault Murder 0.5 0.0 0.5 Second Principal Component 100 50 0 50 100 150 UrbanPop Rape Murder Assau 0.5 0.0 0.5 1.0 3 2 1 0 1 2 3 First Principal Component 100 50 0 50 100 150 First Principal Component 왼쪽 : 표준화된경우, 오른쪽 : 표준화안된경우 박창이 ( 서울시립대학교통계학과 ) 자율학습 12 / 31
주성분분석의고려사항 III 주성분의유일성 Z 의분산과 Z 의분산은동일하므로주성분의계수와점수벡터는 부호를제외하고는유일 계수와점수의곱은항상일정 분산의설명비율 (proportion of variance explained; PVE) m 번째주성분의 PVE: n i=1 ( p j=1 φ jmx ij ) 2 p n j=1 i=1 x ij 2 USArrests 데이터에서제 1 주성분은 62.0%, 제 2 주성분은 24.7% 설명 박창이 ( 서울시립대학교통계학과 ) 자율학습 13 / 31
주성분분석의고려사항 IV 몇개의주성분을사용할것인가? Prop. Variance Explained 0.0 0.2 0.4 0.6 0.8 1.0 Cumulative Prop. Variance Explained 0.0 0.2 0.4 0.6 0.8 1.0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 Principal Component 1.0 1.5 2.0 2.5 3.0 3.5 4.0 Principal Component 박창이 ( 서울시립대학교통계학과 ) 자율학습 14 / 31
군집분석 군집분석은그룹내에서는관측치들이유사하고그룹간에는서로다르도록관측치들을몇개의그룹이나군집으로나누는분석법예유전자관측값에서환자혹은유전자들의군집 market segmentation: 특정형태의광고에반응하거나특정제품을구매할확률이높은사람들에대한군집주요방법 K-평균군집계층적군집 박창이 ( 서울시립대학교통계학과 ) 자율학습 15 / 31
군집분석 : K- 평균군집 I 군집의갯수 K 를사전에지정해야함 C 1,..., C K : K 개의군집에대응되는관측값에대한인덱스집합 C 1 C K = {1,..., n} C k C k =, k k C k 의군집내변동 W (C k ) = 1 C k p i,i C k j=1 여기서 x kj = 1 C k i C k x ij (x ij x i j) 2 = 1 C k i C k j=1 p (x ij x kj ) 2 박창이 ( 서울시립대학교통계학과 ) 자율학습 16 / 31
군집분석 : K- 평균군집 II 최적화 : min K C1,...,C K k=1 W (C k) 알고리즘 1. 각관측값을랜덤하게 K개의군집에배정 2. 군집할당에변화가없을때까지계속 1 각군집에대하여군집의중심 ( 군집내관측치들의평균 ) 을구함 2 각관측치를가장가까운군집의중심에해당하는군집으로할당초기치에따라결과가달라지므로보통여러초기치에대하여가장군집내변동이작은것을선택함 박창이 ( 서울시립대학교통계학과 ) 자율학습 17 / 31
군집분석 : K- 평균군집 III 3- 평균군집단계 Data Step 1 Iteration 1, Step 2a Iteration 1, Step 2b Iteration 2, Step 2a Final Results 박창이 ( 서울시립대학교통계학과 ) 자율학습 18 / 31
군집분석 : K- 평균군집 IV 3- 평균군집결과 (6 회의초기치에대한반복 ) 320.9 235.8 235.8 235.8 235.8 310.9 박창이 ( 서울시립대학교통계학과 ) 자율학습 19 / 31
군집분석 : 계층적군집 I 계층적군집은 dendrogram 형식으로표현할수있음 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 왼쪽 : 완전연결법, 가운데 : 거리 9 에서절단 (2 군집 ), 오른쪽 : 거리 5 에서절단 (3 군집 ) 박창이 ( 서울시립대학교통계학과 ) 자율학습 20 / 31
군집분석 : 계층적군집 II 예시 ( 완전연결법, 유클리드거리 ) 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3 4 1 6 9 2 8 5 7 X2 1.5 1.0 0.5 0.0 0.5 3 4 6 1 9 2 8 5 7 1.5 1.0 0.5 0.0 0.5 1.0 X1 2 는 9 보다 8,5,7 과가까움 박창이 ( 서울시립대학교통계학과 ) 자율학습 21 / 31
군집분석 : 계층적군집 III 높이에따라얻어지는군집간에구조적관계가존재하여계층적군집이라함계층적구조를가정하는것이적합하지않은경우에는부적절가령남녀가 5:5이고미국인, 일본인, 프랑스인이골고루섞여있는집단을생각해보면, 성별로는 2그룹이고국적으로는 3그룹인데이들간에포함 (nest) 관계가없음 박창이 ( 서울시립대학교통계학과 ) 자율학습 22 / 31
군집분석 : 계층적군집 IV 알고리즘 1. n개의관측값각각이하나의군집 2. i = n,..., 2에대하여 1 i개의군집들간의모든쌍별비유사성을구하고최소인군집쌍을찾아서병합 2 i 1개의군집들간의새로운군집간비유사성을구함 박창이 ( 서울시립대학교통계학과 ) 자율학습 23 / 31
군집분석 : 계층적군집 V 군집과정예시 ( 완전연결법, 유클리드거리 ) 9 9 X2 1.5 1.0 0.5 0.0 0.5 3 4 6 1 2 8 5 7 X2 1.5 1.0 0.5 0.0 0.5 3 4 6 1 2 8 5 7 1.5 1.0 0.5 0.0 0.5 1.0 X1 9 1.5 1.0 0.5 0.0 0.5 1.0 X1 9 X2 1.5 1.0 0.5 0.0 0.5 3 4 6 1 2 8 5 7 X2 1.5 1.0 0.5 0.0 0.5 3 4 6 1 2 8 5 7 1.5 1.0 0.5 0.0 0.5 1.0 X1 1.5 1.0 0.5 0.0 0.5 1.0 X1 박창이 ( 서울시립대학교통계학과 ) 자율학습 24 / 31
군집분석 : 계층적군집 VI 연결법 (linkage) 완전 (complete): 군집간의모든쌍에대한비유사성들중최대값을군집간의비유사성으로사용최단 (single): 군집간의모든쌍에대한비유사성들중최소값을군집간의비유사성으로사용평균 (average): 군집간의모든쌍에대한비유사성들의평균값을군집간의비유사성으로사용중심 (centroid): 군집들의중심 ( 가령평균 ) 들간의비유사성을군집간의비유사성으로사용 박창이 ( 서울시립대학교통계학과 ) 자율학습 25 / 31
군집분석 : 계층적군집 VII 연결법예시 ( 유클리드거리 ) Average Linkage Complete Linkage Single Linkage 최단은하나씩연결되며평균과완전연결법이더균형잡힌군집을줌 박창이 ( 서울시립대학교통계학과 ) 자율학습 26 / 31
군집분석 : 계층적군집 VIII 비유사성의측도 예 : 유클리드거리, 상관계수기반의거리, 맨하탄거리등 문제에따라적절한측도가달라짐 ( 예 ) 온라인쇼핑에서추천시스템의경우행은고객, 열은상품을 나타내는행렬형태의데이터를가정. 유클리드거리는자주구매를 하지않는고객들이묶이게되어바람직하지않음. 반면상관계수에 기반한거리는유사한구매패턴을갖는고객을군집으로찾아줌 변수에대한표준화여부도고려해야함 ( 예 ) 자주구매되는상품 ( 양말등 ) 과그렇지않은상품 ( 컴퓨터등 ) 은연간구매수가달라질수있음. 표준화하지않으면자주구매되는상품이군집결과에더많은영향을줌 박창이 ( 서울시립대학교통계학과 ) 자율학습 27 / 31
군집분석 : 계층적군집 IX 유클리드거리와상관계수기반의거리예시 0 5 10 15 20 Observation 1 Observation 2 Observation 3 2 3 1 5 10 15 20 Variable Index 1 과 3 은유클리드거리는작지만상관은약함. 반면 1 과 2 는유클리드 거리는크지만상관은강함 박창이 ( 서울시립대학교통계학과 ) 자율학습 28 / 31
군집분석 : 계층적군집 X 상품의판매량과표준화예시 0 2 4 6 8 10 0.0 0.2 0.4 0.6 0.8 1.0 1.2 0 500 1000 1500 Socks Computers Socks Computers Socks Computers 고객별로색이다름, 왼쪽 : 원구매수, 가운데 : 표준화된구매수, 오른쪽 : 금액 박창이 ( 서울시립대학교통계학과 ) 자율학습 29 / 31
군집분석의고려사항 I 작지만큰영향을주는것들표준화계층적군집에서비유사성의측도, 연결법, dendrogram의절단높이 K-평균군집에서 K값군집의검증군집결과가실제로그런것인지아니면노이즈에의한것인지, 즉, 분석에사용된것과는독립적인관측치를얻었을때그관측치에서도동일한군집을얻을것인가검증하기현실적으로어려움 박창이 ( 서울시립대학교통계학과 ) 자율학습 30 / 31
군집분석의고려사항 II 기타고려사항들이상치의존재여부 K-평균이나계층적군집법과같은 hard한방법으로는알기어렵고혼합모형 (mixture model) 과같은 soft한군집법에서가능데이터를조금바꿔도결과가많이바뀔수있어 robust하지않음하나의데이터에대하여모수를바꿔가며여러가지가능한군집결과를비교할필요가있음. 군집분석은과학적가설이나연구를위한확증적인방법이라기보다는기초적인출발점역할을함 박창이 ( 서울시립대학교통계학과 ) 자율학습 31 / 31