CHU 통계교육 Workshop (DAY 7. MDA 군집분석 ) 1. 개념 Individual Directed Technique + 범주 ( 그룹 ) 에대한사전정보가없음 + 다변량측정치를동시에고려하여데이터개체분류 + 개체의유사성 (simila

1. 개념 Individual Directed Technique + 범주 ( 그룹 ) 에대한사전정보가없음 + 다변량측정치를동시에고려하여데이터개체분류 + 개체의유사성 (similarity, 거리의반대개념 ) 을측정변수들을이용하여계산 + 유사성이높은개체를군집으로묶어간다. + 개체를집단으로그룹화하여각집단의성격을파악함으로써데이터전체의구조에대한이해를얻는분석기법 군집원칙 + 동일군집에속한개체유사한속성많음 + 다른군집에속하면유사성매우낮음 데이터유형 : 측정변수 : 측정형 ( 등간척도포함 ), 개체의속성을판단하는기준 2. 군집분석목적 유사한성향을가진개체를모아군집을형성 시각적표현 ( 주성분분석이용 ) 을통하여군집간의특성을관찰하거나목표변수와관계를파악 + 개체를동질적속성에의해묶음으로써데이터의구조를파악할수있음 + 데이터의차원을축약하여이용할수있음 + 개체를분류하기위한명확한분류기준이존재하지않거나기준이밝혀지지않은상태에서유용하게이용

3. 군집분석의장ㆍ단점 장점단점 탐색적인기법다양한형태의데이터에적용가능분석방법적용용이가중치와거리정의군집수결정어려움결과해석어려움 주어진자료의내부구조에대한사전정보없이의미있는자료구조를찾아냄유사성 ( 거리 ) 만정의되면모든종류 ( 텍스트데이터 ) 의자료에적용자료의사전정보를필요로하지않아서누구나쉽게분석가중치와거리를어떻게정의하는가에따라군집분석의결과가아주민감하게반응초기군집수의결정이나, 군집개수결정이어려움찾아진군집이무엇을의미하는지데이터만을이용해서는알수가없는경우가많음ㆍ주성분분석을이용하여개체집단표현ㆍ인구학적특성에의해개체특성파악 4. 판별분석과군집분석비교 판별분석 (Discriminant Analysis) 군집분석 (Clustering Analysis) 개체들은이미분류되어있다. 개체들을측정변수에의해분류한다. 분석 초기 판별변수 ( X, X 2,..., X ) 분류변수 1 P 1

목적 새로운개체를분류 개체를잘판별할수있는판별변수선택이관건 위의개체들을분류 개체들의특성을잘나타내는변수들선택이관건 분석 순서 (1) 판별분석방법선택 오분류가적은방법사용 Fisher method ( 판별변수선택방법이용, 유의수준을다소높게설정 ) K Nearest Discriminant Analysis Logistic Regression 판별분석 ( 변수선택방법사용, 유의수준다소높게설정 ) (2) 개체분류경향을파악하기위하여판별변수들에산점도 (by 그룹 ) 를그린다. 판별변수가 2 개이상이면주성분분석을이용하여산점도를그리면된다. (3) 최종적으로구해진판별식에의해새로운개체를 ( ) 분류한다. (1) 개체분류방법을선택한다. Nearest neighbor Furthest neighbor Centroid neighbor Average neighbor Ward s minimum variance (2) 군집의개수를정한다. CCC 2 T Pseudo Hotel ling s Tree Diagram (3) 개체분류가잘되었는지알아보기위하여산점도를그린다. 변수가 3개이상인경우는주성분분석을이용하여산점도그린다. 군집결과는개체분류방법과군집개수에의해결정된다. (4) 각군집에적절한이름을붙인다. 5. 군집분석절차 연구문제확정개체대상및변수확정군집화방법결정 ( 계층적방법, 비계층적방법 ) 연결방법및거리척도결정군집개수결정, 군집해석및결과해석 2

군집화방법 계층적군집 비계층적군집 연결방법 1 Nearest 2 Furthest 3 Centeroid 4 Average 5 Ward's 분할방법 K- 평균군집 (Fast Cluster) 6. Hierarchical 계층적방법 개념 + 데이터를사용하여유사성이가장큰개체끼리순차적으로개체를분류 + 계층군집분석의결과인덴드로그램 (Dendrogram) 을통해개체군집현황과전체군집들간의구조적관계파악 + 군집이름부여, 군집특성파악 : 주성분분석활용 주요원리 + 개체 ( 집단 ) 끼리유사성 (similarity) 측정하여가장유사한개체 ( 혹은집단 ) 끼리순차적으로묶음 + 전체대상을하나의군집으로해서출발하여개체들을분할해나가는방법 : 분할 (Division) 방법 + 개체간유사성정도를측정하는개념필요 : 유사성을거리로정의 + 집단과개체 ( 개체 ) 유사성정의필요 : 연결 (linkage) 방법 유사성개념 + 데이터내속성 ( 변수 ) 면에서개체의유사정도를나타냄 + 군집분석에서는비유사성척도인거리 (distance) 를이용 + 유사성이가까운순서대로개체들을묶어 ( 군집화 ) 가는방법 3

거리의종류 : 개체 i, 개체 k, j=1,2,, p: 군집변수 + 클리드 (Euclidian) ( 제곱 square) 거리 : 최단거리, 가장많이사용 + 맨하탄 (Manhattan) ( 제곱 square) 거리 : 직선이동거리, 이상치비중약해짐 + 피어슨 (Pearson) 거리 : 거리를변수분산으로나누어표준화개념 변수표준화 + 군집변수의단위가다르면 ( 분산의크기다름 ) 단위큰변량이개체거리 ( 유사성 ) 에영향을준다. + 그러므로변량단위통일을위한변량표준화필요 +Pearson 거리는표준화개념이고려됨 Linkage 방법 ( 거리측정방법 ) +Nearest neighbor ( 단일연결 single ) : 두군집의개체중가장가까이있는개체의거리 +Furthest neighbor ( 완전연결 complete) : 두군집개체중가장멀리있는개체의거리 +Centroid neighbor ( 중심연결 ) : 군집의평균간의거리 +Average neighbor ( 평균연결 ) : 한군집의개체와다른군집개체들의각거리평균 +Median neighbor ( 중위수연결 ) : 평균대신거리중위수사용, 이상치의영향적음 +Ward s minimum variance : 군집의평균간거리를각군집의개체개수의역의합으로나눈제곱근을구한거리 어떤방법을사용하는것이좋은가? 4

+Nearest 방법은군집의수가줄어들고이상개체판단에유리 _Furthest 는군집간거리를최소화하는경향이있어개체수가적은군집을얻음 + 가장많이사용하는방법은 Average neighbor 방법 + 여러방법사용하여군집간평균거리, 군집내개체간평균거리가작은군집방법 덴드로그램 + 군집의병합과정및집단간거리를이차원도면을사용하여간략히표현 + 유사성이높은 ( 거리가가까운 ) 순서대로개체를순차적연결 + 덴드로그램에서선의높이는유사성크기를표시 7. 계층적군집분석예제 [ PIZZA.sav] 56 개피자제품에대해수분함유량 (MOIS), 단백질함유량 (PROT), 지방함유량 (FAT), ash 함유량 (ASH), 나트륨함유량 (SODIUM), 탄수화물함유량 (CARB), 탈로리 (CAL) 를조사하였다. 이를이용하여 56 개피자제품을분류하여보자. [Applied Multivariate Methods for Data Analysts, Dallas E. Johnson, 1998] 5

군집의개수 6 개결정 ( 요인점수를저장 ) => 주성분점수임 6

9. Non-hierarchical 비계층적방법 비계층적군집정의 + 군집의중심이되는 seed 점들집합을선택하여그 seed 점과유사성이높은 ( 거리가가까운 ) 개체들을그룹화방법 + 군집의개수를분석전에정해야한다. + 계층적군집, 사전정보, 분석자의결정에의해군집의개수분석전결정 7

군집의중심을결정 + 우선 seed( 군집의중심 ) 를정하고이 seed 에가까운개체들을군집으로묶는다. + 군집이결합되면, 각군집별군집화과정오류를계산한다. + 군집화단계에서오류가발생하면 seed 를조정하고오류를재계산한다. + 군집화의각단계가끝나면서발생하는오류가발생하지않으면군집화를종료한다. 방법 + 군집의중심결정집단내개체평균 : K-means 비계층적방법, Euclidian 거리중심 + 군집의크기결정 : 지름 (radius) 길이 K-평균군집방법 + 사전에결정된군집수 K에기초하여각관측값을군집의중심들중에서가장가까운군집에할당하는방법 + 단계 1 : 군집의수 K를결정 + 단계 2 : 초기 K개군집의중심을랜덤하게선택함 + 단계 3 : 각관측값들을가장가까운중심의군집에할당함 + 단계 4 : 새로운군집에할당된관측값들로새로운중심을계산 + 단계 5: 개체군집변동이없을때까지단계 3, 4를반복한다. 군집화단계 seed 이동예 (k=3) 군집수 K 값결정 계층적분석방법에의해 k 결정 여러 k 사용하여군집간평균거리나군집내개체평균거리를활용하여최적 k 결정 8

11 다차원척도법 MDS (Multi-Dimensional Scaling) 개념 +n 개의개체를 2차원가시적공간에나타내는방법 + 각개체간유사성 (similarity) 혹은거리는저차원으로옮겨지더라도원래유사성크기를갖는다. 유사성개념 + 개체를저차원가시적공간 (2 차원 ) 에나타내려면각개체간거리 ( 유사성 ) 를측정 +MDS 는개체 ( 행 ), 변수 ( 열 ) 모두저차원공간표현가능 개체간유사성측정 (metric 방법 ) +Euclidean distance ( 측정형변수거리 ) + 각개체의유사성 ( 거리 ) 을사람들이리커드척도나순위평가 + 개체 (i, j) 유사성 : 거리개념 S ij 2 2 2 ( xi 1 x j1) ( xi 2 x j2) ( xip x jp) + 유사성을계산하여개체를분류하는면에서는군집분석과유사 + 군집분석은개체를군집화하고, 주성분점수에의해개체를표현하나, MDS 는유사성에의해단지 2차원공간에표현 + 변수유형은개체속성을측정하는변수가군집분석의변량과동일 + 리커트척도, 우선순위 : ( 회사 1, 회사 2, 회사 3, ) 혹은 ( 속성 1, 속성 2, 속성 3, ) (p 2) 일때도유사성 ( 거리 ) 을계산 개체 변수 X 1 X 2 X p 개체 개체 1 2 n 1 x 11 x 12 x 1p 2 x 21 x 22 x 2p n x n1 x n2 x np 1 0 2 S 21 0 0 n S n1 S n2 0 10

(non-metric 방법 ) + 평가자들이개체를주관적으로분류하게하고그로부터얻어지는빈도로부터유사성을측정 + 개체에대한빈도표를이용 +( 상대 ) 빈도 (f ij ) 가개체간유사성 (S ij ) 측정 표현방법 + 각개체간유사성 ( 거리 ) 을측정한다. + 개체의개수가 n개인경우 k=n(n-1)/n 개유사성그룹이존재한다. + 유사성이작은것부터크기순으로배열한다. Si 1 j1 Si2 j2... Sikjk + 이를이용하여개체를 m(= 2) 차원으로공간으로줄일경우개체간의거리를구한다. + 임의의한좌표에한개체를표현하고나머지개체들은상대적유사성을고려하여좌표에표현한다. Stress 값 +2 차원공간으로줄일수있는지를알아보는측정치 +S r 은차원이 2차원으로줄었을때개체의유사성 stress [ i j ( S ij i j S ( S r ij ij ) ) 2 / S ij ] Stress Goodness of fits 20% Poor 10% Fair 5% Good 2.5% Excellent 차원 (dimension) 과위치 (coordination) 의의미 + 아무의미없음 + 개체간유사성은얼마나가까이있나에의해해석됨 11

CITY.SAV 경제적변인에의해도시를군집화하려한다. 도시이름, 12 개직종노동시간가중평균, 물가, 시간당 임금을군집변수로이용하자. 12

( 군집변수가측정단위에차이가있는경우에는 ) 13

상관계수행렬 CITY1.xls 도시간거리를이용한도시다차원척도, 거리대신상관계수행렬을이용할수있음. Non-metric 의경우에는 10 명중몇명이동일그룹으로했는가를이용할수있음. 14

DIY Hotdog.xls 핫도그를성분에의해군집화하자. 군집변수 = (Calories Vitamin) 방법 : 계층적군집분석 => K-means 방법 => 다차원척도법 15