빅데이터분석을위한데이터마이닝방법론 SAS Enterprise Miner 활용사례를중심으로 11 주차 군집분석 Cluster Analysis 최종후, 강현철
차례 8.1 군집분석의개념 8.2 k-평균군집방법 (k-means Clustering) 8.3 군집분석의특징과적용상의문제점 8.4 클러스터링 (Clustering) 노드 8.5 세그먼트프로파일링 (Segment Profile) 노드 8.6 SOM/Kohonen 노드 8.7 변수클러스터링 (Variable Clustering) 노드 8.8 연습문제 - 2 -
탐색적데이터분석 Raw Data Set 고객 A 의통화내역 전화번호날짜시작시간종료시간 025732305 04.9.1 19:20:00 19:50:00 025732305 04.9.1 20:15:15 20:20:10 025732305 04.9.1 22:00:35 22:10:13 025732305 04.9.1 22:15:15 22:20:10 025732305 04.9.1 23:00:35 23:10:13 025732305 04.9.30 19:00:35 19:09:40 025732305 04.9.30 19:10:00 19:15:15 025732305 04.9.30 20:12:35 20:22:40 025732305 04.9.30 20:50:00 20:55:15 : 오후 11:00 오후 10:00 오후 09:00 오후 08:00 오후 07:00 오후 06:00 오후 05:00 오후 04:00 오후 03:00 오후 02:00 오후 01:00 오후 12:00 오전 11:00 오전 10:00 오전 09:00 오전 08:00 오전 07:00 오전 06:00 오전 05:00 오전 04:00 오전 03:00 오전 02:00 오전 01:00 오전 12:00 When Are Customers at Home? 월요일화요일수요일목요일금요일토요일일요일 - 3 -
군집 (Cluster) - 4 -
군집분석 (Cluster Analysis) 주어진개체중에서유사한것들을몇몇의집단으로그룹화하여, 각집단의성격을파악함으로서데이터전체의구조에대한이해를돕고자하는탐색적데이터분석방법이다. 특히대용량데이터에대해서는개개의관찰치를요약하는것보다는전체를유사한관찰치들의군집 (cluster) 으로구분하여, 복잡한전체보다는그들을잘대표하는군집들을관찰함으로서전체데이터에대한의미있는정보를얻어낼수있을것이다. 예 소득수준과상표충성도기준으로고객세분화 (Segmentation) High Income 고객군집 A Low 고객군집 B Low Brand loyalty High - 5 -
군집화 (Clustering) 군집화의기준 동일한군집에속한개체 ( 또는개인 ) 는여러속성이유사하고, 서로다른군집에속한관찰치는다른속성을갖도록군집을구성. 군집화를위한변수 전체개체 ( 개인 ) 의속성을판단하기위한기준 예 고객세분화 인구통계적변인 ( 성별, 나이, 거주지, 직업, 소득, 교육, 종교, ) 구매패턴변인 ( 상품, 주기, 거래액, ) 생활패턴변인 ( 라이프스타일, 성격, 취미, 가치관, ) - 6 -
군집분석의활용 : 고객세분화 고객세분화 - 고객이기업의수익에기여하는정도를통한고객세분화 우수고객의인구통계적요인, 생활패턴파악 개별고객에대한맞춤관리 - 고객의구매패턴에따른고객세분화 제품포지셔닝 (Positioning), 목표고객집단구성 - 7 -
고객세분화 예 A 백화점의여성고객 Segment 1: 경제적여유있는전업가정주부 Segment 2: 경제적여유있는전문직종사자 Segment 3: 경제적여유가적은전업가정주부 Segment 4: 경제적여유가적은봉급생활자 Segment 5: 18세이하미성년고객 예 신상품 B 에대한구매의향 Clustering 방법 I Clustering 방법 II Segment 1: 8% 12% Segment 2: 24% 14% Segment 3: 6% 11% Segment 4: 18% 13% Segment 5: 10% 12% - 8 -
예 군집분석 - 1 사례 : Shopping 10개구입품목을기준으로 786명고객을 5개그룹으로구분, 군집별인구통계적특성파악 구매패턴정보각상품의구입여부 (1/0) ٠Ready ( 조리식품 ) ٠Frozen ( 냉동식품 ) ٠Alcohol ( 알콜음료 ) ٠Veget ( 야채 ) ٠Milk ( 우유 ) ٠Bakery ( 제과류 ) ٠Meat ( 육류 ) ٠Toilet ( 욕실용품 ) ٠Snacks ( 과자류 ) ٠Tinned ( 통조림 ) 인구통계변인 ٠Gender 0( 여성 ), 1( 남성 ) ٠Agegrp 1(18~30), 2(31~40), 3(41~50), 4(51~60), 5(61~) ٠Marital 1( 미혼 ), 2( 기혼 ), 3( 별거 ), 4( 사별 ), 5( 이혼 ) ٠Children 0( 무 ), 1( 유 ) ٠Working 0( 무 ), 1( 유 ) - 9 -
예 군집분석 - 1 자료요악 : 전체집단 구매패턴변수 Ready made (0: 51%, 1: 49%) Frozen foods (0: 60%, 1: 40%) Alcohol (0: 61%, 1: 39%) Fresh vegetables (0: 92%, 1: 8%) Milk (0: 81%, 1: 19%) Bakery goods (0: 57%, 1: 43%) Fresh meat (0: 97%, 1: 3%) Toiletries (0: 90%, 1: 10%) Snacks (0: 52%, 1: 48%) Tinned goods (0: 54%, 1: 46%) 인구통계적변수 Gender (Female: 54%, Male: 46%) Age (18-30: 30%, 31-40: 25%, 41-50: 17%, 51-60: 16%, 61+: 12%) Marital (Single:25%, Married:24%, Separated:19%, Widowed:19%, Divorced 13%) Children (No 65%, Yes 35%) Working (No 17%, Yes 83%) - 10 -
예 군집분석 - 1 군집화변수의군집별요약통계량 군집 1 군집 2 군집 3 군집 4 군 집 5 전체 레코드수 (72) (163) (146) (81) (324) (786) Ready made 99% 23% 73% 94% 30% 49% Frozen foods 90% 65% 52% 43% 10% 40% Alcohol 85% 77% 8% 87% 13% 39% Vegetables 13% 13% 5% 20% 4% 8% Milk 64% 13% 13% 56% 5% 19% - 11 -
예 군집분석 - 1 인구통계적변수의군집별요약통계량 군집 1 군집 2 군집 3 군집 4 군집 5 전체 n, 레코드수 (72) (163) (146) (81) (24) (786) 성 : 여자 53% 56% 56% 44% 54% 54% 남자 47% 44% 44% 56% 46% 46% 나이 : 18-30 32% 28% 25% 26% 34% 30% 31-40 22% 26% 21% 27% 26% 25% 41-50 15% 18% 18% 17% 17% 17% 51-60 19% 20% 25% 15% 11% 17% 60+ 11% 9% 12% 15% 12% 12% 혼인 : Single 24% 25% 22% 25% 28% 25% Married 21% 28% 21% 27% 23% 24% Widowed 19% 16% 24% 17% 19% 19% Separated 21% 17% 23% 17% 19% 19% Divorced 15% 15% 10% 16% 11% 13% 자녀 : 없음 93% 64% 64% 80% 57% 65% 있음 7% 36% 36% 20% 43% 35% 직장 : 없음 6% 19% 18% 7% 20% 17% 있음 94% 81% 82% 93% 80% 83% - 12 -
예 군집분석 - 2 사용비율 (%) 0.25 0.20 1 2 3 0.15 0.10 0.05 0.00 월요일화요일수요일목요일금요일토요일일요일 주중증가형신주말증가형주말증가형 ID 군집명개별군집별특성 1 주중증가형주중특히월요일에많은사용을가지는집단 2 신주말증가형 주 5 일제영향을많이받아목, 금, 토사용이높으며, 일요일사용이적은집단 3 주말증가형전형적이며, 전통적인주말집중사용집단 - 13 -
군집분석의절차 문제정의 거리행렬 거리행렬 or 자료행렬? 자료행렬 분석변수의선택 개체간거리의정의 군집화방법의선택 군집간거리의정의 군집의개수결정 군집분석 결과의요약및해석 - 14 -
8.1.1 거리 (Distance): 비유사성의측도 - 15 -
구간형데이터에대한거리 표준화거리 (standardized distance) - 16 -
이항형자료에대한거리 - 17 -
범주형자료에대한유사성및거리 개 체 성 별 학 력 출신지역 A 남자 고졸 경기 B 여자 고졸 전남 C 남자 대졸 경기 거리 (A,B) = 2, 거리 (A,C) = 1, 거리 (B,C) = 3-18 -
8.1.2 군집의유형 상호배반적 (disjoint) 군집 각관찰치가상호배반적인여러군집중, 오직하나에만속함. ( 예 ) 한국인, 중국인, 일본인 1 2 3 4 5 6 7 8 9 계보적 (hierarchical) 군집 한군집이다른군집의내부에포함되는형태로군집간의중복은없으며 군집들이매단계계층적인 ( 나무 ) 구조를이룸. ( 예 ) 전자제품 주방용 냉장고 1 2 3 4 5 6 7 8 9-19 -
덴드로그램 (Dendrogram) - 20 -
군집의유형 중복 (overlapping) 군집 두개이상의군집에한관찰치가동시에소속되는것을허용 1 2 3 4 5 6 7 8 9 퍼지 (fuzzy) 군집 - 관찰치가소속되는특정한군집을표현하는것이아니라각군집에속할 가능성을표현 Prob ( 개체 1 군집 A ) = 0.7 Prob ( 개체 1 군집 B ) = 0.3-21 -
차례 8.1 군집분석의개념 8.2 k-평균군집방법 (k-means Clustering) 8.3 군집분석의특징과적용상의문제점 8.4 클러스터링 (Clustering) 노드 8.5 세그먼트프로파일링 (Segment Profile) 노드 8.6 SOM/Kohonen 노드 8.7 변수클러스터링 (Variable Clustering) 노드 8.8 연습문제 - 22 -
K-평균군집화 (k-means Clustering) 특징 각관찰치를상호배반적인 K개의군집을형성 초기에부적절한병합 ( 분리 ) 이일어났을때회복가능 군집의수 K를사전에정의 대용량자료의경우유용 알고리즘 [ 단계 0] 군집수 K를사전에결정하고각군집중심을임의로설정 [ 단계 1] 각개체를그중심과가장가까운거리에있는군집에할당 [ 단계 2] 각군집별로 [ 단계 1] 을통해할당된개체를이용해군집중심재산출 [ 단계 3] [ 단계 1] 과 [ 단계 2] 의과정을기존중심과새로운중심의차이가 없을때까지반복 - 23 -
8.2.1 k- 평균군집방법의절차 군집의수 K 결정 : K=5 최초군집기준값결정 개체의할당 군집중심재산출 개체의할당 군집중심재산출 ( 반복 ) [ 단계 0] [ 단계 1, 2] [ 단계 3] - 24 -
k- 평균군집방법의절차 - 25 -
8.2.2 초기군집수의결정 - 26 -
k- 평균군집화 (k-means Clustering) 주의점 군집수 K 의사전결정 초기군집중심의설정 특이점 자료가내포한특이한군집구조 - 27 -
차례 8.1 군집분석의개념 8.2 k-평균군집방법 (k-means Clustering) 8.3 군집분석의특징과적용상의문제점 8.4 클러스터링 (Clustering) 노드 8.5 세그먼트프로파일링 (Segment Profile) 노드 8.6 SOM/Kohonen 노드 8.7 변수클러스터링 (Variable Clustering) 노드 8.8 연습문제 - 28 -
군집분석의특징과적용상의문제점 장점 탐색적인기법 다양한형태의데이터에적용가능 분석방법의적용용이성 단점 가중치와거리의정의 초기군집수의설정 결과해석의어려움 - 29 -
차례 8.1 군집분석의개념 8.2 k-평균군집방법 (k-means Clustering) 8.3 군집분석의특징과적용상의문제점 8.4 클러스터링 (Clustering) 노드 8.5 세그먼트프로파일링 (Segment Profile) 노드 8.6 SOM/Kohonen 노드 8.7 변수클러스터링 (Variable Clustering) 노드 8.8 연습문제 - 30 -
군집분석사례를위한다이어그램 클러스터링노드의속성패널 - 31 -
클러스터링 (Clustering) 노드 - 결과 - 32 -
그래프탐색 (Graph Explore) 노드 - 결과 - 33 -
차례 8.1 군집분석의개념 8.2 k-평균군집방법 (k-means Clustering) 8.3 군집분석의특징과적용상의문제점 8.4 클러스터링 (Clustering) 노드 8.5 세그먼트프로파일링 (Segment Profile) 노드 8.6 SOM/Kohonen 노드 8.7 변수클러스터링 (Variable Clustering) 노드 8.8 연습문제 - 34 -
세그먼트프로파일링 (Segment Profile) 노드 - 결과 - 35 -
차례 8.1 군집분석의개념 8.2 k-평균군집방법 (k-means Clustering) 8.3 군집분석의특징과적용상의문제점 8.4 클러스터링 (Clustering) 노드 8.5 세그먼트프로파일링 (Segment Profile) 노드 8.6 SOM/Kohonen 노드 8.7 변수클러스터링 (Variable Clustering) 노드 8.8 연습문제 - 36 -
SOM/Kohonen 노드 - 속성패널 SOM/Kohonen 노드의속성패널 - 37 -
군집분석결과를요약한예 - 38 -
차례 8.1 군집분석의개념 8.2 k-평균군집방법 (k-means Clustering) 8.3 군집분석의특징과적용상의문제점 8.4 클러스터링 (Clustering) 노드 8.5 세그먼트프로파일링 (Segment Profile) 노드 8.6 SOM/Kohonen 노드 8.7 변수클러스터링 (Variable Clustering) 노드 8.8 연습문제 - 39 -
변수클러스터링 (Variable Clustering) 노드 - 속성패널 변수클러스터링노드의속성패널 - 40 -
변수클러스터링 (Variable Clustering) 노드 - 결과 - 41 -
그래프탐색 (Graph Explore) 노드 - 결과 - 42 -
차례 8.1 군집분석의개념 8.2 k-평균군집방법 (k-means Clustering) 8.3 군집분석의특징과적용상의문제점 8.4 클러스터링 (Clustering) 노드 8.5 세그먼트프로파일링 (Segment Profile) 노드 8.6 SOM/Kohonen 노드 8.7 변수클러스터링 (Variable Clustering) 노드 8.8 연습문제 - 43 -
연습문제 8-3 을위한다이어그램 ( 그림 7.18 참조 ) 데이터노드의속성패널 - 44 -