슬라이드 1

Similar documents
CHU 통계교육 Workshop (DAY 7. MDA 군집분석 ) 1. 개념 Individual Directed Technique + 범주 ( 그룹 ) 에대한사전정보가없음 + 다변량측정치를동시에고려하여데이터개체분류 + 개체의유사성 (simila

슬라이드 1

True number of clusters = 3 V V1 2 군집의수선택 2.1 군집내와군집간제곱합이용 군집분석은각군집의평균의차이를크게하고 ( 군집간의변동을크게하고 ) 군집내의변동을작게하는 것이좋다. 군집의개수가늘어날수록커지고



제4395호 편집.hwp


G hwp

2003report hwp

A 한국노동연구원 한국보건사회연구원 1998 년 한국사회과학자료원 2008년 2008년

자율학습

( 단위 : 가수, %) 응답수,,-,,-,,-,,-,, 만원이상 무응답 평균 ( 만원 ) 자녀상태 < 유 자 녀 > 미 취 학 초 등 학 생 중 학 생 고 등 학 생 대 학 생 대 학 원 생 군 복 무 직 장 인 무 직 < 무 자 녀 >,,.,.,.,.,.,.,.,.


671_02.pdf

< B3F3BEEEC3CC20C1F6BFAAC0C720B4D9BEE7C7D120C6AFBCBAC0BB20B9DDBFB5C7D120C0AFC7FCC8AD20B9E6B9FD5FB1E8BCADBFB52E687770>

ps

Microsoft PowerPoint Relations.pptx

빅데이터_DAY key

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

464

ps

【표 1

Microsoft PowerPoint - 26.pptx

???? 1

PowerPoint Presentation

- 2 -

이연구내용은집필자의개인의견이며한국은행의공식견해 와는무관합니다. 따라서본논문의내용을보도하거나인용 할경우에는집필자명을반드시명시하여주시기바랍니다. * 한국은행금융경제연구원거시경제연구실과장 ( 전화 : , *

hwp

ps

열거형 교차형 전개형 상승형 외주형 회전형 도해패턴 계층형 구분형 확산형 합류형 대비형 상관형 (C) 2010, BENESO All Rights Reserved 2

다중 한것은 Mahout 터 닝알 즘몇 를 현 다는것외 들을 현 Hadoop 의 MapReduce 프 워크와결 을 다는것 다. 계산 많은 닝은 컴퓨터의큰메 와연산기 을 만 Mahout 는최대한 MapReduce 기 을활용 터분 다용 졌다.. Mahout 의설 Mahou

춤추는시민을기록하다_최종본 웹용

<C3D6C1BEBFCFBCBA2DBDC4C7B0C0AFC5EBC7D0C8B8C1F D31C8A3292E687770>

02 ORGA ORGANIC MILK ORGA LIFE / 6 글.한정혜 자유기고가 사진.Tone Studio 일러스트.박경연 제주의 맑은 바람과 물, 햇볕을 고스란히 품은 자연의 선물 올가 유기농우유 소의 건강과 소가 먹는 것이 우유의 질을 좌우합니다. 가

<C0CEB1C7C0A7C3D6C1BEBAB8B0EDBCAD28BCF6C1A4BABB E687770>

낙랑군

31


저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

이분산시계열모형을이용한 주가연계증권의군집분석 이 을 으로 함

실사구시학파의 실증적 학풍이 일어나므로 서구적인 과학사상의 유입을 본 것 등이 인식 의 대상이 될 것이다. 그러나 이조 봉건사회 최종의 절대적 왕권주의자 대원군에 의하여 그 싹은 잘리고 말았다. 따라서 다단한 전기가 될 근대적 개방에 의하여 재건하려던 서구적 교육 즉

CC hwp

1. 연도별수출 2. 국가별수출 3. 산업별수출 1. 미국무역정책의변동 2. 최근의미국무역정책 3. 미국무역정책의쟁점 1. 분석목적및개요 2. 데이터 3. 방법론 4. 분석결과 1. 요약 2. 시사점및한계점

allinpdf.com

슬라이드 1

저품질낱장.pdf

13. 다차원척도법 (MultiDimensional Scaling) 13.1 개념및목적 다차원척도법 (mds) 는다차원관측값또는개체들간의거리 (distance) 또는비유사성 (dissimilarity) 을이용하여개체들을원래의차원보다낮은차원 ( 보통 2차원 ) 의공간상에

II. 기존선행연구

......AR...._pdf


South Korea Seoul Yongsan-gu 퇴계로 206 동대입구 South Korea Seoul Yongsan-gu 동호로 189 약수 South Korea Seoul Yongsan-gu 다산로 369 금호 South Korea Seoul Yongsan-gu

Microsoft Word - SPSS_MDA_Ch6.doc

Self-report 를 이용한 운전자 주행 패턴의 정량적 분석

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

목차

< B0B3C0CEC1A4BAB8BAD0C0EFC1B6C1A4BBE7B7CAC1FD2E687770>

' 서울여성취업자수 ' 40~50 대가 20~30 대첫추월 - 1 -

04_손서희_59~75,76.hwp

서론

순서수정- 우정정보 2015년 여름호.hwp

C617

41호-소비자문제연구(최종추가수정0507).hwp

슬라이드 1

Reexamination on the recommended price of National Fitness Award using contingent valuation method Jae-yoon Lee, Hyungil Kwon*, & Ju-hae Baeck Chung-A

PowerPoint 프레젠테이션

상가소리-표지(2016)

- 1 -

PowerPoint 프레젠테이션

Microsoft PowerPoint - o8.pptx


세계 비지니스 정보


자료의 이해 및 분석

년 대한임상건강증진학회 춘계 통합학술대회 정착 초기 단계의 보건의료 문제(1): 감염성 질환 HBsAg (+) : B형 간염 보유자 남한 청소년 남한 2대 15 -B형간염면역상태: 7% HBsAg preva

Microsoft PowerPoint Python-DB

Chap 6: Graphs

holiday webinar 2013 _ Korean webinar order.pptx

C# Programming Guide - Types

Microsoft PowerPoint - bioinfo_09lect12_shpark_microarray.ppt [호환 모드]

빅데이터분산컴퓨팅-5-수정

<3136B9DAB5BFC7F62E687770>

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

歯여성정책포럼.PDF

진천 성지순례단 이집트 폭탄 테러 사고 경과

K-IFRS,. 2013, , 2, 3,.,.. 2

C O N T E N T S 목 차 요약 / 1 Ⅰ. 유럽온라인유통시장현황및진출확대방안 3 1. 유럽개관 Ⅱ. 동유럽국가별온라인유통시장현황및진출확대방안 폴란드 2. 헝가리 3. 체코 4. 오스트리아 5. 크로아티아 6.

한국통계학회논문집 2012, 19 권, 6 호, DOI: Sales Forecasting Model Considering the Local Environment Chul So

PowerPoint 프레젠테이션

DBPIA-NURIMEDIA

<31385FBDC4BBFDC8B02DC8ABBFCFBCF62DBFCFB7E12E687770>


1. Introduction : 모멘텀효과와패턴학습의적용 모멘텀현상은약 1 년여간의가격상승을보인자산이그방향성을단기간 (1~3 개월 ) 동안지속하는것을말한다. 이러한현상이주식, 채권, 커머더티, 환등의거의모든자산에서발생했음을 Moskovitz (2012) 등이조사, 보고

5장 SQL 언어 Part II

제1절 조선시대 이전의 교육

야쿠르트2010 9월재출

PowerPoint Presentation

<3032BFF9C8A35FBABBB9AE5FC7A5C1F6C7D5C4A32E696E6464>

2004math2(c).PDF

<BBE7C8B8C0FBC0C7BBE7BCD2C5EBBFACB1B820C3D6C1BEBAB8B0EDBCAD2E687770>

ISSN 제 3 호 치안정책연구 The Journal of Police Policies ( 제29권제3호 ) 치안정책연구소 POLICE SCIENCE INSTITUTE

Transcription:

빅데이터분석을위한데이터마이닝방법론 SAS Enterprise Miner 활용사례를중심으로 11 주차 군집분석 Cluster Analysis 최종후, 강현철

차례 8.1 군집분석의개념 8.2 k-평균군집방법 (k-means Clustering) 8.3 군집분석의특징과적용상의문제점 8.4 클러스터링 (Clustering) 노드 8.5 세그먼트프로파일링 (Segment Profile) 노드 8.6 SOM/Kohonen 노드 8.7 변수클러스터링 (Variable Clustering) 노드 8.8 연습문제 - 2 -

탐색적데이터분석 Raw Data Set 고객 A 의통화내역 전화번호날짜시작시간종료시간 025732305 04.9.1 19:20:00 19:50:00 025732305 04.9.1 20:15:15 20:20:10 025732305 04.9.1 22:00:35 22:10:13 025732305 04.9.1 22:15:15 22:20:10 025732305 04.9.1 23:00:35 23:10:13 025732305 04.9.30 19:00:35 19:09:40 025732305 04.9.30 19:10:00 19:15:15 025732305 04.9.30 20:12:35 20:22:40 025732305 04.9.30 20:50:00 20:55:15 : 오후 11:00 오후 10:00 오후 09:00 오후 08:00 오후 07:00 오후 06:00 오후 05:00 오후 04:00 오후 03:00 오후 02:00 오후 01:00 오후 12:00 오전 11:00 오전 10:00 오전 09:00 오전 08:00 오전 07:00 오전 06:00 오전 05:00 오전 04:00 오전 03:00 오전 02:00 오전 01:00 오전 12:00 When Are Customers at Home? 월요일화요일수요일목요일금요일토요일일요일 - 3 -

군집 (Cluster) - 4 -

군집분석 (Cluster Analysis) 주어진개체중에서유사한것들을몇몇의집단으로그룹화하여, 각집단의성격을파악함으로서데이터전체의구조에대한이해를돕고자하는탐색적데이터분석방법이다. 특히대용량데이터에대해서는개개의관찰치를요약하는것보다는전체를유사한관찰치들의군집 (cluster) 으로구분하여, 복잡한전체보다는그들을잘대표하는군집들을관찰함으로서전체데이터에대한의미있는정보를얻어낼수있을것이다. 예 소득수준과상표충성도기준으로고객세분화 (Segmentation) High Income 고객군집 A Low 고객군집 B Low Brand loyalty High - 5 -

군집화 (Clustering) 군집화의기준 동일한군집에속한개체 ( 또는개인 ) 는여러속성이유사하고, 서로다른군집에속한관찰치는다른속성을갖도록군집을구성. 군집화를위한변수 전체개체 ( 개인 ) 의속성을판단하기위한기준 예 고객세분화 인구통계적변인 ( 성별, 나이, 거주지, 직업, 소득, 교육, 종교, ) 구매패턴변인 ( 상품, 주기, 거래액, ) 생활패턴변인 ( 라이프스타일, 성격, 취미, 가치관, ) - 6 -

군집분석의활용 : 고객세분화 고객세분화 - 고객이기업의수익에기여하는정도를통한고객세분화 우수고객의인구통계적요인, 생활패턴파악 개별고객에대한맞춤관리 - 고객의구매패턴에따른고객세분화 제품포지셔닝 (Positioning), 목표고객집단구성 - 7 -

고객세분화 예 A 백화점의여성고객 Segment 1: 경제적여유있는전업가정주부 Segment 2: 경제적여유있는전문직종사자 Segment 3: 경제적여유가적은전업가정주부 Segment 4: 경제적여유가적은봉급생활자 Segment 5: 18세이하미성년고객 예 신상품 B 에대한구매의향 Clustering 방법 I Clustering 방법 II Segment 1: 8% 12% Segment 2: 24% 14% Segment 3: 6% 11% Segment 4: 18% 13% Segment 5: 10% 12% - 8 -

예 군집분석 - 1 사례 : Shopping 10개구입품목을기준으로 786명고객을 5개그룹으로구분, 군집별인구통계적특성파악 구매패턴정보각상품의구입여부 (1/0) ٠Ready ( 조리식품 ) ٠Frozen ( 냉동식품 ) ٠Alcohol ( 알콜음료 ) ٠Veget ( 야채 ) ٠Milk ( 우유 ) ٠Bakery ( 제과류 ) ٠Meat ( 육류 ) ٠Toilet ( 욕실용품 ) ٠Snacks ( 과자류 ) ٠Tinned ( 통조림 ) 인구통계변인 ٠Gender 0( 여성 ), 1( 남성 ) ٠Agegrp 1(18~30), 2(31~40), 3(41~50), 4(51~60), 5(61~) ٠Marital 1( 미혼 ), 2( 기혼 ), 3( 별거 ), 4( 사별 ), 5( 이혼 ) ٠Children 0( 무 ), 1( 유 ) ٠Working 0( 무 ), 1( 유 ) - 9 -

예 군집분석 - 1 자료요악 : 전체집단 구매패턴변수 Ready made (0: 51%, 1: 49%) Frozen foods (0: 60%, 1: 40%) Alcohol (0: 61%, 1: 39%) Fresh vegetables (0: 92%, 1: 8%) Milk (0: 81%, 1: 19%) Bakery goods (0: 57%, 1: 43%) Fresh meat (0: 97%, 1: 3%) Toiletries (0: 90%, 1: 10%) Snacks (0: 52%, 1: 48%) Tinned goods (0: 54%, 1: 46%) 인구통계적변수 Gender (Female: 54%, Male: 46%) Age (18-30: 30%, 31-40: 25%, 41-50: 17%, 51-60: 16%, 61+: 12%) Marital (Single:25%, Married:24%, Separated:19%, Widowed:19%, Divorced 13%) Children (No 65%, Yes 35%) Working (No 17%, Yes 83%) - 10 -

예 군집분석 - 1 군집화변수의군집별요약통계량 군집 1 군집 2 군집 3 군집 4 군 집 5 전체 레코드수 (72) (163) (146) (81) (324) (786) Ready made 99% 23% 73% 94% 30% 49% Frozen foods 90% 65% 52% 43% 10% 40% Alcohol 85% 77% 8% 87% 13% 39% Vegetables 13% 13% 5% 20% 4% 8% Milk 64% 13% 13% 56% 5% 19% - 11 -

예 군집분석 - 1 인구통계적변수의군집별요약통계량 군집 1 군집 2 군집 3 군집 4 군집 5 전체 n, 레코드수 (72) (163) (146) (81) (24) (786) 성 : 여자 53% 56% 56% 44% 54% 54% 남자 47% 44% 44% 56% 46% 46% 나이 : 18-30 32% 28% 25% 26% 34% 30% 31-40 22% 26% 21% 27% 26% 25% 41-50 15% 18% 18% 17% 17% 17% 51-60 19% 20% 25% 15% 11% 17% 60+ 11% 9% 12% 15% 12% 12% 혼인 : Single 24% 25% 22% 25% 28% 25% Married 21% 28% 21% 27% 23% 24% Widowed 19% 16% 24% 17% 19% 19% Separated 21% 17% 23% 17% 19% 19% Divorced 15% 15% 10% 16% 11% 13% 자녀 : 없음 93% 64% 64% 80% 57% 65% 있음 7% 36% 36% 20% 43% 35% 직장 : 없음 6% 19% 18% 7% 20% 17% 있음 94% 81% 82% 93% 80% 83% - 12 -

예 군집분석 - 2 사용비율 (%) 0.25 0.20 1 2 3 0.15 0.10 0.05 0.00 월요일화요일수요일목요일금요일토요일일요일 주중증가형신주말증가형주말증가형 ID 군집명개별군집별특성 1 주중증가형주중특히월요일에많은사용을가지는집단 2 신주말증가형 주 5 일제영향을많이받아목, 금, 토사용이높으며, 일요일사용이적은집단 3 주말증가형전형적이며, 전통적인주말집중사용집단 - 13 -

군집분석의절차 문제정의 거리행렬 거리행렬 or 자료행렬? 자료행렬 분석변수의선택 개체간거리의정의 군집화방법의선택 군집간거리의정의 군집의개수결정 군집분석 결과의요약및해석 - 14 -

8.1.1 거리 (Distance): 비유사성의측도 - 15 -

구간형데이터에대한거리 표준화거리 (standardized distance) - 16 -

이항형자료에대한거리 - 17 -

범주형자료에대한유사성및거리 개 체 성 별 학 력 출신지역 A 남자 고졸 경기 B 여자 고졸 전남 C 남자 대졸 경기 거리 (A,B) = 2, 거리 (A,C) = 1, 거리 (B,C) = 3-18 -

8.1.2 군집의유형 상호배반적 (disjoint) 군집 각관찰치가상호배반적인여러군집중, 오직하나에만속함. ( 예 ) 한국인, 중국인, 일본인 1 2 3 4 5 6 7 8 9 계보적 (hierarchical) 군집 한군집이다른군집의내부에포함되는형태로군집간의중복은없으며 군집들이매단계계층적인 ( 나무 ) 구조를이룸. ( 예 ) 전자제품 주방용 냉장고 1 2 3 4 5 6 7 8 9-19 -

덴드로그램 (Dendrogram) - 20 -

군집의유형 중복 (overlapping) 군집 두개이상의군집에한관찰치가동시에소속되는것을허용 1 2 3 4 5 6 7 8 9 퍼지 (fuzzy) 군집 - 관찰치가소속되는특정한군집을표현하는것이아니라각군집에속할 가능성을표현 Prob ( 개체 1 군집 A ) = 0.7 Prob ( 개체 1 군집 B ) = 0.3-21 -

차례 8.1 군집분석의개념 8.2 k-평균군집방법 (k-means Clustering) 8.3 군집분석의특징과적용상의문제점 8.4 클러스터링 (Clustering) 노드 8.5 세그먼트프로파일링 (Segment Profile) 노드 8.6 SOM/Kohonen 노드 8.7 변수클러스터링 (Variable Clustering) 노드 8.8 연습문제 - 22 -

K-평균군집화 (k-means Clustering) 특징 각관찰치를상호배반적인 K개의군집을형성 초기에부적절한병합 ( 분리 ) 이일어났을때회복가능 군집의수 K를사전에정의 대용량자료의경우유용 알고리즘 [ 단계 0] 군집수 K를사전에결정하고각군집중심을임의로설정 [ 단계 1] 각개체를그중심과가장가까운거리에있는군집에할당 [ 단계 2] 각군집별로 [ 단계 1] 을통해할당된개체를이용해군집중심재산출 [ 단계 3] [ 단계 1] 과 [ 단계 2] 의과정을기존중심과새로운중심의차이가 없을때까지반복 - 23 -

8.2.1 k- 평균군집방법의절차 군집의수 K 결정 : K=5 최초군집기준값결정 개체의할당 군집중심재산출 개체의할당 군집중심재산출 ( 반복 ) [ 단계 0] [ 단계 1, 2] [ 단계 3] - 24 -

k- 평균군집방법의절차 - 25 -

8.2.2 초기군집수의결정 - 26 -

k- 평균군집화 (k-means Clustering) 주의점 군집수 K 의사전결정 초기군집중심의설정 특이점 자료가내포한특이한군집구조 - 27 -

차례 8.1 군집분석의개념 8.2 k-평균군집방법 (k-means Clustering) 8.3 군집분석의특징과적용상의문제점 8.4 클러스터링 (Clustering) 노드 8.5 세그먼트프로파일링 (Segment Profile) 노드 8.6 SOM/Kohonen 노드 8.7 변수클러스터링 (Variable Clustering) 노드 8.8 연습문제 - 28 -

군집분석의특징과적용상의문제점 장점 탐색적인기법 다양한형태의데이터에적용가능 분석방법의적용용이성 단점 가중치와거리의정의 초기군집수의설정 결과해석의어려움 - 29 -

차례 8.1 군집분석의개념 8.2 k-평균군집방법 (k-means Clustering) 8.3 군집분석의특징과적용상의문제점 8.4 클러스터링 (Clustering) 노드 8.5 세그먼트프로파일링 (Segment Profile) 노드 8.6 SOM/Kohonen 노드 8.7 변수클러스터링 (Variable Clustering) 노드 8.8 연습문제 - 30 -

군집분석사례를위한다이어그램 클러스터링노드의속성패널 - 31 -

클러스터링 (Clustering) 노드 - 결과 - 32 -

그래프탐색 (Graph Explore) 노드 - 결과 - 33 -

차례 8.1 군집분석의개념 8.2 k-평균군집방법 (k-means Clustering) 8.3 군집분석의특징과적용상의문제점 8.4 클러스터링 (Clustering) 노드 8.5 세그먼트프로파일링 (Segment Profile) 노드 8.6 SOM/Kohonen 노드 8.7 변수클러스터링 (Variable Clustering) 노드 8.8 연습문제 - 34 -

세그먼트프로파일링 (Segment Profile) 노드 - 결과 - 35 -

차례 8.1 군집분석의개념 8.2 k-평균군집방법 (k-means Clustering) 8.3 군집분석의특징과적용상의문제점 8.4 클러스터링 (Clustering) 노드 8.5 세그먼트프로파일링 (Segment Profile) 노드 8.6 SOM/Kohonen 노드 8.7 변수클러스터링 (Variable Clustering) 노드 8.8 연습문제 - 36 -

SOM/Kohonen 노드 - 속성패널 SOM/Kohonen 노드의속성패널 - 37 -

군집분석결과를요약한예 - 38 -

차례 8.1 군집분석의개념 8.2 k-평균군집방법 (k-means Clustering) 8.3 군집분석의특징과적용상의문제점 8.4 클러스터링 (Clustering) 노드 8.5 세그먼트프로파일링 (Segment Profile) 노드 8.6 SOM/Kohonen 노드 8.7 변수클러스터링 (Variable Clustering) 노드 8.8 연습문제 - 39 -

변수클러스터링 (Variable Clustering) 노드 - 속성패널 변수클러스터링노드의속성패널 - 40 -

변수클러스터링 (Variable Clustering) 노드 - 결과 - 41 -

그래프탐색 (Graph Explore) 노드 - 결과 - 42 -

차례 8.1 군집분석의개념 8.2 k-평균군집방법 (k-means Clustering) 8.3 군집분석의특징과적용상의문제점 8.4 클러스터링 (Clustering) 노드 8.5 세그먼트프로파일링 (Segment Profile) 노드 8.6 SOM/Kohonen 노드 8.7 변수클러스터링 (Variable Clustering) 노드 8.8 연습문제 - 43 -

연습문제 8-3 을위한다이어그램 ( 그림 7.18 참조 ) 데이터노드의속성패널 - 44 -