CHU 통계교육 Workshop (DAY 7. MDA 군집분석 ) 1. 개념 Individual Directed Technique + 범주 ( 그룹 ) 에대한사전정보가없음 + 다변량측정치를동시에고려하여데이터개체분류 + 개체의유사성 (simila

Similar documents
슬라이드 1

자율학습

Microsoft PowerPoint - MDA DA pptx

13. 다차원척도법 (MultiDimensional Scaling) 13.1 개념및목적 다차원척도법 (mds) 는다차원관측값또는개체들간의거리 (distance) 또는비유사성 (dissimilarity) 을이용하여개체들을원래의차원보다낮은차원 ( 보통 2차원 ) 의공간상에

True number of clusters = 3 V V1 2 군집의수선택 2.1 군집내와군집간제곱합이용 군집분석은각군집의평균의차이를크게하고 ( 군집간의변동을크게하고 ) 군집내의변동을작게하는 것이좋다. 군집의개수가늘어날수록커지고

PowerPoint Presentation

Microsoft PowerPoint - bioinfo_09lect12_shpark_microarray.ppt [호환 모드]

Microsoft PowerPoint - MDA DA pptx

???? 1

Microsoft Word - SPSS_MDA_Ch6.doc

< B3F3BEEEC3CC20C1F6BFAAC0C720B4D9BEE7C7D120C6AFBCBAC0BB20B9DDBFB5C7D120C0AFC7FCC8AD20B9E6B9FD5FB1E8BCADBFB52E687770>

시스템경영과 구조방정식모형분석

슬라이드 1

statistics

(001~006)개념RPM3-2(부속)

PowerPoint 프레젠테이션

4 장주성분분석 ( PCA: Principal Component Analysis) 예 1 ) 바지구입 - 우리몸의치수모두를알아야하는가? - 변수 : 허리둘레, 기장, 엉덩이둘레, 허벅지둘레, 무릎높이 - 허리둘레, 기장두변수면충분 ( 이것이주성분분석의개념 ) 즉, 원변

Microsoft PowerPoint - 26.pptx

어린이기호식품1회제공량표시-결과보고서-줄임.hwp

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

슬라이드 1

(Microsoft PowerPoint - Ch19_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])


슬라이드 1

Microsoft PowerPoint - SPSS14_모듈별 구성소개

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

슬라이드 1

00. 목차.hwp

Microsoft PowerPoint - IPYYUIHNPGFU

빅데이터_DAY key

Microsoft PowerPoint - chap06-2pointer.ppt

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

PowerPoint 프레젠테이션



1. Introduction : 모멘텀효과와패턴학습의적용 모멘텀현상은약 1 년여간의가격상승을보인자산이그방향성을단기간 (1~3 개월 ) 동안지속하는것을말한다. 이러한현상이주식, 채권, 커머더티, 환등의거의모든자산에서발생했음을 Moskovitz (2012) 등이조사, 보고

Microsoft PowerPoint Relations.pptx

경견완증 인간공학적 분석

Chap 6: Graphs

<B3EDB4DC28B1E8BCAEC7F6292E687770>

1. 연도별수출 2. 국가별수출 3. 산업별수출 1. 미국무역정책의변동 2. 최근의미국무역정책 3. 미국무역정책의쟁점 1. 분석목적및개요 2. 데이터 3. 방법론 4. 분석결과 1. 요약 2. 시사점및한계점

<3136B9DAB5BFC7F62E687770>

수도권과비수도권근로자의임금격차에영향을미치는 집적경제의미시적메커니즘에관한실증연구 I. 서론

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

이분산시계열모형을이용한 주가연계증권의군집분석 이 을 으로 함

자료의 이해 및 분석

슬라이드 1

allinpdf.com

2 출판 만화산업 실태조사 1 Ⅰ. 출판 만화산업 실태조사 3 출판 만화산업 실태조사 1. 콘텐츠업체 실태조사 개요 2. 출판 만화업체 실태조사 분석결과

유량 MODBUS-RTU Protocol UlsoFlow시리즈초음파유량계는 MODBUS-ASCII와 MODBUS-RTU를지원한다. 여기서는 MODBUS-RTU를기준으로설명한다. 유량계의국번은 0 ~ 6,5535 까지지정할수있다. ( 단, 0, 10, 13, 38, 42

,.,,. (Vocational Ethics) (, 1999), Brown(2012). (, 2004).,,,,, ,400 (,,, 2011;, 2006)., (, 2006; Brown, 2012). (harm) (, 2006). NCDA(National


슬라이드 제목 없음

PowerPoint 프레젠테이션

<4D F736F F F696E74202D2035BBF3C6F2C7FC5FBCF8BCF6B9B0C1FA2E BC8A3C8AF20B8F0B5E55D>


저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

C# Programming Guide - Types

이 장에서 사용되는 MATLAB 명령어들은 비교적 복잡하므로 MATLAB 창에서 명령어를 직접 입력하지 않고 확장자가 m 인 text 파일을 작성하여 실행을 한다

Microsoft PowerPoint - e pptx

체의원소를계수로가지는다항식환 Theorem 0.1. ( 나눗셈알고리듬 (Division Algorithm)) F 가체일때 F [x] 의두다항식 f(x) = a 0 + a 1 x + + a n x n, a n 0 F 와 g(x) = b 0 + b 1 x + + b m x

한국통계학회논문집 2012, 19 권, 6 호, DOI: Sales Forecasting Model Considering the Local Environment Chul So

차 례 4

adfasdfasfdasfasfadf

중심경향치 (measure of central tendency) 대표값이란용어이외에자료의중심값또는중심위치의척도 (measure of central location) 라고도함. 예 : 평균 (mean= 산술평균 ; arithmetic mean), 절사평균 (trimmed

학습목차 2.1 다차원배열이란 차원배열의주소와값의참조

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

i

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

쉽게배우는알고리즘 6장. 해시테이블 테이블 Hash Table

ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행

Microsoft Word - Chapter7.doc

<4D F736F F D20B1B8C1B6BFAAC7D0325FB0ADC0C7C0DAB7E15F34C1D6C2F75F76332E646F63>

슬라이드 1

248019_ALIS0052.hwp

윤성우의 열혈 TCP/IP 소켓 프로그래밍

□2004년 사순절 묵상 자료집□

구조체정의 자료형 (data types) 기본자료형 (primitive data types) : char, int, float 등과같이 C 언어에서제공하는자료형. 사용자정의자료형 (user-defined data types) : 다양한자료형을묶어서목적에따라새로운자료형을

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

Chapter 5. Factor Analysis ( 요인분석 ) 5.1 개요 * 변수들의상관관계를이용하여요인 ( 공통개념 ) 을구하고이를이용하여 1) 변수들을분류 2) 그룹에적절한의미를부여 Ex) * 학생들의학교만족도 조교, 행정인력, 강의실, * A 기업지원자 48

(Microsoft PowerPoint - Ch21_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

다중 한것은 Mahout 터 닝알 즘몇 를 현 다는것외 들을 현 Hadoop 의 MapReduce 프 워크와결 을 다는것 다. 계산 많은 닝은 컴퓨터의큰메 와연산기 을 만 Mahout 는최대한 MapReduce 기 을활용 터분 다용 졌다.. Mahout 의설 Mahou

임정연 이영민 1) 주저자, 숙명여자대학교인력개발정책학박사과정, 2) 교신저자, 숙명여자대학교여성 HRD 대학원부교수,

Microsoft PowerPoint - ai-8 기계 학습-I

YBM시사닷컴, 첨단 개인별 맞춤 학습 시스템 개발

MATLAB for C/C++ Programmers

???? 1


PowerPoint Presentation

exp

PPT Template

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Self-report 를 이용한 운전자 주행 패턴의 정량적 분석

목차.PDF

PowerPoint 프레젠테이션

사회통계포럼

Microsoft PowerPoint - chap02-C프로그램시작하기.pptx

Transcription:

1. 개념 Individual Directed Technique + 범주 ( 그룹 ) 에대한사전정보가없음 + 다변량측정치를동시에고려하여데이터개체분류 + 개체의유사성 (similarity, 거리의반대개념 ) 을측정변수들을이용하여계산 + 유사성이높은개체를군집으로묶어간다. + 개체를집단으로그룹화하여각집단의성격을파악함으로써데이터전체의구조에대한이해를얻는분석기법 군집원칙 + 동일군집에속한개체유사한속성많음 + 다른군집에속하면유사성매우낮음 데이터유형 : 측정변수 : 측정형 ( 등간척도포함 ), 개체의속성을판단하는기준 2. 군집분석목적 유사한성향을가진개체를모아군집을형성 시각적표현 ( 주성분분석이용 ) 을통하여군집간의특성을관찰하거나목표변수와관계를파악 + 개체를동질적속성에의해묶음으로써데이터의구조를파악할수있음 + 데이터의차원을축약하여이용할수있음 + 개체를분류하기위한명확한분류기준이존재하지않거나기준이밝혀지지않은상태에서유용하게이용

3. 군집분석의장ㆍ단점 장점단점 탐색적인기법다양한형태의데이터에적용가능분석방법적용용이가중치와거리정의군집수결정어려움결과해석어려움 주어진자료의내부구조에대한사전정보없이의미있는자료구조를찾아냄유사성 ( 거리 ) 만정의되면모든종류 ( 텍스트데이터 ) 의자료에적용자료의사전정보를필요로하지않아서누구나쉽게분석가중치와거리를어떻게정의하는가에따라군집분석의결과가아주민감하게반응초기군집수의결정이나, 군집개수결정이어려움찾아진군집이무엇을의미하는지데이터만을이용해서는알수가없는경우가많음ㆍ주성분분석을이용하여개체집단표현ㆍ인구학적특성에의해개체특성파악 4. 판별분석과군집분석비교 판별분석 (Discriminant Analysis) 군집분석 (Clustering Analysis) 개체들은이미분류되어있다. 개체들을측정변수에의해분류한다. 분석 초기 판별변수 ( X, X 2,..., X ) 분류변수 1 P 1

목적 새로운개체를분류 개체를잘판별할수있는판별변수선택이관건 위의개체들을분류 개체들의특성을잘나타내는변수들선택이관건 분석 순서 (1) 판별분석방법선택 오분류가적은방법사용 Fisher method ( 판별변수선택방법이용, 유의수준을다소높게설정 ) K Nearest Discriminant Analysis Logistic Regression 판별분석 ( 변수선택방법사용, 유의수준다소높게설정 ) (2) 개체분류경향을파악하기위하여판별변수들에산점도 (by 그룹 ) 를그린다. 판별변수가 2 개이상이면주성분분석을이용하여산점도를그리면된다. (3) 최종적으로구해진판별식에의해새로운개체를 ( ) 분류한다. (1) 개체분류방법을선택한다. Nearest neighbor Furthest neighbor Centroid neighbor Average neighbor Ward s minimum variance (2) 군집의개수를정한다. CCC 2 T Pseudo Hotel ling s Tree Diagram (3) 개체분류가잘되었는지알아보기위하여산점도를그린다. 변수가 3개이상인경우는주성분분석을이용하여산점도그린다. 군집결과는개체분류방법과군집개수에의해결정된다. (4) 각군집에적절한이름을붙인다. 5. 군집분석절차 연구문제확정개체대상및변수확정군집화방법결정 ( 계층적방법, 비계층적방법 ) 연결방법및거리척도결정군집개수결정, 군집해석및결과해석 2

군집화방법 계층적군집 비계층적군집 연결방법 1 Nearest 2 Furthest 3 Centeroid 4 Average 5 Ward's 분할방법 K- 평균군집 (Fast Cluster) 6. Hierarchical 계층적방법 개념 + 데이터를사용하여유사성이가장큰개체끼리순차적으로개체를분류 + 계층군집분석의결과인덴드로그램 (Dendrogram) 을통해개체군집현황과전체군집들간의구조적관계파악 + 군집이름부여, 군집특성파악 : 주성분분석활용 주요원리 + 개체 ( 집단 ) 끼리유사성 (similarity) 측정하여가장유사한개체 ( 혹은집단 ) 끼리순차적으로묶음 + 전체대상을하나의군집으로해서출발하여개체들을분할해나가는방법 : 분할 (Division) 방법 + 개체간유사성정도를측정하는개념필요 : 유사성을거리로정의 + 집단과개체 ( 개체 ) 유사성정의필요 : 연결 (linkage) 방법 유사성개념 + 데이터내속성 ( 변수 ) 면에서개체의유사정도를나타냄 + 군집분석에서는비유사성척도인거리 (distance) 를이용 + 유사성이가까운순서대로개체들을묶어 ( 군집화 ) 가는방법 3

거리의종류 : 개체 i, 개체 k, j=1,2,, p: 군집변수 + 클리드 (Euclidian) ( 제곱 square) 거리 : 최단거리, 가장많이사용 + 맨하탄 (Manhattan) ( 제곱 square) 거리 : 직선이동거리, 이상치비중약해짐 + 피어슨 (Pearson) 거리 : 거리를변수분산으로나누어표준화개념 변수표준화 + 군집변수의단위가다르면 ( 분산의크기다름 ) 단위큰변량이개체거리 ( 유사성 ) 에영향을준다. + 그러므로변량단위통일을위한변량표준화필요 +Pearson 거리는표준화개념이고려됨 Linkage 방법 ( 거리측정방법 ) +Nearest neighbor ( 단일연결 single ) : 두군집의개체중가장가까이있는개체의거리 +Furthest neighbor ( 완전연결 complete) : 두군집개체중가장멀리있는개체의거리 +Centroid neighbor ( 중심연결 ) : 군집의평균간의거리 +Average neighbor ( 평균연결 ) : 한군집의개체와다른군집개체들의각거리평균 +Median neighbor ( 중위수연결 ) : 평균대신거리중위수사용, 이상치의영향적음 +Ward s minimum variance : 군집의평균간거리를각군집의개체개수의역의합으로나눈제곱근을구한거리 어떤방법을사용하는것이좋은가? 4

+Nearest 방법은군집의수가줄어들고이상개체판단에유리 _Furthest 는군집간거리를최소화하는경향이있어개체수가적은군집을얻음 + 가장많이사용하는방법은 Average neighbor 방법 + 여러방법사용하여군집간평균거리, 군집내개체간평균거리가작은군집방법 덴드로그램 + 군집의병합과정및집단간거리를이차원도면을사용하여간략히표현 + 유사성이높은 ( 거리가가까운 ) 순서대로개체를순차적연결 + 덴드로그램에서선의높이는유사성크기를표시 7. 계층적군집분석예제 [ PIZZA.sav] 56 개피자제품에대해수분함유량 (MOIS), 단백질함유량 (PROT), 지방함유량 (FAT), ash 함유량 (ASH), 나트륨함유량 (SODIUM), 탄수화물함유량 (CARB), 탈로리 (CAL) 를조사하였다. 이를이용하여 56 개피자제품을분류하여보자. [Applied Multivariate Methods for Data Analysts, Dallas E. Johnson, 1998] 5

군집의개수 6 개결정 ( 요인점수를저장 ) => 주성분점수임 6

9. Non-hierarchical 비계층적방법 비계층적군집정의 + 군집의중심이되는 seed 점들집합을선택하여그 seed 점과유사성이높은 ( 거리가가까운 ) 개체들을그룹화방법 + 군집의개수를분석전에정해야한다. + 계층적군집, 사전정보, 분석자의결정에의해군집의개수분석전결정 7

군집의중심을결정 + 우선 seed( 군집의중심 ) 를정하고이 seed 에가까운개체들을군집으로묶는다. + 군집이결합되면, 각군집별군집화과정오류를계산한다. + 군집화단계에서오류가발생하면 seed 를조정하고오류를재계산한다. + 군집화의각단계가끝나면서발생하는오류가발생하지않으면군집화를종료한다. 방법 + 군집의중심결정집단내개체평균 : K-means 비계층적방법, Euclidian 거리중심 + 군집의크기결정 : 지름 (radius) 길이 K-평균군집방법 + 사전에결정된군집수 K에기초하여각관측값을군집의중심들중에서가장가까운군집에할당하는방법 + 단계 1 : 군집의수 K를결정 + 단계 2 : 초기 K개군집의중심을랜덤하게선택함 + 단계 3 : 각관측값들을가장가까운중심의군집에할당함 + 단계 4 : 새로운군집에할당된관측값들로새로운중심을계산 + 단계 5: 개체군집변동이없을때까지단계 3, 4를반복한다. 군집화단계 seed 이동예 (k=3) 군집수 K 값결정 계층적분석방법에의해 k 결정 여러 k 사용하여군집간평균거리나군집내개체평균거리를활용하여최적 k 결정 8

9

11 다차원척도법 MDS (Multi-Dimensional Scaling) 개념 +n 개의개체를 2차원가시적공간에나타내는방법 + 각개체간유사성 (similarity) 혹은거리는저차원으로옮겨지더라도원래유사성크기를갖는다. 유사성개념 + 개체를저차원가시적공간 (2 차원 ) 에나타내려면각개체간거리 ( 유사성 ) 를측정 +MDS 는개체 ( 행 ), 변수 ( 열 ) 모두저차원공간표현가능 개체간유사성측정 (metric 방법 ) +Euclidean distance ( 측정형변수거리 ) + 각개체의유사성 ( 거리 ) 을사람들이리커드척도나순위평가 + 개체 (i, j) 유사성 : 거리개념 S ij 2 2 2 ( xi 1 x j1) ( xi 2 x j2) ( xip x jp) + 유사성을계산하여개체를분류하는면에서는군집분석과유사 + 군집분석은개체를군집화하고, 주성분점수에의해개체를표현하나, MDS 는유사성에의해단지 2차원공간에표현 + 변수유형은개체속성을측정하는변수가군집분석의변량과동일 + 리커트척도, 우선순위 : ( 회사 1, 회사 2, 회사 3, ) 혹은 ( 속성 1, 속성 2, 속성 3, ) (p 2) 일때도유사성 ( 거리 ) 을계산 개체 변수 X 1 X 2 X p 개체 개체 1 2 n 1 x 11 x 12 x 1p 2 x 21 x 22 x 2p n x n1 x n2 x np 1 0 2 S 21 0 0 n S n1 S n2 0 10

(non-metric 방법 ) + 평가자들이개체를주관적으로분류하게하고그로부터얻어지는빈도로부터유사성을측정 + 개체에대한빈도표를이용 +( 상대 ) 빈도 (f ij ) 가개체간유사성 (S ij ) 측정 표현방법 + 각개체간유사성 ( 거리 ) 을측정한다. + 개체의개수가 n개인경우 k=n(n-1)/n 개유사성그룹이존재한다. + 유사성이작은것부터크기순으로배열한다. Si 1 j1 Si2 j2... Sikjk + 이를이용하여개체를 m(= 2) 차원으로공간으로줄일경우개체간의거리를구한다. + 임의의한좌표에한개체를표현하고나머지개체들은상대적유사성을고려하여좌표에표현한다. Stress 값 +2 차원공간으로줄일수있는지를알아보는측정치 +S r 은차원이 2차원으로줄었을때개체의유사성 stress [ i j ( S ij i j S ( S r ij ij ) ) 2 / S ij ] Stress Goodness of fits 20% Poor 10% Fair 5% Good 2.5% Excellent 차원 (dimension) 과위치 (coordination) 의의미 + 아무의미없음 + 개체간유사성은얼마나가까이있나에의해해석됨 11

CITY.SAV 경제적변인에의해도시를군집화하려한다. 도시이름, 12 개직종노동시간가중평균, 물가, 시간당 임금을군집변수로이용하자. 12

( 군집변수가측정단위에차이가있는경우에는 ) 13

상관계수행렬 CITY1.xls 도시간거리를이용한도시다차원척도, 거리대신상관계수행렬을이용할수있음. Non-metric 의경우에는 10 명중몇명이동일그룹으로했는가를이용할수있음. 14

DIY Hotdog.xls 핫도그를성분에의해군집화하자. 군집변수 = (Calories Vitamin) 방법 : 계층적군집분석 => K-means 방법 => 다차원척도법 15