Clustering with Minitab oft Computing Lab Yonsei Univ.
공공전력사업체분석 데이터다운로드 방법 1. http://sclab.yonsei.ac.kr/dataset.zip 방법 2. http://sclab.yonsei.ac.kr/ -> Courses -> pecial lecture -> 삼성미니탭교육 -> 전체다운로드 FT COMPUTING @ YONEI UNIV. KOREA 1
공공전력사업체분석예제 유사한사업체들을그룹화 군집화해야하는레코드 : 22개의사업체 레코드변수의수 : 8개 규제완화에대한비용효과예측연구등에사용 다양한사업체대한상세한비용예측모형구축의필요성 군집화를통한군집별로대표적사업체를대상으로만모형구축 시간과노력감소 예로매출액 (sales) 와연료비 (fuel cost) 변수를살펴봄 군집화에도움이되는예 FT COMPUTING @ YONEI UNIV. KOREA 2
매출액과연료비변수 데이터셋 Fixed_charge: 고정부채보상배율 ( 수익 / 부채 ) RoR: 투자수익률 Cost: 킬로와트당생산비용 Load_factor: 연간부하량 Demand_growth: 1974 년부터 1975 년까지의최고전력수요량 (kwh) 증가율 (%) ales: 전력판매량 (kwh/ 년 ) Nuclear: 원자력발전의비율 (%) Fuel Cost: 총연료비용 (cents/kwh) FT COMPUTING @ YONEI UNIV. KOREA 3
산점도 매출액과연료비변수 그래프 -> 산점도 ( 단순 )->Y 변수 : 연료비, X 변수 : ales Click FT COMPUTING @ YONEI UNIV. KOREA 4
산점도 매출액과연료비변수 FT COMPUTING @ YONEI UNIV. KOREA 5
매출액과연료비변수 산점도분석 2~3 개의군집이나타나있는것으로보임 높은연료비, 낮은매출액 낮은연료비, 상대적으로낮은매출액 낮은연료비, 높은매출액 FT COMPUTING @ YONEI UNIV. KOREA 6
매출액과연료비변수 군집화알고리즘 개별레코드사이의거리를측정 거리에따라군집들을형성 계층적방법 (Hierarchical methods) 병합또는분할방법 병합방법 : n개의군집들을가지고최종적으로하나의군집이남을때까지병합 분할방법 : 모든레코드를포함하는하나의군집에서나누어짐 분석의목적이군집들을자연적계층구조로정렬할때유용 계층적병합군집화 비계층적방법 (Nonhierarchical methods) 미리군집의수를결정 레코드들을정해진군집에할당 적은계산량 대량의데이터베이스에서유용 K-평균군집화 FT COMPUTING @ YONEI UNIV. KOREA 7
수치형척도의정규화 ( 표준화 ) 거리계산의척도는각변수의단위 (scale) 에영향받음 값이큰변수는총거리에매우큰영향을줌 정규화 ( 측정치 - 평균 )/ 표준편차 계산 -> 표준화 Click Click FT COMPUTING @ YONEI UNIV. KOREA 8
수치형척도의정규화 ( 표준화 ) 정규화전 정규화후 FT COMPUTING @ YONEI UNIV. KOREA 9
정규화된산점도 FT COMPUTING @ YONEI UNIV. KOREA 10
거리측도 두접 ( 레코드 ) 간의거리를계산하는방법 고려해야할사항 무엇이측정되고있는가? 레코드간의어떤관련이있는가? 어떤척도 ( 수치형, 순서형, 명목형 ) 로처리해야하는가? 극단치들이있는가? 유클리드거리척도 큰값에영향을많이받음 ( 정규화필요 ) 측정항목들사이의관계가무시 측정학목들이실제강한상관관계가있다면다른형태의거리척도 ( 통계적거리등 ) 를사용 극단치에민감 FT COMPUTING @ YONEI UNIV. KOREA 11
연결방법 두군집을병합할때군집을연결하는기준 평균거리 : 하나의군집내에있는관측지들과다른군집내에있는관측치들사이의모든가능한거리의평균거리 중심거리 : 두군집의중심간의거리 완전거리 : 가장멀리떨어진두관측치사이의거리 McQuitty: 곧결합할군집과다른군집간거리의평균 중위수 : 한군집의한항목과다른군집의한항목간거리의중위수 단일거리 : 가장가까이에있는두관측치사이의거리 Ward: 연결가능한군집조합중연결된후에군집내제곱합을계산, 최소제곱합을가지는군집의거리연결 FT COMPUTING @ YONEI UNIV. KOREA 12
계층적병합군집화 하나의레코드로구성된군집들로부터모든레코드들로구성된하나의군집만남을때까지가장가까운 2 개의군집들을단계적으로병합 통계분석 -> 다변량분석 -> 관측개체군집분석 : 각각변수들간의그룹화 변수군집분석 : 한변수내에서의그룹화 덴드로그램 군집화과정및결과를나타내는나무형태의도표 아랫부분에레코드가표시 수직선의길이는레코드사이의거리, 유사한레코드들연결 FT COMPUTING @ YONEI UNIV. KOREA 13
단일연결법 ( 관측개체군집분석 ) 통계분석 -> 다변량분석 -> 관측개체군집분석 연결방법 : 단일, 거리측도 : Euclid, 군집수 : 1 FT COMPUTING @ YONEI UNIV. KOREA Click 14
단일연결법 ( 관측개체군집분석 ) 통계분석 -> 다변량분석 -> 관측개체군집분석 저장 FT COMPUTING @ YONEI UNIV. KOREA Click 15
단일연결법 ( 관측개체군집분석 ) 통계분석 -> 다변량분석 -> 관측개체군집분석 저장 -> 소속군집열 : C18 Click FT COMPUTING @ YONEI UNIV. KOREA
단일연결법 ( 관측개체군집분석 ) C18 열에데이터의군집표시 FT COMPUTING @ YONEI UNIV. KOREA 17
단일연결법 ( 관측개체군집분석 ) 단일군집 가장왼쪽군집이단일군집 FT COMPUTING @ YONEI UNIV. KOREA 18
단일연결법 ( 관측개체군집분석 ) 단일군집 가장상위의연결선으로군집화 (2 개의군집 ) 가장왼쪽군집이단일군집 FT COMPUTING @ YONEI UNIV. KOREA 19
단일연결법 ( 관측개체군집분석 ) 단일군집 두번째연결선으로군집화 (3 개의군집 ) FT COMPUTING @ YONEI UNIV. KOREA 20
완전연결법 ( 관측개체군집분석 ) 적절한군집으로나누어짐 가장선호하는방법 FT COMPUTING @ YONEI UNIV. KOREA 21
평균연결법 ( 관측개체군집분석 ) 완전연결보다최초의군집의수가적음 FT COMPUTING @ YONEI UNIV. KOREA 22
군집평가 목적 : 의미있는군집들을산출 군집분석의유용성 군집의설명가능성 군집분석에사용된각변수들에대해각군집의요약통계량 ( 평균값, 최소값, 최대값 ) 을구함 군집분석에서누락된변수가있는지조사 군집에대한이해를기초로각군집에맞는명칭부여 군집의안정성 입력값들이약간달라질때나누어진군집들이유의하게변화하는지조사 데이터를나누어한쪽데이터를사용하여만든군집이나머지데이터에도유사한지확인 분할된데이터집합으로군집분석수행 a집합의군집중심점을이용하여 B의각레코드가속하는군집을결정 B의군집결과가모든데이터를사용하여얻은군집결과와비교하여일관성조사 FT COMPUTING @ YONEI UNIV. KOREA 23
계층적군집화의장단점 장점 군집화가데이터에의해수행 덴드로그램의표현으로설명이쉬움 단점 데이터집합이매우클경우계산횟수가많아짐 단한번의군집화시도, 초기에잘못분배되면재분배불가능 안정성이낮은경향 단일, 완전거리척도가바뀌어도군집분석의결과에변화가적음 평균연결법의척도는완전히다른군집들이형성될수있음 극단치에민감 FT COMPUTING @ YONEI UNIV. KOREA 24
비계층적군집화 (k- 평균군집분석 ) 군집의수를명시 ( 군집의수결정이중요 ) 군집들내부의분산을최소화하여각각의사례를군집들중하나에할당 측정항목을기준으로군집들이가능한한동질성을갖도록사전정의된군집으로표본을나눔 군집내분산측정 군집의중심에서부터관찰치까지의거리의합 유클리드거리의제곱합 정수계획법을포함하는최적화문제 휴리스틱방법 알고리즘 빠르면서만족 최적은아님 k- 평균알고리즘 k 개의초기군집으로시작 가장가까운중심을가진군집에할당 관찰치가빠지거나추가되면군집의중심을재계산 군집사이에관찰치이동이분산을증가시키면군집화중단 FT COMPUTING @ YONEI UNIV. KOREA 25
비계층적군집화 (k- 평균군집분석 ) 통계분석 -> 단변량분석 ->K- 평균군집분석 Click Click FT COMPUTING @ YONEI UNIV. KOREA 26
비계층적군집화 (k- 평균군집분석 ) 결과 ( 표준화전 ), 군집의수 : 6 FT COMPUTING @ YONEI UNIV. KOREA 27
비계층적군집화 (k- 평균군집분석 ) 결과 ( 표준화후 ), 군집의수 : 6 FT COMPUTING @ YONEI UNIV. KOREA 28
아침용시리얼분석 FT COMPUTING @ YONEI UNIV. KOREA 29
예제 : 아침용시리얼 데이터집합 77 개의아침용시리얼제품에대한영양정보, 진열상태, 평가에대한정보 목표 단일연결법과완전연결법비교 의미있는군집도출 어린이를위한시리얼추천 문제 표준화된항목으로유클리드거리를사용하여계층적군집화를적용하시오. 군집화의개수는단일연결법과완전연결법을비교하시오. 군집을분석하세요. 초등학생을위한시리얼세트를추천하시오. 데이터표준화를해야하는가? 데이터의모든변수를사용해야하는가? FT COMPUTING @ YONEI UNIV. KOREA 30
예제 : 아침용시리얼 표준화된항목으로유클리드거리를사용하여계층적군집화를적용하시오. 군집화의개수는단일연결법과완전연결법을비교하시오. 다변량분석 -> 관측개체군집분석 -> 단일, 완전, 군집수 4~6 Click Click FT COMPUTING @ YONEI UNIV. KOREA 31
예제 : 아침용시리얼 연결방법 : 단일, 군집수 : 5 문제 : 파란색과핑크색의군집에 1 개의종류만그룹화되어있음 FT COMPUTING @ YONEI UNIV. KOREA 32
예제 : 아침용시리얼 연결방법 : 완전, 군집화 : 5 FT COMPUTING @ YONEI UNIV. KOREA 33
예제 : 아침용시리얼 연결방법 : 단일, 군집화 : 6 문제 : 파란색과보라색의군집에 1 개의종류만그룹화되어있음 FT COMPUTING @ YONEI UNIV. KOREA 34
예제 : 아침용시리얼 연결방법 : 완전, 군집화 : 6 FT COMPUTING @ YONEI UNIV. KOREA 35
예제 : 아침용시리얼 적절한군집선택 단일연결방식에서는단일군집이도출 완전군집화덴드로그램의관측값들을분석 FT COMPUTING @ YONEI UNIV. KOREA 36
예제 : 아침용시리얼 어른들이선호하는시리얼의그룹 어린이들이선호하는시리얼의그룹 ( 높은설탕비율 ) 군집화된결과를보고미리가지고있던정보 ( 아이들이선호하는시리얼은설탕비율이높다 ) 로추론 37 FT COMPUTING @ YONEI UNIV. KOREA
예제 : 아침용시리얼 초등학생을위한시리얼세트를추천하시오. 데이터표준화를해야하는가? 데이터의모든값을사용해야하는가? 표준화를해야함 각데이터별로측정단위가다를수있기때문에표준화를해주지않으면하나의값이다른값들에비해크기가크거나작을수있다. 예 : mg 으로측정된값과 g 으로측정된값의단위가다르기때문에표준화가필요 데이터의모든값으로군집화할필요는없음 사전정보에의해서어린이에게중요한영향소만을생각해도된다. 예 : 어린이건강에중요한값 (protein, fat, sodium, sugar) FT COMPUTING @ YONEI UNIV. KOREA 38
예제 : 아침용시리얼 통계분석 -> 다변량분석 -> 관측개체군집분석 변수 (protein, fat, sodium, fiber), 완전연결방법, 군집수 3 Click Click FT COMPUTING @ YONEI UNIV. KOREA 39
예제 : 아침용시리얼 군집의중심을보고판단 protein 이높고 fat 이낮으며 fiver 가높은군집 1 을선택 FT COMPUTING @ YONEI UNIV. KOREA 40
예제 : 아침용시리얼 그래프당최대관측개수설정 Click Click 100%_Bran, All-Bran, All-Bran_with_Extra_Fiber 를추천 41 FT COMPUTING @ YONEI UNIV. KOREA
Wine 데이터분석 FT COMPUTING @ YONEI UNIV. KOREA 42
Wine 데이터셋예제 Wine 데이터셋구성 같은지역내에있는세개의다른포도주양조장에서얻은와인의 13 가지성질을포함 Alcohol : 알코올 Malic Acid : 말산 Ash : 물푸레나무 Alkalinity of ash : 물푸레나무의알칼리도 Magnesium : 마그네슘 Total phenols : 총페놀 Flavanoids : 플래버노이즈 Nonflavanoid phenols Proanthocyanins : 프로안토시아닌 Color intensity : 색의강도 Hue : 색상 OD280/OD315 of diluted wines Proline : 프롤린 FT COMPUTING @ YONEI UNIV. KOREA 43
문제 Wine 데이터셋예제 1. Wine 데이터셋을시각화하기위해주성분분석으로 2 개의주성분을찾으시오. ( 주성분분석 : 서로연관이있는변수들의정보들을최대한확보하는적은수의새로운변수들을생성하는방법 ) 2. 1 번에서찾은주성분으로 Wine 데이터셋을 2 차원으로시각화하여데이터의분포를확인하고몇개의군집으로구분할수있을지를논하시오. 3. K- 평균군집분석을이용하여 2 번에서정한군집의개수로군집화하시오. 4. 관측개체군집분석을이용하여 3 번에서수행한군집의개수와비교하시오. 5. 군집된클러스터의속성을비교하시오. FT COMPUTING @ YONEI UNIV. KOREA 44
Wine 데이터셋예제 1 번풀이 ( 계속 ) Wine 데이터셋불러오기 미니탭상단의메뉴에서 [ 파일 ]->[ 워크시트열기 ] 클릭후 Wine.xls 열기 미니탭상단의메뉴에서 [ 통계분석 ]->[ 다변량분석 ]->[ 주성분분석 ] 클릭 변수란에왼쪽에변수들을모두클릭하고 선택 버튼클릭 FT COMPUTING @ YONEI UNIV. KOREA 45
1 번풀이 ( 계속 ) Wine 데이터셋예제 계산할성분수에 2 입력 행렬유형 : 상관계수 저장 버튼클릭 점수란에 C15, C 입력후확인 FT COMPUTING @ YONEI UNIV. KOREA 46
1 번풀이 Wine 데이터셋예제 워크시트에주성분 1(PC1) 은 C15 열에주성분 2(PC2) 는 C 열에저장된것확인 FT COMPUTING @ YONEI UNIV. KOREA 47
Wine 데이터셋예제 2 번풀이 ( 계속 ) [ 그래프 ]->[ 산점도 ] 클릭 단순 선택후 확인 버튼클릭 X 변수, Y 변수에 PCA 의결과로얻은주성분각각을선택후 확인 버튼클릭 주성분 2 주성분 1 FT COMPUTING @ YONEI UNIV. KOREA 48
Wine 데이터셋예제 2 번풀이 주성분 PC1 와 PC2 로데이터셋을시각화 2~3 개의군집으로그룹화하는것이적절함 FT COMPUTING @ YONEI UNIV. KOREA 49
Wine 데이터셋예제 3 번풀이 ( 계속 ) [ 통계분석 ]->[ 다변량분석 ]->[K- 평균군집분석 ] 클릭 군집수 란에 2 입력, 변수표준화체크박스선택 저장버튼클릭 소속군집열 란에 c17 입력후확인버튼클릭 FT COMPUTING @ YONEI UNIV. KOREA 50
3 번풀이 ( 계속 ) Wine 데이터셋예제 미니탭화면에워크시트 C15 컬럼에군집화결과가저장됨 FT COMPUTING @ YONEI UNIV. KOREA 51
Wine 데이터셋예제 3 번풀이 ( 계속 ) 산점도그래프를이용하여클러스터링의결과를시각화 [ 그래프 ]->[ 산점도 ] 클릭 그룹 표시선택후 확인 버튼클릭 산점도그리는나머지설정은이전과동일 결과그래프에서임의의점을선택후마우스오른쪽버튼클릭및 기호편집 클릭 FT COMPUTING @ YONEI UNIV. KOREA 52
Wine 데이터셋예제 3 번풀이 기호편집 에서 [ 그룹 ] 탭을클릭후 C17 선택및 확인 버튼클릭 클러스터링의결과를산점도로확인 FT COMPUTING @ YONEI UNIV. KOREA 53
Wine 데이터셋예제 4 번풀이 ( 계속 ) 상단메뉴에서 [ 통계분석 ]->[ 다변량분석 ]->[ 관측개체군집분석 ] 클릭 연결방법은 완전, 변수표준화체크박스클릭, 군집수 4 FT COMPUTING @ YONEI UNIV. KOREA 54
4 번풀이 Wine 데이터셋예제 유사성수준의차이는 3 개의군집이최종분할로충분함을나타냄 FT COMPUTING @ YONEI UNIV. KOREA 55
Wine 데이터셋예제 5 번풀이 ( 계속 ) 군집된클러스터의각성분비교를위해데이터표준화 상위메뉴의 [ 계산 ]->[ 표준화 ] 클릭 FT COMPUTING @ YONEI UNIV. KOREA 56
Wine 데이터셋예제 5 번풀이 ( 계속 ) C18-C30 에표준화결과저장 워크시트의변수이름복사 FT COMPUTING @ YONEI UNIV. KOREA 57
5 번풀이 ( 계속 ) Wine 데이터셋예제 막대차트생성 : [ 그래프 ]->[ 막대차트 ] 메뉴클릭 FT COMPUTING @ YONEI UNIV. KOREA 58
5 번풀이 ( 계속 ) Wine 데이터셋예제 함수를 평균 으로, 그래프변수를 표준화된변수들 로, 그룹화범주형변수에 Cluster 로설정후 확인 버튼클릭 FT COMPUTING @ YONEI UNIV. KOREA 59
Wine 데이터셋예제 5 번풀이 결과해석 e.g. 군집 1 의알코올성분이군집 2 의알코올성분보다평균 15 정도더많음 FT COMPUTING @ YONEI UNIV. KOREA 60
Wine 데이터셋예제 추가문제 거리측도를변경하여군집화를수행하고비교하시오. Euclid, Manhattan, Pearson, Euclid 제곱, Pearson 제곱 FT COMPUTING @ YONEI UNIV. KOREA 61
IRI 데이터분석 FT COMPUTING @ YONEI UNIV. KOREA 62
Iris 데이터셋예제 Iris 데이터셋구성 3 가지붓꽃을분류하기위한데이터셋 (etosa, Versicolour, Virginica) epal length (cm 단위 ) : 꽃받침의길이 epal width (cm 단위 ) : 꽃받침의너비 Petal length (cm 단위 ) : 꽃잎의길이 Petal width (cm 단위 ) : 꽃잎의너비 pecies : 꽃의종류 (setosa / versicolor / virginica) FT COMPUTING @ YONEI UNIV. KOREA 63
문제 Iris 데이터셋예제 1. Iris 데이터셋을시각화하시오. ( 필요하면주성분분석을수행하시오 ) 2. 관측개체군집분석과 K- 평균군집분석을이용하여군집화하고결과를비교하시오. FT COMPUTING @ YONEI UNIV. KOREA 64
1 번답 Iris 데이터셋예제 1. Iris 데이터셋을시각화하시오. ( 필요하면주성분분석을수행하시오 ) FT COMPUTING @ YONEI UNIV. KOREA 65
2 번답 Iris 데이터셋예제 2. 관측개체군집분석과 K- 평균군집분석을이용하여군집화하고결과를비교하시오. FT COMPUTING @ YONEI UNIV. KOREA 66
Boston House 분석 FT COMPUTING @ YONEI UNIV. KOREA 67
BostonHousing 데이터셋예제 BostonHousing 데이터셋구성 보스턴시의주택가격에대한데이터셋 CRIM : 자치시 (town) 별 1 인당범죄율 ZN : 25,000 평방피트를초과하는거주지역의비율 INDU : 비소매상업지역이점유하고있는토지의비율 CHA : 찰스강에대한더미변수 ( 강의경계는 1, 아니면 0) NOX : 10ppm 당농축일산화질소 RM : 주택 1 가구당평균방의개수 AGE : 1940 년이전에건축된소유주택의비율 DI : 5 개의보스턴직업센터까지의접근성지수 RAD : 방사형도로까지의접근성지수 TAX : 10,000 달러당재산세율 PTRATIO : 자치시별학생 / 교사비율 B : 1000(Bk-0.63)^2 (Bk 는자치시별흑인의비율 ) LTAT : 모집단의하위계층의비율 (%) MEDV : 본인소유의주택가격 ( 중앙값 ) ( 단위 : $1,000) FT COMPUTING @ YONEI UNIV. KOREA 68
문제 BostonHousing 데이터셋예제 1. BostonHousing 데이터셋의 RM 컬럼과 MEDV 컬럼을이용해시각화하시오. 2. K- 평균군집분석을이용하여 RM 컬럼과 MEDV 컬럼으로전체데이터셋을군집화하시오. 3. 2 번의결과를관측개체군집분석을수행하여비교하시오. 4. 관측개체군집분석의거리측도를 Manhattan 과 Pearson 으로변경하고군집수를 4 로설정하여군집화하시오. FT COMPUTING @ YONEI UNIV. KOREA 69
1 번답 BostonHousing 데이터셋예제 1. BostonHousing 데이터셋의 RM 컬럼과 MEDV 컬럼을이용해시각화하시오. FT COMPUTING @ YONEI UNIV. KOREA 70
2 번답 BostonHousing 데이터셋예제 2. K- 평균군집분석을이용하여 RM 컬럼과 MEDV 컬럼으로전체데이터셋을군집화하시오. FT COMPUTING @ YONEI UNIV. KOREA 71
3 번답 BostonHousing 데이터셋예제 3. 2 번의결과를관측개체군집분석을수행하여비교하시오. FT COMPUTING @ YONEI UNIV. KOREA 72
4 번답 BostonHousing 데이터셋예제 4. 관측개체군집분석의거리측도를변경하고군집수를 4 로설정하여군집화하시오. Manhattan 거리 Pearson 거리 FT COMPUTING @ YONEI UNIV. KOREA 73
곰데이터셋분석 FT COMPUTING @ YONEI UNIV. KOREA 74
곰데이터셋 곰.mtw 워크시트열기 : 143 마리의곰데이터 전체길이, 머리길이 전체무게, 머리무게 목둘레, 가슴둘레 목표 : 143 마리의곰을소, 중, 대크기의곰으로분류 제한조건 : 2 번째, 78 번째, 15 번째의곰이각각이세범주의전형이라는것을알고있다. (1= 소, 2= 중, 3= 대 ) K- 평균군집분석을수행하고, 곰의크기라는열을만들어소속군집을저장하시오. FT COMPUTING @ YONEI UNIV. KOREA 75
초기분할열만들기 FT COMPUTING @ YONEI UNIV. KOREA 76
초기분할열만들기 열의이름지정 모든값을 0 으로채워줍니다. 전체데이터의개수만큼 제한조건을따르기위해데이터에값을입력합니다. 2 번째 =1, 78 번째 =2, 15 번째 =3 FT COMPUTING @ YONEI UNIV. KOREA 77
K- 평균군집분석 ㅋ FT COMPUTING @ YONEI UNIV. KOREA 78
K- 평균군집분석 FT COMPUTING @ YONEI UNIV. KOREA 79
K- 평균군집분석 FT COMPUTING @ YONEI UNIV. KOREA 80
무게 - 가슴둘레사이그래프에서군집화결과 FT COMPUTING @ YONEI UNIV. KOREA 81
무게 - 가슴둘레사이그래프에서군집화결과 FT COMPUTING @ YONEI UNIV. KOREA 82
주성분분석을이용한값에대한크기분석 곰의크기 1: 전형적인곰의상태를알고있음. 곰의크기 2: 전형적인상태를모르는상태에서의군집화 FT COMPUTING @ YONEI UNIV. KOREA 83
관측개체군집결과 1 FT COMPUTING @ YONEI UNIV. KOREA 84
관측개체군집결과 2 FT COMPUTING @ YONEI UNIV. KOREA 85
K- 평균 vs 관측개체군집 FT COMPUTING @ YONEI UNIV. KOREA 86
휴대전화통화분석 FT COMPUTING @ YONEI UNIV. KOREA 87
Telco-CAT 통신회사자료 (2001 년 ) 변수설명 신원및인구정보 : ID 번호, 성, 나이 계좌기록 : Churn( 이탈여부 ), Tariff( 요금제 ), Tariff_OK( 요금제의적절성여부 ) 등 통화정보 : Peak( 주간통화 ), Off-Peak( 야간통화 ), Weekend( 주말통화 ) 관련통화횟수및통화시간, International( 국제통화 ) 통화시간등 FT COMPUTING @ YONEI UNIV. KOREA 88
문제 1. 고객의통화관련행태 (Behavior) 를분석할것이다. 열복사를이용하여워크시트를다음의 8 가지변수를사용하여구성하시오. Customer_ID( 사용자 ID), Peak_calls_um ( 주간총통화횟수 ) AvePeak ( 주간평균통화시간 ( 분 ), 통화 1 건당 ) OffPeak_calls_um ( 야간총통화횟수 ) AveOffPeak ( 야간평균통화시간 ( 분 ), 통화 1 건당 ) Weekend_calls_um ( 주말총통화횟수 ) AveWeekend( 주말평균통화시간 ( 분 ), 통화 1 건당 ) International_min_um ( 국제통화총통화시간 ( 분 )) 2. 데이터셋의결측값들을찾고평균값을이용하여대치하시오. (AvePeak, AveOffPeak, AveWeekend 열만수정 ) 3. 시각화를위하여 2 개의주성분을찾으시오. 4. K-means 클러스터링을사용하여 2 개의군집으로그룹화하고의미를추론하시오.( 막대차트를이용 ) 5. K-means 클러스터링을사용하여 3, 4 개의군집으로나누어결과를비교하고의미를추론하시오. ( 막대차트를이용 ) 89 FT COMPUTING @ YONEI UNIV. KOREA
결측치처리기준 결측치가 10% 이하일경우 해당표본을제거 대치법을사용 단순회귀분석을사용 결측치가 10~20% 인경우 Hot deck cast substitution Regression Model-based methods 결측치가 20% 이상인경우 Egression Model-based method FT COMPUTING @ YONEI UNIV. KOREA 90
결측치확인방법 1 시계열도를이용 2 1 FT COMPUTING @ YONEI UNIV. KOREA 91
결측치확인방법 1 1 2 3 FT COMPUTING @ YONEI UNIV. KOREA 92
그래프결과 결측치 FT COMPUTING @ YONEI UNIV. KOREA 93
결측치확인방법 2 열통계량이용 결과 ( 세션창 ) International_mins_um에서의총관측치수 = 3237 비결측값수 = 3196 결측값수 = 41 FT COMPUTING @ YONEI UNIV. KOREA 94
결측치대치 평균값을이용 해당열선택 -> 바꾸기 International_mins_um 의평균 = 8.799 FT COMPUTING @ YONEI UNIV. KOREA 95
결측치대치 값입력후모두바꾸기 결과 FT COMPUTING @ YONEI UNIV. KOREA 96
문제 1. 고객의통화관련행태 (Behavior) 를분석할것이다. 열복사를이용하여워크시트를다음의 8 가지변수를사용하여구성하시오.( 열복사이용 ) Customer_ID( 사용자 ID) Peak_calls_um ( 주간총통화횟수 ) AvePeak ( 주간평균통화시간 ( 분 ), 통화 1 건당 ) OffPeak_calls_um ( 야간총통화횟수 ) AveOffPeak ( 야간평균통화시간 ( 분 ), 통화 1 건당 ) Weekend_calls_um ( 주말총통화횟수 ) AveWeekend( 주말평균통화시간 ( 분 ), 통화 1 건당 ) International_min_um ( 국제통화총통화시간 ( 분 )) 2. 데이터셋의결측값들을찾고평균값을이용하여대치하시오. 3. 시각화를위하여 2 개의주성분을찾으시오. 4. K-means 클러스터링을사용하여 2 개의군집으로그룹화하고의미를추론하시오.( 막대차트를이용 ) 5. K-means 클러스터링을사용하여 3, 4 개의군집으로나누어결과를비교하고의미를추론하시오. ( 막대차트를이용 ) FT COMPUTING @ YONEI UNIV. KOREA 97
해설 1, 2 총 8 가지변수의워크시트 FT COMPUTING @ YONEI UNIV. KOREA 98
해설 3 결과 FT COMPUTING @ YONEI UNIV. KOREA 99
해설 3 막대차트 FT COMPUTING @ YONEI UNIV. KOREA 100
해설 4, 5 군집화결과 FT COMPUTING @ YONEI UNIV. KOREA 101
해설 4, 5 막대차트 FT COMPUTING @ YONEI UNIV. KOREA 102