통계청 통계분석연구 제 4 권제 1 호 (99. 봄 ) 61-83 데이터마이닝의사결정나무의응용 최종후 * 서두성 ** 본논문의목적은최근국내에서활발하게논의되고있는데이터마이닝의주요한도구인의사결정나무를정리, 소개하는데에있다. 본논문에서는 1997에실시된체 15대대통령선거예측조사자료를이용한무응답의분류및예측문제와개인휴대통신의해지자분석에이를적용한결과를보인다. 끝으로효율적통계조사를위한전략수립에의사결정나무활용가능성을검토한다. < 차례 > 1. 서론 3. 개인휴대통신해지자분석 1.1 의사결정나무의소개 3.1 개요 1.2 의사결정나무의알고리즘 3.2 의사결정나무결과 3.3 고객점수화 2. 선거예측조사무응답의분류및예측 4. 토의 2.1 개요 2.2 의사결정나무결과 2.3 선거예측결과 * 고려대학교정보통계학과부교수, jchoi@tiger.korea.ac.kr ** 고려대학교정보통계학과석사과정
통계분석연구 제 4 권제 1 호 (99. 봄 ) 62 1. 서론 1.1 의사결정나무의소개 의사결정나무는의사결정규칙 (decision rule) 을도표화하여관심대상이되는집단을몇개의소집단으로분류 (classification) 하거나예측 (prediction) 을수행하는분석방법이다. 분석과정이나무구조에의해서표현되기때문에판별분석 (Discriminant Analysis), 회귀분석 (Regression Analysis), 신경망 (Neural Networks) 등과같은방법들에비해연구자가분석과정을쉽게이해하고설명할수있다는장점을가지고있다. 의사결정나무는분류또는예측을목적으로하는어떤경우에도사용될수있으나분석의정확도보다는분석과정의설명이필요한경우에더유용하게사용된다. 의사결정나무분석이활용될수있는응용분야는다음과같다.( 최종후외 :1998) 세분화 (Segmentation) : 관측개체를비슷한특성을갖는몇개의그룹으로분할하여각그룹별특성을발견하고자하는경우 분류 (Classification) : 여러예측변수 (predicated variable) 에근거하여목표변수 (target variable) 의범주를몇개의등급으로분류하고자하는경우 예측 (Prediction) : 자료로부터규칙을찾아내고이를이용하여미래의사건을예측하고자하는경우 차원축소및변수선택 (Data reduction and variable screening) : 매우많은수의예측변수중에서목표변수에큰영향을미치는변수들을골라내고자하는경우 교호작용효과의파악 (Interaction effect identification) : 여러개의예측변수들이결합하여목표변수에작용하는교호작용을파악하고자하
데이터마이닝의사결정나무의응용 63 는경우 범주의 병합 또는 연속형 변수의 이산화 (Category merging and discretizing continuous variable) : 범주형목표변수의범주를소수의 몇개로병합하거나, 연속형목표변수를몇개의등급으로범주화하 고자하는경우 일반적으로의사결정나무분석은다음과같은단계를거친다 (Berry and Linoff:1997; 강현철, 서두성, 최종후 :1998) 의사결정나무의형성 : 분석의목적과자료구조에따라서적절한분리기준 (split criterion) 과정지규칙 (stopping rule) 을지정하여의사결정나무를얻는다. 가지치기 : 분류오류 (classification error) 를크게할위험 (risk) 이높거나부적절한규칙을가지고있는가지 (branch) 를제거한다. 타당성평가 : 이익도표 (gains chart) 나위험도표 (risk chart) 또는검정용자료 (test data) 에의한교차타당성 (cross validation) 등을이용하여의사결정나무를평가한다. 해석및예측 : 의사결정나무를해석하고분류및예측모형을설정한다. 이상과같은과정에서정지기준, 분리기준, 평가기준등을어떻게지정하느냐에따라서서로다른의사결정나무가형성된다. 1.2 의사결정나무의알고리즘 1.2.1 CHAID 알고리즘 CHAID(Chi-squared Automatic Interaction Detection : Kass(1980)) 는카이제곱검정 ( 범주형목표변수 ) 또는 F-검정 ( 연속형목표변수 ) 을이용하여다지분리 (multiway split) 를수행하는알고리즘이다.
통계분석연구 제 4 권제 1 호 (99. 봄 ) 64 CHAID 알고리즘은목표변수가범주형일때, Pearson의카이제곱통계량또는우도비카이제곱통계량 (likelihood ratio Chi-square statistic) 을분리기준으로사용한다. 여기서목표변수가순서형또는사전그룹화된연속형인경우에는우도비카이제콥통계량이사용된다. 카이제곱통계량은관측도수 ( fij ) 로이루어진 r c 분할표로부터계산된다. 분할표의구조는 < 표 1.1> 과같다. < 표 1.1> 분할표의구조 목표변수설명변수 범주 1 범주 2 범주 c 합계 범주 1 f 11 f 12 f lc f 1. 범주 2 f 21 f 22 f 2c f 2. 범주 r f rl f r2 f rc f r. 합계 f. 1 f. 2 f. c f.. < 표 1.1> 의분할표로부터, Person 의카이제곱통계량은 x 2 = i, j (f ij - e ij ) 2 e ij
데이터마이닝의사결정나무의응용 65 과같이정의되고, 우도비카이제곱통계량은 x 2 =2 i, j f i, j log e ( f ij e ij ) 으로정의된다. 이때두통계량의자유도 (degree of freedom) 는 ( r-1)( c -1) 로서동일하다. 여기서 e ij 는분포의동일성또는독립성의가설하에 서계산된기대도수 (expected frequency) 를말하며, 아래에주어진식 e ij = f i f j f.. 과같이계산된다. 카이제곱통계량이자유도에비해서매우작다는것은예측변수의각범주에따른목표변수의분포가서로동일하다는것을의미한다. 따라서예측변수가목표변수의분류에영향을주지않는다고결론지을수있다. 자유도에대한카이제곱통계량값의크고작음은 P-값으로표현될수있는데, 카이제곱통계량값이자유도에비해서작으면 P-값은커지게된다. 결국분리기준을카이제곱통계량값으로한다는것은 P-값이가장작은예측변수와그때의최적분리에의해서자식마디를형성시킨다는것을의미한다. 1.2.2. CART 알고리즘 CART(Classification and Regression Trees, Breiman et al.(1984)) 는지니지수 ( 범주형목표변수인경우적용 ) 또는분산의감소량 ( 연속형목표변수인경우적용 ) 을이용하여이지분리 (,binary split) 를수행하는알고리즘이다 (Quinlan, 1993). 지니지수 (Gini Index) 는불순도 (impurity) 를측정하는하나의지수이다. 임의의한개체가목표변수의 i 번째범주로부터추출되었고, 그개체를
통계분석연구 제 4 권제 1 호 (99. 봄 ) 66 목표변수의 j 번째범주에속한다고오분류 (misclassification) 할확률은 P( i)p( j) 가된다. 여기에서 P( i) 는각마디에서한개체가목표변수의 I 번째범주에속할확률이다. 이러한오분류확률은모두더하여 G = c P(i)P(j) j =1 i j 를얻을수있고, 이는위와같은분류규칙하에서오분류확률의추정치가된다. 여기서 c는목표변수의범주의수를말한다. 일반적으로 CART는범주형목표변수에대해서는지니지수를분리기준으로사용한다. 지니지수는각마디에서의불순도또는다양도 (diversity) 를재는측도중의하나로써 G = c P(j)(1-P(j)) = 1- c j=1 j =1 P(j) 2 = 1- c j=1 (n j /n) 2 와같이표현될수있다. 여기에서 n은그마디에포함되어있는관찰치수를말하고, n i 는목표변수의 i번째범주에속하는관찰치수를말한다. 지니지수는 n개의원소중에서임의로 2개를추출하였을때, 추출된 2 개가서로다른그룹에속해있을확률을의미하며 Simpson의다양도지수 (diversity index) 로도알려져있다. 목표변수의범주가 2개인경우에는지니지수는다음과같이표현될수있으며, G = 2P(1)P(2) = 2( n 1 n )( n 2 n ) 이는카이제곱통계량을사용하는것과같은결과를갖는다. CART 알고리즘은지니지수를가장감소시켜주는예측변수와그변수
데이터마이닝의사결정나무의응용 67 의최적분리를자식마디로선택하는데, 지니계수의감소량은다음과같이계산된다. Δ G = G- n L n G L- n R n G R. 여기서 n은부모마디의관측치수를말하고, n R 과 n L 는각각자식마디의관측치수를의미한다. 즉, 자식마디로분리되었을때의불순도가가장작도록자식마디를형성하는것이다. 이는다음과같은자식마디에서의불순도가중합을최소화하는것과동일하다. P(L) G L + P(R) G R = n L n G L + n R n G R. 2. 선거예측조사무응답의분류및예측 2.1 개요 선거예측조사에서흔히발생하는문제로서지지후보에대한유권자의무응답현상을들수있다. 선거에임박한예측조사에서무응답이다수발생하는경우이러한무응답층에대한분석은선거예측조사의성패의관건이된다. 2장에서는 CHAID 알고리즘을이용하여선거자료에서흔히발생하는무응답자의패턴을분류하고이들의지지후보를예측한다,. 2.1.1 자료설명 다음자료는리서치앤리서치社가 1997 년제 15 대대통령선거를앞두고
통계분석연구 제 4 권제 1 호 (99. 봄 ) 68 각후보의지지율조사를위해실시한전화조사에의해얻어졌다 1). 이중 투표유무 라는항목에대해 반드시투표할것이다, 아마투표할것이다 라고답한응답자에대해서만분석을시도하였는데이러한유효응답의수는총 979개이다. < 표 2.1> 은분석에사용되는변수에대한설명이다. < 표 2.1> 분석에사용된변수 변수이름 형태 변수값 거주지역 명목형 서울, 부산, 인천, 대구, 광주, 대전, 울산, 경기, 강원, 충북, 충남, 전북, 전남, 경북, 경남, 제주 나이 명목형 20대이하, 30대, 40대, 50대, 60대이상 성별 명목형 남자, 여자 투표유무 순서형 반드시투표할것이다, 아마투표할것이다아마투표하지않을것이다, 전혀투표할생각이없다. 지지후보 명목형 이회창, 김대중, 이인제, 기타후보, 무응답 지지정당 명목형 한나라당, 국민회의, 국민신당, 자민련 학력 순서형 국졸이하, 중졸, 고졸, 대재이상 직업 명목형 농 / 임 / 어업, 자영업, 판매 / 서비스직, 기능 / 숙련공, 일반작업직, 사무 / 기술직, 경영 / 관리직, 전문 / 자유직, 주부, 학생, 무직, 기타 월소득 순서형 70만원이하, 71~100만원, 101~150만원, 151~200만원, 201~250만원, 251~300만원, 301만원이상 원적지 명목형 서울, 부산, 인천, 대구, 광주, 대전, 울산, 경기, 강원, 충북, 충남, 전북, 전남, 경북, 경남, 제주. 2.1.2 분석과정각후보의지지율을계산하는과정은다음과같다. 단계 1 : 먼저전체자료를변수 지지후보 에대해범주 무응답 인관측치들 ( 이하무응답층 ) 과그렇지않은관측치, 즉 지지후보 변수에대해응답한관측치들 ( 이하응답층 ) 로나눈다. 단계 2 : 응답층으로부터나무구조모형을구축한다. 1) 리서치앤리서치社는이자료를연구용으로공개한바있다.
데이터마이닝의사결정나무의응용 69 단계 3 : 구축된모형을무응답층에적용하고, 이를통해 지지후보 의범주별지지율을계산한다. 단계 4 : 응답층의실제지지율과단계 3에서얻은무응답층의비율을더하여전체지지율을예측한다. 2.2 의사결정나무결과 < 그림2.1> 은의사결정나무알고리즘을이용한다중나무구조 (Multi-Tree Structure) 의분류결과이다. 총 9개의최종마디로이루어진나무가형성되었다. 맨위에있는뿌리마디는 690개의관측치로, 지지후보에대한비율은각각 33.91%, 41.16%, 22.61%, 2.32% 로나타나고있음을볼수있다. < 그림 2.1> 지지후보에대한의사결정나무모형 지지후보를결정하는데제일중요한변수로는지지정당이며, 다음으로는소득및성으로구분된다.
통계분석연구 제 4 권제 1 호 (99. 봄 ) 70 < 그림 2.2> 의사결정나무마디의번호 의사결정나무에서이익도표 (gains chart) 는범주형목표변수 (target variable) 의특정범주가각마디에서획득한백분율을나타낸다. < 표 2.2>~< 표 2.4> 는각후보들의지지성향을보기위한이익도표이다. < 표 > 에나타나는통계량은다음과같다. Node : 마디의번호 Node(n) : 개체의수 Node(%) : ( 개체의수 )/( 전체개수의수 ) Resp(n) : 목표범주의개체의수 Resp(%) : ( 목표범주의개체의수 )/( 전체에서목표범주의개체의수 ) Gain(%) : ( 목표범주의개체의수 )/( 개체의수 ) Index(%) : ( 목표범주의비율 )/( 전체목표범주의비율 ) < 표 2.2>~< 표 2.4> 는각후보들의이익지수와관련된값들을정리한표이다. < 표 2.2> 이회창후보의이익도표
데이터마이닝의사결정나무의응용 71 Node Node: n Node: % Resp: n Resp: % Gain (%) Index (%) 1 140 20.29 128 54.70 91.42 269.59 13 69 10.00 41 17.52 59.42 175.21 12 51 7.39 22 9.40 43.13 127.19 10 106 15.36 33 14.10 31.13 91.79 8 108 15.65 9 3.85 8.33 24.57 7 39 5.65 1 0.43 2.56 7.56 3 91 13.19 0 0.00 0.00 0.00 6 44 6.38 0 0.00 0.00 0.00 5 42 6.09 0 0.00 0.00 0.00 이회창후보의경우 Gain이가장높은마디가마디 1임을알수있다. < 그림 2.2> 에서볼수있듯이마디 1은지지정당이 한나라당 임을알수있다. 다음으로높은 Gain을획득한마디는 13으로지지정당이 자민련 이거나 모름 / 무응답 인범주중에서성별이 여자 이면서소득이 150-300만원 임을알수있다. 마디 1의 Index< 표 2.3> 김대중후보의이익도표는 269.59이므로이는전국에서획득한지지율인 33.91% 보다마디 1에해당하는집단에대해서 2.69배나높은지지율을얻었다는것을보여준다. < 표 2.3> 김대중후보의이익도표 Node Node: n Node: % Resp: n Resp:(%) Gain (%) Index (%) 5 42 6.09 42 14.79 100.00 242.96 3 91 13.19 91 32.04 100.00 242.96 7 39 5.65 35 12.32 89.74 218.04 6 44 6.38 39 13.73 88.64 215.35 10 106 15.36 36 12.68 33.96 82.51 13 69 10.00 17 5.99 24.64 59.86 12 51 7.39 8 2.82 15.69 38.11 8 108 15.65 11 3.87 10.19 24.75 1 140 20.29 5 1.76 3.57 8.68 김대중후보의경우 Gain이가장높은마디가마디 5와 3임을알수있다. 마디 5는지지정당이 국민회의 이면서소득이 150-250만원 이면서성
통계분석연구 제 4 권제 1 호 (99. 봄 ) 72 별이 남자 임을알수있으며, 마디 3은지지정당이 국민회의 이면서소득이 70-150만원 임을알수있다. 마디 5와 3의 Index는 242.96으로이는전국에서획득한지지율인 41.16% 보다마디 5와 3에해당하는집단에대행서 2.42배나높은지지율을얻었다는것을보여준다. < 표 2.4> 이인제후보의이익도표 Node Node: n Node: % Resp: n Resp: % Gain (%) Index(%) 8 108 15.65 86 55.13 79.63 352.21 12 51 7.39 19 12.18 7.25 164.78 10 106 15.36 28 17.95 26.42 116.84 13 69 10.00 10 6.41 14.49 64.10 6 44 6.38 5 3.21 11.36 50.26 1 140 20.29 7 4.49 5.00 22.12 7 39 5.65 1 0.64 2.56 11.24 3 91 13.19 0 0.00 0.00 0.00 5 42 6.09 0 0.00 0.00 0.00 이인제후보의경우 Gain이가장높은마디가마디 8임을알수있다. 마디 8은지지정당이 국민신당 임을알수있다. 다음으로높은 Gain을획득한마디는 12로지지정당이 자민련 이거나 모름 / 무응답 인범주중에서성별이 여자 이면서소득이 70-150만원 임을알수있다. 마디 8의 Index는 352.21이므로이는전국에서획득한지지율인 22.61% 보다마디 8 에해당하는집단에대해서 3.52배나높은지지율을얻었다는것을보여준다. < 표 2.5> 는의사결정나무모형의오분류테이블이다.
데이터마이닝의사결정나무의응용 73 < 표 2.5> 오분류테이블 실제결과 이회창 김대중 이인제 기타후보 total 이회창 191 30 36 3 260 김대중 34 243 34 11 322 예측결과 이인제 9 11 86 2 108 기타후보 0 0 0 0 0 total 234 284 156 16 690 Risk Estimate 0.246377 SE of Risk Estimate 0.016404 전체적인오분류율은약 24.6% 정도이며, 이에대한표준오차는 0.016 이다. 2.3 선거예측결과 이제까지응답층에대한지지후보의의사결정나무모형을구축하였다. 이렇게구축된나무모형결과를무응답층 ( 관찰치 289개 ) 에적용하여얻은예측빈도가 < 표 2.6> 이다 < 표 2.6> 무응답층의예측빈도 무응답층 예측빈도 이회창 김대중 이인제 기타후보 전 체 147 123 19 0 289 (50.9) (42.6) (6.6) (0) (100) < 표 2.7> 은응답층의실제빈도와무응답층의예측빈도를더해서지지율의추정치를얻은표이다. < 표 2.7> 지지후보에대한전체추정치
통계분석연구 제 4 권제 1 호 (99. 봄 ) 74 응답층의실제빈도무응답층예측빈도전체추정치 이회창 김대중 이인제 기타후보 전체 234 284 156 16 690 (33.9) (41.2) (22.6) (2.3) (100) 147 123 19 0 289 (50.9) (42.6) (6.6) (0) (100) 381 407 175 16 979 (38.92) (41.57) (17.87) (1.63) (100) 실제결과 (38.7) (40.3) (19.2) (1.8) (100) 지금까지의사결정나무알고리즘을이용하여응답층의나무구조를해석하고응답층에대한나무구조를이용하여무응답층의판별과분류를실시하였다. 선거무응답층의지지후보예측에관한기존의연구는주로판별분석에의존해왔다 ( 박무익, 1998) 2). 그런데이경우판별변수가되는인구속성변수들은주로범주형변수이기때문에판별분석에서요구되는가정 (assumption) 충족에서문제가발생한다.( 예컨대정규상의가정 ) 전술한이익도표는각후보의지지패턴분석이나선거운동전략에유용하게이용되리라생각된다. 3. 개인휴대통신해지자분석 3.1 개요 3장에서는개인휴대통신고객의해지특성이어떤가입자속성변인에의존하는지에대한해지패턴을분석하고해지가능성에대한점수화 2) 한국갤럽은 1997 년실시된 15 대대통령선거의선거예측조사에서무응답층의분석을위 하여판별분석을적용한바있는데이때고려했던판별변수는성, 연령, 교육수준, 원 적이었다.
데이터마이닝의사결정나무의응용 75 (scoring) 를시도한다. 고객의해지패턴을알아보기위하여의사결정나무 (decision tree) 분석을이용하였으며, 해지가능성에대한점수화는로지스틱회귀모형 (Logistic Regression Model) 을이용한다. 고객 DB(Data Base) 를이용한고객세분화 (segment) 로이동통신가입고객의해지특성이어떠한패턴을이루고있는지를알아보기위하여의사결정나무분석을실시하였다. 이러한분석은고객해지율 (defection rate) 을감소시키는고객유지마케팅 (retention marking) 의일환으로이용될수있다. 분석에사용된자료는이동통신회사의서울지역고객DB를이용하여랜텀추출로 2,500개의표본을획득한것이다. 분석표본의해지율은 13.2% 이다. 목표변수로는해지여부이며기타고객속성변수가설명변수이다. 변수의내용은 < 표 3.1> 과같다. < 표 3.1> 분석에사용된변수 변수명범주 해지여부 정상사용 / 일반해지 고객계정상태 개통사용중 / 최종청구 / 정상해지 없음 /1만5천원미만/1만5천원~2만7천원미만/2만7천원~4만원미만/ 최근 4 개월간 사용료 4 만원 ~5 만원천원미만 /5 만 5 천원 ~7 만 1 천원미만 /7 만 1 천원 ~9 만 2 천 원미만 /9 만 2 천원 ~11 만 8 천원미만 /11 만 8 천원 ~15 만 7 천원미만 /15 만 7 천원~2 2만8천원미만 /22만8천원이상 최근 1년간미납여부 없음 / 있음 납입방법 자동이체 / 카드이체 / 지로납부 / 중앙불 가입경력 6개월미만 /6~10개월/11~12개월/13개월/14~18개월/19~22개월/ 23~26개월 /27~33개월/34~46개월/47개월이상 디지털유무 아날로그 / 디지탈 총불만건수 없음 /1번/2번/3번이상 요금계획 일반요금 / 비지니스 / 일반요금 (VMS)/ 예치요금 / 예치요금 (VMS)/ 프리미엄 / 프리미엄 (VMS)/ 이코노미 / 이코노미 (VMS) 성별 남자 / 여자 연령 10대 /20대/30대/40대/50대/60대/70대이상
통계분석연구 제 4 권제 1 호 (99. 봄 ) 76 3.2 의사결정나무결과 의사결정나무분석의타당성을위하여자료를분석용자료 (training data) 와타당성평가용자료 (valication data) 로나누어분석하였다. < 그림 3.1> 해지유무에대한의사결정나무 3) < 그림 3.1> 은의사결정나무모형의다중나무구조의분류결과이다. 총 8 개의최종마디로이루어진나무구조가형성되었다. 맨위에있는뿌리마 3) 각마디의분석결과에서왼쪽은분석용자료에대한값이고, 오른쪽은타당성평가용 자료에대한값이다.
데이터마이닝의사결정나무의응용 77 디 (root node) 에서분석용자료와타당성평가용자료의해지율이각각 13.1%, 13.3% 로나타나고있다. 가입고객의해지를결정하는제일중요한변수로는고객계정상태이며, 두번째로는최근 4개월간사용료, 세번째로는가입경력과납입방법으로구분된다. 이중가입고객의고객계정상태가 최종청구 / 정상해지 인경우에해지율이 83.8%( 분석용 ),88.4%( 타당성평가용 ) 로높아짐을볼수있으며, 다음으로가입고객이고객계정상태가 개통사용중 이면서최근 4개월간사용료가 22만 8천원이상 인경우해지율이 22.4%, 22.0% 로높아짐을볼수있다. 특히, 가입고객의고객계정상태가 개통사용중 이면서최근 4개월간사용료가 22만 8천원이상 이면서가입경력이 13개월미만 의경우해지율이 42.4%( 분석용 ), 42.9%( 타당성평가용 ) 로높아짐을볼수있다. < 표 3.2> 의사결정나무분석의오분류테이블 예측일반해지정상 계 실제 일반해지 126 204 5.04% 8.16% 330 정상 22 2148 0.88% 85.92% 2170 계 148 2352 2500 Error rate=0.0904, Accuracy=0.9096 Sensitivity=0.3818, Specificity=0.9899 < 표 3.2> 는의사결정나무분석의오분류테이블이다. 오분류율 (error rate) 과정확도 (accurany) 가각각 0.0904, 0.9096으로잘분류되어진것같으나민감도 (sensitivity) 4) 가 0.3818로떨어짐을볼수가있다. 4) 민감도는관심을둔사건을제대로예측할확률이다. 이경우에는해지가관심있는사 건이므로일반해지를일반해지로예측한확률이다. 여기서는 126/330.
통계분석연구 제 4 권제 1 호 (99. 봄 ) 78 3.3 고객점수화 개인휴대통신고개의해지가능성점수를사전에예측할수있는모형을구축하기위하여로지스틱회귀모형을이용한다. 로지스틱회귀분석은목표분석가명목척도로측정되어있는경우에목표변수와설명변수간의관계를분석하기위하여적용되는통계기법의하나이다. 로지스틱회귀분석의사용은판별분석을사용하는것과마찬가지로두집단으로구분된개체에대해각개체가속하는집단을예측하거나, 집단의구분에서는어느설명변수가중요한지를알아내는데사용된다. 일반적으로설명변수의수가 p, 목적변수 Y가 1 혹은 2인로지스틱회귀모형은다음과같다.( 허명회 :1995). log P(Y =1 x 1,,x p ) P(Y =2 X 1,,x p ) = β 0 +β 1 x 1 + +β p x p 또는 P(Y =1 x 1,,x p )= exp ( β 0 + β 1 x 1 + +β p x p ) 1+exp(β 0 + β 1 x 1 + +β p x p ) < 그림 3.1> 의의사결정나무에서해지율이 13.2% 보다높은마디에해당하는가지로, 고객계정상태가 최종청구 / 정상해지 이거나고객계정상태가 개통사용중 이면서사용료가 22만 8천원이상 인자료 ( 관찰치 400개 ) 만을이용하여로지스틱회귀모형을구축한다. 단계적로지스틱회귀모형 (Stepwise Logistic Regression Model) 로선택되어진변수로는연령, 디지털유무, 가입경력, 총불만건수, 최근 4개월간사용료, 성별이선택되었다. < 표 3.3> 은로지스틱회귀모형에의한오분류테이블이다. < 표 3.3> 로지스틱모형의오분류테이블
데이터마이닝의사결정나무의응용 79 예측계일반해지정상 139 43 일반해지 182 34.75% 10.75% 실제 22 196 정상 218 5.50% 49.00% 계 161 239 400 Error rate=0.1625, Accuracy=0.8375 Sensitvity=0.7637, Specificity=0.8991 < 표 3.3> 에서민감도가 0.7637로일반해지를일반해지로예측하는예측력이높으므로로지스틱회귀모형에서추정된확률값을이용하여해지가능성에대한점수화 5) 를실시한다. < 표 3.4> 는개인휴대통신가입고객의해지가능성에대한점수표중일부이다. 해지유무예측은해지점수가 50 점이상인경우를일반해지로예측한경우이다 6). 지금까지개인휴대통신고객이해지특성이어떤가입자속성변인에의존하는지에대한고객해지패턴을분석하였고해지점수를구하여고객의해지유무를알아보았다. 이러한해지점수를이용하여해지확신고객, 해지가능고객, 해지잠재고객, 유지가능고객, 유지확신고객과같이고객을그룹화하여목표마케팅 (target marketing) 전략을세울수있다. < 표 3.4> 해지가능성점수 ( 일부 ) 5) 해지가능성점수 = P(Y= 해지 ) 100 6) 해지점수가 50 점이상인경우를일반해지로예측한이유는일반해지고객과정상고객의 해지가능성점수의분포를그려보면 50 점근처에서교차가일어나기때문이다.
통계분석연구 제 4 권제 1 호 (99. 봄 ) 80 아날로그총연령해지 / 성별불만가입경력사용료대유무디지탈건수 아날로그여자 0 40대 23~26개월 1만5천원미만 일반해지 아날로그남자 1 20대 14~18개월 5만5천~7만1천원 일반해지 아날로그남자 0 10대 6개월미만 5만5천~7만1천 일반해지 아날로그남자 1 30대 19~22개월 11만8천~15만7천원일반해지 아날로그남자 0 30대 6개월미만 22만원8천원이상 일반해지 해지해지유무점수예측일반해지 76.01 일반해지 51.89 일반해지 82.55 일반해지 74.01 정상 45.91 아날로그남자 0 30 대 19~22 개월 22 만원 8 천원이상정상정상 32.74 아날로그남자 1 20 대 6~10 개월 22 만원 8 천원이상정상일반해지 51.99 디지털여자 0 20 대 6~10 개월 5 만 5 천 ~7 만 1 천원 디지털남자 0 30 대 14~18 개월 22 만원 8 천원이상 일반 해지일반 해지 일반해지 85.65 정상 5.65 디지털남자 0 20 대 11~12 개월 22 만원 8 천원이상정상정상 13.33 디지털여자 1 30 대 47 개월이상 22 만원 8 천원이상정상정상 1.77 4. 토의 지금까지의사결정나무를통하여 2장에서는선거자료에서발생하는무응답자의패턴을분석하고이러한패턴을이용하여무응답자의지지율을예측하는예측모형의사례를보였다. 또한 3장에서는개인휴대통신고객의해지패턴을분석하고로지스틱을회귀모형을통하여고객의해지가능성점수를구하는사례를살펴보았다. 의사결정나무는판별분석, 분산분석, 회귀분석등과같은전통적인통계분석기법의구현에앞서탐색적절차에다각도로유용하게활용될수있다. 또한통계조사에서조사의성 패라는목표변수를피조사자의인구
데이터마이닝의사결정나무의응용 81 학적속성을통해분석해낸다면그결과는효율적통계조사잔략수립에도움을주게될것이다. 현재의사결정나무모형은데이터마이닝 (data mining) 의주요기법으로자리잡고있으며 SAS/EMINER 7), SPSS AnswerTree 8), CART 9) 등상용화된데이터마이닝솔루션등에서이를사용할수있다. < 참고문헌 > 7) http://www.sas.com/software/data_mining/ 8) http://www.spss.com/datamine/ 9) http://www.salford-systems.com/
통계분석연구 제 4 권제 1 호 (99. 봄 ) 82 (1) 최종후, 한상태, 강현철, 김은석 (1998), AnswerTree 를이용한데이터 마이닝의삭결정나무분석, 서울 : SPSS 아카데미. (2) 강현철, 서두성, 최종후 (1998), Enterprise Minier 의의사결정나무분석 알고리즘, SAS 사용자컨퍼런스발표자료집, 서울 : SAS-Korea, pp.169~186. (3) 박무익 (1998), 한국의제 15 대대통령선거와선거예측조사, 한국통계 학회 1998 년춘계학술발표회논문집, pp.1-9. (4) 허명회 (1995), SAS 범주형데이타분석, 서울 : 자유아카데미. (5) Berry, M. J. A. and Linoff, G. S. (1997), Data Mining Techniques, New York : John Wiley & Sons, Inc.. (6) Breiman, L., J. H. Friedman, R. A. Olshen, and C. J. Stone. (1984), Classification and regression trees, Belmont : Wadsworth. (7) Kass, G. (1980), An exploratory technique for investigating large quantities of categorical data, Applied Statistics. 29:2, 119-129. (8) Quinlan, J. R. (1993), C4.5 Programs for machine learning, San Mateo : Morgan Kaufmann.
데이터마이닝의사결정나무의응용 83 Decision Trees and Its Applications Jonghoo Choi, Doosung Seo Abstract In this paper, we introduce and investigate the decision trees. Decision trees are charts that illustrate decision rules. If we have data divided into classes (e.g. subscribers or nonsubscribers, voters versus nonvoters), we can use decision trees as a classifier old or new cases with maximum accuracy. We explore the applications of decision trees based on two real examples.