통계청 통계분석연구 2001 년가을 ( 제 6 권제 2 호 ) 85-111 데이터마이닝기법을이용한도시가계소비성향분석 변루나 * 본논문에서는데이터마이닝과주요분석기법인로지스틱회귀분석, 신경망, 의사결정나무를소개하였다. 데이터마이닝적용사례로 2000년통계청에서실시한도시가계조사자료를데이터마이닝도구인 SAS Enterprise Miner를활용해분석하였다. 대량의통계조사결과자료에데이터마이닝기법을이용한분석을보임으로써지식기반사회에필요한새로운의미있는정보와지식을재생산할수있는가능성을제시하고검토하는데에본논문의의의가있다. < 차례 > Ⅰ. 서론 Ⅱ. 데이터마이닝의소개 Ⅲ. 도시가계소비성향분석 Ⅳ. 결론및토의 * 통계청통계기획국조사관리과
86 통계분석연구 2001년가을 ( 제6권제2호 ) Ⅰ. 서론 OLTP(On-Line Transaction Process), 데이터웨어하우징 (Data Warehousing) 등과같은데이터저장시스템출현과대용량, 초고속컴퓨터의보편화로인하여대용량자료가매순간자동적으로쌓이고있다. 이는비단고객에대한자료를관리하는기업뿐아니라정부, 연구및교육기관들도목적은상이하지만다양한형태의자료들이수없이시스템에저장되고있다. 이러한자료들은크기가대용량일뿐아니라자료의형태가다양하여기존의통계분석도구로는 ( 기법이나통계소프트웨어모두포함 ) 원하는정보를얻는데한계가있다. 고객 ( 정부의경우국민, 학교의경우학생이일종의고객이다 ) 의선호도나성향을분석하여고객이만족하는서비스를제공하지않으면경쟁력을잃게될정도로기업간시장경쟁은가속화되고있다. 그러므로대용량, 다양한형태의데이터분석에한계가있음에도불구하고자동적으로지식을추출해내는방안에대한요구가급속히증가하고있다. 대용량데이터로부터유용한정보를찾아내는과정이마치광산에묻혀있는금을캐내는것과유사하다고해서대용량자료로부터정보를얻어내는과정에사용되는시스템 ( 하드웨어 ) 과분석기법 ( 소프트웨어 ) 을데이터마이닝 (Data Mining) 이라한다. 데이터마이닝은시장바구니 (Market Basket) 이론에서처음시작되었다고보는견해가지배적이다. 그예로써, 미국의한대형슈퍼마켓에서고객들이쇼핑경향을조사하였더니금요일오후에어린자녀를둔신혼부부들은기저귀와맥주를함께사는것이었다. 그이유를알아보았더니어린자녀가있는부부들은주말에야외로나가는것이어려워, TV에서방영하는주말스포츠경기를시청하며마실맥주와어린아이를위한기저귀를동시에사는것이었다. 이에대해그슈퍼마켓은기저귀와맥주를한곳에진열시켜장을보는동안동선단축의편리성을느낀고객들로부터좋은평가를받게되었다. 이처럼데이터마이닝개념은고객에대한자료로부터고객에대한정보를얻어고객이원하는서비스를제공함으로
데이터마이닝기법을이용한도시가계소비성향분석 87 써기업의이미지를제고시키며, 또한이윤의극대화실현을위해필요한기업에서앞다투어도입하고있다. 선진국에서는기업뿐아니라정부나연구기관에서도데이터마이닝기법을도입하고있다. 미국 FBI에서는한사건이발생하면유사범죄를저지르는용의자를찾아낼때데이터마이닝기법을사용하기도하고, IRS에서는탈세자의패턴을분류하여탈세가능성이있는사람들을미리색출할때이용하기도한다. 그러나우리나라에서의데이터마이닝은아직은초기단계에머물러있을뿐아니라데이터마이닝을하기위한최적의시스템이되는데이터웨어하우스의구축도대기업을제외하고는전무한실정이다. 그러나기업의요구사항이주로고객관리에중점을두는데이터베이스마케팅쪽으로, 이를고객관계경영 (CRM: Customer Relationship Management) 이라함, 가고있기때문에데이터마이닝의발달은급속히이루어질수밖에없다. 따라서본논문에서는데이터베이스마케팅의핵심기술이라고할수있는데이터마이닝을소개하고이의적용사례로 2000년국내도시가계조사자료를이용하여도시가계의소비성향분석을하고자한다. 2장에서는최근국내외에서활발하게논의가되고있는데이터마이닝에대한의의와기법을소개하고 3장에서는 2장에서다룬기법을이용하여도시가계조사자료로부터도시가계의소비성향에영향력이높은변수와모형을찾아낸다. Spend를목표변수로데이터마이닝의다양한분석기법 (Logit Regression, Neural Network, Decision Tree) 을적용하여분석을실시하고 4장에서그결과를서로비교하였다. 데이터마이닝도구로사용되는것은 SAS의 Enterprise Miner와 SPSS Clementine 등이있는데가장널리사용되는 SAS Eminor를이용하여적용방법, 결과해석방법을기술하였다. 세가지분석기법을적용한분석결과중가장예측율이큰기법으로소비성향의패턴 ( 높음 / 낮음 ) 에영향을주는변수와모형을찾아내었다. 특히, 국가통계조사결과의분석결과는소요된비용과시간에견주어볼때, 1차원또는개별적가구속성에따른분석에그치고있고 2차원의분석결과는저조한실정이다. 향후이러한여러종류와형태를가진대용량의통계조사결과에데이터마이닝기법을활용하여지식기반사회에필요한새로운
88 통계분석연구 2001년가을 ( 제6권제2호 ) 의미있는정보와지식을재생산할수있는가능성을제시하고검토한다. Ⅱ. 데이터마이닝소개 데이터마이닝은 KDD(Knowledge Discovery in Database) 라고불리우듯대용량의자료, 혹은데이터웨어하우스로부터쉽게드러나지않는유용한정보들을찾아내는과정을말한다. 즉, 대용량 (massive) 의관측가능한데이터를기반으로숨겨진지식, 기대하지못했던패턴, 새로운법칙과관계를발견하고이를바탕으로의사결정등을위한정보로활용하는것이다. 실제데이터마이닝이적용되는과정은탐색 (Exploration) 을통해평균, 이상치, 결측치등을발견하고변형 (Modification) 으로자료를변환하며모형화 (Modeling) 와모델평가 (Assessment) 의단계를거치게된다 (SAS Eminer 중심 ). 데이터마이닝기법으로는군집분석 (Cluster Analysis), 연결분석 (Link Analysis), 판별분석 (Discrimination Analysis) 등과같은기존의통계분석과연관성규칙 (Association Rule), 의사결정나무 (Decision Tree), 신경망모형 (Neural Network), OLAP(On-Line Analytic Processing) 등변형된형태의분석기법이있다. 본장에서는데이터마이닝에서가장널리사용되는 Logit Regression, Neural Network, Decision Tree 기법을소개하고자한다. 2.1 Logit Regression Logit Regression은목표변수 ( 종속변수 ) 가순서형명목척도로측정되어있는경우목표변수와설명변수간의인과관계를분석하기위하여적용되는통계분석기법이다. Logit Regression 분석의사용은판별분석을사용하는것과마찬가지로두집단이상으로구분된개체에대해각개체가속하는집단을예측하거나집단의구분에서는어느설명변수가유의한지를알아보는데사용된다. Logit Regression모형은목표변수가이항형일때일반선형회귀모형의
데이터마이닝기법을이용한도시가계소비성향분석 89 사용이불가능하므로로짓변환 (logit transformation) 을이용하게되는데모형은다음과같다. log p(y =1 x 1,,x p ) 1-p(y =1 x 1,,x p ) = α+β 1 x 1 + +β p x p 입력변수 x 1, x 2,,x p 에대해서다중로지스틱회귀모형화하여, 모형식의좌변과우변이모두실수상의값을가지도록하는것이다. 여기에서 log는자연로그 (natural log) 를의미한다. Logit Regression분석의목적은흔히추정된로짓모형을이용하여자료를분류하기위한것이기때문에일반적인판별분석과비교하여로지스틱판별분석 (logistic discrimination) 이라고불린다. 위의모형식으로부터추정된회귀계수 a,b 1,,b p 를이용하여다음과같이사후확률에대한추정식을얻을수있다. Pˆ( y =1 x 1,,x p )= exp ( â+ ˆx b 1 1 + ˆx b p p ) 1+exp( â + ˆx b 1 1 + ˆx b p p ) 이렇게얻어진각개체에대한추정사후확률 (posterior probability) pˆ( y =0 x 1,,x p )=1- pˆ( y =1 x 1,,x p ) 은개체를분류하기위해사용될수있다. 즉, 사후확률은 0과 1사이의값을가지게되므로, 적절한절단값 (cutoff value) 을정하여이값을기준으로각개체를분류하는것이다. 입력변수가분류결정에미치는영향의정도는오즈비 (Odds Ratio) 로계량화할수있다. 다른모든입력변수가일정한상태에서 x i 가 1단위증가하는데따른오즈비 (Odds Ratio) 는다음과같이계산된다. exp(α+β 1 x 1 + +β i (x i +1)+ β p x p ) exp(α+β 1 x 1 + +β i (x i )+ β p x p ) =exp(β i ) 여기서오즈비가 1 보다작다는것은입력변수 x i 가감소방향의영향으
90 통계분석연구 2001년가을 ( 제6권제2호 ) 로미침을의미하고, 반대로오즈비가 1보다크다는것은증가방향의영향으로미침을의미한다. 2.2 Neural Network 신경망 (Neural Network) 에는여러가지다양한모형이있으나, 자료분석을위해가장널리사용되는모형은 MLP(Multilayer Perceptron, 다층인식자 ) 신경망이다. MLP모형은입력층 (Input layer), 은닉마디로구성된은닉층 (hidden layer) 그리고출력층 (output layer) 으로구성된전방향 (feed-forward) 신경망이다. < 그림 2.1> MLP 의구조 입력층 (X ) 히든층 (H ) 출력층 (Y ) < 그림 2.1> 은입력층, 은닉층그리고출력층으로이루어진 MLP 신경망의구조이다. 입력층은각입력변수에대응되는마디들로구성되어있다. 명목형 (nominal) 변수에대해서는각수준에대응하는입력마디를가지게되는데, 이는통계적선형모형에서가변수 (dummy variable) 를사용하는것과같다. 은닉층은여러개의은닉마디로구성되어있다. 각은닉마디는입력층으로부터전달되는변수값들의선형결합 (linear combination) 을비선형함수 (nonlinear function) 로처리하여출력층또는다른은닉층에전
데이터마이닝기법을이용한도시가계소비성향분석 91 달한다. 그리고출력층은목표변수에대응하는마디들을갖는다. 여러개의목표변수또는세개이상의수준을가지는명목형목표변수가있을경우에는여러개의출력마디들이존재한다. < 그림 2.1> 의구조를수식으로도식화하면다음과같다. H 1 = f 1 (b 1+ w 11 X 1 +b 1+ w 21 X 2 + + b 1+ w p1 X p) H 2 = f 2 (b 2+ w 12 X 1 +b 1+ w 22 X 2 + + b 1+ w p2 X p) Y = g( b 0+ w 10 H 1+ w 20 H 2 ) 이처럼신경망에서사용되는함수는크게결합함수 (combination function) 와활성함수 (activation function) 가있다. 결합함수 (combination function) 는입력층또는은닉층의마디들을결합하는형태를의미한다. 각은닉마디 H 1 과 H 2 는입력변수들을선형결합, 즉 b j + w 1j X 1 + w 2j X 2 + + w pj X p 하여이를변환한다. 대부분의신경망에서는결합함수로이와같은선형함수 (linear function) 를사용하지만 RBF 신경망은원형기준함수 (radial basis function) 를사용하는데이처럼다른형태의결합함수를사용하는신경망들도있다. 활성함수 (activation function) 는입력변수또는은닉마디의결합을변환하는함수를의미한다. 이의식에서 f 1, f 2 와 g는각각활성함수와출력활성함수 (output activation function) 라고불리며, 입력값들의선형결합함수를 S-자형태의곡면형태의출력을가지도록하는것이활성함수이다. 활성함수와출력활성함수는동일한함수를사용하는것이일반적인데활성함수는통계적선형모형에서, 연결함수 (link function) 의역함수와유사한의미를가지며, 가장보편적으로사용되는활성함수는로지스틱 (logistic) 함수와쌍곡탄젠트 (hyperbolic tangent) 함수이다. 한편, 목표변수가제한된범위를가지지않는연속형변수인경우에는, 출력활성함수로항등함수 (identity function) 를사용하여
92 통계분석연구 2001년가을 ( 제6권제2호 ) Y=b 0 +w 01 h 1 + w 02 H 2 와같이출력마디가생성되도록하는경우도있다. 신경망은다양한모형을포함하는매우유연한모형이나데이터로부터계수를추정해야하기때문에은닉층과은닉마디가많으면많을수록신경망은복잡해지며계수의수가급격히증가하기때문에최적화가다른회귀분석이나의사결정나무분석보다어렵다. 그러나해석의용이함이언제나예측모형의중요한특성이되는것은아니므로더많은해석적용이함을갖고있으면서도예측에덜효과적인모형보다는매우정확한예측을생산해내는신경망이더선호되는경우가많기때문이다. 2.3 Decision Tree 의사결정나무 (Decision Tree) 는의사결정규칙을나무구조로도표화하여관심대상이되는집단을몇개의소집단으로분류 (classification) 하거나예측 (prediction) 을수행하는분석방법이다. 분석과정이나무구조에의해서표현되기때문에분류또는예측을목적으로하는방법들즉, 회귀분석 (Regression Analysis), 신경망 (Neural Network), 판별분석 (Discriminant Analysis) 에비해연구자는분석과정을쉽게이해하고설명할수있다. 의사결정나무분석을수행하기위한다양한분리기준, 정지규칙, 가지치기방법들이제안되어있으며이들을어떻게결합하느냐에따라서서로다른의사결정나무형성방법이만들어진다. 의사결정나무분석의대표적인알고리즘으로는 CHAID(Kass 1980), CART(Breiman et al., 1984), C4.5(Quinlan, 1993) 등이있으며, 이들은 SPSS, SAS 등많은소프트웨어회사들에의해서다양한제품으로상용화되어있다. 의사결정나무의알고리즘은 CHAID(Chi-squared Automatic Interaction Detection, Kass(1980)) 는카이제곱검정 ( 범주형목표변수 ) 또는 F 검정 ( 연속형목표변수 ) 을이용하여다지분리 (multiway split) 를수행하는알고리즘이다. 다지분리란부모마디에서자식마디들이생성될때, 2개이상의
데이터마이닝기법을이용한도시가계소비성향분석 93 분리가일어나는것을허용함을의미한다. CHAID 목표변수가이산형일때, Pearson의카이제곱통계량또는우도비카이제곱통계량 (likelihood ratio Chi-square statistic) 을분리기준으로사용한다. 여기서목표변수가순서형또는사전그룹화된연속형인경우에는우도비카이제곱통계량이사용된다. 카이제곱통계량은관측도수 ( f ij ) 로이루어진 r c 분할표로부터계산된다. 분할표의구조는 < 표 2.1> 과같다. < 표 2.1> 분할표의구조 범주 1 범주 2 범주 c 합계 범주 1 f 11 f 12 f 1c f 1. 범주 2 f 21 f 22 f 2c f 2. 범주 r f r1 f r2 f rc f r. 합계 f.1 f.2 f.c f.. < 표 2.1> 의분할표로부터, Pearson 의카이제곱통계량은 χ 2 = i, j (f ij -e ij ) 2 e ij 과같이정의되고, 우도비카이제곱통계량은 χ 2 =2 i, j f ij log ( f ij e ij ) 으로정의된다. 이때두통계량의자유도 (degree of freedom) 는 (r-1)(c-1) 로서동일하다. 여기서, e ij 는분포의동일성또는독립성의가설하에서계산된기대도수 (expected frequency) 를말하며, 아래에주어진식
94 통계분석연구 2001년가을 ( 제6권제2호 ) e ij = f i. f.j f.. 과같이계산된다. 카이제곱통계량이자유도에비해서매우작다는것은예측변수의각범주에따른목표변수의분포가서로동일하다는것을의미한다. 따라서예측변수가목표변수의분류에영향을주지않는다고결론지을수있다. 자유도에대한카이제곱통계량값의크고작음은 P-값으로표현될수있는데, 카이제곱통계량값이자유도에비해서작으면 P-값은커지게된다. 결국분리기준을카이제곱통계량으로한다는것은 P-값이가장작은예측변수와그때의최적분리에의해서자식마디를형성시킨다는것을의미한다. CART(Classification and Regression Trees, Breiman et al.(1984)) 는지니 ( 범주형목표변수인경우적용 ) 또는분산의감소량 ( 연속형목표변수인경우적용 ) 을이용하여이지분리 (binary split) 를수행하는알고리즘이다. 지니지수 (Gini Index) 는불순도 (impurity) 를측정하는하나의지수이다. 임의의한개체가목표변수의 i 번째범주로부터추출되었고, 그개체를목표변수의 j 번째범주에속한다고오분류 (misclassification) 할확률은 P( i)p( j) 가된다. 여기에서 P( i) 는각마디에서한개체가목표변수의 i번째범주에속할확률이다. 이러한오분류확률을모두더하여 G = c j =1 i j P(i)P(j) 을얻을수있고이는위와같은분류규칙하에서오분류확률의추정치가된다. 여기서 c 는목표변수의범주의수를말한다. 일반적으로 CART는범주형목표변수에대해서는지니지수를분리기준으로사용한다. 지니지수는가마디에서의불순도또는다양도 (diversity) 를재는측도중의하나로써 G = c j=1 P(j)(1-P(j))= 1- c P(j) 2 =1- c ( n j j =1 j=1 n ) 2 와같이표현될수있다. 여기에서 n 은그마디에포함되어있는관찰치
데이터마이닝기법을이용한도시가계소비성향분석 95 수를말하고, n j 는목표변수의 i번째범주에속하는관찰치수를말한다. 지니지수는 n개의원소중에서임의로 2개를추출하였을때추출된 2개가서로다른그룹에속해있을확률을의미하며 Simpson의다양도지수 (diversity index) 로도알려져있다. 목표변수의범주가 2개인경우에는지니지수는다음과같이표현될수있으며 G =2P(1)P(2)=2( n 1 n )( n 2 n ) 이는카이제곱통계량을사용하는것과같은결과를갖는다. CART 알고리즘은지니지수를가장감소시켜주는예측변수와그변수의최적분리를자식마디로선택하는데, 지니계수의감소량은다음과같이계산된다. ΔG = G- n L n G L- n R n G R 여기서 n은부모마디의관측치수를말하고 n R 과 n L 는각각자식마디의관측치수를의미한다. 즉, 자식마디로분리되었을때의불순도가가장작도록자식마디를형성하는것이다. 이는다음과같은자식마디에서의불순도의가중합을최소화하는것과동일하다. P(L)G L + P(R)G R = n L n G L+ n R n G R Ⅲ. 도시가계소비성향분석 본장에서사용한자료는통계청에서실시한도시가계조사 2000년도 1 분기자료이다. 도시가계조사는 1963년이래로통계청에서매월실시하고있다. 이는도시가구의수입과지출을조사하여가구의생활실태와그
96 통계분석연구 2001년가을 ( 제6권제2호 ) 변동을명확히파악함으로써도시가계의생활수준과소비변화분석, 소비자물가지수편제에필요한가중치산정, 주거보상비산정, 각종경제 사회정책입안과평가등에유용한기초자료를제공하고있다. 이데이터셋은 15,618가구에대하여조사대상가구의각가구관련기본사항즉가구구분, 가구원수, 가구주, 배우자, 기타가구원에관한성별, 연령, 교육정도, 산업, 직업, 연간소득, 입주형태, 주택가격, 월세, 전세보증금등이있다. 주요조사내용으로는총수입및총지출에관련된사항으로구성되어있다. 이조사의원시자료는데이터마이닝의필수요소인신뢰도가높은충분한자료를포함하고있다. 그러나너무많은변수 (690 개 ) 의항목으로이루어져있어오히려데이터마이닝의예견능력을떨어뜨릴수있으므로최적의결과를산출할수있는자료의확보를위하여본연구에서사용한자료의변수는기본사항을포함하여 188개 (X1-X188) 의변수로재집계하여사용하였다. 3.1 Variable Selection 데이터셋을임의 (Family) 로지정한후 Response의역할을 Target으로지정하고나머지변수들의역할은 Input으로지정한다. Input 변수의 measurement을확인하여제대로지정되지않은변수에대하여수정한다. 목표변수 (Target) 는도시가계의소비성향의패턴 ( 높음 / 낮음 ) 을나타내는새로운변수 (Spend) 를생성하여분석하였다. 분류기준은 < 표 3.2> 에서보는바와같이한국은행에서정한 1999년도총저축율 33.7% 를사용하였다. < 표 3.1> 생성한목적변수 새로이생성된변수명 Spend 조건값 저축 (X175)/ 총수입 (X66) < 0.337 0( 소비성향이큰집단 ) 저축 (X175)/ 총수입 (X66) > 0.337 1( 소비성향이작은집단 )
데이터마이닝기법을이용한도시가계소비성향분석 97 < 표 3.2> 저축율검색결과화면 ( 작성기관 : 한국은행 ) 1999 1998 1997 1996 1995 국민총저축율 33.7 34.0 33.4 33.8 35.5 민간저축율 24.2 24.4 22.8 23.5 25.8 개인순저축율 - 21.6 14.8 15.3 16.1 정부저축율 9.5 9.6 10.6 10.2 9.7 (http://www.nso.go.kr/cgi-bin/sws_999.cgi?id=dt_1v33&idtype=3) < 그림 3.1> 변수들의역할지정 모형화와타당성평가를위하여데이터셋 (Family) 을분석용, 평가용, 검증용세가지셋으로분할하여 Train, Validation, Test 데이터셋의비율을각각 40%, 30%, 30% 으로지정하였다. 모형구축에앞서목표변수 (Spend) 와관련성이높은변수들은결정계수 (R-square) 를기준으로선택하였고결정계수 (R-square) 를이용하여목표변수와관련성이높은입력변수를선택하였다. 또한, 분포도 (distribution) 등을이용하여각변수들의특성을살펴보았다. 조사년월 (X1), 조사구번호 (X2), 거처번호 (X3), 가구번호 (X4), 가구구분 (X5), 조사담당자 ID번호 (X63) 는소비성향패턴에영향을주지않는변수
98 통계분석연구 2001년가을 ( 제6권제2호 ) 이므로분석에서제외하였다. R-square를기준으로변수를선택하였는데목표변수에대한입력변수의 R-square값이 0.005보다작은변수를제거하였다. 그결과소비성향에영향을미치는변수는 < 표 3.3> 과같이 20개의변수가선택되었다. < 표 3.3> 목적변수와입력변수의데이터세트내용 Target Spend 0 : 소비성향이큰집단 1 : 소비성향이작은집단 Input 선택된입력변수설명선택된입력변수설명선택된입력변수설명 X10 가구주연령 X69 근로소득 X170 공적연금 X14 배우자성별 X71 배우자소득 X171 사회보험 X49 가구유형 X75 가구주 X173 기타지출 X50 세대구분 X93 저축찾은금액 X174 자산증가 X57 월세 X103 총지출 X175 저금 X67 소득 X148 납입금 X184 X68 경상소득 X169 조세 월말현금잔고 < 그림 3.2> 변수선택결과
데이터마이닝기법을이용한도시가계소비성향분석 99 또한선택된변수에대하여 Replacement 노드에서는결측값을다른값으로채워넣거나, 이상치에대한적절한대체를통해모형구축을효과적으로할수있는데이터변환을실시하였다. 이상치의자료에대한대체는연속형변수와범주형변수에대해기본대체값으로하고, 결측치에대한대체는연속형변수의결측치인경우 mean으로, 범주형변수의결측치인경우 most frequent value(count) 로사용하여 Imputation을실시하였다. 3.2 Logit Regression를이용한결과도시가계소비성향의패턴 ( 높음 / 낮음 ) 에대한영향, 즉목표변수를 Y라하고, 설명변수의수를 P라할때, Y가 0 또는 1인 Logit Regression 모형 Y는다음과같이모형을설정할수있다. log P ( Y =1 x 1,,x p ) 1-P ( Y =1 x 1,,x p ) =log P(Y =1 x 1,,x p ) P(Y =0 x 1,,x p ) =β 0 +β 1 x 1 +β 2 x 2 + +β p x p 연결함수 (Link function) 로는 logit 함수를사용한다. 가변수에대한코딩방식은 Deviation방식을사용하고변수선택을 Stepwise로지정했으며, 모형선택의기준은 Profit/Loss을사용했다. < 결과 3.1> 은 Logit Regression 분석을이용한결과로서총지출 (X103) 와저금 (X175) 가요인변수로선택되었다. 이요인변수를통하여소비성향패턴의반응확율에대한예측모형식을다음과같이만들수있다. Pˆ( y =1 x 1,,x p ) = Pˆ( spend =1 X 103, X 175 ) =-0.0647-0.00041X 103 + 0.00122X 175
100 통계분석연구 2001년가을 ( 제6권제2호 ) < 결과 3.1> Logit Regression 분석을이용한모형 The DMREG Procedure Analysis of Maximum Likelihood Estimates Standard Wald Pr > Standardized Parameter DF Estimate Error Chi-square Chi-square Estimate exp(est) Intercept 1-0.0647 1.4258 0.00 0.9638. 0.937 X103 1-0.00041 0.000146 7.94 0.0048-1291.971448 1.000 X175 1 0.00122 0.000434 7.94 0.0048 1855.802416 1.001 Odds Ratio Estimates Input Odds Ratio X103 1.000 X175 1.001 < 그림 3.3> Logit Regression 분석의모형평가 < 그림 3.3> 은 Logit Regression 분석의모형평가를그래프로나타내주고있다. < 그림 3.4> 은 Logit Regression 분석모형에의한오분류테이블이다. 민감도 (Sensitivity) 가 1.0000으로소비성향이큰집단을소비성
데이터마이닝기법을이용한도시가계소비성향분석 101 향이큰집단으로예측하는예측력이상당히높은것으로나타났다. 소비성향이큰집단에대한모형의예측율, 즉특이도 (Speciality) 는 1.0000이며, 소비성향이작은집단에대한모형의예측율인민감도도 1.0000로나타났다. Logit Regression 분석의모형전체에대한모형의정분류율 (Accuracy) 과오분류율 (Error rate) 도각각 1.0000, 1.0000으로잘분류되어졌다고할수있다. Logit Regression모형의예측력이가장높으므로영향력있는변수와모델을이기법으로부터도출한다. 또한추정된확률값을이용하여다른정보를도출할수도있다. < 그림 3.4> Logit Regression 모형의오분류테이블 3.3 Neural Network을이용 Neural Network 노드에서는디폴트로한개의은닉층을가지는 MLP(Multilayer Perceptron) 를이용하여 < 그림 3.5> 과같은과정으로 Neural Network 분석을수행한다. Neural Network 방법을사용하여입력변수에 20개의변수를지정하고히든노드의개수를 3으로지정하였다.
102 통계분석연구 2001년가을 ( 제6권제2호 ) < 그림 3.5> 히든노드가 3 인 Neural Network 모형 X10( 가구주연령 ) X14( 배우자성별 ) X49( 가구유형 ) X175( 저금 ) X184( 월말현금잔고 ) 입력노드 히든노드 출력노드 < 결과 3.2> Neural Network 를이용한모형 < 결과 3.2> 는 Results 윈도우에서 Output 탭을선택하면 Neural Network 의모수추정치 (parameter estimate) 들을살펴볼수있다. < 그림 3.6> 은 Neural Network의모형을평가하는것이다.
데이터마이닝기법을이용한도시가계소비성향분석 103 < 그림 3.6> Neural Network 의모형평가 < 그림 3.7> 은 Neural Network 모형에의한오분류테이블이다. 소비성향이큰집단을소비성향이큰집단으로예측하는예측력이대체로높은것으로나타났다. 소비성향이큰집단에대한모형의예측율, 즉특이도 (Speciality) 는 0.9323이며, 소비성향이작은집단에대한모형의예측율인민감도 (Sensitivity) 는 0.8471로나타났다. Neural Network의모형전체에대한모형의정분류율 (Accuracy) 과오분류율 (Error rate) 은각각 0.9003, 0.0979으로잘분류되어졌다. < 그림 3.7> Neural Network 모형의오분류테이블
104 통계분석연구 2001년가을 ( 제6권제2호 ) 3.4 Decision tree 를이용 < 결과 3.3> Decision tree 를이용한모형 1 39.4% 37.5% 0 60.6% 62.5% 1 2461 1759 0 3786 2926 Total 6247 4865 소비성향이큰집단 60.6% 소비성향이작은집단 39.4% X175 <711500 >=711500 1 4.5% 3.9% 0 95.5% 96.1% 1 138 92 0 2928 2255 Total 3056 2347 1 72.8% 71.3% 0 27.2% 28.7% 1 2323 1667 0 868 671 Total 3191 2338 X175 저금 >=711500인그룹에서비소비집단은 72.8%, 소비집단은 27.2% 로나타남 <1470237 >=1470237 1 53.3% 51.5% 0 46.7% 48.5% 1 669 467 0 587 439 Total 1256 906 X103 1 85.5% 83.8% 0 14.5% 16.2% 1 1654 1200 0 281 232 Total 1935 1432 X103 저금 >=1470237인그룹에서비소비집단은 85.5%, 소비집단은14.5% 로나타남 <3540026 >=3540026 <9380389 >=9380389 1 76.4% 73.3% 0 23.6% 26.7% 1 620 429 0 192 156 Total 812 585 1 11.0% 11.8% 0 89.0% 88.2% 1 49 38 0 395 283 Total 444 321 1 80.8% 87.5% 0 19.2% 12.5% 1 1509 1004 0 172 155 Total 6247 1239 1 57.1% 60.1% 0 42.9% 39.9% 1 145 116 0 109 77 Total 254 193 저금 <1470237 이며총지출 <3540026 인그룹에서비소비집단은 77.4%, 소비집단은 23.6% 로나타남 저금 >=1470237 이며총지출 <9380389 인그룹에서비소비집단은 80.8%, 소비집단은 19.2% 로나타남
데이터마이닝기법을이용한도시가계소비성향분석 105 Decision Tree는의사결정규칙 (decision rule) 을도표화하여관심대상이되는집단을몇개의소집단으로분류하거나예측을수행하는분석방법이다. 나무구조로부터어떤변수가소비성향의패턴분류 ( 높음 / 낮음 ) 에영향을많이주는지그리고어떤경우에소비성향의패턴분류 ( 높음 / 낮음 ) 에영향을적게주는지를분류한다. < 결과 3.3> 를통하여총5개의끝마디 (leaves) 를가지는나무구조를파악할수있다. 이는카이제곱통계량 (Chi-square statistic) 의 p값을기준으로노드를분류한다. < 결과 3.3> 는 Decision Tree 알고리즘을이용한다중나무구조 (Multitree Structure) 의분류결과이다. 소비성향이큰집단의비율은 60.6%, 소비성향이작은집단의비율은 39.4% 로나타나고있음을볼수있다. 소비성향의패턴에가장영향을주는변수는저금 (X175) 이며, 다음으로는총지출 (X103) 로구분된다. < 그림 3.8> Decision Tree 의모형평가 < 그림 3.8> 은 Decision tree의모형평가도표이다. < 그림 3.9> 는 Decision Tree 모형의오분류테이블인데소비성향이큰집단을소비성향이큰집단으로예측하는확률인특이도 (Speciality) 가 0.9351로예측력이높은것으로나타났다. 소비성향이작은집단에대한모형의예측율인민
106 통계분석연구 2001년가을 ( 제6권제2호 ) 감도 (Sensitivity) 는 0.8891로나타났다. Decision Tree의모형전체에대한모형의정분류율 (Accuracy) 과오분류율 (Error rate) 도각각 0.9178, 0.0821으로잘분류되어졌다고할수있다. < 그림 3.9> Decision Tree 모형의오분류테이블 3.5 Assessment 본절에서는최적의모형을얻기위해세가지모형을비교 평가하고이를통해하나의모형이선택되면선택된모형이다른모형에비해우수하다는사실을입증한다. 따라서예측을위해만든모형이고려된서로다른모형들중어느것이가장우수한예측력을보유하고있는지를비교, 분석하는과정으로서앞서설정된세가지기법을이용한모형예측결과를비교해본다. < 그림 3.10> ROC 곡선은앞서구축한세가지모형의성능을민감도와특이도에의해판단하는곡선으로수평축에는 1-특이도가, 수직축에는민감도가자리잡고있다. 세로점선이동일한 1-특이도에서의경우 Logit Regression 분석의민감도가가장높음을알수있다. 다시말해 1-특이도의상황에서오분류율이가장낮음을뜻해세모형중가장좋은모형임을나타낸다. 그외에도여러개의모형에대해서리프트 (Lift), 민감도 (Sensitivity), 이익 (Profit) 등을비교하여모형평가를할수있다.
데이터마이닝기법을이용한도시가계소비성향분석 107 < 그림 3.10> 세가지기법에의한 ROC 곡선 세가지기법에대한예측율의크기순서는 < 표 3.4> 에서보는바와같이 Logit Regression>Decision Tree>Neural Netwok 순으로나타났다. 세모형중에서 Logit Regression 분석에의한결과가가장우수한것으로판단되었다. 따라서 Logit Regression 분석을수행함으로써얻을수있는결과들중 Effect T-Scores를살펴보면 < 그림 3.11> 과같다. < 표 3.4> 세가지기법예측결과비교표 소비성향이큰집단 유형별예측율 소비성향이작은집단 모형전체의예측율 Logit Regression 1.0000 1.0000 1.0000 Neural Network 0.9323 0.8470 0.9003 Decision Tree 0.9351 0.8891 0.9178
108 통계분석연구 2001년가을 ( 제6권제2호 ) < 그림 3.11> Logit Regression 의분석결과 Logit Regression의분석결과중 < 그림 3.11> 는선택된입력변수들에대한정보를시각적으로보여주고있다. 변수선택으로 Stepwise의방법에의해 Variable Selection 단계에서선택된변수들중 X103( 총지출 ) 과 X175( 저축 ) 이선택되었다. Ⅳ. 결론및토의 < 표 3.3> 에서선택된변수들을가지고 Logit Regression, Decision Tree, Neural Network 이세가지기법을이용해서도시가계의소비성향패턴을분석한결과세가지방법에의해산출된모형의예측정확도는대체로만족할만한것으로나타났다. 그결과중에서 Logit Regression 분석모형의예측도가가장높은것으로나타났다. 또한유형별예측정확도를살펴본결과세기법의모든결과에서소비성향이높은집단에대한예측정확도가그렇지않은집단에비해높은것으로나타났다. Logit Regression 분석을수행함으로써도시가계소비성향의패턴에가장영향을주는변수는 X103( 총지출 ) 과 X175( 저축 ) 이며특히 X103( 총지출 ) 이적
데이터마이닝기법을이용한도시가계소비성향분석 109 을수록, X175( 저축 ) 이많을수록소비성향이낮다는것을알수있다. 본본문의중요성은데이터마이닝 (Data mining) 의주요기법으로자리잡고있는 Logit Regression, Decision Tree, Neural Network 모형을이용하여공공기관에서조사한대용량의통계조사자료에유용하게활용될수있음을제시하는데있다. 분석결과가시각적이고분명한결과를나타낼수있어지식기반사회에필요한다양한정보와지식을재생산하거나정부의정책수립의기초자료로누구나용이하게사용될수있을것으로기대된다.
110 통계분석연구 2001년가을 ( 제6권제2호 ) < 참고문헌 > (1) 최종후, 한상태, 강현철, 김은석 (1998), AnswerTree를이용한데이터마이닝의사결정나무분석, 서울 : SPSS 아카데미. (2) 최종후, 한상태, 강현철, 김은석, 김미경 (1999), SAS Enterprise Miner를이용한데이터마이닝 -기능과사용법-, 서울 : 자유아카데미. (3) 강현철, 한상태, 최종후, 김차용, 김은석, 김미경 (1999), SAS Enterprise Miner를이용한데이터마이닝 -방법론및활용-, 서울 : 자유아카데미. (4) 강현철, 서두성, 최종후 (1998), Enterprise Miner의의사결정나무분석알고리즘, SAS사용자컨퍼런스발표자료집, 서울 : SAS-Korea, pp. 169~186. (5) 최종후, 서두성 (1999), 데이터마이닝의사결정나무의응용, 통계청 통계분석연구 제4권제1호 (99. 봄 ), pp.61~83. (6) 김정숙, 나종화 (2001), 데이터마이닝기법을이용한이동통신광고전략, 한국조사연구학회 2001춘계학술논문발표대회논문집, pp. 128~ 140. (7) 조용준, 허준, 최인규 (1998), Neural Connection을이용한데이터마이닝신경망분석, SPSS 아카데미 (8) 장남식, 홍성완, 장재호 (1999), 성공적인지식경영을위한핵심정보기술데이터마이닝, 대청 (9) M. J. Berry and G. Linoff (1997), Data Mining Techniques, Wiley Computer publishing. (10) Kurt Thearling, Ph.D(1995), From Data Mining to Database Marketing, IG White Paper 95/02.
데이터마이닝기법을이용한도시가계소비성향분석 111 Analysis of the Propensity to Consume for Urban Household Using Data Mining Technique. LuNa Byon <Abstract> In this paper, the introduction and techniques of data mining and its techniques such as Logistic Regression Analysis, Neural Network, and Decision Tree are discussed. For example, SAS Enterprise Miner, the most widely used data mining tool, has been applied to the urban household income and expenditure survey data which was carried out in 2000 by Korea National Statistical Office. The importance of this paper is to verify the possibility to reproduce new meaningful information and knowledge using data mining, according to application of the data mining method for the result of the massive statistical research, which are necessary for the knowledge based society.