빅데이터 분석을 위한 데이터 마이닝

White Paper May 2017 빅데이터분석을위한데이터마이닝 GoldenWired Inc. R&D Center

빅데이터분석을위한데이터마이닝 데이터마이닝 (Data Mining) 이란, 대량의데이터가축적되어있는데이터베이스로부터데이터간의정보를분석하고, 유용한정보또는지식을추출하는과정입니다. 그과정에서체계적이고자동적으로통계적규칙이나패턴을찾아내는것입니다. 광산에서광석이나다이아몬드등의광물을채굴하는것을 Mining 이라고하듯이, 데이터를마이닝한다는것은데이터베이스 ( 광산 ) 에서값어치가있는정보, 지식등을캐낸다는의미입니다. 데이터마이닝을하는이유 데이터마이닝을하는가장큰이유중하나는예측을통해최적의의사결정을하기위해서입니다. 예를들어, 경쟁회사로이탈할가능성이있는고객들이누군지예측할수있다면이탈을막기위한고객관리전략을세울수있을것입니다. 이탈가능성이있는고객을분류하기위해고객데이터베이스및판매데이터베이스등으로부터고객별구매패턴등을찾아내는것이데이터마이닝이적용될수있는수많은분야중한예에해당됩니다. 위의예처럼, 기업간경쟁이점점치열해지는시장환경에서고객의요구에대한빠른대응이기업간의경쟁력의측정지표가되고, 경쟁우위를확보하기위한신속하고합리적인의사결정이중요한이슈가되었습니다. 이러한환경속에서각기업들은최적의의사결정을뒷받침해줄수있는의미있는새로운정보의추출방법인데이터마이닝에집중하게되었습니다. 그러나데이터마이닝을하는이유가오로지기업에만국한되는부분은아닙니다. 데이터마이닝의관점에따라추출대상데이터와, 패턴을찾고지식을발견하는방식과그범위는달라질수있으며데이터마이닝의적용분야는매우다양합니다. 1

데이터마이닝정의에대한관점 데이터마이닝은크게다음세가지관점으로정의를나눌수있습니다. Computer Science 관점패턴인식기술, 통계적및수학적분석방법을이용하여저장된거대한자료로부터우리에게유익하고흥미있는새로운관계, 성향, 패턴등다양한가치있는정보를찾아내는일련의과정 MIS(Management Information Systems) 관점거대한데이터베이스혹은자료에서유용한정보를유출하는일련의과정뿐아니라값진정보를사용자가전문적지식없이사용할수있는의사결정지원시스템의개발과정 Statistics 관점 올바른의사결정을지원하기위한자료분석 (Data Analysis) 및모델선택 (Model Selection) 관점에따라데이터마이닝의정의는조금씩다르지만본질은같습니다. 가치있는정보, 지식을얻기위한일련의기술적인수단으로써의과정이데이터마이닝의본질이고그가치있는정보는데이터마이닝을하는주체에따라다양하다는것입니다. 데이터마이닝과통계학 통계학에서는대상집단이있으며, 모집단의분포혹은모형등여러가지가정을전제로하게되며이전제조건하에서분석을실시합니다. 즉, 표본 (Sample) 의관찰을통해모수 (Population) 전체를추론 (Inference) 하는과정이라고할수있습니다. 데이터마이닝은표본조사또는실험에서필연적으로수반되는분포라든가모형에대한전제조건이필요하지는않습니다. 즉, 모집단의전체자료를이용하여필요한정보나지식을추출하는과정이라고할수있습니다. 또한, 마이닝을하기위해서는대용량의데이터가존재해야한다는전제조건이필요하기도합니다. 그러나, 데이터로부터숨겨진패턴을찾아내어예측및의사결정을위한유용한 2

정보를추출하는과정에서인공지능기반의기계학습 (Machine Learning), 통계학 (Statistic) 등을적용하기때문에통계는데이터마이닝의구성요소로볼수도있습니다. 따라서, 그둘을엄밀히구분하기보다는데이터분석을위해통합적으로활용하는측면으로이해하는것이중요하다고할수있습니다. 데이터마이닝을통한인사이트도출과정 그림 1. 데이터마이닝단계별흐름도 데이터마이닝에있어서일반적으로몇가지단계가존재합니다. 방대한원본데이터로부터마이닝목적에맞는데이터 (Target Data) 를선별 (Selection) 하는것이첫번째단계입니다. 정확한데이터마이닝을하기위해서는선별된데이터를정제 (Cleaning) 하는것이중요합니다. 선별된데이터에는값이부분적으로빠져있거나 (Missing Value) 엉뚱한값 (Noisy Data) 이섞여있을수있기때문입니다. 정제된데이터는통합 (Integration) 과변환 (Transformation) 을거쳐비로소마이닝을할수있는자격을얻게됩니다. 이런자격을얻기까지의과정은데이터전처리 (Data Preprocessing) 라고불리며전처리단계에는선별 (Selection), 정제 (Cleaning), 통합 (Integration), 변환 (Transformation), 축소 (Reduction) 등의작업이포함됩니다. 전처리를거친데이터로부터여러마이닝기법을활용하여규칙과패턴을찾아내는작업은대단히흥미롭습니다. 이러한분석을통해얻어진결과는인사이트를도출하고확률에기반한예측을할수있게해주는지식 (Knowledge) 이됩니다. 이때문에데이터마이닝은 KDD( 데이터베이스속의지식발견, knowledgediscovery in databases) 라고도일컬어집니다. 3

데이터마이닝수행을위한방법론 : 데이터마이닝프로세스 데이터마이닝은대용량의데이터를이용한정보화과정이기때문에여러단계의절차에의해수행됩니다. 데이터분석과정에있어서일정방법론에따라체계적으로분석작업을수행해야시행착오를덜겪을수있습니다. 데이터마이닝을수행하기위한방법론으로 KDD, CRISP-DM과 SEMMA가있습니다. 이중에서실제실무에서가장많이쓰이는방법론인 CRISP-DM 의프로세스는 아래와같습니다. 그림 2. 데이터마이닝 CRISP-DM 라이프사이클 CRISP-DM 는 6 단계로구성되어있으며, 각단계는일방향으로구성되어있지않 고단계간피드백을통하여단계별완성도를높이게되어있습니다. 비즈니스이해 (Business Understanding) 비즈니스관점에서프로젝트의목적과요구사항을이해하는단계로써, 도메인지식을데이터분석을위한문제정의로변경하고초기프로젝트계획을수립합니다. 반드시 Field Knowledge를가진그분야의전문가가함께참여해야합니다. 데이터이해 (Data Understanding) 분석을위한데이터수집과데이터속성을이해하는과정으로데이터품질에대한문제점을식별하고숨겨진인사이트를발견하는단계입니다. 초기데이터수집, 데이터기술분석, 데이터탐색, 데이터품질등의확인이필요한단계입니다. 데이터준비 (Data Preparation) 4

수집된데이터에서분석기법에적합한데이터를편성하는단계로써데 이터의정제, 새로운데이터생성, 데이터업데이트등, 자료를분석가 능한상태로만드는과정이포함됩니다. 모델링 (Modeling) 다양한모델링기법과알고리즘을선택하고모델링과정에서사용되는파라미터를최적화하는단계로, 필요시데이터준비단계를반복할수있습니다. 모델링결과를테스트용데이터셋으로평가하여모델의과적합 (Overfitting) 의문제를확인합니다. 평가 (Evaluation) 모델링결과가프로젝트목적에부합하는지평가하는단계로데이터마 이닝결과를최종적으로수용할것인지판단합니다. 전개 (Deployment) 모델링과평가단계를통하여완성된모델을실업무에적용하는단계입니다. 이를위해전개계획을수립하고모니터링과모델의유지보수계획을마련합니다. 모델은적용되는비즈니스도메인특성, 입력되는데이터의품질편차, 운영모델의평가기준에따라생명주기 (Life Cycle) 가다양하므로상세한전개계획이필요합니다. 데이터마이닝의적용부문 데이터마이닝은대표적으로다음과같은부문에적용되어결과를도출할수있 습니다. 분류 (Classification) 분류는데이터분석의가장기본적인형태이면서가장광범위하게적용되는분야중하나입니다. 일정한데이터집단을특정기준에따라분류하는것입니다. 예를들어, 경쟁사로이탈했거나이탈할가능성이있는고객을분류해볼수있습니다. 또는, 고객의구매이력과프로파일을바탕으로고객의성향을파악하여적절한제품을추천하는데에도쓰일수있습니다. 분류를위해사용되는대표적인데이터마이닝기법에는 KNN, SVM 알고리즘등이있습니다. 예측 (Forecasting) 5

대용량데이터집합내의패턴을기반으로미래를예측할수있습니다. 즉, 주어진데이터에근거하여모델을만들고해당모델을이용하여새 로운사례에대한예측을하는것으로생각할수있습니다. 군집화 (Clustering) 여러가지비슷한속성을공유하는몇개의집합으로구분하여군집을구성하도록합니다. 군집화는미리정의된속성에대한정보를가지지않는다는점에서분류와다릅니다. 연관성규칙 (Association) 장바구니분석 (Market Basket Analysis) 이라고도불리는연관성규칙은동시에발생한사건간의관계를정의합니다. 예를들어, 인터넷쇼핑몰및오프라인매장등에서고객이동시에구입하는상품들을분석하여함께판매되는패턴이강한연관된상품을찾는것입니다. 연속성 (Sequencing) 특정기간에걸쳐발생하는관계를규명합니다. 기간의특성을제외하면 연관성분석과유사하다고할수있습니다. 데이터마이닝의주요기법 마이닝은통계학에서부터패턴인식에이르는다양한계량기법을사용합니다. 데이터마이닝기법은통계학쪽에서발전한탐색적자료분석, 가설검정, 다변량분석, 시계열분석, 일반선형모형등의방법론과데이터베이스쪽에서발전한 OLAP ( 온라인분석처리 :On-Line Analytic Processing), 인공지능진영에서발전한 SOM, 신경망, 전문가시스템등의기술적인방법론이쓰입니다. 데이터마이닝에서사용되는대표적인기법은다음과같습니다. K- 최근접이웃알고리즘 (knn, k-nearest Neighbors) 6

그림 3. knn 알고리즘개념 knn 알고리즘은범주를알지못하는데이터가있을때, 학습데이터중 가장근접한 k 개의데이터를이용해범주를예측하는분류방법입니다. 범주가미리정해진학습데이터들과의거리를각각측정하여거리가가 장가까운 k 개의데이터중다수가속해있는범주의클래스로소속시키 게됩니다. 이미지나비디오에서얼굴과글자를인식하는컴퓨터비전 App, 개인별 추천영화예측, 특정단백질과질병을추출하는데사용하는유전자데 이터의패턴식별등에이용되는데이터마이닝기법입니다. 인공신경망 (ANN, Artificial Neural Network) 그림 4. 인공신경망개념 생물학의신경망에서영감을얻은통계학적학습알고리즘입니다. 시냅 스의결합으로네트워크를형성한인공뉴런이학습을통해시냅스의 7

결합세기를변화시켜문제해결능력을가지는비선형모델입니다. 일반적으로입력층 (Input Layer), 은닉층 (Hidden Layer), 출력층 (Output Layer) 로나뉘는다층인공신경망알고리즘을사용합니다. 은닉층에서는입력층에서입력변수를전달받아가중합을계산후, 전이함수에적용하여출력층으로전달합니다. 인공신경망은패턴인식, 금융시장예측, 금융기관에서의고객신용평점, 사기거래탐지, 기업파산가능성예측등에서활용됩니다. 유전알고리즘 자연계에서생물이다음세대에게유전자를전달하면서환경에적응한염색체가살아남도록교차와돌연변이에의해진화하는과정을모델링한것으로주어진문제에대한가능한해 (candidate solution) 들을컴퓨터상의유전자형태로표현한후이들을유전법칙과적자생존의법칙에따라점차진화시켜최종에는최적해에이르도록만드는방법입니다. 유전알고리즘은수치적함수의최적화, 환율변화예측, 이동로봇의경 로계획, 자연언어처리, 패턴인식등에서사용됩니다. 의사결정나무 (Decision Tree Learning) 그림 5. 의사결정나무를통한결정트리학습의예 특정타겟변수 (target variable) 에의해여러가지성질의데이터를보다유사한성질의소그룹으로분류하거나예측하는것을말합니다. 의사결정규칙을나무구조로도표화하여관심대상이되는집단을몇개의소집단으로분류하여수행합니다. 8

이런결정트리학습법은데이터마이닝에서일반적으로사용되는방법 론으로, 몇몇입력변수를바탕으로목표변수의값을예측하는모델을 생성하는것을목표로합니다. 주로 DB 마케팅, CRM, 시장조사, 의학연구, 품질관리등에서사용되고있 습니다. SVM(Support Vector Machine) 기계학습의한분야로 knn 과함께대표적인데이터분류기법입니다. 주어진데이터점들이두개의클래스안에각각속해있다고가정했을 때, 새로운데이터점이두클래스중어느곳에속하는지예측합니다. 일반적으로여러초평면 (Hyperplane) 들중에서가장가까운각클래스의 데이터점들간의거리 (Margin) 를최대로하는초평면을선택합니다. 그림 5. SVM 에서의초평면을통한분류개념 주로주가등락예측, 스팸메일분석, 이미지인식, 패턴인식, 텍스트분 류등에서활용됩니다. 이밖에주어진새로운문제를과거의유사한사례를바탕으로주어진문제의상 황에맞게응용하여해결해가는사례기반추론 (CBR) 과데이터안에존재하는항 목간의연관규칙 (association rule) 을발견하는연관성규칙등이있습니다. 데이터마이닝의다양한활용분야 대용량데이터베이스가구축되어있다면, 데이터마이닝을활용할수있습니다. 9

대표적으로데이터마이닝을활용하는예는주로다음과같습니다. 카드도용사고방지 (fraud detection) 위험관리 (risk management) 고객불만관리 (claim prevention) 고객유지 (customer retention, churn management) 고객유치 (customer acquisition) 고객세분화및프로파일링 (customer segmentation and profiling) 수요및판매예측 (forecasting) 가격산출 (pricing) 마케팅효과관리 (campaign effect analysis) 타겟마케팅 (target marketing) 텔레마케팅 (tele marketing) 다이렉트메일링 (direct mailing) 교차판매 (cross-selling/up-selling) 이외에산업별로데이터마이닝을활용할수있는분야는다음과같습니다. 소매업 생산품들간의각구매시점을이용하여생산품간의연광성을찾아내는 장바구니분석 시간에따른구매행위에대한지식을얻기위한시계열패턴조사 금융업 과거사기행위로판명된신용카드거래와행동패턴을분석하여사기 적발시스템구축. 특정고객집단을찾아내어차별화된서비스를제공하는고객집단분류 고객의시간에따른가치를예측하고, 이에따라개개의고객집단에알 10

맞은서비스제공하는라이프사이클예측관리 고객성향과소비패턴을분석한고객맞춤형상품설계 제조업 공정환경의복잡함, 작업의효율성및품질의우수성을동시에개선 공정과정의최적화, 에너지소비의최소 품질관리및자동화검사 보건의학 전염예방과관리및맞춤형의료서비스제공 유전체데이터를활용한질병예방 / 진단 / 처방 / 관리 질병예방관리시스템개발 에너지와공공산업 에너지수요량을예측하여날씨와변화와정전에신속대비 원유탐사에있어서지층의변화 데이터마이닝수행시고려사항 효과적이고효율적인데이터마이닝의결과를얻기위해서몇가지고려할만한 사항은다음과같습니다. 데이터의정리, 분류와선별 데이터마이닝수행에있어서가장중요한부분은마이닝의대상이되는데이터정확성입니다. 부정확한데이터의오류를수정해주는기법인데이터클리닝 (Data Cleaning) 을통해신속하고정확한데이터를얻어야합니다. 데이터가내포하는정확한의미의파악 데이터마이닝을수행하는프로그램은입력된데이터를프로그램의논 리에따라처리하는하나의도구에불과하며입력된데이터의의미파 악과결과해석은전적으로분석자의몫입니다. 따라서, 데이터가의미 11

하는정확한내용을알기위해서는분석하고자하는작업과관련한주 요업무에대한이해가필요합니다. 메타데이터 (Mete data) 와외부자료의활용 메타데이터는데이터의데이터를의미한다. 외부자료란외부시장의조 사기관등으로부터입수된자료를말합니다. 이러한자료를활용하면 큰수고를절약하면서의미있는정보를활용할수있게됩니다. 사용자의명확한대상규명과사용자요구의반영 현업인터뷰등을통하여사용자의요구를구체적으로파악하는작업이 개발초기단계에서수행되어야합니다. 고객정보의사생활침해문제 고객의정보를잘분석하여얼마나올바르게잘활용하느냐는인터넷비즈니스의핵심적과제인동시에사업자의윤리의식이반드시필요한부분이기도합니다. 인터넷을통해획득한고객데이터의활용은개인고객의프라이버시를침해하지않도록신중한고려가있어야합니다. 적합한툴 (Tool) 의선택과외부전문가의활용 데이터마이닝프로그램은제품별로강점과약점을가지고있기때문에기업의업종과활용분야를고려하여특성에맞는선정을하는것이좋습니다. Tool사용에있어서전문지식을갖춘개발자를굳이요구하지는않지만, 통계분석의가정과이에다른결과해석의한계를이해하는데는충분한경험의전문가의도움이필요합니다. 끝맺음 빅데이터시대가도래함에따라기업들에게있어서데이터마이닝의중요성은점차커지고있습니다. 기존의통계적분석도구나 OLAP은세워진모형이나가설에의거해이를검증하거나요약보고하는데초점을맞추고있는데반면, 데이터마이닝의목적은궁극적으로예측에초점을두고있습니다. 또한, 데이터마이닝에사용되는인공지능기법은그어떠한기법보다모형의 12

예측성과를높이는데가장우수한기법이기때문에점차적으로데이터마이닝 의중심이되어가고있습니다. 최근들어, 이미지와동영상및음악등의정형화되어있지않은데이터가폭증함에따라이들비정형데이터 (unstructured data) 의마이닝이중요해지고있으며이들데이터로부터기업에게유용한정보를찾아내는기법이나날이발전하고있습니다. 데이터가범람하고있는시대에서이들로부터유용한정보를찾아내어활용하는정도에따라기업의경쟁력이좌우되고있음을실감할수있습니다. 따라서, 데이터마이닝능력의보유여부는 4차산업혁명에서기업의가장핵심적인경쟁력이될것입니다. 글쓴이 김병희 brian.kim@goldenwired.com 데이터분석실 CTO, 주식회사골든와이어드 최사비나 sabina.choi@goldenwired.com 데이터분석실연구원, 주식회사골든와이어드 참고자료 [1] 류혜경, 데이터마이닝의이해와적용사례 [2] Galit Shmueli, Nitin R. Patel, Peter C. Bruce( 조재희, 조성배 ), 비즈니스인텔리 전스를위한데이터마이닝 [3] 비정형데이터마이닝의이해, http://iamdaisy.tistory.com/27 [4] 네이버지식백과, 비정형데이터마이닝 [5] 의료통신산업과공공부문의빅데이터활용과사례연구 [6] LGCNS, 데이터마이닝소개와분석방법, http://blog.lgcns.com/1268 13

[7] IBM, CRISP-DM 도움말개요, https://www.ibm.com/support/ [8] 이현석, 지식경영과사례기반추론, http://smartbos.tistory.com/77 [9] ( 유전알고리즘 ) Genetic Algorithm(GA) 2, http://yoonka.tistory.com/289 14