Copyright c 2006 John Wiley & Sons, Inc. All Rights Reserved. Authorized translation of the edition published by John Wiley & Sons New York, Chichester, Brisbane, Singapore and Toronto. No part of this book may be reproduced in any form without the written permission of John Wiley & Sons, Inc. 이책은 c 2006 Data Mining for Business Intelligence: Concepts, Techniques, and Applications in Microsoft Office Excel with XLMiner 의번역판으로 John Wiley & Sons, Inc. 와의계약에따라본사의허락없이어떠한형태의번역이나번안출판도할수없습니다. Data Mining for Business Intelligence: Concepts, Techniques, and Applications in Microsoft Office Excel with XLMiner Galit Shmueli / Nitin R. Patel / Peter C. Bruce
차례 서문 ⅷ 머리말 ⅹ 감사의글 ⅻ 번역서문 ⅹⅳ 제1장데이터마이닝의개요 1.1 데이터마이닝이란무엇인가? 1 1.2 데이터마이닝은어디에서사용되는가? 2 1.3 데이터마이닝의기원 3 1.4 데이터마이닝의급속한성장 4 1.5 왜다양한데이터마이닝기법들이존재하는가? 6 1.6 용어와표기 7 1.7 이책의구성도 10 제2장데이터마이닝프로세스 2.1 개요 13 2.2 데이터마이닝의주요개념 13 2.3 지도학습과자율학습 16 2.4 데이터마이닝의수행단계 16 2.5 데이터마이닝의예비단계 19 2.6 모형구축 : 선형회귀분석을이용한예 33 2.7 엑셀을이용한데이터마이닝 41 연습문제 46 차례 ⅲ
제3장데이터탐색과차원축소 3.1 개요 51 3.2 예제를통한고찰 51 3.3 데이터의요약 53 3.4 데이터의시각화 56 3.5 상관관계분석 58 3.6 범주형변수의범주개수축소 59 3.7 주성분분석 59 연습문제 70 제4장분류및예측모형의성과평가 4.1 개요 73 4.2 분류모형의성과평가 73 4.3 예측모형의성과평가 99 연습문제 103 제5장다중선형회귀분석 5.1 개요 105 5.2 설명모형 VS 예측모형의구축 106 5.3 회귀방정식의추정과예측 107 5.4 선형회귀분석의변수선정 112 연습문제 119 제6장 3가지유형의단순분류기법 6.1 개요 127 6.2 단순규칙 129 6.3 단순베이즈분류모형 130 ⅳ 비즈니스인텔리전스를위한데이터마이닝
6.4 -최근접이웃기법 143 연습문제 149 제7장분류와회귀나무 7.1 개요 153 7.2 분류나무 154 7.3 반복적분할 154 7.4 예제 1: 승차식잔디깎기기계 155 7.5 분류나무의성과평가 163 7.6 과적합없애기 168 7.7 분류나무에의한분류규칙 174 7.8 회귀나무 175 7.9 모형의장단점과추가고려사항 177 연습문제 180 제8장로지스틱회귀분석 8.1 개요 185 8.2 로지스틱회귀분석 187 8.3 선형회귀분석이범주형반응변수에적합하지않은이유 198 8.4 분류성과의평가 200 8.5 전체적합도평가 202 8.6 분석예제 : 항공기연착예측 205 8.7 3개이상의집단을분류하는로지스틱회귀분석 213 연습문제 217 제 9 장신경망모형 9.1 개요 221 9.2 신경망모형의개념및구조 222 차례 ⅴ
9.3 데이터로부터신경망학습시키기 223 9.4 사용자의입력요구사항 240 9.5 예측변수와반응변수사이의관계를탐색하기 243 9.6 신경망의장단점 243 연습문제 246 제10장판별분석 10.1 개요 249 10.2 예제 1: 승차식잔디깎기기계 250 10.3 예제 2: 개인대출승인 251 10.4 집단으로부터관찰치에이르는거리 252 10.5 피셔의선형분류함수 254 10.6 판별분석의분류성과 257 10.7 사전확률 259 10.8 비대칭오분류비용 260 10.9 3개이상의집단분류 260 10.10 판별분석의장단점 263 연습문제 265 제11장연관성규칙 11.1 개요 269 11.2 거래데이터베이스내의연관성규칙발견 269 11.3 예제 1: 휴대전화보호용덮개구매데이터 271 11.4 후보규칙의생성 271 11.5 연관성규칙의선택 273 11.6 예제 2: 유사한도서구매를위한규칙 282 11.7 요약 283 연습문제 285 ⅳ 비즈니스인텔리전스를위한데이터마이닝
제12장군집분석 12.1 개요 289 12.2 예제 : 공공전력사업체 291 12.3 두레코드간의거리계산 294 12.4 두군집간의거리계산 300 12.5 계층적병합군집화 302 12.6 비계층적군집화 : -평균알고리즘 308 연습문제 313 제13장사례연구 13.1 찰스도서클럽 317 13.2 독일 ( 금융기관 ) 의개인신용평가 327 13.3 타이코소프트웨어카탈로그회사 331 13.4 목욕세제소비자들에대한시장세분화 336 13.5 우편광고를이용한기금모금 340 13.6 카탈로그교차판매 343 13.7 부도예측 345 참고문헌 349 찾아보기 351 [ 온라인교육과정안내문 ] 여러분의통계학실력을국제시장에적합하게만들어줍니다. 361 차례 ⅶ
서문 대용량데이터로부터유용한정보를추출하는기술인데이터마이닝은오늘날그중요성이점점더커지고있다. 예를들어전자메일스팸필터기의일부는데이터마이닝으로생성된규칙을사용하고있다. 여기서데이터마이닝은수백만개의전자메일메시지를조사하여스팸인지여부를판별하는규칙을생성시킨다. 한편, 온라인쇼핑몰은실시간데이터마이닝기법을이용하여고객들에게 제품을구입한사람들은또한 제품을구매하는경향이있다 는정보를알려준다. 또한은행들은어떤대출신청자들이대출금을갚지못할것인지를결정하거나, 세금관할당국이어떤세금환급이가장불법적일가능성이높은가를확인해야하는경우, 또는카탈로그업체들은가장구매할가능성이높은목표고객을정할때데이터마이닝의도움을받을수있다. 데이터마이닝은수치형데이터만분석하는것은아니다. 텍스트마이닝 (text mining) 은구글 (Google) 과야후 (Yahoo) 같은검색엔진이사용자가제시한질의어의관련성에따라문서들을정렬시킴으로써이들이찾고자하는자료들을얻는데도움을준다. 이과정에서검색엔진들은질의어와관련된스폰서광고를함께연동하여화면에정렬시킴으로써이와같은검색서비스를유효한수익사업으로변화시켰다. 수많은종류의기업들에의해거래되는정보의양은엄청나며또한그규모는이를사용할수있는조직의능력보다더빠르게증가하고있다. 따라서성공한기업들이란자신들이접근할수있는엄청난양의데이터를효과적으로이용하는기업들이다. 즉, 성공한기업들은좀더나은예측을하거나좀더나은의사결정을하고더좋은전략을수립하는데이를효과적으로이용한다. 많은기업들이동일한방법으로정보를효과적으로사용할경우경쟁자들과비교해서이득이적을지모른다. 따라서자신들에게유리한방향으로모든가능한이익을얻기위해서는데이터마이닝이필요하다. 그러나계량분석에숙련된경영분석전문가에게만데이터마이닝이필요한것은아니다. 성공적인관리자는이제데이터마이닝의가능성과한계점에대해정확하게알필요가있다. 그렇다면어느수준만큼알아야하는가? 데이터마이닝을상위수준에서대략적으로살펴본다면데이터마이닝이란기업을위해무엇을할수있는지알려주지만, 실제데이터 ⅷ 비즈니스인텔리전스를위한데이터마이닝
를가지고모델을구축함으로써얻을수있는통찰력을제공해주지는않는다. 반면에컴퓨터과학, 데이터베이스또는통계적관점에서데이터마이닝을매우기술적으로접근하게되면의사결정에거의중요하지않은, 너무세부적인내용에빠지고마는난관에봉착할수있다. 본질적으로관리자는사업또는타부서의문제들을기술팀에게보내기전에적절한통계적인문제로분석할수있어야한다. 그러나실제데이터를이용하여다양한현실문제에대한모델개발을직접경험하지못한다면이문제를신뢰성있게다루기가어려울것이다. 이책의초점은바로실제데이터와사례그리고엑셀기반프로그램을이용하여데이터마이닝모형들을구축하고이를서로비교함으로써최소한의학습효과를얻는것이다. Daryl Pregibon, Google 사, 2006 서문 ⅸ
머리말 이책은 MIT의경영대학원 (Sloan School) 의데이터마이닝강좌에서출발되었고, 메릴랜드대학의 Smith 경영대학원과 Statistics.com의데이터마이닝강좌에서교재로사용되는동안수정, 보완되었다. 본강좌를준비해오면서알게된사실은데이터마이닝을비즈니스관점에서다룬수많은휼륭한책들이존재하지만, 강의목표가이러한알고리즘을실행하기위해필요한기술과툴을학생들에게습득시키는데있다고할때, 이러한책에서다루는데이터마이닝의통계및기계적학습알고리즘의범위가실제적인가르침을제공할수있을만큼상세히기술되고있지않다는것이다. 반면에데이터마이닝에관한상당히기술적인책들이많이존재한다. 그러나이러한책들은통계연구자나고급과정의대학원생들을위한것이며, 경영학과학생들을가르치는데적합한사례중심의비즈니스컨텐츠를제공하지는못하고있다. 따라서이책은데이터마이닝기법을배우는경영학전공학생들또는경영실무자들을위한책이며, 이책을집필한목적은다음과같다. 1. 분류, 예측, 축소, 탐색등의주요데이터마이닝기법에대한이론적이며실무적인이해를제공하는것이다. 2. 주요데이터마이닝기법들에대한경영의사결정의시각을제공하는것이다. 3. 실제비즈니스사례들을이용함으로써데이터마이닝기법에대한적용과이해를기술하는것이다. 본교재의사례예시는독자들이사전지식없이도마이크로소프트엑셀을이용하여본인이직접알고리즘을따라가면서실행할수있도록구성되었다. 실험이없는자연과학수업이불완전한것처럼실제적인데이터작업이없는데이터마이닝수업은핵심이빠진수업이된다. 따라서이책을탄생시킨 MIT 데이터마이닝수업은엑셀을이용한원론적인계량분석수업에따랐으며, 누구나실제적인분석을쉽게할수있도록하였다. 이렇게엑셀을이용한데이터마이닝은자연스런발전과정으로보인다. 이책의중요한특징은바로엑셀을사용한다는것이며, 이것은경영분석가들에게친숙한환경이다. 이 ⅹ 비즈니스인텔리전스를위한데이터마이닝
책에서설명된데이터모음을포함한모든데이터마이닝알고리즘은엑셀추가설치프로그램인 XLMiner 를통해제공된다. 사례와문제풀이를위한데이터는 www.dataminingbook.com에서제공하고있다. 이책의출발은데이터마이닝강의를위한사례중심의안내서에대한필요성에서시작되었다. 그러나현재사용하지않지만, 데이터마이닝기법을적용하려고고민중인분석가들과컨설턴트에게도또한유용하고실제적인안내서가될수있을것이다. 머리말 ⅹⅰ
감사의글 저자들은이책의수준을향상시키는데도움을준많은분들께감사를드린다. Stastics.com의데이터마이닝과정에서수년간이책의초고를사용해온 Anthony Babinec은우리가책을상세히그리고전문적으로교정하는데도움을주었다. 또한 Dan Toy와 John Elder 4세는저자의프로젝트를열렬히응대해주었고, 초고에대한상세하고유용한조언을해주었다. Boaz Shmueli, Raquelle Azran, Bruce McCullough, 그리고 Adam Hughes 는마지막원고에대해편집과정에서상세한조언과제안을해주었다. 인도비즈니스스쿨 (Indian School of Business) 의데이터마이닝과정에서최신원고를사용한 Ravi Bapna 는귀중한조언과유익한제안을해주었다. 메릴랜드대학교 Smith 경영대학원 (Smith School of Business) 동료인 Shrivardhan Lele, Wolfgang Jank, 그리고 Paul Zantek는실제적인충고와조언을해주었다. 우리는귀중한데이터를위해도움을준 Robert Windle과 MBA 대학원생인 Timothy Roach, Pablo Macouzet, 그리고 Nathan Birckhead 들에게감사를전한다. 이책은 MIT 경영대학원 (Sloan School of Management) 의교수진으로부터교육차원의지원이없었다면, 빛이바랬을것이다. 특별히 James Orlin, Robert Freund, Roy Welsch, Gordon Kaufmann과 Gabriel Bitran 에게감사를드린다. Sloan 경영대학원에서데이터마이닝과목의조교로서 Adam Mersereau는이책의원천이된노트와사례들에대해상세한조언을해주었고, Romy Shioda는여기에사용된여러사례와실습을준비하는데도움을주었다. Mahesh Kumar 는군집분석에대한자료에도움을주었다. 저자들은 XLMiner 뿐만아니라이책의노트를보완하게끔수업에서이루어진토론을모의실험해준것에대하여 Sloan 경영대학원의 MBA 학생들에게감사를표한다. Chris Albright, Gregory Piatetsky-Shapiro, Wayne Winston, 그리고 Uday Karmarkar는저자들에게 XLMiner 사용에대한유익한충고를해주었다. Anand Bodapati는데이터와더불어조언을함께제공해주었다. Suresh Ankolekar와 Mayank Shah 는여러사례들을개발하는데도움을주었고, 가치있고교육적인조언을제시해주었다. Vinni Bhandari 는찰스도서클럽 (Charles Book Club) 사례를만드는데도움을주었다. ⅹⅱ 비즈니스인텔리전스를위한데이터마이닝
저자들은통계학과데이터마이닝의관계에관한사고력을키워준토론에대해하버드대학교의 Marvin Zelen, L. J. Wei와 Cyrus Mehta, 그리고인도 Pune 대학교의 Anil Gore 에게감사의마음을전하고싶다. 또한복잡시스템의모형화에있어서데이터마이닝의역할에대한많은격려가되는아이디어들을일깨워준 MIT 공학시스템학부의 Richard Larson 에게감사를드린다. 그들은우리가새롭게발전하고있는데이터마이닝분야에대한철학적관점을균형있게형성하는데도움을주었다. 수년동안열정적으로 XLMiner 의개발을이끌고지속적으로그작업을해온 Ajay Sathe 와 XLMiner 개발팀의동료인 Suresh Ankolekar, Dipankar Mukhopadhyay, V. Subramaniam, Ajit Ghanekar, Anurag Srivastava, S. V. Sabnis, Yogesh Gajjar, Bharat Lande, Ramesh Raman, Ayan Khare, Usha Sathe, 그리고 Rupali Desai에게감사를드린다. 또한본저자들은조판, 그림, 색인작업등을도와준 Ashwini Kumthekar, Achala Sabane, Michael Shapard, Heidi Sestrich와, 교재의디자인작업에도움을준 Stephen Few에게, 그리고마지막으로 XLMiner 및이책의초고를사용함으로써이를강의하는많은교수들에게가이드역할을해준 Valerie Troiano 에게고맙게생각한다. 감사의글 ⅹⅲ
번역서문 불과몇년전만하더라도데이터마이닝이란용어가생소하게들렸지만, 이제는데이터마이닝이라는용어가일상생활에매우광범위하게급속도로퍼져나가고있다. 우리는지금도매일매일구글, 네이버등에서제공하고있는검색엔진을통해실시간으로전해지는각종정보들을접하고있다. 그런데이러한정보는실제로는정보라는의미에앞서서일차적으로데이터성격의특성을갖는다. 다시말해서데이터가정보로서의성격을갖기위해서는정보가가지는몇가지특성을갖고있어야하며, 이러한조건이충족되어야진정한의미에서의정보로서그역할을다하게되는것이다. 데이터가정보가되기위해서반드시거쳐야하는과정이있다면, 그것은바로데이터를처리하는과정이다. 데이터처리과정은단순히과거의데이터를요약하는원시적인데이터처리방식에서부터실시간으로형성되고있는가상공간에서의네티즌들의관심사를인터넷상의데이터의흐름과접속자료를토대로해서데이터마이닝이라는분석기법을통해의미있는정보를생성하고, 이를다양한용도로활용하기에이르기까지그범위는매우광범위하다. 그동안데이터마이닝이라는학문분야는불과 10여년사이에엄청난속도로발전을거듭하고있다. 예전에는주로대학원수업에서데이터마이닝분야를다루어왔지만, 이제는학부수업에서도이를소개하고교육시키기시작함으로써데이터마이닝에대한인식은점차확산되고있는상황에놓여있다. 이와관련해서교육현장에서겪는가장큰애로사항중의하나는데이터마이닝수업에적합한교재의선택이생각만큼쉽지않다는것이다. 그동안좋은양서들이계속해서나오고있는실정이지만, 그럼에도불구하고아쉬운부분을채워줄만한괜찮은교재를찾기란말처럼쉽지가않았다. 우연히기회가되어접하게된이책은독자들에게데이터마이닝을좀더쉽게이해할수있는좋은책이라는확신을갖게되었고, 이에사이텍미디어사의도움으로이책을번역출간하게되었다. 어떤학문도마찬가지지만배움에는정도가없다고본다. 독자들이데이터마이닝에대한갈증을본번역서를통해조금이나마해소할수있다면, 본번역자들에게는크나큰영광이다. 이와관련해서본역자들은원저자가원래전달하려고한데이터마이닝에대한개념을 ⅹⅳ 비즈니스인텔리전스를위한데이터마이닝
이책에서최대한쉽게풀어서번역하려고노력하였음을밝히고자한다. 특히, 원문에제시된용어나개념중에서보완설명이필요하거나중요하다고판단되는내용에대해서는독자의이해를돕기위해서별도의 일러두기 를통해이에대한설명을추가보완하였다. 사회현상을분석하고자할때무엇보다중요한것은이를어떻게객관적으로접근하여우리가원하는답을찾을것인가에있다고본다면, 이책에서제시하는주요데이터마이닝기법들은독자들에게수많은사회현상을좀더쉽게이해하고더나아가다양한시각으로사회과학적문제들을꿰뚫을수있는분석적통찰력을줄것으로기대한다. 마지막으로본번역서의출간에즈음하여이책의원저자인 Shmueli, Patel, Bruce 가한국의독자들을위해상용소프트웨어인 XLMiner 를무료로사용할수있도록배려해주신것에대해한국독자들을대신하여깊은감사를드린다. 2009 년 2 월역자일동 역자약력신택수 tsshin@yonsei.ac.kr 연세대학교경영학과학사연세대학교경영학과석사 KAIST 경영공학박사 KPMG 컨설팅컨설턴트역임현재, 연세대학교정경대학경영학부부교수 홍태호 hongth@pusan.ac.kr KAIST 산업공학과학사 KAIST 경영정보공학과석사 KAIST 경영공학박사딜로이트컨설팅컨설턴트역임현재, 부산대학교경영학부부교수 번역서문 ⅹⅴ