Chapter 1 데이터마이닝개요 전성해청주대학교 http://delab.cju.ac.kr shjun@cju.ac.kr
데이터분석으로미래예측 경영이쉽다. 조선일보, 2011년 8월 8일 ( 월 ) 11판 ( 조선경제 ) 내용 수백만명의고객정보 과거소비바탕으로성향파악 마케팅비용절반아낀에이비스 펩시, 시장변화감지대응해재고처리비용 6억달러줄여 실적큰기업, 데이터활용 5배 데이터분석, 공공분야도위력 세금탈루미리알고, 맞춤형진료도척척 2
빅데이터 (Big Data) 사회 조선일보 2011 년 5 월 28 일 -29 일 ( 토 - 일 ) 10 판 내용 줄줄새는개인정보가차곡차곡 누군가내사생활을 분석하고있다. 웹사이트방문기록, 검색통계, 소셜미디어기록까지차 곡차곡 기업들막대한개인정보분석해경영에활용하기도 단순위치정보로는개개인식별할수없어, 2,3 차가공하면개인정보추출, 해킹통해유출될위험도 3
Eagle Eye, 2008 핸드폰, 현금지급기, 거리의 CCTV, 교통안내 LED사인보드, 신호등등그들주변의전자장치와시스템이그들의행동을조종한다. 4
데이터마이닝의필요성 데이터의폭발적증가 자동화된데이터수집도구와데이터베이스기술의발전으로인하여막대한양의데이터가저장소 (repository) 에쌓임 데이터는풍부하지만정보 ( 지식 ) 는빈약 해결방안 Data Warehousing Data mining 5
Data Mining 광산 데이터 채굴도구 채굴도구 - 통계학, 인공지능 ( 기계학습 ) 금 지식 6
데이터마이닝은 새로운것이아니다. We are all data miners 7
광고비와판매액 다음자료는과거의광고비와판매액자료이다. 광고비가 5 일때판매액은얼마일까? ( 단위 : 천만원 ) 8
방법 1 과거에광고비가 5 였을때판매액자료를이용 (5, 60), (5, 62), (5, 48) 따라서판매액은다음과같이예측됨 (60+62+48)/3 = 56.7 방법 1 관련기법들 K-nearest neighbor Case Base Reasoning( 사례기반추론 ) 9
방법 2 10
방법 2 광고비 (x) 와판매액의관계를나타내는수식을구함. 판매액 = 10.948 광고비 2.3592 따라서광고비 5 일판매액의예측은다음과같이구함. 10.948 5-2.3592=52.4 방법 2 관련기법들 Regression( 회귀분석 ) 11
방법 3 통계적학습이론 (statistical learning theory) 를이용하여광고비가 5 일때의판매액의예측값을구함. > m=svm(y~x, data=data) > m Call: svm(formula = y ~ x, data = data) Parameters: SVM-Type: eps-regression SVM-Kernel: radial, cost: 1 gamma: 1 epsilon: 0.1 Number of Support Vectors: 16 > p=predict(m, 5) > p[1] 1 57.85287 12
방법 3 방법 3 관련기법들 Statistical Learning Theory Support Vector Machine(SVM): 분류 (classification) Support Vector Regression(SVR): 회귀 (regression) Support Vector Clustering(SVC): 군집화 (clustering) 13
어떤방법을선택할까? 간단한방법 vs. 복잡한방법 14
Data Mining & CRM 15
Alternative Names Data mining: 잘못된명칭이아닌가? Knowledge discovery in databases (KDD) KDD Cup Knowledge extraction( 지식추출 ) Data analysis Information harvesting, 16
Data mining & Data analysis Data analysis 에서좋은결과를제공하던분석기법이반드시 data mining 에서도같은결과를제공하지는않는다. Data Mining Data Analysis 데이터크기 대용량 DB 소규모 text 데이터특징 주로 incomplete 주로 complete 17
Data Mining 대용량 DB로부터의사결정에필요한지식을발견 (discovery) 하는일련의과정 지식의발견 (Knowledge Discovery) - 데이터를정보로바꾸는숨겨진패턴 (hidden patterns) 의발견 지식의사용 (Knowledge Deployment) - 마이닝의결과를지식으로사용하여효과적인의사결정을수행 협의의데이터마이닝 : 지식의발견 데이터마이닝 : 지식의발견 + 사용 18
Data Mining Knowledge Discovery Data Information Knowledge Decisions & Actions Knowledge Deployment 19
Data Mining: Definition Data Mining is the process of extracting and presenting actionable, hidden and novel information from data Not (Query and OLAP tools, SQL) Machine learning & Statistics 20
OLTP OLTP (on-line transaction processing) OLAP (on-line analytical processing) DM (data mining) 21
OLAP 의장, 단점 OLAP 의장점 OPAL 의단점 - 속성들을동시에고려한다차원시각적기법이우수 - 유사한특성을지닌고객집단을손쉽게파악 - 시간의흐름에따른정보변화를파악 - 정상에서벗어난고객리스트를손쉽게도출 - 현업종사자의주관적판단에의존 - 연속형속성에대한처리에한계 - 정량화된측도에의한미래예측이어려움 - 속성들간의은닉패턴도출이어려움 22
데이터마이닝의장, 단점 데이터마이닝의장점 데이터마이닝의단점 - 다양한마이닝기법들을이용하여예측력 이우수 - 다차원속성들에대한요약기능이 - 수많은속성들에대한복합적고려가가 OLAP에비해떨어짐 능 23
숨겨진패턴 (hidden pattern) X Y 원인 (X) 독립 (independent) 설명 (explanatory) 입력 (input) 결과 (Y) 종속 (independent) 반응 (response) 출력 (output) 목표 (target) 24
지식의계층구조 Meta Knowledge Knowledge Information Data Noise 25
지식의계층구조 잡음 (noise): 흥미롭지않거나불분명한아이템 데이터 (data): 아직특정한목적에대하여처리되지않은잠재적인아이템 정보 (information): 처리되어진데이터, 특정한목적의달성에도움이되도록데이터를처리, 가공한결과 지식 (knowledge): 의사결정을위해고도로특화된정보, 새로운사실이나결론에도달할수있는규칙 메타규칙 (meta-knowledge): 지식에대한지식, 적용가능한지식 26
전통적인통계분석과데이터마이닝 항목 전통적통계학 데이터마이닝 Data Source 텍스트 (text) 파일 관계형 DB Data Size 소규모 대용량 Data Repository Personal Computer 서버시스템, DW 데이터를보는 시각 비용의관점 작은데이터로많은결과 생성 수익의관점 데이터는 DB 에얼마든지존재 접근방법추정과검정지식, 규칙에대한발견 결과해석확률적해석재현성, 연구자경험에의한해석 모형선택기준모형의해석이중요예측력이중요 27
데이터웨어 하드웨어는인텔 (Intel) 이나모토롤라 ((Motorola) 에맡기고소프트웨어는마이크로소프트 (Microsoft) 나오라클 (Oracle) 에맡기면되지만데이터웨어는아무데도부탁할데가없다. 소프트웨어업체들도이것은못해준다. 정보시스템의성패는하드웨어에 20%, 소프트웨어에 30%, 데이터웨어에 50% 있다고보면거의정확하다 [ 문송천, 2002] 28
데이터마이닝의필요성 To solve BQ (business questions) that SQL-query and OLAP tools cannot adequately address Financial Example: 새로나온 Gold Credit Card에가장반응을크게할만한고객은? Communications Example: 경쟁사로떠날가능성이큰고객들은? Retail Example: 가격할인을통하여자사의수익을향상시킬수있는제품은?, MBA 29
Business Question 의예 ºÐ ¼ ü Á í ÇÁ Î ÆÄ ÀÏ ºÐ ¼ í ÀÚ»ê ºÐ ¼ í ±â ºÐ ¼ í Å ºÐ ¼ BQ ¹ø È Business Question Example Data View 1 Áö Á º í ½º Æ Çö Àç Áö Á Å í ¼ö ¹ í ¹ø È (ÁÖ ¹Î ¹ø È ), è Á ¹ø È, ¹ ½º Æ Â? Ź ÀÚ»ê, ÁÖ ½Ä Æò ¾, à ±Ç Æò ¾, í Ǣ¼º (ÀÎ ± Åë è ), Áö Á ¹ø È 2 ³ ÀÎ,¹ý ÀÎ í ÀÇ ±â º» Á º ³ ÀÎ í ÀÇ ½Å»ó Á º ¹ ¹ý ÀÎ ÀÇ Àç ¹«Çö Ȳ Àº? 3 ÀÚ»ê ±Ô ð º Áö Á º í ½º Æ ¹ Ź ÀÚ»ê ±Ô ð 5õ ø ÀÌ»ó ÀÎ Áö Á í µé Àº? 4 Áö Á º É º ÀÚ»ê º À Çö Ȳ Áö Á 40 ë í µé ÀÇ ¹ Ź ÀÚ»ê Æ Æ Æú À ± ¼º ºñ À² Àº? 5 ǢÁ ±â ±â µ í ½º Æ Ù À½ Þ ±â µ ÇÏ Â ¼ö ÀÍ Áõ ±Ç º À ÇÑ í µé Àº? 6 ǢÁ ±â ¾à Á ±â ÁØ í ºÐ Æ 2/4ºÐ ±â ¾à Á ÀÌ 1¾ï ÀÌ»ó ÀÎ í Àº î %ÀÌ ç ± ÀÎ? 7 Á¾ ñ º ÁÖ ½Ä ŠŠü á ³» ª ¹ý ÀÎ í ÀÇ ǢÁ Á¾ ñ ŠŠü á Çö Ȳ Àº? 8 í º ÀÔ Ãâ ±Ý ÆÐ ÅÏ í º ÀÔ Ãâ ±Ý Å À ÀÇ ÇÑ ÆÐ ÅÏ À Î ³ª Å ³ª Â? 9 ǢÁ ÀÔ Ãâ ±Ý ÆÐ ÅÏ í ½º Æ ±Ý ä ÀÏ ÀÔ ±Ý ÈÄ ù ä ÀÏ Ãâ ±Ý ÇÏ Â í Àº? í ¹ø È (ÁÖ ¹Î ¹ø È ), è Á ¹ø È, ¹ Ź ÀÚ»ê, ÁÖ ½Ä Æò ¾, à ±Ç Æò ¾, í Ǣ¼º (ÀÎ ± Åë è ), Áö Á ¹ø È, ¹ Ź ÀÚ»ê Áö Á ¹ø È, í ¹ø È, è Á ¹ø È, ¹ Ź ÀÚ»ê, ÁÖ ½Ä Æò ¾, à ±Ç Æò ¾, è Á ÀÜ í í ¹ø È, è Á ¹ø È, ¹ Ź ÀÚ»ê, ÁÖ ½Ä Æò ¾, à ±Ç Æò ¾, í Ǣ¼º (ÀÎ ± Åë è ), Áö Á ¹ø È ±â ÀÏ ÀÚ, í ¹ø È, ¼ö ÀÍ Áõ ±Ç è Á ¹ø È, ¼ö ÀÍ Áõ ±Ç Æò ¾, í Ǣ¼º (ÀÎ ± Åë è ) Å Å ÀÏ ÀÚ, í ¹ø È, Å Å À Çü, Å Å Ü, Å Å ¼ö ± Çö ¹æ ¹ý ì ¼± ¼ø À Fact in Data View Dimension in Data View OLAP 1 í ¼ö ( í ¹ø È ), í ½º Æ Áö Á (Áö Á ¹ø È ) OLAP 1 í ¼ö ( í ¹ø È ), í ½º Æ, ¹ Ź ÀÚ»ê ( ÁÖ ½Ä Æò ¾, à ±Ç Æò ¾ ), í Ǣ¼º ( É, Á ¾, ¼º º µî ) Áö Á (Áö Á ¹ø È ), í ± ºÐ ( ³ / ¹ý ÀÎ ), í OLAP 1 í ¼ö ( í ¹ø È ), í ½º Æ ÀÚ»ê ±Ô ð ( ¹ Ź ÀÚ»ê, ÁÖ ½Ä Æò ¾, à ±Ç Æò ¾, è Á ÀÜ í ) Áö Á OLAP 1 í ¼ö ( í ¹ø È ), í ½º Æ í Ǣ¼º ( É ). Áö Á (Áö Á ¹ø È ), ¹ Ź ÀÚ»ê ±Ô ð OLAP 1 í ¼ö ( í ¹ø È ), í ½º Æ ±â ( ±â ÀÏ ÀÚ ), ¼ö ÀÍ Áõ ±Ç í OLAP 1 í ¼ö ( í ¹ø È ) ±â, ¾à Á ¾ ±Ô ð í ¹ø È, Á¾ ñ í, Å ³» ª OLAP 1 Å Å ³» ª Á¾ ñ í, í ± ºÐ ( ³ /¹ý ÀÎ ) ÀÔ ±Ý ( í )ÀÏ ½Ã, ÀÔ ±Ý ¾, Ãâ ±Ý ¾, ÀÔ í, Ãâ í ÀÔ ±Ý ( í )ÀÏ ½Ã, ÀÔ ±Ý ¾, Ãâ ±Ý ¾, ÀÔ í, Ãâ í Mining 2 OLAP 2 í ½º Æ ÀÔ Ãâ ±Ý ÆÐ ÅÏ (ÀÔ ±Ý ( í )ÀÏ ½Ã, ÀÔ ±Ý ¾, Ãâ ±Ý ¾, ÀÔ í, Ãâ í ) 10 Áö Á º í º Åõ ½Å,±Ý À»ó Ç Æò ÀÜ Áö Á í µé ÀÇ 9 ù Æò ÀÜ ¹ ù Áö Á ¹ø È, í ¹ø È, è Á ¹ø È, Æò OLAP 1 Æò ÀÜ Áö Á, í ( í ¹ø È ), ±â Ãß ÀÌ º Ãß ¼ Â? ÀÜ 11 ǢÁ ±â ÀÚ»ê ±Ô ð º í È Àü À² 2/4ºÐ ±â ¹ Ź ÀÚ»ê 1¾ï ÀÌ»ó í µé ½Ã ÀÛ ±Ý ¾, Å Å ÀÏ ÀÚ, Å Å ¼ö, Å OLAP 1 È Àü À² ºÐ ¼ ( Å Å ¼ö, Å Å Ü ǢÁ ±â í ÀÚ»ê ±Ô ð ( Å Å ºÐ ¼ ÀÇ À Ź Å È Àü À² Àº? Å Ü, í ¹ø È, è Á ¹ø È, ¹ Ź, È Àü À² ) ÀÏ ÀÚ, ¹ Ź ÀÚ»ê, í ¹ø È, è ÀÚ»ê, È Àü À² Á ¹ø È ) 12 ¹Ì ¼ö í ½º Æ µ ¾ Á ø º ¹Ì ¼ö í ½º Æ Â? í ¹ø È, í ± ºÐ, è Á ¹ø È, ¹Ì ÇÁ Î ¼ ½º N.A ¼ö ±Ý ¾ ³ ¼± 13 Áõ ±Ç»ç º à ³Î º ¼ö ¼ö á  ÀÌ µû ¼ö ¼ö á º È µû à ³Î º ¾à Á ¾ í ¹ø È, ¼ö ¼ö á, Ý ¹Î µ Mining 2 í ÀÇ Ý ¹Î µ º È Â? 14 Ãß Ãµ Á¾ ñ º Å Å ÆÐ ÅÏ Ãß Ãµ Á¾ ñ ë ÇÑ í º Å Å ÆÐ ÅÏ í ¹ø È, Ãß Ãµ Á¾ ñ, Å Á¾ ñ, Å Mining 2 30 Àº? ³» ª
지식추출과정 DB DW Task Data Results Knowledge (data cleaning & integration) (data selection) (data mining) (extracting hidden patterns) 31
Data Mining Process (ex1) (step 1) Learning the application domain: 업무주제의결정및적용도메인에대한지식습득 (step 2) Creating a target data set: 분석에사용될데이터의결정 (step 3) Data cleaning and preprocessing: 데이터의정제와전처리 (step 4) Data reduction and transformation: 데이터의축소및변형 (step 5) Choosing functions of data mining: 데이터마이닝함수선택 (step 6) Choosing the mining algorithm: 마이닝알고리즘의선택 (step 7) Search for patterns of interest: 흥미있는패턴의선택 (step 8) Pattern evaluation and knowledge presentation: 패턴평가및지식의표현 (step 9) Use of discovered knowledge: 지식의적용 32
Data Mining Process (ex3) Step 주제선정 ETT EDA Modeling 시범적용 전사적용 성과분석 W O R K 현황파악 BD & BQ 주제선정을통한개발범위및방항설정 프로젝트일정및인력에대한결정 분석데이터의변수및범위선정 데이터추출 분석용 DB 구축 (DW) 데이터변환 단일변수의특성파악 변수들간의관계파악 1 차적인 feature 선택 개발모형에대한검토 추상적인변수의구체화 최종적인 feature 의결정 최종모형의완성 모형에기반의규칙을시스템에이식 시범적용범위및일정수립 구체적인모니터링디자인 현장점검 결과분석 시범적용을통한문제점해결 최종적용범위결정및마케팅성과분석방안결정 현장점검 마케팅관점에서모형의적합성평가 Remodeling 방향설정 Business & Statistics Computer Science Statistics & Computer Science Business & Statistics R E S U L T 기초현황파악보고서 개발계획보고서 업무요건정의서 Mart DB 레이아웃 t 데이터추출리스트 데이터변환프로스램 데이터충실도조사 기초통계분석보고서 선정주제대한모형간성능비교표 마이닝모형을통한마케팅규칙 시범적용계획안 최종사용자를위한 UI 우수사례집 시범적용결과보고서 현장적용을위한설명서 현업사용자에대한교육 성과분석보고서 최종프로젝트보고회및보고서 33
변수선정과정 마이닝주제 -> 추상적인변수 -> 존재변수의맵핑 (mapping) -> 독립, 종속변수의결정 -> feature 선택 -> 최종모형결정 34
데이터마이닝의데이터 Relational Databases: 관계형데이터베이스 Data Warehouses: 데이터웨어하우스 Transactional databases: 거래데이터베이스 Advanced DB and information repositories: 확장된데이터베이스 Spatial databases: 공간데이터베이스 WWW: 웹데이터 35
데이터마이닝의성공요인 데이터마이닝을위한통합된환경을제공할수있는가. 현업의업무를효과적이고지속적으로적용가능한가. 전사적인 IT 환경에서프로젝트경험과역량은충분한가. 데이터마이닝에대한이론및실무능력을갖추었나. 마이닝결과를활용할수있는마케팅조직프로세스는갖 추었는가. 통합데이터웨어하우스구축이원만하게이루어질수있는인력과마인드가있는가. 36
CRM 고객에초점을맞춘 IT 기반의마케팅전략 37
Three Issues of CRM Acquisition 고객유치 Prospect 우수고객확보 Retention 고객유지 Churn 고객이탈방지 Cross / Up Selling 교차및추가판매 Items, Transactions 38
CRM Fraud Detection Database Marketing Target Marketing Scoring 신용점수 우수고객점수 고객이탈및연체점수 활성화점수 39
Statistical tools and A. I. Statistical tools 통계학과 데이터의수집및분석 STATISTICS Computer Science 회귀분석, 다변량분석, 군집분석, Artificial Intelligence Others 컴퓨터학과 기계학습 (machine learning) 인공신경망, 의사결정나무, 40
Six Sigma & Data Mining 식스시그마 : 품질혁신, 고객만족 원자재제품마케팅고객 데이터마이닝 ( 분석 CRM): 수익창출, 고객민족 비제조부문의 6 시그마의성공을위한데이터마이닝과의시너지효과 41
데이터마이닝의오해 데이터마이닝에의해구축된 컴퓨터가모든결과를제공한다!! 그러면지금까지그일을수행해 오던인력은필요없다? 42
마약사범적발 전체 2000 명 마약사범 381명 일반인 1619명 Base Line Lift 381/2000 = 0.1905 (19.05%) 100명의임의로조사하면이중에 19명정도가마약사범이다. 데이터마이닝모형을구축하지않았을경우 43
마약사범적발 :CDW ID 입국시간 출발지 마약사범여부 1 24:00 홍콩 1 2 17:50 시드니 0 3 12:30 싱가폴 0 2000 03:30 하네다 1 CDW 내의단순순서 설명 F( 설명 ) = 반응 반응 새로운설명에대한반응을예측 44
마약사범적발 : 모형 ID 마약사범여부 1 1 2 0 3 0 2000 1 Data Mining 모형화 ID 마약사범여부 마약사범일 score 1 1 0.9875 2 0 0.0541 3 0 0.1658 2000 1 0.8754 45
마약사범적발 : 모형에의한 score 순서마약사범일 score 1 0.9967 2 0.9875 3 0.8754 199 0.6687 200 0.6588 201 0.6454 202 0.5932 1000 0.4875 1998 0.1658 1999 0.0541 2000 0.0010 (ID=1) (ID=2000) (ID=3) (ID=2) 174 200 0.87(87%) 상위 10%(200 명 ) 조사 -> 이들중에 174 명이마약사범 데이터마이닝을통한 마약사범단속의향상도 (Lift Value) Lift Value 87.00% 19.05% 4.57 46
데이터마이닝과마이닝도구 A B C D 데이터마이닝도구 (S/W) 데이터마이닝담당자 47
데이터마이닝도구들 SAS: Enterprise Miner SPSS: Clementine S-Plus: Stat Server NCR: Tera Miner R-project: R MS: Excel(VBA) 개인적, 소규모 48
www.r-project.org 49
R-Project 50
R-Commander 51
R R-Project 대부분의통계분석기법이있음 SAS 나 SPSS 에비해뒤지지않으며오히려최신의마이닝기법 (SVM, 등 ) 이제공됨 R-Commander R-Project 의일부기능을초보자도쉽게사용할수있 도록 GUI 방식을지원 52
데이터마이닝수행 Customer Relationship Management 마이닝도구 (S/W) Computer (DB, DW 전문가 ) OLAP + Statistics, A. I. (Miner) DW 경영전략, 마케팅 (MBA) 53
학제적연계 Database Technology Statistics Machine Learning Data Mining Visualization Information Science Other Disciplines 마케팅 Bio 54
Dataware House 운영계 DB 분석계 DB OLAP 80~90% DB DW 최적의의사결정 Data Mining 10~20% 다양한데이터소스 데이터마트 55
운영계 DB 와분석계 DB 56
Synergy Data Warehousing Enables Data Mining Data Mining Justifies Data Warehousing. 데이터웨어하우스가없다고해서 데이터마이닝을할수없는것은아니지만 57
KDD Process Pattern Evaluation Task-relevant Data Data Mining Data Warehouse Selection Data Cleaning Data Integration Databases 58
Effort Required for Data Mining Data Understanding and Preparation takes 50-80% of project effort. 59
Data Mining as Data Mining is an Art and a Science. 60
Data Mining is a Science Mathematical Methods Statistical Analysis Validation Procedures Generalized Rules 이론가, 학자, 61
Data Mining is an Art Technical Experience Experience in Content Domain Area 현업종사자, 실무자 62
CASE 1 Data Mining is an Art and a Science 현업실무자가데이터마이닝이론을습득 CASE 2 데이터마이닝이론가가현업에채용 CASE 3 현업부서가데이터마이닝전문가집단의컨설팅을받음 CASE 3-1 : 전적으로컨설팅그룹에의존함 CASE 3-2 : 현업실무자가컨설팅그룹과함께프로젝트수행 63