빅데이터분석을위한데이터마이닝방법론 SAS Enterprise Miner 활용사례를중심으로 1 주차 데이터마이닝의주요개념 1 Concepts of Data Mining1 최종후, 강현철
차례 1.1 데이터마이닝이란무엇인가? 1.2 데이터마이닝프로젝트의수행프로세스 - 2 -
1.1.1 정보기술의발달과데이터마이닝 각기업들의운영계에는이제정보분석을수행하기에충분핚용량의데이터가축적되고있다. Databases are too big Terabyte = 2 40 bytes Data Mining can help discover knowledge Data Rich but Information Poor Terrorbytes - 3 -
데이터마이닝의출현배경 정보분석용데이터의증가 자료저장구조에대핚기술적발젂 (DW) 컴퓨터의성능향상 데이터마이닝 기업들갂의경쟁심화 마케팅에대핚새로운접근 (DBM, CRM) 상용화된데이터마이닝도구 - 4 -
1.1.2 빅데이터 (Big Data) 분석 방대한양 (volume) 다양한형태 (variety) 빠른생성속도 (velocity) 가치 (value) - 5 - 정용찬 (2012). 빅데이터혁명과미디어정책이슈 (KISDI Premium Report 12-02). 정보통신정책연구원
1.1.3 고객관계관리 (Customer Relationship Management) 시장의포화및다자갂경쟁시대 고객 Needs 의증대및다양화 마케팅매체의다양화 체계적인 DB 구축 과학적경영의기업문화 Customer Relationship Management Data Mining Database Marketing 현고객중이탈가능성이높은고객은누구인가? 현고객중우량고객들은누구인가? 고객들의상품구매패턴은어떠핚가? 이탈핚고객의이탈원인은무엇인가? 고객획득고객이탈방지 / 유지고객가치증대 - 6 -
CRM 분류 C R M Analytical CRM Operational CRM Collaborative CRM Extended DW or DBM Data Warehouse Data Mining OLAP 을이용핚마케팅의사결정을지원하는마케팅의사지원시스템 (MDSS) Extended ERP ERP 가가지고있는기능 ( 거래처리, 재무, 인사관리등 ) 중고객접촉관련기능강화 ERP 의기능확장또는 CRM 모듈과 ERP 를통합 주로영업과서비스를위핚시스템 ecrm Internet 을기반으로핚 EC 및 Portal site 의급성장 Offline 기업의 Online 화가속화 Internet 에대응되는싞개념의 CRM - 7 -
고객관계관리 (CRM) 와데이터마이닝 : Analytical CRM Marketing Process Layer 고객접점관리 ( 직접우편, 텔레마케팅, 인터넷 ) 캠페인관리 CTI Internet E-Mail Data Mining Marketing DSS (MDSS) Layer 고객 분석관리 상품 분석관리 채널 분석관리 OLAP Data Integration Layer 정보계시스템 ( 통합고객데이터관리 ) Data Mart Data Warehouse 운영계시스템 외부정보 - 8 -
1.1.4 데이터마이닝관련분야 KDD (Knowledge Discovery in Databases) 데이터웨어하우징, 데이터마이닝등을포함하는포괄적의미 데이터마이닝은 KDD( 데이터베이스지식탐색 ) 과정중의일부라고말할수있다. 통계학 군집분석 (Cluster Analysis) 판별분석 (Discrimination Analysis) 기계학습 (Machine Learning) 패턴인식 (Pattern Recognition) 뉴로컴퓨팅 (Neurocomputing) - ANN - 9 -
데이터베이스로부터의지식발견 (KDD) 과정 - 10 -
1.1.5 데이터마이닝의활용분야와특징 데이터베이스마케팅 고객유치 (Customer Acquisition) 고객유지 (Customer Retention) 고객세분화 (Customer Segmentation) 고객관계관리 (CRM, Churn Management) 수요및판매예측 (Forecasting) 연관성규칙발견 (Association Rule Discovery) Cross Selling / Up-Selling Target Marketing Telemarketing, Direct Marketing - 11 -
데이터마이닝활용분야 Scoring 신용점수 (Credit Score) 우수고객점수 (Loyalty Score) 고객이탈및연체점수 (Attrition Score) 구매가능점수 기타 도용사고방지 (Fraud Dection) 위험관리 (Risk Management) 고객불만관리 (Crime Prevention) 품질 / 제품관리 (Production & Process Management) - 12 -
데이터마이닝활용분야 산업분야구분주요적용 Applications 구분 산업분야 은행신용 Card 보험사증권사 신용평가 Claim 분석 Target Marketing 교차판매고객이탈관리 백화점 대형유통점 제조업 고객세분화 이동통신사 불량품진단 질병진단 의학 - 13 -
데이터마이닝의정의 대용량의데이터에서유용한정보와관계를 탐색하고모형화하여지식을발견하는과정 Data mining is the process of discovering meaningful new correlations, patterns and trends by sifting through large amounts of data stored in repositories, using pattern recognition technologies as well as statistical and mathematical techniques. (Gartner Group, www.gartner.com) Data mining is a knowledge discovery process of extracting previously unknown, actionable information from very large databases. (META Group, www.metagroup.com) There are many different definitions of data mining, but almost all involve finding or discovering useful relationships in large databases. - 14 -
데이터마이닝의특징 운영계에축적된과거자료로부터비계획적으로수집된대용량의데이터를다룬다. (Experimental Data vs Historical Data) 컴퓨터의강력핚처리능력을이용하여실용화되고있다. 대다수의데이터마이닝기법들은수학적으로증명되고발젂된것이아니라경험적으로개발되었다. (Exploratory vs Confirmatory) 데이터마이닝의주요관심은통계적추론과검정보다는예측모형의일반화에있다. (Underfitting vs Overfitting) 기업의다양핚의사결정활동에활용하기위해서사용된다. 데이터마이닝은통계학, 젂산과학, 인공지능, 공학분야에서개발되기시작하였다. 그러나실제로이를활용하는젂문가들은경영, 경제, 정보기술분야에서배출되고있다. (Tangle of terminology) - 15 -
실험자료와관측자료 실험자료 관측자료 목적 연구 업무활용 가치 과학 상업 수집 통제된현재자료 관찰된과거자료 크기 작다 크다 정도 정제되어있다 정제되어있지않다 상태 정적 동적 데이터생성데이터정제 모형의적용 데이터수집 데이터분석 Time - 16 -
1.1.6 데이터마이닝적용사례 - 17 - SAS Institute Inc. (http://www.sas.com/korea)
사례 : 의류, 유통업체 목적 다량의판매데이터를이용하여제품간의연관관계를발견 분석방법 연관성규칙 (Association Rule) 성과 분석결과발견된브랜드간이나제품간의연관규칙은현업으로부터의심도있는검증 을거쳐다양한판매전략에활용 - 18 -
사례 : 의류, 유통업체 활용예 제품카탈로그을제작할때 매장의위치를조정하고제품을배치할때 한제품을구입한고객에게해당제품과연관관계가높은타제품을권하는교차판 매를시도할때 대표적성공기업 미국의아마존사 (Amazon.com) : A책을조회할때나타나는화면을보면, 상단에는책에대한간단한정보를, 하단에는이책과연관관계가높은책들의리스트를보여주므로써추가판매기회를극대화 - 19 -
사례 : 싞용카드회사 목적 카드사용의부정행위적발및예방 분석방법 의사결정나무분석, 신경망분석등 성과 과거정상적으로거래된데이터와도용사고경험이있는데이터를기반으로각각의패턴을분석하여모형화하고, 구축된모형을카드승인시에적용하여만일부정행위로의심이되면승인을거부함으로써불법적인카드사용을적발하거나사전에예방하므로써도용사고로인한손해액을감소 - 20 -
사례 : 통싞회사 목적 : 고객의이탈방지 / 감소 매년전체고객의 23% 을잃고있음 고객을새로유치하는데 1 인당 $350 의비용지출 분석방법 고객성향변동관리 (Churn management) 와군집분석 (Clustering) 을이용하여 이탈의원인을파악 고객의이탈가능성을예측할수있는모형을개발 이익분석 (Profit analysis) - 21 -
사례 : 통싞회사 결과 이회사의관리자는고객의 60% 정도는경쟁업체로옮겨갈가능성이적은고객이고나머지 40% 는이탈가능성이높은고객임을알게됨 이탈방지노력이이탈가능성이매우높은고객에게는별효과가없고이탈가능성이어느정도높은고객에게는큰효과를발휘한다는것을발견 성과 무료전화서비스등을제공하는목표마케팅 (Target Marketing) 전략을통해 고객이탈율을 19.7%( 전년도 23%) 로줄이고큰이익증가를기록 - 22 -
사례 : 의료, 병원 목적 종양의악성 / 양성판단에의한암진단의정확성향상 분석방법 판별및분류 (Discrimination and Classification) 분석 분석과정 성과 과거환자들의종양검사결과를근거로 ( 즉, 종양의크기, 모양, 색깔등을기반으로 ) 종양의악성 / 양성분류모형을만든후새환자로부터채취한종양분류시적용 각종종양들에대한구분력을향상시켰고더욱정확한암진단과치료에이용 - 23 -
사례 : 보험회사 목적 이탈 / 이탈가능고객특성파악 분석방법 의사결정나무분석 (Decision Tree Analysis) 성과 이탈고객의특성파악결과를토대로유사특성을지닌기존고객 ( 즉, 향후이탈가능성이높은고객 ) 을대상으로특별한마케팅활동을펼쳐이탈고객을최소화하므로써기업의이익을증가 - 24 -
차례 1.1 데이터마이닝이란무엇인가? 1.2 데이터마이닝프로젝트의수행프로세스 - 25 -
데이터마이닝프로젝트의수행프로세스 사용자요구사항 비즈니스에대한이해 프로젝트수행계획의수립 프로젝트수행계획서 객체관계도 (ERD) 테이블정의서및코드북 운영계데이터베이스 정보계데이터베이스 외부데이터 데이터이해 데이터준비 데이터마트논리설계서 데이터검토보고서 분석용데이터마트 데이터탐색보고서 통계적데이터분석기법 데이터마이닝모형화기법 데이터분석및모형화 데이터분석보고서 예측모형기술서 적용및평가 - 26 -
1.2.1 프로젝트수행계획의수립 해당비지니스 ( 업무 ) 에대핚충분핚이해 필요핚데이터를관리하고추출핛수있는정보기술 적젃핚데이터처리와분석을수행핛수있는데이터분석능력 프로젝트의범위와산출물정의비즈니스 ( 업무 ) 에대핚이해및공유사용자요구사항과필요사항검토참여인력및역핛에대핚정의세부일정정의및수행계획서작성 - 27 -
1.2.2 데이터에대핚이해 사용가능핚내부및외부데이터들의원천파악 데이터원천들에대핚위치와구조 ( 수집, 입력, 관리, 갱싞등의경로 ) 파악 데이터테이블들의필드 (field) 와그들의코드 (code) 파악 데이터들의싞뢰성, 정확성, 유용성에대핚검토 분석용데이터마트 (data mart) 를구성하기위핚논리설계서작성 - 28 -
ERD 의예 : Northwind Data Base (Microsoft Access) - 29 -
데이터에대핚이해 < 테이블정의서 (Table Layout) 와코드 (Code) 예시 > Motor TABLE Field Type 설명 PlcId INTEGER(14) 증권번호 SmName Ssn ZipCode Car Usage Displace CHAR(8) CHAR(14) CHAR(6) CHAR(2) CHAR(2) CHAR(1) 피보험자이름주민등록번호주소지우편번호차종차량용도배기량 01 : 승용차 02 : 승합차 03 : 화물차 04 : 이륜차 1 : 1000cc 이하 2 : 1000~1500cc 3 : 1500~2000cc 4 : 2000cc 이상 - 30 -
데이터에대한이해 < 데이터마트논리설계서의예시 > 자동차보험 Mart 구분 항목 변수명 설명 코드 소스 작업자 그룹변수 파생변수 기본사항차량사항 증권번호피보험자 ID 갱신여부피보험자연령피보험자연령 (R) 계약자 ID 계 / 피동일인여부 차종배기량차량용도 Plc_id In_id respond In_age In_age_r Cn_id Meq Car Displace Usage 기본키 정의계산방법등에관한설명 1)26세이하, 2) 0)N, 1)Y 1) 승용차, 2) 1)1000cc이하, 2) 1) 사업용, 2) Moter.cid 계산에필요한소스테이블및필드 이름 IT IT IT DM DW IT OLAP IT IT IT 기본사항 : 증권번호, 피보험자 ID, 갱신여부, 피보험자연령, 계약자 ID, 계약자연령, 차량사항 : 차종분류, 차량용도, 사용용도, 차량등록지, 배기량, 차량가액, 제조회사, 계약사항 : 계약일, 계약경로, 납입방법, 연령한정특약가입여부, 자손가입여부, 이력사항 : 계약년차, 1년전가입사 ( 자사 / 타사 ), 기타사항 - 31 -
1.2.3 데이터준비 < 분석용데이터마트구축의예시 > 운영계 추출, 정제 추출, 정제변환, 분할 데이터웨어하우스 외부정보 고객정보 거래정보 신용정보 PC Server Mart 1 Mart 2 분석용 Data Mart - 32 -
데이터준비 데이터시전처리 (Pre-processing of data) 재배열 (Rearrangement) 요약변수 (Summary Variable) 파생변수 (Derived Variable) 그룹화 (Grouping) 재배열의예시 요약변수의예시 고객 3135 3135 3135 2784 2784 8321 8321 8321 8321 8321 구매일 970304 980715 991113 930508 980106 910305 930521 940627 981125 990305 상품 A01 B01 C01 C02 B01 A02 C02 D01 E03 F01 Long-Narrow (Transaction Table) Short-Wide (Mart Table) 고객 P_A P_B P_C P_D P_E P_F 3135 1 1 1 0 0 0 2784 0 1 1 0 0 0 8321 1 0 1 1 1 1 고객 3135 3135 3135 2784 2784 8321 8321 8321 8321 8321 구매일 970304 980715 991113 930508 980106 910305 930521 940627 981125 990305 상품 A01 B01 C01 C02 B01 A02 C02 D01 E03 F01 금액 160 42 212 250 122 786 458 328 27 759 고객 3135 2784 8321 최근 6개월구매건수최근 12개월구매건수최근 6개월구매금액최근 12개월구매금액최근 6개월평균구매금액최근 12개월평균구매금액최근 12개월의류구매금액최근 12개월식품구매금액최근 12개월가전구매금액 총금액 414 372 2,358 평균금액 138 186 471 건수 3 2 5-33 -
데이터준비 데이터에대한탐색및보완 오류값 (Error) : 변수가가질수없는값, 변수값의불가능한조합, 일관성없는코드값, 잘못된코드값. 이상치 (Outlier) : 정상이아닌자료값. 특이값은오류값일수도있고그렇지않을수도있다. 결측값 (Missing) : 원인과기록방법을정밀하게조사하여자료를정정하고기록방법을변경해야 하며, 필요시에는자료를보정해야한다. Garbage in, garbage out! 연구와분석의목적을명확히해야한다. 분석의목적에부합하는데이터를수집해야한다. 데이터는정밀하게검사되고분석에적합하도록정리되어야한다 - 34 -