슬라이드 1

Similar documents
슬라이드 1

슬라이드 1

빅데이터_DAY key

歯CRM개괄_허순영.PDF

歯목차45호.PDF

강의록

김기남_ATDC2016_160620_[키노트].key

PowerPoint 프레젠테이션

DW 개요.PDF

Intra_DW_Ch4.PDF

CRM Fair 2004

PowerPoint 프레젠테이션

Oracle Apps Day_SEM

슬라이드 1

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

Microsoft Word doc

Model Investor MANDO Portal Site People Customer BIS Supplier C R M PLM ERP MES HRIS S C M KMS Web -Based

ecorp-프로젝트제안서작성실무(양식3)

歯CRM-All.PDF

PowerPoint 프레젠테이션

CRM A Study on the Datawarehousing build_up methodology for CRM System :

PowerPoint 프레젠테이션

Microsoft PowerPoint - SNR Data Mining pptx

Microsoft PowerPoint - 3.공영DBM_최동욱_본부장-중소기업의_실용주의_CRM

(, sta*s*cal disclosure control) - (Risk) and (U*lity) (Synthe*c Data) 4. 5.

3 Gas Champion : MBB : IBM BCS PO : 2 BBc : : /45


untitled

3Æí2Àå¨éÀç

Microsoft PowerPoint - CRM 추진전략 방법론

Microsoft Word - th1_Big Data 시대의 기술_ _조성우

PowerPoint 프레젠테이션

Microsoft PowerPoint - 6.CRM_Consulting.ppt


methods.hwp

<BBE7BABB202D20C1A4BAB8C8ADC1A4C3A5BCBCB9CCB3AA70322E687770>

PowerPoint 프레젠테이션

<C3D6C1BEBFCFBCBA2DBDC4C7B0C0AFC5EBC7D0C8B8C1F D31C8A3292E687770>

비식별화 기술 활용 안내서-최종수정.indd

사회통계포럼

ETL_project_best_practice1.ppt

SAS Customer Intelligence SAS Customer Intelligence Suite은 기업이 당면한 다양한 마케팅 과제들을 해결하기 위한 최적의 통합 마케팅 제품군으로 전사적 마케팅 자원관리를 위한 Marketing Operation Manageme

빅데이터 분석을 위한 데이터 마이닝


슬라이드 1

BSC Discussion 1

IBM SPSS Statistics 제품 소개 (2017 Aug)

정보기술응용학회 발표

모듈 9

슬라이드 1

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

생활과 통계

DBPIA-NURIMEDIA

슬라이드 1

Manufacturing6

<352EC7E3C5C2BFB55FB1B3C5EBB5A5C0CCC5CD5FC0DABFACB0FAC7D0B4EBC7D02E687770>

Chapter 5 비즈니스인텔리젼스의기초 : 데이터베이스와정보관리

슬라이드 1

클라우드컴퓨팅확산에따른국내경제시사점 클라우드컴퓨팅확산에따른국내경제시사점 * 1) IT,,,, Salesforce.com SaaS (, ), PaaS ( ), IaaS (, IT ), IT, SW ICT, ICT IT ICT,, ICT, *, (TEL)

PowerPoint 프레젠테이션


Slide 1

슬라이드 1


회사소개 대 표 : James H. Goodnight 설립년도 : 1976 년 소 지 SAS Institute Inc. 재 : 미국노스캐롤라이나캐리시 사 : 전세계 51 개국의지사및 대리점보유 종업원수 : 약 4,500 명 사용자수 : 119 개국 30,000 사이트의

DBPIA-NURIMEDIA

김경재 안현철 지능정보연구제 17 권제 4 호 2011 년 12 월

2017 1


歯통신41호.PDF

PowerPoint 프레젠테이션

기타자료.PDF

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA

,126,865 43% (, 2015).,.....,..,.,,,,,, (AMA) Lazer(1963)..,. 1977, (1992)

딥러닝 첫걸음

(A4)2급-A형_ hwp

조사연구 aim of this study is to find main cause of the forecasting error and bias of telephone survey. We use the telephone survey paradata released by N

2017 년 6 월한국소프트웨어감정평가학회논문지제 13 권제 1 호 Abstract

Microsoft PowerPoint - XP Style

E-BI Day Presentation

歯부장

Ⅰ 환경 분석 Ⅱ 연구배경 및 연구내용 Ⅲ 우체국보험 현황 Ⅳ 우체국보험 경쟁력 진단 Ⅴ 우체국보험 전략 수립 방향 1

DIY 챗봇 - LangCon

15_3oracle

U.Tu System Application DW Service AGENDA 1. 개요 4. 솔루션 모음 1.1. 제안의 배경 및 목적 4.1. 고객정의 DW구축에 필요한 메타정보 생성 1.2. 제품 개요 4.2. 사전 변경 관리 1.3. 제품 특장점 4.3. 부품화형

서론 34 2

Observational Determinism for Concurrent Program Security

07_À±ÀåÇõ¿Ü_0317

Microsoft PowerPoint - 27.pptx

슬라이드 1


저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

e- 11 (Source: IMT strategy 1999 'PERMISSION ' ) The World Best Knowledge Providers Network

C# Programming Guide - Types

WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성 ( 황수경 ) ꌙ 127 노동정책연구 제 4 권제 2 호 pp.127~148 c 한국노동연구원 WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성황수경 *, (disabi

#Ȳ¿ë¼®

Hallym Communication Policy Research Center 15 빅데이터기술은대용량의데이터를다룰때, 여러과정을거치게되는데, 데이터수집및데이터전처리, 저장, 분석, 활용 ( 시각화 ) 까지의과정을 거치게되며각과정별로핵심기술이존재한다. 빅데이터기술은대용

Transcription:

빅데이터분석을위한데이터마이닝방법론 SAS Enterprise Miner 활용사례를중심으로 제 1 장 데이터마이닝의주요개념 Chapter 1 Concepts of Data Mining 강의자료제공 : 강현철교수 ( 호서대학교응용통계학과 )

차례 1.1 데이터마이닝이란무엇인가? 1.2 데이터마이닝프로젝트의수행프로세스 1.3 데이터마이닝예측기법 1.4 Enterprise Miner의소개 1.5 맺음말 1.6 연습문제 - 2 -

1.1.1 정보기술의발달과데이터마이닝 각기업들의운영계에는이제정보분석을수행하기에충분한용량의데이터가축적되고있다. Databases are too big Terabyte = 2 40 bytes Data Mining can help discover knowledge Data Rich but Information Poor - 3 -

데이터마이닝의출현배경 정보분석용데이터의증가 자료저장구조에대한기술적발전 (DW) 컴퓨터의성능향상 데이터마이닝 기업들간의경쟁심화 마케팅에대한새로운접근 (DBM, CRM) 상용화된데이터마이닝도구 - 4 -

1.1.2 빅데이터 (Big Data) 분석 방대한양 (volume) 다양한형태 (variety) 빠른생성속도 (velocity) 가치 (value) - 5 - 정용찬 (2012). 빅데이터혁명과미디어정책이슈 (KISDI Premium Report 12-02). 정보통신정책연구원

기존과빅데이터환경의차이점 구분기존빅데이터환경 데이터 - 정형화된수치자료중심 - 비정형의다양한데이터 - 문자데이터 (SMS, 검색어 )- 영상데이터 (CCTV, 동영상 )- 위치데 이터 하드웨어 - 고가의저장장치 - 데이터베이스 - 데 이터웨어하우스 - 클라우드컴퓨팅등비용효율적인장비활용 가능 소프트웨어 - 관계형데이터베이스 (RDBMS)- 통계 패키지 (SAS, SPSS) - Hadoop - NoSQL - 오픈소스통계솔루션 (R) 분석방법 - 데이터마이닝 (data mining)- machin e learning, knowledge discovery - 텍스트마이닝 (text mining) - 평판분석 (opinion mining) - 소셜네트워크분석 - 클러스터분석 6

- Hadoop: 분산파일시스템인 HDFS(Hadoop distrituted File System), 검색시스템인 Hbase, 분산데이터처리프레임워크인맵리듀수 (MapReduce), 데이터수집시스템인척와 (Chukwa) 혹은 Flume, 대용량데이터패턴을분석하는확장성기계학습프리임워크인마하웃 (Mahout) 등으로구성됨. - NoSQL: 수평적확장을강점을가진비관계형데이터베이스로전통적인관계형 DBMS(RDBMS) 와는다르게설계돼대규모의데이터를유연하게처리할수있음. RDBMS 의경우는모든노드는같은시간에같은데이터를보여줘야한다는정합성과유효성에중점을둔반면, NoSQL 기술은네트워크전송중일부데이터를손실하더라도시스템은정상적으로동작해야한다는가용성에중점. - 오픈소스통계솔루션 (R): 통계계산및시간화를위한언어및개발환경을공하는통계패키지. 7

- 텍스트마이닝 (text mining): 자연어처리기술에기반한이기술은비정형텍스트데이터에서가치와의미를찾아내는기술. 사용자는이기술을통해방대한정보에서의미있는정보를추출하고다른정보와연계성을파악, 텍스트가가진카테고리를찾아내는등단순한정보검색그이상의결과를얻어낼수있음. 텍스트마이닝에서현재다뤄지고있는주요기술분야는문서분류 (document classification), 정보추출 (information extraction), 문서클러스터링 (document clustering), 문서요약 (document summarization). - 8 -

- 평판분석 (opinion mining): SNS, 블로그, 카페, 게시판, 지식검색등인터넷에산재한모든웹문서와뎃글등에서소비자의의견들을수집, 분석해제품이나서비스등에대한평판 (reputation) 을추출해내는기술. 기술로는텍스트마이닝, 자연어처리 (NLP), 비정형분석, 형태소분석등이있음. - 소셜네트워크분석 (social network analytics): 각개인또는그룹의소셜네트워크내영향력, 관심사, 성향및행동패턴을분석, 추출하는기술. - 클러스터분석 (cluster analysis): 다변하는데이터간의유사도를정의하고각데이터간의거리를구하고서로의거리가가까운것부터순서대로합쳐가는방법. 9

1.1.3 고객관계관리 (Customer Relationship Management) 시장의포화및다자간경쟁시대 고객욕구의증대및다양화 마케팅매체의다양화 체계적인 DB 구축 과학적경영의기업문화 Customer Relationship Management Data Mining Database Marketing 현고객중이탈가능성이높은고객은누구인가? 현고객중우량고객들은누구인가? 고객들의상품구매패턴은어떠한가? 이탈한고객의이탈원인은무엇인가? 고객획득고객이탈방지 / 유지고객가치증대 - 10 -

CRM 분류 C R M Analytical CRM( 분석적 ) Operational CRM( 운영적 ) Collaborative CRM( 협업적 ) Extended DW or DBM Data Warehouse Data Mining OLAP(online analytical processing) 을이용한마케팅의사결정을지원하는마케팅의사지원시스템 (MDSS) Extended ERP( 전사적자원관리 ) ERP 가가지고있는기능 ( 거래처리, 재무, 인사관리등 ) 중고객접촉관련기능강화 ERP 의기능확장또는 CRM 모듈과 ERP 를통합 주로영업과서비스를위한시스템 ecrm Internet 을기반으로한 EC 및 Portal site 의급성장 Offline 기업의 Online 화가속화 Internet 에대응되는신개념의 CRM - 11 -

고객관계관리 (CRM) 와데이터마이닝 : Analytical CRM Marketing Process Layer 고객접점관리 ( 직접우편, 텔레마케팅, 인터넷 ) 캠페인관리 CTI Internet E-Mail Data Mining Marketing DSS (MDSS) Layer 고객 분석관리 상품 분석관리 채널 분석관리 OLAP Data Integration Layer 정보계시스템 ( 통합고객데이터관리 ) Data Mart Data Warehouse 운영계시스템 외부정보 - 12 -

1.1.4 데이터마이닝관련분야 KDD (Knowledge Discovery in Databases) 데이터웨어하우징, 데이터마이닝등을포함하는포괄적의미 데이터마이닝은 KDD( 데이터베이스지식탐색 ) 과정중의일부라고말할수있다. 통계학 군집분석 (Cluster Analysis) 판별분석 (Discrimination Analysis) 기계학습 (Machine Learning) : 인공지능의한분야로서자동적인학습기법을설계구현 패턴인식 (Pattern Recognition) : 문자인식또는이미지분류와깊은관련 뉴로컴퓨팅 (Neurocomputing) : 신경망 - 13 -

데이터베이스로부터의지식발견 (KDD) 과정 - 14 -

1.1.5 데이터마이닝의활용분야와특징 데이터베이스마케팅 고객유치 (Customer Acquisition) 고객유지 (Customer Retention) 고객세분화 (Customer Segmentation) 고객이탈방지관리 (Churn Management) 수요및판매예측 (Forecasting) 연관성규칙발견 (Association Rule Discovery) Cross Selling / Up-Selling Target Marketing Telemarketing, Direct Marketing - 15 -

데이터마이닝활용분야 Scoring 신용점수 (Credit Score) 우수고객점수 (Loyalty Score) 고객이탈및연체점수 (Attrition Score) 구매가능점수 기타 부정행위적발 (Fraud Detection) 위험관리 (Risk Management) 고객불만관리 (Crime Prevention) 품질관리 (Quality Control) - 16 -

데이터마이닝활용분야 산업분야구분주요적용 Applications 구분 산업분야 은행신용 Card 보험사증권사 신용평가 Claim 분석 Target Marketing 교차판매고객이탈관리 백화점 대형유통점 제조업 고객세분화 이동통신사 불량품진단 질병진단 의학 - 17 -

데이터마이닝의정의 대용량의데이터에서유용한정보와관계를 탐색하고모형화하여지식을발견하는과정 Data mining is the process of discovering meaningful new correlations, patterns and trends by sifting through large amounts of data stored in repositories, using pattern recognition technologies as well as statistical and mathematical techniques. (Gartner Group, www.gartner.com) Data mining is a knowledge discovery process of extracting previously unknown, actionable information from very large databases. (META Group, www.metagroup.com) There are many different definitions of data mining, but almost all involve finding or discovering useful relationships in large databases. - 18 -

데이터마이닝의특징 운영계에축적된과거자료로부터비계획적으로수집된대용량의데이터를다룬다. (Experimental Data vs Historical Data) 컴퓨터의강력한처리능력을이용하여실용화되고있다. 대다수의데이터마이닝기법들은수학적으로증명되고발전된것이아니라경험적으로개발되었다. (Exploratory vs Confirmatory) 데이터마이닝의주요관심은통계적추론과검정보다는예측모형의일반화에있다. (Underfitting vs Overfitting) 기업의다양한의사결정활동에활용하기위해서사용된다. 데이터마이닝은통계학, 전산과학, 인공지능, 공학분야에서개발되기시작하였다. 그러나실제로이를활용하는전문가들은경영, 경제, 정보기술분야에서배출되고있다. (Tangle of terminology) - 19 -

실험자료와관측자료 실험자료 (Small Data) 관측자료 (Big Data) 목적 연구 업무활용 가치 과학 상업 수집 통제된현재자료 관찰된과거자료 크기 작다 크다 정도 정제되어있다 정제되어있지않다 상태 정적 동적 데이터생성데이터정제 모형의적용 데이터수집 데이터분석 Time - 20 -

1.1.6 데이터마이닝적용사례 - 21 - SAS Institute Inc. (http://www.sas.com/korea)

사례 : 의류, 유통업체 목적 다량의판매데이터를이용하여제품간의연관관계를발견 분석방법 연관성규칙 (Association Rule) 성과 분석결과발견된브랜드간이나제품간의연관규칙은현업으로부터의심도있는검증 을거쳐다양한판매전략에활용 - 22 -

사례 : 의류, 유통업체 활용예 제품카탈로그을제작할때 매장의위치를조정하고제품을배치할때 한제품을구입한고객에게해당제품과연관관계가높은타제품을권하는교차판 매를시도할때 대표적성공기업 미국의아마존사 (Amazon.com) : A책을조회할때나타나는화면을보면, 상단에는책에대한간단한정보를, 하단에는이책과연관관계가높은책들의리스트를보여주므로써추가판매기회를극대화 - 23 -

사례 : 신용카드회사 목적 카드사용의부정행위적발및예방 분석방법 의사결정나무분석, 신경망분석등 성과 과거정상적으로거래된데이터와도용사고경험이있는데이터를기반으로각각의패턴을분석하여모형화하고, 구축된모형을카드승인시에적용하여만일부정행위로의심이되면승인을거부함으로써불법적인카드사용을적발하거나사전에예방하므로써도용사고로인한손해액을감소 - 24 -

사례 : 통신회사 목적 : 고객의이탈방지 / 감소 매년전체고객의 23% 을잃고있음 고객을새로유치하는데 1 인당 $350 의비용지출 분석방법 고객성향변동관리 (Churn management) 와군집분석 (Clustering) 을이용하여 이탈의원인을파악 고객의이탈가능성을예측할수있는모형을개발 이익분석 (Profit analysis) - 25 -

사례 : 통신회사 결과 이회사의관리자는고객의 60% 정도는경쟁업체로옮겨갈가능성이적은고객이고나머지 40% 는이탈가능성이높은고객임을알게됨 이탈방지노력이이탈가능성이매우높은고객에게는별효과가없고이탈가능성이어느정도높은고객에게는큰효과를발휘한다는것을발견 성과 무료전화서비스등을제공하는목표마케팅 (Target Marketing) 전략을통해 고객이탈율을 19.7%( 전년도 23%) 로줄이고큰이익증가를기록 - 26 -

사례 : 의료, 병원 목적 종양의악성 / 양성판단에의한암진단의정확성향상 분석방법 판별및분류 (Discrimination and Classification) 분석 분석과정 성과 과거환자들의종양검사결과를근거로 ( 즉, 종양의크기, 모양, 색깔등을기반으로 ) 종양의악성 / 양성분류모형을만든후새환자로부터채취한종양분류시적용 각종종양들에대한구분력을향상시켰고더욱정확한암진단과치료에이용 - 27 -

사례 : 보험회사 목적 이탈 / 이탈가능고객특성파악 분석방법 의사결정나무분석 (Decision Tree Analysis) 성과 이탈고객의특성파악결과를토대로유사특성을지닌기존고객 ( 즉, 향후이탈가능성이높은고객 ) 을대상으로특별한마케팅활동을펼쳐이탈고객을최소화하므로써기업의이익을증가 - 28 -

차례 1.1 데이터마이닝이란무엇인가? 1.2 데이터마이닝프로젝트의수행프로세스 1.3 데이터마이닝예측기법 1.4 Enterprise Miner의소개 1.5 맺음말 1.6 연습문제 - 29 -

데이터마이닝프로젝트의수행프로세스 사용자요구사항 비즈니스에대한이해 프로젝트수행계획의수립 프로젝트수행계획서 객체관계도 (ERD) 테이블정의서및코드북 운영계데이터베이스 정보계데이터베이스 외부데이터 데이터이해 데이터준비 데이터마트논리설계서 데이터검토보고서 분석용데이터마트 데이터탐색보고서 통계적데이터분석기법 데이터마이닝모형화기법 데이터분석및모형화 데이터분석보고서 예측모형기술서 적용및평가 - 30 -

1.2.1 프로젝트수행계획의수립 해당비지니스 ( 업무 ) 에대한충분한이해 필요한데이터를관리하고추출할수있는정보기술 적절한데이터처리와분석을수행할수있는데이터분석능력 프로젝트의범위와산출물정의비즈니스 ( 업무 ) 에대한이해및공유사용자요구사항과필요사항검토참여인력및역할에대한정의세부일정정의및수행계획서작성 - 31 -

1.2.2 데이터에대한이해 사용가능한내부및외부데이터들의원천파악 데이터원천들에대한위치와구조 ( 수집, 입력, 관리, 갱신등의경로 ) 파악 데이터테이블들의필드 (field) 와그들의코드 (code) 파악 데이터들의신뢰성, 정확성, 유용성에대한검토 분석용데이터마트 (data mart) 를구성하기위한논리설계서작성 - 32 -

ERD 의예 : Northwind Data Base (Microsoft Access) - 33 -

데이터에대한이해 < 테이블정의서 (Table Layout) 와코드 (Code) 예시 > Motor TABLE Field Type 설명 PlcId INTEGER(14) 증권번호 SmName Ssn ZipCode Car Usage Displace CHAR(8) CHAR(14) CHAR(6) CHAR(2) CHAR(2) CHAR(1) 피보험자이름주민등록번호주소지우편번호차종차량용도배기량 01 : 승용차 02 : 승합차 03 : 화물차 04 : 이륜차 1 : 1000cc 이하 2 : 1000~1500cc 3 : 1500~2000cc 4 : 2000cc 이상 - 34 -

데이터의유형 서술적데이터 (Descriptive Data) 고객에대한기본정보 ( 성별, 연령거주지역등등 ) 안정적이나정확환자료수집이어렵다. 행동특성데이터 (Behavioral Data) 기업과고객과상호교류함으로써발생하는데이터 ( 구매액, 유형 ) 시간에따라빨리변화 태도특성데이터 (Attitudinal Data) 여론조사, 서베이 (survey) 개별고객단위의정확한데이터수집이어렵다. - 35 -

데이터의원천 (Source of Data) 운영계데이터베이스 (Operational Database) 거래 (Transaction) 데이터베이스 기업의운영과관련된업무처리를위해서구축 정보계데이터베이스 (Informational Database) 정보분석을위해구축 운영계시스템으로부터수집된데이터를요약, 가공하여저장 데이터웨어하우스 (Data Warehouse) 기업의의사결정과정을지원하기위한주제중심적이고통합적이고비휘발성자료의집합 유용한정보를만들수있도록데이터를모으고요약. 데이터마트 (Data Mart) 고객분석을위한통합된데이터로구성된일시적으로보조적인데이터저장소 메타데이터 (Meta Data) 데이터베이스, 데이터웨어하우스, 데이터마트등에대한내용을기술하는데이터에대한데이터 ( 데이터사전 ) - 36 -

데이터에대한이해 < 데이터마트논리설계서의예시 > 자동차보험 Mart 구분 항목 변수명 설명 코드 소스 작업자 그룹변수 파생변수 기본사항차량사항 증권번호피보험자 ID 갱신여부피보험자연령피보험자연령 (R) 계약자 ID 계 / 피동일인여부 차종배기량차량용도 Plc_id In_id respond In_age In_age_r Cn_id Meq Car Displace Usage 기본키 정의계산방법등에관한설명 1)26세이하, 2) 0)N, 1)Y 1) 승용차, 2) 1)1000cc이하, 2) 1) 사업용, 2) Moter.cid 계산에필요한소스테이블및필드 이름 IT IT IT DM DW IT OLAP IT IT IT 기본사항 : 증권번호, 피보험자 ID, 갱신여부, 피보험자연령, 계약자 ID, 계약자연령, 차량사항 : 차종분류, 차량용도, 사용용도, 차량등록지, 배기량, 차량가액, 제조회사, 계약사항 : 계약일, 계약경로, 납입방법, 연령한정특약가입여부, 자손가입여부, 이력사항 : 계약년차, 1년전가입사 ( 자사 / 타사 ), 기타사항 - 37 -

1.2.3 데이터준비 < 분석용데이터마트구축의예시 > 운영계 추출, 정제 추출, 정제변환, 분할 데이터웨어하우스 외부정보 고객정보 거래정보 신용정보 PC Server Mart 1 Mart 2 분석용 Data Mart - 38 -

데이터준비 데이터시전처리 (Pre-processing of data) 재배열 (Rearrangement) 요약변수 (Summary Variable) 파생변수 (Derived Variable) 그룹화 (Grouping) 재배열의예시 요약변수의예시 고객 3135 3135 3135 2784 2784 8321 8321 8321 8321 8321 구매일 970304 980715 991113 930508 980106 910305 930521 940627 981125 990305 상품 A01 B01 C01 C02 B01 A02 C02 D01 E03 F01 Long-Narrow (Transaction Table) Short-Wide (Mart Table) 고객 P_A P_B P_C P_D P_E P_F 3135 1 1 1 0 0 0 2784 0 1 1 0 0 0 8321 1 0 1 1 1 1 고객 3135 3135 3135 2784 2784 8321 8321 8321 8321 8321 구매일 970304 980715 991113 930508 980106 910305 930521 940627 981125 990305 상품 A01 B01 C01 C02 B01 A02 C02 D01 E03 F01 금액 160 42 212 250 122 786 458 328 27 759 고객 3135 2784 8321 최근 6개월구매건수최근 12개월구매건수최근 6개월구매금액최근 12개월구매금액최근 6개월평균구매금액최근 12개월평균구매금액최근 12개월의류구매금액최근 12개월식품구매금액최근 12개월가전구매금액 총금액 414 372 2,358 평균금액 138 186 471 건수 3 2 5-39 -

데이터준비 데이터에대한탐색및보완 오류값 (Error) : 변수가가질수없는값, 변수값의불가능한조합, 일관성없는코드값, 잘못된코드값. 이상치 (Outlier) : 정상이아닌자료값. 특이값은오류값일수도있고그렇지않을수도있다. 결측값 (Missing) : 원인과기록방법을정밀하게조사하여자료를정정하고기록방법을변경해야 하며, 필요시에는자료를보정해야한다. Garbage in, garbage out! 연구와분석의목적을명확히해야한다. 분석의목적에부합하는데이터를수집해야한다. 데이터는정밀하게검사되고분석에적합하도록정리되어야한다 - 40 -

차례 1.1 데이터마이닝이란무엇인가? 1.2 데이터마이닝프로젝트의수행프로세스 1.3 데이터마이닝예측기법 1.4 Enterprise Miner의소개 1.5 맺음말 1.6 연습문제 - 41 -

데이터마이닝예측기법 Supervised Prediction ( 지도예측 ) 신경망 (Artificial Neural Network) 판별분석 (Discrimination Analysis) 일반화선형모형 (GLM, Generalized Linear Model) - 선형회귀분석 (Regression Analysis) - 로지스틱회귀분석 (Logistic Regression) 사례기반추론 (Case-Based Reasoning) Unsupervised Prediction ( 자율예측 ) OLAP (On-Line Analytic Processing) 연관성규칙발견 (Association Rule Discovery, Market Basket) 군집분석 (k-means Clustering) 인자분석 (Factor Analysis), 주성분분석 (Principal Component) k-nearest Neighbor SOM (Self Organizing Map, Kohonen Network) - 42 -

1.3.1 지도예측 (Supervised Prediction) : Supervised Learning, Directed Learning 목표변수 (Target Variable) : response, outcome, dependent variable 입력변수 (Input Variable) : predictors, explanatory variables, independent variables 입력변수 목표변수 예측확률 입력변수 목표변수 예측값 Obs. Sex Age Region y P ( y = 1) Obs. Sex Age Region y y^ 1 2 3 4 5 6 7 F M F F F M F 18 25 67 43 28 53 42 A D D B A C A 1 0 1 1 0 0 0 0.75 0.12 0.93 0.53 0.15 0.31 0.12 ^ exp( a + b1 x + 1 b2x + 2 + bpxp) P(y=1) = 1+ exp( a + b x + b x + + b x ) 1 1 2 ( 예측모형 : 로지스틱회귀분석 ) 2 p p 1 2 3 4 5 6 7 F M F F F M F 18 25 67 43 28 53 42 A D D B A C A 125 35 150 45 13 38 20 120 38 147 53 15 36 21 y ^ = a + b x + b x + + 1 1 2 2 b p x p ( 예측모형 : 선형회귀분석 ) - 43 -

지도예측 (Supervised Prediction) Scoring 신용점수 (Credit Score) 우수고객점수 (Loyalty Score) 고객이탈및연체점수 (Attrition Score) 구매가능점수 이탈, 연체여부분석실행 1 년 고객정보거래정보신용정보상품정보 1 년 3 개월 3 개월 현재 성과분석 Remodeling - 44 -

지도예측 (Supervised Prediction) 이탈예측 대상 : 현재의고객 (?) 입력변수 : 고객정보, 거래정보, 상품정보 목표변수 : 이탈, 연체 활용 : 고객의이탈을방지하고충성도를높임 신용점수 대상 : 과거의대출신청자 입력변수 : 대출신청당시의고객정보, 신용정보 목표변수 : 채무불이행, 연체 활용 : 새로운고객의대출신청에대한판단 - 45 -

지도예측 (Supervised Prediction) Target Marketing 대상 : 거래실적이있는고객 입력변수 : 고객정보, 거래정보 (RFM), 상품정보 목표변수 : 구매여부, DM/TM 에대한반응여부 활용 : 캠페인또는판촉등의영업활동 부정거래적발 대상 : 거래실적이있는고객 입력변수 : 거래정보, 고객정보 목표변수 : 부정거래, 카드의도용 활용 : 부정거래방지, 카드의도용사고방지 - 46 -

1.3.2 자율예측 (Unsupervised Prediction) : Clustering, Unsupervised Learning, Undirected Learning 목표변수 (Target Variable): 정해져있지않음 세분화 (Segmentation): 고객세분화, 시장세분화 설명 해당 Life Style 특징 주관심품목 Seg 1 성별 : 남연령 :40 대구매금액상 거래편이성과제품구매측면의대안평가과정중시 보안문제중시점심시간및퇴근시간조회집중 Computer 관련제품가전제품 Seg 2.. 성별 : 여연령 :3~40 세신 APT 지역구매건수상.. 상품검색편리성 / 인터넷접근용이성중시.. 주문 / 배달 / 결제의일괄처리신속한반품처리.. 생활필수품김치, 쌀등.. 마케팅전략수립의기초 - 47 -

모델링 : 선형회귀분석 (Linear Regression) 판매대수 y = a + b x + e i i i x y ŷ 11 19 23 26 29 30 38 39 46 49 29 33 51 40 49 50 69 70 64 89 25.5 37.1 42.8 47.1 51.5 52.9 64.4 65.9 76.0 80.3 예약대수 y = a + b x = 9. 74 + 1. 44 x i i i - 48 -

모델링 : 로지스틱회귀분석 (Binary Response) y = 0. 1 + 0. 01 x x y ŷ 10 100 1000 0 1 1 0.2 1.1 10.1 로지스틱회귀분석 P ( y = 1 x ) log 1 P ( y = 1 x ) = α + β x + ε - 49 -

로지스틱회귀분석에의한예측모형예시 대출금 대출금잔액 담보금 대출사유 직업 근무년수신용거래수 신용상태 최초신용거P( 나쁨 ) P( 좋음 ) 2300 102370 120953 HomeImp Office 2 13 0 91 0.04 0.96 2400 34863 47471 HomeImp Mgr 12 21 1 70 0.14 0.86 2400 98449 117195 HomeImp Office 4 13 0 94 0.03 0.97 2900 103949 112505 HomeImp Office 1 13 0 96 0.03 0.97 2900 104373 120702 HomeImp Office 2 13 0 102 0.03 0.97 2900 7750 67996 HomeImp Other 16 8 1 122 0.68 0.32 2900 61962 70915 DebtCon Mgr 2 37 1 283 0.19 0.81 3000 14500 HomeImp Other 3 2 1 9 3000 14100 HomeImp Other 1 19 1 104 3200 74864 87266 HomeImp ProfExe 7 12 0 251 0.08 0.92 3200 23159 HomeImp Mgr 20 9 1 118 3800 73189 0 3300 130518 164317 DebtCon Other 9 33 1 192 1.00 0.00 3600 52337 63989 HomeImp Office 20 20 0 204 0.00 1.00 3700 17857 21144 HomeImp Other 5 9 1 130 0.03 0.97 3800 51180 63459 HomeImp Office 20 20 0 204 0.00 1.00 3900 29896 45960 HomeImp Other 11 14 1 146 0.02 0.98 4000 105164 112774 HomeImp Office 1 13 0 95 0.03 0.97 4000 54543 61777 HomeImp Office 21 19 0 206 0.01 0.99 4000 26572 31960 HomeImp Office 11 8 1 118 0.10 0.90 4100 57992 63797 DebtCon ProfExe 7 31 0 166 0.22 0.78 0. 45 X + 2 ) - 0. 45 X + ) 4200 56544 59218 HomeImp Office 19 20 0 211 0.00 1.00 P( 신용상태 = 좋음 ) exp ( 1. 7 + 2. 3 - = X 1 1 + exp ( 1. 7 + 2. 3 X 1 2-50 -

사후확률에의한예측 < 사례 : 손해보험회사의이탈고객분석의예 > 목표변수 예측결과 - 51 -

의사결정나무분석의예시 0: 정상 1: 해지 - 52 -

모델링 : 군집분석 (Clustering Analysis) 개인또는개체중에서유사한것들을몇몇의집단으로그룹화하여, 각집단의성격을파악함으로써데이터전체의구조에대한이해를돕고자하는탐색적인분석방법 ( 예 ) 수입과상표충성도기준으로고객세분화 (Segmentation) High Income Low Low Brand loyalty High - 53 -

모델링 : 연관성분석 (Association Analysis) 하나의거래나사건에포함되어있는항목들의관련성을파악해서둘이상의항목들로구성된연관성규칙을통한탐색적자료분석방법 예 ) Products in Shop Cart (One trip, Together) 윈도우클리너 식기세제 우유우유바나나 오렌지주스 1) 오렌지주스와식기세제 구입시 윈도우클리너 를같이구입하는가? 2) 우유 를 바나나 구입시함께구입하는가? 또한구입할때특정브랜드를구입하는가? 3) 식기세제 를어느곳에위치시켜야지만판매고를최대화하는가? - 54 -

연관성분석의예제 고객의구매상품 List ID 판매상품소주, 콜라, 맥주 1 소주, 콜라, 맥주 2 소주, 콜라, 와인 3 소주, 주스 4 콜라, 맥주 5 소주, 콜라, 맥주, 와인 6 주스 지지도가 50% 이상인연관성규칙 연관성규칙 ( 지지도 50% 이상 ) 해당거래 신뢰도 소주콜라 1, 2, 5 75 % 콜라맥주 1, 4, 5 75 % 맥주콜라 1, 4, 5 100 % * 연관성규칙 : 맥주를구입한사람들모두는 (100%) 콜라도구매한다. Lift = P( 콜라 맥주 ) / P( 콜라 ) = 1/ (4/6) = 1.5 - 이러한경향을가지는사람들은전체의절반 (50%) 정도 - 맥주구매시콜라를구입하게될가능성은맥주구매가전제되지않았을경우보다 1.5배나높아진다. - 55 -

모델링 : 인공신경망 Multilayer Perceptron 은닉층 Hidden Layers 입력층 Input Layer 출력층 Output Layer 은닉마디 Hidden Unit - 56 -

모형평가 Actual Class The Two-Class Problem 0 1 Predicted Class 0 1 True Neg False Neg False Pos True Pos Total Negative Total Positive Actual Two-Class Problem Predicted 0 1 0 40 4 44 29% 1 20 86 106 71% 60 90 150 Mosaic display Total Negative Total Positive 40% 60% 오류율 (Error rate) = (false negative + false positive)/(grand total)=(20+4)/150=16% 정확도 (Accuracy) = (true negative + true positive)/(grand total)=(40+86)/150=84% 민감도 (Sensitivity) = (true positive)/( total actual positive)=86/106=81% 특이도 (Specificity) = (true negative)/( total actual negative)=40/44=91% - 57 -

차례 1.1 데이터마이닝이란무엇인가? 1.2 데이터마이닝프로젝트의수행프로세스 1.3 데이터마이닝예측기법 1.4 Enterprise Miner의소개 1.5 맺음말 1.6 연습문제 - 58 -

SEMMA - 59 -

차례 1.1 데이터마이닝이란무엇인가? 1.2 데이터마이닝프로젝트의수행프로세스 1.3 데이터마이닝예측기법 1.4 Enterprise Miner의소개 1.5 맺음말 1.6 연습문제 - 60 -

데이터마이닝프로젝트수행의어려움 장기적이고구체적인계획의부족 데이터에대한준비부족 시간차이문제 적용상의문제 부서및프로젝트들간의비협조 - 61 -