1-1. 빅데이터와강좌소개
빅데이터시대 데이터가급속한속도로늘어나고있다! 전체데이터의 90 % 의데이터가최근 2 년에생산된것 "Bringing Big Data to the Enterprise," IBM, 2012 2020 년의데이터생산은 2009 년의 44 배로예상 "A Comprehensive List of Big Data Statistics," Wikibon Blog, 1 August 2012 전세계비즈니스데이터의양은 1.2 년마다 2 배로 "ebay Study: How to Build Trust and Improve the Shopping Experience," KnowIT Information Systems, 8 May 2012 스마트폰, 소셜미디어, 사물인터넷활용증대 30 억기가바이트의데이터가매일생산되지만, 이중 0.5% 만이분석 IDC Digital Universe Study, Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East, Dec., 2012
빅데이터시대 40 제타바이트 (40 조기가바이트 ) 는전세계해변의모래알수보다약 57 배 연평균증가율 = 40 % 출처 : https://www.atkearney.com
빅데이터의정의및특징 빅데이터? 일반적인 DB SW 로관리하기어려운정도의큰규모의데이터 현재로는수십테라에서향후페타, 엑사바이트정도크기의대용량데이터를의미 페타바이트 (petabyte) = 10 15 바이트 = 1 백만 GB 엑사바이트 (exabyte) = 10 18 바이트 = 10 억 GB 제타바이트 (zettabyte) = 10 21 바이트 = 1 조 GB» 미의회도서관데이터 (2011 년 4 월기준, 235 테라바이트 ) 의 4 백만배크기
빅데이터의정의및특징 빅데이터는의사결정도와주기위해서비용효과적으로, 혁신적으로정보처리가필요한빠른속도로생성되는다양한형태의대용량정보자산이다. Big data is high-volume, high-velocity and highvariety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making Gartner IT Glossary - 거대한크기 (Volume) - 다양한형태 (Variety) 형식과내용이상이해통일된구조로정리하기어려운비정형데이터가전세계데이터의 90% 이상을차지 - 빠른속도 (Velocity) 데이터생성후유통, 활용까지소요되는시간이크게단축
빅데이터의정의및특징 출처 : http://www.rosebt.com/blog/data-veracity
빅데이터의활용분야 출처 : Entrue World 2012
구글의독감예보서비스 구글검색사이트에사용자가남긴검색어의빈도를조사, 독감환자의분포및확산정보제공 미국독감유행수준 Google 독감트렌드예상치미국질병통제센터데이터 출처 : https://www.google.org/
샌프란시스코의범죄지도 과거범죄데이터제공및분석 과거 8 년범죄데이터분석 효율적인경찰인력배치 단순한통계제공이아닌새로운범죄가능성정보제공 6 개월간의테스트결과, 예측정확도가 71% 범죄가예보된 10 곳중 7 곳에서실제사건발생
트위터를통한주가예측사례 인디애나대학교요한볼렌 (Johan Hollen) 교수 매일쏟아져나오는수백만건의트윗중약 10% 를무작위로선정해분석, 이를기반으로수일후의주가방향을예측 트위터를통한다우존스산업평균지수전망예측은약 87% 의정확성을가짐 실제로영국의더웬트개피탈이라는헤지펀드가거래시작 Sentimental Analysis Alex Davies 출처 : http://alexdavies.net/media/ 출처 : Bollen, J. et al., Twitter mood predicts the stock market, Journal of Computational Science, Vol. 2, No. 1, 2011.
출처 : http://hd.media.mit.edu/ 현실마이닝 (Reality Mining) MIT 미디어랩의 Human Dynamics 연구실 소셜뱃지 모바일폰사용에기초한사람들간의상호작용 디지탈 footprint
Daumsoft 출처 : http://www.daumsoft.com/
코난테크날리지의 PulseK 출처 : http://www.pulsek.com/
강의소개
강의교재 김종우, 김선태, 경영을위한데이터마이닝, 한경사, 2009. Linoff, G.S. and Berry, M. J.A., Data Mining Techniques For Marketing, Sales, and Customer Relationship Management (3 nd ed.), Wiley, 2011.
강의일정계획 데이터마이닝개요 의사결정나무추론 인공신경망 장바구니분석과연관규칙 자동군집탐색 사례기반추론 연결분석과사회연결망분석 유전자알고리즘 텍스트마이닝 CRM 과데이터마이닝
분석적 CRM 과데이터마이닝 정의 1 장. 데이터마이닝의정의와의의 서론 분석적인고객관계관리와데이터마이닝 데이터마이닝은무엇인가?
교재 1 장의목차 분석적고객관계관리 데이터마이닝은무엇인가? 데이터마이닝을통해수행할수있는과업은어떤것들인가? 데이터마이닝에대한관심이왜최근들어높어지는가? 현재의데이터마이닝활용 정리
서론 서머빌의와인가게 와인통 과미용사이야기 충성도 (loyalty) 와인통의댄 (Dan) 과스티브 (Steve) 상품과재고 고객의취향과가격대학습 축적된지식 과거에소규모업체 최근에는대규모업체 이강의의주제 고객의데이터에서고객에대한지식으로바꿀수있는분석적기법
분석적고객관계관리 고객관계관리 (CRM) 포괄적주제 고객추적소프트웨어, 홍보관리소프트웨어, 콜센터소프트웨어, 고객관리관리시스템의유형 운영 CRM(Operational CRM) 영업자동화 협업 CRM(Collaborative CRM) 콜센터자동화 분석 CRM(Analytic CRM) 고객데이터분석과활용
분석적고객관계관리 고객관계관리 (CRM) 데이터마이닝은분석 CRM 의도구 고객과의학습관계를형성하는능력을향상시키고, 궁극적으로업체의고개관계관리를도움 상품 - 중심조직 -> 고객 - 중심조직
분석적고객관계관리 고객과의학습관계를형성하기위해서기업은 : 고객이무엇을하고있는지감지한다 (Notice) TPS 고객들이시간이지나면서해온일들을기억한다 (Remember) DW 기억한내용으로부터학습한다 (Learn) DM 고객을더수익성있도록하기위해학습한지식을활용한다 (Act)
거래처리시스템의역할 이미많은기업들이첫단계 (notice) 의대부분을자동화 ATM, 전화교환기, 웹서버, POS 스캐너, TPS 는데이터마이닝의원재료 (raw material) 제공 거래기록은데이터마이닝을사전에염두에두고만들어지지않음 고객들의행동이기업과만나는접점 (touch point) 기업의눈과귀
데이터웨어하우스의역할 학습 (Learning) 은단순히자료를모으는것으로이루어지지않는다 학습을위해서는다양한정보원들에서얻어진데이터들이한곳에모아 (gathered together) 일관적이고유용한방식 (consistent and useful) 으로정리해야한다 데이터웨어하우스 고객에게서감지한사항들을기억 (remember) DW 는시간에따라고객들의행동을추적
데이터마이닝의역할 DW 는기업의기억 (memory) 를제공 기억은지능 (intelligence) 이없다면사용될수없다 데이터마이닝의중심개념은과거의데이터는미래에유용하게쓰일정보를포함하고있다는것이다. 데이터마이닝의목표 기록으로부터고객니즈, 취향, 기호의규칙들을찾아빛을보게하는것 고객이보내는신호는시끄럽고혼란스러운경우가많음 noisy
고객관계관리전략의역할 데이터마이닝을통해서학습한결과들이행동으로반영될수있도록기업의 CRM 전략에내재 (embedded) 되어야함 데이터마이닝은일종의도구 그것의작동원리를아는것만으로는충분하지않고, 그것을어떻게활용해야할지아는것이더중요
데이터마이닝은무엇인가 데이터마이닝 좁은관점에서, 도구 (tools) 와기술 (techniques) 의모임 좀더넓은관점에서, 경영활동들은학습에기초해야한다는태도 (attitude) 도구와기술을적용시키는하나의과정 (process) 과방법론 (methodology)
데이터마이닝은무엇인가 데이터마이닝의정의 대용량의데이터로부터 자동적이거나, 반자동적인방법을통해서 이들데이터내에존재하는관계, 패턴, 규칙등을탐색하고찾아내어유용한지식을추출하는일련의과정들
데이터마이닝은무엇인가 Data mining is the process of discovering meaningful new co-relations, patterns, and trends by sifting through large amounts of data stored in repositories, using pattern recognition technologies as well as statistical and mathematical techniques (Gartner Group, www.gartner.com)
데이터마이닝은무엇인가 Data mining is a knowledge discovery process of extracting previously unknown, actionable information from very large databases (META Group, www.metagroup.com)
데이터마이닝은무엇인가 데이터마이닝 다량의데이터를탐구 (exploration) 하고분석 (analysis) 하여의미있는패턴이나규칙을찾아내는일 데이터마이닝의 2 종류 방향성 (directed) 과무방향성 (undirected)
데이터마이닝은무엇인가 방향성데이터마이닝 특정한목표필드를설명하거나분류 무방향성데이터마이닝 목표필드나사전에정의된클래스들의집합을사용하지않고규칙이나유사성을찾으려는시도
데이터마이닝은무엇인가 지식발견 (knowledge discovery) KDD (Knowledge Discovery in Database) 지식창조 (knowledge creation)?
데이터마이닝으로할수있는 것들 1 장. 데이터마이닝의정의와의의 데이터마이닝을통해수행할수있는과업은어떤것들인가?
데이터마이닝을통해수행할수 분류 (Classification) 추정 (Estimation) 예측 (Prediction) 있는과업들 유사성집단화 (Affinity Grouping) 또는연관성규칙 (Association Rules) 군집화 (Clustering) 설명 (Description) 과프로파일링 (Profiling)
분류 분류, 구별, 등급 새로나타난대상 (object, record) 의특징들 (features) 을살펴보고, 사전에정의된분류 (class) 집합에할당 클래스들에대한사전에명확한정의가존재하며, 미리분류된예들로구성된훈련집합 (predefined set of classes) 을가짐
분류 분류작업의특징 클래스에대한사전에명확한정의가존재 미리분류된예들로구성된훈련집합 (training set) 분류작업의목적 분류되는않은데이터에적용되어분류할수있도록해주는모형 (model) 을만드는것
분류 예 신용평가대상자를위험도에따라상중하로분류 웹페이지에표시될콘텐츠의종류를결정 어떠한전화번호가팩스기계에대응되는지결정 사기성보험청구를판단 자유롭게기재된텍스트직업설명으로부터산업코드와직업명칭을배분
분류 의사결정나무 (6 장 ) 최근접이웃기술 (Nearest neighbor techniques) (8 장 ) 인공신경망 (7 장 ) 연결분석 (10 장 )
추정 분류는이산형출력 예또는아니오 상, 중, 하 추정은연속형값을가지는결과를다룸 소득, 신장, 신용카드잔액
추정 추정은분류작업에도자주사용 스키부츠회사 스키타는사람분류 스키선호점수 (0과 1사이값 ) 장점 50만명에광고제공예산 분류 150만명이 skier로분류
추정 예 한가정의자녀의수를추정 한가정의총가계수입을추정 한고객의평생가치를추정 은행에서잔액이체서비스홍보에반응할확률을추정
추정 회귀분석모형 (5 장 ) 인공신경망 (7 장 ) 생존분석 (12 장 )
예측 미래행위를분류하거나미래값을추정 입력변수와출력변수간의순차적 (temporal) 관계고려 예 신용카드소지자가잔액이체제안을받아들이는경우이체할잔액의양을예측 6 개월이내이탈할고객들을예측 전화사용자가 3 자통화나음성메일과같은부가서비스를신청할지의여부를예측
예측 대부분의데이터마이닝기술들은예측작업에활용가능 기법의선택 입력데이터의특성 예측하려는값의유형 예측에대한설명력의중요성
유사성집단화또는연관성규칙 어떤일들이함께발생하는지판단 쇼핑카트 장바구니분석 상품진열, 상품패키징 데이터로부터규칙생성 고양이사료를사는사람들은고양이깔개를 P1 의확률로같이구매한다. 고양이깔개를사는사람들은고양이사료를 P2 의확률로같이구매한다.
타겟의연관성분석활용사례 18 살여고생딸에게출산용품할인쿠폰을보낸다면? 미국미니애폴리스대형마트타겟 쇼핑습관을바꾸는전기 임신 여러곳을돌아다니지않고한곳에서쇼핑하려함 타켓의통계학자앤드류폴 여성고객이철분제와향기없는로션을사면 80% 확률로 6 개월뒤출산 4 년간업계평균성장률의 2 배가넘는매출성장
군집화 이질적인사람들의모집단으로부터다수의동질적인하위집단혹은군집 (cluster) 들로세분화하는작업 사전에정의된클래스도, 사전에분류된예시도없음 군집화에서는레코드들은상호유사성 (self-similarity) 에근거하여함께그룹화 결과로만들어진군집들에의미를부여하는것은사용자의몫
군집화 다른형태의데이터마이닝이나모형화의사전작업으로활용 자동군집탐지 (11 장 ), 자기조직화지도 (self organization map, SOM) (7 장 )
프로파일링 고객, 상품, 업무프로세스등에무슨일들이일어나는지에대한이해 (understanding) 를높이는방법으로데이터마이닝을사용할수있음 Description, Explanation 의사결정나무 (6 장 ), 연관성규칙 (9 장 ), 군집화 (11 장 )
정리 데이터마이닝은분석적인고객관계관리의중요한구성요소 트랜잭션처리시스템 (TPS) 에의해포착 데이터들은수집되고, 정리되고, 요약되어고객데이터웨어하우스 (DW) 에추가 데이터마이닝 (DM) 도구들은이러한과거레코드들에적용되어미래의고객들에게더좋은서비스를제공할수있도록고객들에대한학습을지원
정리 데이터마이닝 대량의데이터에서유용한패턴과규칙들을발견하는과정 6 가지일반적인데이터마이닝작업 분류, 추정, 예측, 유사성집단화, 군집화, 프로파일링
데이터마이닝선순환프로세스 2 장. 데이터마이닝의선순화 기업데이터마이닝의사례연구 선순환은무엇인가? 선순환의맥락에서의데이터마이닝
교재 2 장의목차 기업데이터마이닝의사례연구 선순환은무엇인가? 선순환의맥락에서의데이터마이닝 이통통신회사사례 자동차회사사례 정리
서론 산업혁명 동력은 물 데이터는새로운수력 데이터 는기업의핵심적인경영프로세스의중심 데이터마이닝은이러한수십억, 수조의바이트들의데이터속에서흥미로운패턴을발견할것을가능 데이터 -> 정보 -> 행동 -> 가치 활용가능한 (actionable)
서론 알고리즘들이중요하기는하지만데이터마이닝은단순히강력한기법이나자료구조의집합이상의것 올바른 (right) 데이터적용 장기간에걸쳐이루어지는반복적인학습과정 피동적인조직에서능동적인 (proactive) 조직으로변화
기업데이터마이닝사례연구 Bank of America 주택담보대출부서에서고객들을유치하는데실패를거듭 국내소비자금융부서 (National Consumer Assets Group, NCAG) 는이문제를데이터마이닝으로접근하기로결정
비즈니스도전의식별 주택담보대출에대한마케팅개선필요 기존에활용하던직관 대학을갈자녀를둔고객들은등록금을대기위하여주택담보대출을하기를원한다 수입이많고변동성이큰고객은수입의변동을상쇄하기위하여주택담보대출을하기를원한다
데이터마이닝의적용 Hyperparallel 의데이터마이닝컨설턴트와함께작업 충분한데이터 NCR/Teradata 병렬컴퓨터와대용량관계형데이터베이스수백만소매고객데이터 42 개시스템으로부터의데이터가정제되고변환되고정렬되어서회사의데이터웨어하우스에저장 1914 년레코드포함 최근의고객레코드는 250 개필드보유
데이터마이닝의적용 의사결정나무도구 기존은행고객들이주택담보대출제안에반응할지의여부를분류할규칙제공 순차적인패턴발견도구 이러한형태의대출을언제원할가능성이높은지를결정
데이터마이닝의적용 군집화도구 유사한속성을갖는고객군집을자동적으로생성 14 군집생성 한흥미로운군집의특성들 : 고객의 39% 가개인계좌와사업자계좌를동시에가짐 의사결정나무에의해주택담보대출에응답할가능성이높은고객으로분류된고객중의 4 분의 1 이상이이군집에속함 -> 사람들이새로운사업을시작할때주택담보대출을사용할수있음
결과의실행 기존의시장조사설문수정 사업을시작한다면, 대출이이용하시겠습니까? 데이터마이닝을통해제기된결과들을재확인 NCAG 는주택담보대출마케팅의홍보문구와홍보대상을변경
효과를측정하기 새로운홍보의결과로주택담보대출홍보에대한응답률이 0.7% 에서 7% 로상향 Dave McDonald 그룹부회장 데이터마이닝의의의는은행의소매부문이대중마케팅조직으로부터학습기관으로의전환 우리는마케팅프로그램들을지속적으로실행하는상태까지갔으면한다. 분기별우편발송만이아니라지속적인기반의프로그램들을수행하는것이다. 데이터마이닝선순환의비전 데이터의빠른분석 -> 새로운프로그램생성 -> 실행과평가 - > 새로운데이터생성
선순환은무엇인가 4 단계 1. 경영의문제를포착한다. 2. 데이터마이닝을통해데이터를행동가능한정보로전환한다. 3. 정보에따라행동한다. 4. 결과를측정한다.
선순환은무엇인가
사업기회의발굴 분석적노력의낭비를피하기위해서는결과에따라서행동하겠다는의지 (a willingness to act) 가필요 데이터마이닝을통해서얻어진가치를판단하기위해서수행된행동들의효과를측정 (measure) 하는것도중요
데이터를마이닝한다 데이터마이닝을방해하는함정들 불량한데이터형식 우편번호가포함되어있지않은고객주소등 혼란스러운데이터필드 배송일자 라는필드가한시스템에서 예상배송일자 를의미하고, 다른시스템에서는 실제배송일자 를의미하는경우등
데이터를마이닝한다 데이터마이닝을방해하는함정들 법률적제약 대출을거절할때에는이에상응하는법적근거의제시가의무화된경우 ( 우리가사용한인공신경망결과에따라서대출이불가능하다 는식의해명 ) 조직적요인 특정운영부서들이추가적인인센티브없이는운영방식을변경하기를꺼려하는경우등 적시성의부족 행동에옮기기에결과지나치게늦게나오는경우등
데이터는결코깨끗하지않다 다양한형태, 다양한포맷, 다양한시스템으로부터데이터가모임 적절한데이터원천을찾아내고그들을집합시키는것이주요한성공요인
행동을취하다 행동을취하는것은데이터마이닝의선순환의궁극적인목적 행동은여러가지형태로나타날수있음 고객이나잠재적고객에게우편, 이메일, 텔레마케팅을통하여메시지를전달 데이터마이닝을통하여다른고객들에게각기다른메시지를발송 고객서비스의우선순위를부여 재고수준을조정
결과의측정 중요성에도불구하고데이터마이닝의선순환에서이단계는간과되는경향이있음 어떻게성과를측정할지에대한고민을시작하는시점은경영문제를포착하는초기 일반적인상황에서기업들은현재노력의성과를측정하기보다는다음문제의해결에여념이없는경우가많음 성공의여부에관계없이모든데이터마이닝의시도들은미래의노력들에활용될여지가있는교훈들을제공
선순환맥락에서의데이터마이닝 데이터마이닝시스템은이전의결과들을완전히동일하게반복하는것을추구하지않는다 데이터마이닝은창조적인과정이다 데이터마이닝의결과는시간에따라변한다 데이터마이닝은변화가필요한다른업무프로세스들에게피드백을제공한다
데이터마이닝은전형적인업무운영 프로세스와다름