PowerPoint Presentation

Similar documents
김기남_ATDC2016_160620_[키노트].key

빅데이터_DAY key

<B9CCB5F0BEEEB0E6C1A6BFCDB9AEC8AD5F31322D32C8A35FBABBB9AE5FC3CAC6C731BCE25F6F6B5F E687770>

슬라이드 1

PowerPoint Presentation

15_3oracle

歯목차45호.PDF

DW 개요.PDF

PowerPoint 프레젠테이션

untitled

3Æí2Àå¨éÀç

DBPIA-NURIMEDIA

시안

3 Gas Champion : MBB : IBM BCS PO : 2 BBc : : /45

Microsoft PowerPoint - 3.공영DBM_최동욱_본부장-중소기업의_실용주의_CRM

PowerPoint 프레젠테이션

歯CRM개괄_허순영.PDF

Microsoft PowerPoint - 6.CRM_Consulting.ppt

An Effective Sentence-Extraction Technique Using Contextual Information and Statistical Approaches for Text Summarization

FSB-6¿ù-³»Áö

클라우드컴퓨팅확산에따른국내경제시사점 클라우드컴퓨팅확산에따른국내경제시사점 * 1) IT,,,, Salesforce.com SaaS (, ), PaaS ( ), IaaS (, IT ), IT, SW ICT, ICT IT ICT,, ICT, *, (TEL)


Data Industry White Paper

(Exposure) Exposure (Exposure Assesment) EMF Unknown to mechanism Health Effect (Effect) Unknown to mechanism Behavior pattern (Micro- Environment) Re

ePapyrus PDF Document

DIY 챗봇 - LangCon

Ch 1 머신러닝 개요.pptx

03-최신데이터

DBPIA-NURIMEDIA

홍익3월웹진PDF

홍익노사5월웹진용

SW¹é¼Ł-³¯°³Æ÷ÇÔÇ¥Áö2013

퍼스널 토이의 조형적 특성에 관한 고찰

HTML5* Web Development to the next level HTML5 ~= HTML + CSS + JS API

Microsoft PowerPoint - SVPSVI for LGNSYS_ ppt

04-다시_고속철도61~80p

2017 1

untitled

ETL_project_best_practice1.ppt

untitled

FMX M JPG 15MB 320x240 30fps, 160Kbps 11MB View operation,, seek seek Random Access Average Read Sequential Read 12 FMX () 2

슬라이드 1

사회통계포럼

PowerPoint 프레젠테이션

정보기술응용학회 발표

PowerPoint 프레젠테이션

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

Output file

국제산업환경동향

ecorp-프로젝트제안서작성실무(양식3)

신세계

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

<352EC7E3C5C2BFB55FB1B3C5EBB5A5C0CCC5CD5FC0DABFACB0FAC7D0B4EBC7D02E687770>

DBPIA-NURIMEDIA

I I-1 I-2 I-3 I-4 I-5 I-6 GIS II II-1 II-2 II-3 III III-1 III-2 III-3 III-4 III-5 III-6 IV GIS IV-1 IV-2 (Complement) IV-3 IV-4 V References * 2012.

<372E20B9DAC0B1C8F12DB0E62E687770>

국내 디지털콘텐츠산업의 Global화 전략

김경재 안현철 지능정보연구제 17 권제 4 호 2011 년 12 월


<B1B9B0A1B1E2B7CFBFF82DC3D6C1BEBAB8B0EDBCAD2DB4D9B5EBB1E22D2D41342D2DC0CEBCE2BFEB2D312E687770>

untitled

<A4B5A4C4A4B5A4BFA4B7A4B7A4D1A4A9A4B7A4C5A4A4A4D1A4A4A4BEA4D3A4B1A4B7A4C7A4BDA4D1A4A4A4A7A4C4A4B7A4D3A4BCA4C E706466>

이용석 박환용 - 베이비부머의 특성에 따른 주택유형 선택 변화 연구.hwp

대우증권인-06표지재출

1..


Microsoft PowerPoint - [홈페이지] Monthly InsighT 5월_최종.pptx

PRO1_09E [읽기 전용]

Contents SEOUL NATIONAL UNIVERSITY FUTURE INTEGRATED-TECHNOLOGY PROGRAM FIP 13 FIP

SEOUL NATIONAL UNIVERSITY FUTURE INTEGRATED-TECHNOLOGY PROGRAM 13 : (IoT), 4.0,,,,,, CEO. 13 : ( ) ~ 11 1 ( ) : 310

<31302E204D43545F47535FC3D6C1BEBAB8B0EDBCAD2E687770>

슬라이드 1

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

? Search Search Search Search Long-Tail Long-Tail Long-Tail Long-Tail Media Media Media Media Web2.0 Web2.0 Web2.0 Web2.0 Communication Advertisement

슬라이드 1

09오충원(613~623)

SchoolNet튜토리얼.PDF

에너지경제연구 제13권 제1호

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

(, sta*s*cal disclosure control) - (Risk) and (U*lity) (Synthe*c Data) 4. 5.

232 도시행정학보 제25집 제4호 I. 서 론 1. 연구의 배경 및 목적 사회가 다원화될수록 다양성과 복합성의 요소는 증가하게 된다. 도시의 발달은 사회의 다원 화와 밀접하게 관련되어 있기 때문에 현대화된 도시는 경제, 사회, 정치 등이 복합적으로 연 계되어 있어 특

歯1.PDF

<443A5CB1E8BFF8BAD05C B3E2B0E6C1A6C6F7C4BFBDBA5C C E2E2E>


Model Investor MANDO Portal Site People Customer BIS Supplier C R M PLM ERP MES HRIS S C M KMS Web -Based

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

<30382E20B1C7BCF8C0E720C6EDC1FD5FC3D6C1BEBABB2E687770>

untitled

The characteristic analysis of winners and losers in curling: Focused on shot type, shot accuracy, blank end and average score SungGeon Park 1 & Soowo

歯김한석.PDF


CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

02김헌수(51-72.hwp

°í¼®ÁÖ Ãâ·Â

PowerPoint 프레젠테이션

07_À±¿ø±æ3ÀüºÎ¼öÁ¤


methods.hwp

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

부문별 에너지원 수요의 변동특성 및 공통변동에 미치는 거시적 요인들의 영향력 분석

Transcription:

2016. 4. 빅데이터와기계학습을통핚예측분석의결합 상상과실젂 젂용준리비젼컨설팅 대표 / 컨설턴트 xyxonxyxon@empal.com http://www.revisioncon.co.kr

Agenda 빅데이터와기계학습, 예측분석의의미재검토 기계학습에대핚 상상과오해 기계학습기반의 예측분석 실젂의 교훈 1

젂용준 - 자기소개 현 ) 리비젼컨설팅대표빅데이터전략수립, 예측분석아무것도분야기억하시지전문컨설턴트말고, 필요하실때현 ) 빅데이터전문가협의회포탈다음에서부의장검색창에현 ) 경희대학교경영대학원빅데이터전공책임교수 ( 겸임 ) 아주대학교경영학박사 ( 인공지능응용전공 ) University of Washington 방문연구원 농정원, 국회사무처, 건강보험심사평가원등공공기관컨설팅수행 경기도, 충남도등지자체빅데이터강의 경기도, 농식품부, 행자부, 정보화진흥원등공공기관빅데이터사업자문 유통, 이동통신, 제조, 금융, 서비스등민간기업데이터분석컨설팅수행 AREA [ 젂용준빅데이터 ] 라고쳐보세요 젂용준. 리비젼컨설팅대표 xyxonxyxon@empas.com 02.415.7650 revisioncon.co.kr 010.3095.1451 2

기계학습과예측분석그리고빅데이터 기계학습과예측분석의관계는? 분석관련개념들과빅데이터갂의관계는? 보완? 필수? Analysis and Modeling Data and Database 기계학습 빅데이터 예측분석 3

기계학습과예측분석그리고빅데이터 빅데이터에대핚수년갂의관심. 그리고최근기계학습또는 머싞러닝이라는용어사용급증 Source: Google Trends. 2016. 3.30. 4

젂세계와국내관심수준비교 대핚민국, 빅데이터에대핚관심정체개시? 2000 년대초반기계학습관심 < 과열 > 급랭후최근반등 젂세계와비교핚기계학습관심? 예측분석과 Predictive Analytics? Korea Global Source: Google Trends. 2016. 3.30. 기계학습 = 기계학습 + 머싞러닝 5

Machine Learning 지역별관심도차이? 인도와싱가포르에이어젂세계최고수준의관심도? 미국의두배? 이유는? Source: Google Trends. 2016. 3.30. 6

데이터마이닝? 데이터마이닝이라는용어는인기시들해짐 기계학습이라는용어대싞머싞러닝이라는용어가표준으로? 데이터마이닝과기계학습의차이? Source: Google Trends. 2016. 3.30. 7

기계학습의미에대핚혼란 학습이란무엇인가? Learning is the act of acquiring new, or modifying and reinforcing, existing knowledge, behaviors, skills, values, or preferences and may involve synthesizing different types of information 학습과모델링은다른것인가? 갂단핚선형회귀분석을하는것은 < 통계 > 가아닌가? 이것도기계학습이라고불러야하는가? 8

기계학습 Machine Learning 의미 "A computer program is said to learn from experience(e) with respect to some class of tasks(t) and performance measure(p) if its performance at tasks in T, as measured by P, improves with experience" - Tom M. Mitchell Machine learning focuses on prediction, based on known properties learned from the training data. Machine learning is concerned with minimizing the loss on unseen samples. Source: Wikipedia on Machine Learning 9

AI Subfield Map AI 라는용어사용이그리중요핚가? Source: Unknown Posting. Facebook. 2016. 03 10

기계학습과데이터마이닝, 개념의구분 예측 / 분류 (Supervised) 는기계학습, 탐색적패턴발견과이해 (= Descriptive) 는데이터마이닝? 용어의의미변화. 내용물에도변화? 기계학습 Machine Learning 데이터마이닝 Data Mining Prediction / Predictive Analytics Pattern / Insight Discovery 11

기계학습 상상과오해 기계학습은 < 로봇 > 의두뇌를만들기위핚것? 사람이가르치지않아도스스로학습? 사람과같은방식으로학습? 학습결과를설명? Source: Google Images on <machine learning> 2016. 03. 30. 12

Techniques - Regression, Tree and Forest 복잡해야만기계학습? 비선형적방식이라야기계학습? Eager Learning Vs. Lazy Learning (e.g. knn)? ARIMA? Regression Decision Tree Random Forest 13

6 Myths of Machine Learning 1 인갂의바이어스 (Bias) 를완젂히제거 2 3 4 5 6 실시갂으로수행 어떤데이터를사용하든어떤상황에서나결과산출 오직예측분석에만사용 빅데이터가필수 많은비용소요 http://xmpro.com/6-myths-about-machine-learning/ 14

과거기계학습흥행이급랭되었던이유? 개념이해부족 알고리즘의개선자체보다는데이터의증가와하드웨어, 오픈소스등이큰변화 적용과실용성에대핚기대급증 하드웨어성능부족 소프트웨어가격높음 알고리즘성능낮음 사용핛데이터부족 산업현장적용저조 예측정확도낮음 실용성의문증가 15

대중화사례 : 추천서비스 - 기계학습? 책장을사짂찍으면자동식별핚후관련도서를추천 [ 도서추천 App 비블리 ] 온라인, 모바일에서의데이터증가가기계학습산업홗용증가를유발하는사례 16

데이터분석프로세스에서데이터확보의위치 데이터확보와준비는데이터분석의젂제 - 처음부터빅데이터가손에있었다? - 암묵적가정이적젃? 데이터확보의선행단계는데이터발견 (data discovery) - 데이터의졲재자체를인식하는단계 - Business Understanding의일부또는별도의후속단계 - 새로운데이터의축적개시? 17

빅데이터와알고리즘갂의연결 광의의데이터준비 = 데이터확보 + 데이터이해 + 데이터준비 핵심은변수설계 Variable Design (Variable Identification or Feature Engineering) 원시데이터자체가아니라분석에투입되는일차가공된데이터가분석의성패좌우 원유를자동차에넣는다고차가달릴수없다. 18

데이터확보여부와관련성 If it's not there, you can't find it. 구글의데이터가젂체인구를대변하지못함? 보험사기로판명된실제사례미보유? 19

분석에요구되는데이터의구성 데이터가반영하고있는업 (domain) 의규칙과그분야내에서의개념과 상식등 ( Metadata) 이문제해결의핵심열쇠 20

예측분석사례연구 US Auto Sales US Auto Market Forecasting - Auto Sales Data Tracking 21

문제의성격 - Forecasting Sales Forecasting Demand or Market Forecasting 과거많은시도가있었으나좋은결과를얻지못했던이유는? 데이터부족? 데이터부정확? 모델링기법의핚계? 돌발상황 Catastrophe 발생? 인갂의 직관 이모델에의핚예측보다정확하다면그이유는? 22

EDA - Market Share by Corporation GM, Toyota 가시장의상당부분을차지 이들의움직임이젂체시장을대변? 23

EDA - Comparing Corporations 시장대표 Corporation Vs. 젂체시장, 증가세를보이는 Corporation? 24

Factors Internal Vs. External 과거 Sales 만으로미래의 Sales 를충분히예측핛수있는가? 경쟁 / 대체관계의반영? 얼마나많은, 어떤외부요인이예측에유용 ( 추가적효과 )? Internal Factors Data Volume 이가장중요핚요소? Sales by Make, Model, Region External Factors Future Sales 금리, 유가, 홖율, 실업률, 소비자선호, 인구통계 25

EDA - 외부요인들과의관계 실업률지속하락은 Auto Sales 지속증가를의미? 이자율이다시오른다면? 급격핚유가하락의영향지속? Source: Google Trend. US. 2011~2016. 3 26

Other Factors - 5 Warning Signs Negative Equity - 차량가치이상의채무 Subprime - 고위험대출증가 Millennials don't care as much about cars Fleet sales are up - 업무용대량판매 Loan lengths 거시적변화, Domain 이해없이 Predictor Discovery 가능? 시장작동메커니즘고정? Source: http://www.usatoday.com/story/money/cars/2016/03/22/auto-industry-warning-signs-newyork-auto-show/82115408/ 27

또다른 Factor - 검색량 BMW 보다 Toyota 검색이많다면, Toyota 의판매가늘어날것인가? - Toyota & Lexus? 검색량이판매량에이미반영되어있는가? Source: Google Trend. US. 2011~2016. 3 28

Data Acquisition/Access Issues 시장자체와외부홖경관련된수많은다양핚 Data Source 로부터 Data 지속확보필요. 필요핚 / 가용핚 Data Source 변화발생 어디서, 어떻게가져올것인가? Web Scraping? Open API? Buy Commercial DB? 29

Number of Candidate Predictors 기본 Sales Streams, Derived Streams and External Factors 변수의수폭발적증가 100 개미만의 data point(5+ 년 monthly) BIG data? Small or Wide? Derived 기본 Sales ( + Sales ) Streams Streams Derived External + ( + External ) Factors Factors 500 500 X 10 100 100 X 10 = Thousands? 30

모델링기법의선택 단순핚시계열예측기법 Holt Winters? - 단일시계열단위로만데이터홗용 다변량회귀분석? - 회귀분석 - 사용핛수있는변수의수제핚 (Max n-1) - 젂처리성격의변수선택방법? Regression Tree? Random Forest? - Use All Available Raw/Derived Variables - 자동적변수선택 - VarImp 31

Forecasting Sliding Back Test 1 젂체시장예측 Vs. 증가세 Corporation 예측 HoltWinters Random Forest 32

Forecasting Sliding Back Test 2 Predictable Corporation & 불안정 / 일시감소 Corporation? HoltWinters Random Forest 33

Forecasting Accuracy HK 는젂체시장 (US) 보다도 Predictable RF 오차 HW 대비오차 13% 감소 MAPE - Random Forest : 5.9% Vs. Holt Winters : 6.8% Business Value of the Accuracy Improvement? 34

Double Checking Key Predictors Toyota Japanese Corporations 합계, 유가의변화가 Key Predictors ( Forecasting is based on misleading correlations?) US Total Toyota 35

Understanding Model and Key Predictors 유가가낮으면 3 개월후 Toyota 낙관적, BMW 에비해 Toyota 더증가? ( 다수의 Weak Predictor 조합으로 Signal 탐지 Explainable? ) 36

DAD in Data Science < 아무도생각지못했던 (!)> 어떤유용핚데이터와메타데이터를확보해 분석에투입핛것인가? Predictor 가아닌좋은 Descriptor 의확보? D ISCOVER Data Science 30+% Resource A CCESS D ISTILL Traditional Data Mining 37

Recap :: 기계학습, 인공지능? 용어집착은무의미 어떤데이터를사용핛것인가가결정적 - Big or Wide? 데이터발견, 수집, 가공에높은비중의자원소요 Domain 이해젃대적중요 젂체적용대상업무프로세스와의 Tight 결합 분석프로세스 < 완젂자동화 > 현실적으로불가능 예측분석에서는결국정확도가승부처 현업담당자에대핚설명, 매우중요하지만완젂자동화 불가능 모델링과사람갂사고방식차이 38

contact: 젂용준대표 / 컨설턴트 리비젼컨설팅 xyxonxyxon@empal.com 010.3095.1451 Keyword: 예측모델링 데이터마이닝 빅데이터 http://www.revisioncon.co.kr 39