Advice I. 문서표준 1. 문서일반 (HY중고딕 11pt) 1-1. 파일명명체계 1-2. 문서등록정보 2. 표지표준 3. 개정이력표준 4. 목차표준 데이터분석전문가의 시대적요구 최대우교수한국외대통계학과 February, 2014 4-1. 목차슬라이드구성 4-2. 간지슬라이드구성 5. 일반표준 5-1. 번호매기기구성 5-2. 텍스트박스구성 5-3. 테이블구성 5-4. 칼라테이블구성 6. 적용예제
Amazon anticipatory shipping patent filing 2
Data Analytics 정의 분석 (Analytics) 이란? I 의사결정과 action 에활용하기위한데이터의광범위한활용, 통계적이며정량적측면의분석, 탐색적분석및예측모델링, 사실에근거한경영을의미함 mean the extensive use of data, statistical and quantitative analysis, explanatory and predictive models, and fact-based management to drive decisions and action II 의사결정혹은완전자동화된의사결정의입력이될수있음 may be input for human decisions or may drive fully automated decisions Davenport and Harris, Competing on Analytics, Harvard Business School Press (2007) 참조 3
Why Data Analytics? Value inside Data Core Competency Unique Hard to duplicate Asset Culture for sustainability 4
New Defining Small Data 5
Why and What Small Data? Big-data benefits with small data Thanks to big data, many businesses recognize the value of data analysis. But there may be several new paths that will open up to help them achieve the benefits of data decision making. Forget big data, small data is the real revolution the real opportunity is not big data, but small data. Not centralized big iron, but decentralized data wrangling. Not one ring to rule them all but small pieces loosely joined. 6
Small Data Revolution 7
Small Data is beautiful! http://www.datasciencecentral.com/profiles/blogs/small-data-is-beautiful 8
사례 : Warranty 데이터의활용 Warranty 기간중의수리이력데이터를활용하여서비스센터의 fraud detection 을위해, 혹은제품품질향상을위한 데이터로활용될수있음 9
사례 : Warranty 데이터의활용 Warranty 기간종료한달전수리가집중된경우를살펴본결과 짝수개인커버를홀수개교체! 복잡한알고리즘, 고가솔루션이필요한것이아니라데이터부터보아야하는것이구나 그리고하나씩점차 바퀴 6 개를한번에모두교체! 엔진관련 100 여개부품교체! 엔진수리이나관련없는부품교체 10
사례 : Warranty 데이터의활용 간단한 warranty 수리건수의변화로도수상함을발견할수있군. 간단한데이터의시각화로사고를미리예방할수있었는데 small data 의힘! Increasing trend Increasing trend 11
사례 : Warranty 데이터의활용 Warranty 의패턴을보았을때, 특정부품중특정기간동안생산된제품에문제가있음을발견! 원인은무엇인가? 12
사례 : 원자재가격예측시스템 13
사례 : 원자재가격예측시스템 14
Data Source 15
Data Provider 16
Data Analytics from PDF to text 문서에대한 text mining 을실시하기위해서는 pdf 문서를 text 로전환하여야함 특수문자, 테이블등을제거하여순수 text 파일을자동으로만드는방법을구현함 Pdf 를 Text 로전환 순수 Text 로클린징 17
Data Analytics Dictionary 구성 Dic(2968) 미고용미증시유럽증시유가급등구리급등미비농업부문비농업부문고용미실업률중국인민은행인민은행경기부양책관망세고용지표그리스그리스구제금융구제금융지원합의미국증시미국비농업부문고용실업률급등세공장주문다우지수 GDP성장률미국고용지표고용지표호조경기회복기대감국채교환 PSI 미달러미국양적완화 Tag 총 2968 개 인물 -47 개 기관 -175 개 선행지표 1025 개 액션 436 개 인물 (47) 기관 (175) 선행지표 (1025) 액션 (436) 티모시가이트너 중국 경기선행지수 긴축우려 재무장관 골드만삭스 1분기 악재 지도자들간 IBM 주당순이익 화산폭발 투자자들 아이슬란드 기업실적 호조세 지도자들 그리스 위안화 견조 총재 국제에너지 유동성 상승세 고소득자 유로존 위험자산 절상 오바마 중국정부 기준물 우려 대통령 미국 포지션 위축 소비자 S&P 수요 심리 투자자 미 옥수수 피소 부의장 유럽중앙은행 (ECB) 작황지역 회피 관리자 유럽중앙은행 면적 추세 드라기 인도네시아 도매 정리 buyer 글로벌 현물시장 우려감 버냉키 세계 신규주택 지속 의장 인도 착공건수 모습 player 인민 4월 확대 리가르드총재 금융시장 PMI지수 소식 벤버냉키 정상회의 소비자신뢰지수 과매도 마리오드라기 스페인 신용등급전망 인식 ECB총재 정상회담 지표 숏커버링 드라기총재 연준 가능성 강세 버냉키의장 공개시장위원회 (FOMC) 달러화착공 연준의장 정상간 신용등급 상회 18
Data Analytics Wordcloud 생성 2012 년 4 월 4 일 2012 년 4 월 5 일 Dictionary 적용후, Stopword 제거후, 19
Data Analytics Random Forest 를이용한예측모형생성 일반적인 decision tree 가전문가 1 명의가격예측논리체계라면, Bagging 이나 Random Forest 는다수의전문가의의견을 평균내어최종예측하여예측정확도를제고함 High 예측정확도 Bagging Random Forest 전문가수 =500 전문가수 =50 Decision Tree Low 전문가수 =1 Bootstrap 기법에시뮬레이션할수있게데이터를생성후, 의사결정논리를적용함 즉, 다수의전문가의예측가격의평균으로정확도를제고함 Bootstrap 기법에의해데이터를생성하고의사결정체계에도시뮬레이션을적용함 즉, 다수의전문가와다양한의사결정체계에의한예측방법임 복잡도 Low High 20
Data Analytics Random Forest 를이용한예측 Random Forest 알고리즘을활용하여모형을자동생성하여예측값을생성하는방안은다음과같음 1 2 3 예측요인자동취합자동예측모델생성 Deploy ment and Visualization 현재취합하고있는외부가격결정요인을자동으로취합함 취합된데이터는날짜별, 변수별로수집하여모형을생성할수있는분석마트형태임 R 로자동입수된데이터를이용하여 package randomforest 를이용하여모형을자동생성함 모형은 batch 형태로생성되더라도, 모형관리및모니터링은 Spotfire UI 에서진행함 Spotfire 에서는예측값과 random forest 가제공라는주요요인정보를시각화하여어떤요인에의해예측값이결정되었는지를분석함 21
From computing to Visualization R 을활용한각종계산결과들은 Spotfire 와 Gephi 로인해사용자의편이성과이해력을증강시키수있음 Word Cloud By tm package Predicted Value by Random Forest Variable importance matrix by Random Forest Association By apriori package Network analysis By igraph and rgexf 22
How can be a Data Scientist? http://nirvacana.com/thoughts/becoming-a-data-scientist/
데이터분석전문가가되기위해서는 작은것부터시작! 데이터분석은목적이아니라수단이므로, 활용측면을동시에고민하라! 방법, 알고리즘에데이터를맞추려고하지말아라! 데이터시각화등을통해전달방안을고민하라! 많은궁금증, 깊은분석, 재미있는이야기!
감사합니다.