빅데이터분석의현재와미래 2018 동국대학교통계학과이영섭 yung@dongguk.edu
데이터마이닝 (Data Mining)
데이터마이닝과 KDD KDD (Knowledge Discovery in Data) 란? - 데이터에서숨겨져있는유용한패턴들을알아나가는전체적인과정 KDD 학회의변천사 - Knowledge Discovery in Databases(1989) - Knowledge Discovery and Data Mining (1995) - Knowledge Discovery in Data (1999) 학회발표위한심사통과가어려울정도로큰학회로발전 KDD2018 (2018. 8.19 ~ 8. 23) 런던 3/49
그러면데이터마이닝이란? 데이터마이닝에대해서구체적이고정량적인정의가합의된바는없다. 많이통용되는정의 : 복잡한통계적인분석이나모형구축기법을사용하여대용량의데이터내에이전에는알려지지않았던패턴이나규칙등을탐색하고모형화함으로써유용한지식을추출하는일련의과정. 통계적인관점에서는 대용량데이터에대한탐색적데이터 분석 (Exploratory Data Analysis) 4/49
데이터마이닝 : 다학제간개념 Statistics Pattern Recognition Neurocomputing Data Mining Machine Learning AI Databases KDD 5/49
데이터마이닝 - 데이터로부터지식을찾아가는 KDD 과정중의하나임. 결과평가 / 해석 데이터마이닝 데이터마트 데이터선택데이터웨어하우스데이터정제데이터통합 데이터베이스 6/49
성공적인데이터마이닝프로젝트를위해서필요한사람들 1 현업담당자 ( 비즈니스매니저, 사용자 ) 2 데이터분석가 ( 일반적으로통계학자, 데이터분석전문가 ) 3 데이터처리전문가 (IT 담당자, DBA) - 아무리좋은데이터마이닝도구도현업의경험을대체할수는없다.. - 데이터마이닝의현업의숙련된비즈니스분석가나매니저를대신할수는없고, 단지그들의업무를좀더유용하게변화시켜줄뿐이다. 모든것을다바꾸어줄수는없다. - 데이터를잘이해하고성공적인데이터마이닝을위해서는위의세부류의협업과소통이무엇보다중요하다. 7/49
현실적인데이터마이닝프로젝트기간 프로젝트마감일 계획 : 실제프로젝트기간 : 최악의시나리오 : ( 데이터획득 ) 이상적인시나리오 : 데이터준비 데이터분석 8/49
빅데이터분석 (Big Data Analytics)
Modern Life In February 2017, Clustre conducted a short but revealing survey on the broad topic of innovation. More than 200 senior executives were invited to participate. In total we had 40 respondees having sent the survey questions to 201 people. What emerging technologies are you trialing or at least seriously considering right now? Source: https://channels.theinnovationenterprise.com/articles/2017-innovation-survey 10/49
관련단어출현빈도 : Naver 출처 : http://trend.naver.com/ 11/49
관련단어출현빈도 : Naver 12/49
관련단어출현빈도 : Google 출처 : http://www.google.co.kr/trends/ 13/49
빅데이터정의 - 빅데이터에대해서구체적이고정량적인정의가합의된바는없다. - 데이터수집, 저장, 관리, 분석하는역량을넘어서는 Dataset 규모로, 그정의는주관적이며앞으로도계속변화될것이다 (McKinsey, 2011) - 가장많이쓰이는정의 (Gartner) : 3V (Volume, Variety, Velocity) + Value 14/49
Definition of Big Data There is no real finite definition 1. Definition 1: Anything that Won t Fit in Excel! 2. Most common definition is 3 V;s by Gartner Group (Doug Laney) 15/49
빅데이터분류 빅데이터 기술구성 빅데이터의정의 (3V + V) 빅데이터 처리과정 인프라기술 ( 수집, 처리, 관리 ) Volume Velocity IT 단계 ( 데이터수집, 관리 ) 분석기법 (Data Mining) 표현기법 ( 시각화 ) Variety Value Value 지식발견단계 (Data Mining) 의사결정 ( 마케팅 ) Value 의사결정 ( 마케팅 ) 16/49
빅데이터분석기법 데이터마이닝기법 머신러닝기법 빅데이터분석기법
대표적인빅데이터분석모형 18/49
일반화선형모형 (Generalized Linear Models) 회귀 (Regression) 모형 로지스틱회귀 (Logistic Regression) 모형 19/49
신경망모형 (Neural network model) Input layer Input Hidden layer output layer Hidden Input Hidden Output Input Hidden Output Input 20/49
의사결정나무 (Decision trees) 신용도 root node 우수 나쁨 나이 성별 internal node 30 대 20 대남자여자 구매비구매비구매 나이 30 대 20 대 구매 비구매 terminal(leaf) node 21/49
앙상블기법 (Ensemble methods) Bagging, Boosting, Random forest, etc. Original Training data D Randomize Step 1: Create random vectors D 1 D 2 Dt 1 D t T1 2 Step 2: Use random vector to build multiple decision trees T T11 T 1 Step 3: Combine Decision trees * T 출처 : INTRODUCTION TO DATA MINING/ PANG-NING TAN, (2005) 22/49
군집분석 23/49
연관성규칙 24/49
이상치탐지 the beat of their own drum : 다른사람이뭐라해도자기가하고싶은데로하는것. 25/49
사회연결망분석 (Social Network Analytics) Source: https://www.networksasia.net/article/how-samsung-uses-social-media-analytics-understand-customers-and-guide-strategy.1509070200 26/49
텍스트마이닝 (Text Mining) Text 전처리 의미정보변환 의미정보추출 패턴및경향분석 정보표현및평가 Text 문서 비정형데이터 정형데이터 데이터마이닝 Process Text Parse Weight Transform Classification Cluster Frequency weight Term weight SVD Roll up Hierarchical cluster EM cluster 27/49
Text Mining _ 군집분석 1990 년부터 2003 년까지의미국국가과학재단 (National Science Foundation, NSF) 으로부터상을받은연구요약 (abstract) 자료를사용. 41,717 개의연구제목을가지고비슷한연구끼리군집해보고자함. operator, representation, mathematical, topology, theory SVD1 improvement, biology, instruction, instrumentation, introductory information, distributed, dynamical, power, system organic, metal, surface, growth, phase electronic, seismic, structure, function, community mathematics, project, technology, student, enhancement gene, role, function, expression, characterization SVD3 28/49
인공지능, 머신러닝, 딥러닝 인간의지능을컴퓨터로구현하는것이인공지능이다. 이런인공지능을구현하기위한컴퓨터의학습방법이머신러닝이다. 딥러닝은바로머신러닝을실현하기위한기술인것이다. 출처 : http://betanews.heraldcorp.com:8080/article/708317.html 2017.06.15. 베타뉴스기사를인용하였음. 29/49
데이터과학 & 데이터과학자
데이터과학 (Data Science) 란? Data Mining is Multidisciplinary Statistics Pattern Neurocomputing Recognition Machine Learning Data Mining AI Databases KDD 출처 : http://www.oralytics.com/2012_06_01_archive.html What is the difference? 31/49
데이터과학자 (Data Scientist) 란? 데이터과학 (Data Science) 을하는사람. 빅데이터시대를이끌어갈전문가. 쏟아지는방대한데이터속에서데이터를수집, 정리, 조사, 분석, 시각 화를통해의미를발굴하고그것을비즈니스가치로연결하는전문가. 32/49
데이터과학자 (Data Scientist) 란? Source: http://blog.lgcns.com/106 Source: https://towardsdatascience.com/my-journey-from-physics-into-data-science-5d578d0f9aa6 33/49
Source: https://www.forbes.com/sites/louiscolumbus/2018/01/29/data-scientist-is-the-best-job-in-america-according-glassdoors-2018-rankings/#54d365b45535 34/49
데이터분석의중요성 MIT Sloan Management Review(2011 겨울호 ): 30 개이상의산업분야와 100 개국의거 의 3000 명임원, 매니저, 분석가들을대상으로설문조사한결과 성과가높은회사는 그렇지않는회사에비하여 5 배이상의데이터분석을사용하고있다 는것을발견함. http://sloanreview.mit.edu/article/big-data-analytics-and-the-path-from-insights-to-value/ 35/49
데이터분석의중요성 The sexy job in the next ten years will be statisticians, Hal Varian, Google's chief economist (2009) 기술분야에서앞으로중시될세가지영역 (1) 데이터마이닝, 기계학습, 인공지능, 자연어처리 (2) Business Intelligence, 경쟁정보전략 (3) 분석, 통계 출처 : 마이크로소프트커리어블로그 (http://careers.microsoft.com/) 빅데이터분석은기존의데이터에가치있는새로운생명을불러넣는것. 36/49
Top Analytics, Data Science, Machine Learning Tools Source: https://www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html 37/49
Top 16 Data Science, Machine Learning Methods Used, 2017 vs 2016 Source: https://www.kdnuggets.com/2017/12/top-data-science-machine-learning-methods.html 38/49
현재빅데이터의상황
현재모습 1 출처 : http://setandbma.wordpress.com/2012/02/02/big-data/ 현재모습 2: 빅데이터분석으로나온결과를어디에어떻게써야할지를모름. 40/49
그러면앞으로빅데이터의미래는? 또다시데이터마이닝처럼거품인가? 다를것! => 왜??? 1) 정부중심의공공데이터활성화공공데이터포털 (https://www.data.go.kr/) 2) IoT 41/49
미래빅데이터의고려사항
빅데이터관련고려사항 1. 개인정보 (privacy) 이슈 - 정부 3.0 공공데이터개방을통한빅데이터분석선도필요. - 개인정보의보호와활용에대한구분과논의가필요 - 마이크로데이터및매스킹기법활용 - 이기종데이터활용위해데이터매칭 ( 연계 ) 기법연구 (Multi sources data linkage) 43/49
빅데이터관련고려사항 2. 인력양성 3. 빅데이터의지도화 4. 자료의품질관리중요 5. 수학및통계, IT, 언어학, 비즈니스등다양한영역의융합분야교육이필요. 6. 현재빅데이터는데이터인프라기술또는 IT 기술에치중되어있음. 분석과시각화및해석의중요성부각이필요함. 7. 성공한프로젝트뿐만아니라실패한것에대한사례도필요함. 왜실패했는지를알아야더발전시킬수있음. 8. 데이터분석의중요성을깊이인식하고실행하는 CEO 의의지가중요함. 당장결과가눈으로보이지않더라도장기적인관점으로바라보는지혜가필요함. 44/49
바람직한데이터분석가의자세 1. 올바른모형기법보다올바른데이터가중요함. => 데이터품질이중요하다는인식필요 (GIGO) 2. 각분야의용어정의및통일필요예 ) IT 분야의분석과통계전문가, 언어학자의분석정의가다름 3. 단순한기술통계나단순한분석만으로는산업의발전을따라갈수없음 => 데이터에기반한고도화된통계적지식필요 4. 데이터를바라보는진지한능력필요. 즉, 범죄과학수사 ( 탐정, forensic) 같은자세필요. 어떠한도구를사용하는것이중요한것이아니라상대방이무엇을원하는지아는것이중요함 5. 데이터만이해하지말고설득시키는능력이중요. 인문학적인소양이필요하고소통이중요함. 45/49
데이터과학자 (Data Scientist) http://www.slideshare.net/datasciencelondon/big-data-sorry-data-science-what-does-a-data-scientist-do?related=5 46/49
데이터마이닝강의노트중일부 : 성공적인데이터마이닝프로젝트를위해서필요한사람들 1 현업담당자 ( 비즈니스매니저, 사용자 ) 2 데이터분석가 ( 일반적으로통계학자, 데이터분석전문가 ) 3 데이터처리전문가 (IT 담당자, DBA) 그러나, 데이터과학자의정의에의하면한사람이위의 1,2,3 의조건을모두갖추어야한다. 데이터과학자는빅브라더? 모든것을다할수있는사람. 가능한가? 얇고넓게아는것보다깊게아는것이중요. 현업의노하우와인문학적소양과통계적지식결합 => 시너지효과 각전문가끼리의협업과소통이중요 47/49
데이터가가장좋은선생이다. Learning From Data! 협업과소통!!! 48/49
감사합니다 동국대학교통계학과 이영섭 yung@dongguk.edu