PowerPoint 프레젠테이션

Similar documents
빅데이터_DAY key

사회통계포럼

김기남_ATDC2016_160620_[키노트].key

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

PowerPoint 프레젠테이션


2017 1

PowerPoint 프레젠테이션

001지식백서_4도

<31372DB9CCB7A1C1F6C7E22E687770>


15_3oracle

슬라이드 1

Oracle Apps Day_SEM

PowerPoint 프레젠테이션

SECTION TITLE A PURE PRIMER (AI), // 1

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

(, sta*s*cal disclosure control) - (Risk) and (U*lity) (Synthe*c Data) 4. 5.

시안

에너지경제연구 Korean Energy Economic Review Volume 11, Number 2, September 2012 : pp. 1~26 실물옵션을이용한해상풍력실증단지 사업의경제성평가 1

Data Industry White Paper

., (, 2000;, 1993;,,, 1994), () 65, 4 51, (,, ). 33, 4 30, 23 3 (, ) () () 25, (),,,, (,,, 2015b). 1 5,

정보기술응용학회 발표

3 Gas Champion : MBB : IBM BCS PO : 2 BBc : : /45

006_026_특집_정일권.indd

김경재 안현철 지능정보연구제 17 권제 4 호 2011 년 12 월

.,,,,,,.,,,,.,,,,,, (, 2011)..,,, (, 2009)., (, 2000;, 1993;,,, 1994;, 1995), () 65, 4 51, (,, ). 33, 4 30, (, 201

DW 개요.PDF

Ch 1 머신러닝 개요.pptx

<BAB9C0E2B0E820B3D7C6AEBFF6C5A9BFCD20B5A5C0CCC5CD20B0FAC7D0C0C720B1B8C1B6BFCD20C6AFC2A15FC1A4C7CFBFF528BCF6C1A4292E687770>

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

DBPIA-NURIMEDIA

03¼ºÅ°æ_2

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

PowerPoint 프레젠테이션

BSC Discussion 1

Microsoft PowerPoint - 3.공영DBM_최동욱_본부장-중소기업의_실용주의_CRM

R을 이용한 텍스트 감정분석

슬라이드 1

27 2, * ** 3, 3,. B ,.,,,. 3,.,,,,..,. :,, : 2009/09/03 : 2009/09/21 : 2009/09/30 * ICAD (Institute for Children Ability

첨 부 1. 설문분석 결과 2. 교육과정 프로파일 169

DBPIA-NURIMEDIA

경제 이슈 유로존 실업률 사상 최고치 경신 최근 2분기 연속 유로존 경제성장률이 하락하고 기업들의 고용이 위축되면서 실업률 증가세 심화 - 실업률 추이 유로존 실업률이 10월 11.7% 에서 11월 11.8% 로 0.1%p 상 승했고, 실업자 수도 1,882만 명으로

歯1.PDF

2

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: * Suggestions of Ways

Microsoft PowerPoint - AC3.pptx

PowerPoint Presentation

Week2.key

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: * Strenghening the Cap

서론 34 2

27송현진,최보아,이재익.hwp

분석기법의기본개념부터활용까지사례중심의 A to Z 학습 데이터분석기본 교육기간 : 3 일 (24 시간 )/ 비합숙 교육비 : 회원 62 만원 / 비회원 69 만원 데이터분석핵심이론학습및현업에적용 현장에서발생하는변수를이해하고상황에따른최적화방안도출 품질향상을위한부적합원인도

OP_Journalism

2017 1

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

딥러닝 첫걸음

#Ȳ¿ë¼®

레이아웃 1

Contents SEOUL NATIONAL UNIVERSITY FUTURE INTEGRATED-TECHNOLOGY PROGRAM FIP 13 FIP

SEOUL NATIONAL UNIVERSITY FUTURE INTEGRATED-TECHNOLOGY PROGRAM 13 : (IoT), 4.0,,,,,, CEO. 13 : ( ) ~ 11 1 ( ) : 310

Data Scientist Shortage

*º¹ÁöÁöµµµµÅ¥-¸Ô2Ä)

제 출 문 문화체육관광부장관 귀하 본 보고서를 문화예술분야 통계 생산 및 관리 방안 연구결과 최종 보고서로 제출합니다. 2010년 10월 숙명여자대학교 산학협력단 본 보고서는 문화체육관광부의 공식적인 견해와 다를 수 있습니다


methods.hwp

한국성인에서초기황반변성질환과 연관된위험요인연구

27 2, 17-31, , * ** ***,. K 1 2 2,.,,,.,.,.,,.,. :,,, : 2009/08/19 : 2009/09/09 : 2009/09/30 * 2007 ** *** ( :

Journal of Educational Innovation Research 2017, Vol. 27, No. 1, pp DOI: * The

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

전국시대, 위나라최고의소잡이포정의소를잡는솜씨가신의경지에다다름,. " ()., 3... (),. 1.,. 19..,. 19. < > 2

유한차분법을 이용한 다중 기초자산 주가연계증권 가격결정

<30382E20B1C7BCF8C0E720C6EDC1FD5FC3D6C1BEBABB2E687770>


레이아웃 1


PBR PDF

슬라이드 1

Kor. J. Aesthet. Cosmetol., 라이프스타일은 개인 생활에 있어 심리적 문화적 사회적 모든 측면의 생활방식과 차이 전체를 말한다. 이러한 라이프스 타일은 사람의 내재된 가치관이나 욕구, 행동 변화를 파악하여 소비행동과 심리를 추측할 수 있고, 개인의

Manufacturing6

01.여경총(앞부분)

FSB-6¿ù-³»Áö

기획 1 서울공대생에게 물었다 글 재료공학부 1, 이윤구 재료공학부 1, 김유리 전기정보공학부 1, 전세환 편집 재료공학부 3, 오수봉 이번 서울공대생에게 물었다! 코너는 특별히 설문조사 형식으로 진행해 보려고 해 요. 설문조사에는 서울대학교 공대 재학생 121명, 비

04-다시_고속철도61~80p

untitled

Microsoft PowerPoint - 27.pptx

Journal of Educational Innovation Research 2017, Vol. 27, No. 4, pp DOI: A Study on the Opti

e- 11 (Source: IMT strategy 1999 'PERMISSION ' ) The World Best Knowledge Providers Network

< C6AFC1FD28B1C7C7F5C1DF292E687770>

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: : * Research Subject

<32382DC3BBB0A2C0E5BED6C0DA2E687770>

06_ÀÌÀçÈÆ¿Ü0926


강의지침서 작성 양식

화판

,,,.,,,, (, 2013).,.,, (,, 2011). (, 2007;, 2008), (, 2005;,, 2007).,, (,, 2010;, 2010), (2012),,,.. (, 2011:,, 2012). (2007) 26%., (,,, 2011;, 2006;


DBPIA-NURIMEDIA

Transcription:

빅데이터분석의현재와미래 2018 동국대학교통계학과이영섭 yung@dongguk.edu

데이터마이닝 (Data Mining)

데이터마이닝과 KDD KDD (Knowledge Discovery in Data) 란? - 데이터에서숨겨져있는유용한패턴들을알아나가는전체적인과정 KDD 학회의변천사 - Knowledge Discovery in Databases(1989) - Knowledge Discovery and Data Mining (1995) - Knowledge Discovery in Data (1999) 학회발표위한심사통과가어려울정도로큰학회로발전 KDD2018 (2018. 8.19 ~ 8. 23) 런던 3/49

그러면데이터마이닝이란? 데이터마이닝에대해서구체적이고정량적인정의가합의된바는없다. 많이통용되는정의 : 복잡한통계적인분석이나모형구축기법을사용하여대용량의데이터내에이전에는알려지지않았던패턴이나규칙등을탐색하고모형화함으로써유용한지식을추출하는일련의과정. 통계적인관점에서는 대용량데이터에대한탐색적데이터 분석 (Exploratory Data Analysis) 4/49

데이터마이닝 : 다학제간개념 Statistics Pattern Recognition Neurocomputing Data Mining Machine Learning AI Databases KDD 5/49

데이터마이닝 - 데이터로부터지식을찾아가는 KDD 과정중의하나임. 결과평가 / 해석 데이터마이닝 데이터마트 데이터선택데이터웨어하우스데이터정제데이터통합 데이터베이스 6/49

성공적인데이터마이닝프로젝트를위해서필요한사람들 1 현업담당자 ( 비즈니스매니저, 사용자 ) 2 데이터분석가 ( 일반적으로통계학자, 데이터분석전문가 ) 3 데이터처리전문가 (IT 담당자, DBA) - 아무리좋은데이터마이닝도구도현업의경험을대체할수는없다.. - 데이터마이닝의현업의숙련된비즈니스분석가나매니저를대신할수는없고, 단지그들의업무를좀더유용하게변화시켜줄뿐이다. 모든것을다바꾸어줄수는없다. - 데이터를잘이해하고성공적인데이터마이닝을위해서는위의세부류의협업과소통이무엇보다중요하다. 7/49

현실적인데이터마이닝프로젝트기간 프로젝트마감일 계획 : 실제프로젝트기간 : 최악의시나리오 : ( 데이터획득 ) 이상적인시나리오 : 데이터준비 데이터분석 8/49

빅데이터분석 (Big Data Analytics)

Modern Life In February 2017, Clustre conducted a short but revealing survey on the broad topic of innovation. More than 200 senior executives were invited to participate. In total we had 40 respondees having sent the survey questions to 201 people. What emerging technologies are you trialing or at least seriously considering right now? Source: https://channels.theinnovationenterprise.com/articles/2017-innovation-survey 10/49

관련단어출현빈도 : Naver 출처 : http://trend.naver.com/ 11/49

관련단어출현빈도 : Naver 12/49

관련단어출현빈도 : Google 출처 : http://www.google.co.kr/trends/ 13/49

빅데이터정의 - 빅데이터에대해서구체적이고정량적인정의가합의된바는없다. - 데이터수집, 저장, 관리, 분석하는역량을넘어서는 Dataset 규모로, 그정의는주관적이며앞으로도계속변화될것이다 (McKinsey, 2011) - 가장많이쓰이는정의 (Gartner) : 3V (Volume, Variety, Velocity) + Value 14/49

Definition of Big Data There is no real finite definition 1. Definition 1: Anything that Won t Fit in Excel! 2. Most common definition is 3 V;s by Gartner Group (Doug Laney) 15/49

빅데이터분류 빅데이터 기술구성 빅데이터의정의 (3V + V) 빅데이터 처리과정 인프라기술 ( 수집, 처리, 관리 ) Volume Velocity IT 단계 ( 데이터수집, 관리 ) 분석기법 (Data Mining) 표현기법 ( 시각화 ) Variety Value Value 지식발견단계 (Data Mining) 의사결정 ( 마케팅 ) Value 의사결정 ( 마케팅 ) 16/49

빅데이터분석기법 데이터마이닝기법 머신러닝기법 빅데이터분석기법

대표적인빅데이터분석모형 18/49

일반화선형모형 (Generalized Linear Models) 회귀 (Regression) 모형 로지스틱회귀 (Logistic Regression) 모형 19/49

신경망모형 (Neural network model) Input layer Input Hidden layer output layer Hidden Input Hidden Output Input Hidden Output Input 20/49

의사결정나무 (Decision trees) 신용도 root node 우수 나쁨 나이 성별 internal node 30 대 20 대남자여자 구매비구매비구매 나이 30 대 20 대 구매 비구매 terminal(leaf) node 21/49

앙상블기법 (Ensemble methods) Bagging, Boosting, Random forest, etc. Original Training data D Randomize Step 1: Create random vectors D 1 D 2 Dt 1 D t T1 2 Step 2: Use random vector to build multiple decision trees T T11 T 1 Step 3: Combine Decision trees * T 출처 : INTRODUCTION TO DATA MINING/ PANG-NING TAN, (2005) 22/49

군집분석 23/49

연관성규칙 24/49

이상치탐지 the beat of their own drum : 다른사람이뭐라해도자기가하고싶은데로하는것. 25/49

사회연결망분석 (Social Network Analytics) Source: https://www.networksasia.net/article/how-samsung-uses-social-media-analytics-understand-customers-and-guide-strategy.1509070200 26/49

텍스트마이닝 (Text Mining) Text 전처리 의미정보변환 의미정보추출 패턴및경향분석 정보표현및평가 Text 문서 비정형데이터 정형데이터 데이터마이닝 Process Text Parse Weight Transform Classification Cluster Frequency weight Term weight SVD Roll up Hierarchical cluster EM cluster 27/49

Text Mining _ 군집분석 1990 년부터 2003 년까지의미국국가과학재단 (National Science Foundation, NSF) 으로부터상을받은연구요약 (abstract) 자료를사용. 41,717 개의연구제목을가지고비슷한연구끼리군집해보고자함. operator, representation, mathematical, topology, theory SVD1 improvement, biology, instruction, instrumentation, introductory information, distributed, dynamical, power, system organic, metal, surface, growth, phase electronic, seismic, structure, function, community mathematics, project, technology, student, enhancement gene, role, function, expression, characterization SVD3 28/49

인공지능, 머신러닝, 딥러닝 인간의지능을컴퓨터로구현하는것이인공지능이다. 이런인공지능을구현하기위한컴퓨터의학습방법이머신러닝이다. 딥러닝은바로머신러닝을실현하기위한기술인것이다. 출처 : http://betanews.heraldcorp.com:8080/article/708317.html 2017.06.15. 베타뉴스기사를인용하였음. 29/49

데이터과학 & 데이터과학자

데이터과학 (Data Science) 란? Data Mining is Multidisciplinary Statistics Pattern Neurocomputing Recognition Machine Learning Data Mining AI Databases KDD 출처 : http://www.oralytics.com/2012_06_01_archive.html What is the difference? 31/49

데이터과학자 (Data Scientist) 란? 데이터과학 (Data Science) 을하는사람. 빅데이터시대를이끌어갈전문가. 쏟아지는방대한데이터속에서데이터를수집, 정리, 조사, 분석, 시각 화를통해의미를발굴하고그것을비즈니스가치로연결하는전문가. 32/49

데이터과학자 (Data Scientist) 란? Source: http://blog.lgcns.com/106 Source: https://towardsdatascience.com/my-journey-from-physics-into-data-science-5d578d0f9aa6 33/49

Source: https://www.forbes.com/sites/louiscolumbus/2018/01/29/data-scientist-is-the-best-job-in-america-according-glassdoors-2018-rankings/#54d365b45535 34/49

데이터분석의중요성 MIT Sloan Management Review(2011 겨울호 ): 30 개이상의산업분야와 100 개국의거 의 3000 명임원, 매니저, 분석가들을대상으로설문조사한결과 성과가높은회사는 그렇지않는회사에비하여 5 배이상의데이터분석을사용하고있다 는것을발견함. http://sloanreview.mit.edu/article/big-data-analytics-and-the-path-from-insights-to-value/ 35/49

데이터분석의중요성 The sexy job in the next ten years will be statisticians, Hal Varian, Google's chief economist (2009) 기술분야에서앞으로중시될세가지영역 (1) 데이터마이닝, 기계학습, 인공지능, 자연어처리 (2) Business Intelligence, 경쟁정보전략 (3) 분석, 통계 출처 : 마이크로소프트커리어블로그 (http://careers.microsoft.com/) 빅데이터분석은기존의데이터에가치있는새로운생명을불러넣는것. 36/49

Top Analytics, Data Science, Machine Learning Tools Source: https://www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html 37/49

Top 16 Data Science, Machine Learning Methods Used, 2017 vs 2016 Source: https://www.kdnuggets.com/2017/12/top-data-science-machine-learning-methods.html 38/49

현재빅데이터의상황

현재모습 1 출처 : http://setandbma.wordpress.com/2012/02/02/big-data/ 현재모습 2: 빅데이터분석으로나온결과를어디에어떻게써야할지를모름. 40/49

그러면앞으로빅데이터의미래는? 또다시데이터마이닝처럼거품인가? 다를것! => 왜??? 1) 정부중심의공공데이터활성화공공데이터포털 (https://www.data.go.kr/) 2) IoT 41/49

미래빅데이터의고려사항

빅데이터관련고려사항 1. 개인정보 (privacy) 이슈 - 정부 3.0 공공데이터개방을통한빅데이터분석선도필요. - 개인정보의보호와활용에대한구분과논의가필요 - 마이크로데이터및매스킹기법활용 - 이기종데이터활용위해데이터매칭 ( 연계 ) 기법연구 (Multi sources data linkage) 43/49

빅데이터관련고려사항 2. 인력양성 3. 빅데이터의지도화 4. 자료의품질관리중요 5. 수학및통계, IT, 언어학, 비즈니스등다양한영역의융합분야교육이필요. 6. 현재빅데이터는데이터인프라기술또는 IT 기술에치중되어있음. 분석과시각화및해석의중요성부각이필요함. 7. 성공한프로젝트뿐만아니라실패한것에대한사례도필요함. 왜실패했는지를알아야더발전시킬수있음. 8. 데이터분석의중요성을깊이인식하고실행하는 CEO 의의지가중요함. 당장결과가눈으로보이지않더라도장기적인관점으로바라보는지혜가필요함. 44/49

바람직한데이터분석가의자세 1. 올바른모형기법보다올바른데이터가중요함. => 데이터품질이중요하다는인식필요 (GIGO) 2. 각분야의용어정의및통일필요예 ) IT 분야의분석과통계전문가, 언어학자의분석정의가다름 3. 단순한기술통계나단순한분석만으로는산업의발전을따라갈수없음 => 데이터에기반한고도화된통계적지식필요 4. 데이터를바라보는진지한능력필요. 즉, 범죄과학수사 ( 탐정, forensic) 같은자세필요. 어떠한도구를사용하는것이중요한것이아니라상대방이무엇을원하는지아는것이중요함 5. 데이터만이해하지말고설득시키는능력이중요. 인문학적인소양이필요하고소통이중요함. 45/49

데이터과학자 (Data Scientist) http://www.slideshare.net/datasciencelondon/big-data-sorry-data-science-what-does-a-data-scientist-do?related=5 46/49

데이터마이닝강의노트중일부 : 성공적인데이터마이닝프로젝트를위해서필요한사람들 1 현업담당자 ( 비즈니스매니저, 사용자 ) 2 데이터분석가 ( 일반적으로통계학자, 데이터분석전문가 ) 3 데이터처리전문가 (IT 담당자, DBA) 그러나, 데이터과학자의정의에의하면한사람이위의 1,2,3 의조건을모두갖추어야한다. 데이터과학자는빅브라더? 모든것을다할수있는사람. 가능한가? 얇고넓게아는것보다깊게아는것이중요. 현업의노하우와인문학적소양과통계적지식결합 => 시너지효과 각전문가끼리의협업과소통이중요 47/49

데이터가가장좋은선생이다. Learning From Data! 협업과소통!!! 48/49

감사합니다 동국대학교통계학과 이영섭 yung@dongguk.edu