Data Science: 4 차산업혁명의핵심역량 2018 년 1 월 31 일 김형주교수 서울대컴퓨터공학부
Table of Contents What is Data Science Data Scientist 부족현상관련자료 Data Science 응용분야 Data Science 교육현황 삼성전자 DS 2 과정
Big Data 가주는가치 데이터 : 의미를담고있는기록된사실 [Elmasri and Navathe. Fundamentals of Database Systems] 그렇다면, 다양하고많은 빅데이터 다양하고많은의미? 빅데이터 를처리, 분석하여의미를제대로찾아낼때에만! 기계화 / 자동화 제조프로세스혁신 빅데이터분석 판단프로세스혁신 3 /
데이터의가치창출 데이터들을수익적이고, 효율적으로분석하기 사업가, 분석가, 프로그래머, 통계전문가의협업으로구성 프로그래머 분석가 DATA 사업가 통계전문가
Data Scientist: 기술능력 Data Scientist 통계전문가 프로그래머 / 개발자 비즈니스분석가
Components of Data Science 6
Major Steps of Data Analytics
Intuition Behind Machine Learning Learning from Data Classifier
Table of Contents What is Data Science Data Scientist 부족현상관련자료 Data Science 응용분야 Data Science 교육현황 삼성전자 DS 2 과정
Data Scientist 부족현상관련자료 [1/4]
Data Scientist 부족현상관련자료 [2/4]
Data Scientist 부족현상관련자료 [3/4]
Data Scientist 부족현상관련자료 [4/4] 14
Table of Contents What is Data Science Data Scientist 부족현상관련자료 Data Science 응용분야 Data Science 교육현황 삼성전자 DS부문 BigData Expert 과정
Data Scientist 가필요한응용분야 [1/7] 16
Data Scientist 가필요한응용분야 [2/7] 17
Data Scientist 가필요한응용분야 [3/7] 18
Data Scientist 가필요한응용분야 [4/7] Physics: How do you write software to search for new physics particles? 19
Data Scientist 가필요한응용분야 [5/7] 20
Data Scientist 가필요한응용분야 [6/7] 21
Data Scientist 가필요한응용분야 [7/7] 22
Table of Contents What is Data Science Data Scientist 부족현상관련자료 Data Science 응용분야 Data Science 교육현황 삼성전자 DS부문 BigData Expert 과정
최근 5 년간미국에 Data Science 관련학위과정 450 여개신설 Web Site: 101.datascience.community Bachelors, Masters, PhDs 24
참고 : Big Data Analytics 관련미국대학학부 (Undergraduate) 과정 Columbia University Dept of Statistics: BS in Computer Science-Statistics http://www.stat.columbia.edu/program/undergraduate-programs Carnegie Mellon University BS in Machine Learning & Statistics http://www.stat.cmu.edu/new-majors-launch/program/stat-ml.html Johns Hopkins University BS in Applied Mathematics and Statistics http://engineering.jhu.edu/ams/major-requirements/ Univ of Michigan Ann Arbor BS in Information, School of Information https://www.si.umich.edu/content/bsi Univ of Washington, Seattle BS in Informatics in Information School http://ischool.uw.edu/academics/informatics/curriculum Univ of Illinois at Urbana-Champaign Dept of Statistics: BS in statistics and computer science http://www.stat.illinois.edu/
주목할만한주요대학 Data Science 석사과정 Stanford University University of Washington Carnegie Mellon University
29
Carnegie Mellon University (Department of Machine Learning) Master in Machine Learning (1.5 year program) Fall semester, year 1: Intro to Machine Learning, Intermediate Statistics, Elective Spring semester, year 1: Statistical Machine Learning, DAP Preparation, Elective Summer semester, year 1: Practicum (internship) Fall semester, year 2: DAP Research, 2 Electives Elective Courses: (4 개선택 ) Deep Reinforcement Learning / Probabilistic Graphical Models / Convex Optimization / Graduate Artificial Intelligence / Multimedia Databases and Data Mining / Advanced Probability
Carnegie Mellon University (Dept of Statistics and Data Science) Master in Statistical Practice (1 year program)
Carnegie Mellon University (Language Technologies Institute) Master in Intelligent Information System (1.5 year)
Table of Contents What is Data Science Data Scientist 부족현상관련자료 Data Science 응용분야 Data Science 교육현황 삼성전자 DS 2 과정
삼성전자 DS 부문과연관분야자료 [1/3] V9, Issue2, 2014, NANOCHIP Fab Solutions
삼성전자 DS 부문과연관분야자료 [2/3]
삼성전자 DS 부문과연관분야자료 [3/3]
DS 2 과정강사진 서울대컴퓨터공학부 서울대산업공학과 서울대통계학과 서울대융합대학원디지털융합전공
DS 2 과정 Curriculum 첫째학기 : 6주과정 (4과목) Computational Thinking with Python (4주 32시간 ) 강사 : 김형주교수 ( 기반기술과정 ) Statistical Methods for BigData Analytics (5주 40시간 ) 강사 : 임채영교수, 이재욱교수 ( 산공 ) DataBase System Concepts (5주 40시간 ) 강사 : 이상구교수 Introduction to AI (3주 24시간 ) 강사 : 김건희교수 둘째학기 : 5주과정 (3과목) Big Data Processing with Python (3주 24시간 ) 강사 : 김형주교수 ( 핵심기술과정 ) Data Mining (5주 48시간 ) 강사 : 조성준교수, 김용대교수 Data Visualization (5주 48시간 ) 강사 : 서진욱교수, 권가진교수 셋째학기 : 5주과정 (4과목) Large Scale Data Processing (4주 36시간 ) 강사 : 문봉기교수, 이재욱교수 ( 컴공 ) ( 고급기술과정 ) Cloud for Big Data (3주 28시간 ) 강사 : 전병곤교수 Machine Learning (4주 32시간 ) 강사 : 이원종교수, 김건희교수 Deep Learning (4주 32시간 ) 강사 : 강유교수 실습과정 : 4 주과정 Kaggle.com 에있는 Data Analysis Competition 문제중에 1 문제를선택하여 3 인 1 조로지도교수지도하에 4 주작업후결과물을제출하여평가를받는방식으로진행
DS 2 과정상세 Curriculum: 1 학기 6 주 [1/3] 총강의시간 140 시간 : 일반강의 136 시간 + 특강 4 시간 Computational Thinking with Python (4 주 32 시간 ) 객체지향프로그래밍비정형데이터의표현과처리 GUI 프로그래밍 Data Structure 기초 -- Stack/Queue/Tree/Graph GraphViz module Introduction to AI (3 주, 24 시간 ) Logic, Knowledge, Reasoning in AI Problem Solving: -- Search -- Constraint Satisfaction Problem Computer Vision Natural Language Processing Reinforcement Learning Database System Concepts (5 주 40 시간 ) Database 개관관계형 DBMS SQL 기초 SQL 중급 SQL 고급 Database Application 작성 DBMS 구조와기능 Relational Database 설계 Statistical Methods for BigData Analytics (5 주 40 시간 ) Linear Algebra 개관 -- Vector, Matrix Statistics 개관 -- Statistical Inference -- Linear Regression Probability 개관 -- likelihood, EM Optimization 개관
DS 2 과정상세 Curriculum: 2 학기 5 주 [2/3] 총강의시간 122 시간 : 일반강의 120 시간 + 특강 2 시간 Big Data Processing with Python (24 시간 ) Data Analysis 를위한 Module -- Numpy module -- Pandas Module -- MatPlotLib Module -- SK Learn Module -- NLTK Module Data Visualization (48 시간 ) Data Mining (48 시간 ) 데이터전처리회귀분석분류분석 : SVM, Decision Tree, 신경망군집분석 : K-means, DBScan,.. 주성분분석연관분석시계열데이터분석
삼성 - 서울대 BigData Expert 과정상세 Curriculum: 3 학기 5 주 [3/3] 총강의시간 124 시간 : 일반강의 124 시간 Large-Scale Data Processing (34 시간 ) 분산 / 병렬컴퓨팅개론 Hadoop 과 HDFS Spark 개요 / Spark 응용 Resilient Distributed DataSets (RDD) NoSQL 시스템개관 -- KeyValue Store / Document Store -- Column Store / Large Graph Store Cloud 기반빅데이터환경구축 (28 시간 ) 빅데이터분석을위한클라우드환경셋업 (3) 클라우드상배치처리분석 (6) 클라우드상대화형질의분석 (4) 클라우드상스트림처리분석 (5) 클라우드상기계학습분석 (4) 클라우드상딥러닝분석 (6) Machine Learning(32 시간 ) Classification -- Decision Tree/ Regression / SVM / Neural Nets Boosting Expectation Maximization Semi Supervised Learning Ensemble Learning Probabilistic Graphical Models Deep Learning(32시간 ) Deep feed forward network CNN RNN Regularization Optimization Visualizing and Understanding Practical Method DeepLearning Applications
서울대빅데이터연구원 초학제적연구기관 서울대본부직할연구기관 (2014년 4월 10일설립 ) 문이과를아우르는 Data Science 연구와인력양성선도 연구사업 Big Data Big Computing = Supercomputer X BigData 지능형모빌리티기술연구센터 서울시도시문제해결형빅데이터연구사업 서울대도시데이터사이언스연구소 개포디지털혁신센터내 ( 서울시지원, 2017.4.12) 서울대데이터사이언스혁신 (DS&I) 대학원설립추진 2018 년개원목표
인재양성 과정명 교육시간 대상 운영전공 년배출인원 기배출인원 참여교수 예산지원 대학원생을위한 Big Camp 24 서울대비전공대학원생 빅데이터인사이트, 빅데이터엔지니어링 160 440 12 서울대 직장인을위한 Big Data Academy 48 직장인 빅데이터인사이트빅데이터엔지니어링 90 180 12 수혜자 ( 유료 ) 서울시민을위한 Big Data Academy 80 서울시민 빅데이터분석가빅데이터엔지니어 300 200 ( 진행중 ) 10 서울시 4 차산업혁명아카데미 1,000 미취업자경력전환준비자 인공지능에이전트, 빅데이터플랫폼기술, 빅데이터비지니스분석 ( 핀테크, 로보틱스 ) 150 ~180 90 ( 진행중 ) 30 고용부 기업맞춤형 ( 삼성, SK, 농협등 ) 140~ 5 개월 그룹임직원연구원등 빅데이터, AI, Analytics 100 160 6 기업
서글프게도 2018 년의대한민국은 4 차산업혁명시대 구호는매일외치면서 SW Engineer 육성은이미오랜기간동안안되어왔고. 서울대컴퓨터공학부대학원과정계속미달 Big Data 분석전문가인 Data Scientist 육성은전무하고 Data Science 정규과정전무 결론 : 너무나취약한 SW 생태계! Data 분석생태계! 45 /