빅데이터, 데이터사이언스, 예측분석, 머신러닝, 인공지능?
빅데이터? 원래부터개념모호한말. 빅데이터가치는보통사람으로하여금이제 데이터크기 에압도되어지레겁먹지않고 problem 을생각해볼수있는용기를준것
이수업에서필요한교양 수학 : 미적분, 선형대수학, 확률과정 통계학 : 조금만 Study of the collection, organization, analysis, interpretation and presentation of data. It deals with all aspects of data including the planning of data collection in terms of the design of surveys and experiments.when analyzing data, it is possible to use one of two statistics methodologies: descriptive or inferential statistics.?? 그럼데이터를다루는모든분야 ( 물리학, 천문학, 공학, 사회 / 경제학 / 인문학 / 의학 ) 가다통계학의서브클래스인가? 전혀! 3
기계학습 ( 머신러닝 ) 인공지능의한분야로경험을통한학습을하여스스로 자신을발전시키려는시스템 / 알고리즘을연구개발 시각, 청각, 후각, 텍스트, 전자기파, 디지털신호등모든 양식의데이터활용 똑똑한검색엔진, 스팸필터, 로봇진단 / 수술, 자율적으로 운전하는자동차 / 비행기등스마트함이필요한곳에적용 빅데이터분석, 데이터사이언스등고급데이터분석에서 핵심기술 / 알고리즘으로쓰임
인공지능
Data mining (the analysis step of the "Knowledge Discovery in Databases" process, or KDD), an interdisciplinary subfield of computer science, is the computational process of discovering patterns in large data sets involving methods at the intersection of artificial intelligence, machine learning, statistics, and database systems. The overall goal of the data mining process is to extract information from a data set and transform it into an understandable structure for further use 데이터에서정보를추출하는컴퓨터처리
예측분석 (Predictive Analytics) Predictive analytics encompasses a variety of statistical techniques from modeling, machine learning, and data mining that analyze current and historical facts to make predictions about future, or otherwise unknown, events
데이터사이언스데이터에서의미있는지식이나통찰얻기데이터를생성한프로세스이해하기데이터에서추출한가치로상품만들기 주로통계학에서출발한사람들이이낱말을사용 그럴듯하게들리는모양 소화불량일으키는말
- 이것들을다알아야? - 수박겉햝기? http://www.oralytics.com/2012/06/data-scienceis-multidisciplinary.html
결론은, 데이터사이언스는원래개념없는말이라, 개념없이써도된다 예측분석, 데이터마이닝, 데이터사이언스구별없이써도된다 이것들은 사람 이실행해서사람에게보고하는것이일반적 반면, 인공지능은자동화가목표일경우가일반적
도구 : R or Python?
R? 통계도구? 빅데이터분석도구? 통계, 빅데이터, 시각화공개소프트웨어프로그래밍언어? 모두맞는얘기 R 은바이오쪽에서거대함 (genomics, proteomics 등 ), 그리고또 12
R 의특징 In-Memory Computing Interactive mode language 객체지향프로그래밍언어 함수형프로그래밍언어 Package 기반 ( 현재 7000+) 강력한시각화 최신이론, 알고리즘, 방법론적용 Reproducible 연구개발 거의모든파일형식및프로그래밍언어와연동 13
Big R for Big Data? 사실, 기술적으로 R과빅데이터는잘맞지않음 ( 특히실시간 ) - R은굼뜨다 ( 나아질여지가있다. 그러나스트리밍은 X) - SW 기술관점에서부족한것이많다 - 레코드수가백만개까지는 OK, 10억까지는할수는있지만, 그이상은 X - R은범용프로그램이아니기에이를사용해서는 SW 상품못만든다? - R의내부구현은빅데이터플랫폼구조와궁합이안맞다 R 은사용자가 R 앞에앉아리포트나논문을작성하는데적당하다 그렇지만, 통하는것도있다 - 우린오픈소스다 - 우린프로다 - 기존구조를바꾸고싶다 - 구글, 페이스북, 아마존, 야후내부에서 R을사용하기에인상이좋다 서로노력해같이갈수있는방법을만들어보자 14
R 시각화 출처 : http://alstatr.blogspot.kr/2013/11/r-mapping-super-typhoon-yolanda-haiyan.html
2016 학기에는 Python 으로
데이터분석 / 사이언스프로세스 : CRISP-DM 시작 : 내가풀어야하는것은? 과제의구체적목표는? 이해당사자들이원하는것은? 어떤정보가필요하지? 이데이터는무엇을의미하나? 모델을현장에적용하고좋은결과내기를기도! 모델을만들어보니내가풀어야할것의실마리가보이나? 모델이풀어야할문제를해결하나?
데이터분석과제의이해당사자 이해당사자프로젝트스폰서고객데이터사이언티스트데이터엔지니어운용부서 역할 프로젝트발주, 비즈니스적효용대변, 과제결과에책임 사용자적효용대변, 도메인지식을갖추고있음 데이터분석과제의아키텍트, 분석과제의실행, 다른이해당사자들과소통, 이해관계중재 데이터사이언티스트와협조하여데이터수집, 저장, 관리 과제결과를배치 / 배포, 데이터분석인프라관리 모든이해당사자들의의견이중요. 그중에도프로젝트스폰서가제일 목표치설정과기대치관리가프로젝트성공에매우중요
기대치설정 & 관리 데이터예측분석이 요술방망이 가아님을전달 데이터사이언티스트가현업보다현업에대한통찰이 ( 정상적인경우 ) 더클수가 없음을전달 구체적, 검증가능한목표를잡는다. But, 여러이유로이것이불가능하면? 빅데이터에도 Garbage In, Garbage Out 투자한만큼결과를얻는다? 모든 IT 분야중데이터분석과제만큼이문구가 많이틀리는경우가없음을전달 말이안되면 빠져나오기 를준비. 없던정보가갑자기생기는경우도, 데이터가 스스로똑똑해지는경우도없고, 데이터분석과제가의지싸움이아님을기억한다 Good Luck
왜빅데이터프로젝트가실패하는지? 성공하려면? 실무부서와 IT부서가겉돈다 -> 빅데이터를진짜잘쓰는곳들을생각해보라. 자기들본업을향상시키려는과정에서빅데이터가나왔다. 아무리생각해보아도빅데이터가쓰일만한비즈니스케이스가없으면괜히고민하지말고그만두라 빅데이터는하둡, 맵리듀스, NoSql -> 빅데이터 에서 빅 을떼고생각해보라. 그리고하둡, 맵리듀스, NoSql 로해야만하는것아니거든. 맵리듀스, NoSql 이 앞으로도대세일것이라생각하나? 가능한가? 조그맣게, 쉽게접근해라 하둡은무료잖아. 유지관리가그리힘들겠어? -> 하둡, 분산처리가쉽지않거든. 한 번에돈왕창쓸생각말고, 조금씩배워가면서돈써라. PoC, 본프로젝트, 그리고는 사용도안하는시스템만들지말고, 점차로조금씩발전해가는시스템을만들어라 투자한만큼결과를얻는다 -> 모든 IT 분야중 BI 데이터분석만큼이말이안 맞는경우가없다. 멍청함에는밑바닥이없다.
http://www.r-project.org/ http://www.rstudio.com/
무료 R 서적 www.burns-stat.com/documents/books/the-r-inferno/ http://www.cookbook-r.com/ : 온라인 R 교재 http://www-bcf.usc.edu/~gareth/isl/ : 기계학습을 R로기술 cran.r-project.org/doc/contrib/verzani-simpler.pdf www.maths.bath.ac.uk/~jjf23/book/ http://pluto.huji.ac.il/~msby/statthink/index.html https://github.com/jmstanto/data-science-r
Web Resources 일반 Analytics/ML/DM www.kdnuggets.com www.datasciencecentral.com www.webscience.org www.dmoz.org/computers/software/databases/data_mining www.kaggle.com www.kdnuggets.com/courses/index.html & www.kdnuggets.com/education/online.html en.wikibooks.org/wiki/data_science:_an_introduction www.coursera.org/category/stats & www.coursera.org/category/cs-ai http://videolectures.net/top/computer_science/machine_learning/# R 관련 www.r-project.org/ www.r-bloggers.com/ http://www.statmethods.net/ http://www.bioconductor.org/help/ Google search : The art of R programming OR R statistics OR R tutorial
Python Resources http://www.kdnuggets.com/2016/04/datacamp-learning-python-data-analysis-datascience.html http://do1.dr-chuck.com/pythonlearn/en_us/pythonlearn.pdf https://www.continuum.io/downloads http://pandas.pydata.org/ http://scikit-learn.org/stable/ https://github.com/rasbt/python-machine-learning-book/blob/master/docs/references.md