Chapter 1 통계학, 빅데이터시대를이끌다 Statistics is the art of learning from data. 1.1 4 차산업혁명, 일자리가사라져서혁명적일까? 4 차산업혁명 (Fourth Industrial Revolution, 4IR ) 은융합혁명 1.1.1 2016년세계경제포럼의미래일자리보고서 1차산업혁명 (18세기후반 ) 증기기관 2차산업혁명 (19세기후반 ) 전기에너지 3차산업혁명 (20세기후반 ) 정보기술 4차산업혁명 (21세기초반 ) 빅데이터, 인공지능 세계경제포럼 (World Economic Forum, https://www.weforum.org/), 2016 년 1 월, 스위스다보스 1
(1) 직업의미래 ( 보고서 ) - 향후새로생길일자리수 << 사라지는일자리수 - 유망분야 : 빅데이터, 인공지능, 생명공학, 나노기술, 사물인터넷 - 데이터분석, 컴퓨터, 수학분야에서새로운일자리수요증가 (2) 앞으로필요한직무역량 - 복합적인문제를해결할수있는능력 (complex problem solving skill) - 비판적사고 (critical thinking) - 창의성 (creativity) 융합과통섭 (convergence and consensus) 의강조 1.1.2 4차산업혁명시대의통계학과데이터사이언스 (1) 빅데이터, 기계학습 (machine learning), 인공지능의기본은통계학 (2) 데이터사이언스 : 통계학 + 컴퓨터과학 (3) 모든분야에서통계학과데이터사이언스가사용 1.1.3 빅데이터 (1) 빅데이터의특징 - 양 (volume): 엄청난데이터규모 - 다양성 (variety): 정형 / 비정형구조, 음성, 영상, 자연어데이터 - 속도 (velocity): 실시간데이터, 빠른분석요구 (2) 빅데이터는 1990년대후반 ~2000년대초반에사용되기시작 (3) 데이터 - 라틴어어원 : 주어진것, datum (4) 정보, 지식, 지혜 - 정보 (information): 데이터를가공 - 지식 (knowledge): 정보를추상화 - 지혜 (wisdom): 지식을추상화 2
(5) Google Books Library - 구글이 2004년부터진행 - 전세계도서관에있는모든자료를스캔해서디지털자료로만듬 (6) 위키피디아 - 지식이만들어지고소비되는데시간과장소는더이상장애요인이아님 - 특정전문가에게지식이집중되지않음 1.2 빅데이터의곳간을열다 데이터랩과엔그램 1.2.1 빅데이터는어디에모여있을까? (1) 데이터센터 - 서버, 스토리지, 네트워크등의장비 (2) Naver Data Lab - 네이버, 검색부터지식까지 빅데이터곳간 을열다 - 네이버데이터센터 : 강원도춘천, http://datacenter.navercorp.com 3
(3) Google Data Center, https://www.google.com/about/datacenters/inside/locations/index.html 1.2.2 구글의엔그램 : 단어로찾는역사 Google Ngram Viewer (1) n-gram - 서로이웃해서나타나는단어들의빈도와확률모델을이용하는방법 (2) 컴퓨터언어학 - 컴퓨터가인간의말이나글을듣거나읽고이해하고인간고의사소통을할수있는방법을연구 - 컴퓨터과학 + 언어학 + 수학 + 통계학 (3) https://books.google.com/ngrams - 단어입력 과거의데이터에서나온결과출력 - big, data: big과 data 각각 4
- big data: big 과 data 동시에 1.2.3 클라우드컴퓨팅과빅데이터 (1) 빅데이터의분석은인터넷을통해여러곳에흩어진데이터를대상으로함 (2) AWS (Amazon Web Services) - 아마존이 2006년시작한서비스 - 초기에는데이터저장장소를빌려주는스토리지서비스, 이후데이터분석서비스로확장 - 2012년미국대선당시오바마후보의선거운동캠프에서 AWS의빅데이터분석을활용하여승리 5
(3) 정보권력집중문제 - Book 클라우드와빅데이터의정치경제학 : 엄청난컴퓨터능력이집중된클라우드시스템을소수의조직이폐쇄적으로통제 - 구글, 페이스북의각종사업도일반인은잘모르게진행 1.3 낱말들의뭉게구름을그려볼까? 데이터분석과데이터시각화텍스트마이닝 (text mining) : 언어학, 통계학, 머신러닝등을기반으로한자연어처리기술을활용하여텍스트데이터로부터의미있는정보를찾아내는분석법 1.3.1 데이터시각화 (1) Word Cloud - 단어들로이루어진구름 (2) 인간의인식은 75% 가시각으로이루어짐 (3) Statistical graphics - 통계적기법을이용한시각화 (4) R data language - 시각화를위한공개소프트웨어 1.3.2 멋진그림이좋은분석일까? : 데이터시각화와데이터분석 (1) 데이터시각화는외형적인아름다움을추구하기보다는데이터로부터중요한정보를얻어내는과정 6
1.4 통계에도역사가있을까? 데이터의역사와종류 1.4.1 괴테시절 (18세기) 독일의통계는종합지리학? (1) 18세기독일 - 어떤국가나지방의다양한모습을기록 - 지리, 경제, 행정, 산업등다방면의주제에대한많은데이터와정보를담은일종의종합지리학 (2) 19세기영국 - 산업혁명에의한급격한사회변화를파악하기위한객관적이고과학적인방법 - 데이터전성시대 : 통계조사를통해드러나는사실만이객관적이며거기에견해나이론이덧붙여지면객관성이훼손된다고생각 - 통계전문가는데이터를모을뿐, 그데이터를분석하고정보를얻어내는것은다른전문가가할일 (3) 오늘날과같이데이터를수집하고분석까지하는것은 19세기후반에시작 1.4.2 대상과상황에따라선택한다 : 실험데이터와관찰데이터 (1) 실험데이더 - 실험 (experiment) 을통하여얻은데이터 - 알고싶은결과에영향을미칠수있는요인들을통제할수있어상대적으로믿을만한데이터 (2) 관찰데이터 - 관찰조사 (observation) 를통하여얻은데이터 - 이미존재하는현상으로부터데이터를얻음 - 센서스 (census): 전국적인인구조사, 유럽 1800년전후시작, 우리나라는일제강점기에시작 - 사회조사분석사 : 국가공인자격증, 공무원시험등에서가점, 조사관련기업체취업 7
1.4.3 양적데이터와질적데이터 : 어느한쪽만최선일까? (1) 양적데이터 (quantitative data) - 수량화 : 집회참가자수, 특정페이스북방문자수, - 행복도측정 : ( 매우불만-불만-보통-만족-매우만족 ) (1-2-3-4-5), 수량화 (2) 질적데이터 (quantitative data) 1.4.4 스몰데이터와빅데이터, 그관계란? (1) Small data - 실험이나관찰을통하여만들어진데이터 (2) Big data - 3V - 데이터의원천이다양 : SNS, Web pages, 디지털도서관, - 앤더슨 이론의종말 기고 ( 과학잡지 Wired에 2008년발표 ): 빅데이터의커다란영향 (3) 빅데이터의비중이계속적으로더커지고있지만스몰데이터의필요성도여전히존재 : 임상데이터, 1.4.5 빅데이터분석의해결과제는? : 질적분석 (1) 페이스북에서 우정 이라는것을어떻게수량화? (2) 카카오톡메시지는대부분숫자가아닌데이터임 질적분석 (3) 빅데이터에서질적데이터분석에대한연구가많이진행되어야함 8
1.5 통계학, 데이터를정보와지식으로만들다 빅데이터시대의통계학 1.5.1 통계학은측정의과학 (1) ~metrics 로끝나는학문분야 = 해당학문분야 + 통계학 - Econometrics: 계량경제학 - Psychometrics: 심리측정학 ( 정신측정학 ) - Biometrics: 생물측정통계학 - Technometrics - Scientometrics (2) 생체인식 - 지문인식시스템 - 홍체인식시스템 - 얼굴인식 (face recognition): 2차원또는 3차원이미지, 열상정보, 1.5.2 기억천재의통계학점수는? 기억 ( 암기 ) 을잘한다고해석똑똑한것은아님 9
1.6 빅데이터시대, 통계학도변화한다 통계학의융합성 1.6.1 컴퓨터활용으로통계학날개를달다 Small Data vs. Big Data (1) 과거 ~ 현재 : Small data 위주 - 표본을분석하여모집단의특성을이해 - 통계적추론 (statistical inference) (2) 현재 ~ 미래 : Big data 위주 - 컴퓨터활용 : 데이터분석에필요한계산능력향상, 빅데이터의등장으로모집단에근접한데이터확보 - 빅데이터분석을위한새로운기법이필요 ( 비정형데이터의분석등 ) 1.6.2 나에게꼭맞는치료법을찾아라 : 생물정보학 (1) 생물정보학 (bioinformatics) - 통계학, 컴퓨터과학, 생물학이결합하여대규모의학데이터를분석 - 맞춤형치료, 신약개발, 1.6.3 빅데이터시대에가장섹시한직업은? (1) 배리언 (Hal Varian), 구글의수석경제학자 2008 년 - 앞으로 10 년간가장섹시한직업 (the sexy job) 은통계전문가일것 10
https://money.usnews.com/careers/best-jobs/statistician 11