제 1 장 빅데이터이해와활용사례 2015.06.05 조완섭충북대학교경영정보학과대학원비즈니스데이터융합학과 wscho@chungbuk.ac.kr 043-261-3258 010-2487-3691 June 2011
목차 개요 빅데이터기술 데이터과학자 빅데이터활용사례 교통빅데이터 SNS 빅데이터 제조빅데이터 빅데이터거버넌스 결론 빅데이터버거넌스 2015-07-23
개요 빅데이터시대의도래 전세계데이터는매년 40% 증가 세계는 2010 년 zettabyte 시대에돌입 1 Zettabyte : 美의회도서관정보 (235TB, 11/4 기준 ) 의 4 백만배, 16GB ipad 로축구장넓이로쌓아도대기권높이두배 Global information created and available storage (Exabytes) 빅데이터활용으로년간 미국의료분야에서 $3,300 억가치생산 유럽공공분야에서 2,500 억절감효과 Information Created Available Storage 2018 년까지미국에서만년간 Source: IDC (2011) 분석전문가 14~19 만명, 데이터기반관리자 150 만명추가수요 ( 출처 ) McKinsey (2011,05), Big Data: The next frontier for innovation, competition, and productivity 2015-07-23 3
빅데이터란? 개요 기존컴퓨팅기술로는저장, 관리, 분석이불가능할정도로큰데이터집합과관련기술, 인력등을포괄하는의미 IT 기술에서출발했으나사회, 문화, 정치등삶전체의이슈, 혁신패러다임으로부각 (Economist, Gartner, McKinsey, NYT) 빅데이터의특징 : 3Vs 시대에따라다른기준 2015-07-23 4
개요 빅데이터다양성과생성원천? 생체정보 비즈니스데이터 Tesco : 매달 15 억건이상의고객관련데이터를수집 Social Data 동영상 YouTube, CC 카메라의료장비등 사물인터넷 (IoT) / M2M 2014 년 500 억개무선단말기 (Ericsson) 2015-07-23 5
빅데이터효과 빅데이터 - 효과와전망 인류가직면한의료, 환경, 식량, 에너지등의분야에서해결방안제시 2015-07-23 6
빅데이터 - 효과와전망 빅데이터의효과 - 산업분야별경제적효과 스페인의료비의 2 배 그리스 GDP 규모 2015-07-23 7
빅데이터시장 빅데이터글로벌시장전망 세부분야별시장전망 2015-07-23 8
빅데이터 - 활용사례 KBS 보도자료 빅데이터, 세상을바꾸다 http://news.kbs.co.kr/economic/2012/02/01/2428163.html 관련동영상 병원미숙아실의각종의료장비에서생성되는스트림빅데이터 초당 10,000 건의데이터발생 실시간통합, 분석을통하여응급상황조기예측 (2시간전 =>24시간전 ) 미숙아사망률의획기적인감소, 의사와간호사노동감소 2015-07-23 9
빅데이터 - 활용사례 Google 의무인자동차개발 http://news.kbs.co.kr/world/2012/05/09/2473444.html 관련동영상 실시간운전의사결정 센서 : 실시간주변정보 StreetView 자동차운행관련데이터가실시간으로수집, 통합분석 => 운전의사결정 초당 1GB 데이터생성 => 년간차량당 2PB 생성 2020년까지도로에활성화된연결차량센서는 1억 5,200만개 ; 이들센서는차량의진단과위치추적, UX(User Experience) 데이터수집, ADAS 데이터수집 2015-07-23 10
빅데이터 - 활용사례 2015-07-23 11
빅데이터 - 활용사례 자동차운영체제는? 안드로이드 2015-07-23 12
Google Glass 빅데이터 - 활용사례 http://www.youtube.com/watch?v=t2uwki9jk_8 http://www.youtube.com/watch?v=chix5ywj_0y 구글글라스체험단모집 ( 미국 ) 엄청난데이터가생성될것임 (lifelog data) 지금으로서는응용분야를가늠하기조차어려운상황 스마트폰, 디카대체? 사람들의생활모습은? Big Data 2015-07-23 13
빅데이터기반제조업첨단화 - 반도체 ( 출처 ) 빅데이터와제조부문적용사례 ( 이씨마이너 ) 발표자료, 2012 : S 반도체사례 2015-07-23 14
동작 전조기 의미화및어노테이션 공정식별 신호검출 릴레이접점검출 영상 비디오 불량전조 전조영상 동기화타임이벤트 배출시간 설비 I/O검출 측정기 측정값 ( 불량 ) 측정프로그램 조작방법 / 순서 / 평가기준 PLC, CNC 검사 / 측정작업시간작업일지재료평가 / 특징 비디오온도 레이져 진동 컨소시엄 (ETRI- 충북대학교, 산자부사업, 3 년 ) 15
현금 => 통장 => 카드 => 스마트폰 ( 클릭몇번으로 ) 은행지점 =>ATM 기기 => 스마트폰결제 => 송금, 외환거래, 대출, 투자, 보험, 증권. 상품개발, 부정방지, 신용평가, 마케팅등 4 대금융업무가빅데이터활용으로빠르고정확하게처리가능 컨소시엄 16
앱하나로관제없이더빠르고정확하게택시호출 기존콜택시 관제센터 1 분마다택시위치정보전송으로탑승위치부정확 단골택시 5 초마다위치정보전송함으로써정확도개선 승객호출 기사수락 택시오는모습이지도에보인다 컨소시엄 17
택시수요공급분석 교통약자지원 택시운행경로추천 택시서비스경쟁 안심귀가 무관제콜택시 단골택시 빅데이터분석 외국인서비스 클라우드시스템 동경아마존클라우드활용 컨소시엄 18
심야시간대 8 개월평균 빨간색 - 현재택시공급초과지역 컨소시엄 19
빅데이터활용사례 교통 ( 대중교통, 청주시 ) 과학적의사결정 풍부한교통데이터활용연구 편리한교통서비스 활용 수집 ( 매일새벽 4 시 ) 분석인프라 대학 빅데이터전문가양성 기업 빅데이터전문기업육성
빅데이터활용사례 교통 ( 대중교통, 청주시 ) 활용데이터 - 교통카드 노선별정류장별승객수 / 환승객수 / 하차수 134 개노선 2012 개정류장 승객수가많은정류장순서대로 - 시설 / 환경개선 - 마케팅연계 ( 광고등 )
빅데이터활용사례 교통 ( 대중교통, 청주시 ) 노선별평균운행시간분석을통한기준운행시간조정 노선명기준운행시간첨두실제운행시간비첨두실제운행시간 OK! 배차간격조정제안 탄력적배차제안 711 84분 88분 82분 513 68분 61분 57분 823 126분 144분 150분 115 70분 104분 85분 30-1 89분 66분 75분 160 140 120 100 노선운영, 배차간격을탄력적으로? 기준시간확대 기준시간확대 기준시간축소 80 60 40 20 0 기준시간 첨두 비첨두 기준시간 첨두 비첨두 기준시간 첨두 711 번 513 번 823 번 115 번 30-1 번 비첨두 기준시간 첨두 비첨두 기준시간 첨두 비첨두
빅데이터활용사례 교통 ( 대중교통, 청주시 ) 요일시간날씨이벤트 요일별 / 시간대별 / 날씨별 / 이벤트별혼잡구간 활용데이터 - ATMS 혼잡구간에교통경찰배치네비게이션업체등과연계서비스
빅데이터활용사례 교통 ( 대중교통, 청주시 ) 요일별 / 시간대별 / 날씨별 / 이벤트별최대승객환승정류장 n 개는? 환승보조금을최소화하도록노선개편월별 / 요일별 / 시간대별탄력적노선운영
빅데이터사업수행 Data Lifecycle - 처리과정 Visualization 자연어처리 Mining 직관적의사결정지원 Data Sources Stream Data Hadoop MapReduce Hive 2015-07-23 25
빅데이터사업수행 빅데이터사업수행과활용절차 품질관리 ( 수명관리메타데이터관리 ) 보안관리프라이버시관리 데이터소스 데이터거버넌스와지속적모니터링 데이터수집 데이터저장관리 데이터분석 데이터활용 / 업무혁신 데이터소스선정수집계획수립수집방법 / 주기데이터수집시행 데이터전처리분산저장관리 다차원분석데이터마이닝통계분석 관련부서업무적용지속적업무개선성과평가 -> 인센티브 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 26
빅데이터기술 대용량 / 실시간처리능력필요 ( 시스템관점 ) 기존방식으로처리하기엔너무큰데이터컴퓨팅파워부족기존 HW SW 변화요구 신사업창출비즈니스지능화, 최적화마이닝, R-통계분석 R ( 분석기술 ) Hadoop, NoSQL (SW 인프라 ) Cloud Computing (HW 인프라 ) 2015-07-23 27
Big Data 기술 - 오픈소스 2015-07-23 28
Big Data 기술 ( 요약 ) 2015-07-23 29
데이터과학자 데이터분석을통해가치 (data product) 를창출하는전문가 데이터의다양한소스를찾아데이터를추출하고, 크고복잡한데이터를구조화 / 단순화하여분석이가능하게만들며, 이상한데이터를실시간으로탐지해내고, 적절한통계적모델링을통하여예측을수행하며, 인사이트를발견한후시각화하여비즈니스의방향을제시함 2015-07-23 30
데이터과학자 데이터과학자에대한언론전망 2012 년최고의신규유망직종 (CNN) 데이터과학자는그들은구하기도힘들고, 고용하려면비싸고, 과학 -IT- 분석능력을겸비한사람은찾기어렵다 (HBR, 2012) 최근기업들은머리는수학 / 통계지식으로, 손은컴퓨터해커수준으로, 눈은예술적안목을가진사람 (data scientist) 을찾는데애를먹고있음 (NPR, November 30, 2011) 2015-07-23 조완섭 (wscho@chungbuk.ac.kr) 31
데이터과학자 데이터과학자수요 향후 3-5 년이내에 미국은 18 만명의분석전문가, 150 만명의데이터기반관리자필요할것으로예상 ( 맥킨지 2011 년보고서 ) 영국은 50,000 여명이필요할것으로예측 우리나라는 2017 년까지약 11,000 명의빅데이터전문인력이필요할것으로예상 (KISDI Premium Report (14-10) 빅데이터 2.0 시대, 주요이슈와정책적시사점 ) 신규취업자중에서데이터과학자의비율 데이터과학자의 job trends 2015-07-23 32
데이터과학자 - 역량 Data Scientist Venn Diagram 데이터과학자는 IT 기술 (hacking skills), 수학및통계지식현장업무지식 (business, science 등 ) 을모두갖추어야한다. 두가지만갖추면기존과학자나기계학습혹은위험한사람 (danger zone) 이된다. The skills needed for data scientists 출처 : http://www.dataists.com/2010/09/the-data-science-venn-diagram/ 2015-07-23 33
데이터과학자 - 기업의분석지능 분석지능 (AQ ㆍ Analysis Quotient) 빅데이터를수집, 저장하고이로부터통찰력을얻으며, 미래상황까지예측하는능력 기업의 AQ 의 4 단계 첫째단계의기업은이제막데이터분석에관심을갖기시작한회사 둘째단계는어느정도데이터를활용하지만비즈니스와연계하지는못하는기업들 셋째단계는과거데이터를분석할수는있어도미래를예측하지는못하는기업들 네째단계기업들은과거와현재, 미래를예측할수있는데이터를모두분석하고활용해성과를창출하는회사 AQ 가높은기업일수록리스크관리와혁신능력도뛰어남 조직에서데이터과학자육성, 채용필요 2015-07-23 조완섭 (wscho@chungbuk.ac.kr) 34
데이터과학자 - 기업의분석지능 직관을능가하는분석 (MIT, CEO 3000 명설문결과 ) Top-Performing 회사가그렇지않은회사에비해서 5 배이상의분석능력을갖고있음 2015-07-23 [MIT Sloan Management Review] Big Data, Analytics and the Path From Insights to Value 조완섭 (wscho@chungbuk.ac.kr) 35
데이터과학자 교육프로그램 데이터과학자양성프로그램 ( 미국 50 여개대학교 ) School Program Offline Online Degrees Stevens Institute of Technology Business Intelligence & Analytics http://www.stevens.edu/sit/graduate/master-of-sciencebusiness-intelligence-and-analytics.cfm Yes Yes M.S. CMU Data Science Yes? Certificate North Carolina State University Northwestern University Stanford University University of Cincinnati Analytics http://analytics.ncsu.edu/?page_id=1799 The Master of Science in Analytics http://www.analytics.northwestern.edu/ Data Mining http://scpd.stanford.edu/ Business Analytics http://business.uc.edu/departments/obais/oba.html Some Courses Oxford University Data and Systems Analysis? Yes University of California San Diego University of Washington University of San Francisco RUTGERS, The State University of New Jersey Syracuse University Johns Hopkins University Data Mining http://extension.ucsd.edu/programs/index.cfm?vaction=ce rtdetail&vcertificateid=128&vstudyareaid=14 Data Science http://www.pce.uw.edu/certificates/data-science.html Analytics http://www.usfca.edu/management/analytics/program/ Professional Science Master s degree in Analytics http://www.business.rutgers.edu/msis/academic-programs/ug-bait Certificate of Advanced Studies in Data Science http://ischool.syr.edu/academics/graduate/datascience/index.aspx/index.aspx Institute for Data Intensive Engineering and Science 2012Yes 년 3월 No M.S. 충북대학교 No/Yes Yes/No M.S. 비즈니스데이터융합학과 조완섭 (wscho@chungbuk.ac.kr) 2015-07-23 36 Yes Grad Certificate ( 미래부지원데이터과학자양성석사과정 Yes ) No M.S. Undergrad Adv. Diploma No Yes Grad Certificate Yes Yes Certificate Yes No M.S. Yes? M.S. Yes? Grad Certificate
경기도, CCTV 위치선정에빅데이터분석결과활용 조완섭 (wscho@chungbuk.ac.kr) 2015-07-23 37
경쟁률 7.1 : 1 충청북도 => 의생명빅데이터공공행정, 과학기술빅데이터로특화 경상남도 => 제조빅데이터 ( 독일 Industry 4.0) 조완섭 (wscho@chungbuk.ac.kr) 2015-07-23 38
조완섭 (wscho@chungbuk.ac.kr) 2015-07-23 39
해외직구, 직방, 앱택시,. Online-2-Offline 소비자와공급자사이의중간산업의역할? 조완섭 (wscho@chungbuk.ac.kr) 2015-07-23 40
기관및지역별공개데이터수
2015-07-23 42
2015-07-23 43
충북관광분석 350 개관광지별이슈, 연관, 감성분석 청남대는자연경관, 산책, 트래킹등자연경관에대한긍정적인의견이높았으며, 전반적으로시설관리는 잘되어있으나, 매표소안내에대한불만과여름에는햇볕을피할곳이없다는부정적인의견이나타났음. 관광교통및정보에관한부정적인의견이많았으며, 특히사전예약제시행으로불편하다는의견이있었음. 매표소에서청남대까지이동수단 ( 셔틀버스 ) 과주차장확충이필요한것으로보임. 44
빅데이터의효과 2015-07-23 45
결론 빅데이터가성공하려면? 데이터기반조직문화형성 직관보다데이터기반의과학적의사결정중시문화가필요 CEO 의지가가장중요한관건임 조직의분석지능제고 빅데이터시대에분석지능이높은조직 ( 기업, 국가 ) 일수록혁신능력과리스크관리능력이우수함 (MIT Report) - 데이터과학자 작은업무에서라도빅데이터분석을시작! ( 가장확실한교육 ) 분석결과가업무혁신으로연결되어야함 작은데이터부터빅데이터까지모두고려하여가치창출 업무혁신으로연결되지않는빅데이터는의미가없음 2015-07-23 46
결론 지속가능한빅데이터가되려면? 빅데이터의활용과함께데이터거버넌스가구축되어야! 빅데이터거버넌스는데이터의품질보장, 프라이버시보호, 데이터수명관리, 전담조직과규정정립, 데이터소유권과관리권명확화등을통하여빅데이터가적시에필요한사람에게제공되도록체계를확립하는것 빅데이터거버넌스가확립되지못하면 - 품질이낮은데이터를중요한의사결정에사용함으로써심각한문제를야기 - 개인프라이버시관련데이터로인해빅브라더의우려가현실화 - 폭증하는데이터에대한메타데이터 & 수명관리소홀로인한 IT 비용급증 - 데이터관련문제를전담하고책임지는조직과인력이없다면빅데이터효과는일회성에그칠것임 2015-07-23 47