빅데이터활용사례와거버넌스 2014.06 조완섭 충북대학교경영정보학과 대학원비즈니스데이터융합학과 wscho@chungbuk.ac.kr 043-261-3258 June 2011
목차 개요 빅데이터기술과전문가 빅데이터활용사례 빅데이터거버넌스 결론 빅데이터버거넌스 2014-06-12
개요 빅데이터시대의도래 전세계데이터는매년 40% 증가 세계는 2010 년 zettabyte 시대에돌입 1 Zettabyte : 美의회도서관정보 (235TB, 11/4 기준 ) 의 4 백만배, 16GB ipad 로축구장넓이로쌓아도대기권높이두배 Global information created and available storage (Exabytes) 빅데이터활용으로 미국의료분야에서 $3,300 억가치생산 유럽공공분야에서 2,500 억절감효과 Information Created Available Storage 2018 년까지미국에서만년간 Source: IDC (2011) 분석전문가 14~19 만명, 데이터기반관리자 150 만명추가수요 ( 출처 ) McKinsey (2011,05), Big Data: The next frontier for innovation, competition, and productivity 2014-06-12 3
빅데이터란? 개요 기존컴퓨팅기술로는저장, 관리, 분석이불가능할정도로큰데이터집합과관련기술, 인력등을포괄하는의미 IT 기술에서출발했으나사회, 문화, 정치등삶전체의이슈, 혁신패러다임으로부각 (Economist, Gartner, McKinsey, NYT) 빅데이터의특징 : 3Vs 시대에따라다른기준 2014-06-12 4
개요 빅데이터는생성원천은? 비즈니스데이터 Tesco : 매달 15 억건이상의고객관련데이터를수집 Social Data 생체정보 동영상 YouTube, CC 카메라의료장비등 사물인터넷 (IoT) / M2M 2014 년 500 억개무선단말기 (Ericsson) 2014-06-12 5
분석대상의확대 빅데이터종류 2014-06-12 6
빅데이터효과 빅데이터 - 효과와전망 인류가직면한의료, 환경, 식량, 에너지, 공공행정등다양한분야에서빅데이터분석효과가기대됨 2014-06-12 7
빅데이터 - 효과와전망 빅데이터의효과 - 산업분야별경제적효과 스페인의료비의 2 배 그리스 GDP 규모 2014-06-12 8
빅데이터 - 활용사례 KBS 보도자료 빅데이터, 세상을바꾸다 http://news.kbs.co.kr/economic/2012/02/01/2428163.html 관련동영상 병원미숙아실의각종의료장비에서생성되는스트림빅데이터 실시간통합, 분석을통하여응급상황조기예측 (2 시간전 =>24 시간전 ) 미숙아사망률의획기적인감소, 의사와간호사노동감소 2014-06-12 9
빅데이터 - 활용사례 Google 의무인자동차개발 http://news.kbs.co.kr/world/2012/05/09/2473444.html 관련동영상 실시간운전의사결정 센서 : 실시간주변정보 StreetView 자동차운행관련데이터가실시간으로수집, 통합분석 => 운전의사결정 이미 20만마일시험주행성공, 네바다주에서법률개정검토 80년대기계, 전자공학적인무인자동차개발은실패 ; 구글이빅데이터수집, 통합, 분석기술을활용하여성공시킴 빅데이터가새로운비즈니스를창출하고있는예 2014-06-12 10
Google Glass 빅데이터 - 활용사례 http://www.youtube.com/watch?v=t2uwki9jk_8 http://www.youtube.com/watch?v=chix5ywj_0y 구글글라스체험단모집 ( 미국 ) 엄청난데이터가생성될것임 (lifelog data) 지금으로서는응용분야를가늠하기조차어려운상황 스마트폰, 디카대체? 사람들의생활모습은? 2014-06-12 11
빅데이터기술 대용량 / 실시간처리능력필요 ( 시스템관점 ) 기존방식으로처리하기엔너무큰데이터컴퓨팅파워부족기존 HW SW 변화요구 신사업창출비즈니스지능화, 최적화마이닝, R-통계분석고도분석기술 SW 기술 (SW 인프라 ) Cloud Computing (HW 인프라 ) 2014-06-12 12
Data Lifecycle 빅데이터처리과정 ( 데이터관점 ) Visualization 자연어처리 Mining 직관적의사결정지원 Data Sources Stream Data Hadoop MapReduce Hive 2014-06-12 13
Big Data 관련기술 ( 요약 ) 2014-06-12 14
Big Data 관련기술 ( 요약 ) 2014-06-12 15
데이터과학자 데이터분석을통해가치 (data product) 를창출하는전문가 데이터의다양한소스를찾고 크고복잡한데이터를구조화 / 단순화하여분석이가능하게만들며 이상한데이터를실시간으로탐지해내며 적절한통계적모델링을통하여예측을수행하고 인사이트를발견한후시각화하여비즈니스의방향을제시함 2014-06-12 16
데이터과학자 데이터과학자 2012 년최고의신규유망직종이다 (CNN) Data Scientist: The Sexiest Job of the 21 st Century (Harvard Business Review, 2012) 최근기업들은머리는수학 / 통계지식으로, 손은컴퓨터해커수준으로, 눈은예술적안목을가진사람 (data scientists) 를찾는데애를먹고있다 (NPR, 2011.11.30) 신규취업자중에서데이터과학자의비율 데이터과학자의 job trends 2014-06-12 17
데이터과학자 - 역량 Data Scientist Venn Diagram 데이터과학자는 IT 기술 (hacking skills), 수학및통계지식현장업무지식 (business, science 등 ) 을모두갖추어야한다. 두가지만갖추면기존과학자나기계학습혹은위험한사람 (danger zone) 이된다. The skills needed for data scientists 출처 : http://www.dataists.com/2010/09/the-data-science-venn-diagram/ 2014-06-12 18
데이터과학자 교육프로그램 대학에서의데이터과학자양성 ( 주로대학원과정 ) School Program Offline Online Degrees Stevens Institute of Technology Business Intelligence & Analytics http://www.stevens.edu/sit/graduate/master-of-sciencebusiness-intelligence-and-analytics.cfm Yes Yes M.S. CMU Data Science Yes? Certificate North Carolina State University Northwestern University Stanford University University of Cincinnati Analytics http://analytics.ncsu.edu/?page_id=1799 The Master of Science in Analytics http://www.analytics.northwestern.edu/ Data Mining http://scpd.stanford.edu/ Business Analytics http://business.uc.edu/departments/obais/oba.html Some Courses Oxford University Data and Systems Analysis? Yes University of California San Diego University of Washington University of San Francisco RUTGERS, The State University of New Jersey Syracuse University Johns Hopkins University Data Mining http://extension.ucsd.edu/programs/index.cfm?vaction=ce rtdetail&vcertificateid=128&vstudyareaid=14 Data Science http://www.pce.uw.edu/certificates/data-science.html Analytics http://www.usfca.edu/management/analytics/program/ Professional Science Master s degree in Analytics http://www.business.rutgers.edu/msis/academic-programs/ug-bait Certificate of Advanced Studies in Data Science http://ischool.syr.edu/academics/graduate/datascience/index.aspx/index.aspx Institute for Data Intensive Engineering and Science 2012Yes 년 3월 No M.S. 충북대학교 No/Yes Yes/No M.S. 비즈니스데이터융합학과 2014-06-12 19 Yes Grad Certificate ( 미래부지원데이터과학자양성석사과정 Yes ) No M.S. Undergrad Adv. Diploma No Yes Grad Certificate Yes Yes Certificate Yes No M.S. Yes? M.S. Yes? Grad Certificate
빅데이터활용 빅데이터활용분야들 가까운미래예측사후감지 => 사전대응 상황분석과기회창출새로운의미파악 이상현상감지 정상 / 비정상 에대한패턴도출 과학적인의사결정 2014-06-12 출처 : SAS, IDC (http://practicalanalytics.wordpress.com/2011/12/12/big-data-analytics-use-cases/) 20
빅데이터활용 빅데이터분석을통한비즈니스적용 Cycle 비즈니스요구사항파악 데이터수집, 통합 비즈니스적용 데이터분석 ; 가치발견 가시화 출처 http://practicalanalytics.wordpress.com/2011/12/12/big-data-analytics-use-cases/ 2014-06-12 21
빅데이터활용사례 통신사 빅데이터분석으로이탈고객방지 미국의 T-Mobile 사 가입자 3,000 만명통화정보 179 억건 / 일 탈퇴 탈퇴 탈퇴 웹서버로그데이터 분석 특전 이탈율절반 탈퇴 발견 회원 이탈패턴발견 2014-06-12 22
빅데이터활용사례 통신사 한국의 S 통신사 Tmap 실시간으로서버에접수되는교통정보를분석하여교통체증구간, 공사구간, 사고구간등을실시간으로제공함 콜택시, 유류차량, 고속버스등에 GPS 를장착하여전국도로교통정보를 5 분간격으로수집 통합, 분석 DW 2014-06-12 23
빅데이터활용사례 정유회사 정유회사인 H 사의경우 전세계에흩어져있는시추시설의수많은장치에이상징후가나타나면빠르게대처해야막대한손실을줄일수있음 ; 이를위한인력배치와운영에고비용소모 시설당 4 만여개의센서로부터생성되는빅데이터 분석 ( 고장패턴 ) 이벤트 a 발생후 1 주일이내에부품 b 고장확률이 90% ( 출처 ) 블로터닷넷, 2012-05-16 부품교체관리고장예측 2014-06-12 24
빅데이터활용사례 Volvo 볼보자동차 생산분야에활용 과거 50 만대의차량이팔린후알수있는결함을빅데이터분석으로 1,000 대정도판매된싯점에서포착 ; 대규모리콜사태방지로비용절감 신차운행과정에서발생하는각종센서데이터 분석 차량결함발견조기리콜실시 ( 출처 ) 볼보자동차홈페이지 2014-06-12 25
빅데이터활용사례 Volvo Data 를비즈니스가치로바꾼볼보사사례 2014-06-12 26
빅데이터활용사례 - 금융 2012-03-07 왓슨의임무가운데하나는미증권거래위원회 (SEC) 보고서, 각종신문기사와경제자료를읽고이에따라정치적 사회적리스크를찾아내투자에대한판단을내리는것이다. IBM 측은 " 왓슨이강력한분석능력을바탕으로사람이일일이살펴볼수없는방대한양의자료를검토하고종합해판단내릴수있다 " 고말했다. 2014-06-12 27
빅데이터활용사례 의생명분야 왓슨, 의료분야취업 ( 동영상 ) 2014-06-12 28
빅데이터활용사례 : 의생명분야 분석 가치창출 현재구글이가진정보의 7 억배규모? 맥킨지보고서 2011.06 2014-06-12 29
빅데이터활용사례 - 질병예측 건강보험 DB 와민간 SNS 정보를통합, 분석하여국민건강주의예보서비스 정확한정보와대량의모호한정보 (SNS) 의통합, 분석, 예측? 출처 : 빅데이터시범사업성과보고 (NIA, 2013) 2014-06-12 30
빅데이터활용사례 - 소비자감성분석 블로그에등록된고객의견정보를자동추출하여고객의감성분석 갤럭시 3 화면이넓어짱이다 iphone4 무게가가벼워좋아. Data Sources 국내쇼핑몰 10 개사이트 중국쇼핑몰사이트 (2) VOC 데이터추출 (3) 감성분석 화면이크다 45% 디자인이예쁘다 25% 크기가작다 15% 화질이좋다 15% 미국쇼핑몰사이트 (1) Sample data 로사전구축제품및감성단어에해당하는명사, 형용사, 동사, 동의어 긍정 부정 갤럭시3 30,599 1,500 iphone4 56,456 3,500 ( 출처 ) 충북대학교조완섭교수연구실 (wscho@chungbuk.ac.kr, 043-261-3258),,LG 전자, 2012 2014-06-12 31
빅데이터활용사례 - 관제분야 관제빅데이터실시간분석을통한 IT 장비고장예측시스템개발 - 은행등에서수백대서버가생성하는이벤트데이터의실시간수집및분석 - 고장관련이벤트패턴발견및실시간분석 => 고장예측 데이터소스 Device (FMS) System (System & Application) SNMP SOCKET Stream Data 1 String Data 2 Event Storm Robot / Agent Parsing Parsing Data Processing Web UI 4 356 번컴퓨터가 90% 확률로 10 분이내에다운된다. Data Analysis System (Databases) Structured Query Data 3 RAW Data Filtered Data Pattern Data Processed Data ( 출처 ) 충북대학교조완섭교수연구실 (wscho@chungbuk.ac.kr, 043-261-3258), ( 주 ) 위엠비 ( 진행중 ) 2014-06-12 32
빅데이터활용사례 - 택시 무관제콜택시 - 안심귀가및경로추천 승차시 ( 택시번호, 기사전화번호, 이동경로 ) 정보가보호자에게전송 지금어디로가면손님이있을까? ( 공차운행 = 유류비, 환경오염 ) 빅데이터분석 과거탑승정보 최적이동경로추천 ( 출처 ) 충북대학교조완섭교수연구실 (wscho@chungbuk.ac.kr, 043-261-3258), ( 주 ) 해븐리아이디어공동개발 ( 진행중 ) 2014-06-12 33
빅데이터활용사례 - 교통분야 서울시심야버스노선결정 Call traffic 통화기지국위치청구주소지정보 공공정보 - 정류장위치 - 교통량 3 월한달간약 30 억건데이터분석 택시승하차정보 출처 : 빅데이터시범사업성과보고 (NIA, 2013) 2014-06-12 34
빅데이터활용사례 - 교통분야 청주시교통데이터분석 환승분석 BIS 버스운행기록데이터 1800 만레코드 /1 개월 134 개노선, 1860 개정류장 교통카드데이터 3800 만레코드 /7 개월 ATMS HiPass 데이터 5200 만레코드 /3 개월 날씨정보트럭운행정보택시운행정보 수집, 통합분석 Top-10 환승노선은? 요일별, 시간대별혼잡구간은? 이벤트, 날씨별혼잡구간은? ( 야구경기, 공예비엔날레등 ) 혼잡지도 ( 출처 ) 충북대학교조완섭교수연구실 (wscho@chungbuk.ac.kr, 043-261-3258) 청주시청공동연구 2014-06-12 35
Transit patterns analysis 2014-06-12 36
Transit patterns analysis 2014-06-12 37
Transit patterns analysis 2014-06-12 38
2014-06-12 39
Traffic Congestion Map 2014-06-12 40
Traffic Congestion Map 2014-06-12 41
Traffic Congestion Map 2014-06-12 42
Taxi supply-demand analysis 헤븐리아이디어사의택시운행데이터분석결과 (2014.01 ~ 현재까지전체평균 ) 출퇴근시간대는? 심야? 요일별 / 시간대별수요공급은? 2014-06-12 43
Taxi supply-demand analysis 심야시간대수요공급지도 2014-06-12 44
빅데이터활용사례 - 통계분야 통계는어떻게바뀌어야할것인가? 전체데이터를수집하고분석하는것이가능한시대 정형화된데이터에서비정형데이터까지분석하는시대 방대한스트리밍데이터의실시간수집과저장관리, 실시간분석까지가능한시대 (M2M, IOT) 다양한가시화기법으로복잡한데이터의의미를직관적으로파악하고, 필요하면언제던지 drill-down 할수있는시대 2014-06-12 45
빅데이터 거버넌스 조완섭외 5 인번역 홍릉과학출판사 2014-06-12 46
정의 데이터거버넌스 전사적인차원에서보유하고있는모든데이터에대해관리에대한정책, 지침, 표준, 전략및방향을수립하고데이터를관리할수있는조직및서비스 ( 시스템 ) 를구축하는데이터관점에서의 IT 관리체계 목적 데이터거버넌스의궁극적인목적은고품질데이터의확보와안전하고효과적인관리를통해데이터가적시에필요한사람에게제공되어기업의다양한가치창출에기여하는것 ( 혈액?) 데이터관련리스크의감소, 데이터수집과관리비용절감, 데이터활용도증대, 이를통한데이터의가치향상, 고품질정보가기업의비즈니스목적에부합하고최적의서비스를제공하도록보장함 2014-06-12 47
데이터거버넌스 IT 거버넌스와데이터거버넌스 빅데이터 정수장 파이프와정수장관리 VS. 물관리 수자원공사 ( 조직, 인력, 규정, 각종시설, 기술 ) 2014-06-12 48
빅데이터거버넌스프레임웍 빅데이터거버넌스는 기존의데이터거버넌스에빅데이터특징을반영하여확장한것임 (Sunil Soares); 3Vs 의특징으로인해거버넌스의중요성이증대 기존데이터거버넌스 빅데이터거버넌스 Organization Meta Data Privacy Data Quality Biz. Process Integration Master Data Integration Info. Lifecycle Management 다양성과복잡도증가 ( 데이터종류와출처등의정보 ) 데이터과학자빅데이터유형별 Stewardship 지정 빅데이터의 privacy 문제는더욱심각하고 ( 빅브라더 ), 품질은훨씬열악함 빅데이터를활용한비즈니스최적화 ( 지능화, 개인화 ) 실현 ; 비즈니스이익과규제준수및관리비용최적화실현 데이터가폭증할때보관 & 폐기정책문제가더욱중요 ; 비용과규제준수모두고려해야함 MDM 과의연계를통하여빅데이터분석의 Insight 가치향상 ; Social data + 고객 master data => 고객성향분석의정확도향상! 랜트카운행패턴을센서데이터로받아서보험고객마스터파일개선가능 2014-06-12 49
빅데이터거버넌스사례 시설관리용스마트미터기 IT 비용과프라이버시문제 M2M 데이터소스 IT 비용증대 엄청난데이터 데이터분석 통합정제 검침비용절감자원활용최적화 전기, 수도, 가스 smart meter 프라이버시침해 2014-06-12 50
빅데이터거버넌스사례 통신업체개인위치정보 프라이버시문제 - 마케팅부서 : 고객위치정보활용으로새로운수입원창출 ( 예 : 쿠폰발송 ) - 네트워크관리팀 : 통화중끊김현상과같은네트워크성능문제를해결 - 유선비즈니스부서 : 가입자동의없이위치정보사용으로평판리스크걱정 - 개인정보보호부서 : 개인정보관련잠재적인규제리스크를걱정 빅데이터거버넌스팀이갈등조정자! 새로운서비스로인한이득이평판및규제리스크를능가하는지점검한후결정함 개인위치정보 2014-06-12 51
빅데이터거버넌스사례 의료분야 데이터품질, 법적문제, 수명주기관리 - 추후법률적인분쟁을감안해서오리지널데이터와보정된데이터를모두보관 ( 품질 ) - 언제까지보관할것인가? IT 비용증대와직결됨 ( 수명주기관리 ) - 병원측은개인의의료정보의분실에대비한정책을수립해야함 ( 프라이버시 ) 첨단의료기기에서생성하는대용량타임시리즈데이터분석으로증세가나타나기 24 시간전에예측가능 비즈니스혁신 그러나환자가움직이면읽을수없는불안한정보선형혹은회귀분석기법으로데이터를보정 데이터통합과분석 M2M 데이터 2014-06-12 52
빅데이터거버넌스사례 의료분야 : 데이터품질향상 비구조적정보를활용하여구조적정보의정확도향상 문제환자집중관리로재입원비율을획기적으로낮춤 정확도향상 (85%) 퇴원환자재입원예측모델 (20,000 명의환자,150 개의변수 ) 정제보완된자료 : 환자의상세한흡연정보 ( 흡연기간, 빈도, 약물, 기타관련정보 ) 의사소견서환자퇴원정보건강검진정보간호원 Note 등 초기자료 : 흡연 (25%, y/n), 약물에관한단순기록 환자데이터 2014-06-12 53
빅데이터거버넌스사례 인사분야 프라이버시문제 기업의인사부서에는이러한규제를감안한채용규정정립 미국 : 많은주에서채용시 SNS 활용금지법제정, 통과독일 : 채용에서 Facebook 활용금지 채용지원자의나이, 결혼유무, 종교, 피부색, 사진, 성적지향성, 친구등개인정보로넘치고있음 SNS 데이터 2014-06-12 54
빅데이터거버넌스사례 시설관리 ( 예방정비 ) 분야 철도예방정비 => 고장감소 => 정시도착비율증대 그러나데이터표준화와수명주기관리가중요 고장예측 A- 이벤트발생후 1 시간이내에 B- 이벤트가발생하면 10 분이내브레이크고장 (90%) M2M 데이터 분석 이기종열차의경우 - 센서데이터표준화필요철도안전성관련규정에따른 - 빅데이터의수명주기관리 1,000 개가넘는기계, 전자적이벤트가매순간발생운영이벤트 ( 문열림, 브래이크 ) 경고이벤트 ( 전압주파수, 공기압축기 ) 오류이벤트 ( 집전장치고장, 역변환기 ) 데이터수집과통합 2014-06-12 55
빅데이터거버넌스사례 과학기술분야 데이터품질 ( 표준화 ) 리스크, 재난, 의료등다양한빅데이터분야에서복잡하고방대하며, 실시간으로발생하는데이터를오해하거나잘못적용하여오판을일으킨다면? : 빅데이터거버넌스의중요성 화성탐사선 폭발 9 개월간의항해 3 억 3000 만달러손실우주산업후퇴 1999 년예정된궤도보다 170km 아래에진입, 폭발원인 : 미국 - 영국과학자들이 ( 복잡한수식에서 ) 수치단위를 newton 대신에 pound 로사용 2014-06-12 56
Industries 빅데이터거버넌스프레임웍 BDG 는산업 / 데이터유형 / 거버넌스이슈세가지측면에서관리되어야함 Healthcare Utilities Retail Telco Insurance Customer Service IT Sentiment Analysis Facebook Royalty Program Customer Chun Analytics Investigate Claims VOC Web & Social IT Log Analysis IT Log Analysis IT Log IT Log Analysis Patient Analysis IT Log Claims Monitoring Analysis IT Analytics Log IT Log Analysis Smart Analysis IT Log Parts MetersAnalysis IT Log Desc. IT Log Analysis IT Log RFID Analysis Tags Analysis IT Log IT Log Analysis Locationbased Analysis IT LogCustomer Analysis IT Log Services profiles IT Log Analysis Vehicle Analysis IT LogCustomer Telematics Analysis IT profiles Log IT Log Analysis Analysis IT Log Analysis IT Log IT Analysis Log Analysis M2M & IoT Transaction Data Big Data Types Genetic Testing Facial Recognition Underwriting Bio Metrics Electronic Medical Records Call Quality Assurance Human Generated Information Lifecycle Mgt. Master Data Integration Biz. Process Integration Data Quality/standard Privacy Metadata Organization 2014-06-12 57
결론 빅데이터가성공하려면? 데이터기반조직문화형성 직관보다데이터기반의과학적의사결정중시문화가필요 CEO 의지가가장중요한관건임 조직의분석지능을높여야함 빅데이터시대에분석지능이높은조직 ( 기업, 국가 ) 일수록혁신능력과리스크관리능력이우수함 (MIT, 3000 명 CEO 조사결과 ) 조직내데이터과학자양성이중요함 ( 재교육필요성 ) 작은데이터부터빅데이터까지모두고려 빅 / 스몰데이터구분보다전체를관리하고, 분석하여가치창출 각분야별로구축, 운영, 최적화, 가치창출이선순환되어야함 2014-06-12 58
결론 지속가능한빅데이터가되려면? 빅데이터의활용과함께데이터거버넌스가구축되어야! 빅데이터거버넌스는데이터의품질보장, 프라이버시보호, 데이터수명관리, 전담조직과규정정립, 데이터소유권과관리권명확화등을통하여빅데이터가적시에필요한사람에게제공되도록체계를확립하는것 빅데이터거버넌스가확립되지못하면 - 품질이낮은데이터를중요한의사결정에사용함으로써심각한문제를야기 - 개인프라이버시관련데이터로인해빅브라더의우려가현실화 - 폭증하는데이터의수명관리소홀로인해 IT 비용이급증 - 데이터관련문제를전담하고책임지는조직과인력이없다면빅데이터효과는일회성에그칠것임 2014-06-12 59
감사합니다. 빅데이터재직자교육! 빅데이터 거버넌스 043-261-3636 bigdata@chungbuk.ac.kr 홍릉과학출판사 2014-06-12 60