포트폴리오전략팀 배성진 02-6114-1660 sj.bae@hdsrc.com 21세기 원유 빅데이터가 제시하는 길 Vol. 1 -빅데이터 개요 및 향후 전망 SUMMARY 데이터(OPS)가 찾아낸 오클랜드 애슬레틱스(Oakland Athletics)의 성공 신화. 개개인의 스마트 기기 보유 증가와 함께 데이터 사용량 향후 10년간 폭증할 전망. 2020년 데 이터 정보량은 2012년대비 100배 증가한 100제타바이트 초과. 빅데이터 등장으로 1)모든 데이터 분석, 2)불규칙성 분석, 3)상관성 존중의 시대 도래. 빅데이터를 통한 새로운 형태의 고객 관계 수립이 가능한 빅뱅 을 예고 하고 있음. OPS 에서 찾아낸 오클랜드 애슬레틱스(Oakland Athletics)의 성공 신화 영화 빅숏 의 히트와 함께 원작자 마이클 루이스에 대한 관심도 함께 높아짐 얼마 전 2008년 미국 서브프라임 사태를 다룬 영화 빅 숏(Big Short) 이 국내에서 큰 인기를 얻었다. 이 영화는 마이클 루이스(Michael Lewis)의 책 빅 숏(Big Short)을 영화화한 것으로 마이클 루이스는 이 책 외에도 라이어스 포커, 머니볼, 부메랑 등을 집필한 베스트 작가로서 유명세를 떨치고 있다. 머니볼 :오클랜드 애슬레틱스 강팀 변모 이유를 다룬 책 이 가운데 머니볼 은 미국 메이저리그에서 90년대 후반까지 최약체로 평가 받던 야구 팀인 오 클랜드 애슬레틱스(Oakland Athletics)가 2000년 이후 4년 연속 포스트시즌에 진출하는 강팀 으로 변모한 이유를 다룬 책이다. 오클랜드의 새로운 단장 빌리빈은 B급 선수로 구성된 팀을 OPS라는 새로운 평가 방식을 도입 MLB최고 구단으로 변모시킴 당시 오클랜드 단장으로 취임한 빌리 빈(Billy Beane)은 팀 전체 연봉이 뉴욕 양키즈 선수 한 명 연봉에도 미치질 못할 만큼의 열악한 재정과 B급 선수들로 구성되었다는 평가에도 새로운 통계에 기반한 OPS(On base percentage Plus Slugging percentage, 출루율 + 장타율)평가 방식을 도입 홈런이나 타율보다는 출루율, 타점보다는 장타율 에 초점을 맞추고 팀을 2000년 이후 4년 연속 포스트시즌에 진출시켰다. 당시 오클랜드는 구단 전체 연봉이 4년 평균 1.2억달 러를 기록한 뉴욕 양키스 대비 1/3에 불과한 0.4억달러의 연봉을 가지고서도 4년 평균 승률 0.607를 기록, 뉴욕 양키스의 승률 0.598보다 앞서 미국 야구계를 발칵 뒤집어 놓는 계기를 마련하였다. 2015년 성공적으로 메이저리그 에 데뷔한 것으로 평가받는 강정호 선수의 지난 6년간 평균 OPS 0.918로 최상위권 2015년 4월 피츠버그 파이어리츠 로 이적하며 메이저리그에 성공적으로 데뷔한 것으로 평가 받는 강정호 선수도 국내에서 활약하며 기록한 지난 6년간의 OPS(On base percentage Plus Slugging percentage, 출루율 + 장타율)성적은 가히 수준급으로 나타났다. 6년 평균 장타율 0.526, 출루율 0.392, OPS 0.918을 기록 미국 야구시장 진출의 밑거름이 되었다. 2000년대부터 일종의 빅데이터 시스템이 야구계에 자리를 잡음 이처럼 이미 야구계에서는 2000년대부터 투수가 던지는 /타자가 치는 공 하나에도 수많은 결 과들을 집계하여 다년간 쌓인 통계 자료를 이용하여 선수의 재능을 평가하는 일종의 빅데이터 시스템(Sabermetrics)이 이미 자리를 잡았다.
그림 1> 오클랜드 애슬레틱스 빌리 빈 단장 그림 2> 뉴욕 양키스 Vs 오클랜드 애슬레틱스(연봉, 승률) 자료: 구글 image 자료: MLB, 2000년~2003년까지 평균 연봉 및 승률 비교 (만달러) 그림 3> 지난 6년간 강정호 선수 OPS 추이 및 평균 강정호 09년 10년 11년 12년 13년 14년 6년평균 장타율 0.508 0.457 0.401 0.560 0.489 0.739 0.526 출루율 0.349 0.391 0.353 0.413 0.387 0.459 0.392 합(OPS) 0.857 0.848 0.754 0.973 0.876 1.198 0.918 자료: 넥센, KBO. KBreport 데이터 홍수시대 : 데이터 사용량 폭증에 따른 빅데이터 등장은 필연적 결과 개개인의 스마트 기기 보유 증가와 함께 데이터 사용량 향후 10년간 폭증 전망 현재 전세계 데이터 량은 개개인의 스마트기기 보유 증가와 더불어 폭발적으로 증가하고 있다. 시스코에서는 인터넷에 연결되는 단말 수가 현재 100억개에서 2020년 이후 500억개로 5배 이상 증가할 것으로 전망하고 있으며 향후 10년간 디지털 데이터가 폭증하는 데이터 홍수 (DATA Deluge)현상에 직면할 것으로 예상되고 있다. 2020년 데이터 정보량은 2012년대비 100배 증가한 100제타바이트에 달할 전망 특히 이런 정보량이 기하급수적으로 증가하여 2020년에는 관리해야 할 정보량 및 서버가 급증 2012년 1.2 제타바이트 수준에 불과했던 전세계 데이터 트래픽은 2020년이 100 제타바이트 이상으로 그 규모가 약 100배 이상 증가할 것으로 분석되고 있다. 1제타바이트 : 미국 의회 도서관의 4백만배에 해당 1제타바이트는 1조기가바이트에 해당하는 양으로 미국 의회 도서관의 4백만배에 해당하며 100제타바이트는 전 세계 해변에 있는 모래알 수(7억50만조)의 140배, 100제타바이트 데이 터를 저장한 블루레이 디스크 무게를 달면 항공모함 1000대의 무게에 달하는 어마어마한 정보 량이다. 글로벌 빅데이터 시장 : 2016년 이후 향후 10년간 연평균 15% 이상의 높은 성장세를 이어가며 2026년 846억 달러 상회 이런 데이터 홍수 속 시장조사기관인 위키본(WIKIBON)은 글로벌 빅데이터 시장이 2016년 이후 향후 10년간 연평균 15% 이상의 높은 성장세를 이어가며 2026년 846억 달러를 넘어 설 것으로 전망하였다. 산업별로는 금융, 소매, 의료 및 통신 사업 등에서 빅데이터 기반 의사결 정 시스템의 두드러진 혁신을 예고 하였다.
그림 4> 2020년 인터넷 연결 단말수 현재 대비 5배 증가 그림 5> 2020년 데이터정보량 100 제타바이트 초과 전망 자료: 구글이미지, 시스코 그림 6> 글로벌 빅데이타 시장규모 추이 및 향후 전망 자료: WIKIBON, K-ICT빅데이터센터 빅데이터 스스로 데이터를 분석하고 연결고리를 형성하는 TALK DATA 시대 도래 2000년대 대량의 정보 처리와 함께 빅데이터 용어 등장 빅데이터라는 용어는 일찍이 2000년대 천문학과 게놈 분야 연구에서 대량의 정보를 처리하면 서 생겨난 용어로 점점 많은 정보가 넘쳐나고 그 정보는 빠른 속도로 성장 하면서 말 그대로 대 량의 데이터가 생성된 것이 바로 빅데이터다. 과거 영국의 토지대장 작성 작업은 최후의 심판일 (Doomsday)이라고 불릴 정도의 힘든 작업이었으나 정확도와 신뢰성은 떨어졌음 과거 영국의 가장 귀한 보물 중 하나로 여겨지는 1086년 토지대장 The Domesday Book of 1086 은 영국의 사람, 토지, 재산에 관한 당시로서는 유례없을 만큼 포괄적인 기록을 한 장부 다. 이 장부가 나중에는 최후의 심판일(Doomsday) 이라고 불릴 정도가 되었는데 토지과정을 만드는 과정이 모든 사람의 생사가 결정되는 성경 속 최후의 심판에 비유될 만큼 그 과정이 매 우 힘들었기 때문이다. 당시에는 사람이 이 모든 일을 처리해야 했기 때문에 힘들었을 뿐만 아 니라 정확도 측면에서도 신뢰성이 떨어진 건 당연했다. 또한 최근까지도 기존의 데이터 저장 및 관리 기능은 늘어만 가는 데이터 용량을 감당하는데 한계에 봉착했다. 빅데이터 등장으로 전혀 새로운 환경 도래 1) 모든 데이터 분석, 2)불규칙성 분석, 3)상관성 존중 그러나 빅데이터 등장은 전혀 새로운 환경 즉 기존과는 완전히 다를 수 있는 사고방식 실현이 전망된다. 우선은 1)방대한 데이터를 분석할 수 있게 되었으며, 2)정밀함을 추구하는 대신 현실 세계에 존재하는 불규칙적인 데이터 특성을 받아들이고 3)연결고리가 미약한 인과성 (Causality) 대신 상관성(Correlation)을 존중하는 방식으로의 변화를 이끌고 있다.
데이터 스스로가 상호간의 연결을 만들면서 말을 하는 시대로 진입 즉 빅데이터는 이유보다는 결론, 결론 보다는 예측에 포커스를 맞추고 있다. 또한 빅데이터가 등장하기 전의 분석이 가설을 검증하는 수준에 머물렀다면 이제는 전체 데이터를 분석하면서 데이터 스스로가 상호간의 연결고리를 만들고 있다는 점에서 데이터 스스로가 말을 하는 시대 가 도래한 것이다. 빅데이터의 핵심은 예측 : 모든 산업에서 빅뱅 을 예고 하고 있음 텍스트 분석 시장 성장으로 새로운 형태의 고객 관계 수립이 가능해질 전망 앞서 언급했듯 빅데이터의 핵심은 데이터 분석을 통한 예측이며 그 예측의 중심에는 우리들이 일상적으로 사용하고 있는 모든 텍스트가 대상이 된다. 전세계 텍스트 분석 시장은 연평균 25.2%의 성장세를 보이면서 65억달러가 넘는 시장을 기록할 것으로 전망되고 있고 특히 유통, 소비재제품, 금융, 의료 부문 등에서 고객과의 관계가 과거와는 다른 형태로 영향을 미칠 것으 로 기대되고 있다. 빅데이터가 제조공정 비용 감소, 생산계획등을 자동으로 조절하는 제조업 환경 급변 또한 제조업 분야에서는 최근 생산공정에 뛰어난 효율성을 제공하는 기술과 지식이 제공됨에 따라 기존의 제조 산업이 미래형 제조산업 형태로 빠르게 변화하고 있는 양상이며 이런 환경 속에 경제 및 사회생활 등 다양한 분양에서 발생하는 풍부한 데이터들이 제조 공정 효율성 증 가라는 목적에 따라 공정 비용을 감소시키고 추가 생산 계획을 자동으로 만들어내는 알고리즘 으로 변화되며 생산성 향상에 기여하고 있다. 그림 7> 전세계 텍스트 분석시장 현황 및 전망 그림 8> 소비재, 금융, 의료 분야에서 높은 성장 전망, BigData Monthly 14호, BigData Monthly 14호 그림 9> 빅데이터는 제조업 분야의 혁신적 개선을 야기 그림 10> 빅데이터 활용의 핵심 분야
향후 빅데이터 수집 분야에서의 가장 큰 관심은 보안 분야 이와 더불어 빅데이터의 출현이 21세기 새로운 빅 브라더 출현이라는 우려감이 높아지고 있 는 만큼 향후에는 IOT등을 통해 수집된 데이터에 대한 보안 모니터링 분야에 대한 투자가 집중 될 전망이다. 빅데이터 등장으로 모든 분야에서 빅뱅이라 불릴만한 변화가 예상되고 있는 만큼 다음 시리즈 에서는 산업별 현황 및 향후 전망 그리고 관련기업과 관련 좀더 세분화된 내용을 제공하도록 하겠다. 그림 11> 향후 빅데이터 수집/ 분석 관련 가장 큰 관심은 보안 분야, Big data & IOT :Benefit, Usage trends 2016, Techproresearch