end 빅데이터시대의인재양성전략 Strategy for Cultivating Talent in the World of Big Data 정한민 * 송사광 ** 1. 차세대모바일응용서비스동향분석 2. 차세대모바일응용서비스기술분석 목 차 3. 차세대모바일응용서비스활용분석 4. 결론 1. 서론 * 최근가장주목받는키워드의하나가빅데이터이다. 빅데이터는기존의처리방식이나시스템으로처리할수없는엄청난크기의데이터를의미하는동시에, 데이터를활용한모든분야및영역을함축하고있다. 2011년전세계에서생산된데이터가 1.8 제타바이트 (1 제타바이트는 10억테라바이트 ) 에이르며, 2020년에현재의 50배이상증가할것이라는예상은더이상새롭게들리지않을정도로우리는정보홍수의시대가아니라정보폭발의시대에살고있다 ( 그림 1 참조 ) [1]. ( 그림 1) ICT 발전에따른데이터의변화방향 * 한국과학기술정보연구원소프트웨어연구실실장 / 책임연구원 ** 한국과학기술정보연구원소프트웨어연구실선임연구원 ( 교신저자 ) 빅데이터시대의도래는웹의발전과밀접한상관관계를가지고있는데, 정보를연결하는웹 1.0 시대를거쳐인간을연결하는웹 2.0 시대가모바일기기와만나면서소셜데이터의엄청난증가를가져오고있다. 이후웹 3.0과웹 4.0에서는기기로부터생성되는데이터를지식화하고이를기계가소비할수있도록하는데그목표를두고발전할것이다. 2. 빅데이터그리고데이터과학자 가트너그룹의 Hype Cycle은가까운미래의유망기술을파악하는데도움을주는기술성숙도기반라이프사이클이다. 특히, 유망기술 Hype Cycle 은 12,000~13,000여개의유망기술후보들을대상으로전문가그룹을통해최종선정한 20~30 여개의유망기술들을보여준다. 2011년가트너그룹의유망기술 Hype Cycle 에빅데이터가처음으로등장하였으며, 2012년기술성숙단계중 2단계에해당하는 Peak of Inflated Expectations 단계에접어들어전세계적으로많은주목을받고있음을알수있다 ( 그림 2 참조 ) [2]. 향후주류기술 (Main Stream) 로자리잡기까지 2~5년의시간이소요될것으로예상되는데, 상당히빠른발전속도를보이는기술이다. 미국오바마행정부는 2012년 3월빅데이터연구개발계획 (R&D Initiative) 에 2억달러를투입한다고발표하였다. 관련업계나학계에서는계획수립을위 48 2012. 9.
( 그림 2) 2012 년유망기술 Hype Cycle 해투자되는금액에많은관심을보이고있지만, 무엇을위해투자되는것인지를면밀히살펴볼필요가있다. 오바마행정부는크고복잡한디지털데이터로부터지식을추출하고통찰력 (Insight) 을확보하는능력을향상시키는데투자하겠다는의지를명확히밝히고있다는데주목해야한다. 빅데이터를수집하고쌓는데관심이있는것이아니라, 이로부터얻을수있는가치를확보하기위해투자하겠다는의미이며, 인재양성또한이러한목표에맞추어이루어질것이기때문에우리또한이러한흐름을간과해서는안된다. ( 그림 3) 과같이현재빅데이터시장내에서글로벌회사들이집중적으로인수합병, 자본투자등을통해기술을확보하고있는대표적인분야가분석및데이터웨어하우스 (Analytics/DW) 이다 *. 즉, 빅데이터를확보하는데그치는것이아니라, 처리되고가공된빅데이터로부터가치를끌어낼수있는영역에대한관심이무엇보다큰시기라고할수있다. 대부분의상용화된비즈니스인텔리전스 (Business Intelligence) 솔루션이나포털사이트의통계관련서비스들은계량분석 (Quantitative Analytics) 에머무르고있다. 그렇지만, 고도의연계분석이나분석모델을사용하지않더라도계량분석을넘어서는분석효과는충분히기대할수있다. 예를들어, ( 그림 4) 의구글 Insights 서비스는시계열분석을이용하여특정기간내질의어추이변화를보여준다. 삼성, 노키아, 1) http://www.ramonchen.com/wp-content/uploads/2011/10/the-gr owing-universe-of-big-data-2.jpeg ( 그림 3) 빅데이터시장내분석분야 ( 그림 4) 구글 Insights 서비스로살펴본삼성, 노키아, 애플의질의어추이변화애플로검색해보면, 2011년 2Q를기점으로삼성이노키아를추월하였음을알수있다. 실제로는 2011년 4Q와 2012년 1Q에걸쳐삼성이휴대폰과스마트폰분야에서노키아를제치고세계시장 1위를달성하였다. 그렇지만, 구글 Insights 서비스 ** 는이미이러한시장에서의변화를 1~2분기앞서예측하고있었다는사실을통해데이터분석의필요성을확인할수있다. 이러한관점에서볼때, 현재시급히요구되고있 2) http://www.google.com/insights/search/ 한국인터넷정보학회 ( 제 13 권제 3 호 ) 49
( 그림 5) 데이터과학자수요예측 는인력은데이터과학자 (Data Scientist) 라고할수있다. 데이터과학자는데이터를수집하고, 분석할수있는형태로가공하며, 분석을통해결과를도출하고이를의사결정자들에게적절히제시하고설명할수있는전문가들이라고정의할수있다 [3]. 이들은빅데이터시대에필요한최고의전문가집단으로인식되고있는데, 그이유는통계학, 경제학, 정보기술, 수학등다학제적 (multidisciplinary) 이해가필요하고, 이외에도통합적사고와통찰력을갖추고있어야하기때문이다. ebay 는고객데이터를분석하고가공하는업무를 5,000명이상이담당하고있으며, EMC 도다양한분야의박사급인력들로구성된 Analytics 연구실을운영중에있다. IBM에서도 200명이상의수학자들이분석학을집중연구하며 500개이상의특허를확보할정도로관련기업들이인재확보에사활을걸고있다. ( 그림 5) 는데이터과학자수요에대한향후 5년이상의예측결과를보여준다. * 응답자의 63% 가데이터과학자의공급이수요를따라가지못할것으로보고있으며, 그중절반은심각하게부족할것이라고응답하고있다. 국내에서도이러한자료들을인용하여데이터과학자의양성필요성만강조하고있는데, 향후분석기술의고도화로기계가인간능력을넘어서는단계로들어가기시작하면, 또다른대량실업을양산할지도모를일이다. 한국과학기술정보연구원이 2011년부터본격적으로 3) Data scientists are involved with gathering data, massaging it into a tractable form, making it tell its story, and presenting that story to others. ( 그림 6) InSciTe: 기술동향분석및예측서비스예 * 연구개발중인 InSciTe 서비스 ** 를예로들어보자. InSciTe 서비스는기존비즈니스인텔리전스솔루션이보여주지못하는고도의분석능력을시맨틱웹기술과텍스트마이닝기술기반플랫폼과결합된분석모델들을통해실현시키고있다 [4, 5]. InSicTe 서비스 ( 그림 6 참조 ) 는다양한분석모델들을결합하여유망기술발굴및그들의향후성숙시기및정도를예측하며, 기술격차, 경쟁 / 협력관계를분석한다. 또한, 특정기업의과거연구기술들과경쟁사들을분석하여미래연구영역을추천하며, 자동생성되는요약보고서를제공함으로써데이터과학자의영역중상당부분을담당할수있는가능성을보여준다. 이러한서비스의발전은인간의고유영역이라고인식되어온인지적, 지능적추론을기계가대신할수있을지도모른다는암시를제공하는데, 이러한사례는최근들어여러곳에서목격되고있다. IBM Watson *** 이 2011년 2월미국제퍼디퀴즈쇼에서퀴즈달인들을물리치고우승을차지하였다 ( 그림 7 참조 ). 이미체스에서도컴퓨터가인간을이겼다는사실을알고있다면그리놀랄일이아닐수도있지만, 이번대결영역은그차원이다르다. 인간의언어를이해하고 3초이내에서 2억페이지분량의정보를탐색하여정답후보들을순위화하여제시할수있다는사실은 IBM Watson의적용영역이퀴즈에그치 4) http://inscite.kisti.re.kr 6) www.ibm.com/watson 50 2012. 9.
( 그림 7) 제퍼디퀴즈쇼에참가하여우승한 IBM Watson 미래에는그단언의강도가훨씬약해질것이라는데이의를제기하기어려워질것이다. 빅데이터시대에서 IBM Watson 이가지는의미는명확하다. 엄청난크기의데이터를기계가제대로활용할수만있다면, 기껏해야수백테라바이트에서수페타바이트 (1 페타바이트는약 1천테라바이트 ) 에이르는인간의기억능력을넘어설수있을것이라는점이다. 단기적인관점이나현재의기술만을염두에두고데이터과학자를시급히양성해야한다고주장한다면, 관련기술성숙이나패러다임변화에제대로대응하지못하고당황하게되는상황이발생할수있다. 물론데이터과학자의필요성을간과하거나축소해서는안된다. 분석기술이아무리발전하더라도인간의통찰력을필요로하는영역은반드시있으며, 특히과학기술분야에서는더욱그러하다. 그렇다면, 어떤능력또는소양을갖춘데이터과학자나이공계인력을양성해야할까? 이에대한간접적해답은다음사례들을통해확인할수있을것이다. 미국국토안보부는미래에발생할수있는범죄를미리심사할수있는 FAST * (Future Attribute Screening Technology) 를개발중에있다 ( 그림 9 참조 ). 이기술은신체온도, 심장박동, 호흡, 동공확대, 제스처등을종합적으로분석하여수많은데이터로부터학습된이상징후와비교하는것을특징으로한다. 기계에의한판단이보안분야에서오랫동안근무한전문가의 ( 그림 8) IBM Watson 의적용영역 지않을것이라는것을암시한다. 실제로 IBM Watson 은제퍼디쇼우승이후미국민간의료보험회사인웰포인트에서컨설턴트로일하게되었고, 3,420만명에달하는통합된환자정보로부터적절한치료법을제시하는역할을맡고있다. 아울러 ( 그림 8) 과같이콜센터, 헬스케어, 금융, 소매, 정부기관까지 IBM Watson 과그기술이적용될수있는영역은상당히넓다 [6]. 과연인간의고유영역이었던일자리를기계가위협하는시대가오지않을것이라고단언할수있을까? 과거에는그럴수있었을지라도가까운또는먼 ( 그림 9) FAST 시나리오 ** 8) http://www.dhs.gov/xlibrary/assets/privacy/privacy_pia_st_ fast.pdf 7) http://upload.wikimedia.org/wikipedia/commons/9/98/dhs-fast.png 한국인터넷정보학회 ( 제 13 권제 3 호 ) 51
( 그림 10) 링크드데이터클라우드 * 의견에앞서적용될가능성을보여주는것으로 마이너리티리포트 가현실화될수있음을암시한다. 이러한기술은세계웹표준화기구인 W3C가주도하고있는 LOD (Linked/Linking Open Data) 프로젝트의결과인링크드데이터 (Linked Data) 와만날때그위력을더할수있다. ( 그림 10) 에서보듯이링크드데이터는전세계의모든정보를지식화하겠다는목표하에학술, 바이오, 정부, 엔터테인먼트, 포털, 방송분야등에서생산된정보를담고있다. 이정보는 URI (Uniform Resource Identifier) 라는고유한식별자로명확히식별되기때문에, 특정인물에해당하는 URI를가지고링크드데이터클라우드에있는해당인물과관련된모든정보를실시간으로끌어올수있다. FAST 기술과링크드데이터가결합된다면, 특정인물에대한관련정보와생체신호로부터획득한감성정보를증강현실로가시화할수있고, 결국그림 11과같이특정인물을확인하고추적하는서비스가가능해진다. 빅브라더라는부정적인키워드가빅데이터시대에접어들면서자주등장하는이유가여기에있다. 클라우드컴퓨팅발전역시빅브라더의출현에일정역할을할것으로보인다. 2011년 12월에등록된아마존의미국특허 8,073,460 ** 은클라우드서비스를통해확보한빅데이터를이용하여사용자들의최근동 9) http://richard.cyganiak.de/2007/10/lod/lod-datasets_2010-09-22_c olored.html 11) http://patents.com/us-8073460.html ( 그림 11) 증강현실과결합된소셜정보확인서비스 *** 선을분석하고다음목적지를예측할수있는방법을제시하고있으며, 구글은전세계에 NFC (Near Field Communication) 결제단말기와클라우드서비스를무료로배포 / 공개하고, 대신결제정보를이용하여광고에활용하려는시도를하고있다. 이공계교육이미래사회에대한조망과고민없이단지기술습득과연구개발을위한능력배양에만치우친다면, 신기술도래를가속화시킬수있을지는모르지만향후심각한문제로대두될것으로예상되는윤리적이슈들에대해제대로판단할수없는능력을갖추기어렵다. 공항에도입된전신스캐너데이터의유출이나구글스트리트뷰를통해잘못공개된개인사생활문제들이종종보도자료를통해알려지기도하지만, 빅데이터시대가본격화되면이런문제들은빙산의일각에불과할수도있다. 다양한인문사회적소양확보를통한다학제적인재배양을목표로삼아야하는이유가여기에있다. 3. 결론 본고에서는급격히발전하는기술과폭발적으로증가하는빅데이터가가져올영향과이러한시대에현명하게대응할수있는인재를양성하기위해고려해야할점들을살펴보았다. 다학제적인재양성은이 10) http://infosthetics.com/archives/2010/05/the_future_of_data_ove rload_as_envisioned_for_2020.html 52 2012. 9.
공계기피현상에대한단기적인해답이자균형잡힌가치관을가지게할수있는장기적인대응방안이될수있다. 더이상기술중심의인재로는그간의경험을뿌리째흔들수있는빅데이터시대에효과적으로대응하기힘들다는사실을인지하고기계가가질수없는감성적사고가가능한이성적인재양성에힘써야할것이다. 참고문헌 [1] 한국정보화진흥원, 新가치창출엔진, 빅데이터의새로운가능성과대응전략, IT & Future Strategy 제18호, 2011. [2] Gartner's 2012 Hype Cycle for Emerging Technologies Identifies Tipping Point Technologies That Will Unlock Long-Awaited Technology Scenarios, http://www.gartner.com/it/page.jsp?id=2124315, 2012. [3] M. Loukides, What is Data Science?, O Reilly Radar, http://radar.oreilly.com/2010/06/what-is-data-science. html, 2010. [4] J. Kim, S. Lee, J. Lee, M. Lee, and H. Jung, Design of TOD Model for Information Analysis and Future Prediction, In Journal of CCIS264, T. Kim et al. (Eds.): U- and E- Service, Science and Technology, 2011. [5] H. Jung and W. Sung, Towards Discovering and Predicting Technical Opportunities and Technology Trends, In Proceedings of the 3rd International Conference on Data Mining and Intelligent Information Technology Applications, 2011. [6] 빅데이터시대에기대되는 IBM 왓슨의분석기술, http://smarterplanet.co.kr/2012/01/09/watsonanalytics/ 저자소개 정한민 (Hanmin Jung) 1992 년 POSTECH 학사 1994 년 POSTECH 석사 2003 년 POSETCH 박사 1994 년 ~2000 년 ETRI 선임연구원 2004 년 ~ 현재한국과학기술정보연구원실장 / 책임연구원 2005 년 ~ 현재과학기술연합대학원대학교겸임교수 / 부교수관심분야 : 시맨틱웹, 빅데이터, 자연어처리, HCI 송사광 (Sa-kwang Song) 1997 년충남대학교학사 1999 년충남대학교석사 2011 년 KAIST 박사 1999 년 ~2000 년 ETRI 연구원 2000 년 ~2003 년서치캐스트 팀장 2005 년 ~2010 년전자통신연구원선임연구원 2010 년년 ~ 현재한국과학기술정보연구원선임연구원관심분야 : 시맨틱웹, 텍스트마이닝, 빅데이터, 자연어처리, 정보검색, HCI 한국인터넷정보학회 ( 제 13 권제 3 호 ) 53