최근에 빅데이터 (Big data) 라는용어가많은언론과매체, 그리고다양한기관에서화두로떠오르고있다. 각부처와산하기관에서는 빅데이터 관련연구를진행하고있으며, 많은기업체들은빅데이터전담부서를신설하는등빠르게대응하고있다. 이러한현상은빅데이터가많은것을해결해줄것이라는기대감때문일것이다. 그럼빅데이터가무엇이고어떠한역할을할수있을것이기에이렇게환호하고있는것인가? 현재, 우리나라를포함한세계는경제침체, 많은대기업들의부도또는극심한구조조정, 그에따른실업률증가등의어려움을격고있다. 사회가발전할수록예측할수없는수많은일들이생기고사라지고있으며, 많은사람들은이러한미래에대한불확실성으로인하여불안감을가지게된다.
현재수많은정보가인터넷, SNS, 정보시스템등을통해생성되고있다. IDC 는 2011 년도전세계의디지털정보량은약 1.8 제타바이트 1) 를넘어섰고특히데이터의증가량이 2 년마다 2 배씩증가할것이라전망했다. 2) 이러한정보의증가량에따라기존의 DW 기반등의플랫폼으로는수집, 저장, 관리하기어렵고, 이를해결하기위해서는비용의부담이너무커질것이라는문제가생긴다. 또한소셜네트워크데이터이외에도이메일, 동영상등과같은비정형정보들이향후 10 년동안생성되는전체데이터의 90% 에달할것으로전망 3) 함으로인하여현재이용되고있는정형화된데이터를분석하는기법으로는많은정보를활용할수가없다. 이러한시대에 빅데이터 는기술적으로나가치적으로나많은해법방안을제시해주고있다. 데이터를수집하고관리하는기술적인해결방안은하둡 (Hadoop) 과같은분산데이터처리플랫폼의등장으로가능해졌다. 이들은대용량의데이터를저장하기위해새로운시스템방식을도입하는것이아닌기존의시스템들을필요한만큼추가하기만하면되기때문에비용의절감이크면서도병렬처리로인해처리속도또한빠르게하고, 대용량데이터의패턴도빠르게찾을수있는기술도추가할수있도록하였다. 이렇듯빅데이터의플랫폼은고급분석, 처리속도, 확장성등을지원할수있게구성되었다. 빅데이터는다양한분야와연계하여큰가치창출방안을제시하고있다. 많은언론보도로오바마대통령재선전략에빅데이터활용이크게작용하였다는것은잘아려진사실이다. 재선전략에투입된빅데이터전문인력은통계학자, 예측모델개발자, 데이터마이닝전문가, 수학자, 소프트웨어엔지니어, 블로거 (blogger), 인터넷광고전문가, 온라인조직관리자등의다양한분야의 100 여명이었다. 전문인력이아닌관련인력까지고려하면엄청난인력이투입되었을것이라고추정된다. 이렇듯빅데이터는새로운가치창출에기여하고, 이로인한인력투입이필요하게되며, 다양한분야가연계되기때문에파급효과도매우클것이라기대할수있다. 실제로많은기업의연구보고서를살펴보면향후빅데이터로인해엄청난정보가치에따른수입을창출할것이라고제시하고있다. 이러한의미를볼때빅데이터는방대한데이터만을의미하는것은아니다. 대용량데이터를어떻게수집하고분석해서가치있는정보를찾아활용하는지에대한방안까지를의미한다. 빅데이터를적용하여가치있는정보를찾기위해서는, 먼저어떠한결정을내릴때특정인의불분명한감에의해서가아닌순수한데이터에근거하여분석하여야한다는것이다. 두번째는어떤현상이발생한후사후해결을위해서적용하는것이아닌사전에데이터를분석하고예측모델설계를통하여예방또는대비할수있어야한다는것이다. 마지막으로고려할것은전체가아닌개인에주목한다는것이다. 기존의정책들이전체 ( 집단 ) 에맞춰서행하여졌다면빅데이터는대용량의데이터를분석하여개개인의성향을파악하고특성별로유형화해서세부유형별로맞춤형해결책을제시하여야한다는것이다. 4)
전통적인정의에서의빅데이터는구글과같은대기업이나 NASA 와같은큰연구기관의프로젝트에서활용분석하는대용량의데이터를일컫는말이었다. 그러나최근에는 SNS, 인터넷, 웹을통하여데이터가기하급수적으로생기고활용할수있기때문에모두가빅데이터와연관된시대가되었다고할수있다. 그럼우리나라문화예술분야에서의빅데이터는어떠한수준일까? 전통적개념으로볼때빅데이터를보유하고있거나활용할준비는아직안되었다는것이정확한진단일것이다. 방송통신까지고려할경우 2012 년 6 월방송통신위원회가발표한 빅데이터시대의서비스활성화방안 추진이유일하며, 이도지금이아닌향후에활용할수있는것이다. 문화예술은다른분야와다른특징이있다. 창작, 공연등의예술가의창조정신과혼, 열정등을포함하는정신적세계를대중들에게연결한다는것이다. 이에대중들은문화예술을접하고나서받은감동또는느낌을서로공유하며, 때로는비판하고때로는감동표출하게된다. 이러한표출은대부분블로그, 트위터, 페이스북등의 SNS 에서이루어지고있으며, 스마트폰의등장으로더욱활발하게진행되고있다. 이러한관점으로볼때문화예술분야의빅데이터는온라인상에서이루어지는데이터를수집하고활용해서지식을생성하고, 생성된지식을바탕으로대응방안을마련하거나변화예측을위한가치창출을하는정보화기술이라할수있다. 현재문화예술분야에서활용하고있는빅데이터는아직초기단계에불가하다. 데이터를수집하여집계된결과를제시하는수준인것이다. 그러나향후빅데이터정보활용기반이갖추어진다면간단한정보조차도엄청난정보로활용될수있다. 이러한이유가빅데이터에주목하는이유일것이다. 우리들이현재많이활용하고있는빅데이터기술을살펴보자. 관심있는예술가와작품을인터넷상에서키보드를두드리면자세한신상정보, 작품설명, 공연및관람정보가나타나는것은물론, 예술을접한사람들의평가와추천등의정보도같이얻을수있으며대중들의관심의정도까지파악할수있다. 이러한엄청난검색데이터는 빅데이터 가되며, 각종검색빈도에다양한연결정보를제공해주고있다. 이러한예로는다음과같은것이있다. 최근에우리는세계적으로한류열풍이 K 팝을중심으로불고있다는것을많은언론매체를통하여알고있다. 뉴스를통하지않고서도그정도가어느정도인지앞으로도지속될것인가를빅데이터를통하여알수있다. 구글검색빈도분석도구인 구글트렌드 (Google Trends) 5) 를사용해분석해보면 13 년 2 월 16 일현재소녀시대, 슈퍼주니어와같은가수들이인기가높은것으로나타났으며, 강남스타일 로유명한싸이를제외한한류스타들은주로동남아지역에서만인기를얻고있는것으로나타나한류의가능성과한계도분명하게나타난다. 한가지희망적인것은향후검색전망치가양호하다는것이다. 6) 라는분석을할수있게된다.
이렇게실시간각나라들의검색결과를한곳에수집, 저장, 분석하여각자의관심사항을선택하여볼수있도록제공한다는것은대단한일이라할수밖에없다. 많은사용자들이자신의책상앞에서키보드만을두드려, 많은관심사항을수시로체크하고변화사항을점검해원인을분석하여향후전망또는대응방안을수립할수있게되었다는것이다. 그러나현재사용하는빅데이터는검색결과를순위매겨제공하는정도에불과하기때문에많은문제점이있는것또한사실이다. 앞에서살펴본 구글트렌드 는구글에서검색된결과만을제공하기때문에구글검색이검색사이트로서그나라에서얼마만큼점유하고있는지에따라분석결과가달라질수있다는것이다. 또한 IDC 는기하급수적으로증가하고있는데이터의 75% 가량이복사된데이터라는조사결과를발표하였는데, 이는순간적인이슈사항, 파워트위터 ( 블로거 ), 댓글을많이다는특정사람들의의견에의하여분석결과의변질이생길수있다는것을의미한다.
앞에서잠깐언급했듯이빅데이터를활용할때크게두가지를고려하여야하는데, 첫번째는많은연구분야의기술과인력이투입되기때문에비용이많이들게된다는점이다. 그런이유로가치창출을고려하지않은빅데이터는상상할수없는것이다. 두번째는엄청난양의데이터를분석하여결과를도출하여제공하기때문에전체또는집단이아닌개인하나하나에맞춤정보를제공한다거나, 현재가아닌미래의불확실성을예방 대비할수있는예측정보를제공하는것이다. 이러한것을고려하여문화예술분야의활용방안예를한번생각해보도록하자. 문화예술은사람들의마음을편안하게해주거나, 기분을전환시켜주는서비스산업의일부라고할수있다. 특히대중예술은대중들의선호도와부합될때더욱빛을발하고가치가있을것이다. 온라인상의대중들의불평과불만등을분석하여공연시설, 전시시설등의인테리어시설을구성하고찾아오는관객들하나하나맞춤서비스를제공할수있다면문화예술도더많은사람들과호흡을같이할수있을것이다. 더욱이향후대중들의선호도또는사회의변화를예측하여대응할수있다면문화예술산업은발전할수밖에없을것이다. 간단한예를들어보면, 문화예술을거의매일처럼접하는사람은직업적인사람외에는그리많지않을것이다. 그러한이유로, 가족이같이공연을보러가고자할경우, 어떤공연 ( 연극, 영화, 무용등 ) 을볼지고민을하는사람들은적지않을것이다. 이때가족의구성원 ( 아빠, 엄마, 아들, 딸등 ) 의나이와좋아하는분야등을입력했을때 SNS 나인터넷상의정보를통해알맞은공연들의다양한정보 ( 내용과평가등 ) 를제공과예매사이트와연결시켜주고, 예매를했을경우스마트폰과의연동을통하여찾아오는길, 주차안내, 주변의맛집과관광등의정보를제공한다면많은사람들이편리하고만족감을느낄것이다.
빅데이터를접근하는또하나의전략은 organic data 7) 와 designed data 8) 의접목이다. organic data 는정보량은많으나데이터의출처나특정대상이나집단들에대하여편중될수있어잘못활용될때많은부작용을줄수있으며, designed data 는신뢰할수있는정보를제공하지만제공하는정보량은부족하다. 그러므로설문조사등을통한 designed data 를기반으로온라인상의 organic data 를매칭 (matching) 하는방안을연구한다면지금사용하고있는검색기반의빅데이터의활용의폭은신뢰를기반으로매우커질것이다. 많은전문가들의논문이나연구보고서들은빅데이터의도입과활용이중장기적으로기업의비즈니스전반에걸쳐새로운가치를창출할것이라는전망에는매우긍정적이다. 그러나빅데이터를활용하여단기적인성과를낸다는것은일부 IT 기업들외에는대부분동의하지않을것이다. 이는빅데이터에대한환상만을가지고막연히접근하면많은투자에의해큰손실만생길것이라는점을시사한다. 특히문화예술분야의빅데이터는스마트기기와인터넷등을통한온라인상의데이터를많이활용할수밖에없는데, 그데이터형태도일반데이터와확연히다르다는특징이있다. 지금까지사용되는데이터는일정한형태가있는정형화된데이터인데, 문화예술분야에서사용되는데이터는정형화된데이터는물론이고, 이미지 ( 그림, 사진등 ), voice( 음원, 방송등 ), 영상과같은비정형화된데이터다수를차지한다. 이러한이유로문화예술분야에빅데이터를적용하는데어려움이있을수밖에없는것이다. 빅데이터를활용하여정보를얻기위해서는다양한분석방법이적용되어야한다. 빅데이터의분석기법은데이터마이닝, 텍스트 / 오피니언마이닝, 소셜네트워크분석, 이미지마이닝등이있는데, 이러한분석기법을사용할스킬을배우기위해서는오랜시간의수련과학습이필요하다. 그러나빅데이터의분석의진짜어려움은비정형화된데이터에적용하는것이다. 비정형화된데이터에분석기법을적용하는것은하나의분석모델을개발하는것과같은일이라할수있기때문이다.
현재빅데이터를활용하기위해데이터를수집, 저장, 관리할수있는기술적인인프라는어느정도구축되어있는것도사실이다. 그러나이러한데이터를적절하게조정하고분석하여새로운가치를창출할수있는정보를추출하는모델을만드는것은사람이할수밖에없다. 그런데이러한전문인력은현재매우부족한실정이다. 특히문화예술분야로축소하여살펴보면, 문화예술을이해하면서빅데이터를분석및모델설계를할수있는전문인력은현재한명도없지않을까조심스럽게단언하게된다. 빅데이터가해줄수있는것은정말많을것이다. 그러나지금현재의단계에서는빅데이터는아직환상이라고할수밖에없다. 많은활용사례는아직까지 IT 기술에의한기초수준에불과하기때문이다. 이러한빅데이터에대한환상을현실로바꾸기위해서는두가지가충족되어야한다. 첫번째는빅데이터에대한활용전략이다. 향후기하급수적으로쏟아지는모든데이터를다분석할수는없기때문에어떠한데이터를수집하여어떠한가치창출을할지를먼저결정하고나서, 가치창출과이를실현하기위해어떠한투자를해야할지를계획하고, 투자대비효과를분석한후실행에옮겨야한다는것이다. 그렇지않으면막대한예산만투자하고얻는정보량은기대이하일것이기때문이다. 두번째는문화예술분야의빅데이터분석 / 모델전문가양성이다. 빅데이터전문가가없다면빅데이터는그냥많은데이터, 감당할수없어수집하고저장하는데비용만드는가치없는데이터일뿐이다. 글을마무리하면서문화예술분야의빅데이터성공을위해서는단기적인효과를보기위한전략이아닌, 반드시장기적인전략을기반으로추진되어야한다는것을강조하고자한다. 이를위해서는빅데이터모델하나하나에활용전략이세워져야하고, 이를실행할수있는전문인력양성이우선시되어야하는것은필수적이다. 주석 1) 1 제타바이트는 1 조 8 천억기가바이트 2) 전승우, 빅데이터에대한기대와현실, LG Business Insight, pp 2~13, 2012 3) 새로운미래를여는빅데이터시대, 한국정보화진흥원빅데이터전략연구센터 4) 박주영, 직권의마음을읽는창, SERI 경영노트제 177 호, 2013 5) 구글트렌드는특정키워드에대한사용자들의관심도를검색빈도로보여주는분석도구로일부검색어에대해서검색빈도가앞으로더많아질지적어질지를예상한결과도제공한다. 6) 조선비즈 2013 년 2 월 17 일자기사 7) 온라인상에서생성된자연그대로의데이터 - 트위터, 페이스북, 인터넷쇼핑, RFID 와같이마우스클릭이나센스등을통하여생성되는데이터 8) 계획하에생성되는데이터 - 표본설계를통한조사통계데이터, 실험설계에의한실험실데이터등이있음