특집 1 언어자료의보고, 빅데이터 이기황 다음소프트 1. 들어가는말 이른바빅데이터의시대가도래하였다. 거대정보기술 (IT) 기업가운데하나인아이비엠 (IBM) 이최근조사한바에따르면, 매일 2.5엑사바이트 (1엑사바이트 =1,000,000테라바이트 ) 의데이터가생성되고있다. 더욱놀라운사실은전세계에서폭발적으로생성되는데이터의 90% 가최근 2년이내에생성되었다는것이다 (IBM, 2015). 이렇듯방대한양의데이터는미세먼지와오존의농도를측정하는센서, 카카오톡과같은메신저서비스, 주식거래소등다양한원천에서쉴새없이생성되고있다. 최근빅데이터가특별한주목을받는이유는그규모때문만은아니다. 고도로산업화된오늘날우리가삶속에서겪는여러가지문제를해결하는데성공적으로사용되고있기때문이다. 정부주도의빅데이터활용촉진기관인 K-ICT 빅데이터센터 (https://kbig.kr) 의 빅데이터글로벌사례집 ( 한국정보화진흥원, 2015, 2016) 에서는고객관리, e-비즈니스, 의료, 제조, 재난 공공등의빅데이터활용분야를소개하고있는데이는수많은빅데이터의성공적인적용사례중극히일부에불과하다. 또한최근많은화제를몰고온인공지능바둑에이전트 알파고 (AlphaGo) 는대규모데이 9
터의유용성을극명히드러내었다. 주목할것은빅데이터의 80% 이상이텍스트, 음성, 영상등구성요소의구조적속성을명시적으로규정하기어려운반정형, 혹은비정형데이터로구성되어있으리라고추정된다는점이다 (Economist, 2015). 여기서텍스트라함은컴퓨터로처리될수있는형태로저장된글, 곧언어자료를뜻한다. 실제로앞서소개한빅데이터의성공적인적용사례가운데상당수는텍스트자료의분석을통해이루어진것이다. 이와같은상황에서우리는빅데이터, 특히텍스트로이루어진빅데이터를언어의탐구에활용할수있는가능성에대하여고려하게된다. 언어연구에있어서대규모언어자료인말뭉치를이용하는것은더이상낯선일이아니다. 그러므로빅데이터를언어연구에활용할수있는방안에대하여고민하는것은매우당연한일이다. 1) 이글에서는빅데이터의개념과특성을언어연구와연관지어살펴보고빅데이터를언어연구에활용하기위한절차를기술적요건과함께소개하고자한다. 그러나자세한기술적인사항을깊이소개하는것은이글의범위를벗어나는일로판단되어개략적인설명에그쳤다. 2) 또한빅데이터를언어연구에활용하는일은아직걸음마단계에있으므로명확한방향을제시하기어려운부분도존재한다. 1) 언어자료가언어연구에유효한가에대해서는논쟁이계속되고있다. 촘스키는최근진행된면담에서제기된빅데이터의유효성에관한질문에답변하면서잘설계된실험을통해축적된데이터의사용에대해서는긍정적으로평가하였으나빅데이터의유효성은여전히매우부정적으로평가하였다 ( 뉴스센터, 2016). 2) 빅데이터를언어연구에활용함에있어서적절한기술의도입과활용은필수적이다. 최근말뭉치언어학, 전산언어학등의연구가비교적활발히이루어지며기술의도입과활용이예전에비해활발해진것은사실이지만빅데이터를사용하기위해서는한번의도약이더필요하다. 10
2. 빅데이터란무엇인가? 2.1. 빅데이터의정의 빅데이터 라는말은이제결코생소한용어가아님에틀림이없지만, 어떠한데이터가빅데이터인지에대해서는명확히규정하기가쉽지않은것이현실이다. 3) 그럼에도불구하고다음에보이는가트너 (Gartner) 의정의는가장포괄적이면서도고전적인빅데이터의정의로널리인용된다. 빅데이터의정의 (Gartner) Big data is high-volume, high-velocity and/or high-variety information assets that demand cost-effective, innovative forms of information processing that enable enhanced insight, decision making, and process automation. 그림 1 빅데이터의기본속성 : 3V (https://commons.wikimedia.org/wiki/file:bigdatavs.png). 3) 빅데이터의소개자료는이루나열하기힘들정도로많다. 다소비즈니스편향적이기는하지만 IDG(2012) 는빅데이터에대한간략한이해에많은도움이된다. 한국소프트웨어기술인협회 (2016) 는교과서로활용될수있도록단권으로구성된개론서이다. 11
위정의의핵심은이른바 3V로알려진빅데이터의기본속성에있다. [ 그림 1] 은빅데이터의기본속성 3V를요약적으로보여준다. 이들속성에대하여차례로살펴보자. 첫번째 V는 규모 혹은 용량 을뜻하는볼륨 (Volume) 이다. 빅데이터의 빅 은규모가크다는빅데이터의속성을글자그대로드러낸다. 데이터규모가데이터의가치를결정짓는유일한속성은아니지만어느정도의질이보장된다면규모가큰데이터에서추출된정보의신뢰성이상대적으로높다는것은일반적으로알려져있다. 그러므로데이터에기반을둔연구에서는가능한한규모가큰데이터를확보하기위한노력을기울인다. 다만데이터수집, 저장, 처리등의공정에서맞닥뜨리게되는현실적한계는무시할수없는문제이다. 그런데최근컴퓨터하드웨어와소프트웨어의급격한발달로이한계가급속히무너지고있다. 예를들어, 2003년인간게놈프로젝트를통해 30억개의염기쌍해독을하는데에 13년간총 30억달러의비용이들었는데현재는약 3.2기가바이트용량의인간게놈서열을 2시간내에 1,000달러의비용으로해독할수있다고한다 (IDG, 2012). 그렇다면얼마나규모가큰데이터가빅데이터인가? 아이비엠이 2012년에 1,000명이넘는관련분야전문가들을대상으로실시한설문결과에따르면절반이넘는응답자가적어도 1테라바이트는넘어야빅데이터라고부를수있다고하였다 ( 슈렉외, 2012). 1테라바이트는디브이디 (DVD) 220 장의저장용량과맞먹는규모이다. 그런데서두에언급한대로매일매일생성되는데이터가엑사바이트급인오늘날테라바이트급이아니라페타바이트급데이터도그리희귀하지는않다. 앞서언급한대로데이터의규모는기본적으로상대적인개념일수밖에없다. 점점더많은데이터가생성될것이고이를저장할수있는저장매체의용량도점점더커질것이다. 또한가지데이터규모의상대성에 12
영향을미치는요소는데이터의종류이다. 예를들어, 같은용량의데이터라고해도그데이터가데이터베이스에저장된정형데이터인지동영상데이터인지에따라전혀다른데이터처리방법이요구되므로, 빅데이터의정의는특정한유형의데이터가사용되는산업과응용분야에따라달라진다. 결국데이터의규모는중요한빅데이터의정의요소가운데하나임에틀림없지만어느정도규모가빅데이터에해당한다고규정하는것은의미가없다. 따라서앞서보인가트너의정의와같이 혁신적인형태의자료처리방법이필요할정도의규모 라고정의하는것이합리적이라고결론지을수있다. 이러한생각을적극적으로확장하면, 규모로는스몰데이터이더라도그데이터를바라보는새로운관점과시각이동반된새로운방식의자료처리와해석이더해진다면빅데이터로볼수있을것이라는주장도가능할수있다. 두번째 V는 속도 를뜻하는벨로시티 (Velocity) 이다. 빅데이터는그규모가클뿐만아니라매우빠른속도로생성되는데이터를말한다. 앞서보인바와같이빅데이터는다양한원천으로부터생성되는데이들원천의공통된특징은데이터생성속도가매우빠르다는것이다. 기상정보측정장치는시시각각으로변하는기상정보를측정하여기록하는데그데이터생성속도는오로지미리정한데이터측정사이클에의해결정된다. 미국의대형마트체인인 월마트 에서는시간당 100 만건이상의거래정보를처리한다고한다 ( 쿠키어, 2010). 소셜네트워크서비스 (SNS) 에서생성되는메시지역시매우빠른속도로생성된다. 우리는소셜네트워크서비스를통하여엄청난속도로소식이퍼져나가는것을여러번목격한바있다. 소식의확산은바로데이터의생성에의해이루어지는것이다. 오늘날스마트폰으로대표되는휴대가능한기기의확산으로개인화된데이터가엄청난속도와양으로생성되고있음은널리알려진사실이다. 13
이렇듯데이터의엄청난대응속도에반응하여데이터의분석또한실시간으로이루어져야하는요구가발생하였다. 실시간교통안내시스템은그러한예의하나다. 지속적으로수집되는교통량과통행정보를바탕으로한, 실시간으로최적화된교통안내를할수없는시스템은아무런쓸모가없다. 유용한정보를제공하는빅데이터의실시간분석을위해서는새로운기술의개발이필수적으로요구된다. 그런기술의목표는고속으로생성되어사라져갈수밖에없는데이터로부터실시간으로유의미한정보와지식을산출해내는것이다. 세번째 V는 다양성 을뜻하는버라이어티 (Variety) 이다. 역시앞서언급한대로빅데이터는다양한원천으로부터생성되기에다양한형태를지닌다. 과거컴퓨터를이용한데이터처리에있어서처리대상은각종측정치, 계산값등을기록한수치데이터가주종을이루었으며, 텍스트가포함되었다고해도가로와세로가잘구성된목록형데이터, 다른말로정형데이터가대부분이었다. 그런데컴퓨터의활용분야가확대되면서전자우편, 소셜미디어포스팅과같은비정형텍스트, 그리고방대한음성과영상데이터가축적되고있다. 글머리에서언급한바와같이이러한반정형, 혹은비정형데이터가오늘날생성되고있는데이터의 80% 이상을차지할것이라추정되고있다. 다양한형태의데이터에대한관심은빅데이터가유행하기전에도존재하였다. 그런데다양성이빅데이터의정의요소로까지중요해진것은최근의기술적진보와무관하지않다. 예를들어, 최근이미지처리기술이급격히발전하여안면인식을통해고객의성별과나이등을파악하고이를마케팅에활용하는일이현실화되기시작했다 ( 간도미와하이더, 2015). 즉종전에는축적되기는하여도제대로활용할수없었던, 특수한처리기술이요구되는다양한형태의데이터가풍부하고도유용한정보를제공할수있는소중한자원의지위를갖게되었다. 14
이상으로가트너의 빅데이터의정의 에나타난 3V, 즉 볼륨 (Volume), 벨로시티 (Velocity), 그리고버라이어티 (Variety) 에대하여알아보았다. 이들속성은빅데이터에만있는고유속성이라기보다는빅데이터라는 현상 을이해하기위한상대적인속성으로이해해야한다. 이상대적속성을드러내는핵심요소는혁신적인데이터처리와해석방법에있다. 한편위의 3V에더하여몇몇기업들이다음과같은 V를추가로제시하였다 ( 간도미와하이더, 2015). Veracity: 아이비엠 (IBM) 이추가한네번째 V로 진실성 을뜻한다. 이는데이터원천의특성상어느정도존재할수밖에없는데이터의불확실성, 비신뢰성등을지적한것이다. 특히소셜미디어등에나타난소비자의의견등은어느정도의불확실성을가질수밖에없다. 그러나이러한데이터의유용성자체를부정할수는없다. Variability: 새스 (SAS) 는빅데이터의추가속성으로 variability와 complexity, 즉 가변성 과 복잡성 을제시하였다. 가변성은데이터생성속도가변할수있음을지적한것이고복잡성은데이터가단일원천으로부터가아니라여러원천이복잡하게뒤엉켜있는상태에서생성될수있음을지적한것이다. Value: 오라클 (Oracle) 이추가한것으로 가치 를뜻한다. 오라클에의하면빅데이터에포함되는원본데이터들은상대적으로규모에비해가치가적다. 그런데이와같이 저가치밀도 의데이터를대량으로분석했을때에큰가치가창출될수있다는것이다. 15
2.2. 소셜빅데이터앞서빅데이터의 80% 이상이비정형데이터로추정되며, 이가운데특히텍스트데이터가매우중요한위치를차지하고있음을언급하였다. 빅데이터를구성하는텍스트데이터의주요원천은소셜미디어이다. 4) 소셜미디어는인간의사고와행위를인간스스로기록하여생성하는장이라는점에서특수한가치를지니고있다. 사용자들은소셜미디어를통해연결되어온라인환경에서새로운공동체를형성하고서로의생각과일상을공유하며그기록을텍스트로남긴다. 이와같은현상은온라인공동체의형태를지닌온라인카페나게시판에서도관찰된다. 나아가포털서비스의포스팅, 뉴스기사등에대한댓글또한온라인공간에서의미디어소비와여론생성현장을고스란히기록하고있다. 위와같은배경에서미디어, 혹은플랫폼으로서의소셜미디어와빅데이터현상이결합된소셜빅데이터라는개념이등장하였다 ( 송길영, 2012, 2015; 벨로-오르가즈외, 2016). 언어자료로서의빅데이터를이야기할때소셜빅데이터의개념을다루지않을수없다. 그러므로이글에서빅데이터라함은곧소셜빅데이터를가리킨다. [ 그림 2] 는벨로- 오르가즈외 (2016) 에서보인소셜빅데이터의개념을나타내는그림이다. 벨로-오르가즈외 (2016) 가 [ 그림 2] 를통해특히강조하고자하는것은소셜빅데이터분석이근본적으로학제적이라는것이다. 이논문에서는관련된분야로데이터마이닝, 기계학습, 통계학, 그래프마이닝, 정보검색, 언어학, 자연언어처리, 시맨틱웹, 온톨로지, 빅데이터컴퓨팅을나열하고있다. 즉수치데이터와정형데이터중심의일반적인빅데이터에비해비정 4) 소셜미디어는 개방, 참여, 공유의가치로요약되는웹 2.0 시대의도래에따라소셜네트워크의기반위에서개인의생각이나의견, 경험, 정보등을서로공유하고타인과의관계를생성또는확장할수있는개방화된온라인플랫폼 으로정의된다 ( 위키피디아 ). 소셜미디어에는블로그, 소셜네트워크서비스, 위키, 마이크로블로그등이포함된다. 16
형의텍스트중심이되는소셜빅데이터의분석에서는언어학, 자연언어 처리분야등의참여가필수적으로요구되는것이다. 바꾸어말하면소셜 빅데이터야말로언어학의연구대상이라고할수있다. 그림 2 소셜빅데이터의개념 ( 벨로 - 오르가즈외, 2016) 3. 언어자료로서의빅데이터 3.1. 균형말뭉치와모니터말뭉치 언어연구를위한대표적언어자료인말뭉치는여러가지기준에따라 다양한유형으로분류할수있다. 그가운데하나는원자료의수집방식에 17
따라말뭉치를균형, 혹은표본말뭉치와모니터말뭉치로구분하는것이다 ( 맥에너리외, 2011). 균형말뭉치란탐구대상이되는언어전체, 즉모집단의표본자료로서의역할에충실하기위해, 즉대표성을극대화하기위해말뭉치에포함되는원자료들을다양한매체, 장르에걸쳐선정하고이들의포함비율을적절히조절하여구성한말뭉치를말한다 ( 맥에너리외, 2006). 그러므로균형말뭉치는조심스럽게준비된원칙에따라한번구성되면그내용과규모가고정된다. 이에비해모니터말뭉치는시간이흐름에따라규모가점점커지는말뭉치를말한다. 원자료의추가는연간, 월간, 그리고일간으로이루어질수도있다. 말뭉치의구성을미리설계할수없으므로포함된원자료의균형성을보장하는것은불가능하다. 모니터말뭉치의개념은싱클레어 (1991) 에서처음주창된것으로균형말뭉치의폐쇄성이살아있는언어현상의발굴, 그리고매우드물게발생하지만유의미한언어현상의관찰에적합하지않다는점을지적하며고안된것이다. 맥에너리외 (2006) 에서는모니터말뭉치의강점으로언어변화의관찰이가능하다는점을들면서신어의등장과사멸등에대한연구를예로들었다. 또한모니터말뭉치가매우오랜기간축적되면문법의변화등도추적이가능할것이라고보았다. 그러나모니터말뭉치는균형성을보장할수없으므로신뢰도가높은통계정보의추출이불가능하고내용과규모가고정되지않으므로연구결과의비교가불가능하다는문제점을지적하였다. 3.2. 말뭉치로서의웹 모니터말뭉치와유사한개념으로말뭉치로서의웹이있다 ( 킬가리프와 그레펜슈테트, 2003). 현재주어진가장방대한언어자료임에틀림없는 18
웹을언어연구에활용하려는시도이다. 웹에존재하는모든언어자료를오프라인사용을위해저장하는것은불가능한일이므로이접근에서는구글등의상용검색엔진, 그리고언어연구를위해특별히고안된인터페이스인 웹콥 (WebCorp) ( 르누프, 2003) 을사용한다. 말뭉치로서웹을사용하는가장큰장점은역시방대한규모로부터온다. 항상그러한것은아니지만보통의균형말뭉치에서그용례를찾기어려운비교적희귀한언어현상의경우에도웹에서는상당히많은건수의용례를찾을가능성이있다. 또한모니터말뭉치의경우와마찬가지로새로이생성되는데이터의반영이매우빠르므로새로이등장한단어나표현의추적에도매우유용하다. 그러나말뭉치로서웹을사용할때에는검색엔진등의제한적인방법을사용할수밖에없다는근본적인한계에서벗어나기어려워그용도가제한될수밖에없다. 또한검색엔진의검색결과수의표시가어떤과정을통해생성되는지알수없기때문에안정적인통계데이터를얻을수있다는보장을하기어렵다. 3.3. 말뭉치로서의빅데이터위의원자료수집방식에따른말뭉치의유형분류로보면빅데이터는모니터말뭉치의부류에속한다. 한편웹에서생성된데이터로구성되었다는점에서말뭉치로서의웹의성격도어느정도지니고있다. 다만빅데이터는분석을위해모든데이터를데이터원천으로부터수집, 저장하여사용하기때문에말뭉치로서의웹이갖는한계는없다. 말뭉치로서빅데이터가갖는첫번째가치는그규모이다. 글쓴이의일터에서경험한바에따르면대표적인마이크로블로깅서비스인트위터에서생성되는한국어작성트윗은하루에최소 500만건에이르며대표적인 19
블로그서비스인네이버블로그에서생성되는블로그포스트는하루최소 50만건에이른다. 이규모는물론말뭉치로서의웹의규모에는훨씬미치지못하지만그어느한국어말뭉치보다도규모가크다. 5) 물론아무리규모가크다고해도모든한국어사용자가트위터, 혹은블로그서비스를이용하는것이아니며여기에한국어의양상이모두반영되어있다고할수는없다. 그럼에도불구하고한국어의언어적특성에대한탐구에있어서기존말뭉치가주지못하는풍부한용례를제공할수있다. 또한맥에너리외 (2006) 가모니터말뭉치에대하여지적한대로빅데이터는균형성과대표성에있어서문제가있다고볼수있다. 균형성과대표성은통계적유의성에기반을둔일반적인통계적연구방법, 즉모집단으로부터추출한비교적작은규모의표본에서통계적유의성을바탕으로결론을도출하고이를모집단으로일반화하는연구방법에서제기되는문제이다. 그런데모집단은아닐지라도모집단의상당부분을포함하는빅데이터에있어서는통계적유의성이그렇게큰의미를갖지못한다 ( 간도미와하이더, 2015). 그러므로빅데이터로부터통계적정보를얻기위해서는기존의통계적방법이아닌새로운방법의개발이요구된다. 6) 대규모말뭉치로서빅데이터가지니는진정한가치는데이터의원천인소셜미디어의특성에서찾아야할것이다. 예를들어, 빅데이터는언어사용의맥락과언어공동체에대한새로운시각을제공할수있을것이다. 빅데이터에포함된언어자료를생성한사람들은넓게보면한국어라는특정한언어를사용하며이시대를살아가는언어공동체의일원이다. 그러나자료생성자들은지역, 직업, 연령, 관심사등에따라각자다른맥락에서한국어를사용한다. 5) 한국어트윗과네이버블로그포스트의일일생성량은글쓴이의일터에서측정한것으로실제생성량과는차이가있을것이다. 6) 특히최근에는베이지안통계기법의활용이여러분야에서시도되고있다 ( 알렌비외, 2014; 스콧외, 2016). 20
빅데이터는언어사용의현장에서동떨어지고고립되어존재하는언어의조각들이아닌무한히확장될수있는맥락속의언어를들여다볼수있게해준다. 이를통해진정으로동적인언어공동체의생성과발전의양상을살펴볼수있을것이다. 이는빅데이터가단발적인언어사용을담는것에서그치는것이아니라다양한환경에처한매우많은언어사용자들의언어사용양상을비교적장시간지속적으로담을수있기에가능한일이다. 말뭉치로서빅데이터가갖는또하나의가치는앞서논의한데이터생성속도와관련이있다. 소셜미디어서비스, 특히마이크로블로깅서비스인트위터에서는초단위로새로운트윗이생성된다. 이를통해언어연구자들은언어현장의시간성을정확히파악할수있다. 특정한발화가이루어진계절, 날짜, 시간은물론이고그발화에영향을미쳤을수도있는언어외적요소들에대한추적도어느정도가능하다. 예를들어, 우리사회에큰영향을미친사건이사람들의언어사용에끼친영향들을관찰할수있을것이다. 또한특정한언어사용양상이사람들사이에서어떻게펴져나가는지, 즉언어사용양상의확산에관한연구도가능할것이다. 앞서언급한대로빅데이터의주요속성가운데하나는그형식의다양성이다. 이제까지의언어연구는어쩔수없는기술적, 또는자료수집의제약으로글말중심으로이루어져왔다. 그런데최근기술의발전양상을볼때에동영상을언어연구에적극적으로활용하게될날이그리멀지않아보인다. 먼저는동영상에포함된음성의인식이가능하게될것이다. 이어서동영상의배경과참여자를인식하여수많은동영상을자동으로분류하고이를맥락화하는일이가능해질것이다. 이는언어연구의방법론과대상에있어서작지않은변혁을불러올것으로기대된다. 7) 7) 앞서기술한대로빅데이터는언어연구의대상과방법에상당한변화를가져올것으로보인다. 글쓴이는한걸음더나아가빅데이터가기존언어학의확장이아닌전혀새로운시각의언어학출현, 즉패러다임의변화를불러일으키지않을까조심스럽게점쳐본다. 21
4. 빅데이터활용의절차의기술적요건 앞에서언급하였듯이빅데이터를언어자료로활용하기위해서는일정한절차를거쳐야하며각절차에는적절한기술적요건이따른다. 이글에서는라브리니디스외 (2012) 에서도식화한빅데이터분석의과정을언어연구의관점에맞추어설명한다. 4.1. 데이터수집빅데이터를언어연구에활용하기위한가장첫단계는데이터수집단계이다. 소셜미디어서비스로부터의데이터수집에는크게세가지방법을이용할수있다. (1) 데이터제공서비스이용소셜미디어서비스로부터데이터제공업무를대행하는업체의서비스를이용하는방법으로, 가장안정적으로데이터를수집할수있다. 대표적인서비스업체로는트위터데이터를공급하는 지닙 (GNIP, www.gnip.com) 이있다. 이업체의서비스를이용하면실시간으로생성되는모든트윗, 혹은표본데이터를수집할수있다. 이업체에서제공하는가장특징적인서비스는과거에작성된트윗에접근할수있도록해주는서비스이다. 과거 현존하는가장영향력있는과학철학자중한사람인이언해킹은그의저서 우연을길들이다 에서, 19 세기초까지모든과학을지배하던결정론적인믿음을뚫고다른어느법칙이나원리로환원될수없는 우연 이라는개념이받아들여지는과정을보였다. 해킹은우연과확률은과학에있어서거대한사고의전환을가져왔으며, 오늘날가장엄정한과학으로인정받는양자론의근간을불확정성의원리가이루게되었음을논증하였다. 빅데이터는자연과학이경험한패러다임의변화를언어학도마찬가지로경험하게될것이라믿는다. 이세돌과알파고의바둑대국을보면서과연알파고가바둑을이해하고있는지에대한논쟁이벌어졌던것처럼인간과대화를나누고소설을쓰는컴퓨터가과연인간의언어를정확히이해하고있는지에대한논쟁이벌어지는날이올것이고, 그때우리는언어, 그리고언어연구에대한생각을많이바꾸어야할지도모른다. 22
에생성된트윗을수집할수있는유일한방법은이서비스를이용하는 것이다. 이와같은장점을지닌이서비스를사용하는데에있어서가장 큰난관은사용료이다. (2) 오픈에이피아이 (Open API) 사용두번째방법은소셜미디어서비스업체에서제공하는오픈에이피아이 (Open API) 를이용하여데이터를수집하는방법이다. 소셜미디어서비스는다른서비스와의연동이매우중요하므로서비스업체에서는다양한형태로데이터를생성하거나데이터에접근할수있는오픈에이피아이를제공한다. 오픈에이피아이를사용하기위해서는이를주어진규격에따라사용하는컴퓨터프로그램을작성해야한다. 8) 트위터의경우트윗의수집에이용할수있는샘플에이피아이, 검색에이피아이, 스트리밍에이피아이, 그리고레스트에이피아이를제공한다. 이가운데스트리밍에이피아이는검색어를지정하여실시간으로생성되는트윗들을수집할수있도록해준다. 한번실행할때에지정할수있는검색어의수에제한이있고에이피아이호출간격에도시간제한이있기때문에대량의트윗수집을위해서는여러컴퓨터에서수집프로그램을구동해야한다. (3) 웹접근수집마지막방법은오픈에이피아이가제공되지않는자료원으로부터데이터를수집할때에사용하는방법으로, 인간이웹브라우저를통해해당서비스를이용하는것을흉내내는프로그램을작성하여데이터를수집하는것이다. 8) 트위터오픈에이피아이 (Open API) 를쉽게사용할수있도록도와주는라이브러리들이프로그래밍언어별로존재한다. 23
데이터접근스케줄링을비롯한많은고려사항이따르는방법이나에이피아 이가제공되지않는서비스에대한유일한데이터수집방법이다. 4.2. 데이터정제와정보추출 많은경우에수집된자료는바로사용할수가없고일정한정제과정을 거쳐야한다. (1) 필터링필터링이란연구목적에부합하지않거나, 나아가연구목적성취에방해가되는데이터를걸러내는과정이다. 트위터의경우자동으로트윗을생성하는 봇 의트윗을제거한다든지, 이벤트성트윗을제거한다든지등의처리를할수있다. 블로그의경우상당수를차지하는광고성포스트를제거할수있다. 물론이과정은연구목적에따라다른접근을하게될수도있다. (2) 중복제거소셜미디어에서생성된데이터는다양한형태의데이터중복이존재한다. 트위터의경우에는 리트윗 이라는형태의적극적인데이터전파기능이있어서데이터중복이발생한다. 블로그의경우에도소위 퍼나르기 에의한데이터중복이발생한다. 이러한데이터중복을어떻게처리할것인가도연구목적에따라결정된다. (3) 가공데이터가공은오픈에이피아이가아닌웹접근수집에모아진데이터일경우주로이루어져야하는일이다. 즉렌더링을위해부가된에이치티엠엘 (HTML) 태그등을제거하고순수텍스트만추출하는과정을거쳐야한다. 24
단순히제거할뿐만아니라최소한의구조적정보인포스트의제목, 본문을 구분하고작성자, 작성날짜와시간, 태그등을분절해야한다. (4) 언어처리정보추출단계에서이루어져야할일은언어처리이다. 언어처리라함은자동화된언어의형식적분석을말하는데현실적으로한국어데이터에대하여할수있는언어처리는형태소분석이다. 형태소분석이이루어지지않은데이터를언어연구에이용하는일은불가능하지는않다. 그러나많은경우에형태소분석은효과적인언어연구를위한최소한의언어처리단계일것이다. 과거에는일반연구자들이자동화된데이터의처리에사용할수있는형태소분석기가거의없었지만최근에는무료로사용할수있는공개형태소분석기들이등장하여많은연구자에게큰도움이되고있다. 그러나형태소분석기를연구목적에맞게조절하여사용하는일은결코쉽지않은일이다. 4.3. 데이터의구조화와통합데이터의구조화는연구자들이언어처리가적용된데이터에쉽고도효과적으로접근할수있도록해주는일이다. 즉자소, 음절, 형태소, 어절, 연어, 구등의언어단위별로다양한질의조건을부가하여데이터에접근할수있어야한다. 또한데이터통합에의해다양한원천으로부터수집된데이터를하나로통합하여접근할수있어야하며각종메타데이터에도접근이가능해야한다. 매우방대한양의데이터를효율적으로저장해야하기때문에여러대의 25
컴퓨터로이루어진분산파일시스템이나분산데이터베이스를사용해야 하는경우가있다. 9) 4.4. 데이터모델링과분석이단계에서는구조화된데이터로부터데이터를효율적으로질의하여데이터에대한분석이이루어져야한다. 예를들어, 특정단어의의미변화에대한연구를수행한다면그단어의의미를파악할수있는실마리문맥을분류하고그변화를추적할수있어야한다. 빅데이터를활용할때에는매우많은양의데이터를사용하게되므로자동화된데이터마이닝기법의도움을받지않을수없다. 다양한데이터마이닝기법이언어연구에어떻게접목될수있는지에대해서는다양한실험과검증을통해밝혀져야할것이다. 이단계에서는통계적분석도수행하게된다. 앞서언급한바와같이통계적유의성에기반을둔전통적통계분석방법이빅데이터에서는큰의미가없다는지적이있다. 그러나그대안은아직마련되지않았다. 한편웹규모의빅데이터를이용한언어처리의경험을간략히요약한해일러비외 (2009) 는빅데이터를이용한언어연구에서도참고할만하다. 이논문에서는다음과같은 교훈 을역설한다. 존재하지않는주석된데이터를기대하지말고존재하는대규모의데이터를이용하라. 데이터를이용한연구에서는탐구대상데이터를 해석하고이용하기에편리한주석을중요하게여긴다. 나아가주석된 9) 빅데이터의분산저장과처리에관련하여많은기술적진보가있었고지금도진행중이다. 특히아파치하둡 (http://hadoop.apache.org) 과아파치스파크 (http://spark.apache.org) 는오늘날빅데이터처리의핵심기반기술이다. 26
데이터의부재가연구의발전을가로막는장애임을지적하기도한다. 언어연구에있어서주석된데이터라함은형태소, 단어, 구, 문장등의언어단위의분절과최소한의해석이이루어진데이터를말할것이다. 이러한언어주석데이터가언어처리와언어연구에큰도움이됨은틀림이없다. 그러나이러한주석데이터를구축하는데에는엄청난비용과시간이소요되며, 일반적인규모를훨씬뛰어넘는빅데이터에주석을부가하는일은비현실적이다. 그러므로주어질가능성이거의없는주석데이터에의존하지않고대규모로주어지는원시데이터를어떻게이용할수있는지에대하여깊이고민해보아야한다. 정교하고일반화된규칙보다는개별사실에집중하라. 이논문의저자들은최근의기계번역에서기억된 (memorized) 개별번역사례의중요성을예로들면서일반화된규칙보다개별사실을최대한이용할것을권장한다. 이교훈은언어현상을간명히설명할수있는일반화된규칙의작성에관심을두는언어학연구에서는받아들이기힘들수도있다. 다만소규모데이터에서도출된규칙은언제든지그적용범위에한계가올수있다는점을알아야한다는점에는동의할수있을것이다. 나아가지식의표현이일차술어논리형식의간결한규칙으로되어야만한다는것또한편견일수있다는사실을인정해야한다. 수많은개별사실과개별사실들의조합으로부터도출된확률적표현또한훌륭한지식표현의방법가운데하나이다. 4.5. 결과의해석가장어려운단계이다. 연구가설이주어진연구였다면빅데이터에의해가설이지지되는지그러지않는지를검증하여야하며, 연구가설이주어지지않은탐색적연구였다면연구결과가다른연구로이어질수있도록정리해야 27
한다. 결과의해석을효과적으로전달하기위하여적절한시각화기법의활용을적극적으로고려해볼필요가있다. 방대한데이터로부터도출된복잡한결론을글로만표현하는데에는한계가있을때가많기때문이다. 5. 맺는말 이글에서는빅데이터의특성을먼저살펴보고, 빅데이터, 특히소셜빅데이터가언어연구에새로운전기를마련해줄수있는언어자원으로서의가치가있음을논하였다. 이어서빅데이터를언어연구에활용하기위한절차를기술적요건과함께간략히설명하였다. 앞서언급한대로빅데이터를언어연구에활용하는일은아직걸음마단계에있다. 그리고해결해야할문제도다수존재한다. 특히개인정보보호의문제는연구윤리에있어서매우중요한문제이다. 또한비즈니스의목적으로서비스되고있는데이터를이용하기때문에데이터의공유등에있어서자유롭지못한부분이많은것도문제이다. 이미우리는빅데이터의시대에살고있고어떠한형태로든빅데이터와연관이되어있다. 이러한시대에빅데이터를언어연구에활용하는것은필연적인일일수도있다. 활발한토론과다양한시도가이루어지기를기대해본다. 28
참고문헌 송길영 (2012), 여기에당신의욕망이보인다, 쌤앤파커스. (2015), 상상하지말라. 북스톤. 이안해킹저 정혜경역 (2012), 우연을길들이다, 바다출판사. / Hacking, I.(1990), The Taming of Chance, Cambridge University Press. 한국소프트웨어기술인협회빅데이터전략연구소 (2016), 빅데이터개론, 광문각. 한국 IDG(2012), 빅데이터의이해, IDG Tech Report. http://kbig.kr/ index.php?sv=title&q=knowledge/pds_&tgt=view&idx=15326/ ( 검색일 : 2016. 5. 29.). 한국정보화진흥원미래전략센터 (2015), 2015년빅데이터글로벌사례집. http://kbig.kr/index.php?sv=title&q=knowledge/pds_&tgt=view&i dx=15614&sv=title/( 검색일 : 2016. 5. 29.). 한국정보화진흥원 ICT융합본부 (2016), 2016 글로벌빅데이터융합사례집. http://kbig.kr/index.php?sv=title&q=knowledge/pds_&tgt=view&i dx=16137/( 검색일 : 2016. 5. 29.). Allenby, G. M., Bradlow, E. T., George, E. I., Liechty, J. and McCulloch, R. E.(2014), Perspectives on Bayesian Methods and Big Data, Customer Needs and Solutions, 1(3): 169 175. Bello-Orgaz, G., Jung, J. J. and Camacho, D.(2016), Social big data: Recent achievements and new challenges. Information Fusion, 28: 45 59. Cukier, K.(2010). The Economist, Data, data everywhere: A special report on managing information. http://www.economist.com/node/15557443/ ( 검색일 : 2016. 5. 29.). Gandomi, A. and Heider, M.(2014), Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management, 35: 137 144. Gartner, IT Glossary: Big Data. http://blogs.gartner.com/it-glossary/ big-data/( 검색일 : 2016. 5. 29.). Halevy, A., Norvig, P. and Pereira, F.(2009), The Unresonable Effectiveness of Data, IEEE Intelligent Systems, 8 12. 29
Economist(2015), The data deluge: Five years on. http://www.veritas.com/ content/dam/veritas/docs/reports/eiu-veritas-data-deluge.pdf/ ( 검색일 : 2016. 5. 29.). IBM(2015), Big Data and Analytics. http://www-01.ibm.com/software/ data/bigdata/what-is-big-data.html/( 검색일 : 2016. 5. 29.). Kilgarriff, A. and Grefenstette, G.(2003), Introduction to the special issue on the Web as Corpus, Computational Linguistics, 29(3): 333 347. Labrinidis, A. and Jagadish, H. V.(2012), Challenges and opportunities with big data, Proceedings of the VLDB Endowment, 5(12): 2032 2033. McEnery, T. and Hardie, A.(2011), Corpus Linguistics: Method, Theory and Practice, Cambridge University Press. McEnery, T., Xiao, R. and Tono, Y.(2006), Corpus-based Language Studies, Rutledge. Newscenter, Conversations on linguistics and politics with Noam Chomsky, 2016년 4월 18일자. http://www.rochester.edu/newscenter/conversations -on-linguistics-and-politics-with-noam-chomsky-152592/( 검색일 : 2016. 5. 29.). Renouf, A.(2003), WebCorp: providing a renewable data source for corpus linguists, S. Granger and S. Petch-Tyson(eds.) Extending the Scope of Corpus-based Research: New Applications, New Challenges, Rodopi, 39 58. Schroeck, M., Shockley, R., Smart, J., Romero-Morales, D. and Tufano, P.(2012), Analytics: The real-world use of big data. How innovative enterprises extract value from uncertain data, IBM Institute for Business Value. http://www-03.ibm.com/systems/hu/resources/ therealworduseofbigdata.pdf/( 검색일 : 2016. 5. 29.). Scott, S. L., Blocker, A. W., Bonassi, F. V., Chipman, H. A., George, E. I. and McCulloch, R. E.(2016), Bayes and big data: The consensus Monte Carlo algorithm, International Journal of Management Science and Engineering Management, 11(2): 78 88. Sinclair, J.(1991), Corpus, Concordance, Collocation, Oxford University Press. 30