ISSN 2288-4866 (Print) ISSN 2288-4882 (Online) http://www.jiisonline.org J Intell Inform Syst 2015 June: 21(2): 49~67 http://dx.doi.org/10.13088/jiis.2015.21.2.49 집단지성을이용한한글감성어사전구축 * 안정국연세대학교정보대학원 (jace@yonsei.ac.kr) 김희웅연세대학교정보대학원 (kimhw@yonsei.ac.kr) 최근다양한분야에서빅데이터의활용과분석에대한중요성이대두됨에따라, 뉴스기사와댓글과같은비정형데이터의자연어처리기술에기반한감성분석에대한관심이높아지고있다. 하지만, 한국어는영어와는달리자연어처리가어려운교착어로써정보화나정보시스템에의활용이미흡한실정이다. 이에본연구는감성분석에활용이가능한감성어사전을집단지성으로구축하였고, 누구나연구와실무에사용하도록 API 서비스플랫폼을개방하였다 (www.openhangul.com). 집단지성의활용을위해국내최대대학생소셜네트워크사이트에서대학생들을대상으로단어마다긍정, 중립, 부정에대한투표를진행하였다. 그리고집단지성의효율성을높이기위해감성을 정의 가아닌 분류 하는방식인폭소노미의 사람들에의한분류법 이라는개념을적용하였다. 총 517,178(+) 의국어사전단어중불용어형태를제외한후감성표현이가능한명사, 형용사, 동사, 부사를우선순위로하여, 현재까지총 35,000(+) 번의단어에대한투표를진행하였다. 본연구의감성어사전은집단지성의참여자가누적됨에따라신뢰도가높아지도록설계하여, 시간을축으로사람들이단어에대해인지하는감성의변화도섬세하게반영하는장점이있다. 따라서본연구는앞으로도감성어사전구축을위한투표를계속진행할예정이며, 현재제공하고있는감성어사전, 기본형추출, 카테고리추출외에도다양한자연어처리에응용이가능한 API 들도제공할계획이다. 기존의연구들이감성분석이나감성어사전의구축과활용에대한방안을제안하는것에만한정되어있는것과는달리, 본연구는집단지성을실제로활용하여연구와실무에활용이가능한자원을구축하여개방하여공유한다는차별성을가지고있다. 더나아가, 집단지성과폭소노미의특성을결합하여한글감성어사전을구축한새로운시도가향후한글자연어처리의발전에있어다양한분야들의융합적인연구와실무적인참여를이끌어개방적협업의새로운방향과시사점을제시할수있을것이라기대한다. 주제어 : 감성어사전, 한글자연어처리, 감성분석, 집단지성, 폭소노미 논문접수일 :2015년 5월 20일논문수정일 :2015년 6월 12일게재확정일 :2015년 6월 13일투고유형 : 국문급행교신저자 : 김희웅 1. 서론 최근데이터의기하급수적인증가와소셜미디어의급성장으로빅데이터에대한관심이많아지면서, 기업들은다양하고좋은데이터를어떻게확보하느냐와이를어떻게활용하는지에대 해관심의초점을맞추고있다 (Prentice, 2011). Laney (2001) 는빅데이터를 3V (volume, velocity, and variety) 로정의하였으며, 최근에는가치 (value) 를추가한 4V로정의를하기도한다 (McAfee, 2012). 다시말해빅데이터환경에서는데이터의사이즈, 처리 / 분석속도, 다양성, 가치 * 본논문은 2012 년정부 ( 교육과학기술부 ) 의재원으로한국연구재단의지원 (NRF-2012-2012S1A3A2033291) 을받아수행된연구임 49
안정국ㆍ김희웅 창출이매우중요하며, 이는기업의경쟁우위확보에중요한부분을차지할수있다는의미이다. 국내의경우정부가주도적으로공공데이터를개방하고있으며 (Lee and Yoon, 2012), 기업들도다양한부가가치를창출하기위하여데이터개방과더불어매쉬업 (mashup) 과같은효과적인웹서비스의융합을시도를하고있다 (Lee, 2012). 이러한정부와기업들의적극적주도하에데이터공유와협업을기반으로하는생태계를만들어가는분위기가조성됨에따라, 최근에는고급데이터분석기법인자연어처리기술을기반으로한감성분석이각광을받고있다 (Pang and Lee, 2008). 감성분석은주로주관적인데이터를분석하여사람들의성향분석, 선별, 예측, 판단등을가능하게하며, 최근들어 SNS의급부상과함께다양한분야에오피니언마이닝의개념으로도적용이되고있다 (Khan et al., 2014; Pang and Lee, 2008). 기존에주로사용했던설문조사와인터뷰는시간과비용이드는반면, 소셜미디어에서의고객선호도조사는비용절감효과및실시간분석이가능한장점이있다 (Kim et al., 2011). Jang et al. (2015) 는사람들의 SNS의사용에대한다양한동기요인에대한연구를하였으며, Cho et al. (2014) 는영화개봉첫주의온라인리뷰를바탕으로영화흥행성예측을위한연구를진행하였고, Jang(2009) 은온라인쇼핑몰에서의상품평을분석하여의견을긍정과부정으로판단하는자동분석알고리즘을소개하였다. 이러한소셜미디어의감성분석은기업적인측면에서의수익증대, 마케팅전략, 서비스개선에다양한기회를주었으며, 정치캠페인과같은다양한분야에서도많은효율성증대를가져왔다. 실제로 2012년미국대선의오바마캠프에서의소셜미 디어를활용한성공적인여론분석은선거비용절감과맞춤형선거전략을가능하게하였다 (Bollen et al., 2009). 하지만현재까지는한글감성분석에쓰이는개방된감성어사전이없으며, 기존연구들이방법을제안하는것에만한정이되어있어한글감성분석에대한연구가활발하지못한실정이다. 이에본연구의목적은신뢰도가높은한글감성어사전을구축하여누구나연구나실무에활용이가능한자원을마련함으로써, 한국어자연어처리연구의개방형협업 (Open collaboration) 을위한플랫폼을구축하는데있다. 이를위하여국내대학생들의집단지성을이용하여단어의감성의깊이표현이가능하게하였으며, API (Application Programming Interface) 서비스플랫폼을구축을하여실시간으로의접근성이용이하도록개방하였다. 2. 개념적배경 2.1 감성분석 기존의설문이나인터뷰와는달리텍스트에서사람들의주관적인성향과의견등을분석하는자연어처리기술을감성분석이라한다 (Pang and Lee, 2008). 최근빅데이터와소셜미디어를활용한다양한감성분석이이루어지고있으며, 영어의경우에는 WordNet 의각어휘에긍정, 중립, 부정을태깅한 SentiWordNet이대표적인사례이다 (Baccianella et al., 2010). 정확한감성분석을위해서는신뢰도가높은감성어사전이사용되어야하는데, 언어의사용과정에서발생하는다양한의미의변이와동태적활용, 동음이의 50
집단지성을이용한한글감성어사전구축 어가분석에있어어려운작업으로인식되고있다 (Lee, 2011; Jung et al., 2008). 따라서이러한복잡한상황을고려하여신뢰도가높은감성어사전을구축하고, 이를통해감성평가의정확성을향상시키는연구가이루어지고있다 (Baccianella et al., 2010; Ban and Jung, 2001; Taboada et al., 2011). Taboada et al(2011) 는상품, 영화, 도서평등의다양한의견텍스트의감성을분석하기위하여감성어사전구축에대한연구를진행하였는데, 어휘의감성을정량적인지표로표현하기위해각어휘에서사용되는단어의긍정과부정값의차이를이용하였고, Kim et al(2012) 는감성분석을통해기업의성과의방향성을예측하는연구를하였다. 하지만기존의연구들은문서의극성판별에가장큰영향을미치는감성어사전의구축에대한명확한언급이없으며, 신뢰도가높은한글감성어사전을사용하지못했다는한계점을가지고있다. 이에본연구는한글감성분석에활용될수있는신뢰도가높고감성의깊이표현이가능한감성어사전을구축한다. 다, Boder(2006) 는집단지성이기업의경영에있어서중심이되는역할로써, 기업의다양한활동에집단지성을적용할필요가있다고주장하였다. 기존의문헌에서는집단지성의개념이현실에서가장잘반영된사례로위키피디아를들고있다 (Cachia et al., 2007; Black, 2008). 위키피디아가구현한집단지성의경우, 개방된형태에서생성되어진화되는특징을갖고있으며집단이라는개념을전문가들이아닌아닌일반적개념의 대중 으로정의하였다. 이러한대중의지성의합은개인의지성보다현명하다는인식에서제기된개념으로, 참여자들의다양한경험이현명한판단과좋은결과물을이끌어낼수있다 (Malone et al, 2010). 2.2. 집단지성 (Collective Intelligence) 집단지성은다수의개체들이서로협력혹은경쟁을통해얻게되는지적능력의결과물로정의되며사회학, 컴퓨터공학등의다양한분야에서연구가되어왔다 (Bonabeau, 2009). 집단지성의개념은분야에따라조금씩다르며, Lévy(1997) 는과학기술을이용한인류의공동지적능력과자산이소통을통해집단지성으로구축되었다고하였고, Sulis(1997) 는집단지성을참여자들간의확률적으로갖는모임으로인식을하기도하였 <Figure 1> Elements of Collective Intelligence (Malone et al., 2010) Malone et al.(2010) 는집단지성을구성하는요소를크게 WHO, WHY, HOW, and WHAT으로정의를하였으며, 성공적인집단지성을이끌어내기위해서는누가 (WHO), 어떠한동기요인 (WHY) 으로참여를하며어떠한방식 (HOW) 으로무엇 (WHAT) 을만들것인가에대한전체적인프레임워크가있어야한다고하였다 (Figure 1 참조 ). 51
안정국ㆍ김희웅 본연구에서는한글감성어사전구축 (WHAT) 을위해, 기본적인교육적소양을가진대학생 (WHO) 들을선택을하였고, 이들의참여를유도하기위해가입승인및등급향상과같은보상 (WHY) 을주었으며, 오류를방지하여신뢰도를높이는시스템의투표방식을선택하였다 (HOW). 본연구는집단지성을연구의설계에직접적으로적용하여실질적으로연구와실무에도움이되는자원을창출하였고, 이를기반으로향후연구들에게새로운시사점을주는데큰의의가있다고본다. 1.1. 폭소노미 (Folksonomy) 폭소노미는 Folks와 Taxonomy의합성어로 사람들에의한분류법 이라는의미를내포하고있으며, 2005년에시스템설계사인 Thomas (2007) 에의해처음소개가되었다. 크게협업적태깅 (collaborative tagging), 소셜분류 (social classification), 소셜색인 (social indexing), 소셜태깅 (social tagging) 의의미로나뉘며웹2.0, 블로그, 소셜커뮤니티사이트들이확산과더불어각광을받게되었다. 폭소노미의대표적인예로는블로그의글들에서흔히볼수있는태그 (tag) 를들수가있으며, 이는기존의카테고리가아닌새로운카테고리의구분을확장시키는장점이있다 (Russell, 2005; Thomas, 2007). 예를들면, 블로그에서 삼성야구팀 에대한글은다른축구나농구와관련된기사들과같은 스포츠 카테고리이다. 하지만문서에 야구, 삼성, 스포츠, 이승엽 과같은다양한태그를달면, 태그들이새로운카테고리들을생성을하게되는것이다. 즉기존에는다른카테고리에있던문서들이태그를활용함으로써새로운카테고리로구분되어수직적카테 고리가아닌수평적카테고리로써의무한한확장성을가진다. 이외에도폭소노미기반으로메타데이터 (Metadata) 를이용한소셜북마크온톨로지구축을제안하는연구 (Ohmukai et al., 2005) 와온톨로지를폭소노미에활용하는연구가있었다 (Medelyan and Legg, 2008; Echarte et al., 2007; Ohkura et al., 2006). 그러나폭소노미는다양한정보를얻을수있는장점이있는반면, 태깅이무작위이므로신뢰성이떨어지는단점이있다 (Gruber, 2007; Hwang and Kang, 2008), 이러한한계점으로인해폭소노미에대한관심과연구는 2007년이후로많이감소된추세이다. 하지만본연구의연구자들은폭소노미의특성인참여에의한협업과분류가빅데이터환경의시스템에근본적인틀과방향성을줄수있을것이라고확신을하였고, 폭소노미의단점인낮은신뢰성을극복하기위해앞서언급한집단지성을활용하기로하였다. 본연구에서는폭소노미와집단지성을결합하여개인적인선입견이들어가지않는집단들에의한신뢰도가높은감성어사전을구축하며, 이러한시도는폭소노미에대한재조명을하는점에있어중요한의의가있다. 3. 연구설계 3.1. 연구절차 본연구는크게 (1) 집단지성, (2) 감성어사전을구축, (3) 오픈 API 구축의 3단계프레임워크를가지고있으며 (Figure 3 참조 ), (Figure 2) 에서는세부적인단계들을살펴볼수있다. 1단계에서는집단지성을이용하여단어들의감성에대한투 52
집단지성을이용한한글감성어사전구축 <Figure 2> Research Design <Figure 3> Research Workflow 표를하게하며, 집단지성의요소중에 WHO, WHY, 그리고폭소노미의 Folks( 사람들에의한 ) 의개념이적용이된다. 2단계에서는감성어사전을구축하기위한전처리작업을하여국립국어원의사전을기반으로총 517,178(+) 개단어를데이터베이스에생성하였다. 불용어를제외한단 어들에대해서투표를랜덤으로하게하며, 이는집단지성의 HOW와 Folksonomy의 Taxonomy( 분류법 ) 의개념이적용이되는단계이다. 그리고 3 단계에서는감성분석을하는연구자, 기업, 개인들에게오픈API로제공을하기위한서비스플랫폼을구축한다. 53
안정국ㆍ김희웅 <Table 1> Lexicon Structure Index Decomposition Word type ㄱ 거 거머릿과 ㄱㅓㅁㅓㄹㅣㅅㄱㅘ Noun ㄱ 거 거머먹다 ㄱㅓㅁㅓㅁㅓㄱㄷㅏ Verb ㄱ 거 거머멀쑥 ㄱㅓㅁㅓㅁㅓㄹㅆㅜㄱ ㄱ 거 거머멀쑥이 ㄱㅓㅁㅓㅁㅓㄹㅆㅜㄱㅇㅣ Adverb ㄱ 거 거머멀쑥하다 ㄱㅓㅁㅓㅁㅓㄹㅆㅜㄱㅎㅏㄷㅏ Adjective ㄱ 거 거머무트룩하다 ㄱㅓㅁㅓㅁㅜㅌㅡㄹㅜㄱㅎㅏㄷㅏ Adjective ㄱ 거 거머무트름 ㄱㅓㅁㅓㅁㅜㅌㅡㄹㅡㅁ ㄱ 거 거머무트름하다 ㄱㅓㅁㅓㅁㅜㅌㅡㄹㅡㅁㅎㅏㄷㅏ Adjective ㄱ 거 거머무트름히 ㄱㅓㅁㅓㅁㅜㅌㅡㄹㅡㅁㅎㅣ Adverb ㄱ 거 거머번드르 ㄱㅓㅁㅓㅂㅓㄴㄷㅡㄹㅡ ㄱ 거 거머번드르하다 ㄱㅓㅁㅓㅂㅓㄴㄷㅡㄹㅡㅎㅏㄷㅏ Adjective 3.2. 사전데이터설계기본색인구축에있어서 1차로는단어의 ㄱㄴㄷ 의모음순으로하였고, 가나다 의자모결합순으로 2차로나누었다 (Table 1 참조 ). 추가로자모를분리하여저장하였는데, 이는단순히분류나나열을위한것이아니라검색의최적화, 유사도, 오타인식, 기본형추출을위한것으로향후다양한확장이가능한장점이있다. 본연구에서는삭제 / 삽입 / 수정의횟수의총합인 편집거리 를이용하는레빈쉬타인거리매트릭스를검색에사용하며, 이는기존의순차적으로문자를인식하는방식과는다른효율적이며논리적인단어인식을가능하게한다 (Levenshtein, 1966). 예를들면 Setting와 Katten 의편집거리는 3이다 (Table 2 참조 ). 하지만레빈쉬타인거리는알파벳처럼문자당 1byte인경우만가능하므로글자당초성, 중성, 종성의결합형인 2byte인한글은그대로사용할수가없다. 따라서레빈쉬타인거리매트릭스를한글에적용할수있게자음과모음을각각 1byte로인식하도록분리하여 데이터베이스에입력하였다 (Table 1 참조 ). 즉커서의이동단위를자모단위로가능하도록하여레빈쉬타인거리계산을용이하게하는것이다. <Table 2> Levenshtein Distance (Setting vs. Katten) K A T T E N 0 1 2 3 4 5 6 S 1 1 2 3 4 5 6 E 2 2 1 2 3 4 5 T 3 3 2 1 2 3 4 T 4 4 4 3 1 2 3 I 5 5 4 3 2 2 3 N 6 6 5 4 3 3 2 G 7 7 6 5 4 4 3 3.3. 우선순위단어의형태선별 총 517,178(+) 개단어중에서감성의표현이가능한단어의형태들을선별하였으며조사, 감탄사, 관형사등의단어들은제외하고명사, 형 54
집단지성을이용한한글감성어사전구축 <Table 3> Classification of Words Word type Total Sentiment Word type Total Sentiment interjection 682 N assistant verb 14 N interjection noun 85 N assistant adjective 17 N determiner 207 N adverb 17,425 Y determiner interjection 11 N adverb interjection 3 N determiner noun 1,267 Y numeral 60 N pronoun 382 N numeral determiner 195 N pronoun interjection 5 N numeral determiner noun 3 N pronoun determiner 3 N ending 6 N pronoun adverb 1 N bound noun 913 N verb 68,370 Y bound noun postposition 13 N verb adjective 2 Y affix 209 N noun 337,659 Y postposition 300 N noun adverb 109 N adjective 16,562 Y Total words 517,178 Total sentiment words 441,283 용사, 동사, 부사들을우선순위로두었다 (Table 3 참조 ). 동음이의어의경우에는첫번째순위에있는의미가단어의중요도와사용빈도가높으므로우선순위로두었다. 또한불용어로분류된단어형태에도간혹감성단어들이있지만전체적인변별력을높이기위해감성어대상에서제외하였고, 이는감탄사의경우만하더라도문장의성격과는무관하게주변단어의강조를위해쓰이는경우가많기때문이다. 총 517,178개의단어중불용어로처리된단어들은 75,895개이다 (Table 3 참조 ). (Figure 2) 의연구설계 2단계를보면감성어단어로분류된형태들 ( 명사, 형용사, 동사, 부사 ) 을대상으로집단지성의참여자들이투표를하게되고, 나머지불용어형태의단어들 ( 감탄사, 관형사, 대명사, 수사, 의존명사, 접사, 조사등 ) 은투표의대상에서제외를하였다. 3.4. 단어들의감성태그및점수화알고리즘태그는성격에따라유형의구분이된다. Xu et al. (2006) 는태그를 Content-based, Context-based, Attribute, Subjective, Organizational로 5가지로분류를하였다. 본연구에서의태그는단어의내용에대해표현하는 내용기반형 (Content-based) 이며, 긍정, 중립, 부정의감성의극성판별과깊이나확률이태그가된다. 참고로본연구에서는폭소노미의태그를긍정, 중립, 부정의투표로변환을하였다. 이는폭소노미의자율적인태깅 ( 주관식방식 ) 과는다른선택적태깅 ( 객관식방식 ) 이며, 기존의폭소노미의단점인태깅의남용 (Gruber, 2007) 으로인한낮은신뢰도와정확도를극복하기위한것이다. 각단어마다사람들이 55
안정국ㆍ김희웅 긍정, 중립, 부정을선택하게하여이를기반으로감성의깊이나확률을정량적으로계산한다. 즉세가지의제한된태깅을하지만표현은개인의판단이아닌집단지성의합이므로단어마다감성의깊이표현을개인으로써하는것이아니고집단의구성원으로써하게되는것이다. 예를들면 A라는사람이 시원하다 의단어에긍정으로선택한다면 100% 긍정어로태깅이되는것이아니라기존의집단지성으로계산된값에추가가되어 A의긍정태깅이부분적으로반영이되는것이다. 이런방식의장점은개인이결과물을독단적으로조작하는태깅의남용을방지하여신뢰성을높일수있다는것이다. <Figure 4> Sentiment Polarity <Figure 5> Sentiment Score 또한우리가쓰는언어는시간에따라조금씩변하는자연어라고하는데, 본연구에서구축한감성어사전은이러한자연어특성을고려하기위해과거와현재의투표를모두반영하여언어의시간적변화를점차적으로수용한다. 감성점수를계산하는방법은중립을어떻게처리하느냐에따라두가지방법을단계적으로사용한다. 감성어판별은긍정과부정의점수만계산하여중립을자동으로분류하여극성을구분하는방법 (Figure 4 참조 ) 과긍정, 부정, 중립을독립적으로계산하여감성점수를계산하는방법 (Figure 5 참조 ) 이있다. 전자의경우에는중립의투표를제외하는데그이유는사람들이단어의뜻을모를경우에도중립으로선택을하기때문이다. 그래서 (Table 3) 에서 1차적으로분리를했던불용어들을 2차적으로분리할수있는장점이있다. 점수화계산은단어의긍정또는부정일확률이 0% ~ 60% (threshold=60%) 이면자동적으로중립으로분류가되며긍정이나부정으로판별이되기위해서는최소한의 60% 이상의확률이있어야한다. 후자인경우인 (Figure 5) 의긍정, 중립, 부정을독립적으로점수화한방식은비감성어도중립어로인식을하게하였으며실질적으로비감성어와중립어의차이는있지만텍스트마이닝분석에있어서는큰차이는없다. 본연구에서쓰인감성어점수알고리즘의첫단계에서는단어의중립을판단하기위해전자 (Figure 4 참조 ), 그리고두번째단계에서는긍정과부정의확률을계산하기위해후자의방법을쓴다 (Figure 5 참조 ). 본연구에서의각단어에대한감성점수화방식은다음과같다 (Figure 6 참조 ). 1단계에서는긍정, 중립, 부정의투표의결과를바탕으로중립으로투표한사람들이긍정이나부정이라고 56
집단지성을이용한한글감성어사전구축 // for neutral (Step 1) if($data[neutral] > $data[positive] && $data[neutral] > $data[negative]) { ${score.$i} = 100 * $data[neutral]/(abs($data[positive] - $data[negative]) + $data[neutral]); ${sentiment.$i} = ' Neutral '; } // for positive (Step 2) elseif($data[positive] > $data[negative]) { ${score.$i} = 100 * $data[positive]/($data[positive] + $data[negative]); ${sentiment.$i} = 'Positive'; } // for negative elseif($data[positive] < $data[negative]) { ${score.$i} = 100 * $data[negative]/($data[positive] + $data[negative]); ${sentiment.$i} = 'Negative'; } // when positive = neutral = negative (Step 3) else { ${score.$i} = '100'; ${sentiment.$i} = ' Neutral'; } <Figure 6> Sentiment Algorithm 생각하는사람들보다많을경우, 중립으로판별을하고추가적으로중립어로서의확률을계산을한다. 즉집단지성의관점에서는집단이단어를중립으로결정했다는의미이며, 폭소노미의관점에서는단어가사람들에의해중립으로태깅 / 분류가되었다는것을의미한다. 2단계에서는긍정과부정의투표수를비교하여긍정이나부정의확률을 % 로계산을한다. 마지막으로 3단계에서는긍정, 부정, 중립의수가같아 1단계와 2단계에해당이되지않는경우는 100% 중립어로계산을한다. 3.5. 데이터수집앞에서설명한집단지성의네가지구성요소중에서참여자들 (WHO) 을선택함에있어서, 본연구자들은기본적인교육적소양을가진다양하고평범한사람들이본프로젝트에적절한집단이라고생각하였다. 우선적으로평균연령과 교육수준을고려했으며, 다양한집단들로나누어봤을때대학생들이가장적절하다고생각하였다. 이에국내대학생소셜네트워크사이트에서객관식설문문항형식으로투표를실시하였으며, 2014년 8월 15일부터 2015년 5월 15일까지총 35,000번의단어에대한투표가진행되었으며참가자들은주어진단어들에대해긍정, 중립, 부정의답변중에하나를선택을하였다 (Figure 7). 객관식설문문항형식에서는오답방지를위해답이확연한단어두개를삽입하였다. 예를들면 좋다 와 멍청하다 와같이확연한긍정이거나부정인단어를넣어, 참가자가두문항을동시에틀릴경우나머지문항의답변들도오류로인식을하여투표에반영을하지않았다. 웹서비스의특성을고려하여편의성, 그리고답변의정확도를높이기위해응답시간이 1분내외로걸리도록하였으며한명당총 10 단어씩답변을하게하였다. 57
안정국ㆍ김희웅 <Figure 7> Voting System for Sentiment 4. 연구결과및실무활용 4.1. 감성어사전 API 본연구에서구축한한글감성어사전은빅데이터분석을수행하는회사나기관들이 API를활용할수있도록플랫폼을구축하였다. 플랫폼에서제공하는 API서비스는감성에대한질의외에도기본형추출, 카테고리추출등과같은다양한기능도제공한다 ( 오픈한글, www.openhangul.com). 예를들면, 사용자가특정단어를 API로질의하면, 플랫폼에서는단어에대한형태, 감성판별, 감성의깊이에대한응답을준다. 감성의깊이에대한표현은본연구의차별화된부분이며, 이는집단지성을활용해감성어사전을구축하였기때문에가능한것이다. 4.2. 감성분석을활용한평판분석감성어사전 API를확장하여활용하면기업 의관점에서는자사제품, 브랜드, 경쟁사평판분석등에적용이가능하다. 또한시간적관점에따른다각적인분석도가능한데기업이신제품의출시전후에대한평판을분석할수도있고, 반대로자사제품의출시가경쟁사의평판에도영향을미치는지에대한분석도가능하다. 출시전에대한분석은기대치를반영하는 preview, 출시후는고객의반응을반영하는 review가될수있다. 예를들어 (Figure 8) 을보면갤럭시 S5에대한사람들의반응은 85%, 아이폰은 50% 가긍정으로나온다. 감성분석을한시점은아이폰 6가나오기전의시점이므로사람들이아이폰 6에대한기대치가낮다는의미가될수있다. 이를이용하여확장적인분석도가능한데, 예를들면아이폰 6가출시된이후의시점 ( 사용후기 ) 을출시전 ( 기대치 ) 과의비교를통해 별로지만기대했던것보다는덜별로이다 와같은주관적이며상대적인분석도가능하다. (Figure 9, 10) 은글의내용을세부적으로분석 58
집단지성을이용한한글감성어사전구축 <Figure 8> Sentiment Analysis (iphone vs Galaxy) 하는과정을직관적으로표현을하여이해를도운것이다. 예를들면한고객이스마트폰을구매를한후페이스북이나트위터에 OOO를샀는데무게는가벼운듯한데기능은좋다. 색상이밝은데화질이나쁘지는않아서나름좋은것같아 라는글을남겼다면, 문장을각각의최소형태의단어로분리하는작업 ( 토큰화 ) 을하여감성분석을하고시각적으로표현을할수가있다. (Figure 9) 에서는우선적으로문장에대한토큰화작업을하여감성어단어분류를하고빈도수계산을한다. 빈도수계산은단어의중복출현을의미하는데이는빈도수에따른가중치 를적용하기위한것이다 (Hwang and Ko, 2009). 또한 (Figure 9) 에서계산된빈도와확률을기반으로개발자들이나연구자들이다양한알고리즘을구축할수있으며, (Figure 10) 처럼텍스트를토큰화하여비감성어나중립어의비율을알고리즘에포함하거나제외하여해석할수있다. 참고로이러한알고리즘에대한고려는감성분석을하는개발자들이나연구자들의주관적인논리가적용되어확장이되는부분이다. (Figure 10) 에서는문장전체에서의감성어비율과긍정, 부정의정도를계산을하여정량적으로분석한것뿐만아니라직관적인시각화로표현하였다. 59
안정국ㆍ김희웅 <Figure 9> Sentiment Probability by Token <Figure 10> Visualization of Sentiment Analysis 5. 연구결과에대한기대효과및활용방안 본연구에서객관적인감성분석을위한사전 구축의필요성을인식하게된배경은최근소셜미디어가방대한양의이용자들의의견을실시간으로축적함에있다 (Lipsman et al., 2012). 페이스북, 트위터와같은 SNS 등에서수집되는데 60
집단지성을이용한한글감성어사전구축 이터들은특성상해당국가의언어적특성에매우큰영향을받게되고, 이로인해분석방법에차이가존재한다. 한글은어미와조사가발달한교착어이므로자연어처리가어렵고, 자연어처리를위한감성어사전과같은자원이부족해감성분석에대한연구가활발하게진행되지못하였다. 집단지성의특징은참여자들의수가누적이될수록좀더나은결과물이나온다는것이다 (Malone et al., 2010). 위키피디아의경우를보더라도다수의사람들이참여한영어나다른언어의버전의경우는한국어버전과비교를하면데이터의양적인측면이나내용의질적인측면에서많은차이를보이고있으며 (Hwang and Choi, 2010), 이는집단지성의결과물이참여자들의누적효과에많은영향을받는다는것을의미한다. 본연구는시간을축으로참여자들의지성의누적으로인한감성어사전의신뢰도가높아지는시스템으로구축이되었으며, 이로인해향후한국어자연어처리에이바지하는유용한자원이되기를기대하고있다. 본연구에서구축된감성어사전과오픈 API 서비스는다양한영역에서활용이가능하며 (Table 4 참조 ), 누구나참여가가능한개방형협업의기초를제공하여한글감성어사전을활용한연구와실무에의활발히쓰이기를기대한다. 6. 연구의한계및향후연구방향 본연구에서제시한한글감성어사전활용에있어한계점은다음과같다. 감성어사전은감성분석에쓰이는도구이며감성분석을자체적으로하는알고리즘이아니므로, 감성분석을함에있어서문장에서의맥락, 문맥의해석과동음이의어의복잡성문제는감성어사전이해결을해주는영역이아니다. 즉감성어사전은사전의고유의목적에맞게문맥을고려하지않고단어를독립적인상태로서의감성을표현해주기때문에복잡한문맥의감성분석은분석자가알고리즘에서해결해야한다 (Nasukawa and Yi, 2003). 또한 API의사용을위해서는형태소분석 Field Use Example Business Accounting/ Finance Investment Marketing Decision Making Brand Monitoring Reputation Management Corporate Transparency Social Media Analysis Effectiveness Market Segmentation Competitor Monitoring <Table 4> Applicable Fields Establishing a decision making model based on the customers opinions on social media Monitoring customers product reviews and previews through ex-ante and ex-post monitoring process Preventing a negative publicity by building a strategy for positive images Utilizing financial statements footnotes to find patterns by analyzing the high frequency words Establishing an intelligent investment decision model by analyzing companies online rumors and news Measuring an effectiveness of marketing campaigns by conducting ex-ante and ex-post monitoring Utilizing market segmentation strategies by analyzing customers preferences based on their demographics Monitoring competitor s online reputation 61
안정국ㆍ김희웅 과같은전처리작업이필요하다. 감성어사전의단어들은국어사전처럼기본형단어들만있기때문에분석할단어들의기본형변환을위한형태소분석과토큰화 (Tokenization) 가필요하다 (Lee, 2011). 이러한한계점을해결함과동시에향후계획하는연구방향은크게두가지로분류할수있다. 첫째, 문맥적인문제를해결하기위해감성분석에서는사전에텍스트의카테고리를구분하는작업이필요하며, 감성어사전에서는카테고리별로추가적으로사용되는단어들의온톨로지구축이필요하다. 예를들면, 경제나스포츠의카테고리를인식한후, 기본적인감성어사전에추가적으로경제나스포츠관련감성어사전을적용시켜특정카테고리에서다른의미로쓰일수있는단어들의정확한감성어분석을가능하게할수있다. 둘째, 토큰화와형태소분석에대한기본적인지식과경험이없는사용자들을위해플랫폼에서이모든전처리작업들을해결하는것이필요하다. 따라서향후연구에서는감성어사전과같은추가적인 자원적인 측면과더불어 프로세스적인 측면으로의확장된연구를진행을할예정이다. 참고문헌 (References) Baccianella, S., A. Esuli, and F. Sebastiani, Senti WordNet 3.0: An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining, LREC, Vol. 10(2010), 2200~2204. Ban, S. B. and C. S. Jung, "A neural network model for recognizing facial expressions based on perceptual hierarchy of facial feature points," Korean journal of cognitive science, Vol.12, No.1/2(2001), 77~89. Black, E. W., "Wikipedia and academic peer review: Wikipedia as a recognised medium for scholarly publication?," Online Information Revie,w, Vol. 32, No. 1(2008), 73~88. Boder, A., "Collective intelligence: a keystone in knowledge management," Journal of Knowledge Management, Vol. 10, No. 1(2006), 81~93. Bollen, J., A. Pepe, and H. Mao, Modeling public mood and emotion: Twitter sentiment and socio-economic phenomena, arxiv preprint arxiv:0911.1583. (2009). Bonabeau, E., "Decisions 2.0: The power of collective intelligence," MIT Sloan management review, Vol. 50, No.2(2009), 45~52. Cachia, R., R. Compañó, and O. D. Costa, "Grasping the potential of online social networks for foresight," Technological Forecasting and Social Change, Vol. 74, No. 8(2007), 1179~1203. Cho, S. Y., H.-K, Kim, B. Kim, and H. -W. Kim, Predicting Movie Revenue by Online Review Mining: Using the Opening Week Online Review," Information Systems Review, Vol. 16, No. 3(2014), 111~132. Echarte, F., J. J. Astrain, A. Córdoba, and J. E. Villadangos, Ontology of Folksonomy: A New Modelling Method, SAAKM, 289, 36(2007). Gruber, T., Ontology of folksonomy: A mash-up of apples and oranges, International Journal on Semantic Web and Information Systems (IJSWIS), Vol. 3, No. 1(2007), 1~11. Hwang, J. S. and S. Y. Choi, "Analysis of Participants Features in Different Collective Intelligence Models: Comparative Analysis between Korea and U.S.A.," Journal of 62
집단지성을이용한한글감성어사전구축 Cybercommunication, Vol.27, No.4(2010), 257~301. Hwang, J. W., and Y. J. Ko, "A Document Sentiment Classification System Based on the Feature Weighting Method Improved by Measuring Sentence Sentiment Intensity," Journal of KIISE Vol.36, No.6(2009), 491~497. Hwang, S. H., and Y. K. Kang, "Hierarchical Triadic Context Analysis for Folksonomy- Based Web Applications," JDCTA, Vol.2, No.1(2008), 20~27. Jang, J.-Y.,"A Sentiment Analysis Algorithm for Automatic Product Reviews Classification in On-Line Shopping Mall," The Journal of Society for e-business Studies, Vol.14, No.4 (2009), 19~33. Jang, Y., E. Cho, and H. Kim, "An Exploratory Study on Online Prosocial Behavior," Knowledge Management Research, Vol.16, No.1(2015), 225~242. Jung, Y. C., Y. J. Choi, and S. H. Myaeng, A Study on Negation Handling and Term Weighting Schemes and Their Effects on Mood-based Text Classification, Korean journal of cognitive science, Vol.19, No.4 (2008), 477~497. Khan, F. H., S. Bashir, and U. Qamar, "TOM: Twitter opinion mining framework using hybrid classification scheme," Decision Support Systems, Vol.57(2014), 245~257. Kim, J. O., S. Lee, and H. S. Yong, "Automatic Classification Scheme of Opinions Written in Korean," Journal of KIISE: Database, Vol. 38, No.6(2011), 423~428. Kim, Y., N. Kim, and S. R. Jung, "Stock-Index Invest Model Using News Big Data Opinion Mining," Journal of Intelligence and Information Systems Vol.18, No.2(2012), 143~156. Laney, D., "3D data management: Controlling data volume, velocity and variety," META Group, 2001. Lee, J. S., Three-Step Probabilistic Model for Korean Morphological Analysis, Journal of KIISE Vol.38, No.5(2011), 257~268. Lee, S., and H. Yoon, "The Study on Strategy of National Information for Electronic Government of S. Korea with Public Data analysed by the Application of Scenario Planning," The Journal of The Korea Institute of Electronic Communication Sciences Vol.7, No.6(2012), 1259~1273. Lee, Y.-J, "A Semantic-Based Mashup Development Tool Supporting Various Open API Types," Journal of Internet Computing and Services Vol.13, No.3(2012), 115~126. Levenshtein, V. I., "Binary codes capable of correcting deletions, insertions, and reversals," Soviet physics doklady, Vol. 10, No. 8(1966), 707~710. Lévy, P., Collective intelligence, Plenum/Harper Collins, 1997. Lipsman, A., G. Mudd, M, Rich, and S. Bruich, "The power of "like": How brands reach (and influence) fans through social-media marketing," Journal of Advertising research, Vol. 52, No. 1(2012), 40. Malone, T. W., R. Laubacher, and C. Dellarocas, The collective intelligence genome, IEEE Engineering Management Review, Vol.38, No.3(2010), 21~31. McAfee, A., and E. Brynjolfsson, "Big data: the management revolution," Harvard business review, Vol. 90, No.10(2012), 61~67. 63
안정국ㆍ김희웅 Medelyan, O., and C. Legg, "Integrating Cyc and Wikipedia: Folksonomy meets rigorously defined common-sense," Proceedings of the WIKI-AI: Wikipedia and AI Workshop at the AAAI 08 Conference, Chicago, US, (2008). Nasukawa, T., and J. Yi. "Sentiment analysis: Capturing favorability using natural language processing," Proceedings of the 2nd international conference on Knowledge capture, ACM, (2003), 70~77. Ohkura, T., Y. Kiyota, and H. Nakagawa, "Browsing system for weblog articles based on automated folksonomy," Proceedings of the WWW 2006 Workshop on the Weblogging Ecosystem: Aggregation, Analysis and Dynamics, at WWW, Vol. 2006(2006). Ohmukai, I., M. Hamasaki, and H. Takeda, "A proposal of community-based folksonomy with RDF metadata." Proceedings of the 4th International Semantic Web Conference (ISWC2005), (2005). Pang, B., and L. Lee, "Opinion mining and sentiment analysis," Foundations and trends in information retrieval Vol.2, No.1-2(2008), 1~135. Prentice, S., CEO Advisory: Big Data Equals Big Opportunity, Gartner, March 31, 2011. Russell, T., "Contextual authority tagging: Cognitive authority through folksonomy," Unpublished manuscript. Retrieved, Vol. 11, No.16(2005). Sulis, W., "Fundamental concepts of collective intelligence," Nonlinear Dynamics, Psychology, and Life Science, Vol. 1, No.1(1997), 35~53. Taboada, M., J. Brooke, M. Tofiloski, K. Voll, and M. Stede, Lexicon-based methods for sentiment analysis, Computational linguistics, Vol. 37, No. 2(2011), 267~307. Thomas, V. W., Folksonomy, online posting, 2007. Xu, Z., Y. Fu, J. Mao, and D. Su, Towards the semantic web: Collaborative tag suggestions, Collaborative web tagging workshop at WWW2006, Edinburgh, Scotland, (2006). 64
집단지성을이용한한글감성어사전구축 Abstract 1) Building a Korean Sentiment Lexicon Using Collective Intelligence Jungkook An* ㆍ Hee-Woong Kim** Recently, emerging the notion of big data and social media has led us to enter data s big bang. Social networking services are widely used by people around the world, and they have become a part of major communication tools for all ages. Over the last decade, as online social networking sites become increasingly popular, companies tend to focus on advanced social media analysis for their marketing strategies. In addition to social media analysis, companies are mainly concerned about propagating of negative opinions on social networking sites such as Facebook and Twitter, as well as e-commerce sites. The effect of online word of mouth (WOM) such as product rating, product review, and product recommendations is very influential, and negative opinions have significant impact on product sales. This trend has increased researchers attention to a natural language processing, such as a sentiment analysis. A sentiment analysis, also refers to as an opinion mining, is a process of identifying the polarity of subjective information and has been applied to various research and practical fields. However, there are obstacles lies when Korean language (Hangul) is used in a natural language processing because it is an agglutinative language with rich morphology pose problems. Therefore, there is a lack of Korean natural language processing resources such as a sentiment lexicon, and this has resulted in significant limitations for researchers and practitioners who are considering sentiment analysis. Our study builds a Korean sentiment lexicon with collective intelligence, and provides API (Application Programming Interface) service to open and share a sentiment lexicon data with the public (www.openhangul.com). For the pre-processing, we have created a Korean lexicon database with over 517,178 words and classified them into sentiment and non-sentiment words. In order to classify them, we first identified stop words which often quite likely to play a negative role in sentiment analysis and excluded them from our sentiment scoring. In general, sentiment words are nouns, adjectives, verbs, adverbs as they have sentimental * Graduate School of Information, Yonsei University ** Corresponding author: Hee-Woong Kim Graduate School of Information, Yonsei University 134 Shinchon, Seodaemun, Seoul 120-749, Korea Tel: +82-2-2123-4195, E-mail: kimhw@yonsei.ac.kr Bibliographic info: J Intell Inform Syst 2015 June: 21(2): 49~67 65
안정국ㆍ김희웅 expressions such as positive, neutral, and negative. On the other hands, non-sentiment words are interjection, determiner, numeral, postposition, etc. as they generally have no sentimental expressions. To build a reliable sentiment lexicon, we have adopted a concept of collective intelligence as a model for crowdsourcing. In addition, a concept of folksonomy has been implemented in the process of taxonomy to help collective intelligence. In order to make up for an inherent weakness of folksonomy, we have adopted a majority rule by building a voting system. Participants, as voters were offered three voting options to choose from positivity, negativity, and neutrality, and the voting have been conducted on one of the largest social networking sites for college students in Korea. More than 35,000 votes have been made by college students in Korea, and we keep this voting system open by maintaining the project as a perpetual study. Besides, any change in the sentiment score of words can be an important observation because it enables us to keep track of temporal changes in Korean language as a natural language. Lastly, our study offers a RESTful, JSON based API service through a web platform to make easier support for users such as researchers, companies, and developers. Finally, our study makes important contributions to both research and practice. In terms of research, our Korean sentiment lexicon plays an important role as a resource for Korean natural language processing. In terms of practice, practitioners such as managers and marketers can implement sentiment analysis effectively by using Korean sentiment lexicon we built. Moreover, our study sheds new light on the value of folksonomy by combining collective intelligence, and we also expect to give a new direction and a new start to the development of Korean natural language processing. Key Words : Sentiment Lexicon, Korean Natural Language Processing, Sentiment Analysis, Collective Intelligence, Folksonomy Received : May 20, 2015 Revised : June 12, 2015 Accepted : June 13, 2015 Type of Submission : Fast Track Corresponding Author : Hee-Woong Kim 66 Bibliographic info: J Intell Inform Syst 2015 June: 21(2): 49~67
집단지성을이용한한글감성어사전구축 저자소개 안정국현재연세대학교정보대학원에서박사과정재학중이며, 주요연구분야는 Big Data Analytics, Natural Language Processing, Data Mining, Text Mining 등이다. 김희웅 National University of Singapore 정보시스템학과에서근무후, 현재연세대학교정보대학원교수로근무중이다. 주요관심분야는디지털비즈니스, 정보시스템관리및활용등이다. 관련연구들은 MIS Quarterly, Information Systems Research, Journal of Management Information Systems, Journal of the Association for Information Systems, IEEE Transactions on Engineering Management, Journal of Retailing, European Journal of Operational Research, Communications of the ACM 등에 40 여편의논문이게재되었다. 67