ISSN 2383-630X(Print) / ISSN 2383-6296(Online) Journal of KIISE, Vol. 42, No. 4, pp. 512-521, 2015. 4 http://dx.doi.org/10.5626/jok.2015.42.4.512 인터넷감정기호를이용한긍정 / 부정말뭉치구축및감정분류자동화 (Automatic Construction of a Negative/positive Corpus and Emotional Classification using the Internet Emotional Sign) 장경애 박상현 김우제 (Kyoungae Jang) (Sanghyun Park) (Woo-Je Kim) 요약네티즌은인터넷을통해서상품을구매하고상품에대한감정을긍정혹은부정으로상품평에표현한다. 상품평에대한분석은잠재적소비자뿐만아니라기업의의사결정에중요한자료가된다. 따라서인터넷의대량리뷰에서의미있는정보를분석하여의견을도출하는오피니언마이닝기술의중요성이증대되고있다. 기존의연구는대부분이영어를기반으로진행되었고아직한글에대한상품평분석은활발히이루어지지않고있다. 또한한글은영어와달라꾸미는말과어미가복잡한특성을갖고있다. 그리고기존의연구는통계적기법, 사전기법, 기계학습기법등을사용하여연구되었으나인터넷언어의특성을감안하지는못하였다. 본연구에서는감정이포함된인터넷언어의특성을분석하여감정분석의정확률을높이는감정분류방법을제안한다. 이를통해데이터에독립적인인터넷감정기호를이용해서자동으로긍정및부정상품평을분류할수있었고높은정확률, 재현율, Coverage 결과를통해서제안알고리즘의유효성을확인할수있었다. 키워드 : 오피니언마이닝, 텍스트마이닝, 상품평, 기계학습, 분류기법, 긍정 / 부정단어사전 Abstract Internet users purchase goods on the Internet and express their positive or negative emotions of the goods in product reviews. Analysis of the product reviews become critical data to both potential consumers and to the decision making of enterprises. Therefore, the importance of opinion mining techniques which derive opinions by analyzing meaningful data from large numbers of Internet reviews. Existing studies were mostly based on comments written in English, yet analysis in Korean has not actively been done. Unlike English, Korean has characteristics of complex adjectives and suffixes. Existing studies did not consider the characteristics of the Internet language. This study proposes an emotional classification method which increases the accuracy of emotional classification by analyzing the characteristics of the Internet language connoting feelings. We can classify positive and negative comments about products automatically using the Internet emoticon. Also we can check the validity of the proposed algorithm through the result of high precision, recall and coverage for the evaluation of this method. Keywords: opinion mining, text mining, product review, machine learning, Classification, positive/ negative dictionary 정회원 : 서울과학기술대학교 IT정책대학원산업정보시스템 jkalove@hanmail.net 종신회원 : 연세대학교컴퓨터과학과교수 sanghyun@cs.yonsei.ac.kr 비회원 : 서울과학기술대학교글로벌융합산업공학과교수 wjkim@seoultech.ac.kr (Corresponding author 임 ) 논문접수 : 2014년 10월 13일 (Received 13 October 2014) 논문수정 : 2015년 1월 1일 (Revised 1 January 2015) 심사완료 : 2015년 2월 11일 (Accepted 11 February 2015) CopyrightC2015 한국정보과학회ː 개인목적이나교육목적인경우, 이저작물의전체또는일부에대한복사본혹은디지털사본의제작을허가합니다. 이때, 사본은상업적수단으로사용할수없으며첫페이지에본문구와출처를반드시명시해야합니다. 이외의목적으로복제, 배포, 출판, 전송등모든유형의사용행위를하는경우에대하여는사전에허가를얻고비용을지불해야합니다. 정보과학회논문지제42권제4호 (2015. 4)
인터넷감정기호를이용한긍정 / 부정말뭉치구축및감정분류자동화 513 1. 서론 1.1 연구배경및목적인터넷을통한전자상거래는최근스마트디바이스의확산으로시공간의제약없이인터넷을이용할수있게되면서더욱활발하게이루어지고있다. 방송통신위원회와한국인터넷진흥원 (KISA) 이발표한 2012년인터넷이용실태조사 [1] 에따르면만3세이상인구의인터넷이용률은 78.4% 로, 인터넷이용자수는전년보다 94만명증가한 3천 8백 12만명으로조사되었다. 인터넷을이용하는용도로는 자료및정보획득 이 92.3% 로가장높았고, 상품이나서비스를구매및판매 하는경우도 57.7% 로절반이상으로높게조사되었다 [1]. 인터넷을이용한전자상거래는일반적인일이되었고, 인터넷을통해공유되는상품평은소비자의구매활동에직접적인영향을미치게되었다. 동일한상품에대해서상품평을읽은소비자들은읽기전보다상품의신뢰, 기대치, 구매의도등이변화되어실제구매활동에영향을받는다것이연구결과밝혀졌다 [2]. 상품평에대한분석은잠재적소비자의행동뿐만아니라기업의의사결정에중요한자료가된다. 그러나지속적으로늘어나고다양한사이트로분산되어있는방대한상품평및리뷰데이터를수작업으로분석하기는어렵다. 따라서인터넷의대량리뷰에서유의미한정보를분석하여의견을유추해주는오피니언마이닝 (Opinion Mining) 기술의중요성은증대되고있다. 기존연구의대부분이영어를기반한연구로진행되어아직한글에대한상품평분석은활발히이루어지고있지않았으며활용할만한자료가존재하지않았다 [4,5]. 한글은꾸미는말과어미가다양하여영어와달리분석이어려우며, 네티즌은인터넷쇼핑몰이나 SNS공간에서정제된한글이아니라인터넷언어를사용하고있다. 인터넷언어를고려하지않은상품평분석은정확도가떨어지고 [6,11], 기존구매자의정확한의견을파악할수없다. 따라서본논문에서는네티즌이사용하는인터넷언어의특성을분석하고상품평에잠재된의미를파악하여감정분석의정확도를높이고감정분류의성능을향상시키는방법을제안한다. 1.2 연구범위및방법한국네티즌이감정을표현하는이모티콘과한글의초성, 특수기호로인터넷감정기호사전을구축하고이를통해긍정 / 부정말뭉치와상품평의감정분류를자동으로수행할수있는분류방법을제안한다. 분석데이터는노트북, MP3, 모니터의상품평을수집하고분석하였다. 그이유는 20대와 30대가인터넷상품구매및판매의비율이가장높은연령대이므로, 이연령대의관심영역에 해당하는최신기기를선정하였다. 연구를위하여 Python 2.7, 루씬형태소분석기, Weka 3.6, Java와 Visual Basic 을이용한메크로를구현하여실험을진행하였다. 본연구는총 5장으로구성되며 1장은연구의배경및목적을소개하고, 2장에서는관련선행연구를검토하여문제점및개선방향을도출하고, 3장에서는본연구방법을설계하고, 4장에서는연구의결과를제시한다. 5장에서는결론과향후추가연구과제에대해서논의한다. 2. 이론적배경과선행연구의고찰 2.1 오피니언마이닝오피니언마이닝은텍스트데이터에서긍정 (positive), 부정 (negative) 의의견을판단하고활용하는목적으로사용된다. 네티즌이인터넷 SNS, 전자상거래등을통해서인터넷에댓글, 리뷰, 상품평을남기면서대량의인터넷데이터에숨은감정을분석하기위해오피니언마이닝이활용되고있다. 또한전자상거래분야에서는소비자가상품을눈으로직접확인할수없는특성때문에상품평감정분석에대한연구로오피니언마이닝을활용하기시작했다. 오피니언마이닝은게시글이나특정주제에따른네티즌의특성을파악하고문장에잠재한의미를도출하여긍정인지부정인지감정을파악하는연구분야이다. 오피니언마이닝은일반적으로데이터를수집하여특징을추출하고, 감정을분석하고요약및표현하는과정으로진행된다 [4-7]. 먼저특징추출과정에서는분석하고자하는상품의특징에해당하는속성정보와감정정보를추출한다. 수집된데이터의전처리과정을거치고문장의형태소를분석하여파싱한다. 전처리과정에서객관적인문장과주관적인문장을분리하여객관적인문장은분석에서제외한다. 그리고감정분석과정에서단어및문장의감정을통계기법, 기계학습, 자연어처리등다양한기법을활용하여긍정과부정으로분류한다. 본논문은특징추출과감정분석단계를인터넷감정기호사전구축단계, 긍정 / 부정말뭉치구축단계, 감정기호와긍정 / 부정말뭉치를통한극성통합분류단계로전체 3단계사이클 (Cycle) 을구성하여네티즌상품평의정확도를높이는방법을제안한다. 2.2 선행연구분석사용자의상품이긍정적인지부정적인지판단하는극성판단을위한오피니언마이닝에사용되는기법은자연언어처리기법과정량적실험기반으로나눌수있다. 자연언어처리기법은어휘에서품사의관계분석및품사의의미방향등을통해극성을판단한다 [5,11,14,15]. [5] 에서는자연어처리기법을활용하여후보어휘를추천하여의미사전을구축하였으며, [11] 에서는형용사, 동사,
514 정보과학회논문지제 42 권제 4 호 (2015. 4) 부사의각문장에서성질과방향을이용해서극성을판단하는알고리즘을제안하였다. 또한기구축된긍정 / 부정말뭉치사전을활용하거나외국의경우는워드넷 (WordNet) 을활용하여연구도시도되었다 [17,18]. 이연구에서는워드넷을활용하여유의어와반의어에의한분석으로긍정, 부정의어휘를파악하고센티워드넷 (Senti- WordNet) 으로감정을수치화하는작업을수행하였다. 최근에는데이터의정량적인실험을통한통계기반기법과기계학습법을통한극성을분류하는연구가진행되고있다. 통계기반기법의대표적인방법으로단어의출현빈도에따른 PMI(Pointwise Mutual Information) 방법을사용한다 [7,19]. SVM(Support Vector Machine), CRFs(Conditional Random Fields), 네이브베이즈등을활용한기계학습기법으로극성을분류하기도한다 [16, 20,21,24,25]. 또한자연어처리기법과통계적, 기계학습법을혼합하여분석을진행하기도한다 [6,13,16,21]. 선행연구방법을살펴보면, 감정어휘를효율적으로추출하기위해서는초 / 중성음운패턴을사용하거나 [6], 한글어구문패턴을정의하여감정단어를추출하는방법 [13] 이있었다. 또한상품리뷰의순위를지정하는방법으로는출현빈도, 인트로피, 근접도등의알고리즘을활용한연구 [22], 의미사전을구축하고가중치를부여하여순위를지정한연구 [5] 등이있었다. 그리고분석된어휘를긍정 / 부정감정으로분류하는사전을자동으로구축하는방법을제안한연구도시도되었다 [5,7,8]. 2.3 선행연구와의차별성그러나오피니언마이닝을통한상품평감정분석에대한선행연구에는한계점이존재한다. 첫째, 전문가들이수작업으로긍정 / 부정말뭉치를구축하였는데, 이는정확도는향상될수있으나샘플링에의한분석이아니라대량의의견분석에서는상당한시간과노력이소요되므로어려운작업이된다. 이를위하여별점및리뷰점수로분류하는경우가존재하였으나다각적인연구는부족하였다. 둘째, 대부분영어를기반으로오피니언마이닝이연구가선행되었다. 한국어와영어의문장구조가상이하여한국어를영어로번역한다고하더라도그의미가똑같지않아선행연구를활용하기어려우며, 워드넷 (WordNet) 은통한연구또한한글에그대로적용하기는한계가존재한다. 셋째, 기계학습기법을적용한연구는학습한어휘가동일한도메인에서는좋은결과를나타낼수있으나다른도메인에서는상이한결과가나타날수있어활용도가저하된다. 따라서데이터분석에서도메인, 토픽, 시간의의존성을줄이는노력이필요하다 [20]. 일부에서데이터도메인의의존성을줄이기위해공통도메인단어 를분류하여활용하였으나복잡도가증가하였다 [7,8,15]. 따라서본연구는인터넷언어에서즐거움, 행복, 슬픔, 분노, 실망등의감정을추출하여극성분석에효율성을높이고자하였다. 이를위하여인터넷언어에서감정이표현되는이모티콘과초성을기반으로긍정 / 부정인터넷감정기호사전을구축하고이를통해서감정기호가포함된상품평의극성을분류한다. 또한분류된극성상품평을활용하여긍정 / 부정말뭉치를자동구축하고이를활용하여전체상품평의극성을분류하는방법으로상품평의극성분석의정확도및커버리지를높였다. 3. 연구설계 3.1 제안메소드의개요본연구에서는상품평의감정을분석하여극성을판별하는 3단계방법을제안한다. 1단계는인터넷감정언어를기반으로상품평의제한범위에서극성분류를하는단계이다. 네티즌이감정을표현하는이모티콘, 한글초성, 특수기호를분석하고긍정 / 부정으로분류하여인터넷감정기호사전을구축한다. 이를기반으로감정기호가포함된상품평의극성분류를수행한다. 2단계는 1단계에도출된감정분류상품평을기준으로긍정 / 부정단어를도출해서자동으로말뭉치를구축하는단계이다. 1 단계에서분류된긍정 / 부정상품평그룹을기반으로형태소분석을통해속성단어와감정단어를도출하여한그림 1 연구절차 Fig. 1 Process of Research
인터넷감정기호를이용한긍정 / 부정말뭉치구축및감정분류자동화 515 글긍정 / 부정말뭉치사전을구축한다. 3단계는인터넷감정기호사전과긍정 / 부정단어사전으로전체범위의상품평을감정분석하여상품평의최종극성을판별하는자동화단계로이루어진다. 본연구에서는 2개의사전을구축하게되는데 1단계의인터넷감정기호사전은수작업으로수행되며, 2단계및 3단계에서활용되는긍정 / 부정말뭉치는자동으로구축된다. 단계별극성분류는정확률과재현율을기준으로비교검증한다. 정확률은전체건수대비적합한건수를찾은비율이고재현율은전체적합건수대비적합건수를찾은비율을의미한다. 즉정확률은검색된건수들이얼마나적합한지를나타내는척도로부합된값을정확히도출한것에대한검증, 재현율은적합건수를얼마나많이검색했는지를의미하여적합한건수를검색하는능력을검증이다. Precision( 정확률 )= 검색된적합건수 /( 검색된적합건수 + 검색된부적합건수 )*100 Recall( 재현율 )= 검색된적합건수 /( 검색된적합건수 + 검색되지않은적합건수 )*100 3.2 감정기호를이용한상품평극성분류기존연구에서는긍정 / 부정사전을상품평의어휘에한정하여자연어분석혹은통계적기법등을사용하였다. 그러나사전구성에서수작업의문제 [5,7,8], 상품속성과문맥에따라감정어의극성이다르게분류되는도메인에대한의존성의약점이발견되었다 [20]. 이러한문제의대안을제시하기위해본연구에서는네티즌의감정을소실없이분석하기위하여인터넷감정기호를활용한사전을구축한다. 그리고인터넷쇼핑몰에서노트북, MP3, 모니터의상품평을수집하여상품평의긍정과부정으로분류한다. 상품평은긍정문장과부정문장이혼합되어있으므로인터넷감정기호사전을이용한극성분류시문장단위극성을판단하는 SO-PMI(Semantic Orientation from Point-wise Mutual Information) 방식을적용한다. 본연구에서는 SO-PMI를그대로적용하지않고감정기호에건수를적용한 SO-PMI를적용한다. 각감정기호에동일한감정기호가중첩될경우건수를곱한긍정단어집합에서부정단어집합의차를구하여양수이면긍정적이고음수이면부정적으로최종감정의극성을판별한다. 수식으로나타내면다음과같다. 3.3 긍정 / 부정말뭉치자동구축상위에사용된인터넷감정기호사전을이용한분류는인터넷감정기호가포함되지않을상품평에는적용할수없다. 따라서인터넷감정기호를이용해서분류된긍정 / 부정상품평에서유의미한단어를추출하여전체적상품평분석에활용할수있다. 본연구에서는인터넷감정기호사전에서분류된긍정문장과부정문장을형태소분석하여긍정 / 부정단어를추출하여말뭉치사전을자동으로구축한다. 이방법은기존에수작업으로진행되는것보다효율적인결과를도출할수있었다. 형태소분석은 Java기반의오픈소스 루씬형태소분석기 를활용한다. 형태소분석기를활용하면표 1과같이단어를파싱하여품사를구분하여결과를도출할수있다. 분류된형태소에서상품평의감정을분류하기위하여속성단어와감정단어를추출한다. 이들은문장에서명사형이나명사구절의형태소로나타나고문장에주어역할을한다. 그리고감정단어는상품속성에의견을부여하여형용사의형태소로나타나고이는문장에서서술어혹은주격보어, 목적격보어로나타난다. 형태소분석결과에서명사 (N) 과동사 (V) 를추출하여긍정 / 부정분류에활용한다. 추출한단어를긍정 / 부정으로자동분류하고, 속성단어와감정단어로분류하여출현빈도를계산한다. 출현빈도가높은단어는상품평의감정분석에영향도가높다고판단할수있다. 그리고긍정문장과부정문장에서동시에추출된단어가존재할수있으므로이들의출현빈도를기준으로긍정혹은부정단어로재분류하여긍정 / 부정말뭉치를구축한다. 표 1 상품평형태소분석예시 Table 1 Reviews of Morphological Analysis Result Ex) Result 아, 정말너무이뻐요ㅋㅋ노란색완전사랑스러운데요??? ㅋㅋㅋㅋ배송도빨랐고 아 (Z)-> <100> 정말 (Z)-> <100> 너무 (Z)-> <100> 이쁘 (V), 어요 (e)-> <100> 노란색 (N)-> <30> 완전 (N)-> <100> 사랑스러운데 (N), 요 (j)-> 사랑 / 스러운데 / <70> 배송 (N), 도 (j)-> <30> 배송도 (N)-> <30> 빠르 (V), 었 (f), 고 (e)-> <100> 3.4 최종상품평극성자동판별상위 1단계와 2단계에서구축된인터넷감정기호사전과긍정 / 부정말뭉치를기반으로통합된상품평의감정을분석하여자동으로극성을판별한다. 또한상품평을인터넷감정기호와긍정 / 부정말뭉치를기반으로실험
516 정보과학회논문지제 42 권제 4 호 (2015. 4) 데이터를생성하여기계학습을통해예측실험을하고제안알고리즘과비교실험한다. 4. 실험결과 4.1 인터넷감정기호기반상품평극성분류인터넷언어를이용한상품평의극성분류를위해서먼저 Wikipedia에명시된 대한민국인터넷신조어 를참조하여인터넷감정기호사전을구축하였다. 인터넷신조어중에서감정을표현하는이모티콘, 특수기호, 상품평에해당하는출현빈도및감정을내포하고있는한글초성 43개를추출하여긍정 / 부정으로수동으로분류하고사전을표 2와같이구축하였다. 인터넷상품평 MP3, 노트북, 모니터각 400건씩 1200 개의상품평을무작위추출하여인터넷감정기호의포함여부를표시한실험데이터를생성하였다. 실험데이터에인터넷감정기호사전의누적건수 SO-PMI기법을적용하여상품평의극성을분류하였다. 또한실험에사용된 1200개의상품평데이터는의미판단을위하여수작업으로관찰하여긍정 / 부정판단을하고태깅을달았다. 이때 3명의연구인력을투입하여의미를파악하고 2 인이상이동일한판단을한상품평을시험데이터로사용하였다. 실제판단한긍정 / 부정판단과감정기호사전기반의제안알고리즘으로판단된결과를비교하였다. 실제상품평의극성분류가감정기호를기반으로정확하게분류되었는지를평가하기위하여정확률 (Precsion) 과재현율 (Recall), 분포도 (Coverage) 를산출하였다. 표 2 인터넷감정기호사전구축사례 Table 2 The Dictionary based on the Internet Emotional Sign Class Sign Word Class Meaning Positive Negative ㅇㅋ Verb( 동사 ) 허락하다 ㅋㅋ ㅎㅎ Onomatopoeia ( 의성어 ) Onomatopoeia ( 의성어 ) 큭큭, 크크크 호호호, 하하하 ㅅㄱ Verb( 동사 ) 수고하세요 ^^ T-T ㅠㅠ OTL -_-;; ㄷㄷ 웃는표정 우는표정 슬프게우는표정 좌절하는모습 경직된표정 떨리는모습 표 3 인터넷감정기호기반극성분류실험결과 Table 3 Results of Classification based on the Internet Emotional Sign (Note: P.:Positive, N.:Negative, Pre.:Precision, Re.:Recall, Dst.:Distribution) Data Real ( 실제 ) Exam ( 실험 ) Fit Pre. Re. Dst. MP3 371 243 206 0.85 0.56 0.65 Laptop 368 194 171 0.88 0.47 0.53 Monitor 381 194 176 0.91 0.46 0.51 Average 0.88 0.49 0.56 표 4 제안알고리즘과기계학습비교실험결과 Table 4 Machine Learning Algorithm and Compares Results Class Precision Recall Internet Emotional Dictionary 0.879 0.494 Machine Learning 0.850 0.880 실험결과는표 3과같이정확률은평균 88% 로높게나타났으나, 재현율은평균 49% 로낮게나타났다. 이결과는감정기호가상품평에분포하는분포도가평균 56% 수준이기때문에낮은재현율이나타난것으로판단된다. 추가적으로상대평가를위하여제안알고리즘이기계학습의예측율과어떤차이를나타내는지비교실험을실시하였다. 인터넷감정기호로감정분류한데이터에Naive- Bayes 알고리즘, SMO알고리즘, J48알고리즘, IBK 알고리즘을사용하여분류하였다. 준비된상품평데이터중 MP3, 노트북, 모니터각각 100개씩추출하여학습데이터로활용하여실험하였다. 그리고제안알고리즘과비교하기위하여상위에사용된 1200개의동일한상품평을실험데이터로준비하여실험을실시하였다. 실험은 10 배교차검증 (10-fold-cross validation) 으로진행하였고정확률과재현율로극성분류의정확도를비교하였다. 실험결과는표 4와같이 NaiveBayes, SMO, J48, IBK 알고리즘에서평균정확률 85%, 재현율 88% 를예측했다. 인터넷감정기호사전기반극성분류를대표적인분류기계학습알고리즘과비교한결과정확률은 88% 로더높게나타났으나, 재현율에는차이가있는것으로확인되었다. 그이유는기계학습에서는감정기호가미포함된데이터를하나의패턴으로인식해서분류하였기때문이고, 제안알고리즘에서는건수별오류로분류하였기때문으로사료된다. 4.2 긍정 / 부정말뭉치자동구축무작위추출된상품평에서인터넷감정기호의분포도를살펴본결과 60% 로전체인터넷상품평을커버하기에는부족하였다. 따라서본연구에서는나머지 40% 의
인터넷감정기호를이용한긍정 / 부정말뭉치구축및감정분류자동화 517 표 5 형태소분석후후보단어추출결과 Table 5 After Morphological Analysis Candidate Word Extraction Results Data Total Positive Negative MP3 3,045건 2,530건 515건 Laptop 2,599건 1,959건 640건 Monitor 548건 441건 107건 Total 6,192건 4,930건 1,262건 표 6 MP3 추출속성 / 검정단어 ( 상위 5개 ) Table 6 Extract MP3 Attributes/Emotion Words(Top 5) 구분 Attribute Emotion Word Count Word Count 가격 (N) 1060 좋 (V) 1185 배송 (N) 924 만족 (V) 489 Positive 이어폰 (N) 751 맘 (N) 348 음질 (N) 582 괜찮 (V) 339 디자인 (N) 561 추천 (N) 298 가격 (N) 172 없 (V) 138 이어폰 (N) 142 않 (V) 123 Negative 배송 (N) 118 아니 (V) 82 음질 (N) 112 추천 (N) 67 동영상 (N) 96 만족 (V) 54 표 7 노트북추출속성 / 감정단어 ( 상위 5개 ) Table 7 Extract Laptop Attributes/Emotion Words(Top 5) Class Positive Negative Word Count Word Count 가격 (N) 103 좋 (V) 220 배송 (N) 75 괜찮 (V) 99 Positive 성능 (N) 74 어서 (e) 97 인터넷 (N) 39 많 (N) 94 화면 (N) 33 만족 (N) 86 가격 (N) 34 없 (V) 72 배송 (N) 24 아니 (V) 39 Negative 인터넷 (N) 22 않 (V) 36 화면 (N) 22 많 (N) 33 성능 (N) 22 문제 (N) 28 상품평에대한극성분류를수행하기위해서상위에실험 된인터넷감정기호사전을활용하여의미있는단어를 도출하였다. 먼저인터넷감정기호사전으로긍정 / 부정문 장그룹을기준으로형태소분석한결과긍정형태소 176,176건, 부정형태소 46,994건이분류되었다. 그리고 형태소분석결과를기준으로상품의특성을나타내는속 성단어와상품의감정을나타내는감정단어를표 5와같 이추출하였다. 표 8 모니터추출속성 / 감정단어 ( 상위 5개 ) Table 8 Extract Monitor Attributes/Emotion Words(Top 5) Class Attribute Emotion Word Count Word Count 가격 (N) 885 좋 (V) 1647 배송 (N) 555 많이 (N) 954 Positive 화면 (N) 483 만족 (N) 466 화질 (N) 332 사용 (N) 461 디자인 (N) 295 구입 (N) 386 가격 (N) 170 없 (V) 134 화면 (N) 104 만족 (N) 114 Negative 화질 (N) 81 않 (V) 73 배송 (N) 74 하지 (N) 52 디자인 (N) 48 아니 (V) 51 표 9 공통긍정 / 부정말뭉치구축 ( 상위 5개 ) Table 9 Extract Positive/Negative Corpus(Top 5) Rank Positive Word Negative Word 1 좋 (V) 없 (V) 2 만족 (V) 않 (V) 3 맘 (N) 아니 (V) 4 괜찮 (V) 불편 (N) 5 추천 (N) 모르 (V) 형태소분석결과에서 MP3, 노트북, 모니터에서추출 빈도기준상위 20개의긍정 / 부정단어를추출하였다. 감 정단어및속성단어를추출한결과, 속성단어는 10% 인 데이터도메인에한정된단어이외 90% 는도메인과무 관하게일치하였고, 감정단어또한 90% 이상일치하는 결과를나타냈다. 감정단어중긍정과부정문장에서출 현빈도를비교하여높은빈도의단어를긍정과부정으 로분류하였다. 이를기준으로공통으로사용되는긍정 / 부정단어말 뭉치를표 9와같이긍정 44개부정 21개의단어를구 축하였다. 또한공통으로출현되는속성단어와감정단어를제외 하고데이터도메인에특수하게나타난속성단어를추 출하여관련된감정단어를단어사전에추가하였다. 감정기호를기반으로긍정 / 부정단어를추출한말뭉치 로상품평의극성분류실험을실시한결과표 11과같 이정확률 86% 로비슷하게나타났으나, 재현율 86% 로 상당히높은값으로나타났다. 이렇게재현율이높은이 유는긍정 / 부정단어가실험데이터에나타난분포도가 99% 로높은이유라고사료된다. 이결과를제안알고리즘과비교검증해보면, 정확률 과재현율모두제안하는알고리즘이기계학습알고리즘
518 정보과학회논문지제 42 권제 4 호 (2015. 4) 표 10 도메인기반긍정 / 부정말뭉치사례 Table 10 Extract Positive/Negative Corpus based on the Business Domain Data Attribute Positive Negative MP3 MP3 Laptop Laptop Laptop Monitor 이어폰 (N) 음질 (N) 인터넷 (N) 화면 (N) 마우스 (N) 화면 (N) 잘들리기 (N)/ 괜찮 (N)/ 무통증 (N) 괜찮 (N)/ 깨끗 (N)/ 고음질 (N)/ 깔끔 (N) 빠르 (V)/ 좋 (V)/ 쓸만 (N) 깔끔 (N)/ 크고 (N)/ 크 (V) 좋 (V)/ 잘되 (V)/ 쓸만 (N) 좋 (V)/ 밝은 (N)/ 환 (N)/ 크 (V) 안나오네 (N)/ 안들리네 (N)/ 다르 (V) 나쁜 (N)/ 불만 (N)/ 떨어지 (V) 느리 (V)/ 꺼지 (V)/ 별루 (N) 떨어져 (V)/ 잡티 (N)/ 눈부셔 (N) 불량 (N)/ 안 (N)/ 없 (V) 떨리 (V)/ 꺼지 (V)/ 안뜨네 (N) 표 11 긍정 / 부정말뭉치기반극성분류실험결과 Table 11 Classification Results based on the Positive/Negative Dictionary (Note: P.:Positive, N.:Negative, Pre.:Precision, Re.:Recall, Dst.:Distribution) Data Real ( 실제 ) Exam ( 실험 ) Fit Pre. Re. Dst. MP3 371 370 312 0.84 0.84 0.99 Laptop 368 365 303 0.83 0.82 0.99 Monitor 381 380 351 0.92 0.92 0.99 Average 0.87 0.86 0.99 표 12 긍정 / 부정단어사전기반상품평극성분류비교실험결과 Table 12 Classification Results based on the Positive/ Negative and Emotional Dictionary Class Precision Recall Emotion Dictionary (Step 1) 0.878 0.494 Positive/Negative Dictionary (Step 2) 0.865 0.862 4.3 상품평의최종극성자동판단인터넷감정기호사전을구축하여상품평의감정을분류한결과감정기호가포함되지않은상품평에대해감정을분류할수없는이슈가발생되었다. 따라서감정기호로분류된긍정 / 부정문장에서단어를추출하여긍정 / 부정단어사전을구축하였다. 본장에서는인터넷감정기호와긍정 / 부정말뭉치를통합하여상품평의감정을분류하는실험을실시하였다. 먼저상위에서사용되었던 MP3, 노트북, 모니터의 1200 개상품평을동일하게실험데이터로구성하여상품평감정분류를실험한결과표 14와같이제안알고리즘의분포도 (Coverage) 는 99.9% 이고정확률과재현율은 88% 를나타냈다. 전체실험건수대비공통으로평가된건수의비율은 93% 을나타냈다. 그림 2와같이 1단계실험의인터넷감정기호사전, 2 단계실험의긍정 / 부정단어사전, 3단계실험의혼합방식의실험결과를비교하면표 15와같이 3단계혼합방식이정확률및재현율, 분포도가높게모두나타났다. 다음은검증을위해서인터넷쇼핑몰에서 MP3, 노트북, 모니터의상품평의신규실험데이터 600건을추가로추 표 14 통합극성분류실험결과 Table 14 Integrated Classification Results (Note: P.:Positive, N.:Negative, Pre.:Precision, Re.:Recall, Dst.: Distribution) Data Real ( 실제 ) Exam ( 실험 ) Fit Pre. Re. Dst. MP3 371 371 320 0.86 0.84 0.99 Laptop 368 367 310 0.84 0.82 0.99 Monitor 381 381 358 0.93 0.92 0.99 Average 0.88 0.86 0.99 표 13 제안알고리즘과기계학습비교실험결과 Table 13 Classification Compares Results based on the Positive/Negative and Emotional Dictionary Class Precision Recall Positive/Negative Dictionary 0.865 0.862 Machine Learning 0.830 0.861 보다높게나타났다. 이결과로인터넷감정기호사전기반실험으로정확도가높은긍정 / 부정단어가추출되었음을확인할수있었다. 그림 2 단계별제안알고리즘비교그래프 Fig. 2 Step-by-Step Algorithm Comparison Graph (Note: P.:Positive, N.:Negative, Dic.:Dictionary)
인터넷감정기호를이용한긍정 / 부정말뭉치구축및감정분류자동화 519 표 15 최종극성판단결과 Table 15 Final Classification Results (Note: P.:Positive, N.:Negative, Pre.:Precision, Re.:Recall, Dst.:Distribution) Data Real ( 실제 ) Exam ( 실험 ) Fit Pre. Re. Dst. 1200 1120 1119 989 0.88 0.88 0.99 600 600 600 545 0.91 0.91 1.00 Average 0.90 0.90 0.99 출하고실험자와 2명이태깅한데이터를제안하는알고리즘과기존분류알고리즘을적용하여실험을실시하였다. 기구축된인터넷감정기호사전과긍정 / 부정단어사전을기반으로상품평의극성을분류한결과표 15와같이정확률 91%, 재현율 91%, 분포도 99% 의결과를나타냈다. 5. 결론및향후연구 5.1 연구의요약및결론본연구에서는한국인터넷언어의특성을분석하여감정기호를보존하면서상품평의극성분류의정확도를높이는것을목표로하였다. 이를위하여 3단계분석방법을제안하였으며, 1단계는인터넷수동감정기호사전구축및극성분류단계, 2단계는긍정 / 부정말뭉치자동구축및극성분류단계, 3단계는감정기호사전과긍정 / 부정말뭉치사전을통합하여상품평자동극성분류하는방법을제안하였다. 먼저한국네티즌의인터넷언어에서이모티콘, 특수기호, 한글초성의감정기호를추출하여인터넷감정기호사전을구축하였다. 이제안알고리즘은간단하면서도데이터도메인이나토픽, 시간에독립적인방법으로의미가크다. 다음은인터넷감정기호사전기반으로긍정 / 부정문장에서단어를추출하여말뭉치를구축하였다. 구축한사전의단어를기반으로상품평의극성을분류한결과분포도 (Coverage) 는전체를수용할수있는 99% 의우수한결과를도출하였고기계학습알고리즘대비높은정확도를얻을수있었다. 마지막으로감정기호사전과긍정 / 부정말뭉치사전을통합하여상품평극성분류를실험한결과상품평에실험데이터의분포도 (Coverage) 는 99% 로나타났고, 정확률및재현율은다른알고리즘대비높은성능을보였다. 따라서본연구는한국어의초성과특수기호가포함된감정기호를기반으로감정을분류한것과인터넷감정기호포함여부와데이터의도메인에무관한극성분류알고리즘을제안하고구현하여결과를검증한것에의미가있다고할수있다. 5.2 향후연구인터넷감정기호를이용한극성분류에서는정확률이 긍정 / 부정분류가균등하게나타났으나, 긍정 / 부정단어를기반으로상품평의극성분류에서는부정단어에대한정확률이떨어지는결과가나타났다. 이는부정상품평을제시할경우네티즌들이긍정문장을먼저기술하고부정문장을사용하는경우가많았기때문으로사료된다. 따라서향후에는긍정 / 부정말뭉치사전을구축할때언어의문맥기준으로접속사, 부사등자연어에대한언어학적접근에대한추가연구가필요하다. 또한무작위추출한상품평에서부정문장의비율이긍정문장에비해적어부정문장에대한분석을상세히진행하지못한아쉬움이존재하여부정문장의데이터를추가확보하여부정문장에대한상세연구가필요하다. 그리고인터넷감정기호는강한긍정과부정을표현하고있으므로상세감정을분류하기에적합하지않았다. 따라서인터넷감정기호에추가적인분석기법을혼합하여상품평의감정을긍정, 부정으로극성분류에국한하지않고매우긍정, 긍정, 중립, 부정, 매우부정으로분류하여감정을상세분류하는연구가요구된다. References [1] KISA, "Internet Use Survey 2012 Survey," KISA, pp. 23-37, 2012. [2] Kook Yong Lee and Seung Woon Kim, "The Impact of Online Reviews in Purchasing Decision Making," Academy of customer satisfaction management, Vol. 14, No. 3, pp. 85-102, 2012. [3] Eun Ah Seo, Speaking as a writing or linguistic analysis of Quote, Reply, good reply, bad reply, ID and emoticons, Communication Books, Seoul, 2007. [4] Kyungmi Park, Hogun Park, Hyunggun Kim and Heedong Ko, "Opinion mining research in SNS," Journal of KIISE, Vol. 29, No. 11, pp. 54-60, 2011. [5] Jaeseok Myung, Dongjoo Lee and Sang-goo Lee, "A Korean Product Review Analysis System Using a Semi-Automatically Constructed Semantic Dictionary," Journal of KIISE: Software and Application, Vol. 35, No. 6, pp. 392-403, 2008. [6] Junsoo Shin, Harksoo Kim, "A Robust Patternbased Feature Extraction Method for Sentiment Categorization of Korean Customer Reviews," Journal of KIISE:Software and Application, Vol. 37, No. 12, pp. 946-950, 2010. [7] Jung-yeon Yang, Jaeseok Myung and Sang-goo Lee, "A Sentiment Classification Method Using Context Information in Product Review Summarization," Journal of KIISE:Database, Vol. 36, No. 4, pp. 254-262, 2009. [8] Jongseok Song and Soowon Lee, "Automatic Construction of Positive/Negative Feature-Predicate Dictionary for Polarity Classification of Product Reviews," Journal of KIISE:Software and Application, Vol. 38, No. 3, pp. 157-168, 2011.
520 정보과학회논문지제 42 권제 4 호 (2015. 4) [9] Likun Qiu, WeishiZhang, Changjian Hu,KaiZhao. "SELC:A Self-Supervised Model for Sentiment Classification," Conference on Information and Knowledge Management, Proc. of the 18th ACM Conferenceon Information and Knowledge Management, Hong Kong, China, 929-936, 2009. [10] Hu, M. and Liu, B., "Mining and summarizing customer reviews," Proc. of the 10th ACM SIGKDD Conf., pp. 168-177, 2004. [11] Jae-Young Chang, "A Sentiment Analysis Algorithm for Automatic Product Reviews Classification in On-Line Shopping Mall," The Journal of Society for e-business Studies, Vol. 14, No. 4, pp. 19-33, 2009. [12] Gi young Kim, Haiin Lee, Suhwan Yook and Woojin Paik, "Customer Preference Identification System using Natural Language Processing-based Analysis and Automatic Classification of Product Reviews," Korea Society for Information Management, Vol. 16, pp. 65-70, 2009. [13] Hanhoon Kang, Seong Joon Yoo and Dongil Han, "Automatic Extraction of Opinion Words from Korean Product Reviews Using the k-structure," Journal of KIISE:Software and Application, Vol. 37, No. 6, pp. 470-479, 2010. [14] Xiaowen Ding, Bing Liu., "The Utility of Linguistic Rules in Opinion Mining," Proc. of the Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 811-812, 2007. [15] Theresa Wilson, Janyce Wiebe and Paul Hoffmann. "Recognizing Contextual Polarity in Phrase-Level Sentiment Analysis," HLT/EMNLP, pp. 347-354, 2005. [16] Alexander Pak and Patrick Paroubek, "Twitter based system: Using Twitter for Disambiguating Sentiment Ambiguous Adjectives," Proc. of International Workshop of Semantic Evaluations, 2010. [17] Courses, E., and Surveys, T., "Using SentiWordNet for multilingual sentiment analysis," Data Engineering Workshop ICDEW, 2008. [18] Pavel Smrž, "Using WordNet for Opinion Mining," Proc. of the International WordNet Conference 2006, pp. 333-335, 2006. [19] Peter D. Turney, "Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews," Proc. of the 40th Annual Meeting of the Association for Computational Linguistics, Philadelphia, pp. 417-424, 2002. [20] Jonathon Read, "Using emoticons to reduce dependency in machine learning techniques for sentiment classification," In ACL, The Association for Computer Linguistics, 2005. [21] Alexander Pak and Patrick Paroubek, "Twitter as a Corpus for Sentiment Analysis and Opinion Mining," Proc. of theeuropean Language Resources Association (ELRA), 2010. [22] Hongjune Yune, Han-joon Kim and Jae-Young Jang, "An Efficient Search Method of Product Reviews Using Opinion Mining Techniques," KIISE Transactions on Computing Practices, Vol. 16, No. 2, pp. 222-226, 2010. [23] H. Nishikawa, T. Hasegawa, Y. Matsuo, and G. Kikui, "Opinion summarization with integer linear programming formulation for sentence extraction and ordering," In COLING, 2010. [24] K. Dave, S. Lawrence, D. Pennock, "Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews," Proc. of the 12th Intl. World Wide Web Conference (WWW 03), pp. 512-528, 2003. [25] Qiang Ye, Ziqiong Zhang and Rob Law, "Sentiment classification of online reviews to travel destination by supervised machine learning approaches," Expert Systems with Applications, Elsevier, pp. 1-9, 2008. [26] P. Turney and M. Littman, "Measuring praise and criticism: Inference of semantic orientation from association," Proc. of ACL-02, 40th Annual Meeting of the Association for Computational Linguistics, pp. 417-424, 2002. [27] Minqing Hu and Bing Liu, "Mining and Summarizing Customer Reviews," KDD 04, Seattle, Washington, USA, 2004. [28] V. Vapnik, "Estimation of Dependences Based on Empirical Data," Springer-Verlag, 1982. [29] J.C Platt, "Fast training of support vector machines using sequential minimal optimization. Advances in kernel methods: support vector learning," MIT Press, Cambridge, MA, 1999. [30] G. H. John, P. Langley, "Estimating Continuous Distributions in Bayesian Classifiers," Uncertainty in Artificial Intelligence, Vol. 11, pp. 338-345, 1995. [31] J.R. Quinlan, C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, San Mateo: CA, 1993. [32] Internet shopping mall page: http://www.auction. co.kr [33] Internet shopping mall page: http://www.gmarket.co.kr 장경애 1996년대구대학교문헌정보학과 ( 문헌정보학사 ). 2014년연세대학교컴퓨터공학과 ( 공학석사 ). 2014년~현재서울과학기술대학교 IT정책대학원산업정보시스템박사과정. 관심분야는데이터품질, 데이터분석, 인공지능, 최적화, 소프트웨어품질등
인터넷감정기호를이용한긍정 / 부정말뭉치구축및감정분류자동화 521 박상현 1989 년서울대학교컴퓨터공학과 ( 공학사 ). 1991 년서울대학교컴퓨터공학과 ( 공학석사 ). 2001 년 UCLA 대학교전산학과 ( 공학박사 ). 1991 년 1996 년대우통신연구원. 2001 년 2002 년 IBM T. J. Watson Research Center Post-Doctoral Fellow 2002 년 2003 년포항공과대학교컴퓨터공학과조교수. 2003 년 2006 년연세대학교컴퓨터과학과조교수. 2006 년 ~2011 년연세대학교컴퓨터과학과부교수. 2011 년 ~ 현재연세대학교컴퓨터과학과정교수. 관심분야는데이터베이스, 데이터마이닝, 바이오인포매틱스, 적응적저장장치시스템 김우제 1986년서울대학교산업공학과 ( 공학사 ) 1988년서울대학교산업공학과 ( 공학석사 ) 1994년서울대학교산업공학과 ( 공학박사 ) 2003년~현재서울과학기술대학교글로벌융합산업공학과교수. 1988년 4월~1991 년 2월동양경제연구소연구원. 1999년~ 2001년 University of Michigan Visiting Scholar. 관심분야는 IT서비스, 소프트웨어공학, 최적화, 스마트그리드등