<3035BFC0BFACC1D62E687770>

Similar documents
KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

03±èÀçÈÖ¾ÈÁ¤ÅÂ

Analysis of objective and error source of ski technical championship Jin Su Seok 1, Seoung ki Kang 1 *, Jae Hyung Lee 1, & Won Il Son 2 1 yong in Univ

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

<30352DC0CCC7F6C8F B1B3292DBFACB1B8BCD2B1B3C1A42E687770>

13(512-) DB14-20.hwp

012임수진

DBPIA-NURIMEDIA


???? 1

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Feb.; 29(2), IS

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 6, Jun Rate). STAP(Space-Time Adaptive Processing)., -

09권오설_ok.hwp

DBPIA-NURIMEDIA

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jun.; 27(6),

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jun.; 27(6),

03-서연옥.hwp

Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology Vol.7, No.5, May (2017), pp

DBPIA-NURIMEDIA

Lumbar spine

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

홍익3월웹진PDF

홍익노사5월웹진용

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A S

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Dec.; 27(12),

Microsoft Word - 1-차우창.doc

인문사회과학기술융합학회

???? 1

Æ÷Àå82š

Æ÷Àå82š

Microsoft PowerPoint - 27.pptx

(JBE Vol. 22, No. 2, March 2017) (Regular Paper) 22 2, (JBE Vol. 22, No. 2, March 2017) ISSN

09구자용(489~500)

<35335FBCDBC7D1C1A42DB8E2B8AEBDBAC5CDC0C720C0FCB1E2C0FB20C6AFBCBA20BAD0BCAE2E687770>

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

서론 34 2

R을 이용한 텍스트 감정분석

step 1-1

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Mar.; 28(3),

27 2, 17-31, , * ** ***,. K 1 2 2,.,,,.,.,.,,.,. :,,, : 2009/08/19 : 2009/09/09 : 2009/09/30 * 2007 ** *** ( :

10(3)-09.fm

,,,.,,,, (, 2013).,.,, (,, 2011). (, 2007;, 2008), (, 2005;,, 2007).,, (,, 2010;, 2010), (2012),,,.. (, 2011:,, 2012). (2007) 26%., (,,, 2011;, 2006;

DBPIA-NURIMEDIA

패션 전문가 293명 대상 앙케트+전문기자단 선정 Fashionbiz CEO Managing Director Creative Director Independent Designer

디지털포렌식학회 논문양식

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: : * Research Subject

DBPIA-NURIMEDIA

14.531~539(08-037).fm

#Ȳ¿ë¼®

현대패션의 로맨틱 이미지에 관한 연구

<B8F1C2F72E687770>

DBPIA-NURIMEDIA

?

00Àâ¹°

00Àâ¹°

학습영역의 Taxonomy에 기초한 CD-ROM Title의 효과분석

10 이지훈KICS hwp

untitled

433대지05박창용

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Mar.; 25(3),

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: 3 * The Effect of H

Output file

자연채무에대한재검토 1. 서론 2. 선행연구 9 Journal of Digital Convergence 214 May; 12(5): 89-99

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Dec.; 26(12),

Æ÷Àå½Ã¼³94š

04_이근원_21~27.hwp

12È«±â¼±¿Ü339~370

12이문규

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: A Study on Organizi

???춍??숏

6.24-9년 6월

Journal of Educational Innovation Research 2017, Vol. 27, No. 3, pp DOI: (NCS) Method of Con

2014ijµåÄ·¾È³»Àå-µ¿°è ÃÖÁ¾

DBPIA-NURIMEDIA

07.045~051(D04_신상욱).fm

DBPIA-NURIMEDIA

09한성희.hwp

04 형사판례연구 hwp

Microsoft PowerPoint - 26.pptx

03-ÀÌÁ¦Çö

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: : Researc

08김현휘_ok.hwp

정보기술응용학회 발표

Microsoft Word - Westpac Korean Handouts.doc

<353420B1C7B9CCB6F52DC1F5B0ADC7F6BDC7C0BB20C0CCBFEBC7D120BEC6B5BFB1B3C0B0C7C1B7CEB1D7B7A52E687770>

... 수시연구 국가물류비산정및추이분석 Korean Macroeconomic Logistics Costs in 권혁구ㆍ서상범...

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Sep.; 26(10),

07변성우_ok.hwp

DBPIA-NURIMEDIA

Microsoft PowerPoint Relations.pptx

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Analysis of

歯제7권1호(최종편집).PDF

김경재 안현철 지능정보연구제 17 권제 4 호 2011 년 12 월

1. KT 올레스퀘어 미디어파사드 콘텐츠 개발.hwp

<31362DB1E8C7FDBFF82DC0FABFB9BBEA20B5B6B8B3BFB5C8ADC0C720B1B8C0FC20B8B6C4C9C6C32E687770>

The characteristic analysis of winners and losers in curling: Focused on shot type, shot accuracy, blank end and average score SungGeon Park 1 & Soowo

<31325FB1E8B0E6BCBA2E687770>

Transcription:

ISSN 1598-0170 (Print) ISSN 2287-1136 (Online) http://www.jksii.or.kr 영화평과평점을이용한감성문장구축을통한영화평점추론 Movie Rating Inference by Construction of Movie Sentiment Sentence using Movie comments and ratings 오연주 1 채수환 2* Yean-Ju Oh Soo-Hoan Chae 요 약 영화리뷰사이트에서영화평점은네티즌들의주관적판단으로결정된다. 이로인해그들이남긴영화평과평점사이의극성이서로불일치하는경우가종종발생한다. 본논문에서는이문제를해결하기위해영화의평가에영향을미치는감성문장들의집합을만들고, 이들을영화평에적용하여평점을추론한다. 감성문장들의집합을만들기위한과정은감성어휘사전을구축하는단계와감성문장을구성하는단계로이루어진다. 감성어휘사전은영화평에서쓰인형용사와형용사의극성을저장한다. 감성문장은영화와관련된명사를주어로갖고감성어휘사전의어휘를서술어로갖는문장구조이다. 감성문장의극성과감성문장에서쓰인서술어의극성이다른문장들은제거하여감성문장들이감성어휘사전어휘의극성과일치되도록하였다. 영화평에서쓰인감성문장들의평균점수를구하면영화평이갖는감성점수가된다. 본연구결과를통해네티즌들이매긴평점에비해감성문장집합을적용하여계산한영화평의감성점수가영화평에대한의견을더잘반영한다는것을알수있다. 주제어 : 오피니언마이닝, 감성사전, 의미극성, 문장점수측정, 평점유추 ABSTRACT On movie review sites, movie ratings are determined by netizens subjective judgement. This means that inconsistency between ratings and opinions from netizens often occurs. To solve this problem, this paper proposes sentiment sentence sets which affect movie evaluation, and apply sets to comments to infer ratings. Creation of sentiment sentence sets is consisted of two stages, construction of sentiment word dictionary and creation of sentiment sentences for sentiment estimation. Sentiment word dictionary contains sentimental words and its polarities included in reviews. Elements of sentiment sentences are combined with movie related noun and predicate from words sentiment word dictionary. In this study, to make correspondence between polarity of sentiment sentence and sentiment word dictionary, sentiment sentences which have different polarity with sentiment word dictionary are removed. The scores of comments are calculated by applying averages of sentiment sentences elements. The result of experiment shows that sentence scores from sentiment sentence sets are closer to reflect real opinion of comments than ratings by netizens'. keyword : Opinion mining, Sentiment Dictionary, Sentiment Polarity, measuring sentence score, Rating analogy 1. 서론 최근다양한분야에서빅데이터활용이증가하고있다. 이에따라웹이나 SNS에올린글들을이용해사람들 1 Dept. of Computer Engineering, Korea Aerospace University, Kyunggi 412-791, Korea. 2 Dept. of Computer Engineering, Korea Aerospace University, Kyunggi 412-791, Korea. * Corresponding author (ksii@ksii.or.kr) [Received 26 January 2015, Reviewed 28 January 2015, Accepted 6 April 2015] 본연구는미래창조과학부및정보통신산업진흥원의 ICT융합고급인력과정지원사업의연구결과로수행되었음 (NIPA-2014-H0401-14-1021) 의여론이나의견등을분석하는오피니언마이닝연구의진행도활기를띠고있다. 오피니언마이닝은텍스트에나타난감성을측정하고특정기준을통해분류, 가공하여새로운정보를얻을수있도록하는분야이다. 얻어진정보들로새로운어플리케이션을개발할수있고상업적인이익을취하는데사용하기도한다 [1]. 오피니언마이닝은텍스트의주관성분석을통해텍스트에나타난글쓴이의감성이주관적인지객관적인지를판단한다. 주관성을띠는텍스트는극성분석을통해텍스트의긍정 / 부정으로나누어극성분석을진행한다 [1]. 감성분석방법은단어의상관관계분석을통해문장의극성을알아내는방법, 자연어처리방식이나문장패턴을이용하는방법, 감성어휘사전을구축하여활용하 Journal of Internet Computing and Services(JICS) 2015. Apr.: 16(2): 41-48 41 http://dx.doi.org/10.7472/jksii.2015.16.2.41

는방법등이있다. 감성어휘사전구축은주로단어의극성을측정하여단어와극성을저장하는방법으로이루어진다. 외국에서는 SentiWordNet 과같은영어감성어휘사전이많이개발되었다 [2]. 하지만한국어어휘에관한감성사전개발의진행은아직그수준이미흡한상태이다. 짧은텍스트를통한오피니언마이닝연구에는주로뉴스기사의댓글이나트위터, 영화평등이주로쓰인다. 특히, 영화평점사이트는특정대상 ( 영화 ) 에대한여러의견이집중되어있기때문에영화평을활용한연구가많이진행되고있다. 영화평과평점은인터넷사용자들의주관성이개입되기때문에영화평과평점이함께연구에쓰일경우연구의정확성에영향을미치게된다. 예를들면, 영화평의의미는 7점을갖지만평점으로 1점을주는경우와같이영화평과평점사이의극성과극성의정도가불일치하는경우가발생하는것을종종볼수있다. 이에본연구에서는영화의의견과평가에관련된감성문장들의집합을만들고영화평에적용하여영화평에대응하는평점을추론을하였다. 감성문장들의집합은감성어휘사전을구축하는단계와감성평가를위한감성문장을만드는단계로이루어진다. 감성어휘사전은임의의영화의영화평들에서공통극성을갖는형용사들을추출하고다시영화평에적용하여새로운형용사를사전에갱신하는구조를갖는다. 감성문장은영화에대한의견을가지면서 주어 + 주격조사 + 서술어 의문장구조를갖는문장이다. 주어는영화와관련이많은명사로서영화평들의주격명사에해당되며, 서술어는감성어휘사전의형용사로구성된다. 감성문장들을영화평에적용하면영화평의극성과대응되는감성점수를측정할수있다. 이연구를통해영화평에대응하는평점추론을가능하게하여영화사이트에나온영화들의정확한순위를측정할수있게된다. 더불어영화평점분포도를통해영화에대한인터넷사용자들의감성정보를알수있게된다. 2. 관련연구 2.1 기존연구 2.1.1 감성분석감성분석은텍스트의주관성측정으로얻어진의미방향을통해문서의성격을알아내고이를이용해새로 운정보를얻을수있도록하는분야이다. 텍스트의주관성을예측하기위해패턴을추출하는알고리즘을이용하여텍스트의성격이주관적인지객관적인지판별하는연구와형용사를분석하여주관성을결정하는의미기반특징들을알아내는연구가진행되었다 [3][4]. 주관성을지닌텍스트는다시극성분석을통해긍정인지부정인지를판별한다. 극성판별은 PMI 방법으로간단하게측정할수있으며, WordNet 등을이용하여측정하는연구도진행되었다 [5][6]. 2.1.2 감성사전구축텍스트의극성을측정하기위해직접감성사전을구축하는연구가많이진행되고있다. 감성사전은형용사처럼극성을띠는서술어와서술어의극성을저장한다. 감성사전은문서의텍스트에적용하여의미의주관성을분석하는데쓰인다. 동시에텍스트에는나오지만사전에수록되지않은새로운어휘의극성을판별하는역할을한다. 새로판별된감성어휘는사전에갱신한다. 우리나라에서는상품의도메인과상품특징텍스트를통해상품평의극성을분류하는사전을구축하는연구가진행되었다 [7]. 자연어처리와어휘의언어적특징을고려하여만든 The Highlights도상품평분석을위한감성사전이다 [8]. 최근에는상품평이나영화평에그치지않고주가분석에서도감성사전이활용되고있다. 주가관련어휘와주가의등락관계를분석하여사전을만들고경제뉴스에따른주가지수예측을가능하도록하는연구가진행되었다 [9]. 2.1.3 영화평점기반시스템짧은텍스트에대한오피니언마이닝연구로는영화평이주로쓰인다. 영화평을이용하여평점을예측하고영화추천및검색을편리하게하는연구가진행되었다. 대표적인연구로는영화평에나온단어의상관관계를분석하여평점을추론하는연구와영화평의감성어휘를분석하여영화검색시스템을개발하는연구가진행되었다 [10][11]. 정확한영화평점분석을위한연구도진행되었다. 리뷰평점의신뢰도를측정하기위해리뷰데이터베이스와 So-PMI 기법을적용한연구가진행되었다 [12]. 영화평점사이트에서불일치하는영화평점과영화평을제거하여정확한평점유추를할수있는연구가이루어졌고, 언어 42 2015. 4

학적패턴을통해네티즌들이매긴평점과실제평점의의미방향을측정하는실험이진행되었다 [13][14]. 2.2 기존연구의한계기존의상품 / 영화평극성분석을위한감성사전구축연구들에서는 많다, 작다 와같이문맥에따라다른극성을가질수있는단어에대해서실험자가직접단어의극성을정해주었다. 따라서단어를갱신할때반자동으로사전구축이이루어졌다. 더불어기존의평점추론연구들은영화평의의미방향만을측정하는실험으로진행되었다. 이로인해단순히 좋다 라고쓰인문장과 시나리오가좋다 라는영화에관한의견이있는문장이서로같은점수로평가된다. 이를해결하기위해서는영화에대한의견반영정도에따른극성의차별화를두어야한다. 본논문에서는이두가지문제점을모두해결한다. 영화평에서주로쓰이는극성을설정하여실험자가관여하지않고어휘를갱신할수있는자동업데이트형감성사전을구축하였다. 또한영화와관련된명사와사전의단어를통한감성문장을만들어서문장들의영화에대한의견반영정도를측정할수있도록하였다. 3. 감성사전구축및평점평가시스템 3.1 시스템개요 ( 그림 1) 감성문장집합을통한평점추론시스템 (Figure 1) Sentiment Sentence Set System 그림 1은본논문에서제안하는감성문장집합을통한평점추론시스템이다. Sample Set Extraction 단계에서 는임의로선정한영화평에서공통된의미방향을지니는감성어휘들을샘플로추출한다. 추출한샘플들은 Sentiment Word Dictionary 에처음으로수록된다. New Set Extraction 단계에서는수록된단어들을이용해새로운단어들의극성을구하고사전에수록한다. 이과정을반복하여사전업데이트를완료하면사전어휘들을바탕으로 Sentiment Sentence Set을만든다. 이 Set을통해영화평의문장점수를측정하고네티즌들이부여한평점과비교한다. 3.2 감성사전자동구축 3.2.1 샘플데이터집합만들기 사전초기에수록할샘플데이터집합을만든다. 샘플데이터를수집하기위한영화세편을골라각영화에서감성관련서술어와서술어의극성을구한다. 서술어는형용사중에서극성을띠는감정형용사와평가형용사로지정한다. 각영화에서서술어의극성을구하기위해서는의미방향의기준점수를정하고, 의미방향을구하려는서술어가기준점수보다작으면부정, 크면긍정을부여한다 [7]. 식 (1) 은영화 A 에서감성어휘 의 ( ) 을구한것으로영화 A 에서전체긍정리뷰개수 ( ) 대비영화 A 에서감성어휘 가존재하 는부정리뷰수 ( ) 의비율의차이를구한것이다. 식 (1) 의값이기준으로정한극성값보다크면긍정을 의미하는 1을, 작으면부정을의미하는 1로지정한다. 각영화에서감성어휘와극성을계산하고세편의영화에서모두같은극성을띠는어휘들을고른다. 선별된어휘중어휘가존재하는리뷰의수가가장높은순서대로 30개의어휘들을샘플데이터로정한다. 표 1 은샘플데이터집합의예를나타낸것이다. 샘플 데이터들은영화에대한감정과평가에대한극성을지 닌감각형용사와평가형용사로구성된다. 일반적으로 슬프다 라는서술어는부정적인의미로쓰이지만영화 평에서는영화에대한긍정감정의미로사용된다는것 을알수있다. (1) 한국인터넷정보학회 (16 권 2 호 ) 43

( 표 1) 샘플데이터집합의예 (Table 1) Examples of sample data sets 감성어휘 의미방향 슬프다 1 재미있다 1 형편없다 -1 똑같다 -1 3.2.2 사전갱신하기 샘플데이터집합을사전의초기어휘들로설정한다. 초기상태의사전을서술어가두개이상쓰인영화평에적용하여새로운감성어휘의극성을구한다. 이때, 하나의서술어는사전에수록된단어이어야한다. 사전을갱신하는방법은다음과같다. ( 표 2) 영화평에서새로운감성어휘의극성추론 (Table 2) Inference polarity of new sentimental words in movie opinions review 재미있었지만약간아쉽다. word 재미있다하지만아쉽다 tag A B B score 1(set) -1(new) tag는서술어들의의미방향을나타낸다. 같은 tag 값을갖는서술어는같은극성을갖는다. tag는 지만, -나 와같은부정연결어미나 그러나, 하지만 과같은부정부사에서의미방향이바뀐다. 서술어중에서사전에수록되어있는서술어는그극성점수를부여하며, 그점수와 tag를이용해나머지서술어의점수를추론한다. 사전에수록되어있지않은형용사들의 tag와사전에수록되어있는서술어의 tag가같으면둘의점수는같으며 tag 가다르면절대값이서로반대인점수를갖게된다. 서술어는점수별로빈도수를저장해서식 (2) 와같이극성을구한다. 화별로공통극성을갖는형용사를사전에수록한다. 위의과정을반복하면서공통극성을갖는형용사가모두나올때까지사전을갱신하여사전을구축한다. 갱신을완료한최종사전의어휘개수는실험별로평균 97개의형용사를갖는다. 3.3 문장점수평가 3.3.1 감성문장만들기감성어휘사전을이용해감성평가에적용할감성문장을만든다. 영화에대한의견과평가에관련된문장이영화평가에영향을주기때문에감성문장은 ( 영화 ) 가 ( 재미있다 ), ( 작품 ) 이 ( 좋다 ) 와같이 < 영화관련명사 + 조사 + 감성서술어 > 로구성된다. 영화평의주격명사들은대부분영화와관련된명사들이많아주격명사를영화관련명사로추출한다 [7]. 감성서술어는 3.2절에서만든감성어휘사전의서술어들로구성된다. 각감성문장의단어가존재하는영화평들의평점평균이감성문장의점수가되며, 이로써주격명사에따라감성어휘사전의단어들의극성정도가세분화된다. 예를들어, ( 연기 ) 가 ( 좋다 ) 와 ( 캐스팅 ) 이 ( 좋다 ) 에서 좋다 는긍정극성인 1을갖지만영화평에서비중은 7.25와 5.00으로서로다른감성점수를갖는다. 또한문장점수의미방향과감성어휘사전에서의서술어극성이다른문장구조를제거시킨다. ( 현실감 ) 이 ( 없다 ) 라는문장은 없다 가서술어사전에서부정극성을갖지만문장점수는 7.5점으로영화평에서는주로긍정적으로쓰여사전과문장점수가서로다른극성을갖기때문에이러한문장은감성문장에서제외한다. 3.3.2 문장점수측정하기감성문장들을이용하여영화평의문장점수를측정한다. 아래식 (3) 에서처럼영화평에존재하는감성문장들의점수를통해영화평에대응하는문장점수를구한다. (2) (3) 극성 ( ) 은식 (2) 에서처럼사전으로구한서술어 의빈도수 ( ) 에대한긍정점수빈도 ( ) 와부정점수빈도 ( ) 차이의비율로구해서극성보다높으면긍정, 낮으면부정을부여한다. 영 식 (3) 에서구한 은각영화평으로구한문장점수가된다. 영화가재미있기는한데큰감동은없는듯... 이라는영화평은네티즌이평점으로 8점을부여했다. 이영화평은 영화가재미있다 와 감동은없다 라는감성문장이혼합되어구성된문장이다. 각문장 44 2015. 4

구조의점수 ( ) 는 9.13과 1이며, 영화평의평점은이들의평균 ( 소수점이하버림 ) 인 4점이된다. 이처럼감성문장구조로추론한영화평점과네티즌들이임의로매긴평점을비교하여얼마나다른지확인하는작업을진행한다. 4. 실험결과및평가 4.1 실험환경설정 4.1.1 감성어휘사전구축실험본연구의실험을위해 네이버영화 에서임의의영화세편의영화평과평점을수집하였다. 감성어휘사전과감성문장을만들기위한문장성분분석은서울대학교에서제공하는 꼬꼬마형태소분석기 를사용하였다. 한영화에서 1점부터 10점까지서술어를갖는영화평 100개이상을고르며, 고른영화평의개수가 10,000개이하가되도록영화평과평점을추출한다. 추출한세편의영화에서공통극성을갖는사전을사전에수록하며, 이를영화에다시적용해사전을갱신한다. 식 (4) 에서 은시스템이특정극성에해당한다고인식한단어에대해맞게인식한서술어의개 수, 은시스템이특정극성에해당한다고인식한단어에대해잘못인식한서술어의개수, 은시스템이특정극성에해당하지않는다고인식한단어에대해맞게인식한서술어의개수를 나타낸것이다. 서술어를갖는영화평이많은영화를사용하여감성 사전을만들수록 F-score 이높아진다. 이는서술어가많을 수록서술어에대한극성이분명해지고공통된서술어의 개수가많아져사전의성능이높아지는것을의미한다. 또한 precision 이 recall 보다높게나왔는데, 이는사전을 자동으로구축할때영화마다다른극성을갖는서술어 에대한처리의제약때문인것으로판단된다. 4.1.2 감성문장집합구축실험 감성어휘사전을만드는데사용된영화평들과감성어휘사전으로감성문장들을만든다. 출현빈도수가 3회이하인문장구조는제거하며감성어휘사전의서술어극성과다른극성을갖는문장구조는제거한다. ( 표 3) 감성어휘사전의극성판별정확도 (Table 3) Sentiment polarity identification accuracy of Sentiment Word Dictionary precision recall F-score 1 1027 6684 9998 69.64 52.70 59.99 2 1031 7330 9877 73.68 60.89 66.67 3 6844 8360 10000 74.07 57.14 64.51 4 6862 9422 10000 81.15 65.88 72.72 표 3 은실험별로세영화영화평의 (,, ) 서술 어개수에따른완성된사전어휘들의극성판별에대한 정확도를나타낸것이다. 표 3 의 precision, recall, F-score 은 아래의식 (4) 와같이계산된다. Pr Pr Pr (4) ( 표 4) 감성문장집합의극성판별정확도 (Table 4) Sentiment polarity identification accuracy of Basic-Sentence-Form Sets 감성문장개수 정확도 1 735 64.35 2 714 66.48 3 751 67.08 4 840 67.14 표 4는실험별로완성된감성문장들의극성판별에대한정확도를나타낸것이다. 감성문장의개수는감성어휘사전에수록된어휘가많을수록많아진다. 하지만극성판별에대한감성문장개수의영향은근소한차이를보였다. 이는주격명사가자체의극성을가져서술어와결합되면서전체문장의극성이서술어의극성과달라지기때문인것으로판단된다. 완성된문장들을새로운영화평에적용시켜영화의문장점수를구한다. 영화는 31,021개의영화평을갖고있으며 1점부터 10점까지각각 1% 이상분포한다. 한국인터넷정보학회 (16 권 2 호 ) 45

4.2 실험결과및평가 4.2.1 실험결과 ( 그림 3) 네티즌평점별문장점수최빈값 (Figure 3) Mode of movie comment corresponding sentence score rating per netizen rating (a) 네티즌들이매긴영화평점이 1점일때 점수분포도 그림 3은실험별로나타낸네티즌들이매긴평점별영화평대응문장점수의최빈값을나타낸것이다. 온라인사용자가매긴평점 1점은 4점의문장점수를띠며평점 10점은 9점에가장많이분포한다. 평점 2점에서 9점은 4 점에서 8점사이의문장점수를갖는것을확인할수있다. (b) 네티즌들이매긴영화평점이 10점일때 점수분포도 ( 그림 2) 네티즌평점별영화평대응문장점수분포도의예 (Figure 2) Example of Distribution of movie comment corresponding sentence score per netizen rating (a) 네티즌들이매긴영화평점 그림 2의 (a) 와 (b) 는첫번째실험에서네티즌들이매긴영화평점 1점과 10점에대한영화평대응문장점수의분포도를나타낸것이다. 전체영화평개수에대한영화평대응문장점수와영화평점이일치하는영화평개수의비율은각각 2.84%(=56/1969) 와 4.50%(=240/5326) 으로나타나네티즌들이영화평과평점을서로대응하지않게부여하는사실을알수있다. 네티즌들은 1점과 10점을부여했지만실제로는영화평들이대체로 4점에서 9점의문장점수를갖는다는것을알수있다. (b) 실험으로추론한영화평대응문장점수 ( 그림 4) 온라인영화평점과실험문장점수의차이비교 (Figure 4) Comparison of online rating and experiment sentence score 46 2015. 4

그림 4 는 12,707 개의영화평을갖는임의의한영화에대해네티즌들이매긴영화평점과실험으로추론한문장점수를비교한것이다. (a) 에서네티즌들이영화에대해 1 점과 10 점을각각 1,969, 5,326 개를부여해전체평점중 57.4% 이상을차지한다. 하지만 (b) 에서실험으로추론한영화평대응문장점수에서는영화평들이각점수대별로골고루분포하는양상을띠는것을확인할수있다. 4.1.2 실험평가 기존의영화평을분석하여추론한문장점수와네티즌들의영화평점을비교한연구는단순히문장점수가기준평점보다높으면긍정, 낮으면부정을부여하는실험이다 [14]. 이실험은문장의자체점수보다는의미방향을구하는데초점을맞추었다. 그러나본연구는영화평의의미방향을구하는데서그치지않고영화평에대응하는점수까지구하는실험으로확장하였다. 또한기존의실험은복잡한언어학적지식을알아야만문장의극성을측정할수있었지만본연구는단어수준에서문장점수를측정할수있다. 5. 결론및향후연구 본연구에서는영화평에대응하는문장점수를추론하기위해감성문장집합을구축하는실험을진행하였다. 감성어휘사전은임의로선정한영화들의공통된극성을갖는서술어를초기샘플데이터로설정하고, 샘플데이터를통해새로운서술어들과서술어의극성을갱신하도록하였다. 감성어휘사전은영화들의공통서술어가많을수록어휘의극성측정의정확도가높아진다. 영화의의견이나감성평가를위한감성문장은영화와관련된명사로이루어진영화평들의주격명사를주어로갖고감성어휘사전의형용사들을서술어로갖는구조로써영화평점에영향을주는문장이다. 이들은감성어휘의개수와상관없이어휘의극성들이비슷한정확도를갖는다. 실험결과, 영화평의문장점수는 6 점에서 7 점사이에분포해대부분 1 점과 10 점을매기는네티즌들의평점과는상당한차이가있음을보여준다. 본연구를통해온라인영화사이트의영화평에대응하는평점측정과평점을통한영화순위측정을할수있는것을알수있다. 하지만본연구의감성문장이한정된품사로만구성되어있어서다음과한계점이발생한다. 부사구와같은수식어의영향을고려하지못하여 영화가재미있다 와 영화가매우재미있다 가모두같은문장점수를가지며, 감 성극성을갖는동사나명사가포함된영화평을측정하지않아영화에대한평가가완전히이루어지지못하였다. 따라서보다정확한영화의평점과순위를측정하기위해서는문장에서의수식어의영향력과형용사이외의품사에대한극성연구가이루어져야한다. 이로써온라인영화사이트에서의정확한영화들의평점과순위를측정하여영화에대한인터넷사용자들의정확한의견반영을가능하게할것이다. 앞으로의연구에서는중립의미를갖는명사와동사들을처리하는연구를통해감성서술어의범위를확장할것이다. 또한기본감성문장구조에수식어를추가하여수식어구의문장점수에서의영향력을측정할것이다. 더나아가이모티콘사용패턴과문법에어긋나는문장구조들의패턴규칙을알아내이들이영화평점에미치는영향을알아보는연구도진행할예정이다. 참고문헌 (Reference) [1] B. Pang and L. Lee, "Opinion Mining and Sentiment Analysis" Foundations and Trends in Information Retrieval, Vol. 2, No. 1-2, pp. 1-135, January 2008. http://dx.doi.org/10.1561/1500000011 [2] A. Esuli and F. Sebastiani, "Sentiwordnet: A publicly available lexical resource for opinion mining" In In Proceedings of the 5th Conference on Language Resources and Evaluation (LRECÕ06), pp. 417-422, 2006. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1. 61.7217 [3] V. Hatzivassiloglou and J. Janyce M, Wiebe "Effects of adjective orientation and gradability on sentence subjectivity" COLING '00 Proceedings of the 18th conference on Computational linguistics, Vol. 1, pp. 299-305, 2000. http://dx.doi.org/10.3115/990820.990864 [4] J. Wiebe and E. Riloff "Creating Subjective and Objective Sentence Classifiers from Unannotated Texts" 6th International Conference, CICLing 2005, Vol. 3406, pp. 486-497, February 13-19 2005. http://link.springer.com/chapter/10.1007%2f978-3-540-3 0586-6_53 [5] Peter D. Turney "Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews" ACL '02 Proceedings of the 40th Annual 한국인터넷정보학회 (16 권 2 호 ) 47

Meeting on Association for Computational Linguistics, pp. 417-424, 2002. http://dx.doi.org/10.3115/1073083.1073153 [6] Sang-il Song, Dongjoo Lee, Sang-goo Lee, "Identifying Sentiment Polarity of Korean Vocabulary Using PMI" KCC 2010, Vol.37, No.1, pp. 260-265, 2010.6. http://www.dbpia.co.kr/article/1308678 [7] Jongseok Song, Soowon Lee, "Automatic Construction of Positive/Negative Feature-Predicate Dictionary for Polarity Classification of Product Reviews" Journal of KIISE:Software and Applications, Vol.38, No.3, pp. 157-168, 2011.3. http://www.dbpia.co.kr/article/1455474 [8] Jaeseok Myung, Dongjoo Lee, Sang- goo Lee "A Korean Product Review Analysis System Using a Semi-Automatically Constructed Semantic Dictionary" Journal of KIISE:Software and Applications, Vol.35, No.6, pp. 392-403, 2008.6. http://www.dbpia.co.kr/article/838396 [9] Eunji Yu, Yoosin Kim, Namgyu Kim, SeungRyul Jeong "Predicting the Direction of the Stock Index by Using a Domain-Specific Sentiment Dictionary" Journal of Intelligence and Information Systems, Vol.19, No.1, pp. 95-110, 2013. http://www.dbpia.co.kr/article/3138319 [10] Dumim Yoon, KyungJoong Kim "Prediction of Rating Score from Short Comments on Movies using Word-Rating Correlation Analysis" HCI2011, pp. 484-486, 2011.1. http://www.dbpia.co.kr/article/2548496 [11] Sung-Ho Oh, Shin-Jae Kang "Movie Retrieval System by Analyzing Sentimental Keyword from User's Movie Reviews" Journal of the Korea Academia-Industrial cooperation Society, Vol.14, No.3, pp. 1422-1427, 2013. http://dx.doi.org/10.5762/kais.2013.14.3.1422 [12] Jung-Hwa Lee, Ki-Young Lee "The Reliability Measure of Movie Review Ratings" Proceedings of the IEEK Conference, pp. 715-717, 2012.6. http://www.dbpia.co.kr/article/3280417 [13] KyongMin Kim, MuHyok Ahn, Younho Lee "Detection of Malicious Rate Evaluation and Prediction of True Rate in Movie Rating" 정, Journal of the Korean Institute of Information Scientists and Engineers: Computing Practices and Letters, Vol.20, No.4, pp. 213-218, 2014.4. http://www.dbpia.co.kr/article/3437599 [14] Jee Sun Nam "Study on Linguistic Patterns of Online Reviews on Movie for the Automatic Classification of Human Opinion" The Linguistic Society of Korea, Vol.58, pp. 75-103, 2010.12. http://www.dbpia.co.kr/article/3278672 저자소개 오연주 (Yean-Ju Oh) 2014 년한국항공대학교컴퓨터학과 ( 공학사 ) 2014 년 ~ 현재한국항공대학교대학원컴퓨터학과석사과정관심분야 : 오피니언마이닝, 데이터마이닝, 자연어처리 E-mail : gclass00@kau.ac.kr 채수환 (Soo-Hoan Chae) 1973 년한국항공대학교전자공학과 ( 공학사 ) 1985 년미국 Univ. of Alabama 대학원전산학과 ( 공학석사 ) 1988 년미국 Univ. of Alabama 대학원전기공학과 ( 공학박사 ) 1988 년 ~ 현재한국항공대학교전자및정보통신공학부교수관심분야 : 분산 / 병렬처리시스템, 컴퓨터보안, 데이터마이닝 E-mail : chae@kau.ac.kr 48 2015. 4