논문양식예제

Similar documents
KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Analysis of


R을 이용한 텍스트 감정분석

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A S

정보기술응용학회 발표

DBPIA-NURIMEDIA

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: (LiD) - - * Way to

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A Research Trend

Output file

,.,..,....,, Abstract The importance of integrated design which tries to i

30이지은.hwp

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

DBMS & SQL Server Installation Database Laboratory

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

- 1 -

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: NCS : * A Study on

#Ȳ¿ë¼®

에너지경제연구 제13권 제1호

À±½Â¿í Ãâ·Â

학습영역의 Taxonomy에 기초한 CD-ROM Title의 효과분석

WRIEHFIDWQWF.hwp

300 구보학보 12집. 1),,.,,, TV,,.,,,,,,..,...,....,... (recall). 2) 1) 양웅, 김충현, 김태원, 광고표현 수사법에 따른 이해와 선호 효과: 브랜드 인지도와 의미고정의 영향을 중심으로, 광고학연구 18권 2호, 2007 여름

Probabilistic graphical models: Assignment 3 Seung-Hoon Na June 7, Gibbs sampler for Beta-Binomial Binomial및 beta분포는 다음과 같이 정의된다. k Bin(n, θ):

04서종철fig.6(121~131)ok

<32382DC3BBB0A2C0E5BED6C0DA2E687770>

<BBE7C8B8C0FBC0C7BBE7BCD2C5EBBFACB1B820C3D6C1BEBAB8B0EDBCAD2E687770>

232 도시행정학보 제25집 제4호 I. 서 론 1. 연구의 배경 및 목적 사회가 다원화될수록 다양성과 복합성의 요소는 증가하게 된다. 도시의 발달은 사회의 다원 화와 밀접하게 관련되어 있기 때문에 현대화된 도시는 경제, 사회, 정치 등이 복합적으로 연 계되어 있어 특

230 한국교육학연구 제20권 제3호 I. 서 론 청소년의 언어가 거칠어지고 있다. 개ㅅㄲ, ㅆㅂ놈(년), 미친ㅆㄲ, 닥쳐, 엠창, 뒤져 등과 같은 말은 주위에서 쉽게 들을 수 있다. 말과 글이 점차 된소리나 거센소리로 바뀌고, 외 국어 남용과 사이버 문화의 익명성 등

< FB1B9BEEEB1B3C0B0BFACB1B C1FD5FC3D6C1BE2E687770>

PowerPoint 프레젠테이션

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: A Study on Organizi

DBPIA-NURIMEDIA

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

PowerPoint 프레젠테이션

chap 5: Trees

27 2, 17-31, , * ** ***,. K 1 2 2,.,,,.,.,.,,.,. :,,, : 2009/08/19 : 2009/09/09 : 2009/09/30 * 2007 ** *** ( :

4번.hwp

<35312DBCB1C8A3B5B52E687770>

,,,.,,,, (, 2013).,.,, (,, 2011). (, 2007;, 2008), (, 2005;,, 2007).,, (,, 2010;, 2010), (2012),,,.. (, 2011:,, 2012). (2007) 26%., (,,, 2011;, 2006;

BibLaTeX을 이용한 한국어 참고 문헌 처리의 가능성

09오충원(613~623)

고3-02_비문학_2_사회-해설.hwp

Journal of Educational Innovation Research 2017, Vol. 27, No. 3, pp DOI: (NCS) Method of Con

212 영상기술연구 세대라고 할 수 있다. 이 뉴 뉴웨이브 세대란 60년대 일본의 영화사에서 과거세대와는 단 절된 뉴웨이브 의 흐름이 있었는데 오늘날의 뉴웨이브 세대를 뛰어넘는다는 의미에서 뉴 뉴웨이브 세대로 불린다. 뉴 뉴웨이브 세대 감독들의 경향은 개인적이고 자유분

<33C2F DC5D8BDBAC6AEBEF0BEEEC7D02D3339C1FD2E687770>

<B1B3B9DFBFF83330B1C7C1A631C8A35FC6EDC1FDBABB5FC7D5BABB362E687770>

<31362DB1E8C7FDBFF82DC0FABFB9BBEA20B5B6B8B3BFB5C8ADC0C720B1B8C0FC20B8B6C4C9C6C32E687770>

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

SchoolNet튜토리얼.PDF

UPMLOPEKAUWE.hwp

<5B D B3E220C1A634B1C720C1A632C8A320B3EDB9AEC1F628C3D6C1BE292E687770>

Chap 6: Graphs

서론 34 2

PowerPoint 프레젠테이션

2017 년 6 월한국소프트웨어감정평가학회논문지제 13 권제 1 호 Abstract

C# Programming Guide - Types

09È«¼®¿µ 5~152s

11¹Ú´ö±Ô

<31372DB9CCB7A1C1F6C7E22E687770>

Journal of Educational Innovation Research 2017, Vol. 27, No. 4, pp DOI: A Study on the Opti

WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성 ( 황수경 ) ꌙ 127 노동정책연구 제 4 권제 2 호 pp.127~148 c 한국노동연구원 WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성황수경 *, (disabi

(5차 편집).hwp


<BFA9BAD02DB0A1BBF3B1A4B0ED28C0CCBCF6B9FC2920B3BBC1F62E706466>

<333820B1E8C8AFBFEB2D5A B8A620C0CCBFEBC7D120BDC7BFDC20C0A7C4A1C3DFC1A42E687770>

Output file

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: * Review of Research

03±èÀçÈÖ¾ÈÁ¤ÅÂ

DBPIA-NURIMEDIA

< FC3D6C1BEBCF6C1A45FB1E2B5B6B1B3B1B3C0B0B3EDC3D E687770>

<332EC0E5B3B2B0E62E687770>

성능 감성 감성요구곡선 평균사용자가만족하는수준 성능요구곡선 성능보다감성가치에대한니즈가증대 시간 - 1 -

위해 사용된 기법에 대해 소개하고자 한다. 시각화와 자료구조를 동시에 활용하는 프로그램이 가지는 한계와 이를 극복하기 위한 시도들을 살펴봄으로서 소셜네트워크의 분석을 위한 접근 방안을 고찰해 보고자 한다. 2장에서는 실험에 사용된 인터넷 커뮤니티인 MLBPark 게시판

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: : Researc

106 통권 제12 호 (2012) 제에 의하여 라는 외부적인 포스트- 식민화의 문제점을 노정하는지, 그리고 4 3이나 5 18과 비교 할 때 근대 국민 국가 성립 전의 조선과 대한민국을 포괄하여 일본군위안부가 어떻게 법적 언어로 구성되고 있는지는 국가주의, 민족주의,

IKC43_06.hwp

<30382E20B1C7BCF8C0E720C6EDC1FD5FC3D6C1BEBABB2E687770>

°í¼®ÁÖ Ãâ·Â

PowerPoint 프레젠테이션

현대영화연구

012임수진

step 1-1

<B3EDB9AEC1FD5F3235C1FD2E687770>

p 19; pp 32 37; 2013 p ㆍ 新 興 寺 大 光 殿 大 光 殿 壁 畵 考 察 ; : 2006

서 형성되는 관계에 대한 연구 [4]가 이루어지고 있다. 실제 사회에서 하나의 집단을 가지고 할 수 있는 분석 방식이 다양하듯 인터넷에서 다양한 방면의 분석이 이루어지는 것을 확인할 수 있다. 본 보고서에서는 인터넷 커뮤니티에서 사용자들이 어떠한 관계를 나타내는지에 대

1. 서론 1-1 연구 배경과 목적 1-2 연구 방법과 범위 2. 클라우드 게임 서비스 2-1 클라우드 게임 서비스의 정의 2-2 클라우드 게임 서비스의 특징 2-3 클라우드 게임 서비스의 시장 현황 2-4 클라우드 게임 서비스 사례 연구 2-5 클라우드 게임 서비스에

에너지경제연구 Korean Energy Economic Review Volume 11, Number 2, September 2012 : pp. 1~26 실물옵션을이용한해상풍력실증단지 사업의경제성평가 1

04_이근원_21~27.hwp


1. KT 올레스퀘어 미디어파사드 콘텐츠 개발.hwp

DBPIA-NURIMEDIA

빅데이터_DAY key

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: * Suggestions of Ways

DBPIA-NURIMEDIA

., (, 2000;, 1993;,,, 1994), () 65, 4 51, (,, ). 33, 4 30, 23 3 (, ) () () 25, (),,,, (,,, 2015b). 1 5,

목차 1. 서론 1.1. 연구의 배경 및 목적 1.2. 연구의 내용 및 방법 2. 제품스타일 분석 2.1. 제품이미지 2.2. 미래지향적 스타일 3. 신세대 감성분석 3.1. 라이프스타일 3.2. 광고전략 3.3. 색채에 따른 제품구매 분석 4. 결론 *참고문헌 ( )

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: : * Research Subject

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

Journal of Educational Innovation Research 2016, Vol. 26, No. 1, pp.1-19 DOI: *,..,,,.,.,,,,.,,,,, ( )

Transcription:

논문투고일 :2016.04.06, 논문심사일 :2016.04.06-2016.04.27, 게재확정일 :2016.04.27 온톨로지시각화를활용한사용자리뷰분석기반영화추천시스템 Movie Recommended System base on Analysis for the User Review utilizing Ontology Visualization 주저자 문성민 (Mun, Seong Min) 아주대학교라이프미디어협동과정통합디자인연구실연구원 공동저자 김기남 (Kim, Gi Nam) 네이버콘텐츠비즈개발부연구원 최경철 (Choi, Gyeong cheol) 아주대학교라이프미디어협동과정통합디자인연구실연구원 교신저자이경원 (Lee, Kyung Won) 아주대학교미디어학과 kwlee@ajou.ac.kr 이논문은 2012 년정부 ( 교육부 ) 의재원으로한국연구재단의지원을받아수행된연구임 (NRF-2012S1A5A2A01020132)

목차 1. 서론 1-1. 연구배경및목적 1-2. 연구의방법 2. 이론및선행연구의고찰 2-1. 오피니언마이닝관련연구 2-2. 온톨로지와오피니언마이닝 2-3. 정보시각화 3. 연구및분석 3-1. 온톨로지구축 3-2. 영화리뷰오피니언마이닝 3-3. 시각화 3-4. 시각화분석 3-5. 시각화검증 4. 결론참고문헌 ( 요약 ) 최근소비자구전정보에대한연구들은소비자가제품구매과정에서다른소비자의구전에의한정보를활용한다는연구결과를시사하고있다. 본연구는제품에대한소비자의의견을파악하고활용할수있도록오피니언마이닝과시각화를통해도움을줄수있는방법을제안하고자한다. 이를위해최근들어관람할영화를선택할때인터넷상의영화리뷰를참고하는상황이증가함을고려하여 영화 도메인의온톨로지를구축하고오피니언마이닝을수행하여시각화한후그결과에대해논하고자한다. 온톨로지를구축하는과정에서평가요소에대한속성분류뿐만아니라평가요소에대한서술어사전을구성하였다는점에서기존의연구와차별성이있으며분석결과를통해이러한방법이오피니언마이닝에유효함을증명하고자한다. 연구를통해도출한결과는크게세가지로나누어볼수있다. 첫째, 본연구에서는기존에구축된온톨로지를활용하지않고키워드추출과토픽모델링을활용하여영화도메인에대한온톨로지를구축하는방법에대해서술하였다. 둘째, 개별영화에대한시각화분석을시행하여영화에대한관객의종합적인의견을한눈에파악할수있도록하였다. 셋째, 제품에대한평가결과에따라유사한평가를받은제품끼리군집화되는것을발견하였으며본연구의분석에사용된 130개의영화는크게 3개의집단으로군집화됨을보였다. (Abstract) Recently, researches for the word of mouth(wom) imply that consumers use WOM informations of products in their purchase process. This study suggests methods using opinion mining and visualization to understand consumers opinion of each goods and each markets. For this study we conduct research that includes developing domain ontology based on reviews confined to movie category because people who want to have watching movie refer other's movie reviews recently, and it is analyzed by opinion mining and visualization. It has differences comparing other researches as conducting attribution classification of evaluation factors and comprising verbal dictionary about evaluation factors when we conduct ontology process for analyzing. We want to prove through the result if research method will be valid. Results derived from this study can be largely divided into three. First, This research explains methods of developing domain ontology using keyword extraction and topic modeling. Second, We visualize reviews of each movie to understand overall audiences opinion about specific movies. Third, We find clusters that consist of products which evaluated similar assessments in accordance with the evaluation results for the product. Case study of this research largely shows three clusters containing 130 movies that are used according to audiences opinion. (Keyword) Visualization, Movie review, Ontology, Opinion Mining, Case study 348 Design Convergence Study 57 Vol.15. no.2 (2016.4)

1. 서론 1-1. 연구배경및목적웹 2.0 시대이후로인터넷이용자로부터온라인구전정보가생산됨에따라구전정보가사회에미치는영향에대한연구도활발하게이루어지고있다. 구전정보 (WoM: Word of Mouth) 가주목받는이유는소비자의제품구매, 기업의이미지형성에영향을미치기때문이다 ( 윤영선, 2013). 소비자의입장에게구전정보는제품구매결정에도움이될수있고, 기업의경우, 구전의내용이나콘텐츠를관리하면물품에대한소비자의반응파악에활용할수있기때문에인터넷구전정보는소비자와기업모두에게유용한자원으로활용된다 ( 이은영, 2008). 하지만인터넷구전정보를인력으로분석하기에는많은비용이발생한다는한계점이존재하고이를해결하기위한방법으로자동화된시스템으로구전정보를분석하는오피니언마이닝이사용된다. 감성분석 (Sentiment analysis) 으로도불리는오피니언마이닝 (Opinion mining) 은사람들이가지고있는의견, 평가, 태도그리고그들이사용한제품, 서비스, 기관, 이슈, 이벤트, 토픽들에대한감정을분석하는것으로정의된다. 1) 오피니언마이닝은텍스트마이닝의한분야로서말뭉치혹은코퍼스 (corpus) 로불리는대규모언어데이터베이스를기반으로대상이되는문장을분석하고극성정보가포함된사전을통해작성자가긍정적인반응을보였는지부정적인반응을보였는지판별한다. 국내에서는 1998년부터시작된국가규모의코퍼스구축프로젝트인 21세기세종계획 이 2007년완성되어 ( 김시우, 2008) 이를기반으로오피니언마이닝에대한연구가활발하게이루어지고있다. 하지만이러한코퍼스사전을이용한방법은다음과같은한계점을가지고있다. 첫번째로관용어나신조어등복잡한표현을분석하기어렵다. 예를들어 스토리가장난이아니다. 또는 캐스팅이쩔어준다. 는기존의구문분석방법으로는의미를해석하기어렵다. 두번째로의미표현을찾기위해사전전체를탐색해야하는비용이발생한다. 예를들어평가의대상이 인테리어 인경우에도 맛 과관련된키워드인 매콤하다, 달콤하다 등평가어로등장할확률이전무한평가어휘도탐색해야하기때문에데이터또는사전의크기가증가할수록처리시간도증가할수밖에없다. 오피니언마이닝의가장마지막단계는분석된데이터를시각화하는단계이다. 그림 1 은다음소프트에서서비스하는 소셜메트릭스 로, 주제어와관련된연관키워드들이자아연결망 (Ego Network) 으로구성되어있으며, 키워드의속성에따라다른색상으로표현되는것을확인할수있다. 2) < 그림 1> 주제어에대한연관키워드를시각화한 소셜메트릭스 1) Bing Liu, Sentiment Analysis and Opinion Mining, Morgan & Claypool Publishers, 2012. 2) Social Metrics, http://insight.some.co.kr 349

이처럼시각화는데이터 (Data), 정보 (Information), 지식 (Knowledge) 을사람이인지할수있는시각적인형태로변환하는것으로시각화를적절히사용하면사용자의정보습득을도울수있다. 3) 본연구는위에서제시한배경을바탕으로온톨로지와시각화를활용한오피니언마이닝방법을제안하고자한다. 문장분석과정에있어서앞서제시된문제를해결하기위해특징과특징을표현하는표현어휘를포함하는온톨로지를활용한다. 또한기존의방법에서는불가능했던복잡한표현어휘를분석하고분석대상에따라부분적인평가표현을탐색하게함으로써처리비용을최소화하는방법을제안하고자한다. 이와더불어새롭게제안하는시각화방법을통해효율적인정보습득이이루어지도록유도하는것이본연구의목적이다. 본연구는연구에활용될도메인으로 영화 를선정하였다. 영화시장은매년성장하고있으며최근미디어기술의발달로영화시장의규모가더커지고있다. 영화진흥위원회가 2014년에발표한영화산업결산원고에따르면 2014년영화시장의매출액은역대최대액수인 1조 6,641억원을기록, 2013년대비 7.3% 증가했고관객수도 2억명을돌파하며작년도대비약 0.8% 증가한 2억 1,506만명에달하였다. 4) 이와동시에영화에대한소비자들의의견도계속증가하는추세이며최근에는영화에대한소비자들의의견이다른소비자의영화관람여부에큰영향을미치고있다. 따라서본연구는 영화 에대한소비자들의리뷰에대해온톨로지를구축하고이를활용하여오피니언마이닝을수행, 시각화한후결과에대해논의하고자한다. 1-2. 연구의방법본연구는이론및선행연구의고찰, 온톨로지의구축, 온톨로지를활용한오피니언마이닝, 시각화의구현및결과분석그리고결론의순서로이루어진다. 이론및선행연구의고찰에서는앞서서술되었던연구배경및목적의토대가되는오피니언마이닝및시각화에대한선행연구를살펴보고각연구에서사용된방법과한계점에대해다루었다. 온톨로지구축을위해리뷰데이터를형태소분리하여범주에따라평가요소가되는키워드와서술어를선별하고묶는작업을진행한다. 예를들어 연기 와 대사 는 배우 를평가하는평가요소이며, 능숙하다, 뛰어나다 는이에대한서술어가될수있다. 범주에따른서술어사전을구축하고예문을통해영화리뷰가분석되는과정을설명하도록한다. 그리고실제영화리뷰데이터를대상으로오피니언마이닝을수행하고결과에대한분석을진행한다. 시각화구현단계에서는기존의시각화방법들을살펴보고본연구에서수행한오피니언마이닝결과에적합한시각화를구현하여결과에대해해석하고자한다. 이와더불어본연구에서제안하는시각화의분석용이성을측정하기위해사용자분석을통해검증하도록한다. 마지막으로본연구의의의와연구를통해도출한결과, 그리고본연구에서의한계점에대해논하고자한다. 2. 이론및선행연구의고찰 2-1. 오피니언마이닝관련연구 오피니언마이닝은분석방법에따라서문장자체에대한극성을판별하거나문장에나타나는특정 3) Nahum Gershon, Stephen G. Eick, Stuart Card, Information Visualization, ACM, 1998. 4) 2014 년한국영화산업결산, 영화진흥위원회정책연구부, p.6, 2014. 350 Design Convergence Study 57 Vol.15. no.2 (2016.4)

평가요소에대한극성을판별하는것으로구분된다. 문장자체에대한극성을판별하는방법은분석하고자하는키워드가포함된문장에서극성을띄는모든단어를추출하여극성값을계산한다. 예를들어긍정의극성을띄는단어가 10개, 부정의극성을띄는단어가 1개라면 9만큼긍정의극성을띄는문장으로판별하게되는원리다. 조하나의연구에서는이러한방법을통해인터넷뉴스댓글에나타나는감정을분석하여여론조사기관의결과와유사한결과를도출할수있음을보였다 ( 조하나등, 2013). 하지만문장전체의극성을판별하는방법의경우거시적인범위의여론분석에는적합하지만세부적인평가요소에대해어떠한평가가이루어졌는지에대한분석에는적합하지않다. 이러한문제점을해결하기위해명재석의연구 ( 명재석등, 2008) 에서는문장에나타나는평가요소와그것에대한평가표현을파악하여극성을판별하는오피니언마이닝방법을제안하였다. 2-2. 온톨로지와오피니언마이닝 2-2-1. 온톨로지의정의온톨로지 (Ontology) 는그리스어로 존재 를뜻하는 ontos와 단어 를뜻하는 logos에서유래한것으로알려져있으며 ( 정도헌, 2003), 특정도메인을개념화 (Conceptualization) 하기위해명시적으로정형화한명세서로서온톨로지를정의할수있다 (Gruber, 1993). 따라서온톨로지를통해어떠한사물을범주화하고다른사물들과의관계또한명시할수있는것이다. 예를들어 개미 를온톨로지로표현할때 개미 는 2개의더듬이를가지고 6개의다리를가진다. 이를정형화된형태로다음과같이나타낼수있다. < 그림 2> 개미 에대한온톨로지표현온톨로지의형태는제한이없으며다만용도에따라 RDF(Resource Description Framework/ 웹상의자원의정보를표현하기위한규격 ), OWL(Ontology Web Language/ 웹온톨로지언어 ), SWRL(Semantic Web Rule Language/ 웹의미언어규칙 ) 등다양한언어로표현된다. 하지만모든온톨로지는일반적으로다음과같은구성요소를가지게된다. 2-2-2. 온톨로지의구성범주 (Class) 는사물또는개념의범주에해당한다. 앞서예시에서 개미 를온톨로지로표현하기위해범주로지정하였다. 범주는어떤개념을떠올렸을때그개념을포함하는상위개념의단어를의미한다. 속성 (Property) 은범주가가지는성질을나타낸다. 위의예시에서 개미 가가진더듬이는 개미 라는범주의속성에해당한다. 마찬가지로다리역시 개미 라는범주의속성에해당한다. 속성은또한값을포함하게되는데위의예시에서는개미의더듬이는 2개이기때문에 2의값을가지게되고개미의다리는 6개이므로 6의값을가지게된다. 351

이러한형태로정형화된온톨로지는컴퓨터로처리하기용이하며때문에시맨틱웹중심의정보검색분야와함께인공지능, 전자상거래등다양한분야에서활용되고있으며본연구에서진행하고자하는오피니언마이닝분야에서도역시활용되고있다. 2-2-3. 온톨로지를활용한오피니언마이닝오피니언마이닝분야에서온톨로지는대부분요소기반오피니언마이닝에대한연구에서활용되고있다. 평가대상이가지고있는수많은평가요소들간의관계를표현하는데온톨로지가적절한자료구조로활용될수있기때문이다. 예를들어 연기력 은연기력그자체에대한평가가될수도있지만 연기력 이라는평가요소를가진 배우 에대한평가가될수도있다. 관련연구로 Anaïs Cadilhac et al(2010) 의연구와 Larissa A. de Freitas et al.(2013) 의연구에서는오피니언마이닝을위한평가요소추출에온톨로지를활용할수있음을보였다. 2-3. 정보시각화 2-3-1. 정보시각화의정의사람이감각을통해얻는정보중 70% 는시각을통해습득하게되는데이는청각및촉각에비해매초 100배가까운정보를얻을수있기때문이다. 때문에인류는선사시대부터시각적인방법을통해정보를전달하고분석해왔으며막대그래프나파이차트등다양한시각적그래프를우리는이미익숙하게사용하고있다. 최근빅데이터의활성화와함께데이터마이닝을위한방법론으로서정보시각화 (Information Visualization) 라는용어로많은관심과연구가이루어지고있다. 정보시각화는데이터에대한인지력확장을위해전산처리, 상호작용, 시각적인표현을사용하는것으로정의할수있다. 5) 시각적인디자인은정보의이해를빠르게전달할수있으며시각화된이미지의패턴을통해의미있는관계를찾을수도있다 ( 최영화, 2012). 2-3-2. 오피니언마이닝의시각화오피니언마이닝에대한관심이증가함에따라오피니언마이닝의결과를인지적으로쉽게판단할수있도록돕는시각화에대한연구도진행되고있다. 허문열의연구 ( 허문열등, 2007) 에서는여론조사분석에시각화를활용하였다. 연구에사용된데이터가오피니언마이닝을통한데이터가아닌수치화된정형데이터를사용하였지만시각화를여론조사의결과분석에활용할수있음을확인하였다. 이윤정의연구 ( 이윤정등, 2009) 에서는인터넷댓글에나타나는키워드에따라유사한키워드를가진댓글끼리군집화 (Clustering) 하고그결과를시각화하는시스템을제안하였다. 이연구에서는시각화를통해유사한의미를가진댓글을분류하였지만문맥적의미를고려하지않았기때문에극성정보를확인할수없는한계를가지고있다. Eivind Bjørkelund 의연구 (Eivind Bjørkelund 등, 2012) 에서는그림 3과같이호텔예약웹서비스인 TripAdvisor 와 Booking.com 의투숙객리뷰를대상으로오피니언마이닝시각화를제안하였다. 그들은평가요소에대한 0과 1사이의오피니언스코어를계산하여최종평균스코어를해당호텔의극성스코어로결정하고이를 Google Map을활용하여그림 2 와같이지도상에나타내는방법을제안하였다. 사용자는호텔의색상이녹색인지붉은색인지를보고해당호텔에대한투숙객들의감성평가를확인할수있다. 하지만이시각화는호텔의어느요소가부정적인평가를받았는지확인하기어렵다는한계를가지고있다. 5) Stuart K. Card, Jock D. Mackinlay, Ben Shneiderman, Readings in Infomation Visualization: Using Vision to Think, p 7, Morgan Kaufmann, 1999. 352 Design Convergence Study 57 Vol.15. no.2 (2016.4)

< 그림 3> Biokelung 의시각화프로토타입 3. 연구및분석 3-1. 온톨로지구축 3-1-1. 평가요소선정오피니언마이닝을위한온톨로지를구축하기위해우선은온톨로지의범주가되는범주와각범주와관련된속성들의평가요소키워드를선별할필요가있다. Li Zhuang 은영화리뷰를분석하고요약하는그의연구 (Li Zhuang 등, 2006) 에서영화구성요소의키워드를표 1 과같이선별하였다. 6) < 표 1> Li Zhuang 연구에서의영화구성요소키워드분류 Element class Feature words Overall ScreenPlay Character Vision Effects Music and Sound Special Effect film, movie story, plot, script, storyline, dialogue, screenplay, ending, line, scene, tale character, characterization, role scene, filght-scene, action-scene, action-sequence, set, battle-scene, picture, scenery, setting, visual-effects, color, background, image music, score, song, sound, soundtrack, theme special-effects, effect, CGI, SFX 하지만이렇게분류된키워드는한글로작성된데이터에는적합하지않다. 따라서본연구에서는위 에서제시된분류를참고하여새롭게리뷰데이터에서색인어를추출하고평가요소가될수있는 키워드를선별, 분류하였으며토픽모델링을활용하여이를검증하였다는부분에서기존연구와차별 성이있다. 데이터는 NAVER 영화서비스에서찾을수있는영화에대한 140 자평을자체제작한크롤러 (Crawler) 를사용하여수집하였다. 7) 온톨로지구축을위해사용될표본영화는장르가유사하여발 생하는편향성과리뷰의개수부족으로발생할수있는표본수부족으로인한일반화의오류를방 지하기위해장르의중복이최대한발생하지않으면서관객의리뷰가많이포함된영화를표본으로 선정하고자하였다. 두가지사항을주요기준으로선별된 5 편의표본영화는표 2 와같으며해당 영화들로부터총 18,518 개의다양한리뷰가수집되었다. 6) Zhuang, L., Jing, F., Zhu, X. Y. (2006, November). Movie review mining and summarization. In Proceedings of the 15th ACM international conference on Information and knowledge management, ACM, pp. 46, 2006. 7) NAVER 영화, http://movie.naver.com 353

< 표 2> 키워드추출을위해선정된영화와영화의장르 영화이름링컨차를타는변호사캐리비안의해적 : 낯선조류오싹한연애장화신은고양이화이트 : 저주의멜로디 장르범죄, 드라마, 스릴러액션, 모험, 판타지멜로 / 로맨드, 공포, 코미디애니메이션, 모험, 코미디, 판타지공포, 미스터리 다음으로 18,518 개의리뷰를대상으로색인어추출작업을진행한결과총 12,639 가지의색인어가 등장하였고이중에서출현빈도빈도가높고선행연구의결과를참조하여 6 개의범주에대한평 가요소에속하는키워드를선정하였다. 선정된키워드는표 3 과같다. < 표 3> 색인어추출작업을통해추출된빈도가높은색인어 범주 속성 영화영화 (4374), 작품 (101), 전체적 (66), 스케일 (48) 배우 연기 (606), 배우 (217), 캐릭터 (155), 주인공 (91), 연기력 (84), 대사 (55), 조연 (48), 캐스팅 (32), 목소리 (24), 스타일 (24), 인물 (18) 감독감독 (157), 연출 (63), 구성 (57), 편집 (10) 스토리 스토리 (849), 내용 (155), 소재 (155), 전개 (141), 이야기 (127), 결말 (122), 엔딩 (55), 시나리오 (55), 개연성 (30), 줄거리 (29), 설정 (29) 영상장면 (293), 씬 (36), 볼거리 (46), 영상 (38), 분위기 (36), 표현 (32), 화면 (22) 음향노래 (136), 소리 (135), 사운드 (41), 음향 (16), 멜로디 (13), 곡 (10) 다음으로빈도에따라색출된색인어에대한검증과정으로토픽모델링을활용하였다. 토픽모델링혹은 LDA(Latent Dirichlet Allocation) 로불리는비정형데이터에대한일반확률모델은어떤확률분포와그파라미터가있다고가정할때, 그로부터랜덤프로세스에따라데이터를생성하는모델이다. 8) 또한개별문서더나아가문서컬렉션 (Corpus) 를표현하는방법을찾기위해많이사용된다. 토픽모델링은다양한분야에서활용되고있으며특히주제분류나문서간유사도계산을할때많이사용된다. 6가지대표분류어휘와관련된토픽모델링결과는다음의표 4 와같다. < 표 4> 선정된키워드에대한상위 10 개토픽모델링결과 토픽영화배우감독스토리영상음향 키워드영화, 작품, 평가, 전체, 스케일, 주제, 예술, 완성도, 대중, 상업배우, 연기, 시나리오, 각본, 스토리, 조연, 주연, 연기력, 출연, 역할감독, 작품, 연출, 연출력, 흡입력, 편집, 봉준호, 박찬욱, 천재스토리, 볼거리, 구성, 그래픽, 전개, 짜임새, 스케일, 내용, 영상미, 결말영상, 장면, 음악, 스토리, 배경, 영상미, 분위기, 화면, 촬영, 그래픽음향, 노래, 사운드, 소리, 멜로디, 곡, 효과, 감성, 자극, 청각 8) Blei, David M., Andrew Y. Ng, and Michael I. Jordan. Latent dirichlet allocation, the Journal of machine Learning research, p. 999, 2003. 354 Design Convergence Study 57 Vol.15. no.2 (2016.4)

대표분류어휘와관련된주제관련어휘를토픽모델링을통해확인한결과빈도를활용하여색인된색인어와유사한결과가나오는것을확인하였다. 따라서빈도가높고평가요소로서적절한키워드를토픽모델링의결과와비교하여온톨로지를구성할키워드로선정하였다. 최종으로선정되어온톨로지에활용된키워드는표 5 와같다. < 표 5> 온톨로지구축을위해최종선정된키워드 범주영화배우감독스토리영상음향 속성 영화, 작품, 평가, 전체, 스케일, 주제, 예술, 완성도, 대중, 상업 배우, 캐릭터, 연기력, 역할, 스타일, 대사, 등장인물, 캐스팅, 주인공, 연기, 인물, 출연, 조연, 사람, 대본 감독, 편집, 연출, 연출력, 구성, 흡입력 스토리, 주제, 결말, 소재, 각본, 시나리오, 이야기, 내용, 원작, 전개, 줄거리, 설정, 짜임새, 스토리텔링, 구상, 구조, 사건, 개요, 실화 영상, 장면, 배경, 볼거리, 화면, 표현, 그래픽, 영상미, 분위기, 비주얼, 시퀀스, 분장 사운드, 노래, 소리, 음향, 멜로디, 곡, 효과, 감성, 자극, 청각 3-1-2. 평가어휘구축본연구에서는평가요인이되는대상의범주에따라별도의서술어사전을구축함으로써오피니언마이닝처리과정의효율성을증가시키고자하였다. 이를위해상위단계에서구축된각범주별평가요소키워드와함께나타나는서술어들을추출하여사전을구축하였다. 예를들어 시나리오가단순하다. 라는문장은형태소분석과정에서다음과같이분리된다. 시나리오 /NNG( 일반명사 ) 가 /JKS( 주격조사 ) 단순 /NNG( 일반명사 ) 하 /XSV( 동사파생접미사 ) 다 /EFN( 종결어미 )./SF( 마침표, 물음표, 느낌표 ) 이문장은 스토리 범주에포함되는 시나리오 라는키워드를포함하고있기때문에유의미한문장으로취급된다. 그리고이문장에서 시나리오 에대해 단순하다 라는서술어가등장하므로이를 스토리 에대한서술어사전에추가하게된다. 서술어사전은그림 4와같은레코드의집합으로이루어진다. < 그림 4> 서술어사전의레코드형식 Class는해당서술어가속하는범주를의미하며문장내에이범주에포함되는키워드가있어야해당서술어가탐색대상으로지정된다. 상위의예문에서이범주는 스토리 가된다. Pdt는본문에나타나게되는서술어 (Predicate) 의원형이다. 상위의예문에서는 단순하다 가된다. TagPdt는형태소분리가된상태의서술어를의미한다. 문장을분석하는단계에서형태소로분리된상태의문장을활용하기때문에서술어또한형태소로분리된형태가필요하다. 상위의예문에서는 단순 /NNG 하 /XSV 가된다. Pol은서술어가가지는극성 (Polarity) 을의미하며, 선행연구에서언급한조하나의연구를참고하여긍정일경우 1, 부정일경우 -1을나타낸다. 355

본연구에서는오피니언마이닝의정확도향상을위해은어와관용어도서술어사전에포함하였다. 전현경은관용어를이루는고정단어열을복합단위형태소라정의하고형태소분석과정에서하나 의단위로인식하는방법을제안하였다 ( 전현경외, 1998). 본연구에서도이러한방법을사용하여 은어와관용어를하나의단위로인식하는방법을사용하였다. 상위에제시된과정을통해표 6 과 같은서술어사전이구축되었다. Class Pdt(predicate) TagPdt Pol 영화 배우 감독 훌륭하다훌륭 /XR( 어근 ) 하 /XSV( 동사파생접미사 ) 1 형편없다형편없 /VA( 형용사 ) -1 훌륭하다훌륭 /XR( 어근 ) 하 /XSV( 동사파생접미사 ) 1 호흡이잘맞다 < 표 6> 범주에따른서술어사전의예 호흡 /NNG( 일반명사 ) 이 /JKS( 주격조사 ) 잘 /MAG( 일반부사 ) 맞 /VV( 동사 ) 훌륭하다훌륭 /XR( 어근 ) 하 /XSV( 동사파생접미사 ) 1 형편없다형편없 /VA( 형용사 ) -1 1 3-2. 영화리뷰오피니언마이닝이번단계에서는 연기는훌륭하였지만스토리는따분했다. 라는예문으로온톨로지를활용한오피니언마이닝의수행과정을설명하고자한다. 문장은형태소분석단계를거쳐표 7 과같이형태소로분리된다. < 표 7> 형태소분리결과 - 연기 /NNG( 일반동사 ) 는 /JX( 보조사 ) 훌륭 /XR( 어근 ) 하 /XSA( 형용사파생접미사 ) 였 /EPT( 선어말어미 ) 지만 /ECE( 연결어미 ) - 스토리 /NNG( 일반동사 ) 가 /JKS( 주격조사 ) 따분 /XR( 어근 ) 하 /XSV( 동사파생접미사 ) 었 /EPT( 선어말어미 ) 다 /EFN( 종결어미 )./SF( 마침표, 물음표, 느낌표 ) 형태소분석된문장은온톨로지의각범주에포함된키워드를가지고있는지검사한다. 이과정에서온톨로지에포함된키워드를가지고있지않은경우해당문장은무의미한문장으로분리되어자동으로다음문장을분석한다. 예문에서는표 8 과같이 배우 의속성에해당하는 연기 와 스토리 의속성에포함되는 스토리 가평가요소인주제어 (SUB) 로처리되었다. < 표 8> 평가요소탐색결과 - 연기 /SUB 는 /JX( 보조사 ) 훌륭 /XR( 어근 ) 하 /XSA( 형용사파생접미사 ) 였 /EPT( 선어말어미 ) 지만 /ECE( 연결어미 ) - 스토리 /SUB 가 /JKS( 주격조사 ) 따분 /XR( 어근 ) 하 /XSV( 동사파생접미사 ) 었 /EPT( 선어말어미 ) 다 /EFN( 종결어미 )./SF( 마침표, 물음표, 느낌표 ) 평가요소가발견된문장은유효한문장으로서해당평가요소에대한서술어가나타나는지확인한다. 서술어는발견된평가요소의범주에속하는것으로제한되어탐색한다. 예를들어발견된평가요소인 연기 는 배우 범주에속하므로 배우 범주의서술어사전중 훌륭하다 라는서술어만탐색된다. 반면에 따분하다 는 배우 범주에속하는서술어가아니므로탐색되지않는다. 표 9 는 배우 범주의서술어가탐색된결과다. 356 Design Convergence Study 57 Vol.15. no.2 (2016.4)

< 표 9> 배우 에대한평가표현탐색결과 - 연기 /SUB 는 /JX( 보조사 ) 훌륭하다 /PDT 지만 /ECE( 연결어미 ) - 스토리 /SUB 가 /JKS( 주격조사 ) 따분 /XR( 어근 ) 하 /XSV( 동사파생접미사 ) 었 /EPT( 선어말어미 ) 다 /EFN( 종결어미 )./SF( 마침표, 물음표, 느낌표 ) 주어진예문은복문이므로두번째평가요소인 스토리 에대한서술어또한탐색한다. 탐색과정 중이미탐색된 훌륭하다 는 /PDT 태그가붙은상태이므로탐색대상에서제외된다. 두번째평가 요소인 스토리 에대한평가표현을탐색한결과는표 10 과같다. < 표 10> 스토리 에대한평가표현탐색결과 - 연기 /SUB 는 /JX( 보조사 ) 훌륭하다 /PDT 지만 /ECE( 연결어미 ) - 스토리 /SUB 가 /JKS( 주격조사 ) 따분하다 /PDT 다 /EFN( 종결어미 )./SF( 마침표, 물음표, 느낌표 ) 발견된서술어의극성을서술어사전에서참고하여리뷰를요약한결과는표 11 과같다. < 표 11> 리뷰요약결과 Class: 배우 Property: 연기 Predicate: 훌륭하다 Polarity: 1 Class: 스토리 Property: 스토리 Predicate: 따분하다 Polarity: -1 위와같이요약된리뷰는등장한극성값을종합하여평가요소와범주의최종점수로반영된다. 3-3. 시각화오피니언마이닝을통한제품의긍부정분석은단일제품에대한소비자들의평가를분석하기에적합하지만경쟁사제품등같은도메인의제품들을비교하며분석하기힘들다는단점을가지고있다. 본연구에서는기존의오피니언마이닝시각화에서볼수있었던제품에대한긍정과부정에대한정보를제공하는동시에위에제시된단점을보완하기위해유사한평가를받은제품간군집을형성하고각제품에서가장많은평가를받은요소를확인함으로써다른제품들과비교분석할수있는새로운시각화를제안하고자한다. 이를위해우선제품에대한긍부정정보시각화를수행하였고유사한평가를받은제품끼리군집화를위해군집정보시각화를수행하였다. 마지막으로인터페이스를구성하여사용자와의인터렉션을통해다양한시각화분석이이루어질수있도록하였다. 3-3-1. 정보시각화오피니언마이닝에서정보를표현하는요소로는색상을가장많이활용한다. 앞서소개한오피니언마이닝시각화중하나인 Bjørkelund et al. 의호텔리뷰시각화의경우에도긍정적인평가를받은호텔은녹색, 부정적인평가를받은호텔은붉은색으로표현하였다. 하지만본연구에서는하나의제품에여러개의평가요소들이존재하며이러한평가요소들을구분하기위해평가요소를포함하는 6개의대표범주에그림 5의좌측과같이색상을부여하였다. 실제리뷰에서얼마나언급되었는지표현하기위해각각의영역의크기가그림 5의우측과같이조절되도록하였다. 예를들어그림 5의우측과같은경우리뷰에서스토리에대한평가가가장많이이루어졌음을확인할수있고그다음으로영화자체에대한평가가많이이루어졌다는것을알수 357

있다. 하지만이와같은원형그래프에서는세부평가요소에대해일일이레이블링하여나타내기어 렵기때문에그림 6 과같이별도의막대그래프를통해세부평가요소에대한평가결과를표현하였 다. < 그림 5> 평가범주에대한색상부여 ( 좌 ) 와평가결과시각화 ( 우 ) < 그림 6> 세부평가요소에대한막대그래프시각화예시 3-3-2. 군집시각화데이터의수가많은경우에는개별적으로데이터의특성을확인하기가어렵다. 따라서데이터를군집화하고군집간의특성을확인하여데이터사이의관계를파악한다. 이러한시각화의예로 Politiz UN(http://203.234.55.97/politiz/un/#) 에서는연도별로 UN가입국가들의투표결과를분석하여그림 7과같이보여주며이를통해사용자들은시간에따른투표성향의변화와시간에따른국가간이해관계변화를파악할수있다 (Ginam Kim, 2013). < 그림 7> 유엔표결데이터로국가간군집을표현한 Politiz UN 본연구에서도유사한평가를받은제품끼리군집을형성하기위해오피니언마이닝결과를바탕으 358 Design Convergence Study 57 Vol.15. no.2 (2016.4)

로유사도를계산하였다. 유사도계산을위한각제품의벡터값은전체리뷰중평가요소별비율이 며코사인유사도 (Cosine Similarity) 로계산하였다. 와 의벡터값이 개주어졌을때코사인 유사도는다음과같이구할수있다. cos 유사도의결과는대상이 n개일때 행렬이며, 각원소는두대상의유사도를나타낸다. 예를들어영화별유사도행렬을 이라할때, 설국열차 아이언맨은영화 설국열차 와 아이언맨 의유사도를나타내며 1에가까울수록유사한평가를받은영화가된다. 유사도결과에따라네트워크를형성하기위한알고리즘으로는포스다이렉티드 (Force-directed) 알고리즘 (Fruterman et al, 1991) 을사용하였다. 포스다이렉티드알고리즘을사용함으로써각제품에해당하는노드들은자연스럽게비슷한성질을가지는노드들과군집을형성하게된다. 같은성질을가지는노드를직관적으로쉽게파악할수있도록각각의노드는평가가가장많이이루어진평가요소의범주에해당하는색상을띄며, 그색상은그림 8에서제시되었던색상과같다. 또한그림 8 과같이 6개의범주가가지는방향성을활용하여노드군집이모이는방향이일치하게하여분석이용이하도록하였다. < 그림 8> 6 개범주의방향성과노드군집의방향 3-3-3. 인터페이스 (Interface) 및인터랙션 (Interaction) 방대하고복잡한데이터를효과적으로분석하기위해서는시각화디자인과사용자사이의인터랙션이무엇보다중요하다 ( 서진욱, 2011). 그래프를확대하거나색상을변경, 또는불필요한정보를필터링함으로써정지된상태의그래프에비해좀더직관적이고다양한정보를얻을수있다. 본연구에서제시하는시각화도인터페이스를통해여러가지인터랙션을지원하여분석의용이성을향상시키고자하였다. 따라서시각화는웹브라우저에서동작이가능하도록 HTML5 Canvas API를활용하여제작하였으며 오피니언분석기 (Opinion Analyzer) 로명명한시각화의메인화면은그림 9와같이구성하였다. 359

< 그림 9> Opinion Analyzer의메인화면화면의좌측에는단일대상에대한시각화를볼수있다. 좌측의상단에는원형폴라 (Polar) 그래프로선택한대상의평가요소의빈도를보여준다. 좌측하단에는막대그래프로각범주에속하는세부평가요소들의비율을시각화하였다. 화면의우측에는군집시각화가위치한다. 군집시각화는줌인 (Zoom In), 줌아웃 (Zoom Out) 및드래그앤드롭 (Drag and Drop) 으로원하는크기와위치로노드의군집을이동시킬수있다. 군집시각화의왼쪽에는옵션 (Options) 메뉴로군집시각화에대한다양한조작이가능하도록한다. 옵션메뉴는그림 10과같이구성되어있다. < 그림 10> 옵션메뉴의구성노드형태 (Node Shape) 옵션은노드의형태를결정한다. 첫화면에서노드의모양은색상을가진원모양을하고있으나, 폴라그래프 (Polar Chart Node) 를선택하면그림 11과같이단일대상에대한오피니언결과를부채꼴모양의원그래프의형태로나타내는시각화로노드의모양이변경된다. 폴라그래프에서는전체대상에대한오피니언마이닝의정보를개략적으로확인할수있다는장점 < 그림 11> Polar Chart' 인노드형태를선택한화면 360 Design Convergence Study 57 Vol.15. no.2 (2016.4)

을가지고있다. 컬러세팅 (Color Setting) 옵션으로노드의색상을변경할수있다. 그림 12( 좌 ) 는이기능을이용하여긍정과부정을나타내는두가지색으로표현되도록변경한결과로부정적인평가를받은노드가붉은색으로나타나는것을확인할수있다. 노드형태가폴라그래프일경우그림 12( 우 ) 와같이부정적인평가를받은평가요소가붉은색으로변한것을확인할수있다. < 그림 12> 긍정과부정의색으로표현한시각화 3-4. 시각화분석본연구에서는제품에대한전체소비자들의의견을종합하여보여주는시각화방법을제안하고자하였다. 이에대한사례연구 (Cast Study) 로 2011년부터 2013년까지개봉된영화중영화리뷰가 8000개이상인영화 130작품을선정하고해당영화에대한전체관객의의견을오피니언마이닝을통해분석하고시각화하였다. 개발된시각화는 URL : 54.255.190.140/index/# 에서확인할수있다. 3-4-1. 개별영화에대한분석본연구에서제안하는시각화에서개별영화에대한오피니언마이닝결과는하나의원형그래프와막대그래프로보여준다. 그림 13은 ' 은밀하게위대하게 ' 의오피니언마이닝결과에대한시각화그래프다. < 그림 13> 영화 은밀하게위대하게 의오피니언마이닝결과시각화 원형그래프는 12 시, 2 시, 4 시, 6 시, 8 시, 10 시의총 6 방향으로각각평가요소에대한평가빈도와 극성을나타낸다. 각각영상에대한평가가많을수록 12 시방향의부채꼴의크기가증가하며, 스토 리에대한평가가많을수록 2 시방향의부채꼴의크기가증가하며, 음향에대한평가가많을수록 4 361

시방향의부채꼴의크기가증가하며, 감독에대한평가가많을수록 6시방향의부채꼴의크기가증가하며, 영화자체에대한평가가많을수록 8시방향의부채꼴의크기가증가하며, 배우에대한평가가많을수록 10시방향의부채꼴의크기가증가한다. 예를들어영화 은밀하게위대하게 는배우에대한평가가많이이루어짐을그래프를통해알수있다. 세부적인평가요소에대한결과는막대그래프에서확인할수있다. 3-4-2. 노드의위치에대한분석 Opinion Analyzer 에서군집시각화는각대상이가진평가요소의비중에따라노드의위치가결정되기때문에반대로노드의위치는평가요소의비중에대한정보를제공하게된다. 그림 14는배우에대한평가의비중이높은영화들의군집이다. 군집에서 은밀하게위대하게 를중심으로영화 신세계 는좌측에, 영화 타워 는우측에위치하게된다. 그림 15는각각영화 신세계, 은밀하게위대하게, 타워 의평가요소의비중이며, 배우에대한평가요소의크기는비슷하나오른쪽에위치할수록스토리에대한평가의비중이높아지는것을확인할수있다. < 그림 14> 배우에대한평가의비중이높은영화의군집 < 그림 15> 영화 신세계, 은밀하게위대하게, 타워 의평가요소의비중 3-4-3. 군집된영화집단에대한분석일반적으로데이터의양이많은경우특성이비슷한데이터들을집단끼리군집화하여집단사이의관계를분석하는것이보편적이다. 본케이스스터디에서최종적으로형성된집단은크게 3가지집단으로나누어볼수있었다. 그림 16은영화 설국열차 을중심으로군집된첫번째집단이다. 시각화를통해집단의특성을확인한결과첫번째집단은영화리뷰에서배우나스토리에대한언급이많은집단이라는것을알수있다. 또한군집의중심으로볼수있는 설국열차 의경우대표키워드값이스토리 (0.438), 영화 (0.213), 배우 (0.149), 감독 (0.114), 영상 (0.083), 음향 (0.002) 의순서로분포하였고이를통해첫 362 Design Convergence Study 57 Vol.15. no.2 (2016.4)

번째집단에속하는영화들은스토리나영화에대한언급이많은집단이라는것을유추할수있다. < 그림 16> 영화 설국열차 를중심으로군집된첫번째집단그림 17은영화 26년 을중심으로군집된두번째집단이다. 시각화를통해집단의특성을확인한결과두번째집단은영화리뷰에서영화, 배우, 스토리에대한언급이많은집단이라는것을알수있다. 또한군집의중심인 26년 의경우대표키워드값이영화 (0.483), 배우 (0.242), 스토리 (0.192), 감독 (0.054), 영상 (0.021), 음향 (0.007) 의순서로분포하였고이를통해두번째집단에속하는영화들은영화, 배우, 스토리에대한언급이많은집단이라는것을유추할수있다. < 그림 17> 영화 26 년 을중심으로군집된두번째집단 그림 18은영화 은밀하게위대하게 를중심으로군집된세번째집단으로시각화를통해집단의특성을확인한결과세번째집단은영화리뷰에서배우나스토리, 영화에대한언급이많은집단이라는것을알수있다. 또한군집의중심인 은밀하게위대하게 의경우대표키워드값이배우 (0.577), 스토리 (0.228), 영화 (0.129), 감독 (0.031), 영상 (0.029), 음향 (0.004) 의순서로분포하였고이를통해세번째집단에속하는영화들은배우나스토리에대한언급이많은집단이라는것을유추할수있다. 363

< 그림 18> 영화 은밀하게위대하게 를중심으로군집된세번째집단 3-4-4. 데이터간의네트워크분석일반적으로노드들사이에특성이유사한노드들을표현하는방법으로네트워크를활용한다. 네트워크를사용하면군집과군집사이에위치한노드가어떤데이터들과비슷한특징을가지고있는지를확인할수있다. 그림 19의경우군집화된집단들의중심점에위치하는영화 위험한상견례 와이와유사한영화들을링크로연결하여표현하고있다. 영화 위험한상견례 와유사한영화는 퀵, 음치클리닉, 너는펫, 스파이, 글러브, 에프터어스 등이다. 링크가연결된영화들은모두다른집단에포함되어있다. 이를통해네트워크를활용하면군집화에서발견하지못한새로운군집을확인할수있다는결과를얻을수있다. < 그림 19> 영화 위험한상견례 와연관된영화들의 네트워크 3-5. 시각화검증본연구에서는시각화툴에서제공하는여러기능에따라분석용이성에차이가나는지를알아보기위해사용성평가를시행하였으며이를통해각각의기능에따른장점과단점을도출하고자하였다. 실험은각각의시각화기능을달리하였을때사용자가느끼는분석용이성을알아보기위해 1대1 개별실험을통한폐쇄적실험방법을실시하였으며, 실험기간은 2015년 6월 22일부터 6월 26일까지 5일간이었다. 실험대상은시각화분야에대한지식을지니고현재데이터시각화분야를공부중인대학원생들을표본으로설정하였으며총 30명을대상으로실험을하였다. 364 Design Convergence Study 57 Vol.15. no.2 (2016.4)

분석을위해개발된시각화는옵션메뉴를활용하여총 16가지의시각화의형태를보여줄수있다. 노드의형태에따라원모양의노드 ( 형태 1), 폴라그래프모양의노드 ( 형태 2) 로구분될수있고, 노드의색상에따라 6개평가요인의범주색상 ( 색상 1) 과극성정보에따라붉은색과파란색으로보여주는방법 ( 색상2) 으로구분될수있다. 또한유사한노드사이의연결선을보이거나안보이게하는방법 ( 네트워크 ) 과노드의이름 ( 라벨 ) 을보이거나안보이게하는방법이있다. 다음표 12 는이러한방법에따라나누어진 16가지집단에대한설명이다. < 표 12> 시각화기능에따른집단 집단 형태1 형태2 색상1 색상2 네트워크 라벨 1 O X O X O O 2 O X O X O X 3 O X O X X O 4 O X O X X X 5 O X X O O O 6 O X X O O X 7 O X X O X O 8 O X X O X X 9 X O O X O O 10 X O O X O X 11 X O O X X O 12 X O O X X X 13 X O X O O O 14 X O X O O X 15 X O X O X O 16 X O X O X X 실험방법은피험자내설계 (within subject design) 로써각실험자에게 16가지다른형태의시각화를보여주고 16가지의시각화에대하여분석용이성값을최소 1에서최대 10으로주는방법을취하였다. 피험자내설계란독립변인의모든수준에피험자들을할당하는실험설계방법으로본연구에서는피험자를 16가지각기다른시각화를사용하고분석용이성점수를주게함으로써실험횟수는 16 * 30 으로총 480번진행되었다. 측정된 16가지시각화에따른분석용이성에대한기술통계결과값은표 13 과같다. < 표 13> 집단에따른분석용이성 집단 평균 표준편차 순위 1 8.1 1.100505 2 2 5.9 1.370320 12 3 7.2 1.032796 7 4 4.9 1.523884 15 5 7.8 1.2292373 5 6 6.1 1.449138 11 7 6.7 1.059350 8 8 4.4 1.577621 16 9 8.6 1.074968 1 10 6.7 1.159502 8 11 8.0 1.054093 4 12 5.5 1.900292 13 13 8.2 1.032796 3 365

14 6.4 1.264911 10 15 7.4 1.349897 6 16 5.4 1.955050 14 16 가지시각화에따른분석용이성을확인한결과단일대상에대한오피니언결과를부채꼴모양 의원그래프의형태로나타내는폴라그래프형태의노드, 6 개범주의색상, 네트워크보이기, 라 벨보이기의시각화형태가 8.6 으로가장용이성이높았고, 그다음으로원형태의노드, 6 개범주 의색상, 네트워크보이기, 라벨보이기의시각화형태가 8.1 의용이성을보였다. 16 가지시각화 모습에따른집단중제일분석용이성이높게나온 9 번집단은그림 20 과같다. 4. 결론 < 그림 20> 가장높은용이성을보인시각화의형태 본연구는제품에대한전체소비자들의의견을종합하여보여주는시각화방법을제안하는데연구목적을두고진행하였다. 이를위해소비자들의의견을대변하는사례연구로영화리뷰를분석하기위한온톨로지를구축하였다. 시각화단계에서는기존의시각화방법을참고하여단일대상에대한오피니언마이닝분석뿐만아니라유사한평가를받은집단의군집시각화를통해다른대상과비교분석할수있는새로운방법의시각화방안을제안하고사용자분석을통해시각화의분석용이성을측정하였다. 본연구의종합적인결과와의의는다음과같다. 첫째, 개별영화에대한시각화분석을시행하여관객의종합적인의견이서로상이하다는점과관객의의견에따라분석에사용된 28개의영화는크게 3개의집단으로군집화된다는사실을확인하였다. 군집된첫번째집단의경우분류된리뷰온톨로지가스토리 (0.438), 영화 (0.213), 배우 (0.149), 감독 (0.114), 영상 (0.083), 음향 (0.002) 의순서인집단이었고, 두번째집단의경우분류된리뷰온톨로지가영화 (0.483), 배우 (0.242), 스토리 (0.192), 감독 (0.054), 영상 (0.021), 음향 (0.007) 의순서인집단이었으며세번째집단의경우분류된리뷰온톨로지가배우 (0.577), 스토리 (0.228), 영화 (0.129), 감독 (0.031), 영상 (0.029), 음향 (0.004) 의순서인집단이었다. 또한군집시각화를활용하면개별영화와유사한영화집단을확인할수있다는결과를도출하였다. 둘째, 시각화기능에따른분석용이성분석을위해사용자분석을시행한결과, 16개의집단중분석용이성이가장높게나온집단은 9번집단으로폴라그래프형태의노드, 6개범주의색상, 네트워크보이기, 라벨보이기의시각화형태가분석이가장용이하다는것을도출하였다. 셋째, 기존의연구에서는일반적으로사용되는온톨로지를활용하여데이터를분석하는연구가대부 366 Design Convergence Study 57 Vol.15. no.2 (2016.4)

분이었다. 또한오피니언마이닝의경우명사분류만을사용한연구들이대부분이었다. 하지만본연구에서는기존에구축된온톨로지를활용하지않고키워드추출과토픽모델링을활용하여영화도메인에대한온톨로지를구축하였다. 또한명사분류와더불어본연구만의논항구조파악방법을오피니언마이닝에적용하였다는데의의가있다. 다만본연구에서구축한온톨로지가기구축된온톨로지에비해오피니언마이닝분석의정확도향상에도움이되는지측정하지못했다는점과실험적인규모의서술어사전과구문분석기의부재로인한낮은재현율, 마지막으로대규모의모집군을대상으로분석용이성실험을진행하지못한점은본연구의한계점이라할수있다. 이러한한계점에도불구하고본연구결과와시각화를통해온톨로지시각화를활용하여새로운관점으로오피니언마이닝을수행할수있다는가능성을제시하였으며앞으로국내오피니언마이닝방법론과오피니언마이닝시각화에대한연구에도움이될수있기를바란다. 참고문헌 논문 Anaïs Cadilhac, Farah Benamara, Nathalie Aussenac-Gilles, Ontolexical resources for feature based opinion mining : a case-study, Proceedings of the 6th Workshop on Ontologies and Lexical Resources(Ontolex 2010), pp.77-86, 2010. Bing Liu, Minqing Hu, Junsheng Cheng, Opinion Observer: Analyzing and Comparing Opinions on the Web, In Proceedings of the 14th international conference on World Wide Web, ACM, pp.342-351, 2005. Eivind Bjørkelund, E., Burnett, T. H., & Nørvåg, K., "A study of opinion mining and visualization of hotel reviews", In Proceedings of the 14th International Conference on Information Integration and Web-based Applications & Services, ACM, pp. 229-238, 2012. Borth, D., Chen, T., Ji, R., & Chang, S. F, "Sentibank: large-scale ontology and classifiers for detecting sentiment and emotions in visual content." Proceedings of the 21st ACM international conference on Multimedia. ACM, pp.451-460, 2013. Fruchterman, T. M., & Reingold, E. M., Graph drawing by force-directed placement. Softw., Pract. Exper., 21(11), pp.1129-1164. 1991. Zhuang, L., Jing, F., Zhu, X. Y. (2006, November). Movie review mining and summarization. In Proceedings of the 15th ACM international conference on Information and knowledge management, ACM, pp. 43-50, 2006. Blei, David M., Andrew Y. Ng, and Michael I. Jordan. Latent dirichlet allocation, the Journal of machine Learning research, pp. 993-1022, 2003. Gruber T. R., "A translation approach to portable ontology specifications.", Knowledge acquisition, 5(2), pp.199-220, 1993. Kim, G. N., Ha, H., On, B. W., Lee, K., & Lee, M. "Bubble heap graphs." Proceedings of IEEE Information Visualization Conference (InfoVis' 13), Atlanta, USA. 2013. Larissa A. de Freitas, Renata Vieira, "Ontology-based Feature Level Opinion Mining for Portuguese Reviews", WWW 2013 Companion, ACM, 2013. 김석환, 김인규, 온톨로지기반전문지식시각화시스템제안및구현, 한국지능정보시스템학회 2011 년춘계학술대회, pp.323-330, 2011. 명재석, 이동주, 이상구, 반자동으로구축된의미사전을이용한한국어상품평분석시스템, 정보과학회논문지 : 소프트웨어및응용, 35(6), pp.392-402, 2008. 양정연, 상품리뷰요약에서의문맥정보를이용한의견분류방법, 정보과학회논문지 : 데이타베이스, 36(4) pp.254-262, 2009. 윤영선, 온라인리뷰가온라인쇼핑행동에미치는영향, 국제회계연구, 52, pp.139-159, 2013. 이윤정, 지정훈, 우균, 조환규, 인터넷게시물의댓글분석및시각화, 한국콘텐츠학회논문지, 367

9(7), pp.45-56, 2009. 이은영, 온라인구전이소비자의신제품수용에미치는영향에관한연구, 광고홍보연구, 16, pp.1-21, 2008. 서진욱, 인간 - 컴퓨터상호작용과정보가시화, 정보과학회지, 29(8), pp.63-68, 2011 조하나, 정연오, 이재동, 이지형, 인터넷뉴스댓글의감성분석을통한오피니언마이닝, 한국지능시스템학회 2013 년도춘계학술대회학술발표논문집, 23(1), pp.149-150, 2013. 도서 Bing Liu, Sentiment Analysis and Opinion Mining, Morgan & Claypool Publishers, 2012. Card, S. K., Mackinlay, J. D., & Shneiderman, B. (Eds.), Readings in information visualization: using vision to think, Morgan Kaufmann, 1999. Nahum Gershon, Stephen G. Eick, Stuart Card, Information Visualization, ACM, 1998. 인터넷사이트 NAVER 영화, http://movie.naver.com Social Metrics, http://insight.some.co.kr Opinion Analyzer,, 54.255.190.140/index/# 368 Design Convergence Study 57 Vol.15. no.2 (2016.4)