감정어휘분포맵을이용한영화추천시스템의시각화 Visualization of movie recommendation system using the sentimental vocabulary distribution map 저자 (Authors) 출처 (Source) 발행처 (Publisher) URL APA Style 이용정보 (Accessed) 하효지, 한현우, 문성민, 배성윤, 이지혜, 이경원 Hyoji Ha, Hyunwoo Han, Seongmin Mun, Sungyun Bae, Jihye Lee, Kyungwon Lee 한국컴퓨터정보학회논문지 21(5), 2016.5, 19-29 (11 pages) Journal of the Korea Society of Computer and Information 21(5), 2016.5, 19-29 (11 pages) 한국컴퓨터정보학회 The Korean Society Of Computer And Information http://www.dbpia.co.kr/article/node06683800 하효지, 한현우, 문성민, 배성윤, 이지혜, 이경원 (2016). 감정어휘분포맵을이용한영화추천시스템의시각화. 한국컴퓨터정보학회논문지, 21(5), 19-29. 아주대학교 202.30.7.*** 2018/01/07 01:31 (KST) 저작권안내 DBpia에서제공되는모든저작물의저작권은원저작자에게있으며, 누리미디어는각저작물의내용을보증하거나책임을지지않습니다. 그리고 DBpia에서제공되는저작물은 DBpia와구독계약을체결한기관소속이용자혹은해당저작물의개별구매자가비영리적으로만이용할수있습니다. 그러므로이에위반하여 DBpia에서제공되는저작물을복제, 전송등의방법으로무단이용하는경우관련법령에따라민, 형사상의책임을질수있습니다. Copyright Information Copyright of all literary works provided by DBpia belongs to the copyright holder(s)and Nurimedia does not guarantee contents of the literary work or assume responsibility for the same. In addition, the literary works provided by DBpia may only be used by the users affiliated to the institutions which executed a subscription agreement with DBpia or the individual purchasers of the literary work(s)for non-commercial purposes. Therefore, any person who illegally uses the literary works provided by DBpia by means of reproduction or transmission shall assume civil and criminal responsibility according to applicable laws and regulations.
Journal of The Korea Society of Computer and Information Vol. 21 No. 5, pp. 19-29, May 2016 www.ksci.re.kr http://dx.doi.org/10.9708/jksci.2016.21.5.019 This paper suggests a method to refine a massive collective intelligence data, and visualize with multilevel sentiment network, in order to understand information in an intuitive and semantic way. For this study, we first calculated a frequency of sentiment words from each movie review. Second, we designed a Heatmap visualization to effectively discover the main emotions on each online movie review. Third, we formed a Sentiment-Movie Network combining the MDS Map and Social Network in order to fix the movie network topology, while creating a network graph to enable the clustering of similar nodes. Finally, we evaluated our progress to verify if it is actually helpful to improve user cognition for multilevel analysis experience compared to the existing network system, thus concluded that our method provides improved user experience in terms of cognition, being appropriate as an alternative method for semantic understanding. 소셜네트워크분석 (Social Network Analysis) 은네트워크가가지는고유의구조및관계를분석하여사회적기능문제를파악하고해결하는데큰역할을한다. 따라서데이터의유사도를기반으로형성되는네트워크분석및사회과학적현상의네트워크분석, 그래프이론, 추천시스템등광범위한분야에서활용되고있다. 특히네트워크그래프를그리는대표적인레이아웃알고리즘인 Force-directed layout 은관련있는노드간의클러스터를형성하게함으로써네트워크분석을위한그래프를그리는데유용하다 [1]. 그러나 Force-directed layout을통해그려지 는그래프는노드위치의초깃값이무작위로설정되고, 노드사이의상대적인관계에따라최종위치를결정하기때문에데이터가추가되거나그래프를새로그릴때마다노드의위치가달라지는문제점이있다. 따라서네트워크를관찰하려는사용자는시스템에대한학습을반복해야하는불편함이생긴다. ( 그림 1 참고 ) 이러한문제점은네트워크를이루고있는데이터의양이많아질때네트워크해석에큰장애요소가될수있다. 또한, Force directed layout을그대로적용하여데이터를시각화한다면, 노드들의위치가달라진다는문제로인해서집단지성정보의의미전달력을상실할가능성이있다.
20 Journal of The Korea Society of Computer and Information Fig. 1. Force-directed layout Network (Left: 40 nodes Right: 65 nodes): The location of nodes continues to change, whenever the data is added or modified 따라서본논문은 Force-directed layout 이가지는문제점 을개선하며네트워크를의미적으로해석할수있는방법론을 제시하고자하며, 방법론적용의모델이되는데이터를집단지 성데이터중하나인 영화리뷰데이터 로선정하였다. 정보시 각화를위해다양한분야의데이터중영화리뷰데이터를선 정한이유는, 네트워크를의미적으로해석하기위해다양한의 미요소가포함된데이터가필요했기때문이다. 영화리뷰데이 터는영화리뷰어들의평가및감정정보를기반으로다양한해 석이가능하다는장점이있으며, 네트워크를분석하는사용자 가영화의내용및분위기를어느정도알고있다면네트워크 의성격을쉽게파악하고공감을할수있다는장점이있다. Force-directed 레이아웃이가지는문제점을해결하기위한 연구방법을서술하면다음과같다. 우선리뷰데이터에서영화 를봤을때느낄수있는대표적인감정어휘 36 개를추출하였 다. 추출된감정어휘는주성분분석 (Principal component analysis) 을이용하여 7 가지군집으로분류하였다. 또한, 감정 어휘간의유사성및비유사성의관계를나타내기위해다차원 척도분석법 (MDS: Multi-Dimensional Scaling) 을사용하여감 정어휘간의상관관계를분석하였다. 그리고상관관계정보에 따라서감정어휘 2 차원분포맵을제작하였다. 그리고감정어휘 2 차원분포맵을기반으로감정어휘유사도영화네트워크를구 축하였는데, 네트워크제작을위해두가지프로세스를거쳤다. 우선, 네트워크를이루는노드 (node) 하나는하나의영화정보 를포함하도록만들고, 자신과가장유사한감정을가진영화와 엣지 (edge) 를구성하도록하여총 678 개의영화노드로구성된 네트워크를구축하였다. 또한, 영화노드하나가가지고있는 감정어휘빈도정보를쉽게파악하기위해히트맵시각화 (Heatmap visualization) 를적용하였다. 두번째로, 영화노드 들이감정어휘 2 차원분포맵상의의미적인위치에영향을받 도록하여노드의절대적위치가노드가가지는감정어휘정보 를반영하도록하였다. 그결과각영화를나타내는노드들은 감정어휘빈도에따라 2 차원분포맵상에있는감정어휘의공 간적위치에이끌리도록하는네트워크레이아웃이만들어지게 되었고, 본연구에서는이를 감정어휘기반영화네트워크 라 명명하였다. 그리고본연구가제안한시각화결과물이영화를 추천과정에서어떤방식으로사용되는지보기위한샘플시나 리오를제시하였다. 마지막으로본연구가제안하는시각화방 법론이사용자들의인지개선에도움이되는지검증하기위한 실험을실시하였다. 해당실험에서는히트맵시각화의적용유 무에따라서실험자가네트워크를탐색할때감정어휘정보를잘이해할수있는지를비교하였다. 이상의연구방법을소개하기위해, 본논문은 관련된사전연구분석, 시각화에사용될데이터의정제과정, 두개의시각화방법론제안-히트맵시각화, 감정어휘기반영화네트워크, 시각화검증실험및통계분석, 개발된시각화시스템을이용한영화추천시나리오, 연구에대한결론및향후연구계획 순으로구성되었다. 1.1 Sentiment words 감정언어에대한연구로김명규 [2] 에서는온라인상의댓글에서나타나는감성단어구축에관한시도가이루어졌다. 이영희 [3] 의연구에서는사용자가입력하는단어에따라아바타가반응하는시스템을위해요구되는감정표현어휘들을수량화이론분석을통해분류, 분석이이루어졌다. 감성어휘공간을나타내려는연구로성정연 [4] 에서는재질감을표현할수있는햅틱형용사의어휘를도출하고햅틱형용사들의관계를다차원척도분석법으로표현하였다. 1.2 Movie Recommendation 영화추천방법에대한연구는크게 정보필터링기술을활용한내용기반추천시스템 과 협력적추천시스템 을중심으로이루어지고있는데그중내용기반추천시스템을연구한 Oard[5] 에의하면내용기반추천시스템은사용자의개인정보를기반으로개인마다의유형을추출하여이에따른선호도를추정하는것이특징이었다. 협업필터링을통한영화추천시스템방식은 Sarwar[6], Adomavicius[7] 등에의해연구되어왔고, 사용자정보와유사한정보를가진집단이선택한것들을추천해준다는것이특징이다. 두연구모두사용자의개인정보를이용하여추천하는방식을선택하였는데, 본연구에서취급하고자하는데이터는 영화를보면서느끼는감정리뷰데이터 로써사용자의경험적정보를사용해영화추천목적에맞는감정적속성을다양하게반영할수있다는것이특징이다. 1.3 Network Visualization and Layouts 네트워크시각화에방법에관한연구는다양하게이루어져왔는데, 그중 Cody[8] 의연구에서는, 복잡한형태의네트워크관계를보다쉽게해석하기위해네트워크의구조를군집화하여묶어서간단히나타내는시각화모델을제시하였다. 그러나이러한방식은사용자들이단순화된네트워크군집안의속성을파악하지못한다는한계점이존재한다.
Visualization of movie recommendation system using the sentimental vocabulary distribution map 21 네트워크시각화에서군집관계파악의모호함을해소하고가독성을증가시키기위한연구로 Henry[9] 의연구가있는데, 여기에서는많은양의노드를다루기위해연결관계에가장중심이되는노드를기반으로타노드를군집화하여제시한다. 그러나노드의복제를통해인위적으로시각화를왜곡시켜사용자가일정크기이상의시각화를분석할때복제된노드를구별하는데혼선을불러일으킬수있다는점이단점으로작용한다. 1.1 Sentiment words collection 본연구에서는감정어휘의분포맵을제작하기위해한덕웅 [10] 의연구를참고하여, 834개의정서용어중에서영화를봤을때느낄수있는감정어휘만을분류하는작업을거치게되었다. 이작업을위해본교의국어국문학과박사전문가 1명과본연구를진행하는전문연구원 2명과함께서로의견취합이가능한감정어휘만을골라최종 100개의감정어휘를선별하게되었다. 다음으로사용자들이가장많이느끼는감정어휘를선별하기위해선정된 100개의감정어휘를토대로설문조사를실시하였다. 설문조사는 20대대학생 30명을대상으로영화를봤을때느낄수있는감정에대한간단한개념설명을거친뒤에, 영화를보는상황일때해당감정어휘를느낄수있는정도가어떻게되는지를조사하였다. 그결과평균이상대적으로낮은감정어휘 (4.00 보통이다. 를뜻하는수치이하 ) 32개를추가적으로제거하여영화추천에적합한 68개의감정어휘를선정하게되었다. 1.2 Sentiment Words Refinement 사용자조사를통하여선정된 68개의감정어휘중에서 2차원분포맵에표현될최종감정어휘를선별하기위해실제영화리뷰에서나타나는감정어휘데이터를수집하여비교하고, 리뷰에서잘나타나지않는감정어휘를제거하는작업을시행하였다. 자세한과정은아래와같이 3가지의작업을거쳤다. 1.2.1 Crawling 본연구에서사용한영화리뷰데이터는한국에서가장많은이용자를보유한포털사이트인네이버의영화정보서비스 [11] 에서수집하였다. 크롤링 (Crawling) 이란웹페이지에서데이터를수집하는작업과정으로, 본연구에서는영화리뷰의감정어휘수집을자동화하기위해데이터를수집할수있는웹크롤러를제작하였다. 크롤러는네이버영화홈페이지에서특정영화의댓글과리뷰들을정제되지않은데이터형태로수집하는단계와수집된데이터를연구에서사용가능한데이터로가공하는단계, 마지막으로정제된데이터를분석하여감정어휘를 추출해내는단계로설계되었다. 그결과 2004 년부터 2013 년까 지한국에서개봉된 2,289 개영화의리뷰 4,107,605 건이수집 되었다. 여기에서 2004 년부터 2013 년까지의영화리뷰로데이 터의범위를한정지은이유는, 네이버영화리뷰들의댓글을사 전에조사했을때, 리뷰댓글 ( 감정어휘형태소의유무에상관없 이 ) 이 1,000 개이상이달린영화들이대부분 2004 년 ~2013 년 사이에출시된영화들이었기때문이다. 2,289 개의표본을기반 으로, 감정어휘빈도가풍부한개체만을필터링하기위해감정 어휘형태소가 1,000 개이상이있는영화를선별하였다. 그결 과최종 678 개의영화표본이선정되어네트워크샘플데이터 로활용되었다. 1.2.2 Establishing sentiment word dictionary 본연구에서는크롤링작업을통해수집된영화평들의모든 텍스트데이터들을은전한닢 [12] 형태소분석기를사용하여 각각의형태소들로분리하였다. 이과정은형태소분석작업 과정의일환으로수행되었으며, 형태소분석이란형태소를비 롯하여, 어근, 접두사 / 접미사, 품사 (POS, part-of-speech) 등 다양한언어적속성의구조를파악하는과정을말한다. 형태소분석후분리된형태소들을바탕으로감정형태소들 을추출하였으며, 선택한감정형태소들은 68 개의세부감정어 휘카테고리에각각분류하여감정어휘별로감정어사전을구 축하였다. 감정형태소들을추출하고카테고리들안에사전화 하는작업은한국어학자 ( 한국어학전공 ) 의자문을받아서진행 하였다. 1.2.3 Applying TF-IDF(Term Frequency - Inverse Document Frequency) 본연구에서는실제영화리뷰데이터와매칭과정을통해영 향력이미미한감정어집단을제거하여좀더정확한결과를 얻고자하였다. 이를위해우선각영화에서각감정어집단 (t) 의단어 (w) 빈도수 (tf: Term Frequency) 를구하였다. (1) = num of words in sentimental group The number of times that term occurs in document 그리고역문서빈도 (idf : Inverse Document Frequency) 를 구하여서보편적인감정어집단의가중치가낮아지도록하였 다. 각영화에대한감정어집단의 TF-IDF 스코어는다음과 같이구하였다. log (2)
22 Journal of The Korea Society of Computer and Information 다음으로감정어휘개수를줄이기위해각감정어휘에서나 타날수있는 TF-IDF 스코어의최대치를구하였다. (3) 예를들어 경악하다 의경우모든영화에서 TF-IDF 스코 어의비율이 0.8% 이하이다. 반면에 달콤하다 의경우는적어 도한개의영화에서는 TF-IDF 스코어의비율이 42% 에달하 는것을뜻한다. 본연구에서는 TF-IDF 스코어의비율이 10% 미만인감정어 휘를제거하고최종적으로 36 개의감정어휘를선택하였다. 선 택된 36 개의감정어휘는크게 Happy, Surprise, Boring, Sad, Anger, Disgust, Fear 의성격으로나뉘게되며, 감정어휘는아 래의 Table 1 과같다. Table 1. 36 Sentiment Words. Clustering Characteristics Happy Surprise Boring Sad Anger Disgust Fear 2.1 Heatmap visualization Sentiment Words Happy, Sweet, Funny, Excited, Pleasant, Fantastic, Gratified, Enjoyable, Energetic Surprised, Ecstatic, Awesome, Wonderful, Great, Touched, Impressed Calm, Drowsy, Bored Pitiful, Lonely, Mournful, Sad, Heartbroken, Unfortunate Outraged, Furious Ominous, Cruel, Disgusted Scared, Chilly, Horrified, Terrified, Creepy, Fearsome 히트맵시각화는각타일이색상눈금을가지고그색조로 값을나타내는시각화로써 [12], Robert[13] 의연구처럼데이 터행렬의변칙또는패턴을찾거나, Jeong[14] 의연구처럼범 위를파악하는연구에사용되고있다. 본연구에서는네트워크 를이루는각영화노드들의감정분포도를시각화하기위해, 각감정어휘의다차원척도분석 2 차원분포맵의좌표공간을 활용하여감정어휘의단어빈도 - 역문서빈도의크기를히트맵 형태로나타내었다. 우선, 데이터정제과정에서최종선정된 36 개의감정어휘들간의거리를측정하여상관관계를분석한다 음다차원척도분석 (MDS) 을실시하였다. 우선, 디지털미디어 및영상을전공하는대학생 20 명을대상으로 36 개의감정어휘 에대해의미상거리설문조사를실시하였는데, 설문조사는가 로축세로축 36 개의감정어휘를배치한설문지를만들고 (36X36) 감정어휘간의거리가가장가깝다고느껴지면 3 점, 가 장멀다고느껴지면 -3 점을주는방식의리커트척도 (Likert scale) 를이용하여점수를부여하는형식으로구성하였다. 20 명이기록한데이터를바탕으로다양한네트워크분석기법이활용가능한 UCINET 프로그램을사용하였고이를통해영화리뷰감정어휘들간의의미상의거리기반으로그림 2와같은 Metric MDS를형성할수있었다 [15]. 그결과 X축의양의방향으로는긍정적인느낌을가지는 Happy, Surprise 와관련된군집성격이분포되었으며, X 축의음의방향으로는부정적인느낌을가지는 Anger, Disgust 와관련된군집성격이분포되었다. 그리고 Y축의양의방향으로는동적인 ( 감정을느낄때비교적큰제스처를취할수있는 ) 느낌을가지는 Fear, Surprise 와관련된군집성격이분포되었으며, Y축의음의방향으로는정적인 ( 감정을느낄때비교적작은제스처를취할수있는 ) 느낌을가지는 Sad, Boring 과관련된군집성격이분포되었다. 그리고 2 차원분포맵에서각각의감정어휘들이 Happy, Surprise, Boring, Sad, Anger, Disgust, Fear 등의성격에따라뚜렷하게군집이되는것을볼수있다. ( 그림 2 참고 ) Fig. 2. 36 Sentiment words MDS Map 다음으로 2차원감정어휘분포맵을기반으로하여히트맵시각화를제작하였는데, 히트맵을생성하기위해서는임의의영화하나에대해서 36개의감정어휘 (2차원분포맵을구성하고있는감정어휘들 ) 에대한빈도수가필요하다. 본연구에서는데이터구축과정을통해얻은감정어휘영화리뷰데이터와감정어휘형태소사전을대조하여각영화에서의감정어휘빈도수를측정하였다. 또한, 영화의대표적인성격과관계없이자주등장하는특정감정어휘의가중치를낮추기위해단어빈도 -역문서빈도를계산하여수치를조정하였다. 다시말해최종적으로구해진각감정어휘의단어빈도 - 역문서빈도가해당영화의히트맵시각화그래프에반영되는실질적인수치라고할수있다. 최종히트맵그래프는감정어휘의 2차원분포맵을배경으로하고, 사각형의작은셀 (cell) 로구성된다. 모든셀은 0의수치로초기화되어있으며, 해당셀에위치한감정어휘단어빈도- 역문서빈도에따라초기화된수치가증가한다. 셀이가지고있는수치가높아질수록다른색으로변함으로써해당감정어휘단어빈도 - 역문서빈도의높고낮음을확인할수있다. 또한, 수치가올라간셀은주위셀의영향을미침으로써히트맵
Visualization of movie recommendation system using the sentimental vocabulary distribution map 23 Fig. 3. (a) Heat Map of Don t Cry Mommy which shows single emotion (Furious, Outraged) (b) Heat Map of Snowpiercer which shows various emotions (Cruel, Pitiful, Lonely, Bored, Funny, Great and Energetic) 시각화의모습은지형도의모습을띠게된다. 그림 3(b) 는영화 설국열차 (Snowpiercer) 에대한관람객들의영화리뷰에나타나는감정어휘의분포도를히트맵시각화로나타낸그래프이다. 그래프를보면관객들은재미있고대단하다 (Funny and great) 는반응을보이는가운데안타깝고지루하다 (Pitiful and Boring) 는감정또한높은빈도를보이고있다. 실제로영화리뷰중하나의샘플을살펴보면 중반까지연출력이돋보이는작품이었다. 특히횃불을가지고달려오는장면은봉준호감독만의느낌과연출이가장돋보이는장면이었다. 그러나영화는급격하게지루해지고영화를지탱하던긴장감마저사라진다. 열차를탐방하는장면이계속되고허무한결말로끝이난다. 와같이영화에대해실망한관객들이있는것을볼수있어서다양한감정이나타남을알수있다. 실제로영화리뷰중하나의샘플을살펴보면 중반까지연출력이돋보이는작품이었다. 특히횃불을가지고달려오는장면은봉준호감독만의느낌과연출이가장돋보이는장면이었다. 그러나영화는급격하게지루해지고영화를지탱하던긴장감마저사라진다. 열차를탐방하는장면이계속되고허무한결말로끝이난다. 와같이영화에대해실망한관객들이있는것을볼수있어서다양한감정이나타남을알수있다. 영화의감정어휘를나타내는히트맵시각화는크게두가지의유형으로나타난다는것을알수있었는데, 하나는 Happy, Surprise, Boring, Sad, Anger, Disgust, Fear등의감정어휘성격중하나의성격에대해서만높은빈도를나타내는경우가있으며 ( 그림 3(a)) 다른하나는두개이상의감정어휘성격이높은빈도를나타낸다는것을확인할수있었다. ( 그림 3(b)) 두개의유형중두번째케이스를더많이찾아볼수있었으며, 이를통해사람들이영화를볼때단일감정이아닌두개이상의복합된감정을느끼는경우가많다는것을히트맵시각화를통해살펴볼수있었다. 또한, 서로상반된감정어휘들을가지는영화나유사한감정어휘들을가지는영화노드들을히트맵시각화의분포도비교를통해서쉽게이해할수있었다. 2.2 Sentiment-movie network 본연구에서는히트맵시각화로써영화정보가가지고있는 감정어휘의빈도를나타내는작업이외에도, 감정어휘에따른영화간의유사도에따른네트워크를제작하고자한다. 이를위해영화리뷰의감정어휘분포맵기준으로영화네트워크의위상을고정시킴으로써노드의수가변경되어도일정한영역에위치하게되어네트워크구조를쉽게파악할수있도록하였다. 본연구에서는이시각화를감정어휘기반영화네트워크라명명하였고, 그림 4는감정어휘기반영화네트워크의기본구조를나타낸것이다. 그림 4와같이, 우리가제안한그래프는두개의층으로이루어져있다. 첫번째층은 ' 감정어휘층 ' 이라고부르며, 36개의감정어휘 2차원분포맵으로구성되어있다. 감정어휘의의미적인위치는초기설정된값에위치하게되며고정된상태를유지한다. Fig. 4. Basic Structure of the Sentiment Movie Network 두번째층은 네트워크층 이라부르며, 영화네트워크를구성할노드들이포함된다. 각각의영화노드는유사도에따라다른영화노드들과엣지를형성하는동시에, 해당노드가내포하고있는감정어휘에따라서감정어휘 2차원분포맵의감정어휘와가상의엣지를형성한다. 그리고 Forced-directed algorithm 에따라, 엣지로연결된노드는인력과척력이함께작용한다. 반면에, 감정어휘의의미적인위치는고정된상태이므로감정어휘로부터의인력만작용한다. 노드간의엣지구성을위해 36개감정어휘의단어빈도 - 역문서빈도를기준으로영화간의코사인유사도를계산하였다.
24 Journal of The Korea Society of Computer and Information 또한, 노드와감정어휘사이를연결해주기위해서감정어휘빈도의고정된역치값 (Threshold) 을설정하고그값을초과하는감정어휘부분들에대해서노드가힘을받도록하였다. 영화 A 와 B의유사도 SIM(A, B) 를계산하는공식은다음과같다. 이상의공식에따라서나온유사도를바탕으로본연구에서는감정어휘에기반을둔네트워크를형성할수있었고, 네트워크에서노드가위치하는원리는그림으로설명하면그림 5및그림 6과같다. (4) Fig. 5. Heatmap Visualization and positioning on the Sentiment-Movie Network (One point position) in case of Don t Cry Mommy Fig. 6. Heatmap Visualization and positioning on the Sentiment-Movie Network (More than two point position) in case of Snowpiercer 그림 5과그림 6은히트맵시각화를통해알수있는감정어휘의빈도에따라그래프상에서노드의위치가달라지는예시를보여준다. 그림 5의경우압도적으로높은빈도수를가진감정어휘위치에노드가놓이는것을확인할수있다. 그림 6의경우높은빈도수를보이는몇몇감정어휘들에의해힘을받기때문에결과적으로 2차원분포맵중간지점에노드가위치하는것을확인할수있다. 이와같은방법으로네트워크로연결된노드들을그래프상에위치시키면영화간의연결성과관련감정어휘와의연결성을모두고려하여감정어휘의빈도가높은공간에유사한영화끼리군집을형성한다. 마지막으로각노드군집들의성격을구분하기위하여코사인유사도값을이용한 k-평균알고리즘군집화작업을하였다. k-평균알고리즘군집화를위해, 각노드들을코사인유사도기준으로 2차원상의분포시킨뒤임의로 k개의군집으로 나눈다. 그다음각군집의무게중심을구하여각각의노드들을각군집의무게중심가운데제일가까운것에속하게함으로써새롭게군집을생성한다. 이작업을반복하다보면노드들이더이상소속된군집을바꾸지않게되는시점이오게되는데, 그시점이알고리즘진행이끝난시점이며군집화작업이종료된후나뉜군집들을실제노드들의군집개수로사용한다. k-평균알고리즘의경우먼저군집의수를정하기때문에가장좋은군집상태를만들기위해서는 k를다양한수로두고군집화를진행하여야한다. 군집의개수는 9개부터 12개까지의경우를살펴보았으며, 그중각군집의노드개수가고르게분포되고다양한성격이군집화될수있는경우가 11개라는테스트결과를통해서, 11개의감정어휘유형집단을최종군집개수로선정하게되었다. 그리고 11개의군집을기반으로
Visualization of movie recommendation system using the sentimental vocabulary distribution map 25 노드집단을구분하기위해노드를색상으로구분했다. 그결과본연구에서제안한히트맵시각화및감정어휘의유형에따라색상으로구분된최종감정어휘기반영화네트워크의모습은그림 7과같이나타낼수있다. 하나의노드는각각영화하나를나타내며, 각각의영화가가지고있는감정어휘빈도에따라서노드가위치하게된다. 그리고노드하나에는각영화의자세한감정어휘빈도및정보를보여줄수있도록영화의제목, 영화포스터, 히트맵시각화를제공한다. 기능을제공하는집단과제공하지않는집단에대해시각화사용에대해사용자가느끼는사용용이성에차이가있는지를확인하는목적으로실험을설계했다. 히트맵시각화의유무에따른차이로가설을정한이유는히트맵시각화가네트워크를이루고있는노드들이가지는감정어휘정보를가장잘나타낼수있는수단이므로사용용이성차이에큰영향을미칠수있다고생각했기때문이다. Fig. 7. Sentiment Movie Network (678 Movie nodes) & Heatmap visualization 3.1 Purpose and method of usability measurement 실험은각각의사용용이성에대한세부문항으로구성된 experiment 설문지실험으로척도는리커트 7점척도를사용하였다. 실험대상은각집단별로시각화분야에대한지식을지니고현재데이터시각화분야를공부중인대학교학생들을표본으로설정하였으며총 100명을대상으로실험을하였다. 이중에서도데이터가누락되거나설문문항에성실히응답하지않은 40부를제외하고 60부의설문데이터를최종자료로사용하였다. 검증실험의가설및검증체계를정리하면아래의내용및그림 8과같다. 귀무가설 : 히트맵시각화기능제공에따른두집단사이에는유효한차이가없다. 대립가설 : 히트맵시각화기능제공에따른두집단사이에는유효한차이가있다. Fig. 8. Evaluation Process 본연구에서개발한시각화의검증을위해히트맵시각화 3.2 Reliability analysis 데이터를분석하기에앞서측정도구의신뢰성을검증하기위해신뢰도분석 (Reliability Analysis) 을실시하였다. 신뢰도분석은문항간내적일관성 (Internal Consistency) 을측정하
26 Journal of The Korea Society of Computer and Information 는방법으로크론바하알파 (Cronbach's α) 계수를사용하여이를파악한다. 크론바하알파계수는 0에서 1의값을가지며 1 에가까울수록문항의신뢰도가높다고할수있다. 일반적으로 0.6이상의값을가지면신뢰성이있다고하며개별항목들을하나의척도로종합하여분석하는것이특징이라고할수 있다. 최종측정데이터를활용하여신뢰도를분석하면 Table 2 와같다. Table 2. Result of the Reliability Analysis. Categories Learnability Efficiency Understandability Feature Functionality Accuracy Statements 1. It is easy to select a movie based on the sentiment words. 2. It is efficient to select the node based on the sentiment of the movie. 3. It is easy to understand the sentiment distribution depending on varying node locations. 4. It provides an adequate function to help user choose a movie. 5. The selected movie and the sentiment distribution predicted from the movie's map coordinate matches. Cronbach's α (Provide) & (Non-Provide).698 (Provide).827 (Non-Provide).698 (Provide).826 (Non-Provide).661 (Provide).747 (Non-Provide).663 (Provide).749 (Non-Provide).742 (Provide).725 (Non-Provide) Total.666 Table 3. Result of the Reliability Analysis ('a' group = Heatmap, 'b' group = No heatmap). Equal Variance P-value / Alternative Question P-value T-value P-value Assumption Hypothesis Adoption 1_a * 1_b 0.08203 Heteroscedasticity 4.8295 0.00003** Adopt** 2_a * 2_b 0.5064 Heteroscedasticity 7.2038 0.00000001** Adopt** 3_a * 3_b 0.2327 Heteroscedasticity 4.7609 0.000032** Adopt** 4_a * 4_b 0.07771 Heteroscedasticity 4.3814 0.00011** Adopt** 5_a * 5_b 0.0026 Equal variance 4.9205 0.000036** Adopt* 신뢰도분석결과두집단에대한각항목을제거할때크론바하알파 (Cronbach's α) 계수의최댓값은히트맵시각화를제공한경우, 정확성문항을제거시가장높았고 (0.742) 히트맵시각화를제공하지않은경우, 학습용이성문항을제거시가장높았다 (0.827). 또한, 모든항목에대한크론바하알파값이 0.6이상이므로전체문항에대한내적일관성이높고따라서신뢰도가높다고할수있다. 3.3 Average comparison per group 평균비교는독립표본 T검정 (Independence T-test) 을실 시하였는데독립표본 T검정이란두집단이각각 N( ) 과 N( ) 인정규분포를따르고서로독립이라는가정하에두집단간모평균에차이가있는지를검정한다. 본연구에서는데이터의정제과정을통해 60부의설문데이터를두집단으로나누어각각 30부의설문데이터를사용하였으며이는중심극한정리에의해정규분포를가정하며실험에참여한두집단이독립임을가정하고평균비교를시행하였다. 두그래프에대해집단을나누고실험을한결과를평균비교로분석한결과는 Table 3과같다. 히트맵시각화기능을제공한집단과히트맵시각화기능을 제공하지않은집단에대해평균비교분석을실시한결과, 모 든문항에서유의한차이가있다는것을확인하였다. Table 4 는대립가설을채택한문항에대한세부사항이다. 귀무가설을기각하고대립가설을채택한모든문항들을세 부적으로확인한결과, 히트맵시각화기능을제공한집단의 문항평균수치가높게나온것을확인할수있다. 이를통해 시각화에서히트맵시각화기능을제공할때와제공하지않 을때, 모든요인문항에서두집단사이간의유효한차이가 있다고해석할수있다. Table 4. Details on the Statements with Alternative Hypothesis. Question 95% confidence Provide 1_a * 1_b 1.1286< μ <2.7714 5.45 3.5 2_a * 2_b 1.8688< μ <3.3312 5.95 3.35 3_a * 3_b 1.1188< μ <2.7812 5.8 3.85 4_a * 4_b 0.9908< μ <2.7092 5.65 3.8 5_a * 5_b 1.2541< μ <3.0459 5.75 3.6 Non- Provide
Visualization of movie recommendation system using the sentimental vocabulary distribution map 27 이장에서는본연구의네트워크시각화가실제영화추천의 기능으로서어떻게활용되는지가상의상황을전제로시나리 오를제시한다. 또한, 네트워크시각화를이용하여영화추천을 제공하는기존사례인 Popcha'[17] 를기반으로본연구의영 화추천시스템이 Popcha 와비교했을때어느점에서우수성을 나타내는지서술하고자한다. 우선, 시나리오의자세한내용 은아래와같다. 시나리오 : 사용자가본영화를기반으로, 감정이비슷한군 집에서영화추천받기 본시나리오에서는사용자가관람한영화의감정어휘를 기반으로, 비슷한감정을갖는영화군집에서영화를추천받 는상황을전제로한다. 이시나리오에서사용자가관람한영 화는 Star Track Into Darkness 2013 이며, Star Track 을 중심으로영화추천을받고자한다. 1) 우선사용자는자신이 관람한 Star Track 노드를네트워크에서탐색하여찾은다 음해당노드가있는곳을선택하게된다. 2) 다음으로 Star Track 주변에있는영화노드가무엇이있는지선택하게된 다. 3) 선택된영화노드는그림 9 와같이 A, B 2 개의노드라 가정한다. 광해 : 왕이된남자 (Masquerade) 라는영화인데, 이영화는 Star Track과비슷한히트맵시각화감정분포를가짐과동시에 감동적인 (Touching) 부분이추가되었기때문에이사용자가 Star Track과비슷하지만감동적인감정을더원한다면 광해 : 왕이된남자 (Masquerade) 영화를보면된다. 이처럼사용자들은자신이경험한영화를바탕으로유사한영화를추천받고싶을때, 네트워크의구조를파악하여해당영화와상대적으로가까이에있는노드들을후보로정하고각각의후보노드들의감정어휘빈도를히트맵시각화를통해분석한다면, 보다효율적으로보고싶은영화를찾을수있을것이라예상한다. 다음으로, 네트워크기반영화추천사례중하나인 Popcha ( 그림 11) 와본연구의시각화를비교분석하여두시스템이어떤차이가있는지, 그리고본연구에서제안한영화추천시스템이가지는장점이무엇인지를언급하고자한다. Fig. 11. 'Popcha' Movie Network visualization Fig. 9. Movie 'Star trek' heatmap visualization & discover 2 movies A, B which are located closely Fig. 10. 'Ironman 3'& 'Masquerade' heatmap visualization 4) 노드 A 는 아이언맨 3(Ironman 3) 라는영화인데, 이영 화는그림 10 처럼 Star Track 과가장유사한히트맵감정어 휘분포를보이고있기때문에이사용자가유사한감정을느 끼고싶다면 아이언맨 3(Ironman 3) 를보면된다. 노드 B 는 Popcha 는영화에대한정보중, 감독, 출연배우, 개봉연도, 장르, 스토리 의정보를기반으로유사도를계산하여영화를추천해주는네트워크시스템이다 [17]. 따라서사용자가네트워크의노드를하나선택했을때, 그와관련된영화정보를 감독, 출연배우, 개봉연도, 장르, 스토리 에기반을두어제시한다. 그러나이러한시스템은사용자가선택한영화에대해서감독, 출연배우, 스토리등에대한사전지식이없을때는추천결과를공감하기어려운상황이올수있으며, 자신이관람한영화를기반으로추천을받기위해서는네트워크의노드를일일이탐색해야하는불편함이있다. 반면에본연구의추천시스템은 영화를봤을때느낄수있는감정어휘 를기반으로네트워크를구성하였기때문에사용자가영화하나를선택했을때, 그영화에대한사전지식이없다하더라도 2차원감정어휘분포맵과히트맵시각화를통해서감정정보를쉽게인지할수있는장점이있다. 또한, 자신이본영화를네트워크에서찾고자할때에도그영화를봤을때느낀감정을기억하고있다면쉽게찾을수있다. 이러한점을미루어볼때, 본연구의시스템은감정을기반으로다수의사용자가공감할수있는영화추천경험을제공하는데에있어기존의연구사례에비해효과적임을알수있다.
28 Journal of The Korea Society of Computer and Information 본연구에서는집단지성의영화리뷰데이터를다차원감정어네트워크시각화로표현한뒤이를직관적이고의미적으로해석하기위한세가지방법론을제시하였다. 첫번째는개별노드의감정어휘정보를나타내는히트맵시각화 (Heatmap Visualization) 를제공하였으며, 두번째는 2차원감정어휘분포맵을기준으로네트워크노드가표현되는방법을제시했다. 본연구의후반부에는고안된방법들을검증하기위한실험을시행하였다. 그결과대부분의사용자들이노드의위치와히트맵에관계에대해비교적잘인지한다는것을알수있었다. 또한, 각노드를이해할때히트맵시각화가적용된다면, 감정정보전달의용이성이향상되기때문에사용자들이각개별영화가갖고있는감정어휘를이해하는데큰도움을준다는것을알게되었다. 검증과정의결과에따라본연구의두가지방법론에대한효과를정리하면다음과같다. 우선히트맵시각화는서로비슷한위치에있는노드에대해서감정어휘분포의미세한차이점을보여줄때적합하다는것을알수있다. 감정어휘기반영화네트워크 (Sentiment-Movie Network) 는영화가가지고있는감정어휘빈도정보에따라노드 (node) 를배치하기때문에네트워크를해석할때해당노드의성격을빨리파악한다는장점이있다. 또한, 감정어휘정보를보여주는 2차원분포맵은감정어휘군의군집에따라서영화노드의대표감정을파악하는데도움을준다는것을볼수있다. 사용성검증실험이외에도본연구에서는네트워크시각화및히트맵등을활용하여영화를추천받는과정을시나리오형태로제시함으로써, 사용자들이감정에따라보고싶은영화를효율적으로선택할수있음시사했다. 그리고기존의영화추천시스템사례를분석하여비교함으로써, 본연구에서제안한영화추천시스템이가지는장점이무엇인지를언급하였다. 이는곧본연구의방법론이영화를추천하는데에있어사용자들에게기존과는다른스타일의추천을할수있다는가능성을보여주었다. 본연구는향후감정분석 (sentiment analysis) 뿐만아니라온톨로지구조데이터에대해서도분석작업을시행할예정이며, 온톨로지구조데이터가가지고있는다양한기준및의미전달력을향상시킬수있는다차원감정어시각화를만드는것을새로운목표로써채택할예정이다. [1] M.J. Thomas, M. Edward, "Graph Drawing by Force-direct Placement," Software-practice and experience, Vol. 21, pp. 1129-1164, Nov. 1991. [2] M. Kim, J. Kim, M. Cha, S. Chae, "An Emotion Scanning System on Text Documents," Korean Journal of the science of Emotion, Vol. 12, No. 4, pp. 433-442, Dec. 2009. [3] Y. Lee, J. Jeong, "A Study on the Analysis of Emotion-expressing Vocabulary for Realtime Conversion of Avatar's Countenances," Korean Society of Design Science, Vol. 17, No. 2, pp. 199-208, May. 2004. [4] J. Seong, K. Cho, "The Perceived Lexical Space for Haptic Adjective based on Visual Texture aroused form Need for Touch," Society of Design Convergence, Vol. 38, pp. 117-128, Feb 2013. [5] D.W. Oard, M. Gary, "A conceptual framework for text filtering process," Software-practice and experience, Master s Thesis of Maryland University, 1998. [6] B. Sarwar, G. Karypis, J. Konstan, J. Riedl, Item-based Collaborative Filtering Recommendation Algorithms, Proceeding of the 10th International World Wide Web, pp. 285-295, May 2001. [7] P. Li, S. Yamada, A Movie Recommender System Based on Inductive Learning, Proceeding of IEEE Conference, Cybernetics and Intelligent Systems, pp. 318-323, Dec. 2004. [8] C, Dunne, B, Shneiderrman, Motif simplification: improving network visualization readability with fan, connector, and clique glyphs, Proceeding of the SIGCHI Conference on Human Factors in Computing Systems (CHI 13), pp.3247-3256, May. 2013. [9] N. Henry, A. Benzerianos, J. Fekete, Improving the Readability of Clustered Social Networks using Node Duplication, IEEE Transactions on Visualization and Computer Graphics, Vol. 14, No. 6, pp. 1317-1324, Dec. 2008. [10] D. Hahn., H. Kang, Appropriateness and Frequency of Emotion Terms in Korea. Korean Journal of Psychology: General, Vol. 19, No. 2, pp.78-98, June. 2000. [11] NAVER Movie, http://movie.naver.com [12] Mecab-ko-analyzer, http://eunjeon.blogspot.kr [13] L. Wilkinson,, M. Frendly, The History of the Cluster Heat Map, The American Statistician, Vol. 63, No. 2, pp. 179-184, Sep. 2009. [14] G. Robert, G. Nick, K. Rose, S. Emre, S. Awali, C,
Visualization of movie recommendation system using the sentimental vocabulary distribution map 29 Dunne, B, Shneiderrman, Meirav Taieb-Maimon NetVisia: Heat Map, Matrix Visualization of Dynamic Social Network Statistics&Content, Proceeding of Privacy, Security, Risk and Trust(PASSAT) and 2011 IEEE Third International Conference on Social Computing(SocialCom), pp. 19-26, 2011. [15] Y. Jeong, Y. Chung, J. Park, Visualisation of efficiency coverage and energy consumption of sensors in wireless sensor networks using heat map, IET Communications, Vol. 5, No. 8, pp. 1129-1137, Sep. 2010. [16] H, Ha, G, Kim, K. Lee, A Study on Analysis of Sentiment Words in Movie Reviews and the Situation of Watching Movies, Society of Design Convergence, Vol. 43, pp. 17-32, Dec. 2013. [17] Popcha, http://bl.ocks.org/paulovn/9686202. Seong Min Mun received the B.S degrees in Bachelor of Science from Pyeongtaek University and received the M.S degrees in Media Content from Ajou University, Korea, in 2014 and 2016, respectively. He is in Ph.D dual degree program between Ajou University for the Media Content and Paris 10 University for the Langage de Science. He is interested in text mining, opinion mining and data visualization. Sung Yun Bae received the B.S. degrees in Digital Media from Ajou University, Korea, in 2015. M.S. joined Life media Interdisciplinary Program, at Ajou University, Suwon, Korea, in 2015. She is currently a master degree in the Life media Interdisciplinary Program, Ajou University. She is interested in information visualization. Authors Hyo Ji Ha received the B.S. degrees in Digital Media from Ajou University, Korea, in 2013. And progress on M.S and Ph.D degrees in Life media Interdisciplinary Program, at Ajou University, Suwon, Korea, in 2013. He is joined the graudate school of Lifemedia interdisciplinary program at Ajou University, Suwon, Korea, in 2013. He is currently Ph.d course in the Life media Interdisciplinary Program, Ajou University. He is interested in Information visualization, and Visual Analytics, User Experience Design. Hyun Woo Han received the B.S. degrees in Digital Media from Ajou University, Korea, in 2014. M.S. joined Life media Interdisciplinary Program, at Ajou University, Suwon, Korea, in 2014. He is currently a Ph.d course in the Life media Interdisciplinary Program, Ajou University. He is interested in information visualization. Ji Hye Lee is in progress on M.S. degrees in Lifemedia interdisciplinary program from Ajou University, Korea. respectively. She is joined the graudate school of Lifemedia interdisciplinary program at Ajou University, Suwon, Korea, in 2015. She is currently a student research in the Department of Digital Media department, Ajou University. She is interested in User experience evaluation, Information visualization, and qualitative data analysis. Kyung Won Lee received the MFA degree in computer graphics and interactive media from the Pratt Institute, USA, in 2002. He joined the faculty of the Department of Digital Media at Ajou University, Suwon, Korea, in 2003. He is currently a Professor in the Department of Digital Media at Ajou University. His research interests include information visualization, human-computer interaction, and media art.