Abstract Existing movie recommender systems generally use rating data of other users to predict the rating of target user. However, it is hardly possi

Similar documents
°í¼®ÁÖ Ãâ·Â

09한성희.hwp

09권오설_ok.hwp


À±½Â¿í Ãâ·Â

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

6.24-9년 6월

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

05( ) CPLV12-04.hwp

학습영역의 Taxonomy에 기초한 CD-ROM Title의 효과분석

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

정보기술응용학회 발표

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

DBPIA-NURIMEDIA

歯5-2-13(전미희외).PDF

I

statistics

27 2, 17-31, , * ** ***,. K 1 2 2,.,,,.,.,.,,.,. :,,, : 2009/08/19 : 2009/09/09 : 2009/09/30 * 2007 ** *** ( :

232 도시행정학보 제25집 제4호 I. 서 론 1. 연구의 배경 및 목적 사회가 다원화될수록 다양성과 복합성의 요소는 증가하게 된다. 도시의 발달은 사회의 다원 화와 밀접하게 관련되어 있기 때문에 현대화된 도시는 경제, 사회, 정치 등이 복합적으로 연 계되어 있어 특

DBPIA-NURIMEDIA

untitled

<B9CCB5F0BEEEB0E6C1A6BFCDB9AEC8AD5F31322D32C8A35FBABBB9AE5FC3CAC6C731BCE25F6F6B5F E687770>

歯1.PDF

위해 사용된 기법에 대해 소개하고자 한다. 시각화와 자료구조를 동시에 활용하는 프로그램이 가지는 한계와 이를 극복하기 위한 시도들을 살펴봄으로서 소셜네트워크의 분석을 위한 접근 방안을 고찰해 보고자 한다. 2장에서는 실험에 사용된 인터넷 커뮤니티인 MLBPark 게시판

(001~006)개념RPM3-2(부속)

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

07변성우_ok.hwp

<353420B1C7B9CCB6F52DC1F5B0ADC7F6BDC7C0BB20C0CCBFEBC7D120BEC6B5BFB1B3C0B0C7C1B7CEB1D7B7A52E687770>

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA

½Éº´È¿ Ãâ·Â

04-다시_고속철도61~80p

인문사회과학기술융합학회

에너지경제연구 제13권 제1호

DBPIA-NURIMEDIA

제19권 제3호 Ⅰ. 문제제기 온라인을 활용한 뉴스 서비스 이용은 이제 더 이 상 새로운 일이 아니다. 뉴스 서비스는 이미 기존의 언론사들이 개설한 웹사이트를 통해 이루어지고 있으 며 기존의 종이신문과 방송을 제작하는 언론사들 외 에 온라인을 기반으로 하는 신생 언론사

?

07_À±ÀåÇõ¿Ü_0317

±è¼ºÃ¶ Ãâ·Â-1

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -


DBPIA-NURIMEDIA

본문

[ReadyToCameral]RUF¹öÆÛ(CSTA02-29).hwp

09È«¼®¿µ 5~152s

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A S

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

김경재 안현철 지능정보연구제 17 권제 4 호 2011 년 12 월

<31325FB1E8B0E6BCBA2E687770>

<333820B1E8C8AFBFEB2D5A B8A620C0CCBFEBC7D120BDC7BFDC20C0A7C4A1C3DFC1A42E687770>

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

R을 이용한 텍스트 감정분석

<372040B9E8BFACB0FC2DC0CEC5CDB3DDBBF3C0C720C1F5BFC0B9DFBEF0BFA120B0FCB7C3B5C820B9FDC0FB20B9AEC1A6C1A1BFA120B0FCC7D120B0EDC2FB2E687770>

PowerPoint 프레젠테이션

<C1DF3320BCF6BEF7B0E8C8B9BCAD2E687770>

DBPIA-NURIMEDIA


歯3이화진

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: : Researc

Microsoft PowerPoint - XP Style

WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성 ( 황수경 ) ꌙ 127 노동정책연구 제 4 권제 2 호 pp.127~148 c 한국노동연구원 WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성황수경 *, (disabi

09오충원(613~623)

<30382E20B1C7BCF8C0E720C6EDC1FD5FC3D6C1BEBABB2E687770>

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: 3 * The Effect of H

소셜네트워크분석을활용한추천시스템의정확도 개선에관한연구 A Study on Improving Accuracy of Recommender Systems using Social Network Analysis 1) 목차 Ⅰ. 서론 Ⅱ. 이론적배경 Ⅲ. 제안알고리즘 Ⅳ. 실증분

1. 서론 1-1 연구 배경과 목적 1-2 연구 방법과 범위 2. 클라우드 게임 서비스 2-1 클라우드 게임 서비스의 정의 2-2 클라우드 게임 서비스의 특징 2-3 클라우드 게임 서비스의 시장 현황 2-4 클라우드 게임 서비스 사례 연구 2-5 클라우드 게임 서비스에

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: (LiD) - - * Way to

À¯Çõ Ãâ·Â

09구자용(489~500)

DBPIA-NURIMEDIA

12È«±â¼±¿Ü339~370


2009;21(1): (1777) 49 (1800 ),.,,.,, ( ) ( ) 1782., ( ). ( ) 1,... 2,3,4,5.,,, ( ), ( ),. 6,,, ( ), ( ),....,.. (, ) (, )

Recommender Systems - Beyond Collaborative Filtering

,,,.,,,, (, 2013).,.,, (,, 2011). (, 2007;, 2008), (, 2005;,, 2007).,, (,, 2010;, 2010), (2012),,,.. (, 2011:,, 2012). (2007) 26%., (,,, 2011;, 2006;

06_ÀÌÀçÈÆ¿Ü0926

DBPIA-NURIMEDIA

3. 클라우드 컴퓨팅 상호 운용성 기반의 서비스 평가 방법론 개발.hwp

<303520BBF3B4EBC0FB5FBAD0B7F95FB9E6B9FDB0FA5FBDC3B0A3BFA15FB5FBB8A55FC0CCBCBCC0CF2E687770>

Journal of Educational Innovation Research 2018, Vol. 28, No. 2, pp DOI: IPA * Analysis of Perc

정진명 남재원 떠오르고 있다. 배달앱서비스는 소비자가 배달 앱서비스를 이용하여 배달음식점을 찾고 음식 을 주문하며, 대금을 결제까지 할 수 있는 서비 스를 말한다. 배달앱서비스는 간편한 음식 주문 과 바로결제 서비스를 바탕으로 전 연령층에서 빠르게 보급되고 있는 반면,

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: A Study on Organizi

<B8F1C2F72E687770>

조사연구 aim of this study is to find main cause of the forecasting error and bias of telephone survey. We use the telephone survey paradata released by N


#Ȳ¿ë¼®

09( ) SA15-27.hwp

= ``...(2011), , (.)''

, ( ) 1) *.. I. (batch). (production planning). (downstream stage) (stockout).... (endangered). (utilization). *

230 한국교육학연구 제20권 제3호 I. 서 론 청소년의 언어가 거칠어지고 있다. 개ㅅㄲ, ㅆㅂ놈(년), 미친ㅆㄲ, 닥쳐, 엠창, 뒤져 등과 같은 말은 주위에서 쉽게 들을 수 있다. 말과 글이 점차 된소리나 거센소리로 바뀌고, 외 국어 남용과 사이버 문화의 익명성 등

한국성인에서초기황반변성질환과 연관된위험요인연구

歯3-한국.PDF

04김호걸(39~50)ok

실험 5

(5차 편집).hwp

Output file

DBPIA-NURIMEDIA

<C5EBC0CFB0FA20C6F2C8AD2E687770>

1 : (Hyeon-woo An et al.: Influential Factor Based Hybrid Recommendation System with Deep Neural Network-Based Data Supplement) (Regular Paper) 24 3,

Transcription:

평점정규화를이용하여사용자평가성향을반영한영화추천방법 Movie Recommendation Method Using Score Normalization Based on User Rating Tendency 김현경 (Hyunkyung Kim) 1 김현진 (Hyunjin Kim) 2 박상현 (Sanghyun Park) 3 요약 기존의사용자기반추천방법을이용한영화추천시스템에서는대개다른사용자들의평점을기반으로목표사용자의평점을예측하는데에이용하였지만사용자개개인의평가성향은반영하지않아평점데이터의객관성을확보하기에는어려운점이있었다. 본논문에서는기존의사용자기반추천방법과항목기반추천방법을바탕으로한항목간선호도차이를이용한추천방법을토대로사용자개인의평가성향을반영한새로운영화추천시스템을제안한다. 많은사용자들의평점데이터가사용자의성향에따라치우쳐있어다른사용자의평점예측에이용되기에는다소어려운점이있었다. 따라서사용자들의평가성향을바탕으로데이터를정규화하였고항목간선호도차이를이용하여평점을예측하는시스템을구현하였다. 실험결과제안한시스템은기존의시스템에비해추천의정확도가향상되었다. 따라서본연구의제안방법은사용자의평점결정성향을반영함으로써다양한콘텐츠에대한사용자의평가를보다정확하게예측하여사용자개인에맞는영화추천을가능하게할것으로기대된다. 주제어 : 추천시스템, 데이터마이닝, 협업필터링, 사용자성향, 평점정규화 1 연세대학교컴퓨터과학과, 학부생. 2 연세대학교컴퓨터과학과, 박사과정. 3 연세대학교컴퓨터과학과, 교수, 교신저자. (sanghyun@yonsei.ac.kr) + 이논문은 2015년도정부 ( 미래창조과학부 ) 의재원으로한국연구재단의지원을받아수행된연구임. (NRF-2015R1A2A1A05001845) + 논문접수 : 2016년 3월 27일, 심사완료 : 2016년 5월 17일, 게재승인 : 2016년 7월 1일.

Abstract Existing movie recommender systems generally use rating data of other users to predict the rating of target user. However, it is hardly possible to guarantee the objectivity of rating data since the rating tendency of individual user is not considered. In this paper we propose a new recommendation method which took into account rating tendency of each individual user using score normalization based on rating difference between items. We have found many users have biased rating tendency and their rating data was affected. So we have normalized those rating data to get better prediction results. The results of experiments indicate that the proposed system has relatively improved performance compared to the previous recommender system in terms of prediction accuracy. Consequently, the proposed system is expected to enable improved movie recommendation for each individual by weighing rating tendency using score normalization. Keywords: Recommender System, Data Mining, Collaborative Filtering, Rating Tendency, Score Normalization

22 데이터베이스연구제 32 권제 2 호 (2016.08) 1. 서론 최근최근스마트기기가대중화로시간과공간의제약없이멀티미디어콘텐츠를재생할수있게되면서영상콘텐츠에대한수요역시늘고있다. 이러한수요에부응하여실시간으로막대한양의영상콘텐츠가공급되고있지만사용자들은수많은콘텐츠들사이에서자신에게맞는콘텐츠를찾는데어려움을겪고있다 [1]. 많은사용자들은자신에게적합한콘텐츠를찾기위해영화콘텐츠에대한정보를제공해주는 TV 프로그램이나온라인커뮤니티를이용하고있다. 하지만이러한방식은사용자의개인적인취향을반영하기어려우며, 추천의범위가제한적이어서추천의질이떨어진다는단점이있기때문에사용자개인에알맞은영화추천을하기에는어려움이있다 [2]. 이와같은문제를해결하기위해 Netflix [3] 와 IMDb[4] 등에서는사용자들에게자동화된추천시스템을제공하였고, 우리나라에서도 Watcha [5] 등의사이트가등장하면서영화추천시스템에대한연구가활발히진행되고있다. 영화추천시스템에서는크게협업필터링과항목기반추천의두가지방식을사용하고있다. 협업필터링의경우다른사용자들의선호도정보에기반하여항목을추천하는방식으로사용자의취향을반영할수있다 [6]. 이와는달리항목기반추천은항목간의유사성을기반으로사용자가좋아할만한항목을추천한다. 추천의정확도가높은협업필터링방식은항목기반추천방식에비해널리사용되고있다 [7]. 그러나이방식은데이터가충분하지않은경우사용자간의유사도계산의신뢰도를확보하기어렵다. 이런데이터희박성문제를보완하기위해나이, 성별등의인구통계학적정보를사용하기도 한다 [8-9]. 위의항목기반추천방식과협업필터링방식을혼합한방식에대한연구도많이이루어지고있다. 논문 Oh et al. [10] 에서는사용자들의항목선호도정보를이용하여항목간평점차의평균을구하고, 이를바탕으로새로운항목에대한목표사용자의평점을예측하는추천방법을제안하였다. 그런데사용자들은평가성향이서로다르기때문에평점을높게주는경향이있는사용자와평점을낮게주는경향이있는사용자의점수가같을때에도이점수가같은의미를갖는다고보기어렵다. 이는사용자개개인의서로다른평가성향을반영하지않은데이터를이용해서다른목표사용자의평점을예측하기에는어려움이따른다는것을의미한다. 따라서본논문에서는항목간선호도차이를이용한영화추천방법 [7] 을기반으로사용자의평가성향을반영한평점정규화를통해다른사용자들의평점데이터의객관성을확보하여평점예측의정확도를높인추천방법을제안하고자한다. 2. 관련연구 2.1 추천시스템추천시스템은고객이관심을가지고있는상품에대한정보나고객개인의정보를분석하여고객의요구에맞는항목을추천해주는시스템이다 [11]. 전자상거래나다양하고방대한양의콘텐츠가있는웹사이트에서콘텐츠추천은사용자가자신이원하는상품을찾고구매하도록돕는데에중요한역할을한다 [12]. 2.2 개인화된추천기법사용자들개개인에적합한추천을돕기위해개인

평점정규화를이용하여사용자평가성향을반영한영화추천방법 23 성향과협업필터링에관련된많은추천기법들이연구되었으며 [13] 개인화된추천기법에는다음과같은방법들이있다. 1) 항목기반추천기법 (Contents based recommendation) 항목기반추천기법은사용자의평점이높은항목과유사한새로운항목을추천한다 [14]. 이추천방식은데이터가작은경우에도새로운항목을추천하는데에어려움이없다는장점이있다. 이방법은항목의특성이유사하다면그에대한사용자의선호도역시유사할것이라는가정을전제로항목을추천한다. 하지만이러한추천방식은실제사용자의선호도를전혀반영하지못한다는단점이있다. 2) 협업필터링 (Collaborative Filtering) 협업필터링은사용자사이의유사도를계산하여목표사용자와유사도가높은사용자들이높은점수를준항목들을추천하는방식으로 [15], 추천의정확도가비교적높기때문에항목기반추천방식보다널리사용되고있다. 그러나이방식은영화에대한사용자들의평점정보를이용하여유사도를계산하고그에따라추천이진행되기때문에사용자의평점데이터가부족한경우에는사용자간유사도계산의신뢰도가떨어진다는한계점이존재한다 [16]. 3) 인구통계학적추천 (Demographic Recommendation) 나이, 성별등의사용자정보를바탕으로특정나이대혹은성별집단의성향분석을통해추천을수행하는시스템이다 [17]. Recio-Garcia et al. [18] 에서는협업필터링을기반으로집단단위의성격을고려하여추천하는시스템을제안한바있다. 인구통계학적속성은다양한항목중에서특정집단에속하는사용자들의성향을분석하기쉽다는장점이있다. 4) 오피니언마이닝을이용한추천방법 (Opinion Mining) Tripadvisor[19], Expedia[20], Amazon[21] 과같은전자상거래사이트들에서주로이용하는방법으로사용자의리뷰나코멘트를수집, 분석하여사용자들에게개인화된맞춤형서비스를제공하고자하는추천방법이다. 자연어처리를통해사용자의리뷰나코멘트로부터사용자의선호도를분석하기쉽다는장점이있다 [22-24]. 5) 혼합형추천방법 (Hybrid Recommendation) 항목기반추천기법과협업필터링기법을혼합한방식에대한연구로두가지방식의장점을결합하여기존의두가지방법보다추천의정확도가향상되었다 [25]. 6) 항목간선호도차이를이용한영화추천방법항목간평점차이의평균을계산하고, 이를바탕으로목표사용자의평점을예측한다 [10]. 항목간의평점차를이용한다는점에서항목기반추천기법과유사하며항목간의평점차이는같은항목에평점을준사용자들사이의평점유사도에기반한다는점에서협업필터링과도유사한점을갖는다. 이방법또한혼합형추천방법처럼두방식을혼합하여향상된성능을보인다. 3. 제안하는방법 본논문에서는논문 Oh et al. [10] 에서제안한방법을기반으로사용자의평점결정성향을반영하여새로운평점예측방법을제안하고자한다. 3.1 항목간선호도차이를이용한영화추천방법 Oh et al. [10] 에서는사용자들의평점정보를바탕으로항목간평균평점차이를구하고, 이를이용

24 데이터베이스연구제 32 권제 2 호 (2016.08) 해서새로운항목에대한목표사용자의평점을예측한다. 1) 항목간선호도의차이계산이방식에서는먼저사용자들의항목평가점수를바탕으로항목간평점차이의평균을구한다. 두항목 i와 j에대한사용자들의선호도차이의평균 는다음식을이용하여구할수있다. (1) 위식은, 로표현된주어진두항목을모두평가한사용자들의두항목평점이얼만큼차이가나는지를 로나타낸다. 2) 선호도예측식 (1) 에서계산한평점의평균차이를이용하여새로운항목 i에대한사용자 u의평점 를구하는데, 이는다음식을이용하여계산한다. (2) 위의식에서항목 j를이용해새로운항목 i에대한사용자 u의평점예측값을구할수있는데, 이는사용자 u가평점을매긴항목 j에대한선호도 에항목 i와항목 j의평균선호도차이 를더해서구한다. 이렇게구해진각항목 j를이용한예측값들을단순평균하여 를계산하는데, 이는각각의예측값들에대한중요도를모두상수 1로간주한경우이다. 3) 가중치로항목의중요도를표현위의경우처럼각각의예측값들의중요도를 1로적용한것에비해서 를구하는데사용한데이터의개수, 즉 i 와 j 항목모두를평가한사용자의수 를항목 j의가중치로적용하여위식 (2) 에곱해준경우각항목 j의상대적인중요도를반영할수있다. 가중평균을적용한식은다음과같다. (3) 3.2 사용자의평점결정성향을이용한추천방법위의항목간선호도차이를이용한추천방법에사용자의평점결정성향을반영하여평점예측의정확도를높인다. 1) 사용자의평가성향을반영한평점정규화사용자가콘텐츠의평점을결정하는방식은사용자개인의성향에따라조금씩차이가있다. 가령영화를평가할때주제, 극중인물, 내용전개방식, 재미, 영상미 5가지를기준으로보는사용자 u1과 u2가있을때, u1라는사용자는영화평가기준중재미만충족되면 10점만점중무조건 10점을주는반면에, u2라는사용자는 5가지기준중한가지만미달되더라도 6점미만의점수를준다고가정한다. 이처럼평가성향이서로다른경우이들의평점데이터를다른사용자의평점을예측하는데사용하려면보다객관성이있는데이터로만들어주는과정이필요하다. 이러한평점데이터를사용자의평가성향에비추어정규화해준다면또다른사용자 u3에게보다정확한추천을해줄수있게된다. 평점정규화는사용자들의평점데이터가중앙값으로부터양쪽으로분포되어있는정도를조정해주는과정으로, 정규화과정은다음과같이진행된다. A. 중앙값 5.5 기준정규화사용자가각항목에대해 1부터 10까지의점수를

평점정규화를이용하여사용자평가성향을반영한영화추천방법 25 [ 그림 1] 중앙값을기준으로한평점정규화매길수있을때, 중앙값인 5.5점을중심으로사용자의점수최대값과최소값이각각 10점, 1점이되도록분포를조정한다. 예컨대사용자 u1의평점최대값이 8.0일때 u1의점수 7.0을정규화한다면중앙값 5.5를중심으로오른쪽에위치한점수 7을 를계산하여만점 [ 그림 3] 사용자평점범위가중앙값 -최대값사이인경우이터만존재하는사용자의경우사용자평점의최대값은전체평점범위의최대값, 사용자평점의최소값은전체평점범위의중앙값이되도록사용자평점범위의중앙값을기준으로정규화한다. 위의평점정규화를표로나타내면다음과같다. [ 표 1] 평점분포에따른평점정규화방법 이 10 점일때의점수로바꾸어주는것이다. 최소값 의경우도같은방식으로적용된다. 평점의최소값 이 2.0이라면중앙값 5.5를넘지않는점수 3.0을 으로조정해주어사용자의평점을정규화한다. B. 평점범위최소값과중앙값사이의데이터정규화 2) 항목간선호도차이를이용한방법에의적용논문 Oh et al. [10] 에서제안한항목간선호도차이를이용한추천방법을기반으로사용자평점결정성향에따른평점정규화를적용한다. 정규화과정을거친평점데이터는 Oh et al. [10] 의항목간선호도차이식 (1) 에적용한다. [ 그림 2] 사용자평점범위가최소값 -중앙값사이인경우사용자의평점범위가최소값과중앙값사이에만위치하는경우사용자평점의최대값은전체평점범위의중앙값, 사용자평점의최소값은전체평점범위의최소값이되도록사용자평점범위의중앙값을전체평점범위에서최소값부터중앙값에해당하는범위의중앙값, 즉최소값 1점부터중앙값 5.5점사이의중앙값인 3.25점에맞추어서정규화한다. C. 평점범위중앙값과최대값사이의데이터정규화위의 B 경우와마찬가지로사용자의평점범위가국소적인경우로, 중앙값과최대값사이의평점데 (1) 위식에서항목 i와 j에대한평점데이터가있는사용자들각각의항목 i와 j의평점차를합산하는데이때와의값에사용자개인의평점결정성향에비추어평점정규화를적용시킨데이터는목표사용자의평점예측함에있어보다객관적인지표로써사용할수있다. 4. 실험결과 본논문에서제안한방법이실제로사용자평점예측의정확도를향상시키는지알아보기위하여실험을진행하였다.

26 데이터베이스연구제 32 권제 2 호 (2016.08) 4.1 실험환경본연구에서사용한실험데이터는 MovieLens 100K dataset [26] 으로사용자의수가 706명, 항목수즉영화수가 8,570 편, 선호도평가데이터의수가 100,023 개이다. 선호도평가데이터는튜플 ( 사용자 ID, 항목 ID, 선호도 ) 로구성되어있으며, 선호도평가는 0.5점부터 5점까지 0.5점단위로이루어져있다. MovieLens 에서제공하는데이터셋의일부는다음과같다. 를누적하고데이터의수로나누어평균을구한다. MAE(Mean Absolute Error) 는오차의평균을구하는방식으로오차를구할때일반적으로많이사용되는통계지표이다. 본논문에서제안하는방법과 Random approach 및 Oh et al. [10] 에서사용한방법을비교한결과는다음표와같다. [ 표 2] 다른추천시스템과의성능비교 MAE(Mean Absolute Error) 의경우목표사용자의평점을랜덤함수를이용하여예측하는 Random approach 에비해오차가 1.078점줄어들었고이것은 Random approach 오차의 68% 가감소한값이 [ 그림 4] MovieLens dataset 의일부분실험에서는기존연구 [10] 에서사용한항목간선호도차이를이용한방법만을적용시켰을때에비해사용자의평점결정성향을반영하여평점을정규화한경우정확도가얼마나향상되는지알아보았다. 실험은 MovieLens dataset 에존재하는선호도평가데이터 100,023 개에대해제안방법을적용하여선호도를예측하고원래데이터와비교하는방식으로진행하였다. 4.2 선호도예측성능의평가본연구에서사용한성능측정지표는 MAE(Mean Absolute Error) 로다음식과같이정의된다. 다. Oh et al. [10] 에서제안한방법을이용하였을때보다는오차가약 0.0037 점줄어들었다. 누적오차는제안한방법을적용시킨경우 Oh et al. [10] 의방법과비교했을때총 100,023 개데이터에대해오차가약 370점낮게나타났다. 이는 Oh et al. [10] 에서제안한항목간선호도차이만을이용하여평점예측을한경우에비해서본논문에서제안한방법과같이사용자의평점결정성향에따라데이터를분류하여각각의사용자의성향에알맞게평점정규화를적용시킨후평점예측을했을때그평점예측의정확도가향상되었음을나타낸다. 즉사용자의평점결정성향에따른평점정규화를적용시키면목표사용자의평점을보다정확하게예측할수있게된다. (4) 즉, 주어진선호도평가데이터에들어있는선호 도 와식 (2) 에의해구해진선호도 의차이 4.3 Case study A. 평점정규화의영향을크게받은유저데이터

평점정규화를이용하여사용자평가성향을반영한영화추천방법 27 먼저본논문에서제안한사용자평점결정성향에따른평점정규화를적용하였을때영향을많이받을사용자들을알아보기위해 MovieLens dataset 의 706명의사용자중먼저평점의최소값과최대값의범위가가장좁은상위 10명의사용자들을추출하였다. 그리고그 10명의사용자중에서도본논문에서제안한방법을통해정규화과정을거쳤을때기존의평점에비해점수에가장많은변화가있었던사용자 3명에대해서 Case Study 를진행하였다. 1) 598번사용자 598번사용자는제안한방법에따라정규화과정을거쳤을때평점분포의변화가다음과같이변하였다. 확보한평점데이터가목표사용자의평점예측에사용되어성능을향상시킬수있었음을확인할수있다. 2) 304번사용자 304번유저의평점분포는제안한방법에서의정규화여부에따라다음과같이변하였다. [ 그림 6] 304번유저의평점정규화 304번유저는 131개의평점데이터를가진사용자로평점의최고점은 4.5점, 최하점은 1.5점으로다른유저들과비교했을때최하점이높은편인사용자이다. 이사용자의경우도마찬가지로평점정규화과정을거친후의데이터가조금더완만해졌음을알수있다. 이렇게정규화하였을때 304번유 [ 그림 5] 598번유저의평점정규화 598번사용자는 198개의평점데이터를보유한사용자로평점의최고점은 4점, 최하점은 1점이었다. 이사용자는 198편의영화에대해평점을부여했음에도평점의최고점은 5점이아니라 4점이었다. 이런경우이사용자의평점최고점인 4점을만점으로보고제안방법에따라정규화해주었을때기존의평점데이터 ( 붉은색그래프 ) 보다완만해진데이터 ( 파란색그래프 ) 를볼수있다. 598번사용자의평점데이터를본연구의제안방법에따라정규화하였을때 198개의평점데이터중 84.8점이변하였다. 정규화과정을통해객관성을 저의 131개데이터중 47점이변하였다. 정규화과정에따라평점데이터가영향을많이받았음을알수있다. 3) 397번사용자 397번사용자의평점분포변화는다음과같다. [ 그림 7] 397번유저의평점정규화

28 데이터베이스연구제 32 권제 2 호 (2016.08) 397번사용자의경우 39개의평점데이터중최고점은 4점최하점은 2점으로데이터의중앙값인 3점이최빈값이었다. 이사용자는데이터가중앙에몰려있는경향을보였는데평점정보를정규화하였을때 39개의평점데이터중에서 17.9점이변하였다. 위 주어서평점데이터가높은점수에치우쳐있다. 즉높은점수를주는경향이강한사용자이다. 반면에 397번유저는 0.5점부터 5점까지의평점범위중최고점은 4점, 최하점은 2점으로데이터가중앙값에몰려서분포하는경우이다. 의그래프에서치우쳐져있던평점분포가정규화이후매우완만해졌음을알수있다. 세번째사용자의경우앞선두명의사용자에비해그래프의너비가다소작은것을볼수있는데이는사용자가평가한평점데이터의개수가 1번과 2 번에비해적기때문이다. 사용자의평점데이터의양이많을수록정규화과정이후전체평점변화에 미치는영향이큰것은당연한사실이다. 이런관점에서볼때세명의사용자중비교적평점데이터수가많은 598번과 304번사용자가데이터수가적은편인 397번사용자보다정규화과정에따른전체평점변화에더많은기여를한다는사실을알수있다. B. 평점데이터의편향성이큰유저들의데이터비교정규화과정이어떻게사용자들의평점데이터에객관성을부여할수있는지잘보여주는두명의유저평점데이터가있다. [ 그림 9] 397번유저의평점분포이런경우 44번과 397번두유저의 3점이과연같은의미의 3점이라고볼수있을까? 그렇게보기어려울것이다. 44번유저는 239개의평점데이터를보유한사용자이다. 데이터개수가충분히많음에도불구하고평점데이터가치우친정도가강한경향을보이는것으로볼때 44번사용자에게있어 3점은상당히낮은점수임이자명하다. 반면에 397번유저의경우에는 3점의의미가중간의느낌이강하다. 39개의평점데이터중 27개의데이터가 3점에분포하고있음을그래프를통해알수있다. 이렇게두사용자의평점분포가다를때두사용자의서로다른평가성향을고려하지않고서는두데이터를비교하기가어렵기마련이다. 따라서정규화과정을통해사용자들의평가성향을고려하여사용자의데이터에객관성을부여할필요가있다. 이들사용자들의평점데이터를정규화한경우평점분포는아래와같다. [ 그림 8] 44 번유저의평점분포 먼저 44 번유저의경우에는평점을대체로후하게 44 번유저의경우최하점인 2.5 점을평점범위의 최하점인 0.5 점에맞추어평점범위의중앙값 2.75

평점정규화를이용하여사용자평가성향을반영한영화추천방법 29 위의사용자들과같이평점범위가고르게분포되어있지않고사용자의평점결정성향에따라한쪽으로치우친경향을보이는경우에는본연구의제안방법에따라정규화과정을적용시키면해당사용자들의데이터의객관성을확보하여목표사용자의평점을예측할때정확도가높은결과를얻을수있다. [ 그림 10] 44번유저의정규화된평점분포점이하의점수를정규화하였다. 44번사용자에게있어낮은점수에해당하는점수들을사용자의평가성향을반영하여변환한것이다. [ 그림 11] 397번유저의정규화된평점분포 397번유저의경우에는 0.5-5 점의평점범위중유저의평점이 2-4점에몰려있어치우친정도를보정하였다. 중앙값을기준으로최하점과최고점을각각 0.5점과 5점으로조정하여변환한결과이다. 개인의성향에따른평점결정특성을고려하지않을경우평점분포가그림 8과 9처럼다소치우친경향을보인다. 어떤집단은대부분의영화에대해높은평점을주는반면에, 또다른집단은주로낮은점수로영화를평가하는경향을가질수있기때문이다. 이런경우본논문에서제안하는정규화과정을거칠경우평점의편향성문제가해소될수있으며, 그림 10, 11과같이정규화전에비해완만한평점그래프를보이게된다. 5. 결론 본논문에서는항목간선호도차이정보를바탕으로사용자의평점결정성향을반영하여사용자의선호도를예측하는영화추천방법을제안하였다. 사용자들이영화에대해평가점수를결정할때그척도가각개인마다다양하므로평가점수의분산정도가차이가나게된다. 이에따라사용자들이정한평점을정규화하여보다객관적인지표로사용할필요가있다. 제안한방법에서는사용자들의평점결정성향에따라평점을정규화하였고, 항목간선호도차이정보에정규화된평점을적용하여목표사용자의평점을예측하였다. 그결과정규화를적용시킨경우평점예측의오차가감소하였다. 제안한방법은데이터수가적은초기에는희박성문제에서자유롭지못하다는문제점이있다. 초기에사용자데이터가충분치않은경우사용자정보를이용한네트워크를생성하여평점을 Network Propagation 의방법으로예측하게하는등향후부족한데이터를채우는방법에대한연구가진행된다면희박성문제를개선하여성능을향상시킬수있을것으로기대된다.

30 데이터베이스연구제 32 권제 2 호 (2016.08) 참고문헌 [1] George Lekakos, Petros, A hybrid approach for movie recommendation, Multimedia Tools and Applications, vol. 36, Issue 1-2, pp. 55-70, 2008. [2] Boo-Sung Kim, Heera Kim, Jaedong Lee, Jee-Hyong Lee, Movie Recommendation System Using Collaborative Filtering Based on Demographic Information, Proceedings of KIIS Fall Conference, vol. 23, pp. 63-64, 2013. [3] Netflix. https://www.netfilx.com [4] IMDb. https://www.imdb.com [5] Watcha. https://watcha.net [6] Hee-Choon Lee, Seok-Jun Lee, Sun-Ok Kim, "A Study on improvements of prediction accuracy using additional information in collaborative filtering," Proceeding of The KITS Conference 2009, pp. 349-352, 2009. [7] P. Melville, R. J. Mooney and R. Nagarajan, Content-Boosted Collaborative Filtering, Proceedings of the SIGIR-2001 Workshop on Recommender Systems, 2001. [8] G.Lekakos and G.M.Giaglis, "Improving the Prediction Accuracy of Recommendation Algorithms : Approaches Anchored on Human Factors," Interacting with Computers, vol. 18, pp. 410-431. 2006. [9] M. J. Pazzani, A framework for Collaborative, Content-based and Demographic Filtering, Artificial Intelligence Review, vol. 13, pp. 393-408, 1999. [10] Se-Chang Oh, Min Choi, A Movie Recommendation Method Using Rating Difference Between Items, Journal of Korea Institute of Information and Communication Engineering, vol. 17, No. 11, pp. 2602-2608, 2013. [11] B. Sarwar, G. Karypis, J. Konstan, J. Riedl, Item based Collaborative Filtering Recommendarion Algorithms, Proceedings of the 10th International World Wide Web Conference, pp. 285-295, 2001. [12] H. Ji, J. Li, C. Ren, and M. He, "Hybrid collaborative filtering model for improved recommendation," Service Operations and Logistics, and Informatics (SOLI), 2013 IEEE International Conference, pp. 142-145, 2013. [13] G. Guo, "Integrating Trust and similarity to Ameliorate the Data Sparsity and Cold Start for Recommender Systems," RecSys 13 Proceedings of the 7th ACM conference on Recommender Systems, pp. 451-454, 2013. [14] S. H. Jo, Weight Recommendation Technique Based on Item Quality to Improve Performance of New User Recommendation on The Web, Ph.D. dissertation, Hannam University Graduation School, 2008. [15] S. J. Lee and T. R. Jeon, G. D, Baek, S. S. Kim, A Movie Rating Prediction System of User Propensity Analysis based on Collaborative Filtering and Fuzzy System, Journal of Korean institute of intelligent systems, Vol. 19, No. 2, pp. 242-247, 2009. [16] Gediminas Adomavicius, Alexander Tuzhilin, Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions, IEEE Transactions on Knowledge and Data Engineering, Vol. 17, No. 6, 2005. [17] Sven Ewan Shepstone, Zheng-Hua Tan, Søren Holdt Jensen, Demographic Recommendation by

평점정규화를이용하여사용자평가성향을반영한영화추천방법 31 means of Group Profile Elicitation Using Speaker Age and Gender Recognition, 14th Annual Conference of the International Speech Communication Association (INTERSPEECH 2013) : Speech in Life Sciences and Human Societies, pp. 2827-2831, 2013 [18] J. A. Recio-Garcia, G. Jimenez-Diaz, A. Sanchez-Ruiz, B. Diaz-Agudo, Personality Aware Recommendations to Groups, Proceedings of the 3rd ACM International Conference on Recommender Systems (RecSys), New York, USA, pp. 325-328, 2009. [19] TripAdvisor. http://www.tripadvisor.co.kr [20] Expedia. http://www.expedia.co.kr [21] Amazon. http://www.amazon.com [22] C. W. Leung, S. C. Chan, F. l. Chung, "Integrating collaborative filtering and sentiment analysis: A rating inference approach," Proceedings of The ECAI 2006 Workshop on Recommender Systems, pp. 62-66, 2006. [23] C. C. Musat, Y. Liang, B. Faltings, "Recommendation using textual opinions," Proceedings of the Twenty-Third international joint conference on Artificial Intelligence, pp. 2684-2690, 2013. [24] E. Cambria, B. Schuller, Y. Xia, C. Havasi, "New avenues in opinion mining and sentiment analysis," IEEE Intelligent Systems, vol. 28, Issue 02, 2013. [25] S. Dooms, Dynamic Generation of Personalized Hybrid Recommender Systems, Proceedings of the 7th ACM International Conference on Recommender Systems (RecSys), Hong Kong, China, pp. 443-446, 2013. [26] GroupLens Research. MovieLens Datasets. http://grouplens.org/datasets/movielens/ 김현경 2011 년 현재연세대학교컴퓨터과학과학부관심분야 : 데이터마이닝, 텍스트마이닝, 바이오인포매틱스김현진 2010 년연세대학교컴퓨터과학과졸업 ( 학사 ) 2010 년 현재연세대학교컴퓨터과학과통합과정관심분야 : 바이오인포매틱스, 데이터마이닝, 텍스트마이닝, 그래프마이닝, 데이터베이스박상현 1989 년서울대학교컴퓨터공학과졸업 ( 학사 ) 1991 년서울대학교대학원컴퓨터공학과 ( 공학석사 ) 2001 년 UCLA 대학원컴퓨터과학과 ( 공학박사 ) 1991 년 1996 년대우통신연구원 2001 년 2002 년 IBM T. J. Watson Research Center Post-Doctoral Fellow 2002 년 2003 년포항공과대학교컴퓨터공학과조교수 2003 년 2006 년연세대학교컴퓨터과학과조교수 2006 년 2011 년연세대학교컴퓨터과학과부교수 2011 년 현재연세대학교컴퓨터과학과교수관심분야 : 데이터베이스, 데이터마이닝, 바이오인포매틱스, 적응적저장장치시스템, 플래쉬메모리인덱스, SSD