The Korean Journal of Applied Statistics (2016) 29(7), 1257 1270 DOI: http://dx.doi.org/10.5351/kjas.2016.29.7.1257 Prediction of box office using data mining Seonghyeon Jeon a Young Sook Son a,1 a Department of Statistics, Chonnam National University (Received July 22, 2016; Revised September 17, 2016; Accepted October 20, 2016) Abstract This study deals with the prediction of the total number of movie audiences as a measure for the box office. Prediction is performed by classification techniques of data mining such as decision tree, multilayer perceptron(mlp) neural network model, multinomial logit model, and support vector machine over time such as before movie release, release day, after release one week, and after release two weeks. Predictors used are: online word-of-mouth(owom) variables such as the portal movie rating, the number of the portal movie rater, and blog; in addition, other variables include showing the inherent properties of the film (such as nationality, grade, release month, release season, directors, actors, distributors, the number of audiences, and screens). When using 10-fold cross validation technique, the accuracy of the neural network model showed more than 90 % higher predictability before movie release. In addition, it can be seen that the accuracy of the prediction increases by adding estimates of the final OWOM variables as predictors. Keywords: data mining, decision tree, multilayer perceptron(mlp) neural network, multinomial logit model, online word-of-mouth(owom), prediction of box office, support vector machine, 10-fold cross validation 1. 서론 영화진흥위원회 (Korean Film Council; KOFIC, 2016) 의한국영화산업결산에따르면 2014 년부터연 속 2 년동안영화산업매출액은 2 조원을돌파하였고, 2013 년부터연속 3 년동안극장총관객수는 2 억 명을돌파하였다. 글로벌산업정보조사기관인 IHS 자료에따르면 2015 년우리나라인구 1 인당연간평 균영화관람횟수는 4.2 회로세계최고수준임을보인다. KOFIC (2015) 의표본수 2006 명에대한영 화소비자조사결과에의하면전국만 15 세이상 59 세이하소비자들의 2015 년 1 년간극장영화관람 률은 94.2% 이며극장영화관람편수는년평균 8.6 편으로조사되었다. 한국영화사상첫천만관객영 화였던 2003 년에개봉된 실미도 이후 13 년동안총 13 편의천만관객한국영화가나왔다. 그중약 62% 인 8 편이 2012 년부터최근 4 년동안매년 2 편씩천만관객을동원하였다. 특히 2014 년에개봉한 영화 명량 은우리나라인구의약 1/3 이넘는 1,761 만명이관람하여역대 1 위의관객수를기록하였다. 이러한통계수치들의흐름은최근한국영화산업의환경을낙관적으로볼수있는청신호임은분명하다. 그러나개별영화의수익면에서살펴보면밝지만은않다. This research was supported by Basic Science Research Program through the National Research Foundation of Korea (NRF) funded by the Ministry of Education, Science and Technology (NRF-2011-0022864). 1 Corresponding author: Department of Statistics, Chonnam National University, 77, Yongbong-ro, Buk-Gu, Gwangju 61186, Korea. E-mail: ysson@jnu.ac.kr
1258 Seonghyeon Jeon, Young Sook Son KOFIC (2016) 의한국영화산업결산에따르면 2015년에극장에서개봉한한국영화 232편중에서총제작비 10억원이상이거나전국개봉스크린수가 100개이상인작품으로분류되는상업영화 73편의평균총제작비는 52.3억원이며제작비의구성비율을살펴보면약 70% 가순수제작비이며약 30% 는마케팅비로구성되어있다. 73편의상업영화중손익분기점을상회하는비율은 21.9%, 수익률 100% 를상회하는비율은 9.6%, 수익률 90% 를하회하는비율은 23.3% 에달한다. 영화산업은고수익, 고위험의특성을가지고있기때문에가능한초기단계에서영화흥행을정확히예측하는것은영화산업관련업계종사자들에겐매우중요한과제일것이다. 영화산업에서의수익은크게극장입장권판매에따른극장매출, IPTV, 케이블 TV, 인터넷 VOD 서비스등의매출에따른디지털온라인시장매출, 그리고완성작및서비스의해외수출에따른해외매출의 3가지로나눌수있다. KOFIC (2016) 의한국영화산업결산에따르면 2015년한국영화산업의총매출액은 2조 1,131억원으로나타났고그중극장매출액이 1조 7,154억원으로전체매출액의약 81.2% 를차지하고있으며그밖에디지털온라인시장매출액이 15.8% 그리고해외매출액이 3% 를차지하고있다. 극장매출수익은영화산업전체수익의 80% 이상을차지하고있을뿐만아니라디지털온라인시장매출및해외매출은극장매출에직접적인영향을받는부가매출이기때문에극장매출수익을정확히예측하는것이영화흥행예측의핵심일것이다. 그동안영화흥행을예측하는연구들에서는주로영화속성을나타내는변수인스크린수, 등급, 국적, 장르, 감독, 배우, 배급사등을예측변수로활용하여영화흥행을예측하는경우가많았다. 최근소셜미디어의급격한발달로인해영화포털사이트의커뮤니티가활성화되고블로그, 뉴스등을통한온라인구전의영향력이커짐에따라소셜미디어를활용한영화흥행예측의연구들이많아지고있다. 실제 KOFIC (2015) 의영화소비자조사에따르면소비자들의관람영화선정시주로인터넷 (67.1%) 을통해정보를획득하며다음으로는주변인의의견 (61.1%), 영화광고 (54.7%) 의순서였다. 인터넷을통한정보획득중에서는포털사이트의영화섹션 (29.2%), 포털사이트뉴스섹션 (19.2%), 그리고블로그 (9.7%) 로부터영화정보를취득하며이들소셜미디어들이인터넷정보획득의약 58.1% 를점유한다. 따라서포털사이트의영화평점및평가자수, 뉴스수, 그리고블로그수와같은온라인구전 (online word-of-mouth; OWOM) 변수들이온라인입소문효과로써영화흥행에많은영향을미칠것이라판단된다. 본연구에서는영화흥행예측을다룬다. 일반적으로영화흥행과관련된연구는영화흥행에영향력을미치는예측변수들의선택에관한연구와이들예측변수들로부터영화흥행을예측하는연구의두가지주제로분류된다. 앞으로소개할이전연구들은영화흥행예측을목적으로적용한예측모형에대한적합도혹은예측의정확도를나타낸연구들이다. 이들연구에서모형의적합도와예측의정확도는구별되어야한다. 모형의적합도는가지고있는모든데이터로추정한모형에의한목표변수의추정치와실제목표변수값과의일치도를의미한다. 즉, 모형의훈련과목표변수예측에같은자료가사용된다. 예측을다루는문제에서는적합도가높은모형이예측의정확도도높을가능성은있으나과적합으로인하여새로운자료에대해서도항상예측의정확도가높다고보장할수는없다. 따라서예측을다루는문제에서는교차검증을통한예측모형의예측력을검증하는것이필수적이다. 교차검증의대표적인방법으로 k-중교차검증 (k-fold cross validation) 이있다. 이방법은관측된데이터들을랜덤하게 k개의집단으로나눈뒤, k 1개의집단을모형의훈련에사용하고나머지 1개의집단을예측에사용하여모형의정확도를측정한다. 이러한절차를독립적으로 k회수행하여각회차에서얻은정확도를평균하여모형의전체정확도로표현한다. k-중교차검증은모든자료가모형훈련과예측에분리되어독립적으로사용된다는장점이있고 k회반복수행함으로써예측모형의신뢰성을높일수있다.
Prediction of box office using data mining 1259 Sharda와 Delen (2006) 은 ShowBIZ 사이트에기록된박스오피스시장에서 1998년부터 2002년까지개봉된 834편의영화를대상으로순수익을 10개의범주로구분한범주형목표변수를사용하여순수익을예측하였다. 등급, 장르, 스타가치, 특수효과, 속편여부, 스크린수와같은영화속성변수들을예측변수로사용하여다항로짓모형, 판별분석, CART, 그리고 multilayer peceptron(mlp) 신경망모형에의해순수익을예측하였다. 교차검증을위한 10-중교차검증에의해예측력을비교한결과신경망모형의정확한분류가 36.9%, ±1의범주내분류가 75.2% 로가장우수하였다. Zhang 등 (2009) 은중국박스오피스시장에서 2005년부터 2006년까지개봉된 241편의영화를대상으로순수익을 6개의범주로구분한범주형목표변수를사용하여순수익을예측하였다. 예측변수로는영화속성변수인국적, 감독, 배우, 장르, 경쟁영화수, 개봉일, 영화관수, 스크린수등을사용하였고, 교차검증을위한 6-중교차검증에의해예측력을비교한결과기존의 MLP 신경망모형에비해 back propaganda(bp) 신경망모형의정확도가더높음을보였고이때정확한분류는 68.1%, ±1의범주내분류는 97.1% 의정확도를보였다. Kim과 Hong (2011) 은한국박스오피스시장에서 2010년 1월부터 12월까지개봉된 316편의영화를대상으로총관객수를 5개의범주로구분한범주형목표변수를사용하여총관객수를추정하였다. 감독, 배우, 국적, 장르, 등급, 스크린수, 배급사와같은영화속성변수, 그리고 OWOM 변수에해당되는네이버포털평점, 블로그, 트위터등소셜미디어로부터생성되는온라인버즈 (buzz) 의크기를예측변수로사용하여모형을적합시켰다. 판별분석에비해신경망모형과다항로짓모형에서적합도가높게나타났고특히다항로짓모형이 95.1% 의적합도를보였다. Kim 등 (2013) 는한국박스오피스시장에서 2011년 10월부터 2012년 8월까지개봉된영화 103편중에서상영기간, 총관객수등을기준으로선별된 47편의영화를대상으로양적목표변수로서총수익및개봉 t주 (t = 1, 2, 3, 4) 후수익을예측하였다. 이를위해예측변수로는각시점별영화의누적수익, 스크린수, 좌석수, 트위터와페이스북의 SNS 데이터에대한긍정혹은부정의견수를예측변수로사용하였다. 각시점에서수익을예측할때예측시점에서수집가능한데이터를사용하였다는점에서실제예측시점의현실적환경을제대로반영한분석방법이라평가할수있다. 교차검증을위해 47-중교차검증에의해예측력을비교한결과 mean absolute error(mae) 의관점에서는회귀모형이 BASS diffusion모형에비해우수하였으나 root mean square error(rmse) 관점에서는 1주후를제외하고 BASS diffusion 모형이회귀모형에비해우수하였다. Song과 Han (2013) 은한국박스오피스시장에서 2008년부터 2011년까지개봉된대략 505개의영화들중순수익이 5억원이상인 206편의영화를대상으로순수익을백분위수에따라 10개범주로나눈후각범주에 1점부터 10점까지준점수를양적목표변수로사용하여순수익을예측하였다. 예측변수로서영화장르, 등급, 속편여부, 감독, 배우, 명절개봉일여부, 방학개봉일여부, 개봉월, 개봉월평균기온, 국내영화의참여비율등과같은영화속성변수만을사용하였으며선형모형, random forests model, gradient boosting model을예측모형으로사용하였다. 자료중랜덤하게 70% 는모형훈련에, 30% 는예측에사용되었으며이와같은교차검증을총 1,000번반복하여계산된 mean square error(mse) 의평균관점에서 gradient boosting model이가장우수하였다. Yim과 Hwang (2014) 은한국박스오피스시장에서 2013년 4월부터 10월까지개봉된영화들중무작위로 60편의영화를선택하여총관객수를 5개의범주로구분한범주형목표변수를사용하여총관객수를추정하였다. 예측변수로서개봉일, 등급, 상영시간, 감독, 배우, 국적등과영화속성변수와네이버포털평점, 평가자수, 개봉 1주전과 1주후에트위터내에서해당영화가언급된비율과같은 OWOM 변수를사용하였다. 나이브베이지안분류기법을사용하였을때개봉일에 78.3%, 개봉 1주일후에 95% 의적합도를보였다. Kim과 Hong (2011) 그리고 Yim과 Hwang (2014) 에서사용한네이버포털
1260 Seonghyeon Jeon, Young Sook Son 평점혹은평가자수는모두영화가종영된후에수집된자료이므로영화종영전시점에서총관객수를예측하는데사용되는것은현실적으로불가능하다. Jeon과 Son (2016) 은한국박스오피스시장에서 2012년부터 2015년까지 4년동안개봉된영화 276편을대상으로영화예측변수로써 OWOM 변수의효과에관한연구를하였다. 영화속성변수뿐만아니라네이버와다음포털의평점및평가자수, 네이버포털블로그수, 네이버포털뉴스수와같은 OWOM 변수들과극장총관객수와의연관성분석결과포털평가자수, 뉴스수, 블로그수와같은 OWOM 변수들이관객수에유의한영향을주는변수로나타났다. 후속연구로서본연구에서는이들예측변수와총관객수를 5개의범주로나눈범주형목표변수를사용하여총관객수를예측하였다. 예측시점을개봉전, 개봉일, 개봉 1주후, 개봉 2주후의시점으로구분하여각시점에수집가능한자료만사용하여영화흥행을예측하였다. 투자, 제작, 배급, 상영의 4단계로이루어진영화관련산업에서는가능한초기시점인영화개봉전시점에흥행을정확히예측할수있다면향후투자와같은의사결정에신속히대처할수있을것이다. 영화흥행예측을위해극장매출수익즉, 박스오피스 (box office) 대신극장관객수를사용하였는데그이유는두변수간의상관관계가약 0.99로매우높게나타났고매출수익보다는관객수가영화흥행을평가하는데있어서보다직관적이고익숙한지표이기때문이다. 예측모형으로는데이터마이닝에서분류의목적으로많이사용되는의사결정나무, MLP 신경망모형, 다항로짓모형, support vector machine(svm) 을사용하였으며 10-중교차검증에의해예측의정확도를평가한결과신경망모형이다른모형에비해우수하였으며특히개봉전예측의정확도는 92.39% 이었으며개봉일, 개봉 1주후, 개봉 2주후정확도는각각 93.48%, 97.46%, 97.83% 이었다. 2. 데이터설명본연구에서사용한영화자료는한국에서 2012년 1월 1일이후개봉하여 2015년 12월 31일이내에상영종료가된영화들중총관객수가 50만명이상인 276개영화이다. 총관객수가 50만명미만인영화들의경우, 독립자본영화혹은상영기간이짧은영화들이많아 OWOM 효과를나타내는변수들의자료수집에어려움이있어서분석에서제외시켰다. Table 2.1은자료분석에사용한변수들을정의한표이며주요변수들에대한기술통계분석결과는 Jeon과 Son (2016) 을참조한다. 영화속성을나타내는변수들에대한자료수집은영화진흥위원회의통합전산망 KOBIS 사이트 (www.kobis.or.kr) 를활용하였다. 총관객수 (Audience) 는최종영화의흥행지표를나타내는양적변수이나 Table 2.2와같이 5개그룹으로나눈범주형변수를목표변수로사용하였다. 이러한범주화는영화산업계에서보통 1,000만영화, 대박영화, 중박영화로부르는기준이총관객수가각각 1,000만이상, 500만이상, 300만이상인데기인한다. 개봉일관객수, 개봉 1주후까지의누적관객수, 개봉 2주후까지의누적관객수를나타내는변수는각각 Daudience, A1audience, A2audience이다. 이들관객수변수들은각해당시점별영화의흥행지표를나타낸다. 배급사및상영사에서는개봉하기전영화의기본적인특성들을바탕으로예상되는관객수만큼개봉일스크린수 (Dscreen) 를확보하며개봉후관객수의변화추이에따라스크린수를가감한다. 이를반영한변수가개봉 1주후까지의누적스크린수 (A1screen) 와개봉 2주후까지의누적스크린수 (A2screen) 이다. 국적 (Nationality) 은외국영화들중에서빈도수가낮은국적이많았기때문에크게국내영화, 국외영화 2가지로구분하였다. 등급 (Grade) 의경우전체관람가, 12세이상관람가, 15세이상관람가, 18세이상관람가, 즉청소년관람불가로구분하였다. 영화의개봉시기를나타내기위해개봉일의월단위를기준으로 1월부터 12월까지의개봉월 (Month) 을구하였다. 또한개봉계절 (Season) 은 3월에서 5월을봄, 6월에서 8월을여름, 9월에서 11월을가을, 12월에서 2월을겨울과같이 4개계절로구분하였다.
Prediction of box office using data mining 1261 Table 2.1. Definition of variables Variable type Variable name Variable description Daudience Number of audiences on release day A1audience Number of audiences after release 1 week A2audience Number of audiences after release 2 weeks Dscreen Number of screens on release day A1screen Number of screens after release 1 week A2screen Number of screens after release 2 weeks Nationality Nationality(Domestic films, Foreign films) Properties Grade Film rating(general, 12+, 15+, 18+) of the film Month Release month(january-december) Season Release season(spring, Summer, Autumn, Winter) Dirscore Director score Actscore Film star score Distscore Distributor score Nbscore Naver portal rating before release Nbnum Number of Naver portal raters before release Nascore Naver portal rating after release Nanum Number of Naver portal raters after release Dbscore Daum portal rating before release Online Dbnum Number of Daum portal raters before release word-of-mouth Dascore Daum portal rating after release Danum Number of Daum portal raters after release Bblog Number of blogs before release A1blog Number of blogs after release 1 week A2blog Number of blogs after release 2 weeks Ablog Number of blogs after release Bnews Number of news before release A1news Number of news after release 1 week A2news Number of news after release 2 weeks Anews Number of news after release Table 2.2. Categorical target variable: audience Category 1 2 3 4 5 Total number of audiences(unit: million) > 10 5 10 3 5 1 3 < 1 영화의제작과정에서흥행에영향을줄수있는요인으로감독과배우가있다. 감독이최근 3년간제작했던영화들에대한관객수의평균값을감독점수 (Dirscore) 로정의하였다. 배우점수 (Actscore) 는주연배우 2명이최근 3년간출연했던영화들에대한관객수의평균값을주었다. 영화의배급과정에서흥행에영향을줄수있는요인으로배급사가있다. 배급사가최근 3년간배급했던영화들에대한관객수의평균값을배급사점수 (Distscore) 로나타내었다. OWOM 변수로서개봉전평점 (Nbscore, Dbscore), 개봉전평가자수 (Nbnum, Dbnum), 개봉후평점 (Nascore, Dascore), 개봉후평가자수 (Nanum, Danum) 는네이버및다음포털영화사이트에서각각수집하였다. 포털영화평점변수에해당하는 Nbscore, Nascore, Dbscore, Dascore 등은영화에대한긍정및부정의평가를반영하고있다. 포털네티즌즉, 포털영화평가자는각영화에대해 0, 1, 2,..., 10점으로평가할수있다. 각평가자가부여한평점의총합을총평가자수로나눈값이포털
1262 Seonghyeon Jeon, Young Sook Son 영화평점이다. 이렇게계산된포털영화평점은 10점에가까울수록영화에대한긍정적평가로, 0점에가까울수록부정적평가로간주할수있다. 본연구에서사용되는모든영화자료는상영종료된영화에대해서사후에자료수집을하였다. 개봉 1주후및개봉 2주후포털영화평점및평가자수를구하기위해서는개별영화에대해개봉 1주후및개봉 2주후시기까지에해당하는영화섹션페이지를넘겨가며평점및평가자수를일일이더하거나혹은평균을내야하는절차를따라야하는데이러한종류의데이터수집은현실적인어려움이있어제외하였다. 개인홈페이지와같은블로그는인터넷을통해대형미디어에못하지않은힘을발휘할수있는 1인미디어의성격을갖는다. 뉴스는공신력있는언론사등에의해대중들에게전달되어진다. 블로그수, 뉴스수의수집은국내포털점유율이가장높고회원을가장많이보유하고있는네이버의검색엔진을사용하였다. 개봉전블로그수 (Bblog) 및개봉전뉴스수 (Bnews) 는영화개봉 1달전으로부터개봉전날까지영화제목의검색건수를사용하였고개봉후블로그수 (Ablog) 및개봉후뉴스수 (Anews) 는영화의개봉일로부터 3달후까지영화제목의검색건수를사용하였다. 이는대부분영화의상영기간이 1달내외이고블로그나뉴스의게시물들이상영종료후뒤늦게올라오는경우를감안하였다. 개봉 1주후, 개봉 2주후블로그수를나타내는변수인 A1blog, A2blog와개봉 1주후, 개봉 2주후뉴스수를나타내는변수인 A1news, A2news는개봉일로부터각각 1주후, 2주후까지의누적건수를사용하였다. 3. 예측모형본연구에서는총관객수의분류에의한영화흥행예측을위해데이터마이닝에서의주요분류기법에해당하는의사결정나무, 신경망모형, 다항로짓모형, 그리고 support vector machine(svm) 기법을사용하였다. 의사결정나무, 신경망모형, 다항로짓모형에의한예측을위해 SAS Institute Inc. (2012) 의 SAS Enterprise Miner 12.1을사용하였고, SVM의경우 SAS는기본적으로이항목표변수만을지원하기때문에 R Project Package인 e1071 의 SVM 함수를사용하여분석하였다. 3.1. 의사결정나무의사결정나무의분류나무는의사결정규칙을나무구조의형태로도표화하여목표변수의범주를분류하는기법이다. 나무구조로표현이되기때문에분류결과의해석이용이하며주요한예측변수에관한정보를얻을수있는장점이있다. 분류나무는목표변수의각범주에속하는빈도수를기초로하여마디의분리가일어난다. 이때의분리기준으로 CHAID 알고리즘을통한 Pearson의카이제곱통계량을사용하였다. 3.2. 신경망모형신경망모형은매우유연한비선형모형으로서예측변수들을결합하여각은닉마디에전달하고은닉마디들의결합을출력마디에전달함으로서목표변수의범주를분류하는분류모형이다. multilayer perceptron(mlp) 신경망모형의구조는예측변수들로구성되는입력층, 은닉마디들로구성되는은닉층, 그리고목표변수의범주들로구성되는출력층으로이루어진다. SAS Enterprise Miner 12.1에의한신경망모형의분석에서는은닉층의수가오직 1개로고정되어있고은닉마디의수는 1부터 64까지선택이가능하다. 본연구에서사용된신경망모형은다음과같이구성된다. X 1, X 2,..., X p 를예측변수라놓자. 그러면 i(i = 1, 2,..., 276) 번째영화에대한 j(j = 1, 2,..., J) 번째은닉마디 H ij 는식 (3.1) 과같은쌍곡탄젠
Prediction of box office using data mining 1263 트 (hyperbolic tangent) 함수 tanh( ) 에의해서계산된다. 여기서 H ij = tanh(ζ ij) = exp(ζij) exp( ζij) exp(ζ ij) + exp( ζ ij), (3.1) ζ ij = u 0j + u 1jX i1 + u 2jX i2 + + u pjx ip. 최종적으로 i 번째영화가범주 k(k = 1, 2, 3, 4, 5) 일확률 P (Y i = k) 을식 (3.2) 와같이계산하여가장 높은확률값을주는범주로서각영화의총관객수범주 k 를결정한다. 여기서 P (Y i = k) = exp(η ik), (3.2) 5 exp(η ik ) k=1 η ik = v 0k + v 1k H i1 + v 2k H i2 + + v Jk H ij. 3.3. 다항로짓모형다항로짓모형은범주형목표변수가갖는범주가 3개이상일때목표변수의분류에사용하는로지스틱모형이다. 다항로짓모형에의해 i번째영화가범주 k(k = 1, 2, 3, 4, 5) 일확률 P (Y i = k) 을식 (3.3) 과같이계산하여가장높은확률값을주는범주로각영화의총관객수범주를결정한다. P (Y i = k) = exp(η ik), (3.3) 5 exp(η ik ) k=1 여기서 η ik = { β 0k + β 1k X i1 + β 2k X i2 + + β pk X ip, k = 1, 2, 3, 4, 0, k = 5. 3.4. Support vector machine Support vector machine(svm) 은두범주사이의거리 (margin) 를최대로해주는초평면 (hyperplane) 을분류함수로사용하여목표변수값을분류하는기계학습법으로신경망모형과함께많은응용문제에서우수한성능을보여주는분류기법이다. SVM은기본적으로이항분류문제를푸는알고리즘이며다범주의분류는이항분류규칙을따른다. 즉, 모든다범주에대해서 1 대 1 이항분류를대응시킨후투표에의해각관측치가속할최종범주를찾는다. 4. 박스오피스예측이제앞서설명했던의사결정나무, MLP 신경망모형, 다항로짓모형, 그리고 SVM을사용하여총관객수예측을수행해보기로한다. 총관객수예측은개봉전 (Before), 개봉일 (Release), 개봉 1주후 (After 1 week), 그리고개봉 2주후 (After 2 weeks) 시점의총 4가지시점으로나누어예측하였다. Table 4.1은이러한예측시점에따
1264 Seonghyeon Jeon, Young Sook Son Table 4.1. The variables usable in accordance with the time Time Before Release After 1 week After 2 weeks Input Tree Logit Input Tree Logit Input Tree Logit Input Tree Logit Nationality O X O O X X O X O O X O Grade O X X O X X O X O O X O Month O X X O X X O X O O X O Season O X X O X X O X X O X X DirScore O O O O O X O O X O O O ActScore O X X O X X O X X O X O DistScore O X X O X X O X O O X O Nbscore O O O O X X O X O O X O Nbnum O X X O X X O X O O X O Dbscore O X X O X X O X O O X O Dbnum O O O O X O O X O O X O Bblog O O O O O O X X X X X X Bnews O X O O X X X X X X X X Daudience X X X O O O X X X X X X Dscreen X X X O X X X X X X X X A1audience X X X X X X O O O X X X A1screen X X X X X X O X O X X X A1blog X X X X X X O O O X X X A1news X X X X X X O X O X X X A2audience X X X X X X X X X O O O A2screen X X X X X X X X X O X O A2blog X X X X X X X X X O O O A2news X X X X X X X X X O X O Nascore X X X X X X X X X X X X Nanum X X X X X X X X X X X X Dascore X X X X X X X X X X X X Danum X X X X X X X X X X X X Ablog X X X X X X X X X X X X Anews X X X X X X X X X X X X 라사용가능한변수들을보여준다. 연속형변수들중에서포털평점을제외한변수들은이상치가존재하며비대칭분포의형태를보이므로로그변환을한후분석을실시하였다. Input 열의표시 O는각시점별로사용가능한예측변수들을의미하며표시 X는사용되지않은예측변수들이다. 관객수와스크린수를제외한영화의속성변수들은모든시점에서공통으로사용되었다. 개봉일, 개봉 1주후및개봉 2주후포털영화평점및평가자수를구하는현실적인어려움은이미 2장에서언급하였다. 따라서포털평점및평가자수는개봉전자료만이용가능하므로이들변수들은 4개의시점모두에서공통으로사용되었다. 관객수, 스크린수, 블로그수, 그리고뉴스수는시점별로다르게사용된다. 의사결정나무를사용할때해당마디가더이상분리가일어나지않고끝부분의마디가되도록하는정지규칙으로서카이제곱검정의유의수준은 0.2, 최소관측치의수는 10, 최대가지의수는 2, 그리고최대나무의깊이는 10으로지정하였다. 신경망모형의분석에서는은닉마디의수를 1부터 64까지의시뮬레이션결과로부터결정하였다. 다항로짓모형에의한예측에서는단계별 (stepwise) 선택에의해선택된예측변수를사용하였는데이때변수추가기준의유의수준을 0.2, 변수제거기준의유의수준을
Prediction of box office using data mining 1265 Table 4.2. Goodness of fit Time Tree NN Logit SVM Before 48.75% 99.64% 57.61% 60.14% Release 65.58% 100.00% 71.01% 68.48% After 1 week 77.54% 100.00% 84.06% 79.71% After 2 weeks 89.13% 100.00% 90.58% 84.42% 0.1로하여분석하였다. SVM에의한분류에서커널함수는선형함수와방사형기준함수 (radial basis function) 를사용하여두함수중에서보다높은정확도를보여주는결과를제시하였다. 신경망모형과 SVM에의한분류시, 의사결정나무혹은다항로짓모형에의해선택된예측변수들만사용하여분류하였을때의정확도는각예측시점에서사용가능한예측변수모두를사용했을때보다일관성있게정확도가더낮았다. 따라서신경망모형과 SVM은각예측시점에서사용가능한예측변수를모두사용하였다. 다음은총관객수예측에사용된각모형의성능비교를위하여전체데이터에대한모형의적합도, 10- 중교차검증을통한정확도, 그리고 2015년 1년에대한예측의정확도를제시하였다. 4.1. 전체데이터에대한적합도 Table 4.2는전체데이터를의사결정나무 (Tree), 신경망모형 (NN), 다항로짓모형 (Logit), SVM에의해적합시켰을때각모형의적합도를목표변수의정확한분류의비율인정확도로나타내었다. Figure 4.1(a) 는신경망모형에서은닉마디의수의변화에따른정확도를나타낸그림이다. 은닉마디의수가증가할수록정확도도증가추세이며은닉마디의수가 15에서정확도는거의 100% 에이른다. Table 4.2에서신경망모형은은닉마디의수가 15인경우의정확도를제시하였다. 모든모형들은예측시점이늦어질수록적합도는더높아진다. 특히신경망모형은다른모형에비해적합도가매우높으며거의 100% 의적합도를보인다. 의사결정나무혹은다항로짓모형은목표변수에유의한예측변수들을선별해주는기능이있다. Table 4.1의 Tree 열과 Reg 열의표시 O은의사결정나무와다항로짓모형의각각의선택기준에의해선택된유의한변수들이며표시 X는선택되지못한변수들이다. 관객수및블로그수는모든시점에서두모형에의해선택된가장중요한변수라고볼수있다. 그외에도의사결정나무는모든시점에서감독점수를, 다항로짓모형은모든시점에서개봉전다음포털의평가자수를선택하였다. 4.2. 10-중교차검증에의한예측 Table 4.3은 10-중교차검증에의한예측을하였을때의사결정나무 (Tree), 신경망모형 (NN), 다항로짓모형 (Logit), SVM의정확도를나타낸다. Figure 4.1(b) 는신경망모형에서은닉마디의수의변화에따른정확도를나타낸그림이다. 은닉마디의수가증가할수록정확도는증가및감소가반복되지만전체적으로는증가추세이며은닉마디의수가 25개이상이되면정확도에크게차이가없는것을볼수있다. Table 4.3에서신경망모형은은닉마디의수가 15인경우의정확도를제시하였다. Table 4.2의적합도와비교하면과적합의징후로서의사결정나무, 신경망모형, 그리고다항로짓모형의정확도는더낮아졌다. 그러나 SVM은개봉전시점을제외하면오히려 10-중교차검증에서정확도가더높아졌다. 모든모형들은예측시점이늦어질수록적합도는더높아지며신경망모형, SVM, 다항로짓모형, 의사결정나무순으로정확도가높다. 특히신경망모형의개봉전정확도 92.39% 는다른방법에비해월등하게
1266 Seonghyeon Jeon, Young Sook Son Table 4.3. Accuracy: 10-fold cross validation Time Tree NN Logit SVM Before 48.19% 92.39% 56.16% 57.61% Release 63.41% 93.48% 69.57% 71.38% After 1 week 75.00% 97.46% 80.80% 84.42% After 2 weeks 85.51% 97.83% 88.04% 92.03% Table 4.4. Accuracy: prediction of 2015 Time Use of final OWOM estimates Tree NN Logit SVM Before Release After 1 week After 2 weeks None 46.43% 89.29% 78.57% 83.93% Reg 50.00% 85.71% 83.93% 82.14% NN 50.00% 89.29% 85.72% 85.71% None 66.07% 98.21% 85.71% 92.86% Reg 66.07% 100.00% 96.43% 92.86% NN 71.43% 94.64% 58.93% 94.64% None 76.79% 96.43% 94.64% 96.43% Reg 73.21% 98.21% 94.64% 94.64% NN 73.21% 94.64% 82.14% 98.21% None 85.71% 100.00% 91.07% 98.21% Reg 85.71% 98.21% 87.50% 100.00% NN 85.71% 98.21% 92.86% 100.00% 더높은정확도이다. 4.3. 추정된 OWOM 변수를사용한 2015년박스오피스예측 Jeon과 Son (2016) 에서총관객수에영향력있는변수로밝혀졌던 OWOM 변수들인네이버및다음포털의평점 (Nascore, Dascore) 및평가자수 (Nanum, Danum) 는영화상영종료후에관측되며, 블로그수 (Ablog) 및뉴스수 (Anews) 도개봉후 3달후, 즉거의영화상영종료후에관측되므로 4개의예측시점에서는사용할수없다. 그러나이러한최종 OWOM 변수들은총관객수의예측변수로매우중요한변수이므로추정하여예측에사용해보기로한다. 미래인 2015년의총관객수예측을위하여 2012년부터 2014년까지 3년동안의과거자료를훈련용자료 (trainig data) 로사용하고 2015년 1년자료를예측의검증용자료 (test data) 에사용한다. 훈련용자료의각시점에서사용가능한변수들을예측변수로하고최종 OWOM 변수들을목표변수로하는다중회귀모형과 MLP 신경망모형를추정한다. 추정된모형으로최종 OWOM 변수를추정하여예측변수로추가하였다. 회귀모형추정의경우단계적변수선택법에의해변수선택을하였고신경망모형에의한추정의경우모형의적합도를나타내는 Akaike Information Criterion(AIC) 와모형의정밀도를나타내는 RMSE를최소로하는은닉마디수가 1부터 5사이로적절하게나타나 1부터 5사이의최적은닉마디수를선택하였다. Table 4.4는 2015년총관객수를예측하였을때의사결정나무 (Tree), 신경망모형 (NN), 다항로짓모형 (Logit), SVM의정확도를나타낸다. 이때최종 OWOM 변수의추정치를추가하지않았을때 (None), 회귀모형에의해추정된최종 OWOM 변수의추정치를추가하였을때 (Reg), 그리고신경망모형에의해추정된최종 OWOM 변수의추정치를추가하였을때 (NN) 의 3가지정확도결과를보
Prediction of box office using data mining 1267 (a) Using all data Figure 4.1. Accuracy plot of neural network. (b) Using 10-fold cross validation 여준다. 최종 OWOM 변수의추정치를추가하지않았을때 (None) 는신경망모형, SVM, 다항로짓모형, 의사결정나무의순으로예측의정확도가높으며 Table 4.3의 10-중교차검증과비교하였을때신경망모형은크게차이가없으나다항로짓모형및 SVM의정확도는매우높아졌다. 개봉전시점에다항로
1268 Seonghyeon Jeon, Young Sook Son 짓모형에의한예측결과의예를들어보면 Table 4.2, Table 4.3, 그리고 Table 4.4에서정확도는각각 57.61%, 56.16%, 78.57% 이다. Table 4.2의결과는 2012년도부터 2015년도까지의전체데이터인총영화 276편을모형훈련및적합에사용하여얻어진결과이며, Table 4.3의결과는 2012년부터 2015년까지의총영화 276편중에서랜덤하게 248편을모형훈련에사용하였고 28편을예측의정확도판정에사용한결과이다. Table 4.4의결과는 2012년부터 2014년까지 3년동안의영화 220편을모형훈련에사용하였고 2015년의영화 56편을예측의정확도판정에사용하여얻어진결과이다. 특히이경우의데이터는시간의연속성을보존하는특징을갖는다. 따라서 Table 4.2와 Table 4.3의표본은비슷한구성을가지므로 Table 4.2는 Table 4.3에비해일반적인특성대로과적합징후를보이지만 Table 4.4에대해서그렇지않은것은영화데이터의연도별특성차이즉, 표본구성의차이로인한결과라고유추한다. Table 4.4의 16개정확도결과중에서최종 OWOM 변수의추정치를추가하지않았을때 (None) 에비해서최종 OWOM 변수의추정치를추가하였을때정확도가더높아진결과는 11개결과이며최종 OWOM 변수의추정치를추가하지않았을때 (None) 오히려정확도가더높은경우는 2개결과이다. 신경망모형에의해추정된최종 OWOM 변수의추정치를추가하였을때 (NN) SVM의정확도는모두더높아졌다. 특히개봉일에회귀모형에의해추정된최종 OWOM 변수의추정치를추가하였을때신경망모형에의한예측과개봉 2주후최종 OWOM 변수의추정치를추가하였을때 SVM에의한예측은 100% 의정확도를보였다. 가장예측력이뛰어난신경망모형에의한예측결과를보면개봉전시점은최종 OWOM 변수의추정치를추가하지않았을때 (None) 에비해 OWOM 변수의추정치를추가하였을때예측력의향상이없으며, 개봉일혹은개봉 1주후시점은회귀모형에의한최종 OWOM 변수추정치를추가하였을때가최종 OWOM 변수의추정치를추가하지않았을때 (None) 에비해예측력의향상이있으며, 개봉 2주후시점의경우는오히려최종 OWOM 변수의추정치를추가하지않았을때 (None) 가예측력이더뛰어나다. 따라서 Table 4.2, Table 4.3, 그리고 Table 4.4를종합하여판단해보면 MLP 신경망모형을예측모형으로사용하고, 개봉일혹은개봉 1주후시점의경우는회귀모형에의해 OWOM 변수를추정하여입력변수로사용하면예측력을향상시킬수있을것으로기대한다. 5. 결론본연구에서는국적, 등급, 개봉월, 개봉계절, 감독, 배우, 배급사, 관객수, 스크린수와같은영화의내재적인속성을나타내는변수와네이버및다음포털의평점과평가자수, 블로그수, 뉴스수와같은 OWOM 변수들을활용하여 2012년부터 2015년까지의관객수 50만이상인국내영화 276편을대상으로영화흥행척도인총관객수의예측을하였다. 예측은개봉전, 개봉일, 개봉 1주후, 개봉 2주후의 4가지시점에서예측하였고각시점에서관측가능한변수들만을예측변수로사용하였다. 예측방법으로는데이터마이닝의주요분류기법인의사결정나무, MLP 신경망모형, 다항로짓모형, 그리고 SVM을사용하였다. 모든자료를대상으로적합시켰을때신경망모형의적합도는거의 100% 의정확도를보였다. 10-중교차검증에서는신경망모형, SVM, 다항로짓모형, 의사결정나무순으로정확도가높다. 특히신경망모형의개봉전정확도는 92.39% 로서다른방법에비해매우더높았다. Jeon과 Son (2016) 에서총관객수에영향력있는변수로밝혀졌던 OWOM 변수들인각포털의평점, 평가자수, 블로그수및뉴스수는거의영화상영종료후에관측되므로 4개의예측시점에서는사용할수없다. 그러나이러한최종 OWOM 변수들을다중회귀모형혹은 MLP 신경망모형에의해추정하여예측변수로사용하였을때 2015년상영영화에대한총관객수예측의정확도는보다개선되었다. 본연구에서는각시점에서얻을수있는자료만을활용하여예측을수행하였기때문에현실성 (reality)
Prediction of box office using data mining 1269 이있으며기존의영화속성변수에더해 OWOM 변수들을추가적으로사용함으로서과거연구결과들 에비해상대적으로높은예측력을보였다. References Jeon, S. and Son, Y.S. (2016). Effect of online word-of-mouth variables as predictors of box office, The Korean Journal of Applied Statistics, 29, 657 678. Kim, T., Hong, J., and Koo, H. (2013). Forecasting box-office revenue by considering social network services in the Korean market, Journal Teknologi (Social Sciences), 64, 97 101. Kim, Y.H. and Hong, J.H. (2011). A study for the development of motion picture box-office prediction model, Communications for Statistical Applications and Methods, 18, 859 869. Korean Film Council (2015). 2015 Korean film consumer survey, Korean Film. Korean Film Council (2016). 2015 Korean film industry settlement, Korean Film, 71. SAS Institute Inc (2012). Getting started with SAS Enterprise Miner 12.1, SAS Institute Inc., Cary. Sharda, R. and Delen, D. (2006). Predicting box-office success of motion pictures with neural networks, Expert Systems with Applications, 30, 243 254. Song, J. and Han, S. (2013). Predicting gross box office revenue for domestic films, Communications for Statistical Applications and Methods, 20, 301 309. Yim, J. and Hwang, B. (2014). Predicting movie success based on machine learning using twitter, KIPS Transactions on Software and Data Engineering, 3, 263 270. Zhang, L., Luo, J., and Yang, S. (2009). Forecasting box office revenue of movies with BP neural network, Expert Systems with Applications, 36, 6580 6587.
1270 Seonghyeon Jeon, Young Sook Son 데이터마이닝을이용한박스오피스예측 전성현 a 손영숙 a,1 a 전남대학교통계학과 (2016 년 7 월 22 일접수, 2016 년 9 월 17 일수정, 2016 년 10 월 20 일채택 ) 요약본연구는영화흥행의척도로서총관객수의예측을다루었다. 의사결정나무, MLP 신경망모형, 다항로짓모형, support vector machine 과같은데이터마이닝분류기법들을사용하여개봉전, 개봉일, 개봉 1 주후, 그리고개봉 2 주후시점별로예측이이루어진다. 국적, 등급, 개봉월, 개봉계절, 감독, 배우, 배급사, 관객수, 그리고스크린수와같은영화의내재적인속성을나타내는변수뿐만아니라포털의평점과평가자수, 블로그수, 뉴스수와같은온라인구전변수들이예측변수로사용되었다. 10- 중교차검증에서신경망모형의정확도는개봉전시점에서도 90% 이상의높은예측력을보였다. 또한최종온라인구전변수의추정치를예측변수로추가함으로서예측의정확도가더높아짐을볼수있다. 주요용어 : 다항로짓모형, 데이터마이닝, 영화흥행예측, 온라인구전, 의사결정나무, 10- 중교차검증, MLP 신경망모형, support vector machine 이논문은 2011 년도정부 ( 교육과학기술부 ) 의재원으로한국연구재단의기초연구사업지원을받아수행된것임 (NRF-2011-0022864). 1 교신저자 : (61186) 광주광역시북구용봉동 300 번지, 전남대학교통계학과. E-mail: ysson@jnu.ac.kr