The Korean Journal of Applied Statistics (2013) 26(3), 441 452 DOI: http://dx.doi.org/10.5351/kjas.2013.26.3.441 A Study for the Drivers of Movie Box-office Performance Yon Hyong Kim a,1 Jeong Han Hong b a Department of Statistics, Jeonju University; b Taylor Nelson Sofres Korea (Received March 18, 2013; Revised June 4, 2013; Accepted June 4, 2013) Abstract This study analyzed the relationship between key film and a box office record success factors based on movies released in the first quarter of 2013 in Korea. An over-fitting problem can happen if there are too many explanatory variables inserted to regression model; in addition, there is a risk that the estimator is instable when there is multi-collinearity among the explanatory variables. For this reason, optimal variable selection based on high explanatory variables in box-office performance is of importance. Among the numerous ways to select variables, LASSO estimation applied by a generalized linear model has the smallest prediction error that can efficiently and quickly find variables with the highest explanatory power to box-office performance in order. Keywords: Box office, generalized linear model, shrinkage estimation, variable selection. 1. 서론국내영화산업에대한학문적연구는영화의흥행결과에영향을미치는요인들을규명하는데주목해왔으며, 대부분의영화흥행연구는기존의선행연구에서사용되었던요인체계를바탕으로변수들이선택되었다. 영화의속성이론에관련된개별요인이흥행에미치는영향력을검증하는데집중함으로써, 상업적시각에서다양한요인들을통합적으로이해한영화의흥행성과모형을개발하는연구는그리활발히진행되고있지않은실정이다. 회귀분석모형에서투입되는설명변수가많을경우과대적합 (over-fitting) 문제가발생할수있고, 더구나설명변수간다중공선성이있을때에는추정량이불안정하게될위험이있다. 모형의복잡도와예측력의문제를동시에고려해야하는상황에서흥행성과에설명력이높은변수위주로최적의변수선택을하는것이중요하나, 기존의연구들은관심변수의유의성과설명력에주로초점을맞춤으로써모형의예측력과타당성의확보란측면에서간명하고적합한모형이제시되기어려웠다. 이연구에서는 2013년 1월부터 3월까지국내에서개봉된상업영화를대상으로영화흥행성과에핵심적인영향요인을회귀모형을통해살펴보았다. 회귀모형의계수추정방법에는여러가지가있으나, 이연구에서는일반적인 Stepwise 회귀외에모형의복잡도에벌점을주는기법으로서 Ridge회귀및 LASSO회귀를이용하였다. 1 Corresponding author: Professor, Department of Statistics, Jeonju University, Jeonju-Si, Jeollabuk-Do 560-759, Korea. E-mail: yhkim@jj.ac.kr
442 Yon Hyong Kim, Jeong Han Hong 본연구의목적은첫째, 기존의영화흥행요인들로밝혀진변수들을통합적으로분석하여예측오차가가장적고흥행성과에설명력이가장높은변수순으로의미있는독립변수들을빠르고효율적으로선택하는것이다. 둘째, 상업적시각에서영화개봉전과영화개봉후온라인구전의효과를실증분석하는것이다. 셋째, 연구에서다루지못했던상영포맷을고려하여, 영화흥행영향요인으로서의중요도를검증하고자한다. 2. 연구방법 2.1. 영화흥행성과의연구모형 Eliashberg 등 (2006) 은영화산업의가치사슬 (value chain) 에있어핵심단계를제작 (production), 배급 (distribution), 상영 (exhibition) 의 3단계로구분하였다. 상업적시각에서제작, 배급, 상영각단계별로영화흥행예측과관련된연구문제를다음과같이정리하여볼수있다. 제작단계 : 영화흥행예측모형이초기지표 -대본, 캐스팅, 예상상영등급 -를토대로얼마나정확하게개발될수있을것인가? 배급단계 : 영화마케팅을위한예산을다양한미디어-전통적미디어, 온라인미디어-에어떻게배분하는게최적인가? 영화흥행에온라인리뷰, 온라인구전이얼마나영향을미치는가? 상영단계 : 최적의스크린수를결정하기위해어떤요인을고려해야하는가? 한국은 2000년대이후멀티플렉스확산으로전국동시개봉이일반화되어마케팅비용과개봉스크린수가관객동원에영향을미치는요소로간주되어왔다. 인터넷이중요한커뮤니케이션매체로등장하면서온라인구전은어떤미디어보다도강력한구전커뮤니케이션채널로서소비자에게위험을회피할수있는정보의중요한원천으로작용하고있다. 최근들어급속히유행하는 3D, 4D 영화의경우, 영화제작자, 배급사그리고대형멀티플렉스영화관입장에서볼때동일한관객으로부터고객의욕구를자극해더높은영화관람료를지출하게만드는 up-selling 동기요소로작용하고있다. 본연구는영화흥행의영향요인을규명하고자다음과같이연구문제를설정하였다. 연구문제 1: 개봉전 후온라인평점과빈도는영화흥행성과에영향이있는가? 연구문제 2: 3D 4D 상영포맷은영화흥행성과에영향을미치는가? 2.2. 흥행성과의정의상업적측면에서영화의흥행성과는투자수익 (ROI) 의관점에서보면제작비와제반경비를초과하여회수한전국매출액이라고할수있다. 전국매출액은영화진흥위원회의영화관입장권통합전산망을통해접근이가능하지만개별영화의제작비는정확한정보를수집하기가현실적으로는불가능하다. 또한, 통합전산망의전국매출액은제작자가배급사와극장측에게지불해야할배급수수료와상영료의배분이되기전에관객들이지불한티켓가격을순수하게합산한것이다. 영화산업의주체중제작사입장에서는배급사, 극장측과배급수수료, 상영료를배분하고나서야, 제작사의최종매출이되는것이지만, 제작사, 배급사, 극장상호간의정확한배분금액을알아내는것은현실적으로불가능에가깝다따라서기존의선행연구들에있어서는전국관객수를해당영화의흥행성과로정의하였는데, 이는소비자가영화에대해지불하는티켓가격이영화별로동일한극장산업특성상, 관객수와매출액은비
A Study for the Drivers of Movie Box-office Performance 443 Table 2.1. Definition of variables 구분 변수 변수제작전개봉전개봉후형태투자배급상영 국적 한국, 미국, 기타 더미 o o o 장르코미디, 액션, 스릴러, 멜로, 드라마, 공포, 기타더미 o o o 영화관람등급전체관람가, 12세이상, 15세이상, 청소년관람불가순서형 o o o 속성감독효과감독작품개봉이전 3년감독영화의매출액평균척도형 o o o 독립 배우효과 주연작품개봉이전 3년주연영화의매출액평균 척도형 o o o 변수배급사파워배급사작품개봉이전 3년배급영화의매출액평균경쟁 척도형 o o 요소 스크린수전국개봉스크린수척도형 o o 상영포맷 2D( 일반 ) 를제외하고 3D, 4D, IMAX의매출액점유비중척도형 o o 구전온라인평점네이버의일반인평가의평균평점 (10점만점 ) 척도형 o 효과온라인빈도네이버의일반인평가의빈도 척도형 o 종속변수매출액영화진흥위원회영화상영관입장권통합전산망집계전국척도형매출액 례한다고할수있으므로관객수를흥행성과로정의한다고해도큰무리가없었다고볼수있다. 그러 나최근들어급속히유행하는 3D, 4D 영화의경우, 2D( 일반 ) 보다티켓가격이비싸객단가가높기때문 에관객수보다매출액으로흥행성과를정의하는것이더타당하다고할수있다. 2.3. 흥행성과의영향변수영화흥행에관한변수들은크게영화의내적요인과외적요인으로구분되고있다. 영화의외적요인은다시구전커뮤니케이션영역과배급유통경쟁영역으로나누어진다. 영화흥행에대한영화의내적요인의영향을분석하기위해해당영화의국적과장르는더미변수를, 관람등급은순서형변수를이용하였다. 또한영화흥행에기여하는감독과배우의효과를측정하기위하여감독이해당작품이개봉되기직전 3년동안감독또는주연한영화들의매출액평균을이용하였다. 영화흥행의외적요인중구전커뮤니케이션영역은온라인평점과빈도를이용하였다. 배급유통경쟁영역가운데배급사파워는해당영화의배급사가개봉시점으로부터 3년전까지배급한영화가동원한매출액평균을, 상영포맷은 3D, 4D, IMAX상영이매출액에서차지하는비중 (%) 을이용하였다. 이연구에서는한국의영화시장에서흥행성과에영향을미치는요인들을선행연구를참고하여국적, 영화장르, 관람등급, 감독과배우의스타파워, 배급사파워, 스크린수, 온라인평점과평가빈도로정하였다. 여기에선행연구에서는다루지않았던영화상영포맷을이연구에추가하여 Table 2.1에서보는바와같이총 10개의설명변수를고려하였다. 영화의흥행을나타내는변수로는영화진흥위원회 Box Office 전국매출액통계를이용하였으며, Table 2.1에각각의변수의정의를설명하였다. 제작전투자결정단계에서고려할수있는요인과개봉전최적편성단계에서고려할수있는요인들을 O로분류하였다. 영화제작단계에서배급사나창투사가투자자의형태로영화제작에관여하게되는데, 투자단계에서고려할수있는요인은국적, 대본의완결성, 장르와예상관람등급, 감독과배우의캐스팅등영화의내적요인이다. 또한, 완성된영화의배급상영단계에서극장체인은영화의내적요인이외에구전커뮤니케이션, 배급사의마케팅능력, 개봉스크린수등과같은영화외적요인의경쟁력을함께고려하여최적편성을시도하게된다.
444 Yon Hyong Kim, Jeong Han Hong Table 3.1. Descriptive statistics of variables 변수표본수최소최대평균표준편차 매출액 54-86,202,006,670 6,059,674,571 14,435,229,813 감독효과 54-23,428,605,500 1,614,962,454 4,910,158,370 배우효과 54-2,722,403 118,400 434,040.3 배급사파워 54-10,276,962,523 4,301,966,077 3,890,856,371 스크린수 54 13 894 275 219.5553 상영포맷 54 0 66.5 4.717 11.1673 온라인평점 ( 개봉전 ) 54 6.72 9.87 8.72 0.6924334 온라인빈도 ( 개봉전 ) 54 12 1,444 380.5 379.8802 온라인평점 ( 개봉후 ) 54 6.17 9.75 8.163 0.8324417 온라인빈도 ( 개봉후 ) 54 14 14530 1,420 2626.023 Table 3.2. Revenue distribution of movies released in the first quarter of 2013 in Korea 그룹기준영화수퍼센트누적퍼센트 1 30억원미만 38 70.4 70.4 2 30억원이상 80억원미만 8 14.8 85.2 3 80억원이상 200억원미만 3 5.6 90.7 4 200억원이상 400억원미만 3 5.6 96.3 5 400억원이상 2 3.7 100.0 Total 54 100.0 영화흥행성과에영향을미치는요인을규명하고자영화속성, 경쟁요소, 구전효과를고려하여아래와같은모형으로제시하였다. 매출액 = 국적 + 장르 + 등급 + 감독효과 + 배우효과 + 배급사파워 + 스크린수 + 상영포맷 + 온라인평점 + 온라인빈도. 3. 실증분석 3.1. 기술통계본연구에서는 2013년 1월부터 2013년 3월까지한국에서개봉된상업영화 54편을실증분석에이용하였다. Table 3.1은본연구에서사용한주요변수에대한기술통계량이며, 분석대상에이용된 54편의평균매출액은 60.5억원으로나타났다. 본절에서는회귀분석을수행하기에앞서, 설명변수와종속변수들에대한탐색적기초통계분석및가공을수행하였다. 통계적모형은자료에대한정규분포가정에기반한추론이이루어지므로변수값의분포가정상분포의형태에서벗어나는변수들에대해서는로그변환을시도하였다. Table 3.2를보면영화매출액의편차가매우크다는것을알수있는데, 200억원이상의매출액을기록한흥행영화는전체개봉영화편수의 9.3% 에불과할정도로그숫자가매우적은것을볼수있다. 3.2. 상관성의검토 Table 3.3 은더미변수를제외한주요변수간, 즉종속변수와모형에포함한독립변수들과의스피어만 상관분석을실시한결과이다. 매출액과감독효과, 배급사파워, 스크린수, 온라인평점 ( 개봉전 ), 온라
A Study for the Drivers of Movie Box-office Performance 445 Table 3.3. Correlation between variables 스크린상영온라인평점온라인빈도온라인평점온라인빈도 Spearman의상관계수매출액감독배우배급사수포맷개봉전개봉전개봉후개봉후 상관계수 1.000.311.114.643.956.397.875.641.171.875 매출액 유의확률 ( 양측 ).022.411.000.000.003.000.000.217.000 상관계수.311 1.000.697.390.339.161.404.429.103.404 감독 유의확률 ( 양측 ) 0.22.000.004.012.245.002.001.457.002 상관계수.114.697 1.000.302.164.160.181.229.113.181 배우 유의확률 ( 양측 ).411.000.026.236.248.189.096.416.189 상관계수.643.390.302 1.000.643.213.618.571.143.618 배급사 유의확률 ( 양측 ).000.004.026.000.122.000.000.303.000 상관계수.956.339.164.643 1.000.390.873.624.099.873 스크린수 유의확률 ( 양측 ).000.012.236.000.004.000.000.475.000 상관계수.397.161.160.213.390 1.000.175.021.016.175 상영포맷 유의확률 ( 양측 ).003.245.248.122.004.207.878.909.207 상관계수.875.404.181.618.873.175 1.000.797.176 1.000 온라인평점유의확률 ( 양측 ).000.002.189.000.000.207.000.204. 개봉전 상관계수.641.429.229.571.624.021.797 1.000.260.797 온라인빈도유의확률 ( 양측 ).000.001.096.000.000.878.000.058.000 개봉전 상관계수.171.103.113.143.099.016.176.260 1.000.176 온라인평점유의확률 ( 양측 ).217.457.416.303.475.909.204.058.204 개봉후 상관계수.875.404.181.618.873.175 1.000.797.176 1.000 온라인빈도유의확률 ( 양측 ).000.002.189.000.000.207.000.204 개봉후 인빈도는유의미한상관관계를보인반면, 매출액과배우효과, 온라인평점 ( 개봉후 ) 간에는상관관계가없는것으로나타났다. 주연배우가해당작품의개봉이전 3년동안주연한영화의평균동원관객수를나타내는배우효과는감독효과, 스크린수와상관관계가있음을알수있다. 스타배우의캐스팅은상대적으로고제작비영화에서이루어지는데, 제작비가많이든블록버스터영화일수록파워가큰배급사를통해스크린수를많이확보함으로써투자금액을조기회수하려하기때문으로해석할수있다. 그러나배우효과는온라인평점, 온라인빈도와는유의한상관관계를보이지않았다. 스크린수는감독효과, 배급사파워, 상영포맷, 온라인평점 ( 개봉전 ), 온라인빈도와상관성이있으며온라인빈도는감독효과, 배급사파워, 스크린수와상관관계가나타났다. 온라인평점 ( 개봉전 ) 은온라인빈도 ( 개봉전 ) 와상관관계를보이고있는반면, 온라인평점 ( 개봉후 ) 과는뚜렷한상관관계를보이지않았다. 한편온라인빈도 ( 개봉전 ) 는온라인빈도 ( 개봉후 ) 와상관관계를나타냈다. 2차적으로다중공선성을판단하기위해 VIF를이용하였다. 변수들의 VIF가 1에서 10 미만의값으로나타나, 심각하지는않지만추가적으로다중공선성을의심해볼필요가있는것으로나타났다. Figure 3.1은각변수와매출액간의산점도이다. 감독파워, 배우파워, 배급사파워의그래프에서 X축좌표 0의값에몰려있는것을발견할수있다. 이는영화개봉이전 3년기간평균동원관객수가많은
446 Yon Hyong Kim, Jeong Han Hong Figure 3.1. Scatter plots of variables 흥행작이있는감독과배우라고해서항상관객동원에성공하는것이아니듯, 전체개봉작중상당한비중을차지하는무명감독이나신인배우의작품이라도작품여하에따라흥행에성공할수도실패할수도있음을보여주는것이다. 또한, 이전 3년기간평균동원관객수가많은배급사라고해서반드시흥행에성공하는것이아니고, 군소회사가배급하더라도작품여하에따라관객동원에성공할수도실패할수도있음을보여준다. 3.3. 모형비교연구자는연구방법의편의를위해영화흥행에관한이론에의해증명되거나가설로검증할필요가있는모든변수를모형에포함시키는변수선택방법 (Enter method) 을우선고려하게된다. 그러나현재흥행성과에영향을주는요인으로모형에포함되어있는변수라하더라도, 통계적으로는의미가없는
A Study for the Drivers of Movie Box-office Performance 447 변수가있을수있다. 최소제곱법 (OLS) 을이용하여다중선형회귀분석을실시하여모수를추정하는경 우, 설명변수의개수가증가하여다중공선성 (Multi-colinearity) 이존재하면회귀계수의분산이커져서 회귀식의예측력이떨어지는문제가발생하게된다. 따라서적합한변수를선택하기위해통계적인분 석과정을거쳐서변수를선별하여야한다. 기존의선행연구에서는변수를선택하기위해단계적선택 법 (Stepwise selection) 을주로활용해왔다. 단계적선택법으로변수선택을하더라도선택된설명변수 간에다중공선성이있어모수추정량의분산이팽창한다면불안정한추정이되기때문에설명변수의부 분선택이의미가없게된다. 예측모형에있어서종속변수에영향을주는설명변수의부분선택은예측력 이높은모형을만드는데중요한역할을한다. 최소제곱법 (OLS) 에서출발하되, 특정조건에서어긋나 는경우 penalty 를주는방식으로모수를안정적으로추정하는방법이제안되었다. Hoerl 과 Kennard (1970) 는회귀계수 β 에대한추정방법으로최소제곱추정법대신아래와같은벌점화 기법을제안하였다. Ridge 기법추정치는제약조건 p j=0 β2 j t 2 하에서 β Ridge = arg min β ( n y i β 0 i=1 로주어진다. 라그랑즈승수법 (Lagrange Multiplier) 에의해 이된다. β Ridge = arg min β { n ( y i β 0 i=1 j=1 ) 2 p x ijβ j j=1 ) 2 p p x ijβ j + λ 만약 t = 0 이면모형은상수항만을포함하고 t = 이면최소제곱법과동일하다. j=1 β 2 j }, t 0, λ 0 그런데, Ridge 기법이축소추정치를주지만회귀계수를완전히 0 으로추정하지는못하므로변수선택이 여전히어렵고해석이쉽지않다. 즉, 많은설명변수들중어떤변수가중요한역할을하는지에대한판 단이그리용이하지않다. Tibshirani (1996) 는회귀계수절대값의합이주어진상수보다작게하는조건하에서잔차제곱합을최 소화하는 LASSO(least absolute shrinkage and selection operator) 기법을제안하였다. LASSO 기법 은 Ridge 기법처럼최소제곱추정의축소추정치를줌과동시에설명력이없는설명변수들의계수는 0 으 로추정함으로써자동적인변수선택이가능해지고모형의해석이용이하게된다. LASSO기법추정치는제약조건 p j=0 βj t하에서 ( 로주어진다. β LASSO = arg min β 라그랑즈승수법 (Lagrange Multiplier) 에의해 이된다. β LASSO = arg min β { n ( y i β 0 i=1 n i=1 j=1 y i β 0 ) 2 p x ijβ j j=1 ) 2 } p p x ij β j + λ β j, t 0, λ 0 j=1
448 Yon Hyong Kim, Jeong Han Hong (a) Stepwise 회귀 (b) LASSO 회귀 (c) Ridge 회귀 Figure 3.2. Model comparisons between Stepwise, Ridge and LASSO (d) LASSO 회귀 만약 t = 0이면모형은상수항만을포함하고 t = 이면최소제곱법과동일하다. Ridge기법과 LASSO기법의차이는벌점이 l 2 norm p j=1 β2 j 에서 l 1 norm p j=1 β j 로바뀐점이다. Figure 3.2 의 (a) 와 (b) 는각각 Stepwise 와 LASSO 추정계수의프로파일을보여준다. 첫번째 Stepwise 회귀의추정계수는상당히불안정한반면 LASSO 회귀의추정계수는안정적으로나타나고있다. Figure 3.2 의 (c) 와 (d) 를통해 Ridge 와 LASSO 추정계수의프로파일을비교할수있다. Ridge 회귀의 경우모든변수의값이 0 이아니다. 반면 LASSO 회귀의경우최적화된벌점모수값에대하여얻어진 변수값들중에서일부는 0 이다. 선형회귀분석의가정이충족되지않는문제점을해결하는방안의하나인일반화선형모형 (GLM) 에벌 점화기법을적용할수있다. Ridge 및 LASSO 제약조건하의최대우도 (Penalized maximum likelihood) 방법에의해, 벌점모수 (Penalty parameter) 의경로 (path) 와교차확인법 (Cross-validation) 에의 해선택된모수추정치를구할수있다.
A Study for the Drivers of Movie Box-office Performance 449 (a) Ridge 일반화선형모형 (b) LASSO 일반화선형모형 Figure 3.3. Trace plots of cross-validation errors (Ridge GLM and LASSO GLM) Figure 3.3은 Ridge와 LASSO추정량의조절모수로서 λ의값의변화에따른교차타당성오차 (Crossvalidation error) 의트레이스를보여준다. LASSO추정의경우 Log(λ) = 2.100834 즉, λ = 0.1223543 일때교차타당성오차가최소가됨을알수있다. Ridge기법은축소추정치를주지만변수선택은하지않으므로고차원자료의경우최종모형에대한해석이용이하지않다. 반면, LASSO기법은축소추정과변수선택을통해예측력을향상시키는동시에최종모형에대한해석을용이하게하는방법이다. 변수의개수가증가하면 RSS는감소하지만 Cp는처음에는감소하다모형이복잡해지면서다시증가하게된다. Table 3.4에서보는바와같이 Cp 값이 14.489로최소가되는 9단계에서모형을선택할수있다. 선택한모형에서스크린수 > 온라인빈도 ( 개봉후 ) > 배급사파워 > 온라인평점 ( 개봉후 ) > 감독효과 > 스릴러 > 상영포맷 > 코미디 > 온라인평점 ( 개봉전 ) 의순으로변수선택이이루어졌다.
450 Yon Hyong Kim, Jeong Han Hong Table 3.4. RSS and Cp at each step of LASSO GLM 단계 Df Rss Cp 투입변수 0 1 272.274 508.003 상수항 1 2 173.981 307.836 스크린수 2 3 35.099 24.190 온라인빈도 ( 개봉후 ) 3 4 31.388 18.558 배급사파워 4 5 28.617 14.858 온라인평점 ( 개봉후 ) 5 6 28.224 16.049 감독효과 6 7 26.848 15.220 스릴러 7 8 26.403 16.304 상영포맷 8 9 26.325 18.144 코미디 9 10 23.575 14.489 온라인평점 ( 개봉전 ) 10 11 23.315 15.953 멜로 11 12 22.747 16.784 드라마 12 13 22.626 18.536 15세이상관람가 13 14 21.600 18.425 공포 14 15 21.272 19.752 온라인빈도 ( 개봉전 ) 15 16 19.016 17.111 미국 16 17 18.215 17.465 배우효과 17 18 17.352 17.689 액션 18 19 17.083 19.136 12세이상관람가 19 20 16.402 19.735 전체관람가 온라인구전이개봉전보다는개봉후각종온라인매체를통해네티즌들의입소문이퍼지면서영화흥행에영향을주는요소임이확인되었다. 또한온라인평가는개봉후평점과빈도가모두흥행성과에영향을미치지만, 평점보다는빈도가훨씬높은영향력을보이는것으로분석되었다. 반면, 개봉전에는온라인빈도는유의하지않고온라인평점만흥행성과와유의미한관계를보인것으로나타났다. 온라인평점과빈도를모두고려한선행연구 ( 박승현등, 2011; Kim과 Hong, 2011) 에서온라인빈도만영향력이유의한것으로나타난것과다소다른면이있다. Table 3.5는 Ridge와 LASSO회귀에의한회귀계수추정결과를비교한것이다. LASSO회귀는효과가작아의미가없는설명변수에대한회귀계수를 0으로추정할수있어, 예측력 (Prediction accuracy) 이높고모형을쉽게해석할수있다는점에서매우유용하고 robust함을알수있다. 4. 결론본연구에서는 2013년 1월부터 2013년 3월까지국내에서상영된상업영화를대상으로영화흥행결정요인을파악하였다. 선행연구결과와비교하기위해온라인구전의영향력을분석하였으며, 기존연구에서고려하지못한상영포맷의영화흥행성과에대한영향력을검증하였다. 상업적시각에서는다양한유형의많은변수가존재하기때문에회귀분석모형에투입되는설명변수가많을경우과대적합 (over-fitting) 문제가발생할수있고, 설명변수간다중공선성이있을때에는추정량이불안정하게될위험이있다. 이연구에서는 LASSO회귀를적용하여스크린수, 온라인빈도 ( 개봉후 ), 배급사파워, 온라인평점 ( 개봉후 ), 감독효과, 스릴러, 상영포맷, 코미디, 온라인평점 ( 개봉전 ) 의순으로 9개변수를흥행성과의영향변수로선택하였다.
A Study for the Drivers of Movie Box-office Performance 451 Table 3.5. Comparisons of parameter estimates (Ridge GLM and LASSO GLM) 변수 Ridge 계수 LASSO 계수 상수항 8.573164525 9.818450466 한국 0.160606365 미국 0.112759978 코미디 0.307067312 0.112886963 액션 0.121811865 스릴러 0.575660286 0.170964102 멜로 0.565155617 드라마 0.104107346 공포 0.622058137 전체 0.028500248 12세이상관람가 0.040066967 15세이상관람가 0.191984507 감독효과 0.011724245 0.002327929 배우효과 0.009289321 배급사파워 0.137600487 0.071290160 스크린수 1.000623575 1.129656656 상영포맷 0.013814369 0.003471540 온라인평점 ( 개봉전 ) 0.120868525 0.025617524 온라인빈도 ( 개봉전 ) 0.143661762 온라인평점 ( 개봉후 ) 0.103710157 0.102039446 온라인빈도 ( 개봉후 ) 0.459592455 0.385586314 영화속성으로장르-코미디, 스릴러, 감독효과가영화흥행성과에유의한것으로나타났다. 구전효과로서개봉전에는온라인평점이, 개봉후에는온라인평점과빈도모두영화관객을유인하는요인으로분석되었다. 경쟁요소로는스크린수, 배급사파워, 상영포맷이유의한영향을나타내는것으로나타났다. 상영포맷즉, 3D 4D는본격적으로디지털화되고있는영화제작및상영관리노베이션추세를감안할때흥행성과인매출액에미치는영향력이점차증대될것으로전망된다. 국내영화산업에서상업적인영화흥행예측은스코어카드에의한평가점수합계로이루어지고있다. 스코어카드를구성하는항목들의가중치가주관적경험에근거한배분으로이루어지고있는데, LASSO회귀를통해도출한흥행결정요인들의상대적영향력을가중치로하여각요인에대한상영예정영화의평가점수를가중평균한다면보다합리적이고객관적으로흥행성과를예측할수있으리라기대된다. References Eliashberg, J., Elberse, A. and Leenders, M. A. A. M. (2006). The Motion Picture Industry: Critical Issues in Practice, Current Research, and New Research Directions, Marketing Science, 25, 638 661. Hoerl, A. E. and Kenard, R. W. (1970). Ridge regression: Biased estimation for non-orthogonal problems, Technometrics, 2, 55 68. Kim, Y. H. and Hong, J. H. (2011). A study for the development of motion picture box-office prediction model, Communications for Statistical Applications and Methods, 18, 859 869. Park, S.-H., Song, H.-J. and Jung, W.-K. (2011). The determinants of Motion Picture Box Office Performance: Evidence from Korean movies released in 2009 2010, Journal of Communications Research, 11, 231 258. Tibshirani, R. (1996). Regression and Shrinkage via lasso, Journal of the Royal Statistical Society, 58, 267 288.
452 Yon Hyong Kim, Jeong Han Hong 영화흥행영향요인선택에관한연구 김연형 a,1 홍정한 b a 전주대학교통계학과, b 테일러넬슨소프레스코리아 (2013 년 3 월 18 일접수, 2013 년 6 월 4 일수정, 2013 년 6 월 4 일채택 ) 요약국내영화산업은투자 배급사 멀티플렉스로수직계열화된대기업중심으로온라인구전마케팅이활발히진행되고있다, 최근에는대기업계열의멀티플렉스영화관중심으로 3D 4D 영화포맷복합상영을통해 up-selling 을통한흥행성과극대화를도모하고있다. 영화산업기술진보와흥행여건변화에따라, 기존관객수대신매출액을흥행성과로정의하고, 국내개봉상업영화를대상으로축소추정기법을포함한여러회귀모형을적용하였다. 특히 LASSO 회귀의경우, 교차타당성방법을이용한예측오차가가장적고흥행성과에설명력이높은변수순으로의미있는독립변수들을빠르고효율적으로선택할수있었다. 2013 년도 1 분기개봉영화를대상으로실증분석결과, 개봉후온라인평점과빈도모두영향력이높았으나, 개봉전에는온라인평점만효과적인것으로나타났다. 상영포맷또한흥행성과에유의한영향을미치는것으로나타났다. 주요용어 : 영화흥행, 일반화선형모형, 축소추정, 변수선택. 1 교신저자 : (560-759) 전북전주시완산구효자동 3 가 1200, 전주대학교통계학과, 교수. E-mail: yhkim@jj.ac.kr