The Korean Journal of Applied Statistics (2017) 30(6), 809 825 DOI: https://doi.org/10.5351/kjas.2017.30.6.809 A study on entertainment TV show ratings and the number of episodes prediction Milim Kim a Soyeon Lim a Chohee Jang a Jongwoo Song a,1 a Department of Statistics, Ewha Womans University (Received August 14, 2017; Revised September 29, 2017; Accepted October 12, 2017) Abstract The number of TV entertainment shows is increasing. Competition among programs in the entertainment market is intensifying since cable channels air many entertainment TV shows. There is now a need for research on program ratings and the number of episodes. This study presents predictive models for entertainment TV show ratings and number of episodes. We use various data mining techniques such as linear regression, logistic regression, LASSO, random forests, gradient boosting, and support vector machine. The analysis results show that the average program ratings before the first broadcast is affected by broadcasting company, average ratings of the previous season, starting year and number of articles. The average program ratings after the first broadcast is influenced by the rating of the first broadcast, broadcasting company and program type. We also found that the predicted average ratings, starting year, type and broadcasting company are important variables in predicting of the number of episodes. Keywords: Entertainment TV show, ratings, number of episodes, prediction model 1. 서론 오디션, 육아, 버라이어티등다양한예능프로그램의수가증가하고있다. 특히종합편성채널이개국한 이후에지상파중심이었던예능방송이종합편성채널까지크게확대되었으며, 지상파예능방송의시청 률을넘어서는종합편성채널예능프로그램도있다. 예능프로그램의동향을보면, 2000 년대초반까지 의예능은대부분회차를정해놓지않고방영하여시청률에따라폐지가결정되었지만, 최근에는 슈퍼 스타 K 와같은서바이벌오디션프로그램과 꽃보다할배 와같은단기여행프로그램이나오면서시청 률에관계없이회차가고정된방송이증가하였다. 이러한변화로시청률이높은프로그램의경우회차 를증가시키기보다다음시즌을준비하는경향을보인다. 또한다양한오디션프로그램이나시청자들의 사연으로구성되는프로그램등시청자들의참여를요구하는프로그램이대거등장하기도하였다. 스마트폰과 SNS 의발달로방송시청의공간적인제약이없어진데다 SNS 상의방송클립을통해예능 프로그램노출도가높아지면서예능시장이더욱활성화되었다. 이에따라예능프로그램의문화적, 산 업적인영향력이증가하며프로그램을기획하는제작자뿐만아니라광고투자자들도프로그램의시청률 This work was supported by the Ministry of Education of the Republic of Korea and the National Research Foundation of Korea (NRF-2017R1D1A1B03036078). 1 Corresponding author: Department of Statistics, Ewha Womans University, 52, Ewhayeodae-gil, Seodaemun-gu, Seoul 03760, Korea. E-mail: josong@ewha.ac.kr
810 Milim Kim, Soyeon Lim, Chohee Jang, Jongwoo Song Figure 2.1. Histograms of average ratings and the number of episodes. 과회차예측에대한연구를필요로하고있다. 드라마시청률에대한선행연구는있었으나 (Kang 등 2015), 예능프로그램을대상으로하는연구는거의이루어지지않고있으며그중에도예능프로그램이끼치는영향력에대한연구 (Lee와 Choi, 2016) 가대부분이며시청률에대한최근연구는다중회귀모형에한정되어있다 (Han, 2016). 본연구에서는다중회귀모형뿐만아니라다양한비선형모형까지이용하여시청률을보다잘예측하는모형을찾으려한다. 평균시청률분석에사용한모형은다양한변수선택법을 (stepwise, ridge, LASSO) (Tibshirani, 1996) 이용한선형회귀모형, 배깅 (Breiman, 1996), 랜덤포레스트 (Breiman, 2001), 서포트벡터머신 (James 등, 2013), 부분최소제곱회귀모형 (partial least squares; PLS), 주성분회귀 (Hastie 등 2001) 등이다. 모형비교시에는평균제곱오차의제곱근 (root mean squared error; RMSE) 을지표로사용하였다. 회차분석에서는 12회이하, 12회초과로범주화하여분류모형을만들었다. 배깅, 랜덤포레스트, 서포트벡터머신, 다항로그선형모형을사용하였으며모형비교시에는오분류율을지표로사용하였다. 모든분석은통계분석프로그램 R (R Development Core Team, 2010) 을사용하였다. 2장에서는자료에대한설명을한다음, 3장에서는평균시청률예측모형, 회차예측모형을적합해보고 4장에서는결론을내고자한다. 2. 분석자료설명 2.1. 자료수집과정본연구의대상은 2010년 1월 1일부터 2017년 5월 15일중방영한예능프로그램이다. 단, 파일럿과같은프로그램과 3회이하의프로그램, 특별편성은제외하였다. 또한 6개의방송사 (KBS, SBS, MBC, tvn, Mnet, Jtbc) 만조사하였다. 총 271개의관측치가있으며, 시청률은리서치회사 AGB 닐슨미디어리서치 (www.agbnielsen.co.kr) 에서조사된자료를이용하였고, 회차는 네이버검색 (www.naver.com) 을기준으로하였다. 설명변수들은네이버와 다음영화 (http://movie.daum.net /main/new), 구글 (www.google.com) 에서얻을수있었다. 자세한변수설명은 2.2절에서한다. 2.2. 변수설명 본연구의목적은다양한설명변수들을사용하여예능프로그램평균시청률과종영회차를예측하는것
A study on entertainment TV show ratings and the number of episodes prediction 811 Figure 2.2. Average ratings according to the rating of first broadcasting. Figure 2.3. Boxplots of average ratings and log(the number of episodes) based on broadcasting company. 이다. 평균시청률은해당프로그램의전회차평균시청률을의미하며, 시청률과회차의분포는 Figure 2.1과같이나타난다. 시청률의최대값은 27.25% 로 2007년방영된 KBS의 1박 2일시즌 1 이며, 최소값은 0.26% 로 2012년방영된 JTBC의 뷰티업 이었다. 회차에서의최대값은 529회로 2006년부터방영중인 MBC의 무한도전 이며, 최소값은 4회로 2012년방영된 MBC의 스타다이빙쇼스플래시 였다. 회차분석에서는회차가정해지지않은채로시작하는프로그램들만을사용하였다. 앞으로분석에서사용할설명변수들은다음과같으며, 설명변수와회차의관계를살펴볼때회차가오른쪽으로꼬리가긴분포이기때문에 log를취하여살펴보았다 (Figure 2.1). 2.2.1. 초반시청률예능에서시청률과회차를예측하기위해서매우중요한요인중하나가초반시청률이다. 초반의시청률에따라 SNS상에서언급되거나입소문이퍼지는정도가달라져파급력이달라지기때문에초반 1회차시청률을요인으로고려하였다. 첫회시청률과평균시청률의관계를 Figure 2.2에서살펴보았을때확실한양의상관관계가보여예측에중요한요인이될거라고기대된다. 2.2.2. 방송사과거의예능시장은지상파방송사들이주를이루고있었지만최근에는케이블채널 의예능도많은활약을하고있다. Figure 2.3 은방송국에따른평균시청률과회차를살펴본것이다.
812 Milim Kim, Soyeon Lim, Chohee Jang, Jongwoo Song Table 2.1. Frequency table of entertainment broadcasting companies tvn JTBC Mnet KBS SBS MBC 49 46 20 53 55 48 Figure 2.4. Boxplots of average ratings and log(the number of episodes) based on starting year. 지상파방송사에서평균시청률과회차가모두높게나타나며케이블간에도차이가나타나는것으로보인다. 방송사요인이시청률과회차를예측하는중요변수로사용될것으로보인다. Table 2.1을보면 Mnet은음악전문채널이라상대적으로예능프로그램의수가적은데다시청률이기록되지않은예능프로그램의수도많았기때문에데이터개수가적다. 2.2.3. 방송시작연도연도에따른예능방송의유행이변화했을수도있기때문에요인으로고려하였다. Figure 2.4를보면시작연도가최근일수록평균시청률이감소하는양상을보인다. 이는미디어의다양화로인해 TV 이외의다양한스마트기기로시청이가능해지면서, TV로시청하는경우가줄어들었기때문으로보인다. 2.2.4. 방송편성시간 TV이용이많은시간대에편성될수록평균적으로더높은시청률을보일것이라고예상되어방송시간과요일요인을설명변수에포함하였다. 평일중에서도금요일이다음날휴무와관련되어시청률이높은것을반영하기위해서 금, 주말황금시간대 (17 20시), 그외시간 으로범주화하였다. 또한 금요일 25시 와같은방송시간은실제토요일에방송하지만금요일저녁의연장선으로보는것이더타당하다고여겨 금요일 로분류하였다. Figure 2.5를보면주말황금시간대가평균시청률과회차모두높았고, 그외시간 보다는 금요일 이평균시청률과회차가더높은것을볼수있었다. 2.2.5. 예능종류예능종류에따라시청률과회차가다른특징을보일것이라고생각되어 가족 / 동물, 경연, 버라이어티, 오디션 / 서바이벌, 음식, 토크 / 개그, 기타 의 7개의범주로구분하였다 (Table 2.2). 서바이벌프로그램은 K팝스타 처럼프로그램이끝날때 1등을정하는오디션종류로, 시청률이낮아도대부분정해놓은회차는진행한다는특징을가지는범주이다. 경연은이와다르게매회 1등을정하는프로그램으로시청률이저조로인한조기종영이가능하다. Figure 2.6을보면예능종류별평균시청률의분포와 log( 회차 ) 분포를볼수있는데, 버라이어티예능이평균시청률도높고회차도긴편임을알수있다.
A study on entertainment TV show ratings and the number of episodes prediction 813 Figure 2.5. Boxplots of average ratings and log(the number of episodes) based on broadcasting time. Table 2.2. Frequency of entertainment type 가족 / 동물경연버라이어티오디션 / 서바이벌음식토크 / 개그기타 18 26 35 46 14 39 44 Figure 2.6. Boxplots of average ratings and log(the number of episodes) based on type. 2.2.6. 기사개수프로그램이시작하기전에얼마나많은관심을끌고있는지가장알기쉬운방법이기사개수이다. 따라서방송시작한달전부터첫방송후두번째방송전까지의기사개수를요인으로고려하였다. 또한, 첫방송전에시청률도예측하려하기때문에 article0라는요인으로한달전부터첫방송전까지의기사개수도변수로만들었다. 또한기사개수가시작연도와양의상관관계를보였으므로, 연도의효과를줄이고자원래값에서프로그램시작해의평균기사개수를빼서사용하였다. 2.2.7. 시즌, 이전시즌시청률대중들에게인기를얻은예능프로그램을시리즈로만들어편성하는경우가많다. 또한시즌이 2 이상이면이전시즌의시청률이프로그램의시청률과회차에많은영향을끼치기때문에이전시즌시청률도설명변수에적용하였다. 다만, 해당프로그램의시즌이 1이면, 이전시즌시청률은 0으로처리하였다.
814 Milim Kim, Soyeon Lim, Chohee Jang, Jongwoo Song Figure 2.7. log(the number of episodes) vs. predicted values of average ratings. 2.2.8. 관람가프로그램별로방송시청연령이다르고, 시청연령에따라프로그램의특징이달라지므로설명변수로고려하였다. 전체관람가및 7세이상, 12세이상, 15세이상, 19세이상 으로범주화하였다. 대부분의프로그램은 15세이상 (62%) 의예능이었으며, 전체관람가및 7세이상예능 (5%) 이가장적었다. 2.2.9. 방청, 시청자참여여부시청자로하여금방송에직접참여하게함으로써프로그램에대한 관심과흥미를높일수있다. 따라서방청여부와시청자참여여부가반응변수에영향을미칠것이라고 예상하였다. 2.2.10. PD 전작예능회차 PD는프로그램을기획하고관리하는사람으로, 이전프로그램회차가차기작에영향을미칠수있다. 예를들어주로회차를정해놓고시작하는프로그램을기획하는 PD는차기작역시단기프로그램인경우가많다. 반면이전에장수프로그램을기획한 PD의경우대중들이차기작에대한기대가높기때문에평균시청률이높을거라예상된다. 2.2.11. 사회자유무, 대표자및사회자이전방송프로그램수예능에서는사회자가매우중요한역할을한다. 어떤사회자가출연하는지는그프로그램의평균시청률과회차는물론제작비에도크게영향을미치기때문이다. 사회자가있는지없는지에따라범주형변수를만들었고, 그에따라사회자또는대표자 1명을선택하였다. 대표자의경우는프로그램시작이전최근 6개월간기사개수가가장많은사람으로선택하였다. 이전방송프로그램수는네이버인물검색을사용하여 방송 카테고리의프로그램수로하였다. 2.2.12. 파생변수예측력을좀더높이기위해설명변수들을이용하여새로운파생변수들을생성하였다. 다음은파생변수에대한설명이다. 사회자및대표자유형사회자와대표자를각각 1명씩선택하여서그인물의주요직업을분류하였다. 가수, 배우, 예능, 기타 4가지로범주화하였다. 가수로데뷔했어도가수활동보다예능활동에중점을둔인물이면
A study on entertainment TV show ratings and the number of episodes prediction 815 Table 2.3. Description of variables Variable Description Type Input varibles rate1 첫회시청률 year 시작연도 PD1 PD 전작예능회차 MC1 대표자및사회자이전방송프로그램수 newarticle 프로그램시작한달전부터 2회방송전까지의기사수 ( 시작연도기준으로 centering) newarticle0 프로그램시작한달전부터첫방송전까지의기사수 ( 시작연도기준으로 centering) season 시즌 prev 이전시즌시청률 rate.hat 평균시청률예측치 ( 회차분석에서만사용 ) com 방송사 (KBS, SBS, MBC, JTBC, Mnet, tvn) time 방송시간 ( 금요일, 주말 17시 20시, 그외 ) type 예능종류 ( 가족 / 동물, 경연, 버라이어티, 오디션 / 서바이벌, 음식, 토크 / 개그, 기타 ) age 관람가 ( 전체관람가및 7세이상, 12세이상, 15세이상, 19세이상 ) par1 방청여부 par2 시청자참여여부 starpd 유명PD 여부 Response variables Numerical Categorical y1 회차 ( 12 회, 13 회 ) Categorical y2 평균시청률 Numerical 예능으로분류하였다. 유명PD 대중들이알만큼유명한 PD가제작한프로그램의경우, 해당예능프로그램에대한관심이높아지게된다. 이를반영하기위해 PD의유명여부를변수로생성하였다. 2010년부터 2017년 5월 15일까지의 PD 기사개수를기준으로 10,000개이상인경우유명PD라고정의하였다. 평균시청률예측치회차예측을하고자할때, 평균시청률이많은영향을줄것이라고예상되어평균시청률모형을이용하여예측치를만들어설명변수로고려하였다. 평균시청률이높을수록회차가길어질것이라고예상한바와같이 Figure 2.7을보면회차가클수록시청률이높은경향이있다는것을확인할수있다. 본논문에사용된모든변수들을 Table 2.3에정리해놓았다. 3. 분석결과 3.1. 평균시청률분석결과이번장에서는통계적기법들을이용하여예능프로그램의평균시청률을예측하는모형을구축하고평균시청률에영향을미치는변수가무엇인지파악하고자한다. 평균시청률의분포는 Figure 2.1에서보듯오른쪽으로긴분포이므로모형구축시반응변수에로그를취하였다. 3.1.1절에서는예능프로그
816 Milim Kim, Soyeon Lim, Chohee Jang, Jongwoo Song Table 3.1. The result of cross validation error of each model (Model1) CV error Linear regression 3.0485 (0.1825) Linear regression with stepwise 2.9847 (0.1755) Ridge regression 2.9830 (0.1801) LASSO regression 2.9941 (0.1809) Partial least squares 3.0293 (0.1821) Principal component regression 3.0442 (0.1908) Bagging 2.5584 (0.1505) Random forest 2.5189 (0.1511) SVM - Linear 3.1345 (0.2089) SVM - Radial 2.7194 (0.1604) SVM - Polynomial 3.1681 (0.2191) 램이시작하기전에평균시청률을예측하는모형 (Model1) 을적합해보고 3.1.2절에서는프로그램 1회방영후평균시청률을예측해본다 (Model2). 적합된모형들의예측력을비교하기위해 10-fold 교차평가방법을 1,000번반복하여평균교차오차를계산하였다. 앞으로의분석은전체데이터를이용하여구한 10-fold 교차오차의평균값이최소인모형을최종모형으로선정하고, 그모형에서반응변수에영향을미치는중요변수를도출하도록하겠다. 3.1.1. 예능프로그램의시작전평균시청률예측모형 (Model1) 프로그램시작전평균시청률을예측하기위하여 newarticle( 프로그램시작한달전부터 2회방송일전날까지기사개수를시작연도에따라중심화한변수 ) 과 1회시청률을제외하고모든변수를사용하였다. 시청률을예측하기위해선형회귀분석방법으로는선형회귀모형, Ridge, LASSO (Tibshirani, 1996), 부분최소제곱, 주성분회귀 (principal component regression; PCR) 방법을사용하였고비선형회귀분석방법으로는배깅, 랜덤포레스트, 서포트벡터머신 (support vector machine; SVM) 을사용하였다. Table 3.1은각모형에서교차오차평균의결과를나타내며, 랜덤포레스트모형이오차가 2.5189% 로가장좋은예측력을보인다. 최적모형으로선택된랜덤포레스트모형에서가장중요도가높은변수들을선택하여각변수가변화함에따라평균시청률예측치에어떻게영향을미치는지살펴보고자한다. Figure 3.1(a) (f) plot은특정변수를제외한다른변수들의값은일정수준으로고정하고특정변수의값을변화시켜평균시청률예측값의변화를관측한것이다. 랜덤포레스트모형에서 com( 방송사 ) 이가장중요한변수로선택되었으며 prev( 이전시즌의시청률 ), year( 시작연도 ), newarticle0, type, starpd( 유명 PD 여부 ) 또한중요한변수로나타났다. Figrue 3.1(a) com을보면공중파프로그램 (SBS, MBC, KBS) 의평균시청률이케이블채널프로그램보다높은것으로나타났다. 공중파프로그램중에서는 MBC가평균시청률이높고케이블채널프로그램중에서는 Mnet이높음을알수있다. Mnet의경우대중들에게인기를끈오디션프로그램이많이편성하였기때문으로보인다. Figure 3.1(b) prev의경우이전시즌의시청률이높을수록평균시청률이증가하다가 10% 이상이되면그차이가미미하다. Figure 3.1(c) 의 year의경우최근에시작된프로그램일수록평균시청률이전반적으로감소하는추세를보이며특히 2011년과 2012년사이에평균시청률이가파르게감소하는것을볼수있다. 이는 2011년부터스마트폰시장의활성화로 TV 시청이줄어들었기때문으로보인다. newarticle0 변수의그래프를보면프로그램시작연도의평균기사개수보다적을경우기사개수가증가할수록시청률이급격히증가하지만평균기사개수보다 2,000개이상많은프
A study on entertainment TV show ratings and the number of episodes prediction 817 (a) com (b) prev (c) year (d) newarticle0 (e) type (f) starpd Figure 3.1. log(average ratings) according to com, prev, year, newarticle0, type and starpd. 로그램들의경우기사개수에따른평균시청률차이가거의없는것으로나타났다. 따라서프로그램기획시그해평균보다 2,000건넘게기사를낸경우홍보비용에비해시청률증가효과가적게나타날수있다. 또한프로그램의유형 (type) 이버라이어티일때, 유명 PD가기획한프로그램일때그렇지않은프로그램보다평균시청률이높다. 선형회귀모형중 Stepwise Regression, Ridge 회귀모형이랜덤포레스트모형과예측력이비슷한것으로나타났다. Table 3.2는선형회귀모형중예측력이가장좋은 Ridge 회귀모형을통해추정한변수들의회귀계수와표준오차, p-value를정리한표이다.
818 Milim Kim, Soyeon Lim, Chohee Jang, Jongwoo Song Table 3.2. The table of coefficients of ridge regression model 변수회귀계수표준오차 p-value commnet 0.044674 0.054661 0.41376 comjtbc 0.027342 0.044653 0.54032 comkbs 0.330353 0.046764 1.62E 12 *** comsbs 0.431372 0.045665 <2.00E 16 *** commbc 0.397419 0.045390 <2.00E 16 *** year 0.182920 0.042699 1.84E 05 *** time2 0.051061 0.040716 0.20982 time3 0.070243 0.046236 0.12870 type경연 0.040540 0.047317 0.39153 type기타 0.109820 0.045871 0.01666 * type버라이어티 0.017060 0.046500 0.71372 type오디션 / 서바이벌 0.120110 0.054655 0.02798 * type음식 0.046841 0.039643 0.23737 type토크 / 개그 0.076900 0.047497 0.10543 season 0.098107 0.050290 0.05108 prev 0.135836 0.043666 0.00187 ** age2 0.092391 0.056691 0.10316 age3 0.083687 0.058377 0.15170 age4 0.050706 0.060573 0.40254 par11 0.011992 0.049281 0.80775 par21 0.135338 0.046862 0.00388 ** PD1 0.042995 0.036160 0.23444 MC1 0.074990 0.047627 0.11538 ismc1 0.032700 0.042642 0.44315 REPtype기타 0.004772 0.043156 0.91195 REPtype배우 0.046145 0.048565 0.34202 REPtype예능 0.092720 0.058527 0.11314 starpd1 0.204607 0.038948 1.49E 07 *** newarticle0 0.047521 0.037050 0.19963 Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1. Table 3.2의변수중유의수준 0.05 하에서유의한변수들에대해서만설명하겠다. 공중파채널프로그램의평균시청률이 tvn 채널에비해높은것으로나타났다. 시즌이거듭될수록, 이전시즌의시청률이클수록평균시청률이증가한다. 추가적으로시청자가참여하는프로그램일수록, 유명 PD일수록평균시청률이증가하는것으로나타났다. 이와는반대로최근시작된프로그램일수록평균시청률이낮아진다. 또한프로그램유형이오디션 / 서바이벌이거나기타일때, 가족 / 동물일때보다평균시청률이낮아진다. 이는앞서 Figure 3.1에서확인한결과와일치한다. 3.1.2. 예능프로그램의 1회방영후평균시청률예측모형 (Model2) 이번절에서는프로그램의 1회방영후평균시청률을예측하고자한다. Model2에서는 Model1에서포함된변수에서 newarticle0를제외하고 1회시청률, newarticle이포함되었다. 3.1.1절에서사용된방법론 11가지를그대로적용하여모형을구축하였다.
A study on entertainment TV show ratings and the number of episodes prediction 819 Table 3.3. The result of cross validation error of each model (Model2) CV error Linear regression 2.5724 (0.2275) Linear regression with stepwise 2.5218 (0.2307) Ridge regression 2.4018 (0.1808) LASSO regression 2.4593 (0.2054) Partial least squares 2.4963 (0.2092) Principal component regression 2.6984 (0.1877) Bagging 1.7590 (0.1174) Random forest 1.7332 (0.1176) SVM - Linear 2.5813 (0.2348) SVM - Radial 2.1311 (0.1615) SVM - Polynomial 2.5812 (0.2351) Table 3.3을보면 1회시청률을알면모든방법론에서평균시청률예측이개선된다는사실을알수있다. 특히배깅모형과랜덤포레스트모형의교차오차가 1% 대로확인되어매우정확하게추정되었다. Model1의 Figure 3.1과같이 Model2의랜덤포레스트모형에서가장중요도가높은세변수 (rate1, com, type) 에대한그래프를그려보았다. rate1의경우, 다른변수에비해월등히중요한변수로나타났다. 1회시청률이클수록평균시청률이증가하다가 1회시청률이 10% 이상일때는증가량에큰차이가없는것으로나타났다. 그리고공영방송사일수록, 프로그램유형이음식일수록평균시청률이증가한다. 다음으로모델설명이쉬운선형회귀모형을살펴보겠다. Table 3.4는선형회귀모형중예측력이가장좋은 Ridge 회귀모형의회귀계수와표준오차, p-value를정리한표이다. Table 3.4의변수중유의수준 0.05 하에서유의한변수들에대해서만설명하겠다. 공중파또는 JTBC 채널프로그램일때 tvn에비해평균시청률이높은것으로나타났다. 또한 Model1의결과와마찬가지로시즌이거듭될수록, 시청자가참여하는프로그램일수록, 유명 PD일수록평균시청률이증가하는것으로나타났다. 그리고시작연도가최근일수록, type이기타이거나토크 / 개그일때평균시청률이낮아지며, 이전시즌의시청률이증가할때, 평균시청률이감소하는것으로나타났다. 이는 Model1과다른결과로 Model2에이전시즌의시청률과상관이높으면서 (55%) 반응변수에영향을크게미치는 1회시청률이포함됨으로써반대의결과가나온것으로추측된다. 3.2. 회차분석결과이번장에서는앞서적합한평균시청률예측모형을이용해새로운설명변수를만든후다양한통계적방법들을이용하여예능프로그램이 3개월이상지속될지를예측하는분류모형을적합하고자한다. 또한어떤변수가예능프로그램의수명을결정하는데에영향을미치는지알아볼것이다. y1( 회차 ) 변수를 12회이하 /12회초과로나누어 0과 1의값을매긴다음이를 group이라는변수로지정하여반응변수로사용하였다. 회차변수의경우 12회의빈도수가가장높았는데, 이를통해방송사입장에서프로그램의인기등을척도로방영지속여부를결정하는시기가 12회일것이라고예상하였다. 따라서 12회초과방영되는프로그램은장기프로그램으로발전할가능성이있다고판단하였다. 오디션과같이회차가정해져있는포맷의프로그램들은데이터에서제외한후, 12회초과방영된프로그램은 112개이고 12회이하방영된프로그램은 53개이다. 분석에사용한방법론은로지스틱회귀모형, 부분최소제곱, 주성분회귀, Ridge, LASSO, 랜덤포레스트, 서포트벡터머신이다. 이중회귀모형의경우수치형반응
820 Milim Kim, Soyeon Lim, Chohee Jang, Jongwoo Song Table 3.4. The table of coefficients of ridge regression model 변수회귀계수표준오차 p-value rate1 0.554616 0.053109 <2E 16 *** commnet 0.080938 0.055755 0.14660 comjtbc 0.112006 0.043610 0.01022 * comkbs 0.276867 0.049549 2.30E 8 *** comsbs 0.346090 0.049109 1.82E 12 *** commbc 0.335228 0.047133 1.14E 12 *** year 0.067580 0.040279 0.09338. time2 0.015834 0.035847 0.65869 time3 0.019442 0.041662 0.64075 type경연 0.027530 0.051162 0.59053 type기타 0.104890 0.047999 0.02887 * type버라이어티 0.047420 0.048021 0.32339 type오디션 / 서바이벌 0.058760 0.062624 0.34808 type음식 0.053484 0.037956 0.15880 type토크 / 개그 0.102790 0.051133 0.04440 * season 0.111667 0.047665 0.01914 * prev 0.118500 0.045092 0.00859 ** age2 0.040149 0.063244 0.52554 age3 0.025898 0.067334 0.70052 age4 0.052422 0.068330 0.44297 par11 0.005483 0.046020 0.90516 par21 0.095748 0.043988 0.02950 * PD1 0.020493 0.030530 0.50207 MC1 0.007399 0.045510 0.87085 ismc1 0.052070 0.038763 0.17915 REPtype기타 0.045780 0.040814 0.26200 REPtype배우 0.073105 0.049413 0.13902 REPtype예능 0.056597 0.063285 0.37115 starpd1 0.141475 0.034642 4.43E 5 *** newarticle 0.000850 0.032896 0.97935 Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1. 변수로수정한후 (1 = 12회이하, 2 = 12회초과 ) 모형을적합하고그결과를이용해각그룹 (0 = 12회이하, 1 = 12회초과 ) 으로분류하였다. 각모형간성능을비교하기위하여 10-fold 교차평가방법을사용하여모형별로평균오분류율을계산하는과정을 1,000번반복하였다. 모형들중오분류율이가장작은모형을최적모형으로선택한다음최적모형에서중요변수를살펴보려한다. 3.2.1. 예능프로그램의회차예측모형앞서 3.1.2절에서적합한최적평균시청률예측모형을이용하여새로운파생변수 rate.hat( 평균시청률예측치 ) 를생성한다음, 이를설명변수로포함시켜각모형에적합하였다. 최적평균시청률예측모형은프로그램이 1회방영후데이터를이용한모형이기때문에회차예측모형에서도역시 newarticle( 방영한달전부터 2회방영전날까지의기사개수를연도별평균으로중심화한값 ) 변수가설명변수에포함된다. Table 3.5를살펴보면랜덤포레스트모형의 CV error가가장낮게나타났다. 따라서랜덤포레스트모
A study on entertainment TV show ratings and the number of episodes prediction 821 Table 3.5. Misclassification rate of each model CV error Logistic regression 0.2712 (0.0172) Logistic regression with stepwise 0.2724 (0.0183) Ridge 0.2281 (0.0129) LASSO 0.2418 (0.0129) Partial least squares 0.3223 (0.0049) Principal component regression 0.2362 (0.0158) Bagging 0.2383 (0.0137) Random forest 0.2198 (0.0103) SVM - Linear 0.2443 (0.0220) SVM - Radial 0.2384 (0.0180) SVM - Polynomial 0.2401 (0.0140) (a) rate. hat (b) year (c) type (d) com Figure 3.2. P (Y = 1 X) according to the value of important variables. 형을최적모형으로선정하였다. 이번에는중요변수와그들이반응변수에미치는영향을알아보자. 랜덤포레스트모형에서중요변수로선택된변수는 rate.hat( 평균시청률예측치 ) 와 com( 방송사 ), year( 시작연도 ), type( 프로그램유형 ) 이다. 그중에서도 rate.hat 변수의중요도가월등히높았다. 네변수의값에따라반응변수가어떻게변하는지알아보고자한다.
822 Milim Kim, Soyeon Lim, Chohee Jang, Jongwoo Song Figure 3.3. ROC curve of random forest model. Figure 3.2는중요변수들의값에따라그룹 1(12회초과 ) 로분류될확률을보여준다. 평균시청률예측치가증가할수록 12회초과그룹으로갈확률이증가하는데, 약 1.8% 3.4% 까지는그값의변화가없다가, 다시약 4% 까지는증가한다. 이후 4% 이상인경우에는증가량이미미한것으로나타났다. 이는평균시청률이높을수록프로그램이더오래방영된다는의미이다. 또한 2010년이후로는해가갈수록 12회초과그룹으로분류될확률이낮아지는데, 이시기에회차가 30회이하인프로그램이전체중 70% 이상을차지하기때문으로보인다. 프로그램유형의경우에는경연, 가족 / 동물의경우가 12회초과그룹으로분류될확률이상대적으로크다. 방송사의경우공영사의프로그램이케이블채널의프로그램보다더오래방영될것이라는것을알수있다. 이는앞서 2장에서살펴본내용과일치한다. Figure 3.3은데이터를이용하여랜덤포레스트모형의 (OOB estimates를이용한 ) ROC 곡선을그린것이다. AUC 값이 0.91로매우높은것을보아랜덤포레스트모형의성능이매우좋은것을알수있다. 실제로 12회초과그룹에속하지만 12회이하그룹으로예측된데이터들의특징을살펴보자면, 우선방송국의경우대부분이케이블채널프로그램이었다. 또한, 평균시청률예측치가매우낮아대부분이 2% 가채안되었다. 반대로 12회이하그룹이지만 12회초과그룹으로예측된데이터들의특징을살펴보면방송국의경우공영방송사가많았고, 예능유형의경우기타와토크 / 개그가많았다. 이러한결과는앞서 Figure 3.2에서확인한결과와일치한다. 12회이하그룹으로오분류된데이터들중에는출연진이많거나유명한 MC가출연하는등제작비가많이들었을것이라고예상되는데이터가매우많았다. 방송사입장에서는투자대비성과가좋지않은프로그램을계속이어가기엔부담이클것이다. 이렇듯프로그램의회차를예측하는데있어서제작비는매우큰영향력을가지는데, 그에대한데이터는구할수없어모형에포함시키지못하였다. 제작비에대한정보가있다면모형의예측력은더좋아질것으로예상된다.
A study on entertainment TV show ratings and the number of episodes prediction 823 4. 결론본연구에서는선형모형과비선형모형, 다양한데이터마이닝기법을활용하여평균시청률과대략적인프로그램회차를예측하는모형을구축하고그들의성능을비교해보았다. 시청률예측모형중에서는배깅, 랜덤포레스트모형의성능이좋았는데, 그중에서도첫방송후적합한랜덤포레스트모형의 RMSE 값이 1.733% 로가장낮았다. 랜덤포레스트모형들에서공통적으로중요변수로선택된변수들은방송국과프로그램유형이었다. 첫회시청률과이전시즌시청률, 연도, 프로그램기사개수, 유명 PD 여부도중요도가높은것으로나타났다. 이러한변수들은 2장에서살펴보았을때시청률과뚜렷한관계를보였던변수들이다. 회차예측모형중에서는랜덤포레스트모형의교차평가오분류율이 0.2198로가장낮게나타났다. 회차를잘예측하기위해서는평균시청률예측치, 시작연도, 예능유형과방송국변수의역할이중요하다는사실을알수있었다. 예능시장이시시각각변하면서생기는데이터의변화를추적하기위해서는새로운경향이나타난뒤일정시간이지난후경향성을포함하는데이터가생성되었을때모형을적합하는것이합리적일것이다. 또한프로그램의수명을결정하는데중요한역할을하는제작비정보도포함된다면모형의예측력을향상시킬수있을것이다. 본연구를수행하면서데이터테이블을완성시키는데시간이오래걸리는어려움이있었다. 방송사별로종영된프로그램정보를제공하긴했지만, 각프로그램페이지에서제공하지않는정보들이있어이를포털사이트등에서알아내야했던번거로움이있었다. 또한본연구는프로그램회차를정확히예측하지못했다는한계점이있다. 단지 3개월이상방영여부를분류하는데그치지않고프로그램의정확한수명을예측할수있었다면상황에따라다양한방안을제시할수있었을것이다. 이를보완하기위해서는예능프로그램회차와관련이높은제작비정보가필요할것이다. 또한본논문에서는 2017년 5월기준으로종영한프로그램만을다루었지만생존분석모형을이용한다면현재방영중인프로그램도포함해서분석이가능할것이다. 본논문에서프로그램평균시청률의오차가 1% 대로매우낮았으며프로그램회차에서도오분류율이 20% 전후로매우좋은예측력을보였다. 때문에프로그램을제작하는입장에서프로그램의평균시청률과회차예측이시청자들을사로잡을수있는프로그램기획에도움이될것이라는데에본연구의의의가있을것이다. 뿐만아니라광고주나방송사로하여금예산을효율적으로분배할수있도록도울것이다. References Breiman, L. (1996). Bagging predictors, Machine Learning, 24, 123 140. Breiman, L. (2001). Random forests, Machine Learning, 45, 5 32. Han, B. K. (2016). An explorative analysis of the factors affecting entertainment TV show ratings: focused on channel, program schedule and production factors. Hastie, T., Tibshirani, R., and Friedman, J. (2001). The Elements of Statistical Learning; Data Mining, Inference and Prediction, Springer, New York. James, G., Witten, D., Hastie, T. and Tibshirani, R. (2013). An Introduction to statistical Learning, Springer, New York, USA. Kang, S., Jeon, H., Kim, J., and Song, J. (2015). A study on domestic drama rating prediction, The Korean Journal of Applied Statistics, 28, 933 949.
824 Milim Kim, Soyeon Lim, Chohee Jang, Jongwoo Song Lee, H. E. and Choi, H. S. (2016). A study on the effect of entertainment show on the tourism. In Korea Contents Association 2016 Spring Conference, 215 216. R Development Core Team (2010). R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria, ISBN 3-900051-07-0. http://www.r-project.org. Tibshirani, R. (1996). Regression shrinkage and selection via the lasso, Journal of the Royal Statistical Society B, 58, 267 288.
A study on entertainment TV show ratings and the number of episodes prediction 825 국내예능시청률과회차예측및영향요인분석 김미림 a 임소연 a 장초희 a 송종우 a,1 a 이화여자대학교통계학과 (2017 년 8 월 14 일접수, 2017 년 9 월 29 일수정, 2017 년 10 월 12 일채택 ) 요약오디션, 육아, 버라이어티등다양한예능프로그램들의수가점점증가하고있다. 특히종합편성채널이개국한이후에예능시장경쟁이심화되고있다. 그에따라시청률과회차에대한연구의필요성이대두되고있다. 본연구의목적은예능프로그램시청률과회차의예측모형을제시하고주요요인을살펴보는데있다. 모형적합시선형회귀모형, 로지스틱회귀모형, LASSO 회귀모형, 랜덤포레스트, 그래디언트부스팅, 서포트벡터머신등과같은다양한분석방법을고려하였다. 예능시청률예측모형에서는첫회가방영되기전과방영된후두가지모형을적합하였고, 회차예측모형에서는예능시청률예측모형의예측치를추가변수로생성하여모형을적합하였다. 그결과첫회방영전예능시청률예측에서는방송사, 이전시즌시청률, 시작연도, 기사수가큰영향을주는것으로나타났다. 첫회방영후예능시청률예측에서는첫회시청률, 방송사, 예능유형이중요한변수로나타났으며, 두모형모두랜덤포레스트모형에서가장좋은결과를보였다. 예능회차예측에서는평균시청률예측치, 시작연도, 예능유형, 방송국등이중요한변수로나타났다. 주요용어 : 예능프로그램, 시청률, 회차, 선형회귀모형, 로지스틱회귀모형, Ridge, LASSO, 서포트벡 터머신, 랜덤포레스트, 그래디언트부스팅, 중요변수 이논문또는저서는 2017 년대한민국교육부와한국연구재단의지원을받아수행된연구임 (NRF- 2017R1D1A1B03036078). 1 교신저자 : (03760) 서울특별시서대문구이화여대길 52, 이화여자대학교통계학과. E-mail: josong@ewha.ac.kr