Journal of the Korean Data & Information Science Society 06, 7(), 65 66 http://dx.doi.org/0.765/jkdi.06.7..65 한국데이터정보과학회지 한국프로야구의승률추정 김순귀 이영훈 강릉원주대학교정보통계학과 접수 06 년 월 일, 수정 06 년 월 일, 게재확정 06 년 월 일 요약 본연구에서는한국프로야구의승률을추정하기위하여야구경기의피타고라스정리라고불리우는방법을사용하였고, 이방법을확장한일반화피타고라스정리도이용하면서일반화피타고라스정리의최적지수값을찾아보았다. 그리고다른추정방법들인로지스틱모형과프로빗모형의사용을제안하였다. 평균제곱오차의제곱근 (RMSE) 을판정기준으로, 피타고라스정리와제안된모형들의효율성을서로비교하였다. 사용한자료는 98 년부터 05 년 7 월까지의모든한국프로야구기록이며, 제안한방법은일반화피타고라스정리를이용한승률추정방법보다평균제곱오차의관점에서다소나아졌음을보여준다. 주요용어 : 로지스틱모형, 일반화피타고라스정리, 집락분석, 프로빗모형.. 서론 야구경기에서득점 (runs scored; rs) 과실점 (runs allowed; ra) 은기본적으로매경기 7 번의기회 를통하여공격력과수비력, 에러등경기중발생하는총체적인결과의산물이다. 야구팬들은투수의 방어율이나타자의타율, 출루율등의지표뿐아니라이번시즌에는어느팀이우승할지에대하여많 은관심을가진다. 이에관한논문으로, Cho 와 Cho (005), Lee 와 Kim (006) 등이있다. 이에야구의승률을추정하기위하여, James (98) 가승률 w 는득점 (rs) 의제곱을득점 (rs) 의제곱 과실점 (ra) 의제곱의합으로나눈 rs ŵ = (.) rs + ra 로추정할수있음을제안하였고, 이를야구경기의피타고라스정리라고불렀다 (James, 98). 그는실제승률과공식에의한승률추정값의차이를보정하기위하여, 연구를통해식 (.) 을일반 화한일반화피타고라스정리 rs γ ŵ = rs γ + ra γ 도제안하였다. 이때지수 γ 는 RMSE 등의판정기준을최소로하는값으로결정되는데, 미국의메이 저리그인경우지수 γ 를 에서.8 으로낮추어승률을추정하는것이바람직하다고설명하였다. (557) 강원도강릉시죽헌길 7 ( 지변동 ), 강릉원주대학교정보통계학과, 교수. 교신저자 : (557) 강원도강릉시죽헌길 7 ( 지변동 ), 강릉원주대학교정보통계학과, 교수. E-mail: yhlee@gwnu.ac.kr
65 Soon-Kwi Kim Young-Hoon Lee 한국프로야구의매시즌별팀당경기수가동일하지않으므로, 본연구에서는시즌별팀당경기수 G로나눈시즌별경기당득점수 rsg와경기당실점수 rag를변수 rs와 ra 대신사용하였다. 절에서승률을정의하고,.절에서 rsg rag와승률간의상관분석및 rsg/rag와승률간의상관분석을하였다..절에서승률이서로다른집락을식별하기위하여, 변수 rsg와 rag를표준화하여집락분석을하였다..절에서일반화피타고라스정리를이용했을때의최적지수값을계산하였다..절에서변수 rsg와 rag를이용하여, 로지스틱모형과프로빗모형을가정하여승률을추정하였다..5절에서는제시된여러모형에서의 RMSE를비교하였다. 절에서는분석결과를바탕으로결론을도출하였다.. 승률의정의 한국야구위원회 (KBO) 의승률계산법은다음과같다. Table. KBO system of measuring winning rates year KBO system of measuring winning rates 98 986 (W+T*0.5)/G 987 997 W/(W+L). Ties were excluded 998 00 W. Winning rates were disregarded 00 00 W/(W+L). Ties were excluded 005 007 W/(W+L). Ties were excluded 008 W/G. Ties were abolished 009 00 W/G. Ties were reintroduced. tie=loss 0 now W/(W+L). Ties were excluded (W : number of wins, L : number of losses, T : number of ties, G : total number of games) KBO 승률계산법에의한승률계산이연도마다조금씩차이가있다. 따라서저자들은 0년부터현재까지한국프로야구승률계산법에서정의한 w = W W + L 를사용하기로한다. 여기에서 W는매시즌승리한경기수, L은매시즌패배한경기수를각각나타낸다. 본연구에서는제안될모형들의효율성을서로비교하기위하여, 일반적으로많이사용하는평균제곱오차의제곱근 (root mean square error; RMSE) N (w i ŵ i) i= RMSE = N 을사용하는데, 여기에서 w i 는한국프로야구승률계산법에서정의한 i번째팀의승률을, ŵ i 는피타고라스정리또는제안한모형을이용한승률의추정값, N은총게임수를나타낸다. RMSE가가장작은것이제일좋은추정량이라할수있다.. 한국프로야구자료의분석한국프로야구원년인 98년부터 0년까지의시즌별각팀에대한자료가 Table.과같으므로, 따라서총 N = 5 팀이다. 05년개막전부터 05년 7월 일까지의자료 n = 0개팀은검정용자료로사용한다.
The estimation of winning rate in Korean professional baseball league 655 Table. Data of teams and games year number of teams of the season G : number of games per team 98 985 6 80 0 986 990 7 08 0 99 0 8 6 0 0 9 8 05 now 0 8 본연구에서는변수 rsg와 rag를이용하여승률을추정하고자한다. 먼저승률과변수 rsg rag (rsg와 rag의차이 ), rsg/rag (rsg와 rag의비율 ) 사이의상관관계를조사하고, 변수 rsg와 rag를이용한집락분석을실시하여어떤집락이승률이좋은지분석할것이다. 다음에 James (98) 가제안한피타고라스정리와일반화피타고라스정리를이용하여승률을추정하고, 마지막으로로지스틱모형과프로빗모형을각각적합시켜 James가제시한승률추정법과비교하고자한다. 사실이논문에서다루는자료의구조는 iid는아니지만, 자료의수가 N = 5으로그리작은편은아니므로 iid를가정하여기존분석방법을사용하였다... 상관분석 변수 rsg 와 rag 의차이인 rsg rag 와한국프로야구승률계산법에서정의한승률간의상관분석을한 결과와산점도가각각 Table. 와 Figure. 에주어졌다. ( 번째관측값을이상값으로식별하여, 상 관분석의경우에한하여제거하였다.) 참고로변수 rsg/rag 와승률간의상관분석을한결과와산점도 가각각 Table. 와 Figure. 에있다. Table. Correlation coefficients of winning rate and rsg rag & rsg/rag winning rate rsg rag rsg/rag Pearson correlation coefficient 0.9 0.9 p value <0.00 <0.00 w....5.6.7 - - 0 rsra Figure. Scatter plot of winning rate & rsg rag
656 Soon-Kwi Kim Young-Hoon Lee w....5.6.7.6.8...6 rsrar Figure. Scatter plot of winning rate & rsg/rag 위결과에의하면 rsg rag 와승률간의상관계수의값은 r=0.9 (p < 0.00) 으로, rsg rag 의값이 커질수록승률이높아지는양의상관관계를보였다. 마찬가지로 rsg/rag 와승률간의상관계수의값은 r=0.9 (p < 0.00) 으로, rsg/rag 의값이커질수록승률이높아지는양의상관관계가나타났다... 집락분석 승률이서로다른집락을식별하기위하여, 변수 rsg 와 rag 를표준화하여집락분석을하였다. 계층적 집락분석중에서도집락내거리의오차제곱합을최소로하는 Ward 의방법을선택하였고, 집락의수는 개로하였다 (Kim 과 Jhun, 99 ; Huh, 000). 결과를보여주는 dendrogram 과 Table. 의 cluster history 에의하면, R 이급격히감소하는지점인집락의수를 또는 6 으로함이타당한듯하지만, 그 절충안으로집락의수를 개로하여해석하기쉽게하였고또한 개의집락에서의승률에대한 F - 검정 이유의한결과를얻었기때문이다. 개의집락을가지는집락분석을한결과가 Table. 에, 개의집 락을나타내는그래프가 Figure. 에있다. Table. Cluster History Number of Clusters Clusters Joined Freq Semipartial R-Square R-Square Tie 0 CL CL5 7 0.08.85 9 CL5 CL 50 0.0.8 8 CL6 8 0.0.8 7 CL CL 65 0.05.786 6 CL7 CL8 6 0.08.758 5 CL9 CL 78 0.0667.69 CL5 CL0 95 0.070.6 CL CL6 9 0.077.5 CL CL7 58 0.558.88 CL CL 5 0.879.000 Table. Cluster analysis cluster cluster cluster cluster mean of rsg.956 5.6.6 5.059 mean of rag.75 5.0.807.89 number of data in cluster 65 95 6
The estimation of winning rate in Korean professional baseball league 657 rsg 5 6 7 0 6 8 rag rsg rsg Figure. Scatter plot of rsg & rag (The natural numbers mean clusters.) 위결과에의하면집락 가승률이가장높은집단으로, 역시 rsg 의값이평균보다큰값을가지고 rag 의값은매우작았다. 집락 은승률이가장낮은집단으로, 예상한대로 rsg 의값이제일작았고반 면에 rag 는비교적큰값을가졌다. 흥미있는결과로집락 와집락 을비교하면승률이비슷할것으 로예상되었지만, 예상과달리집락 의승률이집락 의승률보다 0.0 정도높게나왔다. 이사실은 다음을의미한다. 팀이승리하기위하여는, 득점을적게하더라도실점을최소화하여야함을강력하게 암시하고있다. 이는득점을많이하는것보다는실점을적게하는것이승리의요인이됨을의미한다. 집락별승률을비교한분산분석의결과가 Table.5 에있다. Table.5 Comparison of winning rates of clusters cluster mean standard error test (Bonferroni & Scheffe) 0.7 0.0080 0.99 0.0085 0.5 0.0065 > > > 0.6 0.0070 F = 67.5, p < 0.00 분산분석결과 p < 0.00 로집락간의유의한차이를보여주었고, 사후분석을한결과변수 rsg 와 rag 의값이큰집락보다상대적으로작은집락의승률이더높음을알수있었다. 즉공격력이좋은팀 보다는투수력과수비력을겸비하여실점을적게하는팀의승률이더높음을확인할수있었다.
658 Soon-Kwi Kim Young-Hoon Lee.. 피타고라스정리일반화피타고라스정리를이용한최적지수값은.7 정도로계산되었는데 (N=5 팀의자료를이용 ), 이는미국메이저리그인경우총득점과총실점의지수값.8에비해다소낮은값으로한국프로야구의승률을추정할수있다는의미이다 (Lee, 05). 참고로 98년부터 005년까지의한국프로야구기록을이용한최적지수값은.87, RMSE는 0.0095 (.095%) 로계산되었다 (Lee, 0 ; Lee와 Kim, 006)... 로지스틱모형과프로빗모형 변수 rsg 와 rag 를이용하여, 로지스틱모형을가정하여추정한결과는다음과같다. exp(0.05 + 0.78rsg 0.88rag) ŵ = + exp(0.05 + 0.78rsg 0.88rag) 여기에서 ŵ 는승률의추정값을나타낸다. 이때적합한모형의카이제곱값 χ () ( 독립변수의수 = 이므로, 자유도는 임 ) 와 p 값은각각 χ () = 786.8 p < 0.00 이므로, 두변수모두승률에유의한영향을주고있음에틀림이없다. 마찬가지로변수 rsg 와 rag 를이용하여, 프로빗모형을가정하여추정한결과는다음과같다. ŵ = Φ(0.009 + 0.58rsg 0.85rag) 이때적합한모형의카이제곱값 χ () 과 p 값은각각 χ () = 785.7 p < 0.00 이므로, 두변수모두승률에유의한영향을주고있음에틀림이없다 (Hosmer 와 Lemeshow, 000; Kim, 0).5. 여러모형에서의 RMSE 비교 피타고라스정리, 일반화피타고라스정리, 로지스틱모형, 그리고프로빗모형을가정하여각각승률 을추정하고, 여러모형에서의평균제곱오차의제곱근 RMSE 를구한것이 Table.6 에있다. Table.6 Estimation methods and RMSE Pythagorean generalized Pythagorean logistic probit RMSE 0.05 0.07 0.09 0.095 Table.6 에의하면, 피타고라스정리보다는최적지수값.7 인일반화피타고라스정리를이용하 여승률을추정함이 RMSE 기준에서다소나아졌지만, 로지스틱모형이나프로빗모형을이용하여승 률을설명함이가장적합성이좋은것으로나타났다.
The estimation of winning rate in Korean professional baseball league 659 참고로모형의확인을위하여, 새로운자료에서설명변수들의특정한값을모형에대입했을때의예 측값과새로운자료의반응값의차이를관찰하였다. 이를위하여 MSPR (mean squared prediction error) MSPR = n (w i ŵ i) i= 를이용하는데, 여기에서 w i 는새로운자료의관측값, ŵ i 는가정한모형을이용한승률의예측값, n 은 자료의수를각각나타낸다. 피타고라스정리와로지스틱모형등을가정하여 MSPR 과 MSPR 의제곱근을비교한것이 Table.7 이다. n Table.7 MSPR Pythagorean generalized Pythagorean logistic probit MSPR 0.00075 0.0006 0.0008 0.0008 MSPR 0.079 0.070 0.0898 0.088 Table.7에의하면, 일반화피타고라스정리를이용한승률의추정이다른방법보다다소나은값을보여주지만, 그차이가미미하다고볼수있다. 이는모형의확인을위한팀수 (n = 0) 가적은데에서기인한것으로보인다. 따라서한국프로야구에서각팀의승률을추정하기위하여, 피타고라스정리와일반화피타고라스정리뿐아니라로지스틱모형, 프로빗모형등의다양한모형을사용하여승률을추정하고예측하기를제언한다.. 결론본연구에서는 rsg rag, rsg/rag와승률간의상관분석을실시하였고, 변수 rsg와 rag를이용하여집락분석을시도하였다. 그결과 rsg rag, rsg/rag의값이클수록승률이높아지는경향이있었고, 또한변수 rsg와 rag의값이다소높은집락보다두변수의값이다소낮은집락의승률이더높은것으로나타났다. 이사실에의하면, 한국프로야구에서는득점을적게하더라도실점을적게하는팀의승률이득점과실점모두다소높은집락의승률보다더높음을의미한다. 더나아가변수 rsg와 rag를사용하여 Bill James의피타고라스정리와일반화피타고라스정리를한국프로야구에적용하여팀의승률을추정하였고, 마지막으로 rsg와 rag를이용하여로지스틱모형과프로빗모형을가정하여승률을추정하였다. 이렇게유도된식들은모두한국프로야구에서의승률을잘설명하고있지만, 이논문에서제안한로지스틱모형과프로빗모형을이용한승률추정이피타고라스정리를이용한것보다다소나은것으로나타났다. 야구경기에서승리하려면, 당연히실점보다득점이많아야함은기본이다. 따라서득점과실점으로승리가결정되는다른종목경기에서의승률을추정하기위하여, 향후일반화피타고라스정리를적용하여최적지수값을계산하거나로지스틱모형등을이용하는연구도의미있을것으로생각된다. References Cho, Y. S. and Cho, Y. J. (005). A study on winning percentage using batter s runs and pitcher s runs in Korean professional baseball league. Journal of the Korean Data Analysis Society, 7, 0-.
660 Soon-Kwi Kim Young-Hoon Lee Hosmer, D. W. and Lemeshow, S. (000). Applied logistic regression, nd ed., Wiley, New York. Huh, M. H. (000). Multivariate data analysis, Freedom Academy, Seoul. James, B. (98). The Bill James baseball abstract, Ballantine Books, New York. Kim, K. Y. and Jhun, M. S. (99). SAS cluster analysis, Freedom Academy, Seoul. Kim, S. K. (0). Understanding of logistic regression model, Kyowoosa, Seoul. Lee, J. T. (0). Estimation of exponent value for Pythagorean method in Korean pro-baseball. Journal of the Korean Data & Information Science Society, 5, 9-99. Lee, J. T. (05). Measuring the accuracy of the Pythagorean theorem in Korean pro-baseball. Journal of the Korean Data & Information Science Society, 6, 65-659. Lee, J. T. and Kim, Y. T. (006). A study on the estimation of winning percentage in Korean pro-baseball. Journal of the Korean Data Analysis Society, 8, 857-869.
Journal of the Korean Data & Information Science Society 06, 7(), 65 66 http://dx.doi.org/0.765/jkdi.06.7..65 한국데이터정보과학회지 The estimation of winning rate in Korean professional baseball league Soon-Kwi Kim Young-Hoon Lee Department of Information Statistics, Gangneung-Wonju National University Received February 06, revised March 06, accepted March 06 Abstract In this paper, we provide a suitable optimal exponent in the generalized Pythagorean theorem and propose to use the logistic model & the probit model to estimate the winning rate in Korean professional baseball league. Under a criterion of root-meansquare-error (RMSE), the efficiencies of the proposed models have been compared with those of the Pythagorean theorem. We use the team historic win-loss records of Korean professional baseball league from 98 to the first half of 05, and the proposed methods show slight outperformances over the generalized Pythagorean method under the criterion of RMSE. Keywords: Cluster analysis, generalized Pythagorean theorem, logistic model, probit model. Professor, Department of Information Statistics, Gangneung-Wonju National University, Gangneung 557, Korea. Corresponding author: Professor, Department of Information Statistics, Gangneung-Wonju National University, Gangneung 557, Korea. E-mail: yhlee@gwnu.ac.kr