통계연구(2015), 제20권 제3호, 71-92 변수선택 기법을 이용한 한국 프로야구의 득점과 실점 설명 1) 김혁주 2) 김예형 3) 요약 한국 프로야구에서 팀들의 득점과 실점에 영향을 미치는 요인들을 규명하기 위한 연구를 하였 다. 2007년부터 2014년까지의 정규리그 전 경기 자료를 대상으로 분석하였다. 전방선택법, 후방 소거법, 단계별 회귀법, 선택법, 보정된 선택법, Mallows의 선택법 등의 변수선택 기 법을 이용하여 팀들의 경기당 평균득점을 설명하기 위한 4개의 회귀모형과 평균실점을 설명하기 위한 3개의 회귀모형을 추천하고 최소제곱법에 의한 회귀방정식을 구하였다. 그 결과 추천된 모 형들은 득점 설명의 경우 공히 98%를 넘는 결정계수를 보였으며, 실점 설명의 경우도 공히 93% 를 넘는 높은 결정계수를 보였다. 주요용어 : 한국 프로야구, 득점, 실점, 변수선택 기법 1. 서론 정치, 경제, 사회, 공학, 농학, 의 약학 등 다른 여러 분야와 마찬가지로 스포츠에 서도 통계의 역할은 갈수록 커지고 있다. 특히 야구는 통계의 스포츠 라 불릴 정도로 여러 가지 측면이 통계적으로 연구되고 있다. 그 중 팀의 득점과 타격 능력에 관한 국내 학자들의 최근 몇 년 간의 대표적 연구를 보면 다음과 같다. 조영석과 조용주 (2005a)는 한국 프로야구의 자료를 바탕으로 한 OPS(On-base percentage Plus Slugging average)와 득점에 관한 연구를 통하여 OPS가 득점 추정에서 매우 좋은 결 과를 준다는 점을 밝혔다. 이장택과 김용태(2005)는 타자들의 공격 능력의 측정 도구 로 제안되는 여러 가지의 득점 측도를 비교하였다. 한편 조영석과 조용주(2005b)는 한 국 프로야구에서 득점과 실점을 이용하여 승률을 추정하는 문제를 연구하였으며, 이 해용과 이성건(2008)은 한국 프로야구에서 팀의 승패를 예측하는 모형을 만들고, 각종 의 요인들이 승패에 미치는 영향력을 분석하였다. 홍종선과 박하수(2008)는 한국 프로 야구에서 팀들이 기록한 안타의 방향을 분석하고 이를 시각적으로 표현하는 방법을 개발하였으며, 홍종선과 최정민(2008)은 한국 프로야구의 도루 성공 모형에 관하여 연 구하였다. 채진석 등(2010)은 한국 프로야구의 정규리그 자료를 이용하여 포스트시즌 1) 김예형의 박사학위 논문을 발췌 및 수정 보완하여 작성한 논문임. 2) 교신저자: (54538) 전북 익산시 익산대로 460, 원광대학교 수학 정보통계학부 및 기초자연 과학연구소, 교수. E-mail: hjkim@wonkwang.ac.kr 3) (54538) 전북 익산시 익산대로 460, 원광대학교 수학 정보통계학부, 강사. E-mail: dpguddl@ wonkwang.ac.kr
72 김혁주 김예형 진출 여부를 예측할 수 있는 여러 가지 통계모형의 분석 결과를 비교하였다. 또한 이 장택(2014a)은 한국 프로야구에서 타자의 능력을 측정하는 지표를 제안하였으며, 이장 택(2014b)은 한국 프로야구에서 출루율 계수를 추정하는 문제를 연구하였다. 한편 김 혁주(2012)는 가중OPS를 제안하여 팀의 득점력을 설명하였으며, 김혁주와 김예형 (2014)은 가중OPS를 수정한 가중수정OPS를 이용하면 팀의 득점력을 좀 더 잘 설명 할 수 있음을 보였다. 대부분의 스포츠가 그렇지만, 야구경기는 득점이 실점보다 많아야 승리하는 경기 이다. 따라서 득점 못지않게 관심을 가질 필요가 있는 것이 실점이다. 김혁주와 김예 형(2015)은 WHIP와 경기당피홈런의 가중평균으로 정의되어 팀의 실점을 설명하기 위 한 수비지표인 가중WPH를 제시하였다. 김혁주(2012), 김혁주와 김예형(2014), 그리고 김혁주와 김예형(2015)에서 연구한 내용은 각기 하나의 값으로 계산될 수 있는 공격지표들과 수비지표들로 팀들의 득점 력과 실점을 나타내기 위한 것이기 때문에 지표의 간편성이 중요한 요소였다. 하지만 하나의 값으로 표시되는 지표가 아니고 여러 개의 설명변수들이 동원되어 득점과 실 점을 설명하는 회귀방정식을 사용한다면 설명력을 더욱 높일 수 있을 것이다. 그렇다 고 너무 많은 설명변수들이 관련되어 있으면 데이터의 분석과 관리에 비효율성이 야 기될 뿐 아니라 다중공선성(multicollinearity)의 문제가 발생하므로 적절한 개수의 설 명변수들이 포함된 회귀방정식으로 팀들의 득점과 실점을 나타내는 것이 중요하며, 결국 변수선택 기법(variable selection technique)의 필요성이 대두된다. 이러한 동기 로 본 논문에서는 변수선택 기법을 이용하여 한국 프로야구팀들의 득점과 실점을 설 명하는 회귀모형과 방정식을 구하고 관련된 내용을 고찰하고자 한다. 본 논문에서 사용한 자료는 2007년부터 2014년까지의 정규리그 전 경기(4,288 경 기)의 공격 자료와 수비 자료이며, 이 기간 동안의 연 66개 팀의 1년 단위 기록들을 근거로 하여 분석한다. 이 자료는 한국야구위원회(2009)의 한국프로야구 기록대백과와 한국야구위원회(2010, 2011, 2012, 2013, 2014, 2015)의 한국프로야구 연감에서 구한 것 이다. 본 논문의 통계분석은 SAS 9.3과 Minitab Release 14.12.1을 이용하여 수행한 다. 2. 득점을 설명하기 위한 회귀방정식 2.1 개요 먼저 팀들의 득점을 잘 설명해주는 회귀모형과 방정식을 구하는 문제를 생각해보 겠다. 팀의 득점이 당연히 회귀분석의 반응변수가 되어야 할 것이다. 그런데 팀당 정 규리그 경기수를 보면 2007년과 2008년에는 126 경기, 2009년부터 2012년까지는 133 경기, 2013년과 2014년에는 128 경기로 연도에 따라 경기수가 다르다. 따라서 팀의 득 점 자체보다 득점을 경기수로 나눈 경기당득점을 반응변수로 삼는 것이 합리적이다. 그리고 변수선택에서 고려할 설명변수들과 그것들의 계산 공식은 <표 2.1>과 같다.
변수선택 기법을 이용한 한국 프로야구의 득점과 실점 설명 73 1절의 마지막 문단에서 언급한 것처럼 <표 2.1>에 포함된 각 변수의 값으로 팀의 1년 단위 기록을 사용한다. 예를 들어 타율은 팀의 1년 동안의 안타수를 1년 동안의 타수로 나눈 것이며, 다른 변수들의 값도 같은 방식으로 계산한 것이다. 4사구는 볼넷 과 몸에 맞는 볼을 통칭한 것이고 도실은 도루실패를 의미하며, 희타와 희비는 각각 희생번트와 희생플라이를 말하는 것으로서 한국야구위원회에서 이 두 가지를 별도로 집계하고 있으나, 본 논문에서는 희생타라는 이름의 단일 변수로 처리한다. 다만, 출 루율 계산 시에는 희비만이 분모에 포함되고 희타는 관련되지 않는다. <표 2.2>에는 득점 관련 변수들의 연 66개 팀에 걸쳐 계산된 기초통계량 값들을 정리해놓았다. 변수선택 기법으로는 기본적으로 널리 사용되는 방법인 전방선택(forward selection), 후방소거(backward elimination), 단계별회귀(stepwise regression) 방법 외 에 모든 가능한 회귀모형들에 대하여 결정계수 값을 산출하는 선택법, 모든 가능한 회귀모형들에 대하여 보정된 값을 산출하는 보정된 선택법, 그리고 모 든 가능한 회귀모형들에 대하여 Mallows(1973)의 값을 산출하는 Mallows의 선택법을 사용한다. <표 2.1> 득점 설명을 위한 변수선택에서 고려할 설명변수들과 계산 공식 설명변수 타율(avg) 출루율(obp) 장타율(slg) 경기당타석(pag) 경기당타수(abg) 경기당홈런(hrg) 경기당도루(sbg) 경기당도실(csg) 경기당희생타(sag) 경기당4사구(bhg) 경기당삼진(sog) 경기당병살타(dpg) 경기당잔루(lbg) 계산 공식 안타/타수 (안타+4사구)/(타수+4사구+희비) 루타/타수 타석/경기수 타수/경기수 홈런/경기수 도루/경기수 도실/경기수 (희타+희비)/경기수 4사구/경기수 삼진/경기수 병살타/경기수 잔루/경기수 <표 2.2> 득점 관련 변수들의 기초통계량 값들 변수 평균 표준편차 최솟값 제1사분위수 중앙값 제3사분위수 최댓값 경기당득점 4.740 0.648 3.714 4.218 4.707 5.184 6.570 타율 0.270 0.014 0.243 0.260 0.269 0.281 0.301 출루율 0.348 0.014 0.320 0.338 0.348 0.359 0.382 장타율 0.397 0.034 0.347 0.370 0.389 0.420 0.509 경기당타석 38.926 0.753 37.128 38.494 38.870 39.485 40.578
74 김혁주 김예형 변수 평균 표준편차 최솟값 제1사분위수 중앙값 제3사분위수 최댓값 경기당타수 33.737 0.677 32.489 33.302 33.655 34.381 35.135 경기당홈런 0.796 0.248 0.367 0.619 0.764 0.919 1.555 경기당도루 0.940 0.256 0.381 0.788 0.940 1.090 1.500 경기당도실 0.411 0.095 0.150 0.359 0.391 0.492 0.659 경기당희생타 0.944 0.186 0.496 0.820 0.946 1.065 1.436 경기당4사구 4.242 0.417 3.128 3.982 4.285 4.545 5.233 경기당삼진 6.348 0.640 4.955 5.878 6.387 6.799 7.647 경기당병살타 0.799 0.103 0.594 0.727 0.788 0.876 1.094 경기당잔루 7.457 0.347 6.361 7.276 7.463 7.671 8.320 2.2 변수선택 변수선택에 앞서 연도별 혹은 팀별로 이분산성이 있는지 알아보기 위해 경기당득 점에 대하여 연도와 팀을 요인으로 등분산 검정을 실시하였다. 연도를 요인으로 한 Bartlett 검정에서는 검정통계량의 값이 11.05( 값 0.137)로 나왔고, Levene 검정에서 는 검정통계량의 값이 1.70( 값 0.128)으로 나와서 등분산 가정에 무리가 없는 것으로 나타났다. 한편 팀을 요인으로 한 Bartlett 검정통계량의 값은 6.20( 값 0.625), Levene 검정통계량의 값은 0.56( 값 0.810)으로 나와 역시 등분산 가정에 무리가 없었다. 경기당득점(rsg=득점/경기수)을 반응변수로 놓고, 설명변수로 <표 2.1>에 수록된 13가지 변수를 고려하여 SAS 9.3에서 제공하는 변수선택 기법을 적용한 결과를 정리 해본다. 2.2.1 전방선택 전방선택법에서는 변수를 추가하여 모형을 구축하는 경우이므로 유의수준 (SLENTRY)을 SAS의 디폴트인 0.5로 하였다. 값을 기준으로 전방선택법을 적용 한 SAS 출력결과가 <표 2.3>에 정리되어 있다. 첫 번째 순서로 장타율(slg)이 모형에 들어왔고 두 번째로 들어온 설명변수는 출루율(obp)이었다. 이 두 가지 변수만 가지고 도 팀 득점 간 변동의 92.32%가 설명됨을 알 수 있다. 현재 프로야구에서 출루율과 장타율의 합으로 정의되는 OPS가 유용한 공격지표로 사용되고 있는데, 이것의 정당 성을 실증적으로 뒷받침해주는 결과라고 볼 수 있을 것이다. 10개의 설명변수가 포함 된 모형이 얻어졌으며, 최소제곱법으로 적합된 방정식은 다음과 같다. 이 모형의 결정계수는 0.9902, 보정된 결정계수는 0.9885로 계산되었으며, 분산분석 의 통계량의 값은 558.08이었고 값은 0.0001보다 작았다. 그런데 상태수(즉 가장 큰
변수선택 기법을 이용한 한국 프로야구의 득점과 실점 설명 75 상태지표의 값)가 38137이나 되어 다중공선성의 문제가 심각한 것으로 드러났다. <표 2.3> 득점 설명을 위한 전방선택법의 요약 Step Number Partial Model Entered Vars In C(p) F Value Pr > F 1 slg 1 0.8831 0.8831 564.741 483.46 <.0001 2 obp 2 0.0401 0.9232 351.586 32.93 <.0001 3 lbg 3 0.0170 0.9402 262.486 17.62 <.0001 4 pag 4 0.0382 0.9784 59.7300 107.92 <.0001 5 csg 5 0.0023 0.9807 49.2624 7.24 0.0092 6 dpg 6 0.0061 0.9868 18.6605 27.22 <.0001 7 sag 7 0.0014 0.9882 13.2728 6.77 0.0117 8 hrg 8 0.0010 0.9892 10.0853 5.09 0.0279 9 abg 9 0.0009 0.9901 7.3423 4.98 0.0297 10 bhg 10 0.0002 0.9902 8.3199 1.07 0.3044 2.2.2 후방소거 후방소거법에서는 완전모형에서 출발하여 값을 기준으로 회귀적합에 가장 기 여도가 낮은 설명변수부터 차례로 소거해 나갔다. 기여도에 대한 유의성검정에서 유 의수준(SLSTAY)은 SAS의 디폴트인 0.1로 하였다. 그 결과 sbg, avg, sog, bhg의 순 으로 모형에서 제거되었다. 후방소거법의 SAS 출력결과를 <표 2.4>에 나타냈다. 9개 의 설명변수가 포함된 모형이 얻어졌으며, 최소제곱법으로 적합된 방정식은 다음과 같다. 이 모형의 결정계수는 0.9901, 보정된 결정계수는 0.9885였으며, 분산분석의 통계 량의 값은 619.15였고 값은 0.0001보다 작았다. 상태수는 1235.61로서 다중공선성의 문제가 전방선택법의 경우에 비해 완화되었지만, 아직도 만족할 만한 상태는 아닌 것 으로 나타났다. <표 2.4> 득점 설명을 위한 후방소거법의 요약 Step Number Partial Model Removed Vars In C(p) F Value Pr > F 1 sbg 12 0.0000 0.9903 12.0226 0.02 0.8811 2 avg 11 0.0000 0.9903 10.0425 0.02 0.8872 3 sog 10 0.0001 0.9902 8.3199 0.29 0.5939 4 bhg 9 0.0002 0.9901 7.3423 1.07 0.3044
76 김혁주 김예형 2.2.3 단계별 회귀 단계별 회귀법은 전방선택법에 후방소거의 개념이 추가된 것이어서, 일단 모형에 들어온 설명변수도 다시 나갈 수 있는 변수선택법이다. 유의수준인 SLENTRY와 SLSTAY의 값을 SAS의 디폴트인 0.15로 하여 단계별 회귀법을 적용한 결과 선택된 모형과 최소제곱법으로 적합된 방정식 및 분산분석표, 그리고 결정계수와 상태수의 값은 후방소거법과 동일하게 나왔다. <표 2.5>는 단계별 회귀법의 과정을 요약한 SAS 출력결과이다. Step Entered <표 2.5> 득점 설명을 위한 단계별 회귀법의 요약 Removed Number Vars In Partial Model C(p) F Value Pr > F 1 slg 1 0.8831 0.8831 564.741 483.46 <.0001 2 obp 2 0.0401 0.9232 351.586 32.93 <.0001 3 lbg 3 0.0170 0.9402 262.486 17.62 <.0001 4 pag 4 0.0382 0.9784 59.7300 107.92 <.0001 5 csg 5 0.0023 0.9807 49.2624 7.24 0.0092 6 dpg 6 0.0061 0.9868 18.6605 27.22 <.0001 7 sag 7 0.0014 0.9882 13.2728 6.77 0.0117 8 hrg 8 0.0010 0.9892 10.0853 5.09 0.0279 9 abg 9 0.0009 0.9901 7.3423 4.98 0.0297 2.2.4 선택법 모든 가능한 회귀모형을 적합한 뒤 설명변수의 개수별로 값이 큰 모형을 몇 개씩 나타낸 것이 <표 2.6>이다. 설명변수가 4개 이하인 경우는 값이 상대적으로 작으므로 지면 관계상 생략하였다. Mallows의 값도 계산하여 함께 나타냈다. 이 표에 나타난 경우는 모두 값이 0.98 이상이다. 9개 변수 중 두 번째 경우는 후방 소거법과 단계별 회귀법에서 나온 것과 동일한 모형이고, 10개 변수 중 첫 번째 경우 는 전방선택법에서 나온 것과 동일한 모형이다. 2.2.5 보정된 선택법 모든 가능한 회귀모형을 적합한 뒤 보정된 값이 큰 모형 5개를 나타낸 것이 <표 2.7>이다. 맨 왼쪽의 기호는 모형들을 간편히 구분하여 지칭하기 위한 것이다. 이 표에 나타난 경우 중 B는 전방선택법에서 나온 것과 동일한 모형이고, C는 후방소 거법과 단계별 회귀법에서 나온 것과 동일한 모형이다.
변수선택 기법을 이용한 한국 프로야구의 득점과 실점 설명 77 2.2.6 Mallows의 선택법 모든 가능한 회귀모형을 적합한 뒤 Mallows의 값을 기준으로 가장 좋은 모형 5개를 나타낸 것이 <표 2.8>이다. 맨 왼쪽의 기호는 모형들을 간편히 구분하여 지칭 하기 위한 것이다. 이 표에 나타난 경우 중 C는 후방소거법과 단계별 회귀법에서 나 온 것과 동일한 모형이다. <표 2.6> 득점 설명을 위한 선택법의 결과 Number in Model C(p) s in Model 5 0.9826 39.3414 obp pag csg dpg lbg 5 0.9807 49.2624 obp slg pag csg lbg 5 0.9806 49.9874 obp slg pag dpg lbg 6 0.9868 18.6605 obp slg pag csg dpg lbg 6 0.9852 27.3354 obp pag csg sag dpg lbg 6 0.9847 30.0630 avg pag csg bhg dpg lbg 7 0.9882 13.2728 obp slg pag csg sag dpg lbg 7 0.9882 13.3104 avg slg pag csg bhg dpg lbg 7 0.9880 14.3012 obp slg pag hrg csg dpg lbg 8 0.9896 7.5420 avg slg pag hrg csg bhg dpg lbg 8 0.9895 8.2704 obp slg pag hrg csg bhg dpg lbg 8 0.9893 9.1874 avg obp slg pag hrg csg dpg lbg 9 0.9901 7.0977 avg slg pag abg hrg csg sag dpg lbg 9 0.9901 7.3423 obp slg pag abg hrg csg sag dpg lbg 9 0.9900 7.4625 avg slg pag hrg csg sag bhg dpg lbg 9 0.9900 7.4748 obp slg pag hrg csg sag bhg dpg lbg 10 0.9902 8.3199 obp slg pag abg hrg csg sag bhg dpg lbg 10 0.9902 8.6492 avg slg pag abg hrg csg sag bhg dpg lbg 10 0.9901 8.9795 avg obp slg pag abg hrg csg sag dpg lbg 11 0.9903 10.0425 obp slg pag abg hrg csg sag bhg sog dpg lbg 11 0.9903 10.2474 avg obp slg pag abg hrg csg sag bhg dpg lbg 11 0.9902 10.3178 obp slg pag abg hrg sbg csg sag bhg dpg lbg 12 0.9903 12.0226 avg obp slg pag abg hrg csg sag bhg sog dpg lbg 12 0.9903 12.0273 obp slg pag abg hrg sbg csg sag bhg sog dpg lbg 12 0.9903 12.2370 avg obp slg pag abg hrg sbg csg sag bhg dpg lbg 13 0.9903 14.0000 avg obp slg pag abg hrg sbg csg sag bhg sog dpg lbg
78 김혁주 김예형 기호 Number in Model <표 2.7> 득점 설명을 위한 보정된 선택법의 결과 Adjusted Condition Number A 9 0.9885 0.9901 692.74 B 10 0.9885 0.9902 38137 C 9 0.9885 0.9901 1235.61 D 9 0.9884 0.9900 624.18 E 9 0.9884 0.9900 548.16 s in Model avg slg pag abg hrg csg sag dpg lbg obp slg pag abg hrg csg sag bhg dpg lbg obp slg pag abg hrg csg sag dpg lbg avg slg pag hrg csg sag bhg dpg lbg obp slg pag hrg csg sag bhg dpg lbg 기호 Number in Model <표 2.8> 득점 설명을 위한 Mallows의 선택법의 결과 C(p) Condition Number A 9 7.0977 0.9901 692.74 C 9 7.3423 0.9901 1235.61 D 9 7.4625 0.9900 624.18 E 9 7.4748 0.9900 548.16 s in Model avg slg pag abg hrg csg sag dpg lbg obp slg pag abg hrg csg sag dpg lbg avg slg pag hrg csg sag bhg dpg lbg obp slg pag hrg csg sag bhg dpg lbg F 9 7.5420 0.9896 568.47 avg slg pag hrg csg bhg dpg lbg 2.3 논의 (1)에서 (6)까지의 여섯 가지 판정기준에 의한 결과를 종합하여 어떤 모형을 최적 모형으로 선정할지를 논의해보자. 전방선택법에서 얻어진 모형은 선택법과 보정된 선택법(B)에서도 좋은 모형으로 나왔고, 후방소거법과 단계별 회귀법에서 공통적 으로 얻어진 모형은 선택법과 보정된 선택법 및 Mallows의 선택법(C)에 서도 좋은 모형으로 나왔다. 그러나 이 두 모형은 앞에서 언급한 바와 같이 상태수가 1000을 초과하므로 공선성의 문제가 크다고 판단되어 좋은 모형으로 추천하기에는 적 절치 않다. 이들을 제외하면, 보정된 선택법과 Mallows의 선택법의 결과를 볼 때 모형 A, D, E가 공통으로 들어 있다. 이 세 모형은 선택법의 결과(<표 2.6> 참조)에도 우수한 모형으로 포함되어 있으며, 모형 B와 C에 비해 매우 작은 상태수를 가지고 있으므로 공선성의 문제가 덜하다. 그리고 A와 D는 타율(avg)과 장타율(slg) 을 주요 설명변수로 포함하고 있는 반면 E는 타율 대신 출루율(obp)이 들어가서 출루 율과 장타율을 주요 설명변수로 포함하고 있고 상태수의 값은 A, D, E 중 가장 작다. 따라서 이러한 점들을 고려하여, 최적 모형으로 1개의 모형만을 추천하기보다 다양성 의 측면에서 모형 A와 D와 E를 팀의 득점을 설명하는 최적에 가까운 모형으로 추천
변수선택 기법을 이용한 한국 프로야구의 득점과 실점 설명 79 하고자 한다. 최소제곱법으로 적합된 모형 A, D, E의 회귀방정식은 다음과 같다. 모형 A: 모형 D: 모형 E: 모형 A, D, E를 보면 모두 경기당홈런(hrg)의 추정된 회귀계수가 음수로 나타나 있다. 이것은 장타율(slg)과의 높은 상관관계 때문에 생긴 현상이다. 이것을 경기당홈 런이 늘어나면 경기당득점이 감소하는 것을 의미하는 것으로 해석하면 안 된다. 경기 당홈런이 늘어나면 장타율이 매우 높아질 것이기 때문에 경기당득점이 증가하게 될 것이다. 따라서 모형 A, D, E에 추가하여, hrg를 제외한 다음의 모형을 추천하고자 한다. 이 모형은 <표 2.6>에서 6개 변수 중 첫 번째 경우이다. 이것을 모형 G라 하자. 모형 G의 결정계수는 0.9868, 보정된 결정계수는 0.9855였으며, 분산분석의 통계량의 값은 736.25였고 값은 0.0001보다 작았다. 상태수는 456.39로서 모형 A, D, E에 비해 다중공선성 문제가 크게 개선되었다. 모형 G: <표 2.9>는 모형 A, D, E, G 각각에 의한 회귀분석 결과이다. 회귀계수별 검정 결 과와 분산팽창인자(VIF: variance inflation factor) 값들이 함께 수록되어 있다. 모형 D와 E의 sag 계수만 제외하고 모든 회귀계수들의 값이 0.05보다 작아서 유의함을 알 수 있다. 최대 VIF 값을 보면, 모형 A가 72.62, 모형 D가 72.64, 모형 E가 61.04로 일반적인 다중공선성 판정 기준값인 10보다 크다. 반면 모형 G의 최대 VIF 값은 7.82 에 불과하므로 다중공선성 문제에 관한 한 가장 우수한 모형이라고 할 수 있겠다. 모 형 G의 유일한 약점은 Mallows의 값이 18.6605로 크다는 것이다. 이상을 종합하 여 말하자면, 를 필수적인 기준으로 고려하는 경우에는 모형 A, D, E를 선택하고, 그렇지 않은 경우에는 6개의 설명변수만으로도 큰 결정계수를 주는 모형 G를 선택하 면 될 것이다.
80 김혁주 김예형 모형 A DF <표 2.9> 득점 설명 모형 A, D, E, G에 의한 회귀분석 결과 Parameter Estimate Standard Error t Value Pr > t Tolerance Variance Inflation Intercept 1-13.87046 0.86893-15.96 <.0001. 0 avg 1 16.31528 3.22215 5.06 <.0001 0.03821 26.17349 slg 1 7.44159 2.14860 3.46 0.0010 0.01377 72.62317 pag 1 0.89953 0.04167 21.59 <.0001 0.07545 13.25412 abg 1-0.45537 0.03485-13.07 <.0001 0.13341 7.49591 hrg 1-0.43464 0.18778-2.31 0.0243 0.03432 29.13722 csg 1-0.75170 0.11842-6.35 <.0001 0.58670 1.70446 sag 1-0.54017 0.07346-7.35 <.0001 0.39754 2.51546 dpg 1-0.66823 0.11508-5.81 <.0001 0.53201 1.87966 lbg 1-0.89727 0.05213-17.21 <.0001 0.22611 4.42269 모형 D DF Parameter Estimate Standard Error t Value Pr > t Tolerance Variance Inflation Intercept 1-13.85914 0.87228-15.89 <.0001. 0 avg 1 16.21744 3.23033 5.02 <.0001 0.03827 26.12696 slg 1 7.44206 2.15626 3.45 0.0011 0.01377 72.64274 pag 1 0.44439 0.03523 12.61 <.0001 0.10624 9.41234 hrg 1-0.43278 0.18846-2.30 0.0254 0.03431 29.14856 csg 1-0.74408 0.11865-6.27 <.0001 0.58843 1.69943 sag 1-0.08605 0.05830-1.48 0.1456 0.63538 1.57386 bhg 1 0.45489 0.03497 13.01 <.0001 0.35196 2.84119 dpg 1-0.66291 0.11536-5.75 <.0001 0.53312 1.87574 lbg 1-0.89703 0.05231-17.15 <.0001 0.22610 4.42285 모형 E DF Parameter Estimate Standard Error t Value Pr > t Tolerance Variance Inflation Intercept 1-16.07704 0.79290-20.28 <.0001. 0 obp 1 17.14393 3.41613 5.02 <.0001 0.03210 31.15098 slg 1 8.43938 1.97688 4.27 <.0001 0.01638 61.04475 pag 1 0.49082 0.03243 15.14 <.0001 0.12544 7.97206 hrg 1-0.53613 0.17164-3.12 0.0028 0.04137 24.17201 csg 1-0.75168 0.11885-6.32 <.0001 0.58656 1.70485 sag 1-0.10177 0.05948-1.71 0.0926 0.61059 1.63775 bhg 1 0.12470 0.05675 2.20 0.0322 0.13369 7.48010 dpg 1-0.63858 0.11347-5.63 <.0001 0.55115 1.81440 lbg 1-0.91075 0.05251-17.34 <.0001 0.22443 4.45566
변수선택 기법을 이용한 한국 프로야구의 득점과 실점 설명 81 모형 G DF Parameter Standard Variance t Value Pr > t Tolerance Estimate Error Inflation Intercept 1-16.60270 0.86782-19.13 <.0001. 0 obp 1 23.78458 1.87083 12.71 <.0001 0.13424 7.44917 slg 1 3.30937 0.76046 4.35 <.0001 0.13884 7.20246 pag 1 0.49437 0.03596 13.75 <.0001 0.12793 7.81675 csg 1-0.69250 0.13128-5.28 <.0001 0.60302 1.65833 dpg 1-0.57135 0.10951-5.22 <.0001 0.74213 1.34747 lbg 1-0.90571 0.05825-15.55 <.0001 0.22878 4.37094 <그림 2.1>은 모형 G에 의한 잔차의 히스토그램과 정규확률도이다. 오차의 정규 분포 가정에 별다른 문제가 없음을 알 수 있다. 나타내지는 않았지만, 모형 A, D, E에 의한 그림도 크게 다르지 않다. <표 2.10>은 위의 네 모형에 근거를 두고 표준화잔차 의 절댓값이 큰 비정상적인 관측값들을 찾아낸 것이다. 모형 A, D, E, G에서 모두 2007년 KIA의 실제 득점이 회귀식에 의한 적합치보다 특별히 많이 나온 것으로 나타 났다. 모형 E, G에서의 2008년 두산과 모형 G에서의 2014년 NC도 유사한 양상을 보 였다. 반면 2007년 넥센과 2010년 롯데의 실제 득점은 모형 G에서 회귀식에 의한 적 합치보다 특별히 적게 나온 것으로 나타났다. 해당 연도에 이 팀들의 실제 득점이 어 떠한 이유로 비정상적인 양상을 보였는지는 야구 전문가들의 기술적 관점에서 연구해 볼 문제라고 사료된다. <그림 2.1> 모형 G에 의한 잔차의 히스토그램과 정규확률도 <표 2.10> 비정상적 관측값들 (득점의 경우) 모형 연도 팀 rsg 잔차 표준화잔차 A 2007 KIA 3.96032 3.74587 0.02573 0.21445 3.33 D 2007 KIA 3.96032 3.74468 0.02588 0.21564 3.33 E 2007 KIA 3.96032 3.73448 0.02693 0.22584 3.51 2008 두산 5.13492 5.01306 0.03416 0.12186 2.01 2007 넥센 4.20635 4.35783 0.02049-0.15148-2.01 2007 KIA 3.96032 3.72491 0.02706 0.23541 3.22 G 2008 두산 5.13492 4.97710 0.03375 0.15782 2.24 2010 롯데 5.81203 5.96140 0.03762-0.14937-2.18 2014 NC 5.75781 5.60137 0.02531 0.15644 2.12
82 김혁주 김예형 3. 실점을 설명하기 위한 회귀방정식 3.1 개요 이 절에서는 팀들의 실점을 설명하기 위한 회귀모형과 방정식을 변수선택법을 사 용하여 구하고자 한다. 득점의 경우와 같은 이유로 팀의 실점을 경기수로 나눈 경기 당실점을 반응변수로 삼는다. 변수선택에서 고려할 설명변수들과 그것들의 계산 공식 은 <표 3.1>과 같다. 이 표에 포함된 각 변수의 값도 역시 팀의 1년 단위 기록을 사 용한 것이다. 여기서 타자수, 타수, 희타, 희비는 상대팀의 것을 말하는 것이며, 4사구 도 상대팀에게 내준 것을 말하는 것이다. WHIP(Walks plus Hits divided by Innings Pitched)는 이닝당출루허용률이라고도 불리는 것으로서, 최근 몇 년 사이에 투수의 능 력을 평가하는 중요한 지표로 사용되고 있다. <표 3.2>에는 실점 관련 변수들의 연 66개 팀에 걸쳐 계산된 기초통계량 값들을 정리해놓았다. <표 3.1> 실점 설명을 위한 변수선택에서 고려할 설명변수들과 계산 공식 설명변수 피안타율(avg) WHIP(whip) 경기당투구수(ptg) 경기당타자수(btg) 경기당타수(abg) 경기당피홈런(hrg) 경기당희생타(sag) 경기당4사구(bhg) 경기당탈삼진(kg) 경기당폭투(wpg) 경기당보크(bkg) 경기당실책(erg) 계산 공식 피안타/타수 (볼넷+피안타)/투구이닝 투구수/경기수 타자수/경기수 타수/경기수 피홈런/경기수 (희타+희비)/경기수 (볼넷+사구)/경기수 탈삼진/경기수 폭투/경기수 보크/경기수 실책/경기수 <표 3.2> 실점 관련 변수들의 기초통계량 값들 변수 평균 표준편차 최솟값 제1사분위수 중앙값 제3사분위수 최댓값 경기당실점 4.740 0.710 3.556 4.216 4.699 5.161 6.945 피안타율 0.270 0.015 0.233 0.259 0.269 0.278 0.318 WHIP 1.439 0.106 1.237 1.356 1.422 1.529 1.761 경기당투구수 150.067 4.664 146.462 149.655 153.441 137.786 161.938 경기당타자수 38.926 0.789 37.150 38.446 38.965 39.348 41.500 경기당타수 33.737 0.638 32.263 33.261 33.786 34.128 35.672 경기당피홈런 0.796 0.216 0.489 0.619 0.752 0.941 1.323
변수선택 기법을 이용한 한국 프로야구의 득점과 실점 설명 83 변수 평균 표준편차 최솟값 제1사분위수 중앙값 제3사분위수 최댓값 경기당희생타 0.944 0.135 0.647 0.871 0.938 1.010 1.270 경기당4사구 4.242 0.473 3.165 3.921 4.213 4.581 5.331 경기당탈삼진 6.348 0.665 5.000 5.854 6.326 6.715 8.203 경기당폭투 0.425 0.107 0.165 0.364 0.417 0.489 0.695 경기당보크 0.028 0.014 0.000 0.016 0.030 0.039 0.063 경기당실책 0.655 0.090 0.474 0.600 0.654 0.722 0.883 3.2 변수선택 변수선택에 앞서 연도별 혹은 팀별로 이분산성이 있는지 알아보기 위해 경기당실 점에 대하여 연도와 팀을 요인으로 등분산 검정을 실시하였다. 연도를 요인으로 한 Bartlett 검정에서는 검정통계량의 값이 3.49( 값 0.836)로 나왔고, Levene 검정에서는 검정통계량의 값이 0.49( 값 0.837)로 나와서 등분산 가정에 무리가 없는 것으로 나타 났다. 한편 팀을 요인으로 한 Bartlett 검정통계량의 값은 3.97( 값 0.859), Levene 검 정통계량의 값은 0.37( 값 0.932)로 나와 역시 등분산 가정에 무리가 없었다. 경기당실점(rlg=실점/경기수)을 반응변수로 놓고, 설명변수로 <표 3.1>에 수록된 12가지 변수를 고려하여 SAS 9.3에서 제공하는 변수선택 기법을 적용한 결과를 정리 해 본다. 3.2.1 전방선택 득점의 경우와 마찬가지로 유의수준(SLENTRY)을 SAS의 디폴트인 0.5로 하였다. 값을 기준으로 전방선택법을 적용한 SAS 출력결과가 <표 3.3>에 정리되어 있다. 첫 번째 순서로 whip(whip)가 모형에 들어왔고 두 번째로 들어온 설명변수는 hrg (경기당피홈런)이었다. 이 두 가지 변수만 가지고도 팀 실점 간 변동의 90.84%가 설명 됨을 알 수 있다. 이것은 김혁주와 김예형(2015)에서 팀 실점을 설명하기 위하여 WHIP와 경기당피홈런의 가중평균으로 제시한 간단한 수비지표인 가중WPH를 뒷받 침해주는 결과이다. 7개의 설명변수가 포함된 모형이 얻어졌으며, 최소제곱법으로 적 합된 방정식은 다음과 같다. 이 모형의 결정계수는 0.9379, 보정된 결정계수는 0.9304로 계산되었으며, 분산분석 의 통계량의 값은 125.08이었고 값은 0.0001보다 작았다. 상태수는 283.64로서 득점 설명을 위한 전방선택법의 경우에 비해 다중공선성의 문제에서 훨씬 자유로운 것으로 나타났다.
84 김혁주 김예형 <표 3.3> 실점 설명을 위한 전방선택법의 요약 Step Entered Number Vars In Partial Model C(p) F Value Pr > F 1 whip 1 0.8702 0.8702 49.8521 429.15 <.0001 2 hrg 2 0.0382 0.9084 18.9424 26.26 <.0001 3 abg 3 0.0102 0.9186 12.1287 7.79 0.0070 4 wpg 4 0.0093 0.9279 6.1251 7.86 0.0068 5 bkg 5 0.0067 0.9346 2.3399 6.16 0.0159 6 sag 6 0.0024 0.9370 2.3099 2.21 0.1429 7 ptg 7 0.0009 0.9379 3.5443 0.83 0.3663 3.2.2 후방소거 득점을 설명하기 위한 경우와 마찬가지로 완전모형에서 출발하여 값을 기준으 로 회귀적합에 가장 기여도가 낮은 설명변수부터 차례로 소거해 나갔다. 기여도에 대 한 유의성검정에서 유의수준(SLSTAY)은 역시 SAS의 디폴트인 0.1로 하였다. 그 결 과 erg, avg, kg, sag, abg, ptg의 순으로 모형에서 제거되었다. 후방소거법의 SAS 출 력결과를 <표 3.4>에 나타냈다. 6개의 설명변수가 포함된 모형이 얻어졌으며, 최소제 곱법으로 적합된 방정식은 다음과 같다. 이 모형의 결정계수는 0.9371, 보정된 결정계수는 0.9307이었으며, 분산분석의 통 계량의 값은 146.49였고 값은 0.0001보다 작았다. 상태수는 385.71이었다. Step Removed <표 3.4> 실점 설명을 위한 후방소거법의 요약 Number Vars In Partial Model C(p) F Value Pr > F 1 erg 11 0.0000 0.9385 11.0057 0.01 0.9402 2 avg 10 0.0001 0.9384 9.0810 0.08 0.7828 3 kg 9 0.0001 0.9383 7.2085 0.13 0.7177 4 sag 8 0.0003 0.9379 5.4845 0.29 0.5921 5 abg 7 0.0002 0.9378 3.6321 0.16 0.6931 6 ptg 6 0.0007 0.9371 2.2138 0.63 0.4310 3.2.3 단계별 회귀 득점을 설명하기 위한 경우와 마찬가지로 유의수준인 SLENTRY와 SLSTAY의 값을 SAS의 디폴트인 0.15로 하여 단계별 회귀법을 적용하였다. 그 결과 whip, hrg, abg, wpg, bkg, sag의 순으로 모형에 들어갔고 제거된 설명변수는 없어서 결과적으로 6개의 설명변수가 포함된 모형이 얻어졌으며, 최소제곱법으로 적합된 방정식은 다음 과 같다.
변수선택 기법을 이용한 한국 프로야구의 득점과 실점 설명 85 이 모형의 결정계수는 0.9370, 보정된 결정계수는 0.9306이었으며, 분산분석의 통 계량의 값은 146.22였고 값은 0.0001보다 작았다. 상태수는 257.99로 계산되었다. <표 3.5>는 단계별 회귀법의 과정을 요약한 SAS 출력결과이다. Step Entered <표 3.5> 실점 설명을 위한 단계별 회귀법의 요약 Removed Number Vars In Partial Model C(p) F Value Pr > F 1 whip 1 0.8702 0.8702 49.8521 429.15 <.0001 2 hrg 2 0.0382 0.9084 18.9424 26.26 <.0001 3 abg 3 0.0102 0.9186 12.1287 7.79 0.0070 4 wpg 4 0.0093 0.9279 6.1251 7.86 0.0068 5 bkg 5 0.0067 0.9346 2.3399 6.16 0.0159 6 sag 6 0.0024 0.9370 2.3099 2.21 0.1429 3.2.4 선택법 모든 가능한 회귀모형을 적합한 뒤 설명변수의 개수별로 값이 큰 모형을 몇 개씩 나타낸 것이 <표 3.6>이다. 설명변수가 4개 이하인 경우는 값이 상대적으로 작으므로 지면 관계상 생략하였다. 이 표에 나타난 경우는 모두 값이 0.93 이상이 다. 6개 변수 중 첫 번째 경우는 후방소거법에서 나온 것과 동일한 모형이고 두 번째 경우는 단계별 회귀법에서 나온 것과 동일한 모형이며, 7개 변수 중 첫 번째 경우는 전방선택법에서 나온 것과 동일한 모형이다. 3.2.5 보정된 선택법 모든 가능한 회귀모형을 적합한 뒤 보정된 값이 큰 모형 5개를 나타낸 것이 <표 3.7>이다. 맨 왼쪽의 기호는 모형들을 간편히 구분하여 지칭하기 위한 것이다. 이 표에 나타난 경우 중 A는 후방소거법에서 나온 것과 동일한 모형이고 B는 단계별 회귀법에서 나온 것과 동일한 모형이며, C는 전방선택법에서 나온 것과 동일한 모형 이다. 3.2.6 Mallows의 선택법 모든 가능한 회귀모형을 적합한 뒤 Mallows의 값을 기준으로 가장 좋은 모형 5개를 나타낸 것이 <표 3.8>이다. 맨 왼쪽의 기호는 모형들을 간편히 구분하여 지칭 하기 위한 것이다. 이 표에 나타난 경우 중 A는 후방소거법에서 나온 것과 동일한 모 형이고 B는 단계별 회귀법에서 나온 것과 동일한 모형이다.
86 김혁주 김예형 <표 3.6> 실점 설명을 위한 선택법의 결과 Number in Model s in Model 5 0.9346 whip abg hrg wpg bkg 5 0.9314 avg whip btg hrg wpg 5 0.9308 whip abg hrg sag wpg 6 0.9371 whip btg hrg bhg wpg bkg 6 0.9370 whip abg hrg sag wpg bkg 6 0.9367 avg whip btg hrg wpg bkg 7 0.9379 whip ptg abg hrg sag wpg bkg 7 0.9378 whip ptg btg hrg bhg wpg bkg 7 0.9376 avg whip abg hrg sag wpg bkg 8 0.9380 whip ptg abg hrg sag kg wpg bkg 8 0.9379 avg whip ptg btg hrg bhg wpg bkg 8 0.9379 whip ptg btg abg hrg bhg wpg bkg 9 0.9383 whip ptg btg abg hrg sag bhg wpg bkg 9 0.9381 whip ptg btg abg hrg bhg kg wpg bkg 9 0.9381 whip ptg btg hrg sag bhg kg wpg bkg 10 0.9384 whip ptg btg abg hrg sag bhg kg wpg bkg 10 0.9383 avg whip ptg btg abg hrg sag bhg wpg bkg 10 0.9383 whip ptg btg abg hrg sag bhg wpg bkg erg 11 0.9385 avg whip ptg btg abg hrg sag bhg kg wpg bkg 11 0.9384 whip ptg btg abg hrg sag bhg kg wpg bkg erg 11 0.9383 avg whip ptg btg abg hrg sag bhg wpg bkg erg 12 0.9385 avg whip ptg btg abg hrg sag bhg kg wpg bkg erg 기호 Number in Model <표 3.7> 실점 설명을 위한 보정된 선택법의 결과 Adjusted Condition Number s in Model A 6 0.9307 0.9371 385.71 whip btg hrg bhg wpg bkg B 6 0.9306 0.9370 257.99 whip abg hrg sag wpg bkg C 7 0.9304 0.9379 283.64 whip ptg abg hrg sag wpg bkg D 7 0.9303 0.9378 444.79 whip ptg btg hrg bhg wpg bkg E 6 0.9302 0.9367 386.96 avg whip btg hrg wpg bkg
변수선택 기법을 이용한 한국 프로야구의 득점과 실점 설명 87 <표 3.8> 실점 설명을 위한 Mallows의 선택법의 결과 기호 Number in Model C(p) Condition Number s in Model A 6 2.2138 0.9371 385.71 whip btg hrg bhg wpg bkg B 6 2.3099 0.9370 257.99 whip abg hrg sag wpg bkg F 5 2.3399 0.9346 223.42 whip abg hrg wpg bkg E 6 2.5943 0.9367 386.96 avg whip btg hrg wpg bkg G 6 2.9808 0.9362 300.51 avg whip abg hrg wpg bkg 3.3 논의 (1)에서 (6)까지의 여섯 가지 판정기준에 의한 결과를 종합하여 어떤 모형을 최적 모형으로 선정할지를 논의해보자. 전방선택법에서 얻어진 모형은 선택법과 보정된 선택법(C)에서도 좋은 모형으로 나왔지만 Mallows의 선택법에 의한 좋은 모 형 5개 중에는 포함되어 있지 않다. 후방소거법에서 얻어진 모형과 단계별 회귀법에 서 얻어진 모형은 선택법과 보정된 선택법 및 Mallows의 선택법(A, B)에 서도 좋은 모형으로 나왔다. 그리고 이 모형들의 상태수는 200에서 400 사이의 값을 가지고 있어서 다중공선성의 문제가 크지 않은 것으로 판단된다. 모형 E는 선택 법에 의한 좋은 모형에도 포함되어 있기는 하지만, 최대 VIF 값이 12.88로 모형 A(7.23)와 모형 B(3.11)에 비해 훨씬 크다. 모형 F는 보정된 선택법에 의한 가장 좋은 5개의 모형에는 포함되지 않았지만, 5개의 설명변수만으로도 0.9346이라는 큰 결 정계수를 보여주고 있으며 최대 VIF가 2.89에 불과하다(<표 3.9> 참조). 이러한 점들 을 고려하여, 팀의 실점을 설명하는 최적에 가까운 모형으로 모형 A와 B와 F를 추천 하고자 한다. 모형 F의 보정된 결정계수는 0.9292였으며, 분산분석의 통계량의 값은 171.57이었고 값은 0.0001보다 작았다. 최소제곱법으로 적합된 모형 A, B, F의 회귀 방정식은 다음과 같다. 모형 A: 모형 B: 모형 F:
88 김혁주 김예형 모형 A에서 경기당4사구(bhg)의 추정된 회귀계수가 음수로 나타나 있다. 이것은 WHIP와의 높은 상관관계 때문에 생긴 현상이다. 이것을 경기당4사구가 늘어나면 경 기당실점이 감소하는 것을 의미하는 것으로 해석하면 안 된다. 경기당4사구가 늘어나 면 WHIP가 높아질 것이기 때문에 경기당실점이 증가하게 될 것이다. <표 3.9>는 모형 A, B, F 각각에 의한 회귀분석 결과이다. 회귀계수별 검정 결과 와 VIF 값들이 함께 수록되어 있다. 모형 B의 sag 계수만 제외하고 모든 회귀계수들 의 값이 0.05보다 작아서 유의함을 알 수 있다. 최대 VIF 값을 보면, 모형 A가 7.23, 모형 B가 3.11, 모형 F가 2.89에 불과하여 일반적인 다중공선성 판정 기준값인 10보다 훨씬 작다. 또한 이 세 모형은 <표 3.8>에서 볼 수 있듯이 Mallows의 기준으로도 가장 좋은 3개의 모형이다. <그림 3.1>은 모형 F에 의한 잔차의 히스토그램과 정규확률도이다. 오차의 정규분 포 가정에 별다른 문제가 없음을 알 수 있다. 모형 A, B에 의한 그림도 크게 다르지 않다. <표 3.10>은 모형 A, B, F에 근거를 두고 표준화잔차의 절댓값이 큰 비정상적 인 관측값들을 찾아낸 것이다. 세 모형에서 모두 2009년 SK의 실제 실점이 회귀식에 의한 적합치보다 특별히 적게 나왔고 2010년 두산의 실제 실점은 회귀식에 의한 적합 치보다 특별히 많게 나온 것으로 나타났다. 해당 연도에 이 팀들의 실제 실점이 어떠 한 이유로 비정상적인 양상을 보였는지는 야구 전문가들의 기술적 관점에서 연구해볼 문제이다. 모형 A <표 3.9> 실점 설명 모형 A, B, F에 의한 회귀분석 결과 DF Parameter Estimate Standard Error t Value Pr > t Tolerance Variance Inflation Intercept 1-8.47409 2.04970-4.13 0.0001. 0 whip 1 4.31501 0.58942 7.32 <.0001 0.13824 7.23362 btg 1 0.17670 0.06899 2.56 0.0130 0.18098 5.52555 hrg 1 0.86382 0.14420 5.99 <.0001 0.55474 1.80264 bhg 1-0.22936 0.07109-3.23 0.0020 0.47462 2.10696 wpg 1 0.70986 0.26447 2.68 0.0094 0.67418 1.48328 bkg 1 3.97458 1.62279 2.45 0.0173 0.97259 1.02818 모형 B DF Parameter Estimate Standard Error t Value Pr > t Tolerance Variance Inflation Intercept 1-9.30577 1.53683-6.06 <.0001. 0 whip 1 4.04732 0.38708 10.46 <.0001 0.32113 3.11405 abg 1 0.20315 0.05067 4.01 0.0002 0.51457 1.94338 hrg 1 0.88830 0.15140 5.87 <.0001 0.50417 1.98344 sag 1 0.29380 0.19784 1.49 0.1429 0.75120 1.33120 wpg 1 0.64689 0.26620 2.43 0.0182 0.66662 1.50010 bkg 1 3.91887 1.62638 2.41 0.0191 0.97001 1.03092
변수선택 기법을 이용한 한국 프로야구의 득점과 실점 설명 89 모형 F DF Parameter Estimate Standard Error t Value Pr > t Tolerance Variance Inflation Intercept 1-8.43816 1.43566-5.88 <.0001. 0 whip 1 4.20112 0.37669 11.15 <.0001 0.34589 2.89111 abg 1 0.17957 0.04860 3.70 0.0005 0.57061 1.75252 hrg 1 0.82602 0.14692 5.62 <.0001 0.54607 1.83125 wpg 1 0.71596 0.26472 2.70 0.0089 0.68761 1.45431 bkg 1 4.06933 1.63945 2.48 0.0159 0.97379 1.02692 <그림 3.1> 모형 F에 의한 잔차의 히스토그램과 정규확률도 모형 연도 팀 rlg 잔차 표준화잔차 A B F <표 3.10> 비정상적 관측값들 (실점의 경우) 2009 SK 4.1353 4.6524 0.0757-0.5171-3.03 2010 두산 5.0301 4.6401 0.0567 0.3900 2.19 2009 SK 4.1353 4.6557 0.0736-0.5203-3.03 2010 두산 5.0301 4.6517 0.0633 0.3784 2.15 2009 SK 4.1353 4.6979 0.0685-0.5626-3.20 2010 두산 5.0301 4.6071 0.0563 0.4230 2.35 4. 결론 대다수의 다른 구기 종목과 마찬가지로 야구는 두 팀이 겨뤄서 점수를 많이 내는 팀이 이기는 경기이다. 타자가 홈에서 공격을 시작하여 1루, 2루, 3루를 거쳐 홈으로 돌아와야 점수가 된다. 안타나 홈런을 아무리 많이 쳐도 상대팀보다 점수를 많이 내 지 못하면 이기지 못한다. 즉 득점과 실점은 승부의 본질이다. 따라서 득점과 실점에 영향을 미치는 요인들에 관하여 연구하는 것은 무의미하지 않을 것이다. 위와 같은 취지로 본 논문에서는 한국 프로야구에서 팀들의 득점과 실점을 설명하 기 위한 회귀모형을 변수선택 기법을 사용하여 구해보고 관련된 내용을 연구하였다. 변수선택 기법으로는 전방선택법, 후방소거법, 단계별 회귀법, 선택법, 보정된
90 김혁주 김예형 선택법, Mallows의 선택법을 적용하였다. 여러 방법에 의한 결과를 종합적으로 고 려하여 득점을 설명하는 모형 4가지와 실점을 설명하는 모형 3가지를 추천하였다. 추천된 득점 설명 모형에는 장타율, 경기당타석, 경기당도실, 경기당병살타, 경기당 잔루가 공통적으로 들어갔고, 모형에 따라 타율과 출루율 중 하나가 들어갔으며, 그 밖에 모형에 따라 경기당타수, 경기당홈런, 경기당희생타, 경기당4사구가 들어갔다. 그 렇다고 이것을, 모형에 공통적으로 들어간 설명변수들보다 타율과 출루율이 덜 중요 하다는 뜻으로 오해하면 안 될 것이다. 타율과 출루율은 개별적으로는 득점과 관련이 큰 요인이지만 두 가지가 동시에 모형에 들어갈 필요성은 크지 않다는 의미이기 때문 이다. 추천된 득점 설명 모형은 공히 98%를 상회하는 결정계수를 보였다. 추천된 실점 설명 모형에는 WHIP, 경기당피홈런, 경기당폭투, 경기당보크가 공통 적으로 들어갔고, 모형에 따라 경기당타자수, 경기당타수, 경기당4사구, 경기당희생타 가 들어갔다. 추천된 3개의 모형에 피안타율이 포함되지 않은 것도, WHIP가 가장 중 요한 변수로 들어가므로 굳이 동시에 들어갈 필요성이 크지 않기 때문인 것으로 해석 할 수 있다. 추천된 실점 설명 모형은 공히 93%를 상회하는 결정계수를 보였다. 본 논문에서 얻어진 결과는 김혁주(2012), 김혁주와 김예형(2014), 그리고 김혁주와 김예형(2015)에서 구한 공격지표와 수비지표가 한국 프로야구팀들의 득점과 실점에 관해 설명하는 것보다 더욱 높은 설명력을 보였다. 미국이나 일본의 프로야구에 관심 이 있는 연구자가 연구한다면, 각국의 야구 성향과 나라 간의 차이를 알아볼 수 있는 작업이 될 것이다. (2015년 9월 7일 접수, 2015년 10월 6일 수정, 2015년 10월 19일 채택) 감사의 글 이 논문은 2014학년도 원광대학교의 교비 지원에 의해서 수행되었습니다.
변수선택 기법을 이용한 한국 프로야구의 득점과 실점 설명 91 참고문헌 김혁주 (2012). 한국 프로야구에서 출루 능력과 장타력이 득점 생산성에 미치는 영향, Journal of the Korean Data & Information Science Society, 23, 1065-1074. 김혁주, 김예형 (2014). 한국 프로야구에서 가중수정OPS를 이용한 득점력 설명, <응 용통계연구>, 27, 731-741. 김혁주, 김예형 (2015). 결합된 수비지표들을 이용한 한국 프로야구의 실점 설명, <응 용통계연구>, 28, 인쇄 중. 이장택 (2014a). 한국프로야구에서 타자능력의 측정, Journal of the Korean Data & Information Science Society, 25, 349-356. 이장택 (2014b). 한국프로야구에서 출루율 계수의 추정, Journal of the Korean Data & Information Science Society, 25, 357-363. 이장택, 김용태 (2005). 한국프로야구에 적당한 득점 추정측도에 관한 연구, Journal of the Korean Data Analysis Society, 7, 2289-2302. 이해용, 이성건 (2008). 한국프로야구의 기록이 승리에 미치는 영향분석, Journal of the Korean Data Analysis Society, 10, 3413-3422. 조영석, 조용주 (2005a). 한국 프로야구에서 OPS와 득점에 관한 연구, Journal of the Korean Data Analysis Society, 7, 221-231. 조영석, 조용주 (2005b). 한국프로야구에서 득점과 실점을 이용한 승률 추정에 관한 연구, Journal of the Korean Data Analysis Society, 7, 2303-2312. 채진석, 조은형, 엄한주 (2010). 프로야구 포스트시즌 진출 예측을 위한 통계적 모형 비교, <한국체육측정평가학회지>, 12, 33-48. 한국야구위원회 (2009). <2009 한국프로야구 기록대백과>, 한국야구위원회. 한국야구위원회 (2010). <2010 한국프로야구 연감>, 한국야구위원회. 한국야구위원회 (2011). <2011 한국프로야구 연감>, 한국야구위원회. 한국야구위원회 (2012). <2012 한국프로야구 연감>, 한국야구위원회. 한국야구위원회 (2013). <2013 한국프로야구 연감>, 한국야구위원회. 한국야구위원회 (2014). <2014 한국프로야구 연감>, 한국야구위원회. 한국야구위원회 (2015). <2015 한국프로야구 연감>, 한국야구위원회. 홍종선, 박하수 (2008). Visual representation and applications of hitting direction in Korean baseball records, Journal of the Korean Data & Information Science Society, 19, 539-549. 홍종선, 최정민 (2008). 2007년 한국프로야구에서 도루성공모형, <응용통계연구>, 21, 455-468. Mallows, C. (1973). Some comments on, Technometrics, 15, 661-675.
92 김혁주 김예형 Explanation of Runs Using Selection Technique in Korean Professional Baseball 1) Hyuk Joo Kim 2) Yea Hyoung Kim 3) Abstract We studied on factors which affect runs scored and runs lost of teams in Korean professional baseball. We analyzed the data from all games in the regular seasons from 2007 to 2014. Using variable selection techniques such as forward selection, backward elimination, stepwise regression, selection, adjusted selection and Mallows' selection, we recommended four regression models for explaining average runs scored and three regression models for explaining average runs lost. We also obtained the resultant least squares regression equations. All the coefficients of determination of the recommended models for explaining runs scored was over 98%, and all those of the recommended models for explaining runs lost was over 93%. Key words : Korean professional baseball, runs scored, runs lost, variable selection technique 1) This paper was supported by Wonkwang University in 2014. 2) (Corresponding author) Professor, Division of Mathematics & Informational Statistics and Institute of Basic Natural Sciences, Wonkwang University, 460 Iksan-daero, Iksan, Jeonbuk 54538, Korea. E-mail: hjkim@wonkwang.ac.kr 3) Lecturer, Division of Mathematics & Informational Statistics, Wonkwang University, 460 Iksan-daero, Iksan, Jeonbuk 54538, Korea. E-mail: dpguddl@wonkwang.ac.kr