프로야구승률에대한분석을통한 한화이글스의개선방안 김상민, 김준병, 이지환 Ⅰ. 서론 1. 연구배경 1986년대전을연고지로한빙그레이글스 ( 現한화이글스 )( 이하한화이글스 ) 가창단되었다. 한화이글스는창단첫시즌 7위로최하위을기록하였지만, 1988년부터 96년까지중상위권에위치하며전성기를맞이했다. 88, 89, 91, 92, 99, 06, 07 에한국시리즈에진출하기도하였으며 1999년에는창단이래첫우승을맛보기도하였다. 하지만그이후성적은초라하기짝이없다. 특히 2009년부터한화는하위권에머물러있으며, 타팀의팬들에게꼴화, 꼴칙스등팀마스코트인독수리를닭에빗대어조롱받고있다. 하지만한화이글스의팬들은그런한화를항상응원하며, 팀의순위에연연하지않고강한충성심을보여주고있다. 이러한팬들의서포팅을바탕으로이번 15시즌한화는야구의신김성근감독을영입하고투수권혁, 송은범, 배영수를영입하며투수진보강에나섰다. 이외에도이용규등리그에서잔뼈굵고우승경력이있는대형선수들을대거영입하며팀의분위기를바꾸려는노력을하였지만, 그럼에도불구하고올시즌의전망은밝지않은실정이다. 또한현재 10개구단중 7위에머물러있고팀의분위기마저좋지않다. 따라서한화이글스의개혁에더욱도움을주고자이논문을집필하기로하였고방법을찾던중영화 머니볼 에서나온머니볼이론에대해관심을갖게되었다. 머니볼이론의창시자빌리빈오클랜드단장은스타선수, 홈런, 타율보다출루율이승리에더욱연관이있다는사실을머니볼이론에입각한빅데이터분석을통해알아냈고그에따른영입을함으로써만년하위권팀을상위권팀으로발돋움했다. 또한 2003년미국프로야구팀보스턴레드삭스는세이버메트릭스의창시자인빌제임스를고용하여야구데이터를활용한선수선별과영입을통해 86년만에월드시리즈를제패하기도했다. 하지만국내 KBO 리그에는이러한세이버메트릭스분석이매우부족한현실이다. 따라서회귀분석을통한경기요인과승률및승리에대한관계를밝히고, 한화의부족한점을파악하여좋은영입을위한정보를제공하여팀의발전에기여를하고자이논문을집필하게되었다. 2. 기존연구현황및연구방법 기존연구자료를찾아본결과, 세이버메트릭트에기인한경기력에관한연구자료들이있었으나세이버메트릭스를이용한선수영입과팀발전에관한내용은없었다. 하지만투수와타자의단순데이터를이용한영입효율성에관한논문 1) 이있었다. 해당논문에착안을받아세이버메트릭스지표들과효율적인선수영입을접합시키는논문을집필하기로하였으며연구방법은다음과같다. 1. 세이버메트릭스에따른경기력요인들중승률에영향을미치는요인들을구해최적의모델을설정한다. 1) 강인교, 이우기, 정혜민, 추웅 (2014). 효율성분석을이용한한국프로야구선수영입효과에관한연구 - 1 -
2. 세이버메트릭스에따른최적의경기력요인들을바탕으로상위권팀의평균을구하고한화이글스의평균과비교분석한다. 3. 다중회귀분석을통해구해낸승률에영향을미치는요인들중한화가가진단점을보완하기위한선수영입리스트를작성한다. 이논문은최하위한화이글스를한국시리즈진출팀으로도약시키는데필요한정보를제공하기위하여집필되었으며, 실제머니볼에서경제, 통계적인분석방법으로꼴찌에서상위권팀으로발돋움한오클랜드에슬레틱스의기적을한화이글스에재현하고자하는데있다. Ⅱ. 연구방법 1. 승률의결정요인후보에대한선별 우리나라프로야구구단의승률에영향을미치는결정요인들을실증적으로판별하기위해일관성있는자료확보가가능한범위내에서후보들을선별하였다. 후보들은국내외프로야구에관해과학적분석을통해얻어진세이버메트릭스지표들과국내외연구에서거론되었던주요지표들을바탕으로선별하였다. 승률에큰영향을미칠것이라생각되는요인인원정과홈은선행연구결과 2) 로영향이미비하다판별되었으므로제외하였다. 또한변수들의보다직관적인이해를돕고자공격요인과수비요인두가지의범주로분류하였다. 1) 공격요인각구단의공격력을평가하기위한요인으로는타율, 장타율, 출루율, 홈런등이가장대표적이다. OPS( 출루율 + 장타율 ) 는가장보편화된세이버메트릭스의지표중의하나지만선행연구결과 3) 를통해출루율과장타율로분리해서모형을설정하는것이더나은것으로판별되어본연구에서도그와같은방법을따른다. 홈런을나타내는지표로는홈런수가아닌안타당홈런의비율을나타낸홈런율을사용하였다. 홈런율을사용한이유로는홈런수는각구단마다타수가다르므로상대적으로나타나기에보다객관적인분석을하고자홈런율을사용하였다. 또한타격뿐만이아닌공격요인으로도루를선별하였으며이도홈런과마찬가지로도루수가아닌도루성공율을사용하였다. 번트는성공했을경우안타에포함되기에이연구에서는공격요인에서제외시켰다. 2) 수비요인수비력을나타내는요인으로는전통적인요인인방어율 ( 평균자책점 ) 과수비의대표적인세이버메트릭스지표인출루허용률 (WHIP, Walks plus Hits divided by Innings Pitched) 와이닝당베이스허용률 (ABIP, Allowed Base by Innings Pitched) 을사용하였다. 또한타율과반대되는개념인피안타율이라는요인을설정하였으며, 홈런을많이맞는팀일수록팀의승률이낮을것이라는가정을통해피홈런율이라는요인을설정하였다. 또한야구에서투수가차지하는비율이큰만큼투수의공격력을나타내는탈삼진을나타낸지표인탈삼진율을방어요인중의하나로설정하였다. 추가로투수만의능력이아닌야수들의수비능력을포함시키기위하여수비실책이나타나있는지표인수비율을사용하였다. 2) 이장택, 조현식 (2009). 로지스틱회귀모형을이용한프로야구홈경기의이점에관한연구 3) 장진희, 문춘걸 (2014). 한국프로야구의구단승률에대한분석 - 2 -
< 표 1> 구분 변수명 변수설명 종속변수 승률의 log-odds ln( 승률 /(1-승률)) 타율 안타 / 타수 출루율 ( 안타 + 볼넷 + 사구 )/ 타석 장타율 (1B+2Bⅹ2+3Bⅹ3+4Bⅹ4)/ 타수 홈런율 홈런 / 안타 도루성공율 도루성공 /( 도루성공 + 도루실패 ) 설명변수 수비율 ( 풋아웃 + 어시스트 )/ ( 풋아웃 + 어시스트 + 실책 ) 평균자책점 ( 자책점ⅹ9)/ 이닝수 피안타율 피안타 / 타수 피홈런율 피홈런 / 타수 탈삼진율 탈삼진 / 타수 WHIP ( 안타 + 볼넷 )/ 이닝수 ABIP (1B+2Bⅹ2+3Bⅹ3+4Bⅹ4+ 볼넷 + 데드볼 )/ 이닝수 2. 분석대상및자료 한국프로야구의구단은프로야구가창설된 1982 년에삼성라이온즈, 두산베어스, 롯데 자이언츠로출발하였으며 1986 년한화이글스, 1990 년 LG 트윈스, 1996 년현대유니콘스 (2007 년에해체 ; 분석대상제외 ), 2000 년 SK 와이번스, 2001 년 KIA 타이거즈, 2008 년넥 센히어로즈, 2012 NC 다이노스 (2013 년에 1 부리그로승격되었으므로본영구에서는 2013 년 ~2014 년의자료만분석 ), 2013 KT 위즈 (2015 년에 1 부리그로승격되었으므로분석대상 제외 ) 가창단되었다. 본연구목적은한화의순위상승에있으므로한화가하위권에머무르기 시작한 2009 년부터 2014 년까지의기간에걸친연도별 / 구단별승률을분석하고자한다. 따 라서분석자료는총 9 개구단에대한시계열자료와횡단면자료가합쳐진불균형패널자 료 (NC 다이노스 2013 년 ~2014 년 ) 의유형에속한다. 분석자료는 KBO 홈페이지에서제공하 는연감을사용하여직접구하였다. 분석대상인 9 개구단의 2014 년순위는다음과같다. < 표 2> 구단명 연고지 순위 삼성라이온즈 대구 1 두산베어스 서울 6 롯데자이언츠 부산 7 한화이글스 대전 9 LG 트윈스 서울 4 SK 와이번스 인천 5 KIA 타이거즈 광주 8 넥센히어로즈 서울 2 NC 다이노스 창원 3 3. 실증분석계량경제모형 본연구의실증분석대상인구단별 / 연도별승률자료의기간은삼성, 롯데, 두산, 기아, LG, 한화, SK, 넥센은전체분석기간인 2009 년 ~2014 년, NC 는 2013 년 ~2014 년으로상이하 여불균형패널자료에해당된다. 실증분석을위한계량경제모형으로서는설명변수가여러개 인다중회귀모형을사용하였다. - 3 -
Ⅲ. 실증분석결과 < 표 3> 에는 < 표 1> 에제시된모든설명변수를포함하는최초모형 ( 모형 1) 으로부터제일통계적인유의성이떨어지는변수들을순차적으로제거하여조정결정계수가제일높은최적모형 ( 모형 4) 의추정결과를제시하고있다. 변수들을제거한방법으로는 p값이높아통계적유의성이떨어지는요인들을순차적으로배제시켰다. 이러한방법을따른이유는모형선택의통계학적일치성을확보하기위해서이다. 모형 1로부터 p값이가장높아통계적유의성이가장떨어지는변수인탈삼진율을제거한모형 2를추정한결과조정결정계수가 0.905에서 0.907로개선되어모형 1보다모형 2 가더적합한모형으로판별되었다. 모형 2로부터 p값이 0.5를초과하여통계적유의성이떨어지는수비율, 피홈런율, 도루성공율을제거하고모형 3을추정한결과조정결정계수가 0.911로개선되어모형 2보다모형3이더적합한모형으로판별되었다. 모형 3으로부터 p 값이 0.4로가장높은타율을제거하고모형 4를추정한결과조정결정계수가 0.912로개선되어모형 3보다모형4가더적합한모형으로판별되었다. 모형 4로부터 p값이가장높아통계적유의성이가장떨어지는변수인출루율을제거하고모형 5를추정한결과조정결정계수가 0.910으로악화되어모형 4가모형 5보다더적합한모형으로판별되었다. 따라서조정결정계수가가장높은모형 4가가장큰설명력을나타낸다고판단되어최적모형으로선별되었다. 따라서, 구단의승률에영향을미치는요인에대한논의는모형 4를중심으로한다. 모형 1에는포함되어있지만통계적유의성이떨어져모형 4에제거된별수들로는타율, 수비율, 피홈런율, 탈삼진율, 도루성공율이있다. 이들변수들은통계학적절차에따라선별된최적모형에서제외되었으므로구단의승률결정요인으로볼수없다. 95% 의신뢰구간을설정하여분석한결과최적모형에남아있는모든설명변수들은최소 10% 유의수준에서통계학적으로유의한것으로나타났다. Ⅳ. 결과분석 이번장에서는 < 표 3> 의모형 4( 최적모형 ) 을중심으로우리나라프로야구구단의승률에미치는결정요인과그의미를분석한다. 공격요인중가장대중적인타율은승률에큰영향을끼치지않는것으로판별된것과는달리세이버메트릭스의대표적인공격요인인 OPS의구성요소인출루율과장타율모두개별적으로통계적인유의성이높게승률에양의영향을미치고있으며장타율이출루율보다더욱중요하다는것이나타났다. 안타와홈런의비율을나타낸홈런율은승률에음의영향을미쳐홈런을많이치는팀일수록승률이낮아진다는다소흥미로운결과가나왔다. 또한도루가팀승률에도움이된다는견해와는다르게도루성공율은통계적으로유의성이없는것으로나타났다. 수비요인중수비실책을나타낸수비율은통계적으로유의성이없는것으로판별되어수비실책이승리에영향을끼치지않는다는것이나타났다. 이를통해야구의수비에서는야수의능력보다투수의능력이더욱중요하다는것을알수있다, 투수의방어율을나타낸평균자책점은통계적인유의성이높게승률에음의영향을미치는것으로나타났다. 타율이승률에영향을미치지않는것과는반대로피안타율은통계적으로유의성이높게승률에음의영향을미치고있는것으로나타났다. 피안타율과는달리피홈런율은통계적유의성이 - 4 -
없는것으로판별되었다. 승률에많은영향을미칠것이라기대되었던탈삼진율또한통계 적으로유의성이없는것으로나타났다. 세이버메트릭스의대표적인수비지표인 WHIP 과 ABIP 모두통계적으로유의성이있는것으로나타났다. < 표 3> 변수 모형 1( 최초모형 ) 모형 4( 최적모형 ) 종속변수 설명변수 모수추정치 추정오차 p-값 모수추정치 추정오차 p-값 타율 1.874 2.305 0.421 - - - 구 출루율 0.882 1.088 0.423 1.264 0.904 0.169 단장타율 8.985 2.029 0.001 9.997 1.543 0.001 별홈런율 -0.980 1.167 0.407-1.907 0.567 0.002 연도루성공율 -0.087 0.138 0.532 - - - 도수비율 2.029 3.536 0.569 - - - 별평균자책점 -0.124 0.034 0.001-0.125 0.026 0.001 승피안타율 -6.229 2.157 0.006-6.325 1.579 0.001 률피홈런율 -1.225 2.279 0.594 - - - 의탈삼진율 0.033 0.586 0.955 - - - 로그 WHIP 1.391 0.370 0.001 1.378 0.329 0.001 오 ABIP -1.566 0.317 0.001-1.599 0.287 0.001 즈 결정계수 0.928 0.924 조정결정계수 0.905 0.912 Ⅴ. 한화의전력분석 최적모델을통해얻은유의한변수들인출루율, 장타율, 평균자책율, 피안타율, WHIP, ABIP, 홈런율을 2009 년 ~2014 년전체팀평균으로구한결과출루율은 0.350, 장타율 0.402, 홈런율 0.091, 평균자책율 4.492, 피안타율 0.271, WHIP 1,452, ABIP 2.011 으로 나타냈다. 2015 년한화는현재출루율 0.350, 장타율 0.392, 홈런율 0.102, 평균자책율 5.210, 피안타율 0.278, WHIP 1.60, ABIP 1.687 의값을가졌고, 수치상으로두자료를비 교한결과출루율과피안타율, 홈런율, ABIP 은평균과유사하거나오히려더높은값을가 져좋은결과였으나, 장타율, 평균자책율, WHIP 는평균에비해못미치거나높은높아부 정적인경향을가졌다. 허나이논문은한화를단순평균팀이아닌상위권으로도약하는데 목적이있으므로더욱확실한결과를내기위해포스트시즌진출권인상위 4 개팀의평균과 분석하기로하였다. 2009 년부터 2014 년의상위 4 개팀의평균을보면출루율 0.355, 장타 율 0.416, 홈런율 0.096, 평균자책점 4,107, 피안타율 0.264, WHIP 1.390, ABIP 2.027 를 나타낸다. 이지표들을분석한결과한화이글스는출루율, 홈런율, ABIP 는문제가없는것 으로나타났으나장타율, 평균자책점, 피안타율, WHIP 에있어서는개선이필요하다고판단 되었다. 이로인해한화에가장필요한것은투수진의보강이라고판단되었으며타자진의 경우전체적으로는문제가없으나장타력의경우전체평균에도미치지못하는수준을보여 장타력을향상시키는것이또한상위팀으로도약하는데에필요하다고판단되었다. < 표 4> 구분 평균 상위평균 한화 출루율 0.350 0.355 0.350 장타율 0.402 0.416 0.392 홈런율 0.091 0.096 0.102 평균자책점 4.492 4.107 5.210 피안타율 0.271 0.264 0.278-5 -
Ⅵ. 개선방안 WHIP 1.452 1.390 1.600 ABIP 2.011 2.027 1.687 위의분석에서한화의약점은전체적인투수진의약세와타자진의장타력부족이라고볼 수있다. 따라서한화가상위권으로도약하기위해서는투수진의보강이절실히필요하다고 판단되어진다. < 표 5> 에는연봉 1 억이하의선수들중성적이뛰어난선수들과 16 년도 FA 자유계약대상선수들중성적이뛰어난선수들이정리되어있다. 이선수들은연봉대비 뛰어난실력을보여실력에비해연봉이저평가된선수들이다. 15 년도프로야구의경우트 레이드에소극적이었던지금까지와는다르게각구단이트레이드에적극적으로나서고있으 므로한화가이들선수들을영입한다면한화의투수보강에많은도움이될것이다. 이선 수들중연봉대비가장뛰어난효율을보이는선수들은순서대로조상우, 박종훈, 홍건희, 엄상백, 이태양이며이선수들은모두 25 세의선수들로한화가영입을해주력으로육성한 다면앞으로더많은성장을이룰것이라기대된다. 또한 2016 년 FA 시장에나오는선수들 중에서는윤길현, 이동현이가장좋은효율을보여주고있다. 따라서한화가 FA 시장에서 우선적으로계약을해야할선수들은이두선수들이다. 각선수들의연봉대비실력에관한 효율은위에서구한승률에유의한투수들의변수인피안타율, 평균자책점, WHIP, ABIP 로 회귀분석을한결과를토대로구하였다. < 표 5> ( 연봉단위 : 천원 ) 선수명 피안타율 WHIP 평균자책점 연봉 비고 박종훈 0.232 1.370 3.600 27,000 SK 엄상백 0.259 1.480 4.784 27,000 KT 이태양 0.248 1.220 4.005 33,000 NC 임지섭 0.176 1.710 6.346 24,000 LG 장시환 0.228 1.250 4.030 33,000 KT 조상우 0.196 0.950 2.538 28,000 넥센 진야곱 0.252 1.930 5.114 28,000 두산 최금강 0.214 1.280 4.227 40,000 NC 홍건희 0.204 1.380 4.472 28,000 KIA 우규민 0.245 1.030 2.590 180,000 FA 윤길현 0.241 1.500 3.050 145,000 FA 이동현 0.239 1.090 2.190 170,000 FA 정우람 0.126 0.900 2.360 400,000 FA 투수력과더불어한화의약점인장타력을보강하기위하여한화는장타자들을영입하여야한다. < 표 6> 에는연봉 1억이하의선수들중성적이뛰어난선수들과 16년도 FA자유계약대상선수들중성적이뛰어난선수들이정리되어있다. 이선수들중연봉대비가장뛰어난효율을보이는선수들은순서대로오승택, 구자욱, 유강남, 이홍구이다. 이선수들은모두 26세의젊은선수들로이선수들을우선적으로영입한다면향후한화의장타력에많은도움이될것이라판단된다. 또한 FA시장에나오는선수중에서가장좋은효율을보여주는선수들은유한준, 박재상이다. 특히유한준의경우장타력과출루율이 FA 선수들중가장높으나연봉은 FA 선수들중가장낮아실력에비해연봉이크게저평가된선수로한화가이선수를 FA 시장에서영입한다면장타력이부족한한화의타자진에큰도움이될것이라판단된다. - 6 -
< 표 6> ( 연봉단위 : 천원 ) 선수명 출루율 장타율 연봉 비고 구자욱 0.357 0.506 27,000 삼성 김민우 0.373 0.581 83,000 KIA 나성범 0.384 0.529 75,000 NC 박용택 0.361 0.527 35,000 LG 오승택 0.337 0.552 25,000 롯데 유강남 0.351 0.479 27,000 LG 윤석민 0.369 0.540 77,000 넥센 이병규 0.397 0.500 93,000 LG 이홍구 0.356 0.525 30,000 KIA 김현수 0.393 0.486 450,000 FA 박재상 0.349 0.430 160,000 FA 박정권 0.376 0.415 235,000 FA 유한준 0.475 0.751 115,000 FA 이승엽 0.360 0.505 800,000 FA 이택근 0.428 0.555 700,000 FA 진갑용 0.366 0.500 250,000 FA Ⅶ. 한계점 본연구의한계로는승률에대한분석요인중많은요인들이무시되어있다는점이다. 감독역량이나기후등경기내의요인이아닌경기외적인요인들이무시되어있다. 또한 위의분석들은최근의데이터로이루어진결과이다. 야구는통계학적으로연관이높은스포 츠임에도불구하고매시즌선수들의기량은항상일관적이지않다는점에서본연구결과 는계속해서수정되어야한다는문제점이있다. 하지만선수들의기량은대체로한시즌을 기준으로꾸준한모습을보이는경향이있으므로매시즌데이터분석을달리한다면본연 구의방법론은계속해서쓰임을유지할수있을것이다. 다음으로프로야구의연봉체계따 른문제를찾을수있다. 선수의기량도연봉책정에주요요소이지만경험을나타내는선 수의연차에따라연봉에큰영향을주지만본연구에서는연봉의효율을중시했으므로선 수의경험이라는요소가배제되었다. 실제연차가높은선수들이팀에기여할수있는요소 가저평가되었다. - 7 -
참고문헌 장진희, 문춘걸 (2014). 한국프로야구의구단승률에대한분석. 한국스포츠산업 경영학회지, 19(3), 17-31. 진서훈, 김기환, 전수영 (2013). 프로야구기록에따른승리요인에관한연구. 고려대학교석사논문이장택, 조현식 (2009). 로지스틱회귀모형을이용한프로야구홈경기의이점에관한연구. Journal of the Korean Data Analysis Society, 11(1), 533-543 강인교, 이우기, 정혜민, 추웅 (2014). 효율성분석을이용한한국프로야구선수영입효과에관한연구. 정보기술아키텍처연구, 11(1), 75-80 선수자료참고. 한국프로야구선수협회공식기록실 KBR ( 사 ) 한국프로야구위원회 (2010). 2010년프로야구연감 ( 사 ) 한국프로야구위원회 (2011). 2011년프로야구연감 ( 사 ) 한국프로야구위원회 (2012). 2012년프로야구연감 ( 사 ) 한국프로야구위원회 (2013). 2013년프로야구연감 ( 사 ) 한국프로야구위원회 (2014). 2014년한국프로야구연감 ( 사 ) 한국프로야구위원회 (2015). 2015년 KBO 연감 - 8 -