310 Jang Taek Lee 1.83을주로사용하며, 한국프로야구인경우도 Lee (2016b) 에의하면 1982년부터 2015년전경기를이용한 γ의최적해는메이저리그와같게 1.83으로나타났다. 피타고라스정리의최적지수 γ의추정문제를다룬연구들은메이저리그인경우, Davenpo

Similar documents
1478 Jangtaek Lee 큰경우가 6.24%, 가장작은경우가 0.03%, 평균 1.95% 로이정도의오차는일반적으로설명할수없는 랜덤오차로보기에충분하다고할수있겠다. 지금까지수행된야구의피타고라스정리에관한연구들은크게나누면세가지로대별된다. 첫째는 피타고라스정리에사용되는지

65 Soon-Kwi Kim Young-Hoon Lee 한국프로야구의매시즌별팀당경기수가동일하지않으므로, 본연구에서는시즌별팀당경기수 G로나눈시즌별경기당득점수 rsg와경기당실점수 rag를변수 rs와 ra 대신사용하였다. 절에서승률을정의하고,.절에서 rsg rag와승률간의상

untitled

DBPIA-NURIMEDIA

(001~006)개념RPM3-2(부속)

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

???? 1

09구자용(489~500)

DBPIA-NURIMEDIA

<352E20BAAFBCF6BCB1C5C320B1E2B9FDC0BB20C0CCBFEBC7D120C7D1B1B920C7C1B7CEBEDFB1B8C0C720B5E6C1A1B0FA20BDC7C1A120BCB3B8ED D2DB1E8C7F5C1D62E687770>

???? 1

DBPIA-NURIMEDIA

에너지경제연구 Korean Energy Economic Review Volume 11, Number 2, September 2012 : pp. 1~26 실물옵션을이용한해상풍력실증단지 사업의경제성평가 1

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

인문사회과학기술융합학회

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

에너지경제연구 제13권 제1호

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

statistics

DBPIA-NURIMEDIA

The characteristic analysis of winners and losers in curling: Focused on shot type, shot accuracy, blank end and average score SungGeon Park 1 & Soowo

14.531~539(08-037).fm

자연채무에대한재검토 1. 서론 2. 선행연구 9 Journal of Digital Convergence 214 May; 12(5): 89-99

롯데여 영원하라

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: : Researc

Analysis of objective and error source of ski technical championship Jin Su Seok 1, Seoung ki Kang 1 *, Jae Hyung Lee 1, & Won Il Son 2 1 yong in Univ

012임수진

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

Microsoft Word - LectureNote.doc

DBPIA-NURIMEDIA

한국성인에서초기황반변성질환과 연관된위험요인연구

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu


simpro의 프로야구 이야기

1. KT 올레스퀘어 미디어파사드 콘텐츠 개발.hwp

06_À̼º»ó_0929

서론 34 2

<C7A5C1F620BEE7BDC4>

KDI정책포럼제221호 ( ) ( ) 내용문의 : 이재준 ( ) 구독문의 : 발간자료담당자 ( ) 본정책포럼의내용은 KDI 홈페이지를 통해서도보실수있습니다. 우리나라경

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: 3 * The Effect of H

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

<31372DB9DABAB4C8A32E687770>

#Ȳ¿ë¼®

에너지경제연구제 16 권제 1 호 Korean Energy Economic Review Volume 16, Number 1, March 2017 : pp. 95~118 학술 탄소은행제의가정용전력수요절감효과 분석 1) 2) 3) * ** *** 95

<35BFCFBCBA2E687770>

27 2, 1-16, * **,,,,. KS,,,., PC,.,,.,,. :,,, : 2009/08/12 : 2009/09/03 : 2009/09/30 * ** ( :

- 1 -

31. 을전개한식에서 의계수는? 를전개한식이 일 때, 의값은? 을전개했을때, 의계수와상수항의합을구하면? 을전개했을때, 의 계수는? 를전개했을때, 상수항을 구하여라. 37

278 경찰학연구제 12 권제 3 호 ( 통권제 31 호 )

03-서연옥.hwp

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA

8-VSB (Vestigial Sideband Modulation)., (Carrier Phase Offset, CPO) (Timing Frequency Offset),. VSB, 8-PAM(pulse amplitude modulation,, ) DC 1.25V, [2

(5차 편집).hwp

G Power

경제관련 주요 법률 제,개정의 쟁점 분석.doc

장연립방정식을풀기위한반복법 12.1 선형시스템 : Gauss-Seidel 12.2 비선형시스템 12.1 선형시스템 : Gauss-Seidel (1/10) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정

<352EC7E3C5C2BFB55FB1B3C5EBB5A5C0CCC5CD5FC0DABFACB0FAC7D0B4EBC7D02E687770>

슬라이드 1

Kor. J. Aesthet. Cosmetol., 라이프스타일은 개인 생활에 있어 심리적 문화적 사회적 모든 측면의 생활방식과 차이 전체를 말한다. 이러한 라이프스 타일은 사람의 내재된 가치관이나 욕구, 행동 변화를 파악하여 소비행동과 심리를 추측할 수 있고, 개인의

Microsoft PowerPoint Relations.pptx

04-다시_고속철도61~80p

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

12È«±â¼±¿Ü339~370

44-4대지.07이영희532~

<B3EDB4DC28B1E8BCAEC7F6292E687770>

20(53?)_???_O2O(Online to Offline)??? ???? ??.hwp

Microsoft PowerPoint - 26.pptx

991-1.pdf


<35335FBCDBC7D1C1A42DB8E2B8AEBDBAC5CDC0C720C0FCB1E2C0FB20C6AFBCBA20BAD0BCAE2E687770>

03-ÀÌÁ¦Çö

untitled

PowerPoint Presentation


04_이근원_21~27.hwp

03±èÀçÈÖ¾ÈÁ¤ÅÂ


Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A Research Trend


DBPIA-NURIMEDIA

歯5-2-13(전미희외).PDF

<B9CCB5F0BEEEB0E6C1A6BFCDB9AEC8AD5F31322D32C8A35FBABBB9AE5FC3CAC6C731BCE25F6F6B5F E687770>

Analyses the Contents of Points per a Game and the Difference among Weight Categories after the Revision of Greco-Roman Style Wrestling Rules Han-bong

R t-..

이용석 박환용 - 베이비부머의 특성에 따른 주택유형 선택 변화 연구.hwp

목 차 전반 기 5 시간 이상 경기 8 9 회 최장 시간 경기 9 2 시간 이하 경기 회 이상 연장전 경기 11 연속경기 연장전 12 무득점 무승부 (0-0) 경기 13 최다 득점 무승부 경기 14 동일대진 연속 무승부 경기 경기 15 몰수 경기

10(3)-09.fm

R&D : Ⅰ. R&D OECD 3. Ⅱ. R&D

<BABBB9AE2E687770>

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint

, ( ) * 1) *** *** (KCGS) 2003, 2004 (CGI),. (+),.,,,.,. (endogeneity) (reverse causality),.,,,. I ( ) *. ** ***

1..

11¹ÚÇý·É

WINDOW FUNCTION 의이해와활용방법 엑셈컨설팅본부 / DB 컨설팅팀정동기 개요 Window Function 이란행과행간의관계를쉽게정의할수있도록만든함수이다. 윈도우함수를활용하면복잡한 SQL 들을하나의 SQL 문장으로변경할수있으며반복적으로 ACCESS 하는비효율역

노동경제논집 38권 4호 (전체).hwp

Journal of Educational Innovation Research 2017, Vol. 27, No. 3, pp DOI: (NCS) Method of Con

<32382DC3BBB0A2C0E5BED6C0DA2E687770>

2

Transcription:

Journal of the Korean Data & Information Science Society 2017, 28(2), 309 316 http://dx.doi.org/10.7465/jkdi.2017.28.2.309 한국데이터정보과학회지 한국프로야구에서쌍별승률추정량의효율성 이장택 1 1 단국대학교응용통계학과 접수 2017 년 2 월 10 일, 수정 2017 년 3 월 5 일, 게재확정 2017 년 3 월 13 일 요약 야구에서승률추정은매우중요한문제이며현재이분야에대한연구가활발하게진행되고있다. 쌍별승률추정은팀대팀의경기결과를이용하여전체승률을추정하는방법으로써각팀들의추정된승률의합이상수가된다는타당성을가진다. 본연구에서는한국프로야구에서피타고라스승률과선형승률에쌍별추정을적용하고효율성을 RMSE 와 MAD 를이용하여살펴보았다. 사용된데이터는 2013 년부터 2016 년사이의모든한국프로야구팀대팀기록이며, 그결과쌍별피타고라스추정이기존의방법들보다 RMSE 와 MAD 측면에서바람직하다고간주되었다. 또한쌍별피타고라스추정에사용되는바람직한지수값의결정에대하여설명하였으며추정에사용된지수값의변화에따른 RMSE 와 MAD 의차이는크지않음을알수있었다. 주요용어 : 선형, 승률, 쌍별, 피타고라스, MAD, RMSE. 1. 서론 프로야구경기의궁극적인목표는단언컨대우승이며, 시합에서이긴비율을의미하는승률 (winning percentage) 이가장높은팀이프로야구정규리그우승을한다. 따라서야구팬들의최우선관심사가이 번시즌에는어느팀이우승할것인가에있으므로승률의정확한추정은매우의미있는논쟁의대상이 다. 야구통계에서승률추정문제가생활통계학의활용부분으로야구팬및일반인들의관심을끌게된 가장큰이유는아마도야구의승률은총득점의제곱을총득점의제곱과총실점의제곱의합으로나눈 것으로추정된다는야구의피타고라스정리로알려져있는 James (1980) 의주장때문이라고할수있으 며, 내용은식 (1.1) 과같이약술된다. RS 2 EW = (1.1) RS 2 + RA 2 여기서 EW 는기대승률또는피타고라스승률 (Pythagorean winning percentage), RS 는팀의총득 점, RA 는팀의총실점을의미한다. 그리고실제승률의추정값인 EW 에게임의수 (G) 를곱하면기 대되는이긴게임의수, 즉기대승수를구할수있으며이를피타고라스승수 (Pythagorean wins) 라고 한다. 보통 EW 는팀의진짜승률값으로간주하며실제승률값과 EW 의차이를이용하여시즌에서 특정팀의행운측도로사용하기도한다. 식 (1.1) 을실제상황에적용할때에는보다정확한기대승률을도출하기위하여지수값으로 2 대 신미지수 γ 로두어서추정하는데, 미국메이저리그인경우 Davenport 와 Woolner (1999) 에의하면 이연구는 2017 학년도단국대학교대학연구비지원으로연구되었음. 1 (16890) 경기도용인시죽전동 126 번지, 단국대학교응용통계학과, 교수. E-mail: jtlee@dankook.ac.kr

310 Jang Taek Lee 1.83을주로사용하며, 한국프로야구인경우도 Lee (2016b) 에의하면 1982년부터 2015년전경기를이용한 γ의최적해는메이저리그와같게 1.83으로나타났다. 피타고라스정리의최적지수 γ의추정문제를다룬연구들은메이저리그인경우, Davenport와 Woolner (1999) 와 Cochran (2008) 의결과가있으며결론은 γ의값은 1.74부터 2.0사이의값으로게임당발생하는총득점의값에종속된다고밝혔다. 한편한국프로야구인경우, 최적지수 γ의추정문제를다룬연구로는 Lee (2014) 가있는데선행연구들의결과인게임당발생하는총득점의값과승률의표준편차를같이고려하여지수 γ의추정을좀더효율적으로하였으며, Lee (2015) 는한국프로야구기록을이용하여실제승률과피타고리안기대승률의차이가발생하는원인을회귀모형을통해설명하였으며, Lee (2016a) 는한국프로야구에서야구의피타고라스정리에의한기대승률의수렴특성을살펴보았다. 식 (1.1) 은비선형모형이라면승률추정량으로 Jones와 Tappin (2005) 에의해제안된식 (1.2) 로기술되는선형모형이있다. EW = 0.5 + β(rs RA) (1.2) 식 (1.2) 의기울기 β의값은미국메이저리그인경우에 1969년부터 2003년까지의미국메이저리그데이터를이용하여 β의추정치가 0.00053부터 0.00078까지나타나며그평균치는 0.00065로나타나고한국프로야구인경우에는 1982년부터 2015년까지모든팀데이터를이용하여추정한결과 0.00079로나타났다 (Jones와 Tappin, 2005; Lee, 2016b). 한국프로야구승률추정문제를다룬연구들은여러가지승률결과들을비교한 Kim과 Lee (2016), 피타고라스및선형모형을비교한 Lee (2016b) 가있다. 한편 Heumann (2016) 의피타고라스승수에대한결과는선행연구들과차별성이있는데, 일반적으로특정시즌팀의수가 N일때야구팀들의추정된피타고라스승률의합이 N/2이되지않는점에착안하여팀대팀의결과인쌍별 (pairwise) 표본을사용하면추정된기대승률의합이 N/2이되는이유를설명하고, 메이저리그 30년간의데이터를이용하여쌍별피타고라스승수 (pairwise Pythagorean wins) 가기존피타고라스승수보다작은평균제곱오차의제곱근을갖는다고설명하였다. 본연구는 Heumann (2016) 의후속연구로써승수대신승률의형태로한국프로야구에서의쌍별피타고라스승률의효율성, 쌍별선형추정량의효율성, 쌍별피타고라스추정량에적당한지수 γ값에대한추론및최적지수를사용한피타고라스승률과쌍별피타고라스승률과의비교를시도하는것이주목적이다. 본논문은다음과같이구성되어있다. 2절에서는분석데이터와승률의정의, 통계분석및모형평가기준에대하여각각언급하였으며, 3절에서는쌍별피타고라스정리의설명및지수 γ값의설정에대해설명하고여러가지방법들의상대적인효율성을검증하였다. 끝으로 4절에서는본연구의결론에대해언급하였다. 2. 연구방법 2.1. 데이터및승률의정의연구에사용된데이터는한국야구위원회 www.koreabaseball.com에기록된 1982년부터 2016년사이에있었던 273개팀의결과와 2013년부터 2016년까지프로야구통계기록실 http://www.kbreport. com이제공하는모든팀대팀의결과로모두 324개팀의결과이며, 승률의정의는한국야구위원회 (KBO) 에서 1987시즌부터 1997시즌까지사용한식 (2.1) 을사용하였다. 여기서 W pct은승률, W 는승리한게임수, L은패배한게임수, T 는무승부게임수이며, 현재사용되는승률의정의인 W/(W + L) 을사용하지않은이유는한국프로야구에대한모든공식적인기록들은모두무승부인경우도포함하여집계되었기때문이다. W pct = W + 0.5 T W + T + L (2.1)

Efficiency of pairwise winning percentage estimators in Korean professional baseball 311 그리고 W 와 L 를각각 W = W + 0.5 T, L = L + 0.5 T 라고할때, W 대신 W, L대신 L 를적용하여피타고라스지수 γ와승률을추정할수있다. 2.2. 통계분석및모형평가기준기술통계량과회귀분석은통계패키지 SPSS 23K를사용하였다. 또한제안된추정량들의효율성을비교하기위한판단기준으로는일반적으로많이사용되는추정량선택기준인평균제곱오차의제곱근 (root mean square error; RMSE) 와평균절대편차 (mean absolute deviation; MAD) 를사용하였다. RMSE와 MAD는값이작을수록바람직하며, 정의는식 (2.2) 와같다. RMSE = N (ŵ i w i) 2 /N, MAD = ŵ i w i /N (2.2) i=1 i=1 여기서 ŵ i 는 i번째팀의승률추정량, w i 는 i번째승률, N은총팀의수를각각의미한다. 본연구의 RMSE와 MAD 값은모두승률을퍼센트로나타낸경우의값이다. 3.1. 쌍별피타고라스승률 3. 쌍별피타고라스승률및분석 Table 3.1 2016 KBO baseball season win loss records Rank Team W L T RS RA Wpct Pyth(2) Pyth(1.83) Linear(0.097) 1 Doosan 93 50 1 935 682.649.653.640.700 2 NC 83 58 3 813 690.587.581.574.597 3 Nexen 77 66 1 852 757.538.559.554.575 4 LG 71 71 2 753 807.500.465.468.457 5 KIA 70 73 1 857 785.490.544.540.557 6 SK 69 75 0 786 784.479.501.501.502 7 Hanhwa 66 75 3 826 908.469.453.457.435 8 Lotte 66 78 0 777 865.458.447.451.430 9 Samsung 65 78 1 803 869.455.461.464.448 10 KT 53 89 2 672 927.375.344.357.299 Sum 5.000 5.008 5.007 5.000 Table 3.1은 2016년한국프로야구경기최종결과로 10개팀의득점, 실점및승률을보여주는데, 승률 (W pct) 의합은각팀이이길기대확률이 0.5이고팀의개수가 10개이므로 5가되나지수 2를사용한피타고라스승률인 Pyth(2), 지수 1.83을사용한피타고라스승률인 Pyth(1.83) 의합은 5가정확하게되지않는다. 왜냐하면팀의개수가 N일때추정된피타고라스승률의합이각각 N/2이된다는보장이없기때문이다. 하지만 1982년부터 2016년까지의모든데이터를이용하여추정한기울기 β의값 0.097을사용한선형추정량인 Linear(0.097) 의합은 5가된다. 왜냐하면기울기의값과는상관없이선형추정량은리그의총득점이총실점과같기때문이다. 만일피타고라스승률을팀대팀의결과로설명하면앞에서언급한확률의모순점을극복할수있는데, 그이유는팀 A와팀 B가게임을하는구조를가정하면, RS A 는 RA B, RS B 는 RA A 와각각같으므로다음과같이피타고라스추정량의승률의합은 1이된다 (Heumann, 2016). RS γ A RS γ B RS γ A RA γ A RS γ A + + RAγ A RS γ B + = RAγ B RS γ A + + RAγ A RA γ A + = 1 RSγ A

312 Jang Taek Lee 팀대팀의결과인쌍별 (pairwise) 과식 (1.1) 로기술되는고전적인피타고라스정리와의관계를설명하면 RS ij 를팀 i가팀 j와경기를치러서발생하는득점이라고하고, RS i 와 RA i 를각각팀 i의시즌이끝난후의총득점과총실점이라고할때, 다음식들이성립한다. RS i = RS ij RA i = j i j i RS ji 그리고팀 i에대한피타고라스승률을 RS ij 기호로표기하면식 (3.1) 과같다. ( ) 2 RS ij j=1 EW i = ( ) 2 ( ) 2, RS ii = 0, i, j = 1, 2,, N (3.1) RS ij + RS ji j=1 j=1 또한임의의팀 i에대하여다음피타고라스승률비율을 P ij, 팀 i와팀 j가갖는게임의수를 G ij 라고하면, RS 2 ij P ij = RSij 2 + RS2 ji 다음 w i 는팀 i 의쌍별피타고라스승수 (the pairwise Pythagorean win total) 가되며, w i = i j P ijg ij 게임의수에대해서는 G ij = G ji 가성립하기때문에모든팀에대한쌍별피타고라스승수의합은다음과같이모든쌍별팀들의경기수의합과같으며이것은원래의피타고라스정리에서는성립하지않는성질이다. P ijg ij + P jig ji = G ij(p ij + P ji) = G ij 따라서팀의개수를 N, 양팀간의동일게임의수를 k라고각각하면, 총게임수 G는 k(n 1) 가되며, 또한 N i=1 wi = kn(n 1)/2가된다. 예를들면 2016년한국프로야구는모든팀이시즌동안 144게임을하였고, 모든팀대팀의경기수는같으므로 k = 16게임을양팀간에하였으며, N = 10이므로 N i=1 wi = 720이된다. 그리고팀 i의쌍별피타고라스승률 (P EWi) 는다음과같이구할수있는데, 왜냐하면 P EW i = w i/g이고, w i = k N i j Pij과 G = k(n 1) 가성립하기때문이다. P EW i = P ij i j N 1 (3.2) 3.2. 여러가지피타고라스승률들의비교 Table 3.2는 2013년부터 2016년까지의한국프로야구팀대팀데이터를이용하여추정한 4개의피타고라스모형과 2개의선형회귀모형에대한승률의 RMSE와 MAD 값을보여준다. 고려된모형은지수 2를사용한피타고라스승률 Pyth(2), 지수 1.72를사용한피타고라스승률 Pyth(1.72), 지수 2를사용한쌍별피타고라스승률 p.pyth(2), 지수 1.72를사용한쌍별피타고라스승률 p.pyth(1.72), 기

Efficiency of pairwise winning percentage estimators in Korean professional baseball 313 울기 0.097 을사용한선형회귀모형 Linear(0.097) 그리고기울기 0.079 를사용한선형회귀모형 Linear(0.079) 와같은모두 6 가지모형인데, 지수 1.72 은 2013 년부터 2016 년까지 KBO 데이터를이용하 여추정된단일최적지수값, 기울기 0.097 은 1982 년부터 2016 년까지의데이터를이용하여추정한값, 0.079 는 2013 년부터 2016 년까지의데이터를이용하여추정한값이다. 선형회귀모형을사용할때, 식 (1.2) 에서 RS RA 대신 (RS RA)/G 를사용하면좀더승률과의상관계수를높일수있는데, 1982 년 부터 2016 년까지의데이터를사용하면전자는상관계수가 0.945, 후자는 0.948 로나타나서본연구에서 는독립변수로 (RS RA)/G 를사용하였다. Table 3.2 RMSE and MAD of six winning percentage models Year Pyth Pyth p.pyth p.pyth Linear Linear (2) (1.72) (2) (1.72) (0.097) (0.079) 2013 2.163 2.065 2.112 2.023 2.097 2.675 (1.710) (1.765) (1.696) (1.626) (1.506) (2.381) 2014 3.339 2.877 2.813 2.690 4.086 2.982 (2.616) (2.295) (2.208) (2.276) (3.075) (2.234) 2015 2.049 1.820 1.698 1.582 2.180 1.752 (1.673) (1.656) (1.452) (1.482) (1.842) (1.590) 2016 2.539 2.174 1.841 1.590 3.080 2.250 (2.044) (1.807) (1.504) (1.309) (2.574) (1.894) Total 2.540 2.277 2.120 2.024 2.957 2.437 (2.016) (1.860) (1.686) (1.676) (2.247) (2.010) * MAD in parenthesis 2013년부터 2016년전데이터의결과 (total) 를보면 p.pyth(2), p.pyth(1.72) 의 RMSE와 MAD 모두 Pyth(2) 와 Pyth(1.72) 에비해작다. 심지어피타고라스모형인경우는최적지수값 1.72를사용하여도 RMSE와 MAD 모두지수 2를사용한쌍별피타고라스모형보다크다. 또한선형회귀모형은비록추정된승률의합이승률의합과같다는쌍별추정량의좋은성질을가지고있지만피타고라스모형보다 RMSE와 MAD 모두크다. 이사실은쌍별추정량이좋은추정치를제공하는수학적보정의역할을하는것이지만좋은추정량이되기위한필수조건은아닌것을알수있다. Table 3.3은쌍별피타고라스추정량 (p.pyth) 을위한지수값의선택결과를보여준다. 연도밑괄호안의지수값은연도별로각각추정한최적지수값을의미하는데, 2013년부터 2016년까지연도별최적지수값은 1.89, 1.57, 1.76, 1.68로각각나타났다. 또한비교를위해사용한지수값으로 2013년부터 2016년까지의단일최적지수값 1.72, 보통알려져있는최적지수값 1.83, 가장보편화된지수 2를참고하여비슷한간격으로 1.63, 1.72, 1.83, 1.92, 2.00, 2.09와같은 6개를선택하였다. 지수 2와 1.72를사용한 p.pyth의결과들은다른추정량들의결과와용이한비교를위해 Table 3.2의결과를다시사용하였다. 그결과전체데이터 (total) 를모두사용하는경우에는지수값이 1.83인경우가가장 RMSE와 MAD 값이작았다. 이사실은해당데이터인경우에대응되는단일최적지수값 1.72인경우에가장 RMSE와 MAD 값이작으리라는상식과일치하지않는다. 이와같은결론은연도별로살펴보아도같은결론으로해석된다. 주목해야할또하나의사항은쌍별피타고라스모형은지수값에따라 RMSE와 MAD 값의변화가크지않다는점이다. 2013년부터 2016년까지전체데이터를사용하는경우에 RMSE 기준으로보면가장작은값과큰값의차이는 0.239 정도다. 따라서 γ값을일반적으로보통사용하는범위인 1.74부터 2.0 사이의값을사용하면쌍별피타고라스승률의 RMSE와 MAD의값은큰차이가나지않는다고할수있겠다.

314 Jang Taek Lee Table 3.3 RMSE and MAD of pairwise Pythagorasmodels Year p.pyth. p.pyth. p.pyth. p.pyth. p.pyth. p.pyth. γ = 1.63 γ = 1.72 γ = 1.83 γ = 1.92 γ = 2.00 γ = 2.09 2013 2.263 2.023 2.006 1.988 2.112 2.115 (γ = 1.89) (1.889) (1.626) (1.543) (1.571) (1.696) (1.756) 2014 2.726 2.690 2.699 2.745 2.813 2.915 (γ = 1.57) (2.309) (2.276) (2.237) (2.204) (2.208) (2.247) 2015 1.671 1.582 1.558 1.608 1.698 1.842 (γ = 1.76) (1.493) (1.482) (1.471) (1.461) (1.452) (1.496) 2016 1.633 1.590 1.627 1.720 1.841 2.010 (γ = 1.68) (1.244) (1.309) (1.388) (1.451) (1.504) (1.605) Total 2.100 2.024 2.003 2.045 2.120 2.242 (γ = 1.72) (1.714) (1.676) (1.648) (1.660) (1.686) (1.764) * MAD in parenthesis 3.3. 최적지수를사용한피타고라스승률과쌍별피타고라스승률과의비교 고전적피타고라스승률을추정할때지수 γ 를사용하는경우에는최소제곱법을이용하여다음과같 은단순회귀모형을고려하여 γ 값을추정할수있다. log(w /L ) = γ log(rs/ra) (3.3) 이렇게최적지수값을구하면 2013 년은 1.89, 2014 년엔 1.57, 2015 년엔 1.76, 2016 년엔 1.68 과같음 을알수있으며이값들은고전적피타고라스승률의추정시에가장작은 RMSE 값을제공한다. Table 3.4 는연도별로최적지수값을사용한고전적인피타고라스승률과잘알려진지수값 1.83 을 선택한쌍별피타고라스승률의 RMSE 와 MAD 값을보여준다. 결과적으로모든연도에있어서 * 로 표시된쌍별피타고라스승률의 RMSE 와 MAD 값이더작음을알수있다. 이사실로부터알수있 는것은지금까지고전적인피타고라스승률의최적지수값은시즌이끝난후에나알수있었으며많은 통계학자들이최적지수의추정을중요한연구대상으로삼았는데, Table 3.4 의결과는굳이최적지수값 을알필요없이지수 1.83 을이용하여쌍별피타고라스승률을사용하면좀더좋은결과가나타난다는 것을알려준다. 하지만 1.83 을사용하는것이최선이라는보장은없으며수많은데이터를적용시켜보면 좀더적당한값을찾을수있을것이다. 그러나그렇게찾은최적값과 1.83 을사용하여구한 RMSE 와 MAD 의값은큰차이가나지않을것으로간주되는데이와같은결론이 Heumann (2016) 이향후과제 로제시한지수값의선택에관한구체적인설명이다. Table 3.4 RMSE and MAD from two Pythagorasmodels (2013-2016) Year Method RMSE MAD 2013 Pyth(1.89) 2.023 1.577 p.pyth(1.83) 2.006* 1.543* 2014 Pyth(1.57) 2.811 2.349 p.pyth(1.83) 2.699* 2.237* 2015 Pyth(1.76) 1.817 1.656 p.pyth(1.83) 1.558* 1.471* 2016 Pyth(1.68) 2.164 1.782 p.pyth(1.83) 1.627* 1.388*

Efficiency of pairwise winning percentage estimators in Korean professional baseball 315 4. 결론우리가살고있는이시대는기업들이스포츠마케팅에눈을뜨면서스포츠의과학화는한층더가속이붙고있다. 야구는다른스포츠하고는비교가안될정도의빅데이터를가지고있는데각종데이터가팀단위는물론선수개개인수준까지도매우정밀하게구비되어있다. 구단의감독들은데이터를통해상대팀에대한전략을세우고야구통계학자들은데이터를바탕으로야구에대한속설또는사실을좀더명확하게설명할수있는공식을만들기위해노력하고있다. 야구에서는득점이많은팀은적은팀보다이길확률이높아지고그반대도성립하는데, 야구통계에서는득점과실점을바탕으로여러가지기대승률지표를개발하였으며대표적인것이피타고라스승률과선형승률이다. 하지만피타고라스승률에의해추정된승률의합은기초적인확률의성질을충족시키지못하는단점이있으나팀대팀의결과인쌍별추정으로접근하면이와같은문제점을근본적으로해결할수있다. 본연구에서는쌍별피타고라스추정이한국프로야구에서도바람직한지를알아보기위해효율성을구체적으로살펴보았으며쌍별피타고라스승률방법에필요한지수의선택문제를논의했다. 그결과지수값 1.83을사용한쌍별피타고라스추정은기존의어떤피타고라스방법보다도더바람직하다고결론을내릴수있었다. 연구의결과와관련된제한점으로는한국프로야구경기결과에대한데이터축적이오래되어있지못해서최근몇년동안의결과만을사용하여쌍별피타고라스승률추정에대한결론을내렸기때문에좀더포괄적인비교를못한점이있으며, 한국프로야구전경기데이터를모두사용하였기때문에이상치나영향점을제거하면좀더정밀한결론을내릴수있을것으로간주된다. 또한쌍별승률추정방법을축구, 농구및하키와같은스포츠에적용하여도기존결과들보다상대적으로바람직할것으로예측되며이부분은향후연구과제로남겨둔다. References Cochran, J. J. (2008). The optimal value and potential alternatives of Bill James Pythagorean method of baseball. STAtOR, 2, 2008. Davenport, C. and Woolner, K. (1999). Revisiting the Pythagorean theorem: Putting Bill James Pythagorean theorem to the test. The Baseball Prospectus, http://www.baseballprospectus.com/ article.php?articleid=342. Heumann, J. (2016). An improvement to the baseball statistic Pythagorean Wins. Journal of Sports Analytics, 2, 49-59. James, B. (1980). The Bill James abstract, self-published, Lawrence, KS. Jones, M. and Tappin, L. (2005). The Pythagorean theorem of baseball and alternative models. The UMAP Journal, 26. Kim, S. K. and Lee, Y. H. (2016). The estimation of winning rate in Korean professional baseball. Journal of the Korean Data & Information Science Society, 27, 653-661. Lee, J. T. (2014). Estimation of exponent value for Pythagorean method in Korean pro-baseball.journal of the Korean Data & Information Science Society, 25, 493-499. Lee, J. T. (2015). Measuring the accuracy of the Pythagorean theorem in Korean pro-baseball. Journal of the Korean Data & Information Science Society, 26, 653-659. Lee, J. T. (2016a). Convergence characteristics of Pythagorean winning percentage in baseball. Journal of the Korean Data & Information Science Society, 27, 1477-1485. Lee, J. T. (2016b). A comparison of formulas to predict a team s winning percentage in Korean pro-baseball. Journal of the Korean Data & Information Science Society, 27, 1585-1592.

Journal of the Korean Data & Information Science Society 2017, 28(2), 309 316 http://dx.doi.org/10.7465/jkdi.2017.28.2.309 한국데이터정보과학회지 Efficiency of pairwise winning percentage estimators in Korean professional baseball Jang Taek Lee 1 1 Department of Applied Statistics, Dankook University Received 10 February 2017, revised 5 March 2017, accepted 13 March 2017 Abstract In baseball, estimation of winning percentage is critical and many studies for this topic have been actively performed. Pairwise winning percentage estimation using Pythagorean winning percentages of individual teams against other individual teams has the property that the sum of estimated winning percentage totals must be a constant. In this paper, we consider two types of pairwise estimation including linear formula and Pythagorean formula to the Korean baseball data of seasons from 2013 to 2016 under the criterions of RMSE and MAD. In conclusion, pairwise Pythagorean methods have the smaller RMSE and MAD than traditional Pythagorean methods. We suggest the optimal pairwise Pythagorean formula with a fixed exponent. Also we show that there are very little differences of RMSE and MAD between variation in exponent values. Keywords: Linear, MAD, pairwise, Pythagorean, RMSE, winning percentage. The present research was conducted by the research fund of Dankook University in 2017. 1 Professor, Department of Applied Statistics, Dankook University, Yongin 16890, Korea. E-mail: jtlee@dankook.ac.kr