1478 Jangtaek Lee 큰경우가 6.24%, 가장작은경우가 0.03%, 평균 1.95% 로이정도의오차는일반적으로설명할수없는 랜덤오차로보기에충분하다고할수있겠다. 지금까지수행된야구의피타고라스정리에관한연구들은크게나누면세가지로대별된다. 첫째는 피타고라스정리에사용되는지

Similar documents
310 Jang Taek Lee 1.83을주로사용하며, 한국프로야구인경우도 Lee (2016b) 에의하면 1982년부터 2015년전경기를이용한 γ의최적해는메이저리그와같게 1.83으로나타났다. 피타고라스정리의최적지수 γ의추정문제를다룬연구들은메이저리그인경우, Davenpo

65 Soon-Kwi Kim Young-Hoon Lee 한국프로야구의매시즌별팀당경기수가동일하지않으므로, 본연구에서는시즌별팀당경기수 G로나눈시즌별경기당득점수 rsg와경기당실점수 rag를변수 rs와 ra 대신사용하였다. 절에서승률을정의하고,.절에서 rsg rag와승률간의상

<352E20BAAFBCF6BCB1C5C320B1E2B9FDC0BB20C0CCBFEBC7D120C7D1B1B920C7C1B7CEBEDFB1B8C0C720B5E6C1A1B0FA20BDC7C1A120BCB3B8ED D2DB1E8C7F5C1D62E687770>

DBPIA-NURIMEDIA

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

Microsoft PowerPoint - IPYYUIHNPGFU

Analysis of objective and error source of ski technical championship Jin Su Seok 1, Seoung ki Kang 1 *, Jae Hyung Lee 1, & Won Il Son 2 1 yong in Univ

G Power

DBPIA-NURIMEDIA

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

DBPIA-NURIMEDIA

???? 1

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

제 4 장회귀분석

DBPIA-NURIMEDIA

untitled


The characteristic analysis of winners and losers in curling: Focused on shot type, shot accuracy, blank end and average score SungGeon Park 1 & Soowo

고객관계를 리드하는 서비스 리더십 전략

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할



(Exposure) Exposure (Exposure Assesment) EMF Unknown to mechanism Health Effect (Effect) Unknown to mechanism Behavior pattern (Micro- Environment) Re

<B3EDB4DC28B1E8BCAEC7F6292E687770>

DBPIA-NURIMEDIA

서론 34 2


- 1 -

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

자연채무에대한재검토 1. 서론 2. 선행연구 9 Journal of Digital Convergence 214 May; 12(5): 89-99

에너지경제연구 Korean Energy Economic Review Volume 11, Number 2, September 2012 : pp. 1~26 실물옵션을이용한해상풍력실증단지 사업의경제성평가 1

286 Heebae Seung Kee-Hoon Kang 국 4억으로 협상을 보았다. 객관적인 성적이나 수치가 인상과 삭감을 결정하는 매우 중요한 열쇠이지 만, 그렇다고 기록만 가지고 연봉을 책정하지는 않는다. 각 구단은 선수가 팀에서 차지하는 비중, 인기, 경력, 입단

Analyses the Contents of Points per a Game and the Difference among Weight Categories after the Revision of Greco-Roman Style Wrestling Rules Han-bong

제 1 절 two way ANOVA 제1절 1 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라

자료의 이해 및 분석

에너지경제연구 제13권 제1호

???? 1

인문사회과학기술융합학회

04_이근원_21~27.hwp

44-4대지.07이영희532~

27 2, 1-16, * **,,,,. KS,,,., PC,.,,.,,. :,,, : 2009/08/12 : 2009/09/03 : 2009/09/30 * ** ( :

<352EC7E3C5C2BFB55FB1B3C5EBB5A5C0CCC5CD5FC0DABFACB0FAC7D0B4EBC7D02E687770>

exp

methods.hwp

Journal of the Korean Data & Information Science Society 2017, 28(2), 한국데이터정보과학회지 한국프로야구에서투수연봉에영향

09구자용(489~500)

DBPIA-NURIMEDIA

Microsoft PowerPoint Relations.pptx

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

R t-..

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

06_À̼º»ó_0929

Microsoft PowerPoint - ANOVA pptx

Microsoft PowerPoint - 26.pptx

Kor. J. Aesthet. Cosmetol., 라이프스타일은 개인 생활에 있어 심리적 문화적 사회적 모든 측면의 생활방식과 차이 전체를 말한다. 이러한 라이프스 타일은 사람의 내재된 가치관이나 욕구, 행동 변화를 파악하여 소비행동과 심리를 추측할 수 있고, 개인의

DBPIA-NURIMEDIA

<31372DB9DABAB4C8A32E687770>

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

슬라이드 1

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

DBPIA-NURIMEDIA

(001~006)개념RPM3-2(부속)


statistics

슬라이드 1

14.531~539(08-037).fm

1272 Jea-Young Lee, Hyeon-Gyu Kim KBO에서의 WAR은선수의공격능력 (batting runs) 과주루능력 (base running runs), 수비능력 (fielding runs), 포지션조정 (positional adjustment) 의합을

경영과학(1) 본문

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

abstract.dvi

KDI정책포럼제221호 ( ) ( ) 내용문의 : 이재준 ( ) 구독문의 : 발간자료담당자 ( ) 본정책포럼의내용은 KDI 홈페이지를 통해서도보실수있습니다. 우리나라경

조사연구 aim of this study is to find main cause of the forecasting error and bias of telephone survey. We use the telephone survey paradata released by N

02신현화

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA

03±èÀçÈÖ¾ÈÁ¤ÅÂ

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228


03-서연옥.hwp

1..

부문별 에너지원 수요의 변동특성 및 공통변동에 미치는 거시적 요인들의 영향력 분석

12È«±â¼±¿Ü339~370

nonpara6.PDF

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

슬라이드 1

슬라이드 1

에너지경제연구제 16 권제 1 호 Korean Energy Economic Review Volume 16, Number 1, March 2017 : pp. 95~118 학술 탄소은행제의가정용전력수요절감효과 분석 1) 2) 3) * ** *** 95

#Ȳ¿ë¼®

<35BFCFBCBA2E687770>

350 Jang Taek Lee 들의 평가가 서로 상이하게 될 수 있기 때문에 지표들에 대한 종합적인 판단을 할 필요가 있다. 따라서 변수 개수가 많을 때 변수의 성질에 따라 묶인 소수의 변수로 만들어 주는 주성분분석과 같은 분석이 필 요할 수 있으며, 따라서 본 연구

한국성인에서초기황반변성질환과 연관된위험요인연구

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: * Strenghening the Cap

Journal of Educational Innovation Research 2017, Vol. 27, No. 1, pp DOI: NCS : G * The Analy

,,,.,,,, (, 2013).,.,, (,, 2011). (, 2007;, 2008), (, 2005;,, 2007).,, (,, 2010;, 2010), (2012),,,.. (, 2011:,, 2012). (2007) 26%., (,,, 2011;, 2006;

Transcription:

Journal of the Korean Data & Information Science Society 2016, 27(6), 1477 1485 http://dx.doi.org/10.7465/jkdi.2016.27.6.1477 한국데이터정보과학회지 야구피타고라스승률의수렴특성 이장택 1 1 단국대학교응용통계학과 접수 2016 년 9 월 5 일, 수정 2016 년 10 월 1 일, 게재확정 2016 년 10 월 11 일 요약 본연구에서는한국프로야구에서팀의득점과실점을가지고시즌승률을예측하는야구의피타고라스정리에의한기대승률의수렴특성을살펴보았다. 사용한자료는 2005 년부터 2014 년까지의한국프로야구정규시즌초부터정규시즌말까지의팀대팀전체기록이며, 그결과야구팀의특징중에서팀의순위와경기진행률이수렴특성에영향을주는것으로나타났다. 팀의순위는하위팀들의기대승률이최종기대승률에빨리수렴하였으며, 경기진행률은 20% 이하에는최종기대승률과많은차이를보였으나 70% 이상부터는통계적으로최종기대승률과유의한차이가발생하지않았다. 주요용어 : 기대승률, 수렴특성, 피타고라스정리, 한국프로야구. 1. 서론 야구에대한객관적인지식을찾고자하는움직임의기원이된야구의피타고라스정리는문헌및 인터넷을통하여많은스포츠통계학자및스포츠팬들의초미의관심사가되고있다. James (1982) 가 명명했던야구의피타고라스정리는야구의승률과득점및실점의연관성을잘설명해주는데, 그는 1980 년대초메이저리그팀들의과거성적을정리하다가특정팀의총득점과총실점이팀의승률과밀 접한관계가있다는것을알게되었다. 일반적으로지수 γ 를사용한야구의피타고라스정리에의한피 타고라스기대승률 (W P ) 은식 (1.1) 과같이시즌의총득점 (RS) 과총실점 (RA) 의비선형함수로정의 된다. W P = RS γ RS γ + RA γ (1.1) 지수 γ 의값은처음에는 James 가주장한 2 를사용하였으며지수값으로 2 를사용하면식 (1.1) 에서 분모는총득점의제곱과총실점의제곱의합이므로수학의피타고라스정리와비슷한모양이라서야구 의피타고라스정리라는이름을사용한다. 하지만많은사람들이메이저리그의누적된자료를다루다보 니지수값을 1.83 으로낮추어사용하는것이좀더바람직하다는견해가많다. 지수 γ 는일반적으로많 이사용하는추정량선택기준인평균제곱오차의제곱근 (root mean square error) 을최소화하는값으 로설정하는데, 한국프로야구의경우에도초기자료를이용하면메이저리그와다른값이나왔지만프로 야구원년부터 2014 년도까지의데이터를적합시켜보면미국의경우와거의같은값이나타난다 (Lee, 2015). 야구의피타고라스정리는한국프로야구에서도적용이매우잘되는데, Lee (2015) 에의하면 2005 년부터 2014 년까지총 82 개팀들의실제승률과피타고라스정리에의한기대승률의차이는가장 이연구는 2016 학년도단국대학교대학연구비지원으로연구되었음. 1 (448-701) 경기도용인시죽전동 126 번지, 단국대학교응용통계학과, 교수. E-mail: jtlee@dankook.ac.kr

1478 Jangtaek Lee 큰경우가 6.24%, 가장작은경우가 0.03%, 평균 1.95% 로이정도의오차는일반적으로설명할수없는 랜덤오차로보기에충분하다고할수있겠다. 지금까지수행된야구의피타고라스정리에관한연구들은크게나누면세가지로대별된다. 첫째는 피타고라스정리에사용되는지수 γ 의최적값을구하는데그목적이있는데, 메이저리그데이터를이용 한 Davenport 와 Woolner (1999), Cochran (2008) 및한국프로야구데이터를이용한 Lee (2014b) 등 이이범주에속하는연구들이다. 둘째는야구의피타고라스정리가야구에서시작되었지만다른스포 츠로확장적용이가능하다는연구들이다. 해외연구들은수많은결과들이있으며, 국내연구로는 Lee 와 Kim (2006a, 2006b) 은한국여자프로농구와프로축구에서도지수값을각각 10.8 과 1.378 을사용하여 승률을잘추정할수있다고밝혔다. 셋째로는야구의피타고라스정리에대한이론적인근거를제공하 는연구들이다. 최초의연구는 Miller (2006) 에의해서몇가지가정과와이블분포를이용하여야구의 피타고라스정리가성립함을이론적으로보였으며 Dayaratna 와 Miller (2013) 는하키에서도이론적으 로성립가능하다는사실을증명하였다. 이밖에도한국프로야구에관한최근연구들을소개하면한국프 로야구타자들에대한세이버메트릭스지수값을이용하여선수들의경기력과연봉간의패턴을분석한 Seung 과 Kang (2012), 한국프로야구에서출루율계수추정을다룬 Lee (2014a), 한국프로야구에적당 한타자력지수모형과지수를제안한 Hong 등 (2016) 등이있다. 야구의피타고라스정리는한시즌의경기가모두끝난다음총득점과총실점으로승률을예측한다. 하지만이사실은단지수학적흥미일뿐실제로는시즌중간에경기가거듭될수록앞으로특정팀의승 률이어떻게변해갈지에더욱많은관심이갈것이다. 이런관점에서피타고라스정리에의한기대승률 의수렴특성을아무도언급하지않는것은어떻게보면놀라운일이며야구에서피타고라스정리가어 느정도의경기가진행되어야신뢰를할수있는지를연구한결과는전혀찾아볼수가없다. 따라서본 연구에서는이와같은관점에초점을맞추어서한국프로야구에서의피타고라스기대승률의수렴특성을 살펴보았다. 본논문은다음과같이구성되어있다. 2 절에서는승률과기대승률의정의, 분석데이터및 통계분석에대하여언급하였으며, 3 절에서는기대승률차이에대한기술통계량, 분산분석및회귀분석 결과를소개하며끝으로 4 절에서는본연구의결론에대해언급하였다. 2. 승률과자료수집 표기의간편성을위하여 W % 는승률, W 는승리한경기횟수, L 은패배한경기횟수, T 는무승부 경기횟수를각각나타내면, 야구의피타고라스정리에서 James (1982) 가사용한승률의정의는식 (2.1) 과같다. W % = W W + L 하지만한국프로야구에서사용된팀의승률은무승부제외승률제, 무승부포함승률제, 다승제가있다 (Kim, 2011). 또한한국프로야구에대한공식기록들은모두무승부인경우도포함해서집계되었기때 문에오랜기간동안의데이터를무승부를제외하고재집계하는것은거의불가능하다. 따라서본연구 에서는승률의정의로 1987 시즌부터 1997 시즌까지사용한무승부포함승률제의식 (2.2) 를사용하였는 데, W % = W + 0.5 T W + T + L 비록식 (2.1) 과식 (2.2) 가약간의차이가있지만거의유사한값을제공하고, W 와 L 를각각 W = W + 0.5 T, L = L + 0.5 T 로두면, 식 (2.2) 는식 (2.1) 의모양으로기술할수있어서야구의피타 고라스정리를적용할수있다. 또한경기에서승리할비율인승률 (W %) 과패배할비율인패율 (L%) 사이에는식 (1.1) 과식 (2.2) 를사용하면식 (2.3) 이성립하는데, (2.1) (2.2)

Convergence characteristics of Pythagorean winning percentage in baseball 1479 W % L% = W L = ( ) γ RS (2.3) RA 따라서주어진데이터와최소제곱법을이용하여식 (2.4) 와같은회귀모형을고려하여 γ 값을추정할수 있다. log(w /L ) = γ log(rs/ra) (2.4) 본연구에서사용된데이터는 2005 년부터 2014 년사이에있었던한국프로야구팀대팀경기결과전 체기록을이용하였는데총 5296 개이며출처는롯데자이언츠홈페이지 http://www.giantsclub.com 이 다. 식 (2.4) 와통계패키지 SAS 9.3 및 SPSS 21K 를이용하여연도별각구단의경기진행률에대응되 는피타고라스정리에의한시즌중기대승률을구하고최종기대승률과의차이에대하여여러가지통 계분석을실시하였는데, 이경우특정팀의경기진행률 50% 의시즌중기대승률은경기진행률 50% 까 지의총득점과총실점을이용하여식 (1.1) 에대입한결과이다. 3.1. 기대승률차이에대한기술통계량 3. 분석결과 Table 3.1 은퍼센트로계산한피타고라스정리에의한시즌중기대승률값과최종기대승률값의차 에절대값을취한기대승률차이 (winning percentage difference; WPD) 에대한기술통계값을보여준 다. 이경우예를들어 3 번의경기를치룬결과에서절대값을취하지않으면기대승률차가양수, 음수, 음수가되어서기대승률차의평균이 0 에가까운숫자로나타날수도있기때문이다. 피타고라스정리 의기대승률값은모두지수값을프로야구원년부터 2014 년까지의팀별승률, 득점, 실점데이터를이용 하여추정한최적지수값 1.834 를사용하여계산하였다. 좀더구체적으로 WPD 에미치는영향을알아 보기위하여 WPD 가세가지인자에의해영향을받을것이라는가정아래에서연도 (year) 를 2005 년부 터 2014 년까지 10 개, 팀의순위 (rank) 를상, 중, 하의 3 개, 팀의경기진행률 (rate) 10 개그룹에의한 WPD 값을조사하였다. 여기서팀의순위는각연도최종순위가 1 위부터 3 위는상, 4 위부터 6 위는중, 7 위부터 9 위는하로명명하였으며, 경기진행률은해당경기순번을연간총경기수로나눈값을이용하였 는데, 특정팀이 12 번째경기를하고 1 년의총경기수가 120 이면경기진행률은 10% 가된다. 따라서고 려된경기진행률그룹은모두 10 개로이름을각각 G10 부터 G100 으로명명하였는데, 예를들면 G10 은 경기진행률이 10% 이하, G20 는경기진행률이 10% 초과 20% 이하에속하는경기들의결과등등이다. Table 3.1 은연도별 WPD 에대한평균, 표준편차, 왜도및첨도를보여주는데, 첨도를제외하고는다른 통계량의수치값이유사하다고판단되어진다. Table 3.1 Descriptive statistics for WPD by year Year Mean Standard Deviation Skewness Kurtosis 2005 5.067 6.264 2.732 9.800 2006 3.711 6.143 3.848 19.296 2007 3.927 6.208 4.400 25.062 2008 3.939 5.904 3.410 14.356 2009 4.438 5.911 3.341 16.256 2010 4.120 6.096 2.972 10.991 2011 4.762 5.808 3.202 15.372 2012 4.181 6.079 3.426 14.428 2013 4.983 6.532 2.457 7.391 2014 4.138 5.073 3.529 21.974

1480 Jangtaek Lee Table 3.2 는팀의순위에따른 WPD 에대한자료의개수, 평균, 표준편차, 왜도및첨도를보여준다. 팀의순위가하 (low) 에속하는경우가다른 2 가지경우보다상대적으로평균값이작다. Table 3.2 Descriptive statistics for WPD by rank Rank N Mean Standard Deviation Skewness Kurtosis high 3876 4.344 5.838 3.207 14.916 middle 3876 4.616 6.217 3.186 13.462 low 2840 3.902 5.962 3.577 16.857 Table 3.3 은경기진행률에따른 WPD 에대한평균, 표준편차, 왜도및첨도를보여준다. 당연한귀 결이지만경기진행률이커질수록 WPD 의값은점점작아지며, 표준편차도확연하게줄어드는데, 경기 진행률에따른 WPD 의변화는 20% 까지는큰변화를보이다가 20% 를넘기면서완만하게 WPD 값이 줄어든다. Table 3.3 Descriptive statistics for WPD by rate Rate Mean Standard Deviation Skewness Kurtosis G10 14.836 11.662 1.010 0.521 G20 7.327 5.448 0.749-0.022 G30 5.663 4.120 0.866 0.551 G40 4.360 3.287 1.111 1.129 G50 3.398 2.799 1.252 1.651 G60 2.688 2.192 1.276 1.714 G70 2.125 1.721 1.062 0.776 G80 1.684 1.249 0.963 0.653 G90 1.230 0.990 1.259 2.252 G100 0.582 0.572 1.717 3.953 3.2. 기대승률차이에대한분산분석 WPD에미치는영향을알아보기위하여연도, 순위, 경기진행률과같은세가지요인의영향을분산분석을통하여살펴보았는데, 종속변수 WPD의값은유의성검정결과에미치는표본수의과대효과를배제하기위하여해당그룹에속하는관측치들의평균을 WPD 값으로이용하였다. 예를들면연도가 2005년, 순위가상, 경기진행률이 G30인경우에속한관측치들의평균을세가지조합에해당하는관측치로사용하였다. 따라서제일처음고려한모형은세가지인자를고려한식 (3.1) 과같은반복이없는삼원배치분산분석모형이었다. 식 (3.1) 에서 α i 는연도 i, β j 는순위 j, γ k 는경기진행률 k, 그리고 Y ijk 는 i번째연도, j번째순위, k번째경기진행률인경우의 WPD를나타내는확률변수이다. Y ijk = µ + α i + β i + γ k + ε ijk, i = 1, 2,, 10; j = 1, 2, 3; k = 1, 2,, 10 (3.1) 삼원배치분산분석을수행한결과, 순위와경기진행률은유의수준 1% 에서유의하였으나, 연도인자가유의확률이 0.122으로유의수준 5% 에서유의하지않았다. 따라서주효과의검정력을높일목적으로유의하지않은주효과를오차항으로풀링한후에반복이있는이원배치분산분석을실시하였으며, 그결과순위와경기진행률의교호작용의유의확률이 0.997으로유의수준 5% 에서유의하지않았기때문에역시교호작용효과를오차항으로풀링한후다시이원배치분산분석을수행한결과가 Table 3.4인데, 팀의순위와경기진행률은각각 p값이 0.002, <0.001으로유의수준 1% 에서유의하게나타났다. 제안된분산분석모형은잔차를통하여정규성과등분산성을만족하는사실을확인할수있었으며그결과모형이적합하다고판단할수있었다.

Convergence characteristics of Pythagorean winning percentage in baseball 1481 Table 3.4 Results of two way ANOVA table Source Sum of Squares df Mean Square F Sig. Order 44.530 2 22.265 6.153 0.002 Rate 4645.655 9 516.184 142.650 0.000 Error 1042.139 288 3.619 C. Total 5732.324 299 유의성이입증된 2 개의주효과에대하여수준간차이를다중비교를이용하여살펴보았는데, 가장 보수적인방법으로알려진 Tukey 방법을사용하였다. Table 3.5 는팀의순위에대한다중비교결과로 서 WPD 평균이순위가하 (low) 일때가장낮았고상 (high), 중 (middle) 순서이다. 하지만그룹상 (high) 과중 (middle) 의차이는유의수준 5% 에서통계적으로유의하지않았다. Table 3.6 은경기진행 률에대한다중비교결과로서예상대로 G100, G90 등의순서지만 G10, G20 는확연히다른그룹들과 통계적으로유의한차이를보였다. 즉경기진행률이 20% 이하는유의하게최종피타고라스기대승률과 차이가나며, G70 부터 G100 까지한개의그룹으로묶이는것을보아서경기진행률이 70% 이상이되면 최종피타고라스기대승률과통계적으로유의한차이가발생하지않음을알수있다. Table 3.5 Results of Tukey test on the factor: Rank rank subset 1 2 low 3.7306 high 4.3979 middle 4.6421 Sig. 1.000 0.636 *Means for groups in homogeneous subsets are displayed at the.05 level Table 3.6 Results of Tukey test on the factor: Rate rate subset 1 2 3 4 5 6 7 G10 0.571 G09 1.200 1.200 G08 1.610 1.610 G07 2.007 2.007 2.007 G06 2.566 2.566 G05 3.272 3.272 G04 4.218 4.218 G03 5.469 G02 7.065 G01 14.585 Sig. 0.104 0.148 0.234 0.651 0.248 1.000 1.000 *Means for groups in homogeneous subsets are displayed at the.05 level 3.3. 기대승률차이에대한회귀추정식 Figure 3.1은 Table 3.4에서유의한인자로나타난팀의순위와경기진행률에따른 WPD의평균값을보여주는데, 분산분석의결과처럼순위에따른변화는크지않으나경기진행률에따른변화는진행률이 20% 이하인경우는급격한변화를보이다가그이후로는완만하게 WPD 평균값이감소하는사실을확인할수있다.

1482 Jangtaek Lee Figure 3.1 Scatterplot of mean WPD 따라서팀의순위와경기진행률에대한가변수를고려한식 (3.2) 와같은회귀모형을고려할수있 는데여기서변수 Y 는 WPD, D 1 은팀의순위가상또는중이면 1, 하이면 0, D 2 는경기진행률이 20% 이하이면 1, 아니면 0 인가변수, X 3 은경기진행률을각각의미한다. 또한간편성을위해사용한 X 4, X 5, X 6, X 7 은교호작용으로서각각 X 4 = D 1D 2, X 5 = D 1X 3, X 6 = D 2X 3, X 7 = D 1D 2X 3 을 의미한다. Y = β 0 + β 1D 1 + β 2D 2 + β 3X 3 + β 4X 4 + β 5X 5 + β 6X 6 + β 7X 7 + ϵ (3.2) 변수선택은단계선택법을이용하였으며그결과가 Table 3.7 과 Table 3.8 이다. Table 3.7 Model summary for regression analysis R Square Adjusted R Square Std. Error of the Estimate 0.814 0.811 1.90251 Table 3.8 Estimated regression model coefficients Model Unstandardized Coefficients Standardized Coefficients B Std. Error Beta t Sig. VIF Constant 06.339 0.401 +15.818 0.000 D1 00.789 0.233 +0.085 +03.388 0.001 1.000 D2 15.241 0.860 +1.395 +17.721 0.000 9.810 X3-0.065 0.005-0.430-12.200 0.000 1.964 X6-0.687 0.049-1.006-13.895 0.000 8.298 회귀분석분산분석표는지면관계상생략되었지만 p값은 p <0.001로회귀직선은유의수준 1% 에서매우유의한것으로나타났으며, Table 3.7에서알수있듯이결정계수도 81.4% 로높게나타났다. Table 3.8은추정된회귀식, 표준화회귀계수및 VIF를보여주는데, 단계선택법결과선택되어진변수들은모두유의수준 1% 에서유의하였으며, 3개의변수들에대한 VIF의값이모두 10보다작아서다중공선성의문제는없는것으로나타났다. 또한잔차를통하여회귀모형에서의선형성, 독립성, 정규성, 등분산성과같은기본가정들이모두성립함을확인할수있었다. 그결과, 추정된회귀식은식 (3.3) 과같이기술할수있으며표준화회귀계수를이용하면경기진행률 D 2 가가장영향력이있는것으로나타났다. Ŷ = 6.339 + 0.789D 1 + 15.241D 2 0.065X 3 0.687X 6 (3.3)

Convergence characteristics of Pythagorean winning percentage in baseball 1483 Figure 3.2 Scatterplot of predicted vs. actual values Figure 3.2 는순위에따른변화를고려하여 WPD 와회귀직선을이용하여추정된 WPD 의관계를보 여주는산점도이다. 대체적으로실제 WPD 를추정된 WPD 로잘예측하고있으나 WPD 의값이증가 할수록잔차가커짐을알수있다. 4. 결론피타고라스기대승률은야구에서실제승률을예측하는가장유명한공식인데팀의득점과실점을가지고시즌승률을예측한다. 야구팬들은이식을이용해서시즌중간의팀순위를가지고시즌후반의팀순위변동을예측하기도하며어떤팀이실력보다실제승률이높은지, 낮은지를평가하기도한다. 하지만이공식은적은경기의득점과실점이아니라한시즌전체의득점과실점을사용하여야더신뢰도가커지는데, 이와같은관점에서시즌중경기진행률에따른피타고라스기대승률의신뢰도를살펴보는일은매우의미있는일이라고할수있겠다. 본연구에서는최종피타고라스기대승률에대한시즌중의피타고라스승률수렴특성을살펴보았다. 그결과팀의순위가낮고경기진행률이커질수록전반적으로최종피타고라스기대승률과의차이가적었다. 경기진행률은 20% 까지는최종피타고라스기대승률과의괴리가심하나 20% 를초과해서는경기진행률이커질수록완만하게최종피타고라스승률에수렴하였으며, 경기의진행률이 70% 를넘기면최종피타고라스기대승률과유의수준 5% 에서통계적으로유의한차이를보이지않았다. 향후연구과제로는본연구에서의고려된연도, 팀의순위및경기진행률이외의야구선수나팀을평가하는타율, 장타율, 출루율, 수비율등과같은야구통계량들을사용하면야구피타고라스정리수렴특성에관한좀더설득력있는결과를창출할수있을것으로간주된다. References Cochran, J. J. (2008). The optimal value and potential alternatives of Bill James Pythagorean method of baseball. STAtOR, 2, 2008. Davenport, C. and Woolner, K. (1999). Revisiting the Pythagorean theorem: Putting Bill James Pythagorean theorem to the test. The Baseball Prospectus, http://www.baseballprospectus.com/ article.php?articleid=342.

1484 Jangtaek Lee Dayaratna, K. D. and Miller, S. J. (2013). The Pythagorean won-loss formulaand hockey: A statistical justification for using the classic baseball formula as an evaluative tool in hockey, http://arxiv.org/ ftp/arxiv/papers/1208/1208.1725.pdf. Hong, C. S.., Kim, J. Y. and Shin, D. S. (2016). Alternative hitting ability index for KBO. Journal of the Korean Data & Information Science Society, 27, 677-687. James, B. (1982). The Bill James abstract, Ballantine, New York. Kim, H. J. (2011). Suggestion of a new method of computing percentage of victories for the Korean professional baseball. The Korean Journal of Applied Statistics, 24, 1139-1148. Lee, J. T. and Kim, Y. T. (2006a). A study on the estimation of winning percentage in Korean pro-baseball. Journal of the Korean Data Analysis Society, 8, 857-869. Lee, J. T. and Kim, Y. T. (2006b). Estimation of winning percentage in Korean pro-sports. Journal of the Korean Data Analysis Society, 8, 2105-2116. Lee, J. T. (2014a). Estimation of OBP coefficient in Korean professional baseball. Journal of the Korean Data & Information Science Society, 25, 357-363. Lee, J. T. (2014b). Estimation of exponent value for Pythagorean method in Korean pro-baseball.journal of the Korean Data & Information Science Society, 25, 493-499. Lee, J. T. (2015). Measuring the accuracy of the Pythagorean theorem in Korean pro-baseball. Journal of the Korean Data & Information Science Society, 26, 653-659. Miller, S. J. (2006). A derivation of the pythagorean won-loss formula in baseball. By the Numbers, 16, 40-48. Seung, H. B. and Kang, K. H. (2012). A study on relationship between the performance of professional baseball players and annual salary. Journal of the Korean Data & Information Science Society, 23, 285-298.

Journal of the Korean Data & Information Science Society 2016, 27(6), 1477 1485 http://dx.doi.org/10.7465/jkdi.2016.27.6.1477 한국데이터정보과학회지 Convergence characteristics of Pythagorean winning percentage in baseball Jangtaek Lee 1 1 Department of Applied Statistics, Dankook University Received 5 September 2016, revised 1 October 2016, accepted 11 October 2016 Abstract The Pythagorean theorem for baseball based on the number of runs they scored and allowed has been noted that in many baseball leagues a good predictor of a team s end of season won-loss percentage. We study the convergence characteristics of the Pythagorean expectation formula during the baseball game season. The three way ANOVA based on main effects for year, rank, and baseball processing rate is conducted on the basis of using the historical data of Korean professional baseball clubs from season 2005 to 2014. We perform a regression analysis in order to predict the difference in winning percentage between teams. In conclusion, a difference in winning percentage is mainly associated with the ranking of teams and baseball processing rate. Keywords: Convergence characteristics, Korean professional baseball, Pythagorean method, winning percentage. The present research was conducted by the research fund of Dankook University in 2016. 1 Professor, Department of Applied Statistics, Dankook University, Gyeonggi-do 448-701, Korea. E-mail: jtlee@dankook.ac.kr