1272 Jea-Young Lee, Hyeon-Gyu Kim KBO에서의 WAR은선수의공격능력 (batting runs) 과주루능력 (base running runs), 수비능력 (fielding runs), 포지션조정 (positional adjustment) 의합을

Similar documents

350 Jang Taek Lee 들의 평가가 서로 상이하게 될 수 있기 때문에 지표들에 대한 종합적인 판단을 할 필요가 있다. 따라서 변수 개수가 많을 때 변수의 성질에 따라 묶인 소수의 변수로 만들어 주는 주성분분석과 같은 분석이 필 요할 수 있으며, 따라서 본 연구

286 Heebae Seung Kee-Hoon Kang 국 4억으로 협상을 보았다. 객관적인 성적이나 수치가 인상과 삭감을 결정하는 매우 중요한 열쇠이지 만, 그렇다고 기록만 가지고 연봉을 책정하지는 않는다. 각 구단은 선수가 팀에서 차지하는 비중, 인기, 경력, 입단

<352E20BAAFBCF6BCB1C5C320B1E2B9FDC0BB20C0CCBFEBC7D120C7D1B1B920C7C1B7CEBEDFB1B8C0C720B5E6C1A1B0FA20BDC7C1A120BCB3B8ED D2DB1E8C7F5C1D62E687770>

???? 1

DBPIA-NURIMEDIA

Analysis of objective and error source of ski technical championship Jin Su Seok 1, Seoung ki Kang 1 *, Jae Hyung Lee 1, & Won Il Son 2 1 yong in Univ

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

DBPIA-NURIMEDIA

Analyses the Contents of Points per a Game and the Difference among Weight Categories after the Revision of Greco-Roman Style Wrestling Rules Han-bong

<4D F736F F D20BBE7BABB202D20C3D6BDC54954B5BFC7E2>

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

<34C2F7C0FC2E687770>

03이경미(237~248)ok

The characteristic analysis of winners and losers in curling: Focused on shot type, shot accuracy, blank end and average score SungGeon Park 1 & Soowo


DBPIA-NURIMEDIA

인문사회과학기술융합학회

< C6AFC1FD28C3E0B1B8292E687770>

368 배재영, 이진목, 이제영 수들을 표준화하여서 산술평균을 구해서 순위를 예측하고, 상관계수를 통해서 가중평균순위를 예측한 다. 하지만 산술평균은 유사한 능력이 있을 시, 동일한 가중치(1/n)를 주는 문제가 있으며, 가중평균은 많은 변수의 상관계수가 복잡하여서,

???춍??숏

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Analysis of

= ``...(2011), , (.)''

체육학석사학위논문 프로야구선수의가치평가요인탐색 : 한국프로야구리그와메이저리그의 연봉결정요인비교분석 2018 년 2 월 서울대학교대학원 체육교육과 황수웅

65 Soon-Kwi Kim Young-Hoon Lee 한국프로야구의매시즌별팀당경기수가동일하지않으므로, 본연구에서는시즌별팀당경기수 G로나눈시즌별경기당득점수 rsg와경기당실점수 rag를변수 rs와 ra 대신사용하였다. 절에서승률을정의하고,.절에서 rsg rag와승률간의상

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: : Researc

패션 전문가 293명 대상 앙케트+전문기자단 선정 Fashionbiz CEO Managing Director Creative Director Independent Designer

서론 34 2

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

14.531~539(08-037).fm

???? 1

678 Chong Sun Hong Jae Young Kim Dong Sik Shin 여 분석하였다. 또한, Yang 등 (2015)은 Lee (2014c)의 연구를 확장하여 타고투저 현상의 발생 원인을 분석에 포함하였다. WAR은 야구선수의 모든 요소를 계산해서 종합한

DBPIA-NURIMEDIA

Kor. J. Aesthet. Cosmetol., 및 자아존중감과 스트레스와도 밀접한 관계가 있고, 만족 정도 에 따라 전반적인 생활에도 영향을 미치므로 신체는 갈수록 개 인적, 사회적 차원에서 중요해지고 있다(안희진, 2010). 따라서 외모만족도는 개인의 신체는 타

4 장주성분분석 ( PCA: Principal Component Analysis) 예 1 ) 바지구입 - 우리몸의치수모두를알아야하는가? - 변수 : 허리둘레, 기장, 엉덩이둘레, 허벅지둘레, 무릎높이 - 허리둘레, 기장두변수면충분 ( 이것이주성분분석의개념 ) 즉, 원변

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -


Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: * Review of Research

09권오설_ok.hwp

statistics

Lumbar spine

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA

<352EC7E3C5C2BFB55FB1B3C5EBB5A5C0CCC5CD5FC0DABFACB0FAC7D0B4EBC7D02E687770>

<31372DB9DABAB4C8A32E687770>

자연채무에대한재검토 1. 서론 2. 선행연구 9 Journal of Digital Convergence 214 May; 12(5): 89-99

DBPIA-NURIMEDIA

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

오늘의 매치업 양 팀 맞대결 정보 무 률.. 순위 : 위 최근 및 일정 상대 마산 마산 마산 문학 문학 수원 구장 / / / / / / VS 시즌전체 시즌상대 최근 LLWLL 무 률.. 시리즈 정보,,, 홈 성적 방문 성적 맞대결 성적 통산 홈 성적 통산 방문 성적 통

,,,.,,,, (, 2013).,.,, (,, 2011). (, 2007;, 2008), (, 2005;,, 2007).,, (,, 2010;, 2010), (2012),,,.. (, 2011:,, 2012). (2007) 26%., (,,, 2011;, 2006;

DBPIA-NURIMEDIA

(Exposure) Exposure (Exposure Assesment) EMF Unknown to mechanism Health Effect (Effect) Unknown to mechanism Behavior pattern (Micro- Environment) Re

Research subject change trend analysis of Journal of Educational Information and Media Studies : Network text analysis of the last 20 years * The obje

09

°£´ãÃé99.7-ÁøÂ¥!

A Time Series and Spatial Analysis of Factors Affecting Housing Prices in Seoul Ha Yeon Hong* Joo Hyung Lee** 요약 주제어 ABSTRACT:This study recognizes th

188 최 영 환 청률을 통한 가치측정을 통한 자기 권리를 주장할 수 있 는 근거 자료로 활용할 수 있다. 즉, 방송사가 주장하는 낮은 중계권료를 주장할때는 프로야구가 낮은 시청률을 기록했을 때만이 정당하다. 하지만, 프로야구의 뜨거운 열기만큼이나 시청률도 급 성장세를

Microsoft Word - KSR2012A021.doc

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

목 차 회사현황 1. 회사개요 2. 회사연혁 3. 회사업무영역/업무현황 4. 등록면허보유현황 5. 상훈현황 6. 기술자보유현황 7. 시스템보유현황 주요기술자별 약력 1. 대표이사 2. 임원짂 조직 및 용도별 수행실적 1. 조직 2. 용도별 수행실적

달생산이 초산모 분만시간에 미치는 영향 Ⅰ. 서 론 Ⅱ. 연구대상 및 방법 達 은 23) 의 丹 溪 에 최초로 기 재된 처방으로, 에 복용하면 한 다하여 난산의 예방과 및, 등에 널리 활용되어 왔다. 達 은 이 毒 하고 는 甘 苦 하여 氣, 氣 寬,, 結 의 효능이 있

12È«±â¼±¿Ü339~370

Microsoft Word - SPSS_MDA_Ch6.doc

29-6(본문).pdf

< C6AFC1FD28B0F1C7C1292E687770>

노동경제논집 38권 4호 (전체).hwp


한국성인에서초기황반변성질환과 연관된위험요인연구

Æ÷Àå½Ã¼³94š

10(3)-09.fm

, Next Step of Hangul font As an Example of San Serif Han San Seok Geum ho, Jang Sooyoung. IT.. Noto Sans(Adobe, Han-San). IT...., Muti Script, Multi

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: * Strenghening the Cap

DBPIA-NURIMEDIA

<C7D1B1B9B1B3C0B0B0B3B9DFBFF85FC7D1B1B9B1B3C0B05F3430B1C733C8A35FC5EBC7D5BABB28C3D6C1BE292DC7A5C1F6C6F7C7D42E687770>

#Ȳ¿ë¼®

0목차원고

오늘의 매치업 양 팀 맞대결 정보 승 패 무 승률 VS 승 패 무 승률 시즌전체 시즌상대 순위 : 4위 LWLWW 최근 5 경기 WLWWL 순위 : 2위 최근 경기 결과 및 일정 시

오늘의 매치업 양 팀 맞대결 정보 승 패 무 승률 VS 승 패 무 승률 시즌전체 시즌상대 순위 : 7위 LWLWL 최근 5 경기 WWLWW 순위 : 3위 최근 경기 결과 및 일정 시리

Microsoft Word - Market Issue 빅데이타 시대

歯1.PDF

232 도시행정학보 제25집 제4호 I. 서 론 1. 연구의 배경 및 목적 사회가 다원화될수록 다양성과 복합성의 요소는 증가하게 된다. 도시의 발달은 사회의 다원 화와 밀접하게 관련되어 있기 때문에 현대화된 도시는 경제, 사회, 정치 등이 복합적으로 연 계되어 있어 특

hwp

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: NCS : * A Study on

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Mar.; 25(3),

PowerPoint 프레젠테이션


<C7A5C1F620BEE7BDC4>

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

012임수진

Journal of the Korean Data & Information Science Society 2017, 28(2), 한국데이터정보과학회지 한국프로야구에서투수연봉에영향


1478 Jangtaek Lee 큰경우가 6.24%, 가장작은경우가 0.03%, 평균 1.95% 로이정도의오차는일반적으로설명할수없는 랜덤오차로보기에충분하다고할수있겠다. 지금까지수행된야구의피타고라스정리에관한연구들은크게나누면세가지로대별된다. 첫째는 피타고라스정리에사용되는지

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

04_이근원_21~27.hwp

Journal of Educational Innovation Research 2017, Vol. 27, No. 1, pp DOI: * The

27 2, 17-31, , * ** ***,. K 1 2 2,.,,,.,.,.,,.,. :,,, : 2009/08/19 : 2009/09/09 : 2009/09/30 * 2007 ** *** ( :

03-서연옥.hwp

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Dec.; 27(12),

<31362DB1E8C7FDBFF82DC0FABFB9BBEA20B5B6B8B3BFB5C8ADC0C720B1B8C0FC20B8B6C4C9C6C32E687770>

Transcription:

The Korean Journal of Applied Statistics (2016) 29(7), 1271 1281 DOI: http://dx.doi.org/10.5351/kjas.2016.29.7.1271 Suggestion of batter ability index in Korea baseball - focusing on the sabermetrics statistics WAR Jea-Young Lee a,1 Hyeon-Gyu Kim a a Department of Statistics, Yeungnam University (Received August 8, 2016; Revised August 30, 2016; Accepted August 30, 2016) Abstract Wins above replacement (WAR) is one of the most widely used statistic among sabermatrics statistics that measure the ability of a batter in baseball. WAR has a great advantage that is to represent the attack power of the player and the base running ability, defensive ability as a single value. In this study, we proposed a hitter ability index using the sabermetrics statistics that can replace WAR based on Korea Baseball Record Data of the last three years (2013 2015). First, we calculated Batter ability index through the arithmetic mean method, the weighted average method, principal component regression and selected the method that had high correlation with WAR. Keywords: principal component analysis, principal component regression, sabermatrics, wins above replacement 1. 서론야구에서타자의타격능력을쉽게계산하면서평가할수있는통계량을개발하기위한연구는세이버메트릭스 (sabermatrics) 를통해서계속진행중이다. 세이버메트릭스는누적된자료를토대로통계적인관점에서야구에관한분석을하는연구분야이며, 이와같은방법으로자료분석하는사람을세이버메트릭션 (sabermatrician) 이라고부른다 (Hong 등, 2016). 한국프로야구 (Korea Baseball Organization; KBO) 에서타자능력에관한연구는 Kim (2012), Lee와 Cho (2009), Lee (2014) 등이있으며특히, 기존의단순한통계량을가공하여야구기록을보다수학적 과학적으로분석하는세이버메트릭스분야의중요성은점차강조되고있다 (Kang 등, 2014; Cho 등, 2007). 이는타율, 타점, 득점등과같이일차적인방법으로선수의능력을분석하는것에서벗어나더객관적이고구체적이며조금더고차원적인방법으로선수의경기력을평가할수있다는점에서야구경기분석의주류로자리잡아가고있다 (Seung과 Kang, 2012). 특히, 대체선수대비승수를나타내는 wins above replacement(war) 은특정선수대신투입됐을때얼마나많은승리에기여했는가를나타내는수치로지금까지나와있는많은세이버메트릭스통계량중미국프로야구 (Major League Baseball; MLB) 와 KBO에서가장공신력있는통계량으로이용되고있다. 그중 KBO에서사용하고있는 WAR은다음과같이구할수있다 (kbreport, http://www.kbreport.com/statdic/detail?seq=22&contentstype=a304). WAR = Batting Runs + Base Running Runs + Fielding Runs + Positional Adjustment Runs Per Win (1.1) 1 Corresponding author: Department of Statistics, Yeungnam University, 280, Daehak-ro, Gyeongsan-si, Gyeongsangbuk-do 38541, Korea. E-mail: jlee@yu.ac.kr

1272 Jea-Young Lee, Hyeon-Gyu Kim KBO에서의 WAR은선수의공격능력 (batting runs) 과주루능력 (base running runs), 수비능력 (fielding runs), 포지션조정 (positional adjustment) 의합을 1승에해당하는득점 (runs per win) 으로나눈값으로선수의능력을종합적으로나타낸다는점에서큰장점을가진다. MLB에서도 WAR을이용하고있으나, 식 (1.1) 에서리그조정 (league runs) 과대체선수대비타석수보정 (replacement runs) 이추가되어계산된다는점에서 KBO에서사용되는 WAR과조금다르다. 따라서본연구에서는먼저 KBO 자료로부터구한 WAR과세이버메트릭스통계량들을산술평균방법, 가중평균방법, 주성분회귀분석방법에적용한뒤비교분석하여상관계수가가장높은분석방법을채택하고, 최종타자능력지수 (batter ability index; BAI) 를제안한다. 데이터는 KB Report(kbreport.com) 기록실에게시되어있는 2013년부터 2015년까지지난 3년간의데이터를이용하였다. 본연구의구성은다음과같다. 2절에서는세이버메트릭스변수에대한설명과연구에사용된데이터및분석방법을소개한다. 3절에서는산술평균방법과상관계수를이용한가중평균방법, 주성분회귀분석방법을통해타자의능력을파악할수있는지수를개발하고 WAR과비교하여가장근접한지수를최종으로선택하여타자능력지수로제안한다. 마지막 4절에서는연구의결과를요약하고결론을맺는다. 2. 연구방법 2.1. 데이터소개 본연구는타자력요인에관한연구를하기위하여 2013 년부터 2015 년까지한국프로야구의규정타석을 만족한 153 명의타자들중동일한타자의경우각각서로연관이있을것이라생각하여평균값으로데이 터를종합해총 83 명의선수들에대한데이터로분석하였다. 데이터는케이비리포트 (kbreport.com) 기 록실에게시되어있는데이터를이용하였다. 변수는타자의경기력을분석하는데필요한지수로제한하 였고, 체육전공교수 1 인, 야구전문가 2 인의도움을받아다음과같은 13 개의세이버메트릭스통계량을 이용하였다 (Yang 등, 2015). 공격공헌도 (On Base plus Slugging; OPS) 가장보편화되고잘알려진세이버메트릭스통계량으로서출루율과장타율의합으로구할수있어쉽 게계산할수있는장점이있다. 단점으로는단순히출루율 (OBP) 과장타율 (SLG) 을더한다는점인 데, 이는장타율에치중된값이라고볼수있다. 하지만많이사용되는이유는아무래도간편한식때 문이다. OPS = OBP + SLG. 총생산평균 (Gross Production Average; GPA) OPS 의단점을보완한통계량으로출루율에 1.8 의가중치를두고계산한다. 따라서장타율이과대평 가되는단점을보완할수있다. GPA = 수정타율 (SECondary Average; SECA) 1.8OBP + SLG. 4 안타를타수로나누는타율의공식이갖는가장큰단점은장타와단타의가치를동일시하면서볼넷 은인정하지않으므로 SECA 는장타율의가중치에 4 사구와도루의가치를고려해만든지수이다. SECA = (2B) + 2(3B) + 3(HR) + (UBB) + (SB) (CS), AB

Suggestion of batter ability index in Korea baseball - focusing on the sabermetrics statistics WAR 1273 여기서 2B 는 2 루타, 3B 는 3 루타, HR 는홈런, UBB 는고의 4 구제외 4 사구, SB 는도루성공, 그리고 CS 는도루실패이다. 종합공격력 (Total Average; TA) 총진루수를총아웃수로나눈것으로한시즌동안타자가한번의공격기회에서얼마만큼진루했는 가를나타내는지수이다. TA = TB + HBP + BB + SB AB H + CS + GDP, 여기서 TB 는총루타수, HBP 는몸에맞는공, BB 는볼넷, AB 는타수, H 는안타수, 그리고 GDP 는 병살타이다. 득점생산력 (Run Created; RC) 세이버메트릭스의창시자인빌제임스가고안한것으로타자의출루능력 (A) 과주자를진루시키는능 력 (B) 을타자의득점에관한창출능력으로보고한타자가팀이득점을올리는데있어서어느정도 기여했는지를나타낸다. RC = A B C, A = (H + BB + HBP CS GDP), B = (TB) + 0.52(SB + SF + SH) + 0.26(BB + HBP IBB), C = (AB + BB + HBP + SF + SH), 여기서 SF 는희생플라이, SH 는희생타, IBB 는고의 4 구이다. 경기당득점기여도 (Run Created per 27 outs; RC/27) RC 가타자가몇점을만들어냈는지를의미하는것이라면 RC/27 은한타자로 9 명이구성된팀이한 경기를치르면몇점이나뽑을것인가를평균수치화한것이다. RC 27 RC 27 =, A 추정득점력 (extrapolated Runs; XR) A = (AB H + SF + SH + CS + GDP). RC 와유사한개념으로팀의득점에얼마나공헌했는지를타나내며 RC 와의차이점으로는 1955 년부 터 1997 년까지메이저리그공식기록을회귀분석하여도출한선형공식이라는점으로정확도면에서는 RC 보다낫다고알려져있다. XR = 0.5(1B) + 0.72(2B) + 1.04(3B) + 1.44(HR) + 0.34(BB + HBP IBB) + 0.25(IBB) + 0.18(SB) 0.32(CS) 0.09(AB H SO) 0.098(SO) 0.37(GDP) + 0.37(SF) + 0.04(SH), 여기서 1B 는 1 루타, SO 는삼진아웃이다. 득점공헌도 (Batting Runs; BR) 리그타자들의평균공격력을 0 으로놓은상태에서상대적으로타자의팀공격기여도를수치화한지

1274 Jea-Young Lee, Hyeon-Gyu Kim 수다. BR = 0.47(1B) + 0.78(2B) + 1.09(3B) + 1.4(HR) + 0.33(BB + HBP) + 0.3(SB) 0.6(CS) 0.25(AB H) 0.5(OOB), 여기서 OOB는주루사이다. 순수장타율 (ISOlated power; ISO) 타자의파워히팅능력을나타낸것으로장타율에타율 (AVG) 이포함되어있는것을고려해서고안된지수이다. ISO = SLG AVG. 호타준족 (Power Speed Number; PSN) 타자의호타준족정도를나타낸지수로도루실패를감안하지않는다는단점을지니고있다. PSN = HR SB 2 HR + SB. 타석당득점기대 (weight On Base Average; woba) 타자가타석에들어섰을때의여러가지상황에따른득점가치를고려하여타자의생산력을나타낸 것으로득점과의상관관계가매우높고, 출루율의가치가저평가받는문제점을개선하였지만구장효 과를반영하지못하며주루와타격을분리하지못했다는단점을지닌다. woba= 0.7(BB IBB)+0.73(HBP)+0.89(1B)+1.27(2B)+1.61(3B)+2.07(HR)+0.25(SB)+0.5(CS). AB IBB 공격기대승률 (Offensive Winning Percentage; OW%) 리그의평균득점과한타자의 RC/27 을고려해한타자만으로이루어진타선이면몇 % 의승률을가 지는지를나타내는지수로리그평균변화를고려하여한타자의한시즌리그지배력을알수있다. OW% = (RC/27) 2 (RC/27) 2 + 리그 (RC/27) 2. 인플레이타구비율 (Batting Average on Balls In Play, BABIP) 타자가친공이페어지역안에떨어진경우만을나타내는지수로타자와투수에게모두적용이가능 하다. 본인의타격스타일에따라자신만의고유한 BABIP 를가지게되며, 라인드라이브 > 그라운 드볼 > 플라이볼순으로 BABIP 값이높게형성된다. BABIP = H HR AB SO HR + SF. 2.2. 분석방법본연구에서는한국프로야구타자의능력을파악하는지수를개발및제안하기위해 13개의세이버메트릭스통계량을이용해서산술평균방법과가중평균방법, 주성분분석방법을적용하였다. 먼저산술평균방법은총 13개변수를표준화하여산술평균을구한뒤, 각타자들의능력을평가하였다. 여기에서는모든변수들이동일한가중치 (1/n) 로반영이되었으므로, OPS와 GPA, woba와같은비슷한능력을측정하는경우이부분의값이큰타자가높은점수를받을것이다. 이러한단점을보완하기위해서두

Suggestion of batter ability index in Korea baseball - focusing on the sabermetrics statistics WAR 1275 Table 3.1. Simple statistics for 13 variable N Mean Std Min Max OPS 83.839.104.621 1.199 GPA 83.285.031.217.392 SECA 83.311.088.171.617 TA 83.852.159.567 1.499 RC 83 79.123 23.747 36.960 166.810 RC/27 83 6.557 1.884 3.340 14.510 XR 83 71.180 19.763 29.566 135.955 BR 83 25.266 17.504 8.350 89.540 ISO 83.163.065.057.377 PSN 83 8.204 6.429.000 30.088 woba 83.370.037.291.488 OW% 83.469.125.199.813 BABIP 83.337.031.214.407 OPS = on base plus slugging; GPA = gross production average; SECA = SECondary average; TA = total average; RC = run created; RC/27 = run created per 27 outs; XR = extrapolated Runs; BR = batting runs; ISO = ISOlated power; PSN = power speed number; woba = weight on base average; OW% = offensive winning percentage; BABIP = batting average on balls in play. 번째로가중평균방법을이용하였다. 모든변수의상관계수를구하고, 이를이용해서구한가중평균으로타자들의능력을평가하였다. 상관계수가높은세이버메트릭스통계량끼리그룹으로묶은후, 각다른가중치를부여함으로써타자의능력을살펴볼수있다. 그러나 13개의변수를모두사용하여다중회귀분석을하는경우설명변수들사이의높은상관관계에의해다중공선성 (multicollinearty) 문제를야기시킬수있다 (Kwon, 2008). 따라서, 이러한문제를해결하기위해서, 본논문에서는주성분분석을통해주성분변수를얻어이를설명변수로이용함으로써다중공선성문제를해결하였다 (Oh 등, 2012). 주성분분석에서는주성분의개수를선택할때, 상관계수행렬을이용할시일반적으로고유치값이 1이상인주성분과총변동의설명력이 80% 이상인주성분변수를선택할수있다. 성분부하값이크다는것은그에대응하는원변수의영향이크다는것을의미하므로성분부하값이큰변수를파악하여주성분의이름을부여하면된다. 여기서선택된주성분이새로운회귀모형의설명변수로이용되고주성분점수가설명변수의측정치가된다. 새로운회귀모형은다음과같다. y i = β 0 + β 1Prin 1 + β 2Prin 2 + + β pprin p + ϵ i, i = 1,..., k, (2.1) 여기서 Prin 1, Prin 2,..., Prin p 는주성분변수가되고, β 0, β 1,..., β p 는회귀계수추정치이며, ϵ i 는평균벡터가 0, 공분산행렬이 cov(ϵ i) = I인확률오차벡터이다 (Bae 등, 2012). 식 (2.1) 에서추정된 y값을타자능력지수로두고 WAR과비교한다. 3. 타자능력지수제안분석에앞서사용될지수들의기초통계량은 Table 3.1과같다. Table 3.1에서 13개의변수들의평균값을보면 RC, RC/27, XR, BR, PSN 값의단위가차이나는것을확인할수있다. 따라서우리는 BAI를제안하기위해, 3.1절에서는변수들의측정단위가차이나기때문에표준화시킨변수들을이용하여산술평균, 가중평균, 주성분회귀분석을실시한다. 3.2절에서는분석된결과들을가지고 WAR과비교하여가장근접한방법을찾고 3.3절에서 WAR과가장근접한방법으로구한타자능력지수를제안한다.

1276 Jea-Young Lee, Hyeon-Gyu Kim Table 3.2. Correlation coefficient matrix of sabermetrics statistics OPS GPA SECA TA RC RC/27 XR BR ISO PSN woba OW% BABIP OPS 1.993.838.961.914.973.914.966.855.472.983.973.464 GPA 1.822.966.911.978.905.969.797.443.994.983.518 SECA 1.895.802.826.818.857.881.518.815.792.137 TA 1.940.982.921.982.802.539.960.960.477 RC 1.937.989.969.761.565.893.919.457 RC/27 1.918.977.783.482.973.973.529 XR 1.961.798.540.882.913.391 BR 1.794.537.962.964.481 ISO 1.506.772.755.046 PSN 1.433.445.099 woba 1.979.532 OW% 1.572 BABIP 1 OPS = on base plus slugging; GPA = gross production average; SECA = SECondary average; TA = total average; RC = run created; RC/27 = run created per 27 outs; XR = extrapolated Runs; BR = batting runs; ISO = ISOlated power; PSN = power speed number; woba = weight on base average; OW% = offensive winning percentage; BABIP = batting average on balls in play. 3.1. 데이터분석및결과 3.1.1. 산술평균결과세이버메트릭스통계량들간에값의차이가크기때문에변수를표준화하여 분석하였다. 표준화한변수의값을산술평균 (AVG H1 ) 으로계산하면, 식 (3.1) 과같다. AVG H1 = (Z 1 + Z 2 + Z 3 + + Z n ), Z i = (X i µ i ), i = 1,..., n, (3.1) n σ i 여기에서변수는총 13 개가쓰였기때문에 n = 13 이된다. 산술평균을계산하여상위 10 명의순위를 나타낸결과와 WAR 과의비교는 3.4 절에서다루도록한다. 3.1.2. 상관계수를활용한가중평균결과산술평균을이용하는경우모든변수들이같은가중치를 가지기때문에비슷한성향의변수인 OPS 와 GPA 등이높은사람이높은점수를받을것이다. 이러 한문제점을보완하기위해가중평균을이용하였다. 세이버메트릭스변수에가중치를부여할때, 주관 적으로부여하는방법보다객관적인방법으로상관계수가높은변수를그룹화하여가중치를설정하였 다. Table 3.2 는세이버메트릭스통계량들의상관계수를나타낸표이다. Table 3.2 를보면 OPS, GPA, woba 등은상관계수가매우높은것을확인할수있다. 그리고타자의능력을계산한세이버메트릭 스통계량이기때문에전반적으로상관계수값들이높은것을알수있었다. 상관계수가높다는것은유 사한능력을가지고있는것이기때문에같은그룹이된다. 따라서 13 개의변수를 6 개의그룹으로분류 하여분석을진행하였다. 가중평균 (wavg H2) 의가중치는아래와같이구할수있다. [ OPS + GPA + woba + OW% (SECA + ISO) wavg H2 = + 4 2 TA + RC/27 + BR RC + XR / + + + PSN + BABIP] 6. (3.2) 3 2 위식으로가중평균을계산하여상위 10 명의순위를나타낸결과와 WAR 과의비교는 3.4 절에서다루도 록한다. 가중평균방법에서생길수있는문제점은데이터숫자에비해변수의개수가많아변수들간의

Suggestion of batter ability index in Korea baseball - focusing on the sabermetrics statistics WAR 1277 Table 3.3. Eigenvectors of sabermetrics statistics HA (Prin 1 ) QB (Prin 2 ) SASR (Prin 3 ) OPS.984.028.098 GPA.981.103.092 SECA.875.336.144 TA.988.010.002 RC.959.001.090 RC/27.984.096.030 XR.952.057.028 BR.991.026.013 ISO.838.418.196 PSN.551.416.716 woba.972.127.089 OW%.974.161.043 BABIP.473.821.246 OPS = on base plus slugging; GPA = gross production average; SECA = SECondary average; TA = total average; RC = run created; RC/27 = run created per 27 outs; XR = extrapolated Runs; BR = batting runs; ISO = ISOlated power; PSN = power speed number; woba = weight on base average; OW% = offensive winning percentage; BABIP = batting average on balls in play. 다중공선성이발생할수있으며, 상관계수의크기만으로변수들을분류하는게쉽지않다는것이다. 따 라서변수를정량적으로축약하는주성분분석을다음절에서활용하였다. 3.1.3. 주성분회귀분석결과원자료의모든변수 13개를이용해서상관계수의크기를분류하는것은쉽지않다. 이러한문제를해결하기위해서주성분분석을통해변수를축약하였다. 주성분분석을통해서나온고유치와누적설명력을이용해서, 그에맞는합당한변수들로축약을할수있는데, 일반적으로고유치 1이상이고누적설명력이 80% 이상인주성분을선택하는것이기본이다. 하지만본연구에서는 13개변수의효과를모두포함하기위해총 3개의변수로축약을했다. 제1주성분의고유치는 10.572이고제2주성분은 1.201, 제3주성분은 0.67의값을가졌다. 축약된 3개의주성분변수가 96% 의누적설명력을가지고있다. Table 3.3은선택된주성분변수에의해얻어진고유벡터를나타낸표이다. 이고유벡터를바탕으로변수를축약을할수있었다. 각각주성분내에서고유벡터값을큰변수들끼리묶은후이를이용해서주성분에이름을부여할수있다. Table 3.3에서제1주성분 (prin 1 ) 의계수크기를보면 PSN과 BABIP를제외하고변수의부하값이크므로제1주성분은타격능력 (hitting ability; HA) 이라할수있다. 제2주성분 (prin 2 ) 에서는 BABIP의부하값이크므로타구의질 (quality of batting; QB) 이라할수있다. 제3주성분 (prin 3 ) 에서는 PSN의부하값이크므로호타준족 (slugger and swift runner; SaSR) 이라할수있다. 각주성분의이름을정한뒤, 주성분점수를구할수있다. 아래식의각부분은얻어진주성분의점수산출식이다. HA(prin 1 ) = 0.984Z 1 + 0.981Z 2 + + 0.473Z 13, (3.3) QB(prin 2 ) = 0.028Z 1 + 0.103Z 2 + + 0.821Z 13, (3.4) SaSR(prin 3 ) = 0.098Z 1 0.092Z 2 + 0.246Z 13. (3.5) 위식에서 Z i 는각변수를표준화한값이며, 총 13 개의세이버메트릭스변수를표준화하여주성분

1278 Jea-Young Lee, Hyeon-Gyu Kim Table 3.4. Comparison of top 10 rank and scores result in three ways and WAR Name Team WAR AVG H1 wavg H2 PRIN H3 index (rank) scores (rank) scores (rank) scores (rank) Eric Allyn Thames NC 9.045 (1) 2.990 (1) 2.837 (1) 67.919 (1) Park, Byeong-ho Nexen 7.580 (2) 2.104 (2) 1.846 (2) 49.701 (2) Seo, Geon-chang Nexen 7.510 (3) 1.363 (4) 1.284 (4) 32.599 (4) Kang, Jeong-ho Nexen 7.210 (4) 1.401 (3) 1.239 (5) 33.693 (3) Choi, Jeong SK 6.690 (5) 1.321 (5) 1.388 (3) 30.565 (6) Tamaico Navarro Samsung 6.485 (6) 1.297 (6) 1.211 (6) 31.840 (5) Park, Seok-min Samsung 5.797 (7) 0.884 (10) 0.608 (13) 23.413 (8) Yang, Eui-ji Doosan 5.510 (8) 0.510 (19) 0.385 (21) 14.557 (18) Andy Marte KT 5.250 (9) 0.693 (14) 0.452 (17) 19.020 (14) Choi, Hyeong-woo Samsung 5.133 (10) 0.911 (8) 0.667 (10) 24.062 (7) 점수를구하였다. 축약된변수를이용해서회귀분석을진행한결과얻어진주성분회귀분석의모형 (PRIN H3 ) 은다음과같다. PRIN H3 = 2.738 + 1.843 HA 0.008 QB + 0.077 SaSR. (3.6) 위주성분회귀모형 (PRIN H3) 에서계수들의유의성을확인해본결과 HA(prin 1 ) 의 p-값은 < 0.0001 으로매우유의하게나왔으나 QB(prin 2 ) 의 p-값은 0.914, SaSR(prin 3 ) 의 p-값은 0.299으로유의하지않게나왔다. 따라서제1주성분 (HA) 만을이용한회귀모형과 PRIN H3 를 WAR과각각비교한결과, HA만을이용한회귀모형과의상관계수값은 0.94(p < 0.0001) 였고 PRIN H3 와의상관계수값은 0.943(p < 0.0001) 였다. 두회귀모형은미세한차이를보였으나 PRIN H3 의상관계수값이더크므로 PRIN H3 와 AVG H1, wavg H2 를다음절에서비교하였다. 3.2. WAR과분석방법에따른결과비교 3.1절에서산술평균과가중평균, 주성분회귀분석을통해타자를평가할수있는지수를만들었다. 이결과들을바탕으로 KBO에서 2013년부터 2015년까지규정타석을만족하고동일한선수의경우평균값을계산하여총 83명의타자들로부터 WAR과세가지방법에따른상위 10명의지수값과순위를비교한결과는 Table 3.4와같다. Table 3.4를보면테임즈 (Eric Allyn Thames) 와박병호 (Park, Byeong-ho) 는항상같은결과가나왔고, 3등부터 6등까지는순서가섞이며 7등이후로는바뀌는폭이큰것으로나왔다. PRIN H3 의 9등과 10등은김태균 (Kim, Tae-kyun) 과아두치 (Jim Charles Adduci) 로나타났다. 정확한비교를위해상관분석을실시한결과 3개방법모두유사한결과가나왔으나면밀히살펴보면 WAR과산술평균사이에는상관계수값이 0.941(p < 0.0001) 로나왔고가중평균과의비교에서는 0.929(p < 0.0001) 가나왔다. 마지막 PRIN H3 와의비교에서는상관계수값이 0.943(p < 0.0001) 으로가장높게나온것을알수있었다. 각점수별로값의단위가차이나기때문에변수를표준화시켜 WAR과각분석방법으로얻은값들을비교한그래프는 Figure 3.1과같다. Figure 3.1을보면 3개의방법모두 WAR과높은상관관계를띄고있어그래프만으로는구분하기가어렵다. 따라서 WAR과각분석방법에따른결과값과의상관계수를이용해서가장큰상관계수를가지는 PRIN H3 이최종타자능력지수로적합하다고판단하였다.

Suggestion of batter ability index in Korea baseball - focusing on the sabermetrics statistics WAR 1279 Figure 3.1. Scatter plot. 3.3. 타자능력지수 (Batter Ability Index; BAI) 제안본논문은타자의능력을평가하는지수중 WAR과가장근접한방법을제안하기위해산술평균방법, 가중평균방법, 주성분회귀분석방법을이용하였다. 각방법으로부터얻은값과 WAR을비교한결과, 주성분회귀모형의상관계수가 0.943(p < 0.0001) 으로 WAR과가장근접하며효율적인분석방법으로나타났다. 따라서주성분분석을이용하여총 13개의세이버메트릭스변수를 3개의주성분변수 (HA, QB, SaSR) 로축약하고 3개의주성분변수를통해최종타자능력지수 (BAI) 를제안한다. 식 (3.6) 을최종타자능력지수로선택하여 BAI로명명하였다. BAI(= PRIN H3 ) = 2.738 + 1.843 HA 0.008 QB + 0.077 SaSR. (3.7) 식 (3.7) 인 BAI와 WAR의 R 2 값은 0.889(r = 0.943) 로뛰어난설명력을가지고있으며, WAR에가장근접한모형이기때문에타자의능력을파악하는지수로타당하다고평가하였다. 4. 결론및토의본논문은 MLB 뿐만아니라 KBO에서타자의능력을평가하는데가장공신력있는통계량으로사용되는 WAR에가장근접한타자능력지수를제안하기위해타자능력에영향을미치는세이버메트릭스변수 13개를사용하여산술평균, 가중평균, 주성분분석, 주성분분석에의한회귀분석을적용하였다. 데이터는케이비리포트 (kbreport.com) 기록실에게시되어있는 2013년부터 2015년까지지난 3년간의데이터를이용하였다. 먼저변수의단위가다르기때문에변수를표준화하여산술평균을구하고, 두번째로 13개세이버메트릭스통계량의상관관계를이용하여 6개의그룹으로나눈뒤가중평균을계산하였다. 그러나앞의두방법의경우유사한항목이많고가중치문제와다중공선성문제가발생하기때

1280 Jea-Young Lee, Hyeon-Gyu Kim 문에세번째로이를보완하는주성분분석을실시하였다. 주성분분석을통해 13개의변수를 3개의주성분변수 (HA, QB, SaSR) 로축약하고, 주성분점수를계산하여회귀모형을구하였다. 마지막으로이세가지방법을통해구한값들을 WAR과비교하여상관계수가가장높은주성분분석방법 (r = 0.943, p < 0.0001) 을채택하고최종 BAI로제안했다. 상황에따라타자의심리도타자능력에영향을끼치는만큼타격지표로타자의모든능력을파악할수는없기때문에본연구에서제안한 BAI 또한완벽한타자능력지수는아니다. 하지만 BAI 지수는크게 HA, QB, SaSR 3가지를반영하여타자의능력을평가하는지수로써, 많은세이버메트릭스통계량들을포함하여복잡하게계산하여야하는지수들보다좀더간편하고쉽게계산할수있어서타자를객관적으로평가하고경기전략을짜는데도움이될것이다. References Bae, J. Y., Lee, J. M., and Lee, J. Y. (2012). Predicting Korea Pro-Baseball Rankings by principal component regression analysis. The Journal of Korean Statistical Society, 19, 367 379. Cho, Y. S., Cho, Y. J., and Sin, S. G. (2007). A study on winning and losing in Korean Professional Baseball League, Journal of the Korean Data & Information Science Society, 9, 501 510. Hong, J. S., Kim, J. Y., and Sin, D. S. (2016). Alternative hitting ability index for KBO, Journal of the Korean Data & Information Science Society, 27, 677 687. Kang, J. G., Park, S. C., and Kim, J. H. (2014). Suggestion of Korea professional baseball record system using Saber-Metrics, Korean Society for Internet Information, 15, 143 144. Kim, H. J. (2012). Effects of on-base and slugging ability on run productivity in Korean professional baseball, Journal of the Korean Data & Information Science Society, 23, 1065 1074. KB Report (2013 2015). http://www.kbreport.com/leader /main. Kwon, S. H. (2008). Utilizing and Analysis of Multivariate Data, Freeacademy, Seoul. Lee, J. T. (2014). Measurements for hitting ability in the Korean pro-baseball, Journal of the Korean Data & Information Science Society, 25, 349 356. Lee, J. T. and Cho, H. S. (2009). Estimation of OBP coefficient in Korean professional baseball, Journal of the Korean Data & Information Science Society, 25, 357 363. Oh, G. J., An, J. J., and Sim, G. S. (2012). Multi-currencies portfolio strategy using principal component analysis and Logistic regression, Journal of the Korean Data & Information Science Society, 23, 151 159. Seung, H. B. and Kang, G. H. (2012). A study on relationship between the performance of professional baseball players and annual salary, Journal of the Korean Data & Information Science Society, 23, 285 298. Yang, D. E., Cho, E. H., Bae, S. W., and Jung, S. W. (2015). Analysis of professional Korean baseball batter s performances factors, Journal of Sport and Leisure Studies, 60, 305 313.

Suggestion of batter ability index in Korea baseball - focusing on the sabermetrics statistics WAR 1281 한국프로야구에서타자능력지수제안 - 대체선수대비승수 (WAR) 을중심으로 이제영 a,1 김현규 a a 영남대학교통계학과 (2016 년 8 월 8 일접수, 2016 년 8 월 30 일수정, 2016 년 8 월 30 일채택 ) 요약야구에서타자의능력을측정하는많은세이버메트릭스통계량들중에서대체선수대비승수 (wins above replacement; WAR) 은가장많이쓰이는통계량이다. WAR 은선수의공격능력과주루능력, 수비능력등을하나의수치로표현하는방법이란점에서큰장점을가지고있다. 본논문에서는지난 3 년간 (2013 2015 년 ) 한국프로야구기록자료를바탕으로세이버메트릭스변수들의값을구한뒤, 이를이용하여 WAR 을대체할수있는타자능력지수를제안하였다. 타자능력지수는산술평균방법, 가중평균방법, 주성분회귀분석등을통해산출하고 WAR 과비교하여가장관계가높은방법을선택하였다. 주요용어 : 대체선수대비승수, 세이버메트릭스, 주성분분석, 주성분회귀분석 1 교신저자 : (38541) 경상북도경산시대학로 280, 영남대학교통계학과. E-mail: jlee@yu.ac.kr