<352E20BAAFBCF6BCB1C5C320B1E2B9FDC0BB20C0CCBFEBC7D120C7D1B1B920C7C1B7CEBEDFB1B8C0C720B5E6C1A1B0FA20BDC7C1A120BCB3B8ED28313531323231292D2DB1E8C7F5C1D62E687770>

Ad

Similar documents

<C8A3C5DABBEABEF720B0E6B1E2B5BFC7E220BFB9C3F820B8F0B5A8BFA120B4EBC7D120BFACB1B85FC3D6C1BE28C7D1C3A2BFB1292E687770>

<34C2F7C0FC2E687770>

<352EC7E3C5C2BFB55FB1B3C5EBB5A5C0CCC5CD5FC0DABFACB0FAC7D0B4EBC7D02E687770>

주지스님의 이 달의 법문 성철 큰스님 기념관 불사를 회향하면서 20여 년 전 성철 큰스님 사리탑을 건립하려고 중국 석굴답사 연구팀을 따라 중국 불교성지를 탐방하였습 니다. 대동의 운강석굴, 용문석굴, 공의석굴, 맥적산석 굴, 대족석굴, 티벳 라싸의 포탈라궁과 주변의 큰

1) 음운 체계상의 특징 음운이란 언어를 구조적으로 분석할 때, 가장 작은 언어 단위이다. 즉 의미분화 를 가져오는 최소의 단위인데, 일반적으로 자음, 모음, 반모음 등의 분절음과 음장 (소리의 길이), 성조(소리의 높낮이) 등의 비분절음들이 있다. 금산방언에서는 중앙

<B5B6BCADC7C1B7CEB1D7B7A52DC0DBBEF7C1DF E687770>

제 1 부 연구 개요

PSAT¿¹Á¦Áý È¨ÆäÀÌÁö °Ô½Ã (¼öÁ¤_200210) .hwp

cls46-06(심우영).hwp

伐)이라고 하였는데, 라자(羅字)는 나자(那字)로 쓰기도 하고 야자(耶字)로 쓰기도 한다. 또 서벌(徐伐)이라고도 한다. 세속에서 경자(京字)를 새겨 서벌(徐伐)이라고 한다. 이 때문에 또 사라(斯羅)라고 하기도 하고, 또 사로(斯盧)라고 하기도 한다. 재위 기간은 6

교사용지도서_쓰기.hwp

時習說 ) 5), 원호설( 元昊說 ) 6) 등이 있다. 7) 이 가운데 임제설에 동의하는바, 상세한 논의는 황패강의 논의로 미루나 그의 논의에 논거로서 빠져 있는 부분을 보강하여 임제설에 대한 변증( 辨證 )을 덧붙이고자 한다. 우선, 다음의 인용문을 보도록

<C0CEBCE2BABB2D33C2F7BCF6C1A420B1B9BFAAC3D1BCAD203130B1C72E687770>

E1-정답및풀이(1~24)ok

< BDC3BAB8C1A4B1D4C6C75BC8A3BFDC D2E687770>

<C1B6BCB1B4EBBCBCBDC3B1E2342DC3D6C1BE2E687770>

과 위 가 오는 경우에는 앞말 받침을 대표음으로 바꾼 [다가페]와 [흐귀 에]가 올바른 발음이 [안자서], [할튼], [업쓰므로], [절믐] 풀이 자음으로 끝나는 말인 앉- 과 핥-, 없-, 젊- 에 각각 모음으로 시작하는 형식형태소인 -아서, -은, -으므로, -음

민주장정-노동운동(분권).indd

<C3D6C1BE5FBBF5B1B9BEEEBBFDC8B0B0DCBFEFC8A C3D6C1BEBABB292E687770>

초등국어에서 관용표현 지도 방안 연구

제주어 교육자료(중등)-작업.hwp

¸é¸ñ¼Ò½ÄÁö 63È£_³»Áö ÃÖÁ¾

01Report_210-4.hwp

<C3D1BCB15FC0CCC8C45FBFECB8AE5FB1B3C0B0C0C75FB9E6C7E D352D32315FC5E4292E687770>

교육 과 학기 술부 고 시 제 호 초 중등교육법 제23조 제2항에 의거하여 초 중등학교 교육과정을 다음과 같이 고시합니다. 2011년 8월 9일 교육과학기술부장관 1. 초 중등학교 교육과정 총론은 별책 1 과 같습니다. 2. 초등학교 교육과정은 별책

시험지 출제 양식

우리나라의 전통문화에는 무엇이 있는지 알아봅시다. 우리나라의 전통문화를 체험합시다. 우리나라의 전통문화를 소중히 여기는 마음을 가집시다. 5. 우리 옷 한복의 특징 자료 3 참고 남자와 여자가 입는 한복의 종류 가 달랐다는 것을 알려 준다. 85쪽 문제 8, 9 자료

상품 전단지

::: 해당사항이 없을 경우 무 표시하시기 바랍니다. 검토항목 검 토 여 부 ( 표시) 시 민 : 유 ( ) 무 시 민 참 여 고 려 사 항 이 해 당 사 자 : 유 ( ) 무 전 문 가 : 유 ( ) 무 옴 브 즈 만 : 유 ( ) 무 법 령 규 정 : 교통 환경 재

DBPIA-NURIMEDIA

화이련(華以戀) hwp

ÆòÈ�´©¸® 94È£ ³»Áö_ÃÖÁ¾

<5BC1F8C7E0C1DF2D31B1C75D2DBCF6C1A4BABB2E687770>

120229(00)(1~3).indd

<B4D9BDC320C1FD20B6B0B3AAB1E22E687770>

웹진디자인3차

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

<C1A634C2F720BAB8B0EDBCAD20C1BEC6ED20BDC3BBE720C5E4C5A920C7C1B7CEB1D7B7A5C0C720BEF0BEEE20BBE7BFEB20BDC7C5C220C1A1B0CB20C1A6C3E22E687770>

< B5BFBEC6BDC3BEC6BBE E687770>

<3130BAB9BDC428BCF6C1A4292E687770>

11민락초신문4호

제1절 조선시대 이전의 교육

사진 24 _ 종루지 전경(서북에서) 사진 25 _ 종루지 남측기단(동에서) 사진 26 _ 종루지 북측기단(서에서) 사진 27 _ 종루지 1차 건물지 초석 적심석 사진 28 _ 종루지 중심 방형적심 유 사진 29 _ 종루지 동측 계단석 <경루지> 위 치 탑지의 남북중심

새만금세미나-1101-이양재.hwp

歯 조선일보.PDF

<33B1C7C3D6C1BEBABB28BCF6C1A42D E687770>

<C1DFB1DE2842C7FC292E687770>

96부산연주문화\(김창욱\)

<B9CCB5F0BEEEB0E6C1A6BFCDB9AEC8AD5F31322D32C8A35FBABBB9AE5FC3CAC6C731BCE25F6F6B5F E687770>

ASETAOOOCRKG.hwp

목 차 국회 1 월 중 제 개정 법령 대통령령 7 건 ( 제정 -, 개정 7, 폐지 -) 1. 댐건설 및 주변지역지원 등에 관한 법률 시행령 일부개정 1 2. 지방공무원 수당 등에 관한 규정 일부개정 1 3. 경력단절여성등의 경제활동 촉진법 시행령 일부개정 2 4. 대

종사연구자료-이야기방 hwp

정 답 과 해 설 1 (1) 존중하고 배려하는 언어생활 주요 지문 한 번 더 본문 10~12쪽 [예시 답] 상대에게 상처를 주고 한 사 람의 삶을 파괴할 수도 있으며, 사회 전체의 분위기를 해쳐 여러 가지 사회 문제를 발생시킬 수 있다. 04 5

09구자용(489~500)

<34B1C720C0CEB1C7C4A7C7D828C3D6C1BEC6EDC1FD D28BCF6C1A4292E687770>

DBPIA-NURIMEDIA

행당중학교 감사 7급 ~ 성동구 왕십리로 189-2호선 한양대역 4번출구에서 도보로 3-4분 6721 윤중중학교 감사 7급 ~ 영등포구 여의동로 3길3 용강중학교 일반행정 9급 ~ 1300

°£È£ 1~8 1È£š

참고 금융분야 개인정보보호 가이드라인 1. 개인정보보호 관계 법령 개인정보 보호법 시행령 신용정보의 이용 및 보호에 관한 법률 시행령 금융실명거래 및 비밀보장에 관한 법률 시행령 전자금융거래법 시행령 은행법 시행령 보험업법 시행령 자동차손해배상 보장법 시행령 자본시장과

580 인물 강순( 康純 1390(공양왕 2) 1468(예종 즉위년 ) 조선 초기의 명장.본관은 신천( 信川 ).자는 태초( 太初 ).시호는 장민( 莊愍 ).보령현 지내리( 保寧縣池內里,지금의 보령시 주포면 보령리)에서 출생하였다.아버지는 통훈대부 판무

<B1A4B0EDC8ABBAB8C7D0BAB8392D345F33C2F75F E687770>

<C1DFB0B3BBE7B9FD3128B9FDB7C92C20B0B3C1A4B9DDBFB5292E687770>

0616¾ËÄÄÁî_±¹¸³µµ¼Ł°ü À¥¿ë.PDF

년 충 남 지 역 어 조 사 보 고 서 국 립 국 어 원

WTVLMIYIJVCY.hwp

포천시시설관리공단 내규 제 24호 포천시시설관리공단 인사규정 시행내규 일부개정(안) 포천시시설관리공단 인사규정 시행내규 일부를 다음과 같이 개정 한다. 제17조(기간제근로자의 무기계약직 임용) 1 기간제근로자 관리규정 제16조 를 제19조 로 한다. 제20조(인사기록)

DBPIA-NURIMEDIA

<4D F736F F D20BBE7BABB202D20C3D6BDC54954B5BFC7E2>

3. 은하 1 우리 은하 위 : 나선형 옆 : 볼록한 원반형 태양은 은하핵으로부터 3만광년 떨어진 곳에 위치 2 은하의 분류 규칙적인 모양의 유무 타원은하, 나선은하와 타원은하 나선팔의 유무 타원은하와 나선 은하 막대 모양 구조의 유무 정상나선은하와 막대나선은하 4.

근대문화재분과 제4차 회의록(공개)

인천광역시의회 의원 상해 등 보상금 지급에 관한 조례 일부개정조례안 의안 번호 179 제안연월일 : 제 안 자 :조례정비특별위원회위원장 제안이유 공무상재해인정기준 (총무처훈령 제153호)이 공무원연금법 시행규칙 (행정자치부령 제89호)으로 흡수 전면 개

교육실습 소감문

(2STEP-\303\3126-2nd_\307\320\273\375\277\353.pdf)

목 차 전반 기 5 시간 이상 경기 8 9 회 최장 시간 경기 9 2 시간 이하 경기 회 이상 연장전 경기 11 연속경기 연장전 12 무득점 무승부 (0-0) 경기 13 최다 득점 무승부 경기 14 동일대진 연속 무승부 경기 경기 15 몰수 경기

<C7A5C1F620BEE7BDC4>

¼þ·Ê¹®-5Àå¼öÁ¤

Transcription:

통계연구(2015), 제20권 제3호, 71-92 변수선택 기법을 이용한 한국 프로야구의 득점과 실점 설명 1) 김혁주 2) 김예형 3) 요약 한국 프로야구에서 팀들의 득점과 실점에 영향을 미치는 요인들을 규명하기 위한 연구를 하였 다. 2007년부터 2014년까지의 정규리그 전 경기 자료를 대상으로 분석하였다. 전방선택법, 후방 소거법, 단계별 회귀법, 선택법, 보정된 선택법, Mallows의 선택법 등의 변수선택 기 법을 이용하여 팀들의 경기당 평균득점을 설명하기 위한 4개의 회귀모형과 평균실점을 설명하기 위한 3개의 회귀모형을 추천하고 최소제곱법에 의한 회귀방정식을 구하였다. 그 결과 추천된 모 형들은 득점 설명의 경우 공히 98%를 넘는 결정계수를 보였으며, 실점 설명의 경우도 공히 93% 를 넘는 높은 결정계수를 보였다. 주요용어 : 한국 프로야구, 득점, 실점, 변수선택 기법 1. 서론 정치, 경제, 사회, 공학, 농학, 의 약학 등 다른 여러 분야와 마찬가지로 스포츠에 서도 통계의 역할은 갈수록 커지고 있다. 특히 야구는 통계의 스포츠 라 불릴 정도로 여러 가지 측면이 통계적으로 연구되고 있다. 그 중 팀의 득점과 타격 능력에 관한 국내 학자들의 최근 몇 년 간의 대표적 연구를 보면 다음과 같다. 조영석과 조용주 (2005a)는 한국 프로야구의 자료를 바탕으로 한 OPS(On-base percentage Plus Slugging average)와 득점에 관한 연구를 통하여 OPS가 득점 추정에서 매우 좋은 결 과를 준다는 점을 밝혔다. 이장택과 김용태(2005)는 타자들의 공격 능력의 측정 도구 로 제안되는 여러 가지의 득점 측도를 비교하였다. 한편 조영석과 조용주(2005b)는 한 국 프로야구에서 득점과 실점을 이용하여 승률을 추정하는 문제를 연구하였으며, 이 해용과 이성건(2008)은 한국 프로야구에서 팀의 승패를 예측하는 모형을 만들고, 각종 의 요인들이 승패에 미치는 영향력을 분석하였다. 홍종선과 박하수(2008)는 한국 프로 야구에서 팀들이 기록한 안타의 방향을 분석하고 이를 시각적으로 표현하는 방법을 개발하였으며, 홍종선과 최정민(2008)은 한국 프로야구의 도루 성공 모형에 관하여 연 구하였다. 채진석 등(2010)은 한국 프로야구의 정규리그 자료를 이용하여 포스트시즌 1) 김예형의 박사학위 논문을 발췌 및 수정 보완하여 작성한 논문임. 2) 교신저자: (54538) 전북 익산시 익산대로 460, 원광대학교 수학 정보통계학부 및 기초자연 과학연구소, 교수. E-mail: hjkim@wonkwang.ac.kr 3) (54538) 전북 익산시 익산대로 460, 원광대학교 수학 정보통계학부, 강사. E-mail: dpguddl@ wonkwang.ac.kr

72 김혁주 김예형 진출 여부를 예측할 수 있는 여러 가지 통계모형의 분석 결과를 비교하였다. 또한 이 장택(2014a)은 한국 프로야구에서 타자의 능력을 측정하는 지표를 제안하였으며, 이장 택(2014b)은 한국 프로야구에서 출루율 계수를 추정하는 문제를 연구하였다. 한편 김 혁주(2012)는 가중OPS를 제안하여 팀의 득점력을 설명하였으며, 김혁주와 김예형 (2014)은 가중OPS를 수정한 가중수정OPS를 이용하면 팀의 득점력을 좀 더 잘 설명 할 수 있음을 보였다. 대부분의 스포츠가 그렇지만, 야구경기는 득점이 실점보다 많아야 승리하는 경기 이다. 따라서 득점 못지않게 관심을 가질 필요가 있는 것이 실점이다. 김혁주와 김예 형(2015)은 WHIP와 경기당피홈런의 가중평균으로 정의되어 팀의 실점을 설명하기 위 한 수비지표인 가중WPH를 제시하였다. 김혁주(2012), 김혁주와 김예형(2014), 그리고 김혁주와 김예형(2015)에서 연구한 내용은 각기 하나의 값으로 계산될 수 있는 공격지표들과 수비지표들로 팀들의 득점 력과 실점을 나타내기 위한 것이기 때문에 지표의 간편성이 중요한 요소였다. 하지만 하나의 값으로 표시되는 지표가 아니고 여러 개의 설명변수들이 동원되어 득점과 실 점을 설명하는 회귀방정식을 사용한다면 설명력을 더욱 높일 수 있을 것이다. 그렇다 고 너무 많은 설명변수들이 관련되어 있으면 데이터의 분석과 관리에 비효율성이 야 기될 뿐 아니라 다중공선성(multicollinearity)의 문제가 발생하므로 적절한 개수의 설 명변수들이 포함된 회귀방정식으로 팀들의 득점과 실점을 나타내는 것이 중요하며, 결국 변수선택 기법(variable selection technique)의 필요성이 대두된다. 이러한 동기 로 본 논문에서는 변수선택 기법을 이용하여 한국 프로야구팀들의 득점과 실점을 설 명하는 회귀모형과 방정식을 구하고 관련된 내용을 고찰하고자 한다. 본 논문에서 사용한 자료는 2007년부터 2014년까지의 정규리그 전 경기(4,288 경 기)의 공격 자료와 수비 자료이며, 이 기간 동안의 연 66개 팀의 1년 단위 기록들을 근거로 하여 분석한다. 이 자료는 한국야구위원회(2009)의 한국프로야구 기록대백과와 한국야구위원회(2010, 2011, 2012, 2013, 2014, 2015)의 한국프로야구 연감에서 구한 것 이다. 본 논문의 통계분석은 SAS 9.3과 Minitab Release 14.12.1을 이용하여 수행한 다. 2. 득점을 설명하기 위한 회귀방정식 2.1 개요 먼저 팀들의 득점을 잘 설명해주는 회귀모형과 방정식을 구하는 문제를 생각해보 겠다. 팀의 득점이 당연히 회귀분석의 반응변수가 되어야 할 것이다. 그런데 팀당 정 규리그 경기수를 보면 2007년과 2008년에는 126 경기, 2009년부터 2012년까지는 133 경기, 2013년과 2014년에는 128 경기로 연도에 따라 경기수가 다르다. 따라서 팀의 득 점 자체보다 득점을 경기수로 나눈 경기당득점을 반응변수로 삼는 것이 합리적이다. 그리고 변수선택에서 고려할 설명변수들과 그것들의 계산 공식은 <표 2.1>과 같다.

변수선택 기법을 이용한 한국 프로야구의 득점과 실점 설명 73 1절의 마지막 문단에서 언급한 것처럼 <표 2.1>에 포함된 각 변수의 값으로 팀의 1년 단위 기록을 사용한다. 예를 들어 타율은 팀의 1년 동안의 안타수를 1년 동안의 타수로 나눈 것이며, 다른 변수들의 값도 같은 방식으로 계산한 것이다. 4사구는 볼넷 과 몸에 맞는 볼을 통칭한 것이고 도실은 도루실패를 의미하며, 희타와 희비는 각각 희생번트와 희생플라이를 말하는 것으로서 한국야구위원회에서 이 두 가지를 별도로 집계하고 있으나, 본 논문에서는 희생타라는 이름의 단일 변수로 처리한다. 다만, 출 루율 계산 시에는 희비만이 분모에 포함되고 희타는 관련되지 않는다. <표 2.2>에는 득점 관련 변수들의 연 66개 팀에 걸쳐 계산된 기초통계량 값들을 정리해놓았다. 변수선택 기법으로는 기본적으로 널리 사용되는 방법인 전방선택(forward selection), 후방소거(backward elimination), 단계별회귀(stepwise regression) 방법 외 에 모든 가능한 회귀모형들에 대하여 결정계수 값을 산출하는 선택법, 모든 가능한 회귀모형들에 대하여 보정된 값을 산출하는 보정된 선택법, 그리고 모 든 가능한 회귀모형들에 대하여 Mallows(1973)의 값을 산출하는 Mallows의 선택법을 사용한다. <표 2.1> 득점 설명을 위한 변수선택에서 고려할 설명변수들과 계산 공식 설명변수 타율(avg) 출루율(obp) 장타율(slg) 경기당타석(pag) 경기당타수(abg) 경기당홈런(hrg) 경기당도루(sbg) 경기당도실(csg) 경기당희생타(sag) 경기당4사구(bhg) 경기당삼진(sog) 경기당병살타(dpg) 경기당잔루(lbg) 계산 공식 안타/타수 (안타+4사구)/(타수+4사구+희비) 루타/타수 타석/경기수 타수/경기수 홈런/경기수 도루/경기수 도실/경기수 (희타+희비)/경기수 4사구/경기수 삼진/경기수 병살타/경기수 잔루/경기수 <표 2.2> 득점 관련 변수들의 기초통계량 값들 변수 평균 표준편차 최솟값 제1사분위수 중앙값 제3사분위수 최댓값 경기당득점 4.740 0.648 3.714 4.218 4.707 5.184 6.570 타율 0.270 0.014 0.243 0.260 0.269 0.281 0.301 출루율 0.348 0.014 0.320 0.338 0.348 0.359 0.382 장타율 0.397 0.034 0.347 0.370 0.389 0.420 0.509 경기당타석 38.926 0.753 37.128 38.494 38.870 39.485 40.578

74 김혁주 김예형 변수 평균 표준편차 최솟값 제1사분위수 중앙값 제3사분위수 최댓값 경기당타수 33.737 0.677 32.489 33.302 33.655 34.381 35.135 경기당홈런 0.796 0.248 0.367 0.619 0.764 0.919 1.555 경기당도루 0.940 0.256 0.381 0.788 0.940 1.090 1.500 경기당도실 0.411 0.095 0.150 0.359 0.391 0.492 0.659 경기당희생타 0.944 0.186 0.496 0.820 0.946 1.065 1.436 경기당4사구 4.242 0.417 3.128 3.982 4.285 4.545 5.233 경기당삼진 6.348 0.640 4.955 5.878 6.387 6.799 7.647 경기당병살타 0.799 0.103 0.594 0.727 0.788 0.876 1.094 경기당잔루 7.457 0.347 6.361 7.276 7.463 7.671 8.320 2.2 변수선택 변수선택에 앞서 연도별 혹은 팀별로 이분산성이 있는지 알아보기 위해 경기당득 점에 대하여 연도와 팀을 요인으로 등분산 검정을 실시하였다. 연도를 요인으로 한 Bartlett 검정에서는 검정통계량의 값이 11.05( 값 0.137)로 나왔고, Levene 검정에서 는 검정통계량의 값이 1.70( 값 0.128)으로 나와서 등분산 가정에 무리가 없는 것으로 나타났다. 한편 팀을 요인으로 한 Bartlett 검정통계량의 값은 6.20( 값 0.625), Levene 검정통계량의 값은 0.56( 값 0.810)으로 나와 역시 등분산 가정에 무리가 없었다. 경기당득점(rsg=득점/경기수)을 반응변수로 놓고, 설명변수로 <표 2.1>에 수록된 13가지 변수를 고려하여 SAS 9.3에서 제공하는 변수선택 기법을 적용한 결과를 정리 해본다. 2.2.1 전방선택 전방선택법에서는 변수를 추가하여 모형을 구축하는 경우이므로 유의수준 (SLENTRY)을 SAS의 디폴트인 0.5로 하였다. 값을 기준으로 전방선택법을 적용 한 SAS 출력결과가 <표 2.3>에 정리되어 있다. 첫 번째 순서로 장타율(slg)이 모형에 들어왔고 두 번째로 들어온 설명변수는 출루율(obp)이었다. 이 두 가지 변수만 가지고 도 팀 득점 간 변동의 92.32%가 설명됨을 알 수 있다. 현재 프로야구에서 출루율과 장타율의 합으로 정의되는 OPS가 유용한 공격지표로 사용되고 있는데, 이것의 정당 성을 실증적으로 뒷받침해주는 결과라고 볼 수 있을 것이다. 10개의 설명변수가 포함 된 모형이 얻어졌으며, 최소제곱법으로 적합된 방정식은 다음과 같다. 이 모형의 결정계수는 0.9902, 보정된 결정계수는 0.9885로 계산되었으며, 분산분석 의 통계량의 값은 558.08이었고 값은 0.0001보다 작았다. 그런데 상태수(즉 가장 큰

변수선택 기법을 이용한 한국 프로야구의 득점과 실점 설명 75 상태지표의 값)가 38137이나 되어 다중공선성의 문제가 심각한 것으로 드러났다. <표 2.3> 득점 설명을 위한 전방선택법의 요약 Step Number Partial Model Entered Vars In C(p) F Value Pr > F 1 slg 1 0.8831 0.8831 564.741 483.46 <.0001 2 obp 2 0.0401 0.9232 351.586 32.93 <.0001 3 lbg 3 0.0170 0.9402 262.486 17.62 <.0001 4 pag 4 0.0382 0.9784 59.7300 107.92 <.0001 5 csg 5 0.0023 0.9807 49.2624 7.24 0.0092 6 dpg 6 0.0061 0.9868 18.6605 27.22 <.0001 7 sag 7 0.0014 0.9882 13.2728 6.77 0.0117 8 hrg 8 0.0010 0.9892 10.0853 5.09 0.0279 9 abg 9 0.0009 0.9901 7.3423 4.98 0.0297 10 bhg 10 0.0002 0.9902 8.3199 1.07 0.3044 2.2.2 후방소거 후방소거법에서는 완전모형에서 출발하여 값을 기준으로 회귀적합에 가장 기 여도가 낮은 설명변수부터 차례로 소거해 나갔다. 기여도에 대한 유의성검정에서 유 의수준(SLSTAY)은 SAS의 디폴트인 0.1로 하였다. 그 결과 sbg, avg, sog, bhg의 순 으로 모형에서 제거되었다. 후방소거법의 SAS 출력결과를 <표 2.4>에 나타냈다. 9개 의 설명변수가 포함된 모형이 얻어졌으며, 최소제곱법으로 적합된 방정식은 다음과 같다. 이 모형의 결정계수는 0.9901, 보정된 결정계수는 0.9885였으며, 분산분석의 통계 량의 값은 619.15였고 값은 0.0001보다 작았다. 상태수는 1235.61로서 다중공선성의 문제가 전방선택법의 경우에 비해 완화되었지만, 아직도 만족할 만한 상태는 아닌 것 으로 나타났다. <표 2.4> 득점 설명을 위한 후방소거법의 요약 Step Number Partial Model Removed Vars In C(p) F Value Pr > F 1 sbg 12 0.0000 0.9903 12.0226 0.02 0.8811 2 avg 11 0.0000 0.9903 10.0425 0.02 0.8872 3 sog 10 0.0001 0.9902 8.3199 0.29 0.5939 4 bhg 9 0.0002 0.9901 7.3423 1.07 0.3044

76 김혁주 김예형 2.2.3 단계별 회귀 단계별 회귀법은 전방선택법에 후방소거의 개념이 추가된 것이어서, 일단 모형에 들어온 설명변수도 다시 나갈 수 있는 변수선택법이다. 유의수준인 SLENTRY와 SLSTAY의 값을 SAS의 디폴트인 0.15로 하여 단계별 회귀법을 적용한 결과 선택된 모형과 최소제곱법으로 적합된 방정식 및 분산분석표, 그리고 결정계수와 상태수의 값은 후방소거법과 동일하게 나왔다. <표 2.5>는 단계별 회귀법의 과정을 요약한 SAS 출력결과이다. Step Entered <표 2.5> 득점 설명을 위한 단계별 회귀법의 요약 Removed Number Vars In Partial Model C(p) F Value Pr > F 1 slg 1 0.8831 0.8831 564.741 483.46 <.0001 2 obp 2 0.0401 0.9232 351.586 32.93 <.0001 3 lbg 3 0.0170 0.9402 262.486 17.62 <.0001 4 pag 4 0.0382 0.9784 59.7300 107.92 <.0001 5 csg 5 0.0023 0.9807 49.2624 7.24 0.0092 6 dpg 6 0.0061 0.9868 18.6605 27.22 <.0001 7 sag 7 0.0014 0.9882 13.2728 6.77 0.0117 8 hrg 8 0.0010 0.9892 10.0853 5.09 0.0279 9 abg 9 0.0009 0.9901 7.3423 4.98 0.0297 2.2.4 선택법 모든 가능한 회귀모형을 적합한 뒤 설명변수의 개수별로 값이 큰 모형을 몇 개씩 나타낸 것이 <표 2.6>이다. 설명변수가 4개 이하인 경우는 값이 상대적으로 작으므로 지면 관계상 생략하였다. Mallows의 값도 계산하여 함께 나타냈다. 이 표에 나타난 경우는 모두 값이 0.98 이상이다. 9개 변수 중 두 번째 경우는 후방 소거법과 단계별 회귀법에서 나온 것과 동일한 모형이고, 10개 변수 중 첫 번째 경우 는 전방선택법에서 나온 것과 동일한 모형이다. 2.2.5 보정된 선택법 모든 가능한 회귀모형을 적합한 뒤 보정된 값이 큰 모형 5개를 나타낸 것이 <표 2.7>이다. 맨 왼쪽의 기호는 모형들을 간편히 구분하여 지칭하기 위한 것이다. 이 표에 나타난 경우 중 B는 전방선택법에서 나온 것과 동일한 모형이고, C는 후방소 거법과 단계별 회귀법에서 나온 것과 동일한 모형이다.

변수선택 기법을 이용한 한국 프로야구의 득점과 실점 설명 77 2.2.6 Mallows의 선택법 모든 가능한 회귀모형을 적합한 뒤 Mallows의 값을 기준으로 가장 좋은 모형 5개를 나타낸 것이 <표 2.8>이다. 맨 왼쪽의 기호는 모형들을 간편히 구분하여 지칭 하기 위한 것이다. 이 표에 나타난 경우 중 C는 후방소거법과 단계별 회귀법에서 나 온 것과 동일한 모형이다. <표 2.6> 득점 설명을 위한 선택법의 결과 Number in Model C(p) s in Model 5 0.9826 39.3414 obp pag csg dpg lbg 5 0.9807 49.2624 obp slg pag csg lbg 5 0.9806 49.9874 obp slg pag dpg lbg 6 0.9868 18.6605 obp slg pag csg dpg lbg 6 0.9852 27.3354 obp pag csg sag dpg lbg 6 0.9847 30.0630 avg pag csg bhg dpg lbg 7 0.9882 13.2728 obp slg pag csg sag dpg lbg 7 0.9882 13.3104 avg slg pag csg bhg dpg lbg 7 0.9880 14.3012 obp slg pag hrg csg dpg lbg 8 0.9896 7.5420 avg slg pag hrg csg bhg dpg lbg 8 0.9895 8.2704 obp slg pag hrg csg bhg dpg lbg 8 0.9893 9.1874 avg obp slg pag hrg csg dpg lbg 9 0.9901 7.0977 avg slg pag abg hrg csg sag dpg lbg 9 0.9901 7.3423 obp slg pag abg hrg csg sag dpg lbg 9 0.9900 7.4625 avg slg pag hrg csg sag bhg dpg lbg 9 0.9900 7.4748 obp slg pag hrg csg sag bhg dpg lbg 10 0.9902 8.3199 obp slg pag abg hrg csg sag bhg dpg lbg 10 0.9902 8.6492 avg slg pag abg hrg csg sag bhg dpg lbg 10 0.9901 8.9795 avg obp slg pag abg hrg csg sag dpg lbg 11 0.9903 10.0425 obp slg pag abg hrg csg sag bhg sog dpg lbg 11 0.9903 10.2474 avg obp slg pag abg hrg csg sag bhg dpg lbg 11 0.9902 10.3178 obp slg pag abg hrg sbg csg sag bhg dpg lbg 12 0.9903 12.0226 avg obp slg pag abg hrg csg sag bhg sog dpg lbg 12 0.9903 12.0273 obp slg pag abg hrg sbg csg sag bhg sog dpg lbg 12 0.9903 12.2370 avg obp slg pag abg hrg sbg csg sag bhg dpg lbg 13 0.9903 14.0000 avg obp slg pag abg hrg sbg csg sag bhg sog dpg lbg

78 김혁주 김예형 기호 Number in Model <표 2.7> 득점 설명을 위한 보정된 선택법의 결과 Adjusted Condition Number A 9 0.9885 0.9901 692.74 B 10 0.9885 0.9902 38137 C 9 0.9885 0.9901 1235.61 D 9 0.9884 0.9900 624.18 E 9 0.9884 0.9900 548.16 s in Model avg slg pag abg hrg csg sag dpg lbg obp slg pag abg hrg csg sag bhg dpg lbg obp slg pag abg hrg csg sag dpg lbg avg slg pag hrg csg sag bhg dpg lbg obp slg pag hrg csg sag bhg dpg lbg 기호 Number in Model <표 2.8> 득점 설명을 위한 Mallows의 선택법의 결과 C(p) Condition Number A 9 7.0977 0.9901 692.74 C 9 7.3423 0.9901 1235.61 D 9 7.4625 0.9900 624.18 E 9 7.4748 0.9900 548.16 s in Model avg slg pag abg hrg csg sag dpg lbg obp slg pag abg hrg csg sag dpg lbg avg slg pag hrg csg sag bhg dpg lbg obp slg pag hrg csg sag bhg dpg lbg F 9 7.5420 0.9896 568.47 avg slg pag hrg csg bhg dpg lbg 2.3 논의 (1)에서 (6)까지의 여섯 가지 판정기준에 의한 결과를 종합하여 어떤 모형을 최적 모형으로 선정할지를 논의해보자. 전방선택법에서 얻어진 모형은 선택법과 보정된 선택법(B)에서도 좋은 모형으로 나왔고, 후방소거법과 단계별 회귀법에서 공통적 으로 얻어진 모형은 선택법과 보정된 선택법 및 Mallows의 선택법(C)에 서도 좋은 모형으로 나왔다. 그러나 이 두 모형은 앞에서 언급한 바와 같이 상태수가 1000을 초과하므로 공선성의 문제가 크다고 판단되어 좋은 모형으로 추천하기에는 적 절치 않다. 이들을 제외하면, 보정된 선택법과 Mallows의 선택법의 결과를 볼 때 모형 A, D, E가 공통으로 들어 있다. 이 세 모형은 선택법의 결과(<표 2.6> 참조)에도 우수한 모형으로 포함되어 있으며, 모형 B와 C에 비해 매우 작은 상태수를 가지고 있으므로 공선성의 문제가 덜하다. 그리고 A와 D는 타율(avg)과 장타율(slg) 을 주요 설명변수로 포함하고 있는 반면 E는 타율 대신 출루율(obp)이 들어가서 출루 율과 장타율을 주요 설명변수로 포함하고 있고 상태수의 값은 A, D, E 중 가장 작다. 따라서 이러한 점들을 고려하여, 최적 모형으로 1개의 모형만을 추천하기보다 다양성 의 측면에서 모형 A와 D와 E를 팀의 득점을 설명하는 최적에 가까운 모형으로 추천

변수선택 기법을 이용한 한국 프로야구의 득점과 실점 설명 79 하고자 한다. 최소제곱법으로 적합된 모형 A, D, E의 회귀방정식은 다음과 같다. 모형 A: 모형 D: 모형 E: 모형 A, D, E를 보면 모두 경기당홈런(hrg)의 추정된 회귀계수가 음수로 나타나 있다. 이것은 장타율(slg)과의 높은 상관관계 때문에 생긴 현상이다. 이것을 경기당홈 런이 늘어나면 경기당득점이 감소하는 것을 의미하는 것으로 해석하면 안 된다. 경기 당홈런이 늘어나면 장타율이 매우 높아질 것이기 때문에 경기당득점이 증가하게 될 것이다. 따라서 모형 A, D, E에 추가하여, hrg를 제외한 다음의 모형을 추천하고자 한다. 이 모형은 <표 2.6>에서 6개 변수 중 첫 번째 경우이다. 이것을 모형 G라 하자. 모형 G의 결정계수는 0.9868, 보정된 결정계수는 0.9855였으며, 분산분석의 통계량의 값은 736.25였고 값은 0.0001보다 작았다. 상태수는 456.39로서 모형 A, D, E에 비해 다중공선성 문제가 크게 개선되었다. 모형 G: <표 2.9>는 모형 A, D, E, G 각각에 의한 회귀분석 결과이다. 회귀계수별 검정 결 과와 분산팽창인자(VIF: variance inflation factor) 값들이 함께 수록되어 있다. 모형 D와 E의 sag 계수만 제외하고 모든 회귀계수들의 값이 0.05보다 작아서 유의함을 알 수 있다. 최대 VIF 값을 보면, 모형 A가 72.62, 모형 D가 72.64, 모형 E가 61.04로 일반적인 다중공선성 판정 기준값인 10보다 크다. 반면 모형 G의 최대 VIF 값은 7.82 에 불과하므로 다중공선성 문제에 관한 한 가장 우수한 모형이라고 할 수 있겠다. 모 형 G의 유일한 약점은 Mallows의 값이 18.6605로 크다는 것이다. 이상을 종합하 여 말하자면, 를 필수적인 기준으로 고려하는 경우에는 모형 A, D, E를 선택하고, 그렇지 않은 경우에는 6개의 설명변수만으로도 큰 결정계수를 주는 모형 G를 선택하 면 될 것이다.

80 김혁주 김예형 모형 A DF <표 2.9> 득점 설명 모형 A, D, E, G에 의한 회귀분석 결과 Parameter Estimate Standard Error t Value Pr > t Tolerance Variance Inflation Intercept 1-13.87046 0.86893-15.96 <.0001. 0 avg 1 16.31528 3.22215 5.06 <.0001 0.03821 26.17349 slg 1 7.44159 2.14860 3.46 0.0010 0.01377 72.62317 pag 1 0.89953 0.04167 21.59 <.0001 0.07545 13.25412 abg 1-0.45537 0.03485-13.07 <.0001 0.13341 7.49591 hrg 1-0.43464 0.18778-2.31 0.0243 0.03432 29.13722 csg 1-0.75170 0.11842-6.35 <.0001 0.58670 1.70446 sag 1-0.54017 0.07346-7.35 <.0001 0.39754 2.51546 dpg 1-0.66823 0.11508-5.81 <.0001 0.53201 1.87966 lbg 1-0.89727 0.05213-17.21 <.0001 0.22611 4.42269 모형 D DF Parameter Estimate Standard Error t Value Pr > t Tolerance Variance Inflation Intercept 1-13.85914 0.87228-15.89 <.0001. 0 avg 1 16.21744 3.23033 5.02 <.0001 0.03827 26.12696 slg 1 7.44206 2.15626 3.45 0.0011 0.01377 72.64274 pag 1 0.44439 0.03523 12.61 <.0001 0.10624 9.41234 hrg 1-0.43278 0.18846-2.30 0.0254 0.03431 29.14856 csg 1-0.74408 0.11865-6.27 <.0001 0.58843 1.69943 sag 1-0.08605 0.05830-1.48 0.1456 0.63538 1.57386 bhg 1 0.45489 0.03497 13.01 <.0001 0.35196 2.84119 dpg 1-0.66291 0.11536-5.75 <.0001 0.53312 1.87574 lbg 1-0.89703 0.05231-17.15 <.0001 0.22610 4.42285 모형 E DF Parameter Estimate Standard Error t Value Pr > t Tolerance Variance Inflation Intercept 1-16.07704 0.79290-20.28 <.0001. 0 obp 1 17.14393 3.41613 5.02 <.0001 0.03210 31.15098 slg 1 8.43938 1.97688 4.27 <.0001 0.01638 61.04475 pag 1 0.49082 0.03243 15.14 <.0001 0.12544 7.97206 hrg 1-0.53613 0.17164-3.12 0.0028 0.04137 24.17201 csg 1-0.75168 0.11885-6.32 <.0001 0.58656 1.70485 sag 1-0.10177 0.05948-1.71 0.0926 0.61059 1.63775 bhg 1 0.12470 0.05675 2.20 0.0322 0.13369 7.48010 dpg 1-0.63858 0.11347-5.63 <.0001 0.55115 1.81440 lbg 1-0.91075 0.05251-17.34 <.0001 0.22443 4.45566

변수선택 기법을 이용한 한국 프로야구의 득점과 실점 설명 81 모형 G DF Parameter Standard Variance t Value Pr > t Tolerance Estimate Error Inflation Intercept 1-16.60270 0.86782-19.13 <.0001. 0 obp 1 23.78458 1.87083 12.71 <.0001 0.13424 7.44917 slg 1 3.30937 0.76046 4.35 <.0001 0.13884 7.20246 pag 1 0.49437 0.03596 13.75 <.0001 0.12793 7.81675 csg 1-0.69250 0.13128-5.28 <.0001 0.60302 1.65833 dpg 1-0.57135 0.10951-5.22 <.0001 0.74213 1.34747 lbg 1-0.90571 0.05825-15.55 <.0001 0.22878 4.37094 <그림 2.1>은 모형 G에 의한 잔차의 히스토그램과 정규확률도이다. 오차의 정규 분포 가정에 별다른 문제가 없음을 알 수 있다. 나타내지는 않았지만, 모형 A, D, E에 의한 그림도 크게 다르지 않다. <표 2.10>은 위의 네 모형에 근거를 두고 표준화잔차 의 절댓값이 큰 비정상적인 관측값들을 찾아낸 것이다. 모형 A, D, E, G에서 모두 2007년 KIA의 실제 득점이 회귀식에 의한 적합치보다 특별히 많이 나온 것으로 나타 났다. 모형 E, G에서의 2008년 두산과 모형 G에서의 2014년 NC도 유사한 양상을 보 였다. 반면 2007년 넥센과 2010년 롯데의 실제 득점은 모형 G에서 회귀식에 의한 적 합치보다 특별히 적게 나온 것으로 나타났다. 해당 연도에 이 팀들의 실제 득점이 어 떠한 이유로 비정상적인 양상을 보였는지는 야구 전문가들의 기술적 관점에서 연구해 볼 문제라고 사료된다. <그림 2.1> 모형 G에 의한 잔차의 히스토그램과 정규확률도 <표 2.10> 비정상적 관측값들 (득점의 경우) 모형 연도 팀 rsg 잔차 표준화잔차 A 2007 KIA 3.96032 3.74587 0.02573 0.21445 3.33 D 2007 KIA 3.96032 3.74468 0.02588 0.21564 3.33 E 2007 KIA 3.96032 3.73448 0.02693 0.22584 3.51 2008 두산 5.13492 5.01306 0.03416 0.12186 2.01 2007 넥센 4.20635 4.35783 0.02049-0.15148-2.01 2007 KIA 3.96032 3.72491 0.02706 0.23541 3.22 G 2008 두산 5.13492 4.97710 0.03375 0.15782 2.24 2010 롯데 5.81203 5.96140 0.03762-0.14937-2.18 2014 NC 5.75781 5.60137 0.02531 0.15644 2.12

82 김혁주 김예형 3. 실점을 설명하기 위한 회귀방정식 3.1 개요 이 절에서는 팀들의 실점을 설명하기 위한 회귀모형과 방정식을 변수선택법을 사 용하여 구하고자 한다. 득점의 경우와 같은 이유로 팀의 실점을 경기수로 나눈 경기 당실점을 반응변수로 삼는다. 변수선택에서 고려할 설명변수들과 그것들의 계산 공식 은 <표 3.1>과 같다. 이 표에 포함된 각 변수의 값도 역시 팀의 1년 단위 기록을 사 용한 것이다. 여기서 타자수, 타수, 희타, 희비는 상대팀의 것을 말하는 것이며, 4사구 도 상대팀에게 내준 것을 말하는 것이다. WHIP(Walks plus Hits divided by Innings Pitched)는 이닝당출루허용률이라고도 불리는 것으로서, 최근 몇 년 사이에 투수의 능 력을 평가하는 중요한 지표로 사용되고 있다. <표 3.2>에는 실점 관련 변수들의 연 66개 팀에 걸쳐 계산된 기초통계량 값들을 정리해놓았다. <표 3.1> 실점 설명을 위한 변수선택에서 고려할 설명변수들과 계산 공식 설명변수 피안타율(avg) WHIP(whip) 경기당투구수(ptg) 경기당타자수(btg) 경기당타수(abg) 경기당피홈런(hrg) 경기당희생타(sag) 경기당4사구(bhg) 경기당탈삼진(kg) 경기당폭투(wpg) 경기당보크(bkg) 경기당실책(erg) 계산 공식 피안타/타수 (볼넷+피안타)/투구이닝 투구수/경기수 타자수/경기수 타수/경기수 피홈런/경기수 (희타+희비)/경기수 (볼넷+사구)/경기수 탈삼진/경기수 폭투/경기수 보크/경기수 실책/경기수 <표 3.2> 실점 관련 변수들의 기초통계량 값들 변수 평균 표준편차 최솟값 제1사분위수 중앙값 제3사분위수 최댓값 경기당실점 4.740 0.710 3.556 4.216 4.699 5.161 6.945 피안타율 0.270 0.015 0.233 0.259 0.269 0.278 0.318 WHIP 1.439 0.106 1.237 1.356 1.422 1.529 1.761 경기당투구수 150.067 4.664 146.462 149.655 153.441 137.786 161.938 경기당타자수 38.926 0.789 37.150 38.446 38.965 39.348 41.500 경기당타수 33.737 0.638 32.263 33.261 33.786 34.128 35.672 경기당피홈런 0.796 0.216 0.489 0.619 0.752 0.941 1.323

변수선택 기법을 이용한 한국 프로야구의 득점과 실점 설명 83 변수 평균 표준편차 최솟값 제1사분위수 중앙값 제3사분위수 최댓값 경기당희생타 0.944 0.135 0.647 0.871 0.938 1.010 1.270 경기당4사구 4.242 0.473 3.165 3.921 4.213 4.581 5.331 경기당탈삼진 6.348 0.665 5.000 5.854 6.326 6.715 8.203 경기당폭투 0.425 0.107 0.165 0.364 0.417 0.489 0.695 경기당보크 0.028 0.014 0.000 0.016 0.030 0.039 0.063 경기당실책 0.655 0.090 0.474 0.600 0.654 0.722 0.883 3.2 변수선택 변수선택에 앞서 연도별 혹은 팀별로 이분산성이 있는지 알아보기 위해 경기당실 점에 대하여 연도와 팀을 요인으로 등분산 검정을 실시하였다. 연도를 요인으로 한 Bartlett 검정에서는 검정통계량의 값이 3.49( 값 0.836)로 나왔고, Levene 검정에서는 검정통계량의 값이 0.49( 값 0.837)로 나와서 등분산 가정에 무리가 없는 것으로 나타 났다. 한편 팀을 요인으로 한 Bartlett 검정통계량의 값은 3.97( 값 0.859), Levene 검 정통계량의 값은 0.37( 값 0.932)로 나와 역시 등분산 가정에 무리가 없었다. 경기당실점(rlg=실점/경기수)을 반응변수로 놓고, 설명변수로 <표 3.1>에 수록된 12가지 변수를 고려하여 SAS 9.3에서 제공하는 변수선택 기법을 적용한 결과를 정리 해 본다. 3.2.1 전방선택 득점의 경우와 마찬가지로 유의수준(SLENTRY)을 SAS의 디폴트인 0.5로 하였다. 값을 기준으로 전방선택법을 적용한 SAS 출력결과가 <표 3.3>에 정리되어 있다. 첫 번째 순서로 whip(whip)가 모형에 들어왔고 두 번째로 들어온 설명변수는 hrg (경기당피홈런)이었다. 이 두 가지 변수만 가지고도 팀 실점 간 변동의 90.84%가 설명 됨을 알 수 있다. 이것은 김혁주와 김예형(2015)에서 팀 실점을 설명하기 위하여 WHIP와 경기당피홈런의 가중평균으로 제시한 간단한 수비지표인 가중WPH를 뒷받 침해주는 결과이다. 7개의 설명변수가 포함된 모형이 얻어졌으며, 최소제곱법으로 적 합된 방정식은 다음과 같다. 이 모형의 결정계수는 0.9379, 보정된 결정계수는 0.9304로 계산되었으며, 분산분석 의 통계량의 값은 125.08이었고 값은 0.0001보다 작았다. 상태수는 283.64로서 득점 설명을 위한 전방선택법의 경우에 비해 다중공선성의 문제에서 훨씬 자유로운 것으로 나타났다.

84 김혁주 김예형 <표 3.3> 실점 설명을 위한 전방선택법의 요약 Step Entered Number Vars In Partial Model C(p) F Value Pr > F 1 whip 1 0.8702 0.8702 49.8521 429.15 <.0001 2 hrg 2 0.0382 0.9084 18.9424 26.26 <.0001 3 abg 3 0.0102 0.9186 12.1287 7.79 0.0070 4 wpg 4 0.0093 0.9279 6.1251 7.86 0.0068 5 bkg 5 0.0067 0.9346 2.3399 6.16 0.0159 6 sag 6 0.0024 0.9370 2.3099 2.21 0.1429 7 ptg 7 0.0009 0.9379 3.5443 0.83 0.3663 3.2.2 후방소거 득점을 설명하기 위한 경우와 마찬가지로 완전모형에서 출발하여 값을 기준으 로 회귀적합에 가장 기여도가 낮은 설명변수부터 차례로 소거해 나갔다. 기여도에 대 한 유의성검정에서 유의수준(SLSTAY)은 역시 SAS의 디폴트인 0.1로 하였다. 그 결 과 erg, avg, kg, sag, abg, ptg의 순으로 모형에서 제거되었다. 후방소거법의 SAS 출 력결과를 <표 3.4>에 나타냈다. 6개의 설명변수가 포함된 모형이 얻어졌으며, 최소제 곱법으로 적합된 방정식은 다음과 같다. 이 모형의 결정계수는 0.9371, 보정된 결정계수는 0.9307이었으며, 분산분석의 통 계량의 값은 146.49였고 값은 0.0001보다 작았다. 상태수는 385.71이었다. Step Removed <표 3.4> 실점 설명을 위한 후방소거법의 요약 Number Vars In Partial Model C(p) F Value Pr > F 1 erg 11 0.0000 0.9385 11.0057 0.01 0.9402 2 avg 10 0.0001 0.9384 9.0810 0.08 0.7828 3 kg 9 0.0001 0.9383 7.2085 0.13 0.7177 4 sag 8 0.0003 0.9379 5.4845 0.29 0.5921 5 abg 7 0.0002 0.9378 3.6321 0.16 0.6931 6 ptg 6 0.0007 0.9371 2.2138 0.63 0.4310 3.2.3 단계별 회귀 득점을 설명하기 위한 경우와 마찬가지로 유의수준인 SLENTRY와 SLSTAY의 값을 SAS의 디폴트인 0.15로 하여 단계별 회귀법을 적용하였다. 그 결과 whip, hrg, abg, wpg, bkg, sag의 순으로 모형에 들어갔고 제거된 설명변수는 없어서 결과적으로 6개의 설명변수가 포함된 모형이 얻어졌으며, 최소제곱법으로 적합된 방정식은 다음 과 같다.

변수선택 기법을 이용한 한국 프로야구의 득점과 실점 설명 85 이 모형의 결정계수는 0.9370, 보정된 결정계수는 0.9306이었으며, 분산분석의 통 계량의 값은 146.22였고 값은 0.0001보다 작았다. 상태수는 257.99로 계산되었다. <표 3.5>는 단계별 회귀법의 과정을 요약한 SAS 출력결과이다. Step Entered <표 3.5> 실점 설명을 위한 단계별 회귀법의 요약 Removed Number Vars In Partial Model C(p) F Value Pr > F 1 whip 1 0.8702 0.8702 49.8521 429.15 <.0001 2 hrg 2 0.0382 0.9084 18.9424 26.26 <.0001 3 abg 3 0.0102 0.9186 12.1287 7.79 0.0070 4 wpg 4 0.0093 0.9279 6.1251 7.86 0.0068 5 bkg 5 0.0067 0.9346 2.3399 6.16 0.0159 6 sag 6 0.0024 0.9370 2.3099 2.21 0.1429 3.2.4 선택법 모든 가능한 회귀모형을 적합한 뒤 설명변수의 개수별로 값이 큰 모형을 몇 개씩 나타낸 것이 <표 3.6>이다. 설명변수가 4개 이하인 경우는 값이 상대적으로 작으므로 지면 관계상 생략하였다. 이 표에 나타난 경우는 모두 값이 0.93 이상이 다. 6개 변수 중 첫 번째 경우는 후방소거법에서 나온 것과 동일한 모형이고 두 번째 경우는 단계별 회귀법에서 나온 것과 동일한 모형이며, 7개 변수 중 첫 번째 경우는 전방선택법에서 나온 것과 동일한 모형이다. 3.2.5 보정된 선택법 모든 가능한 회귀모형을 적합한 뒤 보정된 값이 큰 모형 5개를 나타낸 것이 <표 3.7>이다. 맨 왼쪽의 기호는 모형들을 간편히 구분하여 지칭하기 위한 것이다. 이 표에 나타난 경우 중 A는 후방소거법에서 나온 것과 동일한 모형이고 B는 단계별 회귀법에서 나온 것과 동일한 모형이며, C는 전방선택법에서 나온 것과 동일한 모형 이다. 3.2.6 Mallows의 선택법 모든 가능한 회귀모형을 적합한 뒤 Mallows의 값을 기준으로 가장 좋은 모형 5개를 나타낸 것이 <표 3.8>이다. 맨 왼쪽의 기호는 모형들을 간편히 구분하여 지칭 하기 위한 것이다. 이 표에 나타난 경우 중 A는 후방소거법에서 나온 것과 동일한 모 형이고 B는 단계별 회귀법에서 나온 것과 동일한 모형이다.

86 김혁주 김예형 <표 3.6> 실점 설명을 위한 선택법의 결과 Number in Model s in Model 5 0.9346 whip abg hrg wpg bkg 5 0.9314 avg whip btg hrg wpg 5 0.9308 whip abg hrg sag wpg 6 0.9371 whip btg hrg bhg wpg bkg 6 0.9370 whip abg hrg sag wpg bkg 6 0.9367 avg whip btg hrg wpg bkg 7 0.9379 whip ptg abg hrg sag wpg bkg 7 0.9378 whip ptg btg hrg bhg wpg bkg 7 0.9376 avg whip abg hrg sag wpg bkg 8 0.9380 whip ptg abg hrg sag kg wpg bkg 8 0.9379 avg whip ptg btg hrg bhg wpg bkg 8 0.9379 whip ptg btg abg hrg bhg wpg bkg 9 0.9383 whip ptg btg abg hrg sag bhg wpg bkg 9 0.9381 whip ptg btg abg hrg bhg kg wpg bkg 9 0.9381 whip ptg btg hrg sag bhg kg wpg bkg 10 0.9384 whip ptg btg abg hrg sag bhg kg wpg bkg 10 0.9383 avg whip ptg btg abg hrg sag bhg wpg bkg 10 0.9383 whip ptg btg abg hrg sag bhg wpg bkg erg 11 0.9385 avg whip ptg btg abg hrg sag bhg kg wpg bkg 11 0.9384 whip ptg btg abg hrg sag bhg kg wpg bkg erg 11 0.9383 avg whip ptg btg abg hrg sag bhg wpg bkg erg 12 0.9385 avg whip ptg btg abg hrg sag bhg kg wpg bkg erg 기호 Number in Model <표 3.7> 실점 설명을 위한 보정된 선택법의 결과 Adjusted Condition Number s in Model A 6 0.9307 0.9371 385.71 whip btg hrg bhg wpg bkg B 6 0.9306 0.9370 257.99 whip abg hrg sag wpg bkg C 7 0.9304 0.9379 283.64 whip ptg abg hrg sag wpg bkg D 7 0.9303 0.9378 444.79 whip ptg btg hrg bhg wpg bkg E 6 0.9302 0.9367 386.96 avg whip btg hrg wpg bkg

변수선택 기법을 이용한 한국 프로야구의 득점과 실점 설명 87 <표 3.8> 실점 설명을 위한 Mallows의 선택법의 결과 기호 Number in Model C(p) Condition Number s in Model A 6 2.2138 0.9371 385.71 whip btg hrg bhg wpg bkg B 6 2.3099 0.9370 257.99 whip abg hrg sag wpg bkg F 5 2.3399 0.9346 223.42 whip abg hrg wpg bkg E 6 2.5943 0.9367 386.96 avg whip btg hrg wpg bkg G 6 2.9808 0.9362 300.51 avg whip abg hrg wpg bkg 3.3 논의 (1)에서 (6)까지의 여섯 가지 판정기준에 의한 결과를 종합하여 어떤 모형을 최적 모형으로 선정할지를 논의해보자. 전방선택법에서 얻어진 모형은 선택법과 보정된 선택법(C)에서도 좋은 모형으로 나왔지만 Mallows의 선택법에 의한 좋은 모 형 5개 중에는 포함되어 있지 않다. 후방소거법에서 얻어진 모형과 단계별 회귀법에 서 얻어진 모형은 선택법과 보정된 선택법 및 Mallows의 선택법(A, B)에 서도 좋은 모형으로 나왔다. 그리고 이 모형들의 상태수는 200에서 400 사이의 값을 가지고 있어서 다중공선성의 문제가 크지 않은 것으로 판단된다. 모형 E는 선택 법에 의한 좋은 모형에도 포함되어 있기는 하지만, 최대 VIF 값이 12.88로 모형 A(7.23)와 모형 B(3.11)에 비해 훨씬 크다. 모형 F는 보정된 선택법에 의한 가장 좋은 5개의 모형에는 포함되지 않았지만, 5개의 설명변수만으로도 0.9346이라는 큰 결 정계수를 보여주고 있으며 최대 VIF가 2.89에 불과하다(<표 3.9> 참조). 이러한 점들 을 고려하여, 팀의 실점을 설명하는 최적에 가까운 모형으로 모형 A와 B와 F를 추천 하고자 한다. 모형 F의 보정된 결정계수는 0.9292였으며, 분산분석의 통계량의 값은 171.57이었고 값은 0.0001보다 작았다. 최소제곱법으로 적합된 모형 A, B, F의 회귀 방정식은 다음과 같다. 모형 A: 모형 B: 모형 F:

88 김혁주 김예형 모형 A에서 경기당4사구(bhg)의 추정된 회귀계수가 음수로 나타나 있다. 이것은 WHIP와의 높은 상관관계 때문에 생긴 현상이다. 이것을 경기당4사구가 늘어나면 경 기당실점이 감소하는 것을 의미하는 것으로 해석하면 안 된다. 경기당4사구가 늘어나 면 WHIP가 높아질 것이기 때문에 경기당실점이 증가하게 될 것이다. <표 3.9>는 모형 A, B, F 각각에 의한 회귀분석 결과이다. 회귀계수별 검정 결과 와 VIF 값들이 함께 수록되어 있다. 모형 B의 sag 계수만 제외하고 모든 회귀계수들 의 값이 0.05보다 작아서 유의함을 알 수 있다. 최대 VIF 값을 보면, 모형 A가 7.23, 모형 B가 3.11, 모형 F가 2.89에 불과하여 일반적인 다중공선성 판정 기준값인 10보다 훨씬 작다. 또한 이 세 모형은 <표 3.8>에서 볼 수 있듯이 Mallows의 기준으로도 가장 좋은 3개의 모형이다. <그림 3.1>은 모형 F에 의한 잔차의 히스토그램과 정규확률도이다. 오차의 정규분 포 가정에 별다른 문제가 없음을 알 수 있다. 모형 A, B에 의한 그림도 크게 다르지 않다. <표 3.10>은 모형 A, B, F에 근거를 두고 표준화잔차의 절댓값이 큰 비정상적 인 관측값들을 찾아낸 것이다. 세 모형에서 모두 2009년 SK의 실제 실점이 회귀식에 의한 적합치보다 특별히 적게 나왔고 2010년 두산의 실제 실점은 회귀식에 의한 적합 치보다 특별히 많게 나온 것으로 나타났다. 해당 연도에 이 팀들의 실제 실점이 어떠 한 이유로 비정상적인 양상을 보였는지는 야구 전문가들의 기술적 관점에서 연구해볼 문제이다. 모형 A <표 3.9> 실점 설명 모형 A, B, F에 의한 회귀분석 결과 DF Parameter Estimate Standard Error t Value Pr > t Tolerance Variance Inflation Intercept 1-8.47409 2.04970-4.13 0.0001. 0 whip 1 4.31501 0.58942 7.32 <.0001 0.13824 7.23362 btg 1 0.17670 0.06899 2.56 0.0130 0.18098 5.52555 hrg 1 0.86382 0.14420 5.99 <.0001 0.55474 1.80264 bhg 1-0.22936 0.07109-3.23 0.0020 0.47462 2.10696 wpg 1 0.70986 0.26447 2.68 0.0094 0.67418 1.48328 bkg 1 3.97458 1.62279 2.45 0.0173 0.97259 1.02818 모형 B DF Parameter Estimate Standard Error t Value Pr > t Tolerance Variance Inflation Intercept 1-9.30577 1.53683-6.06 <.0001. 0 whip 1 4.04732 0.38708 10.46 <.0001 0.32113 3.11405 abg 1 0.20315 0.05067 4.01 0.0002 0.51457 1.94338 hrg 1 0.88830 0.15140 5.87 <.0001 0.50417 1.98344 sag 1 0.29380 0.19784 1.49 0.1429 0.75120 1.33120 wpg 1 0.64689 0.26620 2.43 0.0182 0.66662 1.50010 bkg 1 3.91887 1.62638 2.41 0.0191 0.97001 1.03092

변수선택 기법을 이용한 한국 프로야구의 득점과 실점 설명 89 모형 F DF Parameter Estimate Standard Error t Value Pr > t Tolerance Variance Inflation Intercept 1-8.43816 1.43566-5.88 <.0001. 0 whip 1 4.20112 0.37669 11.15 <.0001 0.34589 2.89111 abg 1 0.17957 0.04860 3.70 0.0005 0.57061 1.75252 hrg 1 0.82602 0.14692 5.62 <.0001 0.54607 1.83125 wpg 1 0.71596 0.26472 2.70 0.0089 0.68761 1.45431 bkg 1 4.06933 1.63945 2.48 0.0159 0.97379 1.02692 <그림 3.1> 모형 F에 의한 잔차의 히스토그램과 정규확률도 모형 연도 팀 rlg 잔차 표준화잔차 A B F <표 3.10> 비정상적 관측값들 (실점의 경우) 2009 SK 4.1353 4.6524 0.0757-0.5171-3.03 2010 두산 5.0301 4.6401 0.0567 0.3900 2.19 2009 SK 4.1353 4.6557 0.0736-0.5203-3.03 2010 두산 5.0301 4.6517 0.0633 0.3784 2.15 2009 SK 4.1353 4.6979 0.0685-0.5626-3.20 2010 두산 5.0301 4.6071 0.0563 0.4230 2.35 4. 결론 대다수의 다른 구기 종목과 마찬가지로 야구는 두 팀이 겨뤄서 점수를 많이 내는 팀이 이기는 경기이다. 타자가 홈에서 공격을 시작하여 1루, 2루, 3루를 거쳐 홈으로 돌아와야 점수가 된다. 안타나 홈런을 아무리 많이 쳐도 상대팀보다 점수를 많이 내 지 못하면 이기지 못한다. 즉 득점과 실점은 승부의 본질이다. 따라서 득점과 실점에 영향을 미치는 요인들에 관하여 연구하는 것은 무의미하지 않을 것이다. 위와 같은 취지로 본 논문에서는 한국 프로야구에서 팀들의 득점과 실점을 설명하 기 위한 회귀모형을 변수선택 기법을 사용하여 구해보고 관련된 내용을 연구하였다. 변수선택 기법으로는 전방선택법, 후방소거법, 단계별 회귀법, 선택법, 보정된

90 김혁주 김예형 선택법, Mallows의 선택법을 적용하였다. 여러 방법에 의한 결과를 종합적으로 고 려하여 득점을 설명하는 모형 4가지와 실점을 설명하는 모형 3가지를 추천하였다. 추천된 득점 설명 모형에는 장타율, 경기당타석, 경기당도실, 경기당병살타, 경기당 잔루가 공통적으로 들어갔고, 모형에 따라 타율과 출루율 중 하나가 들어갔으며, 그 밖에 모형에 따라 경기당타수, 경기당홈런, 경기당희생타, 경기당4사구가 들어갔다. 그 렇다고 이것을, 모형에 공통적으로 들어간 설명변수들보다 타율과 출루율이 덜 중요 하다는 뜻으로 오해하면 안 될 것이다. 타율과 출루율은 개별적으로는 득점과 관련이 큰 요인이지만 두 가지가 동시에 모형에 들어갈 필요성은 크지 않다는 의미이기 때문 이다. 추천된 득점 설명 모형은 공히 98%를 상회하는 결정계수를 보였다. 추천된 실점 설명 모형에는 WHIP, 경기당피홈런, 경기당폭투, 경기당보크가 공통 적으로 들어갔고, 모형에 따라 경기당타자수, 경기당타수, 경기당4사구, 경기당희생타 가 들어갔다. 추천된 3개의 모형에 피안타율이 포함되지 않은 것도, WHIP가 가장 중 요한 변수로 들어가므로 굳이 동시에 들어갈 필요성이 크지 않기 때문인 것으로 해석 할 수 있다. 추천된 실점 설명 모형은 공히 93%를 상회하는 결정계수를 보였다. 본 논문에서 얻어진 결과는 김혁주(2012), 김혁주와 김예형(2014), 그리고 김혁주와 김예형(2015)에서 구한 공격지표와 수비지표가 한국 프로야구팀들의 득점과 실점에 관해 설명하는 것보다 더욱 높은 설명력을 보였다. 미국이나 일본의 프로야구에 관심 이 있는 연구자가 연구한다면, 각국의 야구 성향과 나라 간의 차이를 알아볼 수 있는 작업이 될 것이다. (2015년 9월 7일 접수, 2015년 10월 6일 수정, 2015년 10월 19일 채택) 감사의 글 이 논문은 2014학년도 원광대학교의 교비 지원에 의해서 수행되었습니다.

변수선택 기법을 이용한 한국 프로야구의 득점과 실점 설명 91 참고문헌 김혁주 (2012). 한국 프로야구에서 출루 능력과 장타력이 득점 생산성에 미치는 영향, Journal of the Korean Data & Information Science Society, 23, 1065-1074. 김혁주, 김예형 (2014). 한국 프로야구에서 가중수정OPS를 이용한 득점력 설명, <응 용통계연구>, 27, 731-741. 김혁주, 김예형 (2015). 결합된 수비지표들을 이용한 한국 프로야구의 실점 설명, <응 용통계연구>, 28, 인쇄 중. 이장택 (2014a). 한국프로야구에서 타자능력의 측정, Journal of the Korean Data & Information Science Society, 25, 349-356. 이장택 (2014b). 한국프로야구에서 출루율 계수의 추정, Journal of the Korean Data & Information Science Society, 25, 357-363. 이장택, 김용태 (2005). 한국프로야구에 적당한 득점 추정측도에 관한 연구, Journal of the Korean Data Analysis Society, 7, 2289-2302. 이해용, 이성건 (2008). 한국프로야구의 기록이 승리에 미치는 영향분석, Journal of the Korean Data Analysis Society, 10, 3413-3422. 조영석, 조용주 (2005a). 한국 프로야구에서 OPS와 득점에 관한 연구, Journal of the Korean Data Analysis Society, 7, 221-231. 조영석, 조용주 (2005b). 한국프로야구에서 득점과 실점을 이용한 승률 추정에 관한 연구, Journal of the Korean Data Analysis Society, 7, 2303-2312. 채진석, 조은형, 엄한주 (2010). 프로야구 포스트시즌 진출 예측을 위한 통계적 모형 비교, <한국체육측정평가학회지>, 12, 33-48. 한국야구위원회 (2009). <2009 한국프로야구 기록대백과>, 한국야구위원회. 한국야구위원회 (2010). <2010 한국프로야구 연감>, 한국야구위원회. 한국야구위원회 (2011). <2011 한국프로야구 연감>, 한국야구위원회. 한국야구위원회 (2012). <2012 한국프로야구 연감>, 한국야구위원회. 한국야구위원회 (2013). <2013 한국프로야구 연감>, 한국야구위원회. 한국야구위원회 (2014). <2014 한국프로야구 연감>, 한국야구위원회. 한국야구위원회 (2015). <2015 한국프로야구 연감>, 한국야구위원회. 홍종선, 박하수 (2008). Visual representation and applications of hitting direction in Korean baseball records, Journal of the Korean Data & Information Science Society, 19, 539-549. 홍종선, 최정민 (2008). 2007년 한국프로야구에서 도루성공모형, <응용통계연구>, 21, 455-468. Mallows, C. (1973). Some comments on, Technometrics, 15, 661-675.

92 김혁주 김예형 Explanation of Runs Using Selection Technique in Korean Professional Baseball 1) Hyuk Joo Kim 2) Yea Hyoung Kim 3) Abstract We studied on factors which affect runs scored and runs lost of teams in Korean professional baseball. We analyzed the data from all games in the regular seasons from 2007 to 2014. Using variable selection techniques such as forward selection, backward elimination, stepwise regression, selection, adjusted selection and Mallows' selection, we recommended four regression models for explaining average runs scored and three regression models for explaining average runs lost. We also obtained the resultant least squares regression equations. All the coefficients of determination of the recommended models for explaining runs scored was over 98%, and all those of the recommended models for explaining runs lost was over 93%. Key words : Korean professional baseball, runs scored, runs lost, variable selection technique 1) This paper was supported by Wonkwang University in 2014. 2) (Corresponding author) Professor, Division of Mathematics & Informational Statistics and Institute of Basic Natural Sciences, Wonkwang University, 460 Iksan-daero, Iksan, Jeonbuk 54538, Korea. E-mail: hjkim@wonkwang.ac.kr 3) Lecturer, Division of Mathematics & Informational Statistics, Wonkwang University, 460 Iksan-daero, Iksan, Jeonbuk 54538, Korea. E-mail: dpguddl@wonkwang.ac.kr