29-6(본문).pdf

Similar documents
조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

G Power

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

<352E20BAAFBCF6BCB1C5C320B1E2B9FDC0BB20C0CCBFEBC7D120C7D1B1B920C7C1B7CEBEDFB1B8C0C720B5E6C1A1B0FA20BDC7C1A120BCB3B8ED D2DB1E8C7F5C1D62E687770>

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

DBPIA-NURIMEDIA

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

DBPIA-NURIMEDIA

비선형으로의 확장

Tree 기반의 방법

- 1 -

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

<31372DB9DABAB4C8A32E687770>


제 4 장회귀분석

<B3EDB4DC28B1E8BCAEC7F6292E687770>

<352EC7E3C5C2BFB55FB1B3C5EBB5A5C0CCC5CD5FC0DABFACB0FAC7D0B4EBC7D02E687770>

동아시아국가들의실질환율, 순수출및 경제성장간의상호관계비교연구 : 시계열및패널자료인과관계분석

DBPIA-NURIMEDIA

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

09권오설_ok.hwp

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: * Strenghening the Cap

PowerPoint 프레젠테이션

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

<BFACB1B831382D31365FBAF2B5A5C0CCC5CD20BAD0BCAEBFA120C0C7C7D120BFE4C0B2BBEAC1A420B9E6B9FD20BAF1B1B35F33C2F7BCF6C1A E687770>

statistics

???? 1

44-4대지.07이영희532~


Microsoft PowerPoint - chap_11_rep.ppt [호환 모드]

공휴일 전력 수요에 관한 산업별 분석

슬라이드 1

???? 1

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

자연채무에대한재검토 1. 서론 2. 선행연구 9 Journal of Digital Convergence 214 May; 12(5): 89-99


DBPIA-NURIMEDIA

278 경찰학연구제 12 권제 3 호 ( 통권제 31 호 )

Microsoft Word - SPSS_MDA_Ch6.doc

슬라이드 1

오늘의 매치업 양 팀 맞대결 정보 승 패 무 승률 VS 승 패 무 승률 시즌전체 시즌상대 순위 : 4위 LWLWW 최근 5 경기 WLWWL 순위 : 2위 최근 경기 결과 및 일정 시

오늘의 매치업 양 팀 맞대결 정보 승 패 무 승률 VS 승 패 무 승률 시즌전체 시즌상대 순위 : 7위 LWLWL 최근 5 경기 WWLWW 순위 : 3위 최근 경기 결과 및 일정 시리


286 Heebae Seung Kee-Hoon Kang 국 4억으로 협상을 보았다. 객관적인 성적이나 수치가 인상과 삭감을 결정하는 매우 중요한 열쇠이지 만, 그렇다고 기록만 가지고 연봉을 책정하지는 않는다. 각 구단은 선수가 팀에서 차지하는 비중, 인기, 경력, 입단

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

Journal of the Korean Data & Information Science Society 2017, 28(2), 한국데이터정보과학회지 한국프로야구에서투수연봉에영향

untitled

<C7A5C1F620BEE7BDC4>

untitled

<34C2F7C0FC2E687770>

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

슬라이드 1

표본재추출(resampling) 방법

에너지경제연구 제13권 제1호

슬라이드 1

Microsoft PowerPoint - 26.pptx

서론 34 2

에너지경제연구제 16 권제 1 호 Korean Energy Economic Review Volume 16, Number 1, March 2017 : pp. 95~118 학술 탄소은행제의가정용전력수요절감효과 분석 1) 2) 3) * ** *** 95

Kor. J. Aesthet. Cosmetol., 라이프스타일은 개인 생활에 있어 심리적 문화적 사회적 모든 측면의 생활방식과 차이 전체를 말한다. 이러한 라이프스 타일은 사람의 내재된 가치관이나 욕구, 행동 변화를 파악하여 소비행동과 심리를 추측할 수 있고, 개인의

KDI정책포럼제221호 ( ) ( ) 내용문의 : 이재준 ( ) 구독문의 : 발간자료담당자 ( ) 본정책포럼의내용은 KDI 홈페이지를 통해서도보실수있습니다. 우리나라경

methods.hwp

#Ȳ¿ë¼®


Resampling Methods


저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

DBPIA-NURIMEDIA

오늘의 매치업 양 팀 맞대결 정보 승 패 무 승률 VS 승 패 무 승률 시즌전체 시즌상대 순위 : 2위 WLWWW 최근 5 경기 LWWLL 순위 : 7위 최근 경기 결과 및 일

에너지경제연구 Korean Energy Economic Review Volume 11, Number 2, September 2012 : pp. 1~26 실물옵션을이용한해상풍력실증단지 사업의경제성평가 1

통계적 학습(statistical learning)

350 Jang Taek Lee 들의 평가가 서로 상이하게 될 수 있기 때문에 지표들에 대한 종합적인 판단을 할 필요가 있다. 따라서 변수 개수가 많을 때 변수의 성질에 따라 묶인 소수의 변수로 만들어 주는 주성분분석과 같은 분석이 필 요할 수 있으며, 따라서 본 연구

오늘의 매치업 양 팀 맞대결 정보 승 패 무 승률 VS 승 패 무 승률 시즌전체 시즌상대 순위 : 3위 LWWWW 최근 5 경기 LLWLL 순위 : 6위 최근 경기 결과 및 일

오늘의 매치업 양 팀 맞대결 정보 승 패 무 승률 VS 승 패 무 승률 시즌전체 시즌상대 순위 : 2위 WLWWL 최근 5 경기 WLWLW 순위 : 3위 최근 경기 결과 및 일

65 Soon-Kwi Kim Young-Hoon Lee 한국프로야구의매시즌별팀당경기수가동일하지않으므로, 본연구에서는시즌별팀당경기수 G로나눈시즌별경기당득점수 rsg와경기당실점수 rag를변수 rs와 ra 대신사용하였다. 절에서승률을정의하고,.절에서 rsg rag와승률간의상

슬라이드 1

DBPIA-NURIMEDIA

한국정책학회학회보

<B0E6B7CEBAD0BCAE2E687770>

DBPIA-NURIMEDIA


Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

C# Programming Guide - Types

i

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

A Time Series and Spatial Analysis of Factors Affecting Housing Prices in Seoul Ha Yeon Hong* Joo Hyung Lee** 요약 주제어 ABSTRACT:This study recognizes th

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할


오늘의 매치업 양 팀 맞대결 정보 승 패 무 승률 VS 승 패 무 승률 9.69 시즌전체 6.. 시즌상대. 순위 : 위 LWWWW 최근 경기 WWLWL 순위 : 위 최근 경기 결과 및 일정 시리즈 정보 NC 다이노스 對 롯데전 팀기록 일자 구장 상대 결과 구분 승 패

exp

DBPIA-NURIMEDIA

MATLAB for C/C++ Programmers

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 6, Jun Rate). STAP(Space-Time Adaptive Processing)., -

164

Microsoft Word - LectureNote.doc

09È«¼®¿µ 5~152s


Microsoft Word - skku_TS2.docx

Transcription:

The Korean Journal of Applied Statistics (2016) 29(6), 1095 1106 DOI: http://dx.doi.org/10.5351/kjas.2016.29.6.1095 Variable selection with quantile regression tree Youngjae Chang a,1 a Department of Information Statistics, Korea National Open University (Received August 22, 2016; Revised October 8, 2016; Accepted October 8, 2016) Abstract The quantile regression method proposed by Koenker et al. (1978) focuses on conditional quantiles given by independent variables, and analyzes the relationship between response variable and independent variables at the given quantile. Considering the linear programming used for the estimation of quantile regression coefficients, the model fitting job might be difficult when large data are introduced for analysis. Therefore, dimension reduction (or variable selection) could be a good solution for the quantile regression of large data sets. Regression tree methods are applied to a variable selection for quantile regression in this paper. Real data of Korea Baseball Organization (KBO) players are analyzed following the variable selection approach based on the regression tree. Analysis result shows that a few important variables are selected, which are also meaningful for the given quantiles of salary data of the baseball players. Keywords: quantile regression, regression tree, variable selection 1. 서론 Koenker과 Bassett (1978) 에의해제안된분위수회귀분석법은독립변수들이주어졌을때, 종속변수의조건부분위수에초점을맞추어독립변수들과종속변수의해당특정분위수와의관계를분석하는방법이다. 전형적인통상최소제곱 (ordinary least squares) 추정방법이독립변수가주어졌을때, 종속변수의평균의움직임에주목한방법이라는점에서선형회귀모형에서적용되었던방법론을분위수회귀모형에직접적용하기는어렵다. 따라서, 기존의선형모형의틀을벗어나다양한측면에서모형의개선을위한알고리즘이제안되었다. 한편고차원대용량자료의경우에는차원축소의문제, 조금더폭을좁혀생각해보면변수선택의문제를통해의사결정에영향을미치는주요요인들을파악하거나적절한규모의모형을적합하는과정이중요하며결과적으로이러한변수선택은모형의예측력을제고하는데유용한것으로나타난다 (Chang, 2014). 분위수회귀모형의경우에도이러한점을감안하여변수선택에관한논의가꾸준히이루어져왔다. 본논문에서는분위수회귀분석의변수선택의문제를보다직관적이고간단하게해결하기위한방법으로서회귀나무모형을원용하였다. 고차원자료분석의관점에서분위수회귀나무모형방법을구현해보고실제자료를분석해보았다. 본논문의구성은다음과같다. 2장에서분위수회귀모형과회귀나무의기본적인알고리즘을개괄한뒤,3장에서분위수회귀나무의변수선택방법을고찰하고이변수선택방법론을이용하여실제데이터를분석하여보았으며, 마지막으로 4장에서는결론및향후연구과제에대해간략히정리하였다. This research was supported by Korea National Open University Research Fund. 1 Department of Information Statistics, Korea National Open University, 86, Daehak-ro, Jongno-gu, Seoul 03087, Korea. E-mail: yjchang@knou.ac.kr

1096 Youngjae Chang 2. 알고리즘개괄 2.1. 분위수회귀 (quantile regression) 본절에서는분위수회귀모형을간략히정리해보기로한다. 종속변수 Y 와독립변수 X가있다고가정하고 X는 d차원의변수라고하자. 이경우 α 백분위수, Q α 는식 (2.1) 과같이나타낼수있다. Q α (X = x) = inf {y : F (y X = x) α}. (2.1) 조건부분포함수 F (y X = x) 는식 (2.2) 처럼표현할수있다. F (y X = x) =P (Y y X = x). (2.2) 이상의정의하에서분위수회귀분석은통상적인회귀분석문제에서와마찬가지로손실함수 (loss function) 를최소화하는회귀계수를찾는과정이라고할수있다. 다만, 통상최소제곱추정의경우와는달리식 (2.3) 과같은특별한손실함수를사용하게된다. ρ α (u) =u(α I(u <0)). (2.3) 손실함수 ρ α(u) 의특징을꼽자면선형손실함수로서 α 값에따라비대칭적인모습을지닌다는것이다. Figure 2.1은분위수값에따라손실함수가어떻게달라지는지를나타내고있다. α =0.5는중위값을의미하며이경우에는통상최소제곱추정의경우인 Figure 2.2와유사하지만, 나머지경우에는비대칭적인손실함수의형태이다. 이러한손실함수를바탕으로 Y = X β와같은선형모형의회귀계수추정은식 (2.4) 와같이주어진 X = x 값에대하여손실함수의기댓값을최소로하는조건부분위수를찾는과정으로요약할수있다. Q α(x = x) = arg min β R d E(ρα(Y x β)). (2.4) 회귀모형을손실함수와연관지어살펴보면회귀계수추정원리를조금더명확하게파악할수있다. 예를들어 Figure 2.1의 α =0.3과같은경우, u의값을 Y x β로대체하여생각해보면이값이 0보다작을때, 즉회귀직선보다아래위치한관측치가있을때, 이에대해상대적으로더큰손실함수값이부여된다고볼수있다. 따라서이러한손실함수값을최소화하기위해서는가급적회귀직선이낮은쪽에위치하여야한다. 이러한형태의직선중손실함수의값을최소화시키는회귀계수를추정함으로써 α =0.3 해당분위수회귀모형을적합하게되는것이다. α =0.7의경우에도손실함수모양이비대칭인모습을지니지만 α =0.3의예와는정반대의과정을거쳐회귀직선이높은쪽에위치하게되는계수값을추정하게되는것이다. 이러한이유로분위수회귀모형의회귀계수추정은그이론적배경에비해추정과정이간단하지않다. 기본적으로최소절대편차 (least absolute deviation) 손실함수에서전형적으로사용되는선형계획법을활용하게된다. 식 (2.5) 처럼최소절대편차추정치를찾는이과정을중위값회귀 (median regression) 라고하는데, 이는식 (2.3) 의손실함수에서 α =0.5인특별한경우임을쉽게알수있다. arg min β R d E( Y x β ). (2.5) 선형계획법을활용하여추정하는데있어서는대체로반복 (iteration) 을통해해를찾는알고리즘을이용하게된다. 이과정에서도전역최소값 (global minimum) 을찾지못할가능성도있고 X의차원 d가매우클경우에는회귀계수의추정이어려울뿐만아니라추정과정에서수렴하지않을가능성도증

Variable selection with quantile regression tree 1097 alpha=0.3 alpha=0.5 rho 0.0 0.2 0.4 0.6 0.8 1.0 rho 0.0 0.2 0.4 0.6 0.8 1.0 1.0 0.5 0.0 0.5 1.0 u 1.0 0.5 0.0 0.5 1.0 u alpha=0.7 alpha=0.9 rho 0.0 0.2 0.4 0.6 0.8 1.0 rho 0.0 0.2 0.4 0.6 0.8 1.0 1.0 0.5 0.0 0.5 1.0 Figure 2.1. Loss function according to α. u 1.0 0.5 0.0 0.5 1.0 u Least squares loss 0.0 0.2 0.4 0.6 0.8 1.0 1.0 0.5 0.0 0.5 1.0 Figure 2.2. Squared error loss function. u 가한다. 따라서, 고차원자료를다루는분위수회귀분석의경우에는더욱주의를요하게된다. 이러한측면에서독립변수의차원이클경우이를해결하기위한여러가지방법론들이제기되었다. Chang (2014) 에서도다단계분위수회귀나무방법론을이용하여독립변수의차원이급증할때에도예측력이저하되지않는알고리즘을제안한바있다. 다만, 교차타당화 (cross-validation) 를이용한모형평가및예측력향상에만국한된것으로변수선택이나모형축소측면은고려하지않았다. 본논문에서는고차원

1098 Youngjae Chang Figure 2.3. An example of piecewise linear regression tree: At each split, an observation goes to the left branch if and only if the condition is satisfied. 의분위수회귀모형에있어서변수선택과모형축소방법을살펴보기로한다. 기존논문에서다루었던변수선택의방법대신회귀나무를이용하여직관적이고간단하게구현하는방법을이용한다. 2.2. 회귀나무 (regression tree) 알고리즘회귀나무는데이터를특정기준변수값에따라재귀적으로이분할하면서모형을확장하고과다적합을방지하기위해교차타당화방법을통해적정크기의모형을찾는방법이다. 조각별선형회귀나무란회귀나무모형을구축할때분기가이루어질자식노드 (node) 에서선형모형을적합한뒤이러한선형모형의잔차가최소화되는지점을찾아최적분기점으로설정해나가는방법이다. Figure 2.3은조각별선형회귀나무의예이다. 최상위노드또는마디는모든훈련샘플 (training sample) 을포함하고있으며여기서부터가지가나뉘어지며나무가자라게된다. 각노드에서는분기변수 (split variable) 로선택된설명변수 (x 1,x 2,x 3 등 ) 의값에따라가지가나뉘어지며이러한이분할이반복되는단계및교차타당화를통한가지치기 (pruning) 과정을거쳐최종적인나무의모습을이루게된다. Figure 2.3에서 t 4,t 5,t 6,t 8,t 9 는최종노드이며각최종노드아래에는 ŷ t4 = x ˆβt4, ŷ t5 = x ˆβt5, ŷ t6 = x ˆβt6, ŷ t8 = x ˆβt8, ŷ t9 = x ˆβt9 처럼해당노드에서적합된선형모형이제시되어있다. 이러한조각별선형회귀나무에서 ŷ t4 = x ˆβt4 등과같이각최종노드에적합되는모형이어떤모형인지에따라구체적인회귀나무의형태가정해지게된다. Chang (2010) 에서처럼최종노드에서적합되는모형이다중선형회귀모형인다중선형회귀나무모형 (multiple linear regression tree) 인경우, 상수항만존재하는상수항모형, 최종노드에서의모형을다중선형회귀모형으로하되변수선택을감안한단계별회귀 (stepwise regression) 알고리즘을적용한나무모형등다양한모형을적용하여나무를구축할수있다. Chang과 Kim (2011) 에서는간단한시뮬레이션연구를통해비선형회귀모형추정에있어서회귀나무가적절하게사용될수있음을보였는데, 종속변수와비선형관계가뚜렷한독립변수를분기변수로삼아이분할하고자식노드에서의잔차가최소가되는점을찾는과정을시현하였다. 이러한관점에서보면, 조각별선형회귀나무는그이름이의미하는대로몇개의선형모형의결합으로이루어진회귀나무라고

Variable selection with quantile regression tree 1099 이해할수있다. Classification And Regression Tree(CART) 와같은전통적인회귀나무의자식노드에서는상수항모형만적합되는것과는대조적이라고할수있다. 이러한이유때문에대체로일반적인조각별선형회귀나무의크기는 CART와같은상수항회귀나무모형에비해작게나타난다. 이러한조각별선형회귀나무의구현이일반화될수있다면, 앞서살펴본분위수회귀에회귀나무를적용하는문제도매우간단하게해결될수있다. Loh (2002) 는회귀나무의이러한성질을이용하여비모수적인분위수회귀모형추정방법을제안하였다. Loh가제안한 Generalized, Unbiased, Interaction Detection and Estimation(GUIDE) 는자식노드에서다양한모형적합을가능하게함으로써모형적합의범위를넓히는동시에예측력도제고한알고리즘이다. Loh (2002) 에서는 GUIDE 알고리즘의특징을변수선택편의 (variable selection bias) 가거의없으며곡률검정 (curvature test) 단계를통한비선형성포착이용이하고, 교호효과를고려한데다가계산시간이상대적으로빠르다는점등으로꼽았다. 특히선택편의 (selection bias) 는고차원자료의다범주변수로인해발생하는경우가많은데이를방지했다는것은 Breiman 등 (1984) 이제안한 CART 방법론이지니고있던문제점을해결한것으로평가할수있다. 따라서, GUIDE 방법론은일반적인고차원자료를바탕으로모형을적합할때나타나는나무모형의예측력저하를상당히완화시킬수있다. 2.3. 변수선택을위한분위수회귀나무 (quantile regression tree) 알고리즘 Chang (2010) 에서 GUIDE의조각별선형회귀나무모형중한형태인단계적선형회귀나무 (stepwise linear regression tree) 모형을이용하여고차원자료의변수선택방법을제안한바있다. 그러나분위수회귀에는동방법의직접적인적용이어려운점을감안하여본논문에서는 Chauduri와 Loh (2002) 가제안한분위수회귀나무알고리즘을응용한다. 특별히분위수회귀의문제에있어서변수선택방법으로상수항모형분위수회귀나무를이용하기로한다. 다중선형회귀나무를적용할경우분기변수로선택되는변수의개수는몇개로한정되지만, 최종노드에서적합되는모형은전체입력변수를포함하는모형으로서결과적으로선택된변수만으로모형을구축하는효과를얻을수없기때문이다. 즉, 상수항분위수회귀 (constant quantile regression) 모형으로변수를선택한후다중선형분위수회귀나무로모형을적합하는방식의결합알고리즘을사용하게되는것이다. 이러한결합알고리즘을간략히요약하면다음과같다. 1. 분석하고자하는해당분위수 α를지정한다. 2. 현노드를 t라하자. 현노드의데이터를바탕으로분위수 α에해당하는상수항분위수회귀모형을적합한다. 상수항분위수회귀모형이란, 각노드에서종속변수의분위수와다수의입력변수들간의관계를고려한모형으로최종노드에서의모형이상수항으로만구성된나무모형이다. 3. 각각의관측치에대해서, 곡률검정 (curvature test) 를이용하여분기변수를선택한다곡률검정이란종속변수와각독립변수간의관계가비선형적인지여부를검정하는과정이다. 예를들어식 (2.6) 에서함수 μ( ) 가선형일때, 실제데이터에모형을적합하였다고가정해보자. 가장간단한예로서우리에게익숙한단순선형회귀모형을생각하면된다. y i = μ(x i )+ɛ i, i =1,...,n. (2.6) 모형적합결과산출되는예측값 ŷ i 과실제값 y i 와의편차인잔차를수직축에, 입력변수인 x i 를수평축에놓고산점도를그린다. 이때, 입력변수인 x i 의각 4분위수지점을나누어 4개의셀을만들고수직축은 0을기준으로잔차의부호를구분하는수평선을그어총 8개의셀을만든다. 이러한분할

1100 Youngjae Chang 표 (contingency table) 가작성되면, 식 (2.7) 과같은카이제곱통계량을계산할수있다. χ 2 (Oi E i ) 2 =, (2.7) E i 여기서 O i 는각셀에위치한관측치수이고 E i 는주어진분할표의기댓값, 즉관측치수의셀당평균값이된다. 자유도는 (4 1)(2 1)=3이된다. 만약해당카이제곱통계량의값이크다면이는잔차의분포가치우진것을의미하므로선형성에서벗어난것을의미한다고볼수있다. 각입력변수별로해당통계량의유의확률 p-값비교를통해가장작은p-값을나타내는입력변수가비선형성이가장뚜렷한변수라고간주하여이입력변수를분기가되어야할대상변수로선정한다. 자세한사항은 Chang과 Kim (2011) 을참조하기바란다. 개별변수뿐만아니라각변수쌍에대해교호효과파악을위한카이제곱검정 (chi-squared tests) 을실시하여가장작은p-값을나타낸변수를선택하게된다. 4. 위와같은과정을통해분기변수가결정되면분기점 (split point) 을결정하게된다. t L 과 t R 을각각현노드인 t의좌, 우하위노드라고하자. 만약 X가수치형변수이면 t L 과 t R 의손실함수의합 (sum of error losses) 이최소가되게하는분기점을찾는다. 만약 X가범주형변수이면해당변수의분기조건은 X C와같은형태로정해진다 (C는 X의값으로구성된부분집합이다 ). 즉, 하위노드인 t L 과 t R 에서손실함수의가중합이최소가되게하는분기조합을찾게된다. 5. 분기과정이끝나게되면, 교차타당화를이용한가지치기단계 (pruning) 를거쳐회귀나무를구현한다. 6. 이상의상수항모형적합을통해구현된회귀나무에나타난변수들의리스트를확인하고이선택된변수들로만전체자료를대상으로새로운분위수회귀모형을적합한다. 이때, 적합하는모형은조각별회귀나무모형중하나의형태인다중선형회귀나무모형을적용하게된다. 7. 최종적으로가지치기단계를거쳐다중선형분위수회귀나무모형을얻게된다. 3. 실증분석본장에서는분위수회귀나무를이용하여한국프로야구선수들의연봉과성적과의관계를분석해보았다. 특히투수와타자등선수들의직전년도성적을독립변수로하고올해의연봉을종속변수로하여분위수별로연봉에영향을미치는변수들이차이가있는지를살펴보기위해회귀나무를이용한변수선택을실시하였다. 모든변수를포함한다중분위수회귀모형을적합할경우너무많은독립변수들이존재하여회귀계수추정의불안정성등이발생할수있으므로이러한변수선택과정은모형적합의용이성면에서도의미가있다고하겠다. 3.1. 데이터설명본논문에서는한국프로야구선수들의연봉과직전년도성적으로이루어진데이터를분위수회귀나무모형을통해분석하였다. 2016년개막일로스터에등록된선수들을기준으로하되직전년도인 2015년도성적이존재하는선수들만분석대상으로하였다. 즉, 올해처음등록된신인이나군복무나부상등으로 2015년도기록이없는선수들은분석에서제외하였다. 결과적으로분석대상선수들수는타자는

Variable selection with quantile regression tree 1101 Table 3.1. Variables for KBO players Variable for batters Description Variables for pitchers Description AVG 타율 ERA 평균자책점 G 게임 G 경기 AB 타수 W 승리 R 득점 L 패배 H 안타 SV 세이브 h2b 2루타 HLD 홀드 h3b 3루타 WPCT 승률 HR 홈런 TBF 타자수 TB 루타 IP 이닝 RBI 타점 H 피안타 SB 도루 HR 피홈런 CS 도루실패 BB 볼넷 BB 볼넷 HBP 사구 HBP 사구 SO 삼진 SO 삼진 R 실점 GDP 병살타 SLG 장타율 OBP 출루율 E 실책 141명, 투수는 85명이었다. 연봉을기준으로 90 백분위,50백분위,25백분위수, 즉 α =0.9, 0.5, 0.25 인경우로나누어각각의회귀나무를통해변수를선택하고그변수들만으로분위수회귀모형을적합해보았다. 낮은분위수로 25 백분위수를선택한이유는지나치게낮은수준의연봉을받는경우를제외하고분석하고자하였기때문이다. 낮은수준의연봉의경우는대부분신인급의선수들로서최저기본연봉에근접한수준을받으므로성적에민감하게연동하여연봉을받는다고는평가할수없기때문이다. 이는대체로 FA 계약등과관련된선수들이많이분포되어있는높은연봉수준에도적용되는사안이라고볼수있으며이를감안하여통상적인 95 백분위수대신 90 백분위수를분석대상으로삼았다. 그럼에도불구하고이러한분석대상백분위수선정은다소임의적인부분이있으므로결과해석상유의점이존재한다. 포지션별로는투수들과타자들의성적을직접적으로비교하기어려우므로투수와타자는별도로구분하여분석하였다. 데이터는한국야구위원회홈페이지 (http://www.koreabaseball.com/) 에공개된 2016년개막일당시의로스터와선수조회기능을이용하여검색한뒤축적하였다. Table 3.1은타자와투수의성적을나타내는주요변수들이다. 이러한 2015년도의성적관련변수들을독립변수로, 2016년개막일당시의선수들의연봉을종속변수로하여분위수회귀나무모형을적합해보았다. 연봉의단위는천만원이며각변수들은변환하지않은형태의자료를그대로사용하였다. 3.2. 분석결과실증분석결과타자와투수의경우모두분위수회귀나무를통해독립변수의수를상당히축소할수있는것으로나타났다. 먼저타자의분석결과를보면, α = 0.9인경우 H( 안타수 ), h2b(2루타수 ), SLG( 장타율 ) 등의변수가선택되었고 α =0.5일때에는 R( 득점 ) 과 HR( 홈런 ) 등이선택되었다 (Figure 3.1, Figure 3.2). 한편, α =0.25인경우에는 RBI( 타점 ) 및 BB( 볼넷 ) 등의변수가선택되었다. 이러한변수선택의결과를통해몇가지사항을추론해볼수있다 (Figure 3.3). 선택된변수가해당연

1102 Youngjae Chang Figure 3.1. GUIDE 0.50-SE piecewise constant 0.90-quantile regression tree for predicting salary of batters. Figure 3.2. GUIDE 0.50-SE piecewise constant 0.50-quantile regression tree for predicting salary of batters. Figure 3.3. GUIDE 0.50-SE piecewise constant 0.25-quantile regression tree for predicting salary of batters. 봉분위수를설명하는독립변수라는점을고려하면, 높은수준의연봉을받는타자들은안타수나 2루타수등기본적인타자의능력에더하여장타율까지연봉수준과관계가있다고볼수있다. 중위수정도의연봉을받는선수들은득점과홈런이변수로선택되었고하위 25퍼센트정도연봉을받는타자들은타점과볼넷이의미있는변수로선택되었다. 홈런이선택된점을제외하면대체로고연봉에비해상대적으로출루가빈번한지가연봉에영향을미치고있는것으로해석할수있다.

Variable selection with quantile regression tree 1103 Table 3.2. Quantile regression models after variable selection (batters) Selected variables α = 0.90 α = 0.50 α = 0.25 Constant 274.99 2,500.00 1,378.20 H 82.96 - - h2b 1,931.10 - - SLG 42,073.00 - - R - 166.67 - HR - 1,570.70 - RBI - - 177.25 BB - - 146.65 Sample quantile 60,000 12,000 4,500 Figure 3.4. GUIDE 0.50-SE piecewise constant 0.90-quantile regression tree for predicting salary of pitchers. Figure 3.5. GUIDE 0.50-SE piecewise constant 0.50-quantile regression tree for predicting salary of pitchers. 이와같은과정을통해얻은변수선택결과를반영하여분위수회귀나무모형을적합한결과는 Table 3.2와같다. 모두나무구조가형성되지않고단일분위수회귀모형으로적합되었다. 한편, 투수의경우분위수회귀나무를통해얻은결과는타자의분석결과와약간상이하였다. α = 0.9인경우 W( 승리수 ), SV( 세이브수 ) 등의변수가선택되었고 α =0.5일때에는 W( 승리수 ) 와 G( 출전게임수 ) 가선택되었다 (Figure 3.4, Figure 3.5). 한편, α =0.25인경우에는선택된변수가없었다. 투수의경우에는분위수별로뚜렷한차이는보이지않았지만, α =0.9인경우 W( 승리수 ) 와 SV( 세이

1104 Youngjae Chang Table 3.3. Quantile regression models after variable selection (pitchers) Selected variables α = 0.90 α = 0.50 α = 0.25 Constant 14,000 3,570.3 6,200 W 6,568.2 3,429.6 - SV 3,751.4 - - G - 8.64 - Sample quantile 69,000 11,000 6,200 브수 ) 가모두선택된것은최근선발, 중간계투, 마무리등투수의임무가분업화되면서각분야에서뛰어난성적을보이는선수들이고액연봉을받는사례가나타난데기인한다고할수있다. 투수의경우에도변수선택결과를반영하여분위수회귀나무모형을적합하였으며그결과는 Table 3.3에나타나있다. 이경우에도모두나무구조가형성되지않고단일분위수회귀모형으로적합되었다. 4. 결론분위수회귀분석법은독립변수들이주어졌을때, 종속변수의조건부분위수에초점을맞추어독립변수들과종속변수의해당특정분위수와의관계를분석하는방법이다. 선형계획법등분위수회귀에있어서추정의방법들을감안하면대용량자료분석이필요할경우에는적절한모형적합이쉽지않다는점은자명하다. 따라서이러한경우, 차원축소의문제가중요한과제로부여된다. 본논문에서는이러한변수선택의문제를회귀나무방법을이용하여직관적이고도이해하기쉽게구현해보았다. 곡률검정에바탕을두고있는조각별선형회귀나무의틀을유지하되분위수회귀방법을응용하여변수선택의문제를해결하고자하였다. 한국야구위원회에등록된선수들의자료를바탕으로분위수회귀에관한변수선택을실시한결과, 타자와투수의경우모두분위수회귀나무를통해독립변수의수를상당히축소할수있는것으로나타났다. 분위수에따라차이는있지만, 총 19개 ( 타자 ) 또는 14개 ( 투수 ) 중 2 3개의변수만을선택하여모형축소가가능하였다. α =0.9인경우타자의분석결과를보면,H( 안타수 ), h2b(2루타수 ), SLG( 장타율 ) 등의세개의변수가선택되어고액연봉자의경우연봉에미치는주요요인들로나타났고, 투수의경우 W( 승리수 ) 와 SV( 세이브수 ) 가선택되어최근투수의임무가분업화되면서각분야에서뛰어난성적을보이는선수들이고액연봉을받고있다는사실을뒷받침해주었다. 실제데이터를분석하면서주요변수가선택되는등의미있는결과를얻었으나본연구는다소한계점을지니고있다. 회귀나무자체의단점이기도하지만, 분위수회귀나무적용에있어서도수많은변형이가능하여불안정성이상존한다는점이제약으로존재한다. 또한실생활에서접할수있는, 상대적으로독립변수의수가많고구성도복잡한실제데이터를분석하였으나차원의수가매우큰고차원자료의경우에는동연구결과의적용가능성을평가할필요가있다. 따라서향후강건성을고려하는동시에변수의수가크게증가함에따른변수선택의성능변화등에대해서도연구를확장하는등심도있는검토가필요하다하겠다. References Breiman, L., Friedman, J., Stone, C. J., and Olshen, R. A. (1984). Classification and Regression Trees, CRC press. Chang, Y. (2010). The analysis of factors which affect Business Survey Index using regression trees, The Korean Journal of Applied Statistics, 23, 63 71.

Variable selection with quantile regression tree 1105 Chang, Y. (2014). Multi-step quantile regression tree, Journal of Statistical Computation and Simulation, 84, 663 682. Chang, Y. and Kim, H. (2011). Tree-Structured Nonlinear Regression, The Korean Journal of Applied Statistics, 24, 759 768. Chaudhuri, P. and Loh, W.-Y. (2002). Nonparametric estimation of conditional quantiles using quantile regression trees, Bernoulli, 8, 561 576. Koenker, R. and Bassett, G. (1978). Regression Quantiles, Journal of Econometrica, 46, 33 50. Loh (2002). Regression trees with unbiased variable selection and interaction detection, Statistica Sinica, 12, 361 386.

1106 Youngjae Chang 분위수회귀나무를이용한변수선택방법연구 장영재 a,1 a 한국방송통신대학교정보통계학과 (2016 년 8 월 22 일접수, 2016 년 10 월 8 일수정, 2016 년 10 월 8 일채택 ) 요약 Koenker 등 (1978) 에의해제안된분위수회귀분석법은독립변수들이주어졌을때, 종속변수의조건부분위수에초점을맞추어독립변수들과종속변수의해당특정분위수와의관계를분석하는방법이다. 선형프로그래밍법등을이용한분위수회귀의추정과정을생각해볼때, 고차원대용량자료의경우에는모형적합에어려움을겪을수밖에없다. 따라서분위수회귀의문제에있어서도차원축소의문제, 조금더폭을좁혀생각해보면변수선택의문제를통해의사결정에영향을미치는주요요인들을파악하거나적절한규모의모형을적합하는과정이중요하다고할수있다. 본논문에서는분위수회귀의변수선택의문제를보다직관적이고간단하게해결하기위한방법으로서회귀나무모형을응용하여한국야구위원회에등록된선수들의연봉과기록데이터를분석해보았다. 분석결과, 각분위수별로소수의주요변수가선택되어차원축소의효과를얻을수있었다. 또한해당분위수별로선택된변수도해석상의미있는것으로평가할수있었다. 주요용어 : 변수선택, 분위수회귀, 회귀나무. 이논문은 2015 년도한국방송통신대학교학술연구비지원을받아작성된것임. 1 (03087) 서울시종로구대학로 86, 한국방송통신대학교정보통계학과. E-mail: yjchang@knou.ac.kr