저작자표시 - 비영리 - 변경금지 2. 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할수없습니다. 변경금지. 귀하는이저작물을개작, 변형또는가공할수없습니다. 귀하는, 이저작물의재이용이나배포의경우, 이저작물에적용된이용허락조건을명확하게나타내어야합니다. 저작권자로부터별도의허가를받으면이러한조건들은적용되지않습니다. 저작권법에따른이용자의권리는위의내용에의하여영향을받지않습니다. 이것은이용허락규약 (Legal Code) 을이해하기쉽게요약한것입니다. Disclaimer
이학석사학위논문 이진분류문제에서교차검증방법과일반화근사교차검증방법의비교 The Compariso of Cross-Validatio ad Geeralized Approximate Cross-Validatio For Biary Classificatio Problem 218 년 7 월 서울대학교대학원 통계학과 황참이
이진분류문제에서교차검증방법과 일반화근사교차검증방법의비교 지도교수김용대 이논문을이학석사학위논문으로제출함 217 년 12 월 서울대학교대학원 통계학과 황참이 황참이의이학석사학위논문을인준함 217년 12월 위원장 이 영 조 ( 인 ) 부위원장 김 용 대 ( 인 ) 위 원 임 요 한 ( 인 )
국문초록 일반적으로 교차검증방법(Cross validatio 이하 CV)은 다양한 통계적 방법론에 적용되어 모형의 적절성을 조율해주는 도구로 활용되었다. 또한 일 반화교차검증방법(Geeralized cross validatio 이하 GCV)은 제곱 손실오차 를 가지는 가우시안 벌점화 선형모형에서 계산을 효율적으로 줄이는 도구로 활용되었다. 즉, 선형모형에 벌점화가 있는 경우 근사의 과정을 거쳐, 교차검 증방법을 통해 예측력이 높은 모형을 적절히 선택할 수 있다. 이러한 논리를 확장하여, 이진 반응변수를 갖는 벌점화 로지스틱모형에서 교차검증방법을 일 반화한 일반화근사교차검증방법(Geeralized Approximate Cross Validatio 이하 GACV)을 살펴본다. 일반화근사교차검증오차는 비가우시안 자료에서 벌점화 로그 가능도 회귀모형의 평활모수(Smoothig parameter)를 추정하는 역할을 한다. 일반화근사교차검증오차는 테일러 전개를 통해 목적함수를 1 차적으로 근사시키고 GCV에서 사용한 방법처럼 평활행렬 대각원소의 산술 평균을 이용하여 한번 더 근사시켜 얻을 수 있다. 본문에서는 자료 분석을 이용하여 GACV로 얻은 평활모수의 성능이 기존 교차검증방법과 크게 다르 지 않음을 보인다. 주요어 : 평활모수, 벌점화 로지스틱 회귀분석, 교차검증방법, 일반화근사교 차검증방법 학 번 : 216-228 1
Cotets 1 서론 5 2 분석방법론 7 2.1. 이진 반응변수에 대한 벌점화 로지스틱 회귀모형........ 7 2.2. 교차검증방법(CV)........................ 8 2.3. 일반화근사교차검증방법(GACV)................ 9 3 Applicatio to data 16 3.1. 자료 설명............................. 16 3.2. 평가지표.............................. 17 3.3. 실험 및 결과............................ 19 3.3.1. 실험 방법......................... 19 3.3.2. 실험 결과......................... 19 4 결론 및 제언 21 2
List of Tables 3.1 이진분류문제의분류경우표.................. 17 3.2 Threshold.68 에서 CV, GACV 의정밀도, 재현율, F 1.5 점수비교 2 3
List of Figures 3.1 CV, GACV F 1.5 점수비교.................... 2 4
Chapter 1 서론 검증오차법(validatio error)은 여러 모형의 예측력을 이용하여 최적의 모 형을 선택하며 주어진 자료의 크기가 충분히 큰 경우 사용되는 방법이다. 주로 모형의 예측력에 초점을 맞춘 방법으로 알려져 있으며 이를 일반화한 것이 교차법검증법이다. 가령 자료를 서로 배반이 되도록 무작위의 k개 묶음(fold) 으로 분할하여 각각의 검증오차를 구할 수 있으며 k개 검증오차의 산술평균을 흔히 k-묶음 교차확인오차(k-fold cross validatio)라고 부른다. 이러한 방법을 극단적으로 사용하여 묶음의 갯수가 주어진 자료 수 과 일치한다면 하나 남 겨놓기 교차검증법(leavig-oe-out cross validatio)이라 부른다. 하지만 하나 남겨놓기 교차검증법은 교차검증법에 비하여 묶음의 갯수가 크기 때문에 편 의-분산 절충에 의하여 검증오차의 기대 편의는 줄어들지만 분산이 큰 단점이 있다. 또한 선형모형과 같은 특수한 경우를 제외한다면, 개별 모형에 표본크기 1인 모형 적합을 번 반복 적용해야하는 문제점이 한계로 지적된다. 지금까지 교차검증법의 경우 가령 로지스틱, LDA 등 다양한 통계 방법에 적용될 수 있기 때문에 꾸준히 교차검증법에 대한 근사가 이루어졌다. 대표 5
적으로 가우시안 선형모형에서 일반화 교차검증오차(GCV)와 같은 방법이 있다. 하지만, 단순 벌점화 선형모형이 아닌 비가우시안 비선형모형이라면 정 형화된 검증방법이 마련되어 있지 않다. 음 로그가능도의 2차 근사를 통한 GCV(O sulliva)[5]와 같은 방법, 불편 위험 추정치(Gu)[2] 등 다양한 방법이 사용되어 왔지만 예측오차에 대한 정확한 불편추정치를 얻는 획일화된 방법 은 존재하지 않는다. 그러므로 예측오차의 불편추정치를 제시하는 여러가지 방법이 꾸준히 제시되어 왔으며 이러한 이유로 본문 제 2장에서는 GACV (λ) 를 소개하고 이것으로 베르누이 자료에서 평활모수를 추정하였다. 그리고 제 3장은 실제 자료 분석을 바탕으로 비교를 통해 CV (λ)와 GACV (λ) 성능이 크게 다르지 않음을 밝힌다. 마지막으로 제 4장에서 결론을 맺는다. 6
Chapter 2 분석방법론 이 장에서는 이진 반응변수에 대한 벌점화 로지스틱 회귀모형과 비교 분 석에 사용된 교차검증방법을 간략하게 언급한다. 그리고 마지막으로 일반화 근사교차검증방법에 대해 자세히 다루도록 하였다. 2.1. 이진 반응변수에 대한 벌점화 로지스틱 회귀 모형 선형 회귀분석 모형은 흔히 연속형 반응변수 y와 하나 또는 여러 개의 설 명변수 사이의 선형적인 관계를 모형화한 통계적 분석방법을 의미한다. 만약 y가 질적변수, 특히 이진 반응변수라면, 로짓 연결함수를 활용하여 로지스틱 회귀분석을 주로 사용하며 또한 고차원 자료의 경우 안정적인 분석 결과를 얻 기 위하여 벌점화 모형을 사용하므로, 이 두가지를 결합하여 이진 반응변수에 대한 벌점화 로지스틱 회귀모형[4]을 분석에 사용하였다. 7
2.2. 교차검증방법(CV) 앞으로의 논의를 위해 사용할 지수족에 대해 간략하게 다루도록 한다. 비가 우시안 지수족을 갖는 자료구조에서, 벌점화 로그 가능도 평활 모수를 추정하 는 방법에 대해 생각해보자. 여기서 yi 는 독립인 관측치이고 다음의 지수족을 따르는 분포에서 추출된 임의표본이라 가정하자. f (yi, ψ(xi ), φ) exp{(yi ψ(xi ) ξ(ψ(xi )))/d(φ) + h(yi, φ)} (2.1) 여기에서 d, ξ, h는 주어져 있으며 ξ( )은 순볼록 함수이다. 흔히 ψ(xi )를 표준모수라고 하며, 주된 목표는 ψ( )를 추정하는 것이다. 가령, Beroulli라면 P (Yi = yi xi ) = p(xi )yi (1 p(xi ))1 yi = exp{yi ψ(xi ) log(1 + eψ(xi ) )} 이므로 ψ(xi ) = xti β, ξ(x) = log(1 + ex ) 이며 h(yi, φ) =, d(φ) = 1 이다. 모수적 GLM 모형에서는 ψ( )은 모수적 형태로 가정되지만 더 유연한 모형을 적합하기 위해, 스플라인 회귀 모형과 같은 방법이 적용될 수 있다. 가령 ψ( ) 를 재생커널힐버트공간의 원소로서 부드러운 함수 중 하나로 가정할 수 있다 [6]. 하지만 논의의 범위를 간소화하기 위해 l(yi, ψ(xi )) = yi ψ(xi ) ξ(ψ(xi ))로 한정하여 정의하기로한다. 그리고 ψ(xi ) = xti β 이고 ξ(ψ(xi )) = log(1 + eψ(xi ) ) 라고 정의한다. ψ( )의 벌점화 로그 가능도 추정치 ψλ ( )는 식 (2.2)의 최소값으로 얻을 수 있다. 여기에서 평활모수 λ 을 만족한다. 8
X l(yi, ψ(xi )) + i=1 즉, 음 로그 가능도 부분 l P λj(β) 2 (2.2) l(yi, ψ(xi ))과 smoothess 조절하는 벌 i=1 점항 J(β) 사이를 조절하는 λ를 적절히 선택해야 한다. 선형 회귀모형에서 사용했던 교차검증방법 또는 일반화교차검증방법과 유 사하게 로지스틱 벌점화 능형회귀 모형에서 사용할 교차검증오차는 다음과 같이 정의하였다[7]. CV (λ) 수식에서 사용한 ψλ 1X [ yi ψλ (xi ) + ξ(ψλ (xi ))] i=1 (2.3) (xi )는 i번째 관측 벡터를 제거하고 얻은 식 (2.2)의 최소값을 의미한다. 2.3. 일반화근사교차검증방법(GACV) 앞서 정의한 교차검증오차 CV (λ)를 근사하고 일반화시켜 벌점화 로지스 틱 능형회귀 모형에 사용할 일반화근사교차검증오차를 직접 유도한다. 하지만 유도과정에서 사용한 ψλ (xi )은 하나의 공변량을 갖는 모형에서 반복 상태 공간 알고리즘을 통해 CV (λ)를 구할 수 있으나[1], 일반적인 상황에서 사용되 기에는 계산에 많은 시간이 소요된다. 따라서 일반화근사교차검증오차(이하 GACV (λ) 오차)를 통해 위의 문제를 해결할 것이다. t µλ (xi ) = e xi β λ t 1+exi βλ 즉 µλ (xi ) = ξ (ψλ (xi ))라고 두고, 1차 테일러 급수를 이 용하여 CV (λ)를 전개하는 GACV (λ) 유도 과정은 다음과 같다. 9
식 (2.2)를 최소로하는 λ에 대하여 l? P l(yi, ψλ (xi )라 하자. 그러면 i=1 1X [ yi ψλ (xi ) + ξ(ψλ (xi ))] CV (λ) = i=1 = 1X [ yi ψλ (xi ) + ξ(ψλ (xi ))] + yi [ψλ (xi ) ψλ (xi )] i=1 1 1X = l? + yi [ψλ (xi ) ψλ (xi )] i=1 1 X ψλ (xi ) ψλ (xi ) 1 yi µλ (xi ) yi = l? + i=1 yi µλ (xi ) 1 µλ (xi ) µλ (xi ) yi µλ (xi ) 그리고 테일러 1차 근사를 통하여 아래의 식을 유추해 낼 수 있다. µλ (xi ) µλ (xi ) yi µλ (xi ) = ξ (ψλ (xi )) ξ (ψλ yi (xi )) µλ (xi ) ξ (ψλ (xi )) ψλ (xi ) ψλ yi (xi ) µλ (xi ) 위에서 얻은 근사의 결과를 이용하여 CV (λ)를 근사시키면, 1 1 X ψλ (xi ) ψλ (xi ) yi µλ (xi ) CV (λ) l? + yi i=1 yi µλ (xi ) 1 ξ (ψ (x )) ψλ (xi ) ψλ (xi ) λ = 1? 1 l + X i=1 yi yi µλ (xi ) yi µλ (xi ) ψλ (xi ) ψλ (xi ) i yi µλ (xi ) (2.4) ξ (ψλ (xi )) 를 얻게 되지만 식 (2.4)에서, yi µλ (xi ) ψλ (xi ) ψλ (xi ) 를 계산해야하는 문제가 생기기 때문에, 마찬가지로 이것 역시 근사하는 방법이 필요하다. 1
먼저 Leavig-out-oe lemma를 살펴보자. l(yi, ψ(xi )) = yi ψ(xi )+ξ(ψ(xi )) P 와 Qλ (β, y) l(yj, xtj β)+ λ J(β)라고 하자. 여기에서 J(β) β 22 이고 2 j=1 ωλ (i, z) argmi Qλ (β, z)라 정의하자. 그러면 β ωλ (i, µλ (xi )) = βλ 임을 보일 수 있다. 참고로 z [y1,, yi 1, z, yi+1,, y ]t = y yi ei + zei P 라 두었고, βλ argmi{ l(yj, xtj β)+ λ J(β)} 라 정의하며, µλ (xi ) = 2 β xt β e i λ xt β 1+e i λ j6=i 이다. 식 (2.4)를 근사하여 GACV를 유도하기 위해 간단하게 위의 정리를 증명 하자. 우선 y i = [y1,, yi 1, µλ (xi ), yi+1,, y ]t 라 정의하자. 그러면 l(µλ (xi ), xti β) = µλ (xi )xti β + ξ(xti β) 이고 이것을 β에 대하여 미분하면, l(µ (xi ), xti β) = µλ (xi )xi + ξ (xti β)xi β λ 2 l(µ (xi ), xti β) = ξ (xti β)xi xti β β t λ 2 (xi ), xti β) < 이다. 앞서 지수족에서 ξ( )은 순볼록함수이므로 β β t l(µλ 이고 로짓 연결함수는 일대일대응이므로 따라서, l(µ (xi ), xti β) = ξ (xti β) = µλ (xi ) β λ β = βλ 을 결과로 얻을 수 있다. 11
결론적으로 l(µλ (xi ), xti β) 를 최소화 하는 β는 βλ 이므로 임의의 β Rp 에 대하여, l(µλ (xi ), xti β) l(µλ (xi ), xti βλ ) 이므로 Qλ (β, y i ) = l(µλ (xi ), xti β) X l(yj, xtj β) + j6=i l(µλ (xi ), xti βλ l(µλ (xi ), xti βλ ) ) X j6=i X λ J(β) 2 λ J(β) 2 l(yj, xtj β) + l(yj, xtj βλ )+ j6=i 이다. 따라서 Leavig-out-oe lemma, ωλ (i, µλ (xi )) = βλ 된다. 그러면 (βλ, y)와 (βλ λ J(βλ ) 2, 를 증명하게, y ) 는 Qλ (β, z)의 국소 최소 인자이므로, Qλ (β, z) (βλ, y) = β Qλ (β, z) (βλ, y ) = β 이다. 따라서, 1차 테일러 급수 전개를 이용하여 (βλ, Y)에서 Qλ (β,z) (βλ, Y ) β 를 전개하면 다음의 식을 얻을 수 있다. Qλ (β, z) (βλ, y ) β Qλ (β, z) 2 Qλ (β, z)?? = (βλ, y) + (βλ, y )(βλ βλ ) β β β t 2 Qλ (β, z)?? + (βλ, y )(y y) β yt = 참고로 (βλ?, y? )은 (βλ, y)와 (βλ, y ) 사이에 존재한다. 12 (2.5)
그리고 Qλ (β, z) = β β ( = β ( l(z, xti β) X j6=i ) λ J(β) l(yj, xtj β) + 2 (y yi ei + zei )t Xβ + log(1 + e xti β i=1 = X t (y yi ei + zei ) + X i=1 X 2 Qλ (β, z) = β β t i=1 X t exi β xi xti tβ x 2 (1 + e i ) t exi β t xi 1 + exi β λ t ββ )+ 2 )! + λβ! + λip W + λip 를 각각 미분의 결과로 얻을 수 있다. 참고로 위의 수식에서 p(x1 )(1 p(x1 )) t W =X... p(x2 )(1 p(x2 ))...... p(x )(1 p(x )) X 라고 정의하였으며, 축약하여 W X t P X로 표현하였다. 그리고 2 Qλ (β, z) = X t β yt 역시 y와 β로 목적함수를 미분한 결과 X t 를 유도 할 수 있다. 여기에 각각 Xβλ = ψλ 와 Xβλ = ψλ 라고 두었으며, Wλ? = X t Pλ? X이고, Wλ = X t Pλ X 13
으로 표현하자. 따라서 1차 테일러 근사식 (2.5)은 식 (2.6)을 이용하여 정리할 수 있다. (Wλ? + λip )(βλ βλ ) = X t (Y Y) βλ ) = X(Wλ? + λip ) 1 X t (Y Y) X(βλ ψλ ψλ = X(Wλ? + λip ) 1 X t (Y Y ) ψλ (x1 ) ψλ (x1 )......? 1 t ψλ (xi ) ψλ (xi ) X(Wλ + λip ) X yi µλ (xi ) (2.6)...... ψλ (x ) ψλ (x ) 을 유도할 수 있게 된다. 즉, 마지막 과정에서 계산의 편의성을 위해 Wλ? 를 Wλ 로 근사시켰으며, S = X(Wλ + λip ) 1 X t 라고 두면 식 (2.6)에 의하여 ψλ (xi ) ψλ yi (xi ) µλ (xi ) [X(Wλ? + λip ) 1 X t ]ii [X(Wλ + λip ) 1 X t ]ii = sii (= [S]ii ) (2.7) 를 얻게 된다. 이미 한 번 근사시킨 CV (λ)의 식 (2.4) 결과를 식 (2.7)와 결합 하면, ACV (λ) 를 얻을 수 있다. ACV (λ) = 1? 1 X sii (yi µλ (xi )) l + yi i=1 1 sii ξ (ψλ (xi )) 14
sii 1 tr(s)로 근사하고, sii ξ (ψλ (xi )) 1 tr(p 1 2 1 SP 2 )로 근사시키면 마 지막으로 GACV (λ)를 얻을 수 있다. 1 tr(s) X yi (yi µλ (xi )) GACV (λ) = l? + i=1 tr(p 12 SP 12 ) (2.8) 본문에서 다루게 될 자료는 이진 반응변수를 포함하기 때문에, 따라서 Beroulli 경우를 생각하면 ξ(ψ(xi )) = log(1 + eψ(xi ) ), ξ (ψ(xi )) = p(xi )(1 p(xi )), µλ (xi ) = pλ (xi ) 이며 P 는 p(x1 )(1 p(x1 )) P =... p(x2 )(1 p(x2 ))...... p(x )(1 p(x )) 이다. 따라서 최종적으로 유도한 GACV (λ)는 식 (2.9)으로 유도할 수 있음을 밝힌다. 1X tr(s) X yi (yi pλ (xi )) GACV (λ) = (2.9) [ yi ψλ (xi )+ξ(ψλ (xi ))]+ i=1 i=1 tr(p 12 SP 21 ) 15
Chapter 3 Applicatio to data 3.1. 자료 설명 본 연구는 한국거래소(이하 KRX)에서 기업 심사 후 상장폐지(Delistig) 여부를 결정짓는데 사용하는 자료를 활용하여 분석하였다. 상장폐지는 매매 대상으로서의 적격성이 없는 유가증권에 대하여 상장자격을 박탈하는 것을 의미한다. 예를들어, 유가증권시장의 상장폐지 기준(유가증권시장 상장규정 제 48조)은 KRX의 상장폐지 안내(http://listig.krx.co.kr)에서 살펴볼 수 있 다. 상장폐지는 거래량, 매출액과 같은 정량적 요소와, 감사인 의견 수준(적정/ 부적정/한정), 상장적격성 실질심사 등과 같은 정성적 요소를 책정하여 종합 적으로 평가된다. 연구에 사용한 자료는 17년 KRX에 기 상장된 기업에 대한 정보를 내포하고 있으며, 시장 구분(유가, 코스닥 및 코넥스) 없이 전체 종목 을 대상으로 분석하였다. 분석에 활용한 기 상장 종목 수는 2,583개로 두었고, 16
상장폐지 여부를 결정할 특징의 개수는 8개로 두었다. 특정 종목에 대한 상장 폐지 여부는 투자자들에게 매우 중요한 정보이기 때문에 이와 관련한 내용은 일반적으로 공시된다. 따라서 본 연구에 사용한 기업 심사 자료는 공공성을 가지므로, 상장폐지 여부에 대한 논의가 본 논문에 가능함을 미리 밝힌다. 하 지만 상장폐지 여부를 결정하는 요인으로서의 변수는 규정에 제시된 것 외에 KRX에서 사용하는 내용을 함의할 수 있으므로 구체적인 변수명은 블라인드 처리하였다. 다만, 모든 변수는 표준화하여 분석에서 생길 수 있는 불필요한 문제를 배제하였다. 3.2. 평가지표 이진 반응변수를 분류하는 모형 또는 조율모수는 다양한 지표를 이용하여 비교될 수 있다. 첫째로, 가장 단순하게 사용할 수 있는 성능지표는 정밀도 (Precisio)와 재현율(Recall)이다. 모형이 제시한 분류값이 실제 라벨값(상장 폐지 여부)과 얼마나 일치하는지, 반대로 실제 라벨값이 모형에서 제시된 분류 값과 얼마나 일치하는와 측정하여 모형의 적절성을 평가한다. 두번째 방법은 정밀도와 재현율의 가중치를 설정하여 얻을 수 있는 Fβ -measure이다. Table 3.1: 이진 분류문제의 분류 경우 표 True \Predicted Positive Negative Positive True Positive(TP) False Negative(FN) Negative False Positive(FP) True Negative(TN) 17
Table 3.1에서 알수 있는 정밀도, 재현율에 대한 정의는 식 (3.1), 식 (3.2)이 고, Fβ measure에 대한 정의는 식 (3.3)이다. 본 자료의 Positive는 상장폐지 를 의미한다. TP FP+TP TP 재현율(Recall) = FN+TP (1 + β)2 Precisio Recall Fβ measure = β 2 Precisio + Recall 정밀도(Precisio) = (3.1) (3.2) (3.3) TN 처럼 정의할 수 있을 것이다. 식 (3.1)과 달리 정밀도(Precisio)를 TN+FN 하지만 자료가 불균형 구조를 나타낼 경우 일반적으로 자료 개수가 더 적은 부 분으로 정밀도와 재현율을 정의하고, 본 자료는 상장폐지의 경우가 매우 적은 불균형 구조이므로 식 (3.1)와 (3.2)를 이용하였다. 실제로 상장폐지에 해당하지만 실질검사에서 상장폐지가 아닌것으로 예 측했다고 가정하자. 이런 유가증권이 상장된 채 시장에서 거래된다면 일반 투자자들은 건실하지 못한 기업에 투자하게 될 것이고, 그 결과 막대한 경제 적 손실로 이어질 가능성이 있다. 즉, 실제 상장폐지 수준에 해당하는 기업을 상장폐지 레이블로 예측하는 것은 매우 중요하므로 False Negative가 작도록 모형을 유도해야할 것이다. 따라서 재현율의 값이 정밀도 보다 우선시 되도록 β 조정하여 F1.5 -measure를 사용하였다. 18
3.3. 실험 및 결과 3.3.1. 실험 방법 편중되지 않는 분석을 위해 전체 자료의 배열을 임의로 나열하였다. 또 한 임의로 전체 자료의 55%를 훈련 자료로 두고 나머지 45%를 검증 자료로 두었다. 즉, 훈련 자료에서 Leavig-out-oe 방법으로 교차검증방법과 일반화 근사교차검증방법이 최소가 되는 λ를 얻은 뒤, 이 값을 검증 자료에 이용하여 예측하였다. 교차검증방법을 이용하면 하나의 추정치만 얻게 되는 점을 감안 하여 반복적인 실험을 위해 Bootstrap을 1회 반복하였다. 따라서 전체 자료 를 55:45 비율로 분할하는 작업을 1회 반복하여 각 과정에서 λ값을 여러번 구하고, 마찬가지로 검증 자료에서 정밀도, 재현율 그리고 F1.5 값을 구하였다. 3.3.2. 실험 결과 실험을 1회 반복하여 교차검증법과 일반화근사교차검증법으로 얻은 모 형에서의 재현율, 정밀도, F1.5 점수를 비교해본다. 각 실험마다 얻은 평가 지표들의 산술평균을 통해 검증방법을 비교하였다. 최종적으로는, 분류 라벨 을 구분짓는 Threshold에 따라 재현율, 정밀도 그리고 F1.5 점수가 바뀌므로 Threshold를 변화시키며 모형을 비교하였다. Threshold는.5에서.98까지.2 간격으로 25개로 구분지어 계산하였으며 결과는 Figure 3.1으로 살펴볼 수 있다. Threshold가.5.6인 구간과.8 이후 구간에서 GACV방법과 CV방 법으로 얻은 F1.5 점수는 큰 차이를 보이지 않는다. 하지만.6에서.8 사이 구간에서 GACV방법으로 얻은 F1.5 점수는 CV방법으로 얻은 결과 값보다 근 19
1. Figure 3.1: CV, GACV F1.5 점수 비교.6.4..2 F2 Score.8 GACV CV.5.6.7.8.9 1. Threshold 소하게 앞서는 것을 확인할 수 있다. 특히, 두 가지 교차검증방법에서 가장 큰 값의 F1.5 값을 갖는 Threshold는 모두.68이었다. 그 중, GACV의 F1.5 점수 (1.363)는 CV로 얻은 F1.5 점수(1.321) 보다 큰 값을 나타내었다. 따라서 이진 분류를 하는 현재 모형에서 최적의 예측을 제시할 수 있는 Threshold를.68라 고 가정하였다. 이 경우 Bootstrap을 통해 반복 교차검증을 실시한 결과 얻은 정밀도, 재현율 그리고 F1.5 점수는 표 3.2에 나타내었다. Table 3.2: Threshold.68에서 CV, GACV의 정밀도, 재현율, F1.5 점수 비교 구분 Precisio Recall F1.5 measure CV.524.798 1.321 GACV.543.82 1.363 2
Chapter 4 결론 및 제언 실험의 결과 GACV를 이용한 경우, 제시한 평가 지표 F1.5 점수가 CV보다 근소하게 우수한 것을 알 수 있었다. 최적의 Threshold를 탐색하기 위해.2 간격으로 실험하였고, CV, GACV 모두.68의 값에서 이진 분류 예측 모형의 F1.5 점수가 가장 컸음을 확인할 수 있었다. 마지막으로 최적의 Threshold 근방 구간에서 GACV의 F1.5 값이 CV의 F1.5 값보다 큰 결과를 보였다. 하지만 β값을 1.5라는 임의의 값으로 두어 정밀도와 재현율 사이의 가중치 를 달리 주었는데, 이 값은 주관적인 값으로 개선의 여지가 있을 수 있다. 또한, 한 가지 평가 방법의 결과만 보고 GACV의 방법이 CV의 방법보다 우수하다 단언할 수 없다. 즉, 본 연구는 두 가지 교차검증법에 대한 우수성을 판단하기 위하여 Fβ measure라는 평가 지표를 이용했지만, 정확도, 오분류율 또는 AUC 등 다양한 평가 지표들에 대한 탐색이 본 연구 자료에 시도되지 않았다. 따라 서 다른 평가 지표를 이용하면 다른 결과가 나올 수 있을 가능성은 배제할 수 없다. 본 연구를 실행하며 아쉬웠던 부분은 자료 구조에 있었다. 동 자료는 구조 21
적으로 불균형성을 가지고 있었다. 구체적으로, 각 관측값들은 유가, 코스닥 또는 코넥스 시장에 상장되어 있는 종목이었다. 다시 말하면, 특정 유가 증권 이 상장되는지 또는 상장되지 못하는지를 분류하는 문제가 아니라 기본적으로 상장된 종목 중에서 상장폐지가 되는지에 대한 분석이었다. 따라서 y 레이블에 대한 편중된 정보가 내재되었을 것이다. 불균형성을 제거하기 위해 Borderlie sythetic miority over-samplig techique(smote)[3] 등의 방법으로 인공 자료를 생성하였으나, 미진한 부분이 있어 본문에 적용하지 못하였다. 22
Refereces [1] D Cox ad Y Chag. Iterated state space algorithms ad cross validatio for geeralized smoothig splies. Techical report, Techical Report 49, Departmet of Statistics, Uiversity of Illiois, Champio, 199. [2] Chog Gu. Cross-validatig o-gaussia data. Joural of Computatioal ad Graphical Statistics, 1(2):169 179, 1992. [3] Hui Ha, We-Yua Wag, ad Big-Hua Mao. Borderlie-smote: a ew over-samplig method i imbalaced data sets learig. I Iteratioal Coferece o Itelliget Computig, pages 878 887. Spriger, 25. [4] Saskia Le Cessie ad Johaes C Va Houwelige. Ridge estimators i logistic regressio. Applied statistics, pages 191 21, 1992. [5] Fibarr O sulliva, Bria S Yadell, ad William J Rayor Jr. Automatic smoothig of regressio fuctios i geeralized liear models. Joural of the America Statistical Associatio, 81(393):96 13, 1986. [6] Dog Xiag ad Grace Wahba. A geeralized approximate cross validatio for smoothig splies with o-gaussia data. Statistica Siica, pages 675 692, 1996. 23
Abstract Charm Lee Hwag The Departmet of Statistics The Graduate School Seoul Natioal Uiversity I geeral, cross validatio(cv) was applied to various statistical methodologies ad used as a tool to adjust the appropriateess of the model. I additio, the geeralized cross validatio(gcv) was used as a tool to reduce computatio efficietly i Gaussia pealized liear model with squared loss error. That is, if there is a pealty i the liear model, it is possible to appropriately select a model with high predictive power through a approximatio process ad a cross validatio method. By extedig this logic, we will examie a geeralized approximate cross validatio method(gacv) that geeralizes the cross validatio method i a pealized logistic model with biary respose variables. GACV error plays a role i estimatig the smoothig parameter of the regressio model of the log likelihood with o-gaussia data. The GACV ca be obtaied by approximatig the objective fuctio first by Taylor expasio ad oce agai usig the arithmetic mea of the smoother matrix diagoal elemets as i GCV. I this paper, we show that the performace of smoothig parameters obtaied by GACV usig data aalysis is ot sigificatly differet from the existig cross validatio method. Keywords :Smoothig parameter, Pealized logistic regressio, Cross validatio, Geeralized approximatio cross validatio. Studet Number : 216-228 24