표본재추출 (resampling) 방법 박창이 서울시립대학교통계학과 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 1 / 18
학습내용 개요 CV(crss-validatin) 검증오차 LOOCV(leave-ne-ut crss-validatin) k-fld CV 편의-분산의관계분류문제에서의 CV Btstrap 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 2 / 18
개요 표본재추출훈련데이터에서반복적으로표본을추출하여모형을적합하는방법으로변동성을모르는통계량의변동성에대한정보를제공예 : 선형회귀의추정에대한변동성을추정계산량이많음통계적학습에서많이사용되는표본재추출방법 CV(crss-validatin): 학습방법의성능을평가 ( 모형평가 ; mdel assessment) 하기위해시험오차를직접추정하거나모형의복잡도를선택 ( 모형선택 ; mdel selectin) 하기위해사용 btstrap: 주어진학습법에서모수추정치의정확도에대한측도제공 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 3 / 18
CV 시험오차는새로운데이터에서의예측에대한오차의기대값임훈련오차는시험오차를과소추정하는경향이있음현실적으로시험오차는알수없기때문에추정해야함이를위해훈련데이터의일부를모형적합에서제외 (hld ut) 한후제외된관측치에서시험오차를추정할수있음편의상양적반응변수를갖는회귀문제에대하여논의 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 4 / 18
검증오차법 I 데이터를훈련데이터와검증데이터로나누어훈련데이터를이용하여모형을적합하고검증데이터에서적합된모형을이용하여예측함검증데이터에서의오차인검증오차 (validatin errr) 를시험오차에대한추정치로사용 Aut 데이터 mpg를 hrsepwer에대하여다항회귀 392개의데이터를 196개의훈련데이터와 196개의검증데이터로랜덤하게분할하고검증데이터에대한 MSE를구함 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 5 / 18
검증오차법 II Mean Squared Errr 16 18 20 22 24 26 28 Mean Squared Errr 16 18 20 22 24 26 28 2 4 6 8 10 Degree f Plynmial 2 4 6 8 10 Degree f Plynmial 왼쪽 : hrsepwer의차수와검증오차, 오른쪽 : 10번의반복 2차이후는크게변화없음검증데이터분할에따른변동성이큼. 데이터를분할로인한데이터감소가발생하여검증오차는시험오차를과대추정하는경향이있음 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 6 / 18
LOOCV i(= 1,..., n) 번째데이터 (x i, y i ) 를제외한나머지 n 1 개의 데이터를훈련데이터로삼아모형을적합한후, i 번째데이터를검증 데이터로예측값 ŷ i 를구하고검증오차 MSE i = (y i ŷ i ) 2 을계산 LOOCV 추정값 : CV (n) = 1 n n i=1 MSE i 검증오차법에대한장점 n 1 개의관측값은거의전체데이터이므로거의편의가없음 상대적으로시험오차를덜과대추정함 랜덤하게데이터를분할하지않음 n 이크면적합할모형이많아져서비용이커짐. 그러나특별한몇 가지경우에는모형을한번만적합해도계산이가능함예 : 선형회귀에서 CV (n) = 1 ( ) 2 n yi ŷ i n i=1 1 h i 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 7 / 18
k-fld CV I 데이터를랜덤하게대략크기가동일한 k개의묶음 (fld) 로나누고 i(= 1,..., k) 번째묶음을제외한 k 1개의묶음을훈련데이터로 i 번째묶음을검증데이터로활용하여구한검증오차를 MSE i 라하면, k-fld CV는 CV (k) = 1 k k MSE i LOOCV는 k = n인 k-fld CV의특별한경우임. k는흔히 5나 10이많이사용됨 LOOCV에비해계산량이훨씬작으며 k에대한편의-분산관계로인하여더나을수도있음 i=1 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 8 / 18
k-fld CV II Aut 데이터 LOOCV 10 fld CV Mean Squared Errr 16 18 20 22 24 26 28 Mean Squared Errr 16 18 20 22 24 26 28 2 4 6 8 10 Degree f Plynmial 2 4 6 8 10 Degree f Plynmial 왼쪽 : hrsepwer 의차수와 LOOCV, 오른쪽 : 10-fld CV 9 번반복 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 9 / 18
k-fld CV III 모의실험데이터에서의비교 Mean Squared Errr 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Mean Squared Errr 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Mean Squared Errr 0 5 10 15 20 2 5 10 20 Flexibility 2 5 10 20 Flexibility 2 5 10 20 Flexibility 파란색 : 시험오차참값, 검은색 : LOOCV, 오렌지색 : 10-fld CV, 십자가 : 최적값 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 10 / 18
k-fld CV IV 왼쪽 ( 비선형 ): 일반적인형태는맞지만과소추정가운데 ( 선형 ): 복잡도가낮을부분에서는유사하며높은부분에서는과대추정오른쪽 ( 강한비선형 ): CV와참값이매우유사함모형선택에있어서는실제추정값자체보다는최소값의위치가중요함 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 11 / 18
k-fld CV 의편의와분산 편의의감소측면에서는 LOOCV가나음 LOOCV: 훈련데이터가 n 1로근사적으로편의가없음 k = 5, 10: 훈련데이터가 (k 1)n/k로중간의편의를갖음분산측면에서는 k-fld CV가나음 LOOCV: 훈련데이터간에 n 2개의데이터가중복되어추정모형간의양의상관이강함 k-fld CV: 훈련데이터간의중복이더작기때문에추정모형간의상관이덜함 k값의선택에편의와분산의상충이있음. 경험적으로 k = 5, 10이시험오차에대한더나은추정치제공 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 12 / 18
분류문제 I 회귀에서는 MSE를사용하는반면분류에서는오분류율을사용 LOOCV 오분류율 : CV (n) = 1 n n i=1 Err i, Err i = I (y i ŷ i ) k-fld CV 오분류율도마찬가지로정의모형의복잡도가증가하면훈련오차는감소하는경향이있음 10-fld CV는시험오분류율에대한좋은추정값이지만다소과소추정함 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 13 / 18
분류문제 II 2-차원 분류데이터에서 로지스틱 회귀 Degree=1 Degree=2 Degree=3 Degree=4 보라색: 베이즈 분류경계(0.133), 검은색: 로지스틱 회귀(1차: 0.201, 2차: 0.197, 3차: 0.160, 4차: 0.162) 박창이 (서울시립대학교 통계학과) 표본재추출(resampling) 방법 14 / 18
분류문제 III 2- 차원분류데이터에서로지스틱회귀와 KNN 분류기 Errr Rate 0.12 0.14 0.16 0.18 0.20 Errr Rate 0.12 0.14 0.16 0.18 0.20 2 4 6 8 10 Order f Plynmials Used 0.01 0.02 0.05 0.10 0.20 0.50 1.00 1/K 갈색 : 시험오차, 파란색 : 훈련오차, 검은색 : 10-fld CV 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 15 / 18
Btstrap I 선형회귀에서계수의표준오차를추정하는경우처럼주어진 추정값이나학습법의불확실성을추정하는데사용됨 예 자산 X 에 α 와자산 Y 에 1 α 의비율로투자할때전체위험 ( 혹은 분산 ) Var(αX + (1 α)y ) 를최소화하는 α = σ 2 X (= 1), σ2 Y (= 1.25), σ XY (= 0.5) 는미지이므로 ˆα = 추정 σ2 Y σ XY σ 2 X +σ2 Y 2σ XY ˆσ2 Y ˆσ XY ˆσ X 2 +ˆσ2 Y 2ˆσ 로 XY 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 16 / 18
Btstrap II 0 50 100 150 200 0 50 100 150 200 α 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.4 0.5 0.6 0.7 0.8 0.9 α 0.3 0.4 0.5 0.6 0.7 0.8 0.9 α True Btstrap 왼쪽 : 1000개의모의실험데이터에서얻은 ˆα, 가운데 : 한데이터에서 1000개의 bstrap 표본에서얻은 ˆα, 핑크색 : α 참값실제데이터에서는새로운표본을반복적으로뽑을수없음. 반면 btstrap은주어진원데이터에서표본을반복적으로뽑음 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 17 / 18
Btstrap III 표준오차에대한 btstrap 추정 크기 n 인원데이터 Z 에서의 α 의추정치 ˆα Z b, b = 1,..., B: Z 에서랜덤하게크기 n 인표본을복원추출한데이터 α b : Z b 에서 구한 ˆα 값 SE B (ˆα) = 1 B 1 B r=1 ( ˆα r 1 ) 2 B B r =1 ˆα r 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 18 / 18