통계적학습 (statistical learning) 박창이 서울시립대학교통계학과 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 1 / 33
학습내용 통계적학습목적 : 예측과추론방법 : 모수적방법과비모수적방법정확도와해석력지도학습과자율학습회귀와분류모형의정확도에대한평가적합도편의-분산의관계분류문제 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 2 / 33
통계적학습 I Advertising 데이터 sales: 200개의마켓에서상품의판매량, TV, radi, newspaper: 매체별상품의광고예산광고와판매간에연관성이있는경우광고예산을조정하여간접적으로판매를증가시키고자함세매체의예산에기반하여판매량을예측하는모형을개발해야함출력변수 (utput variable) Y : sales, 입력변수 (input variable): TV(X 1 ), radi(x 2 ), newspaper(x 3 ) 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 3 / 33
통계적학습 II Sales 5 10 15 20 25 Sales 5 10 15 20 25 Sales 5 10 15 20 25 0 50 100 200 300 TV 0 10 20 30 40 50 Radi 0 20 40 60 80 100 Newspaper 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 4 / 33
통계적학습 III 출력변수는흔히반응변수 (respnse variable) 또는종속변수 (dependent variable) 이라불리기도하며, 입력변수는예측변수 (predictr), 독립변수 (independent variable), 특성값 (feature), 또는변수로불림일반적으로정량반응변수 Y 와 X = (X 1,..., X p ) 간에관계 Y = f (X ) + ɛ를가정. 여기서 f : X 1,..., X p 의미지의함수, ɛ: 평균이 0인랜덤한오차항관측된데이터를이용하여 f 를추정해야하며, 통계적학습은 f 를추정하는일련의방법을말함 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 5 / 33
통계적학습 IV Incme 데이터 Incme 20 30 40 50 60 70 80 Incme 20 30 40 50 60 70 80 10 12 14 16 18 20 22 Years f Educatin 10 12 14 16 18 20 22 Years f Educatin 파란선 : 참값 ( 모의실험 ), 검은선 : 관측오차 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 6 / 33
Incme 통계적학습 V Years f Educatin Senirity 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 7 / 33
f 를추정하는목적 I 1. 예측 (predictin): Ŷ = ˆf (X ) 로예측예측오차 E(Y Ŷ )2 = E(f (X ) + ɛ ˆf (X )) 2 = [f (X ) ˆf (X )] 2 + Var(ɛ) [f (X ) ˆf (X )] 2 : 줄일수있는오차 (reducible errr) 로학습방법에따라줄일수있음 Var(ɛ): 줄일수없는오차 (irreducible errr). ɛ은관측되지않는변수나변동을포함할수있음 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 8 / 33
f 를추정하는목적 II 2. 추론 (inference): X 와 Y 간의관계를이해하는것이목적인경우출력변수와연관성이있는입력변수들은무엇인가? 출력변수와각입력변수간의관계는? 출력과입력변수들간의관계는선형인가혹은더복잡한가? 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 9 / 33
f 를추정하는방법 I x ij, i = 1,..., n, j = 1,..., p: j번째입력변수의 i번째관측값 y i : i번째출력변수의값 {(x i, y i )} n i=1 : 훈련데이터 (training data), x i = (x i1,..., x ip ) T 훈련데이터에학습법을적용하여미지의함수 f 를추정하고자함 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 10 / 33
f 를추정하는방법 II 1. 모수적방법 (parametric methds) 단계 1 f 에대한가정 ( 예 ) 선형모형 f (X ) = β 0 + β 1X 1 + + β px p 2 모형적합 ( 혹은훈련 ) ( 예 ) 선형모형에서 Y β 0 + β 1X 1 + + β px p 이되도록훈련데이터를이용하여미지의모수 β 0, β 1,..., β p 추정함수 f 의추정문제를모수의추정문제로단순화함 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 11 / 33
Incme f 를추정하는방법 III Incme 데이터 incme β 0 + β 1 educatin + β 2 senirity Years f Educatin Senirity 실제로는비선형관계가있음 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 12 / 33
Incme Incme f 를추정하는방법 IV 2. 비모수적방법 (nnparametric methds) f 에대하여특정한형태를가정하기않기때문에다양한 f 를적합할수있음. 반면 f 에대한정확한추정치를얻기위해서모수적인방법보다더많은데이터가필요함 Incme 데이터 Years f Educatin Senirity Years f Educatin Senirity thin-plate spline fits: smth vs rugh(verfit) 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 13 / 33
정확도와해석력 I 추론이목적인경우 Y 와 X 1,..., X p 간의관계를이해하기쉬운 ( 혹은해석력이좋은 ) 선형모형과같이제한적인방법이더나음 spline과같이유연한 (flexible) 방법은추정할수있는 f 의형태가다양한반면 Y 와 X 1,..., X p 의관계가매우복잡하여이해하기어려움 ( 해석력이떨어짐 ) 예측이목적인경우유연한방법을적용하는것이좋음. 그러나덜유연한방법이더정확한경우가종종있으며이는모형의복잡도와과대적합 (verfitting) 과관련이있음 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 14 / 33
정확도와해석력 II 유연도와해석력에따른학습법의비교 Interpretability Lw High Subset Selectin Lass Least Squares Generalized Additive Mdels Trees Bagging, Bsting Supprt Vectr Machines Lw High Flexibility 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 15 / 33
지도학습과자율학습 지도학습 (supervised learning) 예측혹은해석의목적으로출력변수와입력변수간의모형을적합선형회귀, 로지스틱회귀, GAM, bsting, supprt vectr machines 등자율학습 (unsupervised learning) 출력변수는없고입력변수만존재군집분석등예 : market segmentatin에서고객의우편번호, 가구수입, 쇼핑습관등을이용하여고객을몇개의집단으로분할 n개의데이터중 m < n개는입력변수와출력변수가모두관측되고 n m개는입력변수만관측된경우준지도학습 (semi-supervised learning) 이라고함 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 16 / 33
회귀와분류 변수정량변수 (quantitative variable): 키, 몸무게, 수입, 집값, 주가등수치값을갖는변수정성변수 (qualitative variable): 성별, 제품브랜드, 파산여부, 암진단등범주를갖는변수출력변수가범주형인경우분류 (classificatin), 정량변수인경우회귀 (regressin) 문제로지스틱회귀의경우분류로도혹은회귀로도볼수있음 K-nearest neighbr, bsting, tree 등은회귀와분류에적용가능 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 17 / 33
모형의평가 : 적합도 I 회귀분석에서는예측값이관측값과잘맞는지측정하는척도로 MSE(mean squared errr) 를흔히사용 MSE = 1 n n (y i ˆf (x i )) 2 i=1 이는훈련데이터에대한훈련 MSE이며실제로는새로운시험데이터에대한정확도인시험 MSE에관심이있음시험 MSE = Ave(ˆf (x 0 ) y 0 ) 2 여기서 (x 0, y 0 ): 훈련에사용되지않은새로운시험데이터 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 18 / 33
모형의평가 : 적합도 II 훈련 MSE가작은모형이반드시작은시험 MSE를주지는않음모형의유연성 ( 복잡도 ) 이커질수록훈련 MSE는단조감소하는반면시험 MSE는 U자형임훈련 MSE는작은데시험 MSE가큰경우는 verfitting으로너무복잡한모형을사용한경우이며, 훈련과시험 MSE 모두큰경우는 underfitting으로너무단순한모형을사용한경우임보통시험 MSE를구할수없기때문에추정값으로 CV(crss-validatin) 을많이사용함 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 19 / 33
모형의평가 : 적합도 III 모의실험 1: 비선형인 f Y 2 4 6 8 10 12 Mean Squared Errr 0.0 0.5 1.0 1.5 2.0 2.5 0 20 40 60 80 100 X 2 5 10 20 Flexibility 오렌지 : 선형회귀, 파란색과녹색 : smthing splines 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 20 / 33
모형의평가 : 적합도 IV 모의실험 2: 선형에가까운 f Y 2 4 6 8 10 12 Mean Squared Errr 0.0 0.5 1.0 1.5 2.0 2.5 0 20 40 60 80 100 X 2 5 10 20 Flexibility 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 21 / 33
모형의평가 : 적합도 V 모의실험 3: 비선형성이강한 f Y 10 0 10 20 Mean Squared Errr 0 5 10 15 20 0 20 40 60 80 100 X 2 5 10 20 Flexibility 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 22 / 33
모형의평가 : 편의 - 분산의관계 I 시험 MSE 의기대값 E(y 0 ˆf (x 0 )) 2 = Var(ˆf (x 0 )) + [Bias(ˆf (x 0 ))] 2 + Var(ɛ) Var(ˆf )(x 0 ): 서로다른훈련데이터를이용하여추정할때 ˆf 의변화량을의미 Bias(ˆf (x 0 )): 모형 f 에의해현실을근사하여생기는오차 ( 예 ) 선형회귀에서 f 는선형이라가정하고추정 Var(ɛ): 줄일수없는오차 (irreducible errr) 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 23 / 33
모형의평가 : 편의 - 분산의관계 II 시험오차의기대값을줄이기위해서는분산과편의가작은학습법을선택해야함모형이유연할수록분산은커지고편의는작아지는경향이있고, 반대로모형이제한적일수록분산은작아지고편의는커지는경향이있음분산과편의간에는이러한상충으로인하여이둘이적절히균형을이루는학습방법을선택하게됨 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 24 / 33
모형의평가 : 편의 - 분산의관계 III 세가지모의실험에서편의와분산 0.0 0.5 1.0 1.5 2.0 2.5 0.0 0.5 1.0 1.5 2.0 2.5 0 5 10 15 20 MSE Bias Var 2 5 10 20 Flexibility 2 5 10 20 Flexibility 2 5 10 20 Flexibility 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 25 / 33
모형의평가 : 분류문제 I 분류의경우 y 1,..., y n 은질적변수임훈련오분류율 (training errr rate): 1 n n i=1 I (y i ŷ i ) 여기서 ŷ i 는 ˆf 에의한 i번째관측값의예측값시험오분류율 (test errr rate): Ave(I (y 0 ŷ 0 )) 여기서 ŷ 0 는 x 0 에서분류기에의한예측값시험오분류율이작은분류기가좋음 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 26 / 33
모형의평가 : 분류문제 II 베이즈분류기는시험오분류율을최소로하는분류기로 x 0 에대한 예측값으로 arg max j P(Y = j X = x 0 ) 임 베이즈분류기는베이즈오분류율 (Bayes errr rate) 이라불리는최소의시험오분류율을갖음 X = x 0 에서의오분류율은 1 max j P(Y = j X = x 0 ) 이므로베이즈 오분류율은 1 E(max j P(Y = j X )) 임 베이즈오분류율은줄일수없는오차와유사 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 27 / 33
모형의평가 : 분류문제 III 모의실험 X1 X2 점선 : 베이즈분류경계 (Bayes decisin bundary) 베이즈오분류율 : 0.1304 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 28 / 33
모형의평가 : 분류문제 IV 일반적으로 X 가주어졌을때 Y 의조건부분포는알려져있지않기 때문에베이즈분류기를구하는것은불가능. 대신조건부확률을 추정한후추정된확률을최대로하는클래스로분류할수있음 K- 근방 (K-nearest neighbr; KNN) 분류기 x 0 와가장가까운 K개의점들로이루어진 K-근방 N 0 를찾아 ˆP(Y = j X = x 0 ) = 1 K i N 0 I (y i = j) 로추정 K가증가하면덜유연해지며분류경계가선형에가까움 ( 저분산 고편의 ) K = 1 이면훈련오분류율은 0 이지만시험오분류율은클수 있음 ( 고분산저편의 ) 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 29 / 33
모형의평가 : 분류문제 V 3-NN 예제 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 30 / 33
모형의평가 : 분류문제 VI KNN 분류경계의비교 : K = 1 vs K = 100 KNN: K=1 KNN: K=100 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 31 / 33
모형의평가 : 분류문제 VII 최적 K = 10 에서의분류경계 X1 X2 KNN: K=10 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 32 / 33
모형의평가 : 분류문제 VIII KNN 훈련과시험오분류율비교 Errr Rate 0.00 0.05 0.10 0.15 0.20 Training Errrs Test Errrs 0.01 0.02 0.05 0.10 0.20 0.50 1.00 1/K 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 33 / 33