비선형으로의확장 박창이 서울시립대학교통계학과 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 1 / 30
개요 선형모형은해석과추론에장점이있는반면예측력은제한됨능형회귀, lasso, PCR 등의방법은선형모형을이용하는방법으로모형의복잡도를감소시켜추정치의분산을줄이는효과가있음해석력을유지하면서비선형으로확장다항회귀 (polynomial regression): ( 예 ) 3차회귀 X, X 2, X 3 을입력변수로선형회귀계단함수 (step function): piecewise constant 함수를적합회귀스플라인 (regression spline): piecewise polynomial로 knot이라불리는경계점에서부드럽게 (smoothly) 연결평활스플라인 (smoothing spline): 함수의부드러운정도에대한벌점하에서잔차제곱합을최소화함국소회귀 (local regression), GAM(generalized additive models) 등 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 2 / 30
다항회귀 I 다항회귀모형 : y i = β 0 + β 1 x i + + β d x d i Wage 데이터 + ɛ i Degree 4 Polynomial Wage 50 100 150 200 250 300 Pr(Wage>250 Age) 0.00 0.05 0.10 0.15 0.20 20 30 40 50 60 70 80 Age 20 30 40 50 60 70 80 Age 왼쪽 : 4 차다항회귀와 95% 신뢰구간, 오른쪽 : wage > 250 에대한 4 차로지스틱회귀와 95% 신뢰구간 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 3 / 30
다항회귀 II Ĉ를계수추정값의공분산행렬, l 0 = (1, x 0,..., x0 4)T 라하면 Var[ˆf (x 0 )] = l T 0 Ĉ1 0로구할수있음. 95% 신뢰구간은표준오차에 2 배로구함로지스틱회귀의경우 n = 3000으로크지만 25만불이상버는사람은 79명밖에없기때문에신뢰구간이넓음 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 4 / 30
계단함수 I 다항회귀의경우 X 의비선형함수에대한 global structure 를가정 대신 X 의범위를 bin 이라고불리는구간들로나누고각 bin 에서상수값으로적합함. 이는연속형변수를범주형으로변환하는과정으로도볼수있음 절단값 c 1,..., c K 가주어지면 K + 1 개의새로운변수 C 0 (X ) = I (X < c 1 ),..., C K (X ) = I (c K X ) 를생성 C 0 (X ),..., C K (X ) 를입력변수로하여회귀 ( 혹은로지스틱 ) 모형을 적합 β 0 : X < c 1 인 Y 의평균, β 0 + β j : c j X < c j+1 에대한반응값 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 5 / 30
계단함수 II Wage 데이터 Piecewise Constant Wage 50 100 150 200 250 300 Pr(Wage>250 Age) 0.00 0.05 0.10 0.15 0.20 20 30 40 50 60 70 80 Age 20 30 40 50 60 70 80 Age 왼쪽 : 계단함수를이용한회귀, 오른쪽 : wage > 250 에대한 계단함수를이용한로지스틱회귀 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 6 / 30
기저함수 기저함수 b 1 (X ),..., b K (X ) 가주어지면 y i = β 0 + β 1 b 1 (x i ) + + β K b K (x i ) + ɛ i 를적합 다항회귀 : b j (x i ) = x j i, 계단함수 : b j(x i ) = I (c j x i < c j+1 ), wavelet, Fourier, spline 등 계수추정에최소제곱법을이용하며선형회귀의추정치의표준오차, F- 통계량등추론도구를사용할수있음 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 7 / 30
회귀스플라인 I 매듭점이 c인 piecewise cubic polynomial { β01 + β 11 x i + β 21 xi 2 + β 31 xi 3 + ɛ i, x i < c y i = β 02 + β 12 x i + β 22 x 2 i + β 32 x 3 i + ɛ i, x i c 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 8 / 30
회귀스플라인 II Wage 데이터 Piecewise Cubic Continuous Piecewise Cubic Wage 50 100 150 200 250 Wage 50 100 150 200 250 20 30 40 50 60 70 Age 20 30 40 50 60 70 Age Cubic Spline Linear Spline Wage 50 100 150 200 250 Wage 50 100 150 200 250 20 30 40 50 60 70 Age 20 30 40 50 60 70 Age 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 9 / 30
회귀스플라인 III 위 : piecewise cubic polynomial에서 age=50에서연속성제약아래 : 3차 (2차도함수연속 ) 와 1차 ( 연속 ) 스플라인 picewise cubic polynomial의경우계수가 8개로자유도 8임 cubic spline은 2차까지의연속성조건이있으므로자유도 5임 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 10 / 30
회귀스플라인 IV d- 차스플라인은 piecewise degree-d polynomial 로각매듭점에서 d-1 차까지의도함수가연속임 일반적으로매듭점이 K 개인 3 차스플라인은자유도가 K + 4 임 y i = β 0 + β 1 b 1 (x i ) + + β K+3 b K+3 (x i ) + ɛ i 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 11 / 30
회귀스플라인 V truncated power basis: h(x, ξ) = (x ξ) 3 + = (x ξ) 3 I (x > ξ) 매듭점이 ξ 1,..., ξ K 인 3차스플라인은 X, X 2, X 3, h(x, ξ 1 ),..., h(x, ξ K ) 를입력변수로하는최소제곱회귀와동일함스플라인은양끝경계부분에서분산이큰문제가있음. ξ 1 아래와 ξ K 위의경계영역에서는선형함수가되도록하는자연스플라인 (natural spline) 은분산을줄여줌 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 12 / 30
회귀스플라인 VI Wage 데이터에서자연 3 차스플라인과 3 차스플라인 Wage 50 100 150 200 250 Natural Cubic Spline Cubic Spline 20 30 40 50 60 70 Age 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 13 / 30
회귀스플라인 VII 변화가작은 ( 많은 ) 영역에서는매듭점을적게 ( 많게 ) 두는것이바람직. 그러나실제로는자유도가주어지면등확률의분위수를매듭점으로잡음 Wage 데이터에서자연 3차스플라인회귀와로지스틱회귀 Natural Cubic Spline Wage 50 100 150 200 250 300 Pr(Wage>250 Age) 0.00 0.05 0.10 0.15 0.20 20 30 40 50 60 70 80 Age 20 30 40 50 60 70 80 Age 자유도 4 내부매듭점 3 Age 의 25, 50, 75 분위수가매듭점 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 14 / 30
회귀스플라인 VIII 자유도는여러가지 K 에대하여 CV 를통해결정 Wage 데이터에대한 10-fold CV MSE Mean Squared Error 1600 1620 1640 1660 1680 Mean Squared Error 1600 1620 1640 1660 1680 2 4 6 8 10 Degrees of Freedom of Natural Spline 2 4 6 8 10 Degrees of Freedom of Cubic Spline 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 15 / 30
회귀스플라인 IX Wage 데이터 Wage 50 100 150 200 250 300 Natural Cubic Spline Polynomial 20 30 40 50 60 70 80 Age 자유도 15 인 natural cubic spline 과 15 차다항회귀 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 16 / 30
평활스플라인 I 함수 g 에제약조건을두지않고 RSS = n i=1 (y i g(x i )) 2 을최소화하면 RSS = 0 인내삽 (interpolation) 함수를얻으며과대적합이 발생함. 따라서 g 는매끄러운함수가되도록해야함 평활스플라인 arg min g n (y i g(x i )) 2 + λ i=1 [g (t)] 2 dt n i=1 (y i g(x i )) 2 은함수 g 의데이터에대한적합도를나타내는 손실함수 λ [g (t)] 2 dt 는함수 g 의복잡도를나타내는벌점함수 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 17 / 30
평활스플라인 II λ 0는편의-분산을조절하는조율모수로 λ = 0인경우 interpolation, λ 인경우선형회귀해는 x 1,..., x n 에서매듭점을갖는축소된 3차자연스플라인모든데이터를매듭점으로사용하여명목상의자유도는 n. λ를통해실질적인자유도 df λ (n에서 2사이 ) 를조절함. df λ 가클수록복잡한모형 ĝ: λ에서평활스플라인의해, ĝ λ = S λ y: 적합값 df λ = trace(s λ ) = n {S λ } ii i=1 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 18 / 30
평활스플라인 III 흔히 CV 를이용하여 λ 결정하며선형회귀와마찬가지로한번만 적합하여 LCV 계산가능 RSS cv (λ) = n i=1 (y i ĝ ( i) λ (x i )) 2 = n [ yi ĝ λ (x i ) i=1 1 {S λ } ii ] 2 ĝ ( i) λ (x i ): i번째관측값을제외한데이터에적합한후 x i 에서의적합값 ĝ λ (x i ): 모든데이터에대하여적합한후 x i 에서의적합값 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 19 / 30
평활스플라인 IV Wage 데이터 Smoothing Spline Wage 0 50 100 200 300 16 Degrees of Freedom 6.8 Degrees of Freedom (LCV) 20 30 40 50 60 70 80 Age df λ = 16 과 LCV 에의해선택된 6.8 인경우거의비슷하므로 자유도가 6.8 인단순한모형이좋음 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 20 / 30
국소회귀 I span 이 s(= k/n) 일때 x 0 에서의추정값 ˆf (x 0 ) 은 x 0 에서가까운 k 개의 관측값에대하여거리에반비례하는가중치를이용하여가중회귀로 구함 알고리즘 1. x 0 와가까운 s 비율의가까운훈련데이터점 x i 들을구함 2. 1 에서구한근방의데이터에거리에반비례하는가중치 K i0 = K(x i, x 0 ) 를부여. 근방을벗어나는데이터는가중치 0 을줌 3. 가중최소제곱추정 : n i=1 K i0(y i β 0 β 1 x i ) 2 을최소화 4. ˆf (x0 ) = ˆβ 0 + ˆβ 1 x 0 를계산 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 21 / 30
국소회귀 II KNN처럼예측을하기위해서는훈련데이터전체를필요로하는메모리기반의방법 s는비선형모형의복잡도를조절함. s가작으면복잡한비선형추정값을주며 s가커지면최소제곱추정값에가까워짐. 보통 CV로선택함 p가 1 또는 2인경우사용. p 3은차원의저주로인하여잘사용하지않음 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 22 / 30
국소회귀 III 참회귀함수가 f (x) 인경우의모의실험 0.0 0.2 0.4 0.6 0.8 1.0 1.0 0.5 0.0 0.5 1.0 1.5 0.0 0.2 0.4 0.6 0.8 1.0 1.0 0.5 0.0 0.5 1.0 1.5 Local Regression 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 23 / 30
국소회귀 IV Wage 데이터 Local Linear Regression Wage 0 50 100 200 300 Span is 0.2 (16.4 Degrees of Freedom) Span is 0.7 (5.3 Degrees of Freedom) 20 30 40 50 60 70 80 Age s = 0.7 이더매끄러움 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 24 / 30
GAM: 회귀 I y i = β 0 + p j=1 f j(x ij ) + ɛ i, f j (x ij ): 비선형함수 GAM 에서는다항회귀, 계단함수, 스플라인, 국소회귀등을기반으로 가법모형을적합할수있음 장단점 각 X j 에비선형 f j 를적합하여자동적으로비선형관계를모형화 비선형적합으로인해더정확한예측이가능 가법모형이므로다른변수를고정했을때각 X j 의 Y 에대한관계를알 수있음 f j 의복잡도는자유도를통해요약 가법모형으로제한되어교호작용을놓칠수있음 f jk (X j, X k ) 형태의 교호작용을추가하여분석할수있음 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 25 / 30
GAM: 회귀 II Wage 데이터 wage = β 0 + f 1 (year) + f 2 (age) + f 3 (education) + ɛ f 1, f 2 : 자연회귀스플라인 ( 자유도 4 와 5), f 3 : 더미변수 <HS HS <Coll Coll >Coll f1(year) 30 20 10 0 10 20 30 f2(age) 50 40 30 20 10 0 10 20 f3(education) 30 20 10 0 10 20 30 40 2003 2005 2007 2009 year 20 30 40 50 60 70 80 age education 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 26 / 30
GAM: 회귀 III f 1, f 2 : 평활스플라인 ( 자유도 4 와 5), f 3 : 더미변수 <HS HS <Coll Coll >Coll f1(year) 30 20 10 0 10 20 30 f2(age) 50 40 30 20 10 0 10 20 f3(education) 30 20 10 0 10 20 30 40 2003 2005 2007 2009 year 20 30 40 50 60 70 80 age education 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 27 / 30
GAM: 분류 I 로지스틱회귀 GAM Wage 데이터 ( p(x ) ) log = β 0 + 1 p(x ) p f j (X j ) j=1 p(x ) = P(wage > 250year, age, education) ) log = β 0 + β 1 year + f 2 (age) + f 3 (education) ( p(x ) 1 p(x ) 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 28 / 30
GAM: 분류 II f 2 : 자유도 5 인평활스플라인, f 3 : 더미변수 <HS HS <Coll Coll >Coll f1(year) 4 2 0 2 4 f2(age) 8 6 4 2 0 2 f3(education) 400 200 0 200 400 2003 2005 2007 2009 year 20 30 40 50 60 70 80 age education 25 만불이상버는사람중고등학교미만의학력 < HS 이없음 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 29 / 30
GAM: 분류 III < HS 제거후 HS <Coll Coll >Coll f1(year) 4 2 0 2 4 f2(age) 8 6 4 2 0 2 f3(education) 4 2 0 2 4 2003 2005 2007 2009 year 20 30 40 50 60 70 80 age education age 와 education 이 year 보다더 25 만불이상일확률에영향을줌 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 30 / 30