1 1 Department of Statistics University of Seoul August 29, 2017
T-test T 검정은스튜던트 t 통계량의분포를귀무가설하에서살펴봄으러써가설의기각여부를결정하는의사결정모형임 검정 : X i iid N(µ, σ 2 ) 이라고가정하고, 귀무가설과대립가설을아래와같이놓자. 귀무가설즉, µ = µ 0 하에서 H : µ = µ 0 K : µ > µ 0. ( X µ 0 )/(S/ n) T (n 1), 임이알려져있고유의수준 α 에따른기각역이결정된다 (Neyman-Pearson lemma).
T-test T- 검정의모형가정 : X i = µ + ɛ i 단, ɛ i iid N(0, σ 2 ) 가정에위배되는경우 X i 의분포가동일하지않을때. X i 의분산이존재하지않을때 ( 꼬리가두꺼운분포 ) 혹은 X i 분포가대칭이아닌경우 ; 데이터가독립이아닌경우. T- 검정이주는기각역을이용하여의사결정을했을때, 이미정해진유의수준 α (1 종오류 ) 과다른의사결정을하게된다.
ANOVA 분산분석은 (Analysis of variance: ANOVA) 여러개의모집단의평균을비교, 검정하는방법이다. 1 원배치분산분석의가정 : X ij iid N(µ j, σ 2 ) for j = 1,, p (p 개의처리 ) 귀무가설하에서 µ 1 = µ 2 = = µ p F = 급간분산 F (p 1, n p 1) 급내분산 임을이용한다.
ANOVA 1 원배치분산분석은 j 번째처리에대한반응변수가 X ij = µ j + ɛ ij (ɛ ij iid N(0, σ 2 )) 임을가정한다. 가정에위배되는경우 : X ij 가정규분포를따르지않는경우 ; X ij 의분산이이질적 (heterogeneous) 인경우 ; X ij 가독립이아닌경우 (cluster effect); 검정이주는기각역을이용하여의사결정을했을때, 이미정해진유의수준 α (1 종오류 ) 과다른의사결정을하게된다.
ANOVA 2 원배치분산분석의가정 : X ijk = α + µ j + γ k + ɛ ijk (ɛ ijk iid N(0, σ 2 )) 임을가정한다. 가정에위배되는경우 : EX ijk α + µ j + γ k ( 교호작용 : interaction effects) X ijk 의분산이이질적인경우 ; 데이터가독립이아닌경우 ; 검정이주는기각역을이용하여의사결정을했을때, 이미정해진유의수준 α (1 종오류 ) 과다른의사결정을하게된다.
예제 잘못된가정하의 t 검정결과 X 1 = 0 이라하고 X i+1 = 0.9X i + ɛ i (ɛ i iid N(0, 1)) 위모형에서는 Cov(X i+1, X i ) 0 로관측치가독립이아니다. 단 E(X i ) = 0 는성립한다. X i (i = 1,, 20) 를생성하고평균에대한 t 검정을실시한다. 1000 번의반복실험을통해유의수준 α 에서의 t 검정의결과와실제얻어진 1 종오류를비교한다.
예제 Rcode
Regression 선형회귀모형은반응변수 (Y ) 와설명변수 X 의관계를모형화한통계모형이다. 설명변수가 1 개인 X R 인선형회귀모형을알아보자 모형의가정 : 단, ɛ i iid N(0, σ 2 ) Y i = β 0 + β 1 X i + ɛ i
Regression 선형회귀모형은다음과같은관계를만족한다. E(Y i X i ) = β 0 + β 1 X i 모형가정의위배 ; E(Y i X i ) β 0 + β 1 X i E(Y i X i ) 이존재하지않는경우.
Regression E(Y i X i ) β 0 + β 1 X i 인예 E(Y i X i ) = β 0 + β 1 Xi 2 E(Y i X i ) = f (X i ) 단, f : R R. ɛ i 과 X i 상관계수가 0이아닌경우. E(Y i X i ) 가존재하지않는경우? ɛ i iid t(1) ( 자유도가 1인 t분포 ).
모형가정이위배된경우 X i iid N(0, 1) for i = 1,, 100. Y i = 3 + X 2 i + ɛ i where ɛ i iid N(0, 1) E(Y X i = x) = 3 + x 2 는 x 의선형함수가아니다. 선형회귀분석에서가정한모형은 E(Y X i = x) = β 0 + xβ 1 이므로모형공간은다음과같이주어질것이다. F = {f : f (x) = β 0 + β 1 x, β 0, β 1 R}
모형가정이위배된경우 파란색선은잘못된모형가정하에서의 LSE 혹은 MLE 로구해진 E(Y X i = x) 에대한추정량이다.
다변량선형회귀모형 X i = (X i1,, X ip ) R Y i R β = (β 1,, β p ) 다항선형회귀모형 단, ɛ i iid (0, σ 2 ) Y i = X i1 β 1 + + X ip β p + ɛ i = X iβ + ɛ i
다변량선형회귀모형 실제모형이 Y i = X i1 + X i2 + ɛ i 단, ɛ i iid N(0, 1) (X i1, X i2 ) N(µ, Σ) 단, µ = (0, 0) 이고 ( ) 1 ρ Σ = ρ 1 X i1 만관찰가능하다고하자. 회귀분석의결과를구해보자. 다음과같은상황일것이다. 여기서 ɛ i = X i2 + ɛ i 이며, Y i = X i1 + (X i2 + ɛ i ) = X i1 + ɛ i Cov(X i1, ɛ i ) = ρ
예제 > set.seed(1) > x <- sort(rnorm(100)) > y<- 3+x^2 + rnorm(100) > plot(x, y, pch = 20) > fit <- lm(y~x) > abline(a = fit$coefficients[1], + b = fit$coefficients[2], col = 'blue' ) > ytrue <- 3+ x^2 > lines(x, ytrue, lty = 2, col = 'black')
예제 > library(mass) > set.seed(1) > rho = 0.5 > n = 100 ; mu.vec = c(0,0) > Sigma.mat <- matrix(c(1,rho,rho,1),2,2) > x <- mvrnorm(n, mu.vec, Sigma.mat) > y<- x%*%c(1,1) + rnorm(100) > fit <- lm(y~x[,1]-1)
예제 > set.seed(1) > iter.num = 1000 > coef.vec <- rep(0,iter.num) > for (i in 1:iter.num) + { + x <- mvrnorm(n, mu.vec, Sigma.mat) + y<- x%*%c(1,1) + rnorm(100) + fit <- lm(y~x[,1]-1) + coef.vec[i]<- fit$coefficients + } > boxplot(coef.vec, col = 'orange', ylim = c(0,2)) > abline(h = 1, lty = 2, col = 'red')
예제 > set.seed(1) > iter.num = 1000 > rho.vec = seq(-0.7, 0.7, by = 0.1 ) > coef.mat <- matrix(0,iter.num, length(rho.vec)) > for (j in 1:length(rho.vec)) + { + rho = rho.vec[j] + Sigma.mat <- matrix(c(1,rho,rho,1),2,2) + for (i in 1:iter.num) + { + x <- mvrnorm(n, mu.vec, Sigma.mat) + y<- x%*%c(1,1) + rnorm(100) + fit <- lm(y~x[,1]-1) + coef.mat[i,j]<- fit$coefficients + } + } > colnames(coef.mat)<- paste0('rho=',round(rho.vec,2)) > boxplot(coef.mat, col = 'orange', ylim = c(0,2)) > abline(h = 1, lty = 2, col = 'red')
분류문제 로지스틱회귀분석 모형가정 : 단, θ(x i ) = exp(β 0+β 1 X i ) (1+exp(β 0 +β 1 X i )). Y i X i Bernoulli(θ(X i ))
Classification 로지스틱회귀모형은 Pr(Y i X i ) = θ(x i ) 에대하여다음과같은가정을한다. θ(x i ) = (Y i X i ) = exp(β 0 + β 1 X i ) 1 + exp(β 0 + β 1 X i ), 즉 θ(x i ) 의로짓 (logit), log θ(x i )/(1 θ(x i )), 이 β 0 + β 1 X i 임을가정한다. 가정의위배 ; link misspecification: θ(x i ) = Φ(β 0 + β 1 X i ) 단, Φ( ) 표준정규분포의 cdf. nonlinear model: θ(x i ) = exp(f (X i)) 1 + exp (f (X i )),
Classification 로지스틱모형결정경계 : {x : f (x) = 0} 즉, 결정경계는 {x : θ(x) = 0.5} 과같다. f 가 x의선형함수인경우에결정경계는항상선형으로나온다.
model and sub-models
여기서는다변량선형회귀모형을중심으로모형, 부모형, 모형선택의개념을알아보겠다. X i = (X i1,, X ip ) T R p Y i R 모형 : Y i = β 0 + p β j X ij + ɛ i j=1 실제참모형이 Y i = f (X i ) + ɛ i ( 여기서 f 는부드러운함수 ) 라고하자충분히큰 p 에대하여 f (X) β 0 + p j=1 β jx j 이므로 (Y i X i ) β 0 + p β j X ij j=1 로써기대값을근사 (approximation) 시킬수있다.
부모형 가장간단한모형 : y i = β 0 + ɛ i. 즉, 완전모형 (full model) 의입장에서는 y i = β 0 + p β j x ij + ɛ i j=1 ( 단, β j = 0 for j = 1,, p) 로주어지는특별한경우에해당한다. 1 개의변량에대응되는회귀계수만 0 이아닌부모형도생각할수있다. y i = β 0 + β 1 x i1 + ɛ i y i = β 0 + β p x ip + ɛ i 2 개의변량에대응되는회귀계수만 0 이아닌부모형도생각할수있다. y i = β 0 + β 1 x i1 + β 1 x i2 + ɛ i
부모형의개수 부모형의개수는 2 p+1 1 이다. p = 30 인경우, PC 가 1 초에 1000 번의회귀모형적합을할수있다고가정하자. 이때, 모든부모형에대한계산시간은대략 24 일이다. p = 50 인경우대락 7 만년이걸린다. p 가큰경우부모형에대한모형적합을가능한시간내에다할수가없다.
부모형구성전략 ( 전진법 ) 가장간단한모형으로부터변량을하나씩만추가해나간다. 어떤변량을넣을것인가?? 1 개의변량을가지는부모형을적합하는것을고려하자. min n i=1 (y i β 0 β j x ij ) 2 (j = 1,, p) 값을계산한후에, 가장작은값을가지는 j 를선택하여모형에반영한다. j = 3 이라고가정하자. 다시 min n i=1 (y i β 0 β 3 x i3 β j x ij ) 2 for j {1,, p} {3} 를계산한후에가장작은값을가지는 j 를선택한다. 이과정을반복한다. 이때계산횟수는 p 2 이하이며 p = 1000 에대해서도 8 분안에계산을끝낼수있다. 여기서얻어지는부모형의개수는 (p + 1) 개다.
부모형구성전략 ( 후진법 ) 완전모형에서하나씩변수를빼나간다. 어떤변수를빼나갈것인가? (p 1) 변수를가지는모형을찾는경우를고려하자. min n i=1 (y i β 0 j / B β jx ij ) 2 for B = {k} 을계산하고가장작은값을가지는 k 를선택한다. k = 3 이라고하자. 다시 min n i=1 (y i β 0 j / B β jx ij ) 2 for j {1,, p} {3, k} 를계산하고가장작은값을갖는 k 3 를선택한다. 이를반복한다.
LASSO 를이용한부모형의생성 LASSO: ˆβ(λ) = argmin β n (y i β 0 i=1 p β j x ij ) 2 + λ j=1 λ 를조정하면서부모형을구성할수있다. λ = 9 ˆβ(λ) = ( ˆβ 0, 0, 0, 0,, 0) λ = 7 ˆβ(λ) = ( ˆβ 0, 0, 0, ˆβ 3 (λ),, 0) λ = 4 ˆβ(λ) = ( ˆβ 0, 0, ˆβ 2 (λ), ˆβ 3 (λ),, 0) λ = 1 ˆβ(λ) = ( ˆβ 0, ˆβ 1 (λ), ˆβ 2 (λ), ˆβ 3 (λ),, 0) λ 조정함을써부모형을쉽게생성할수있다. p β j j=1
정규화방법론연구정규화방법론은다음함수를최소화하는추정량에대한연구다. n (y i β 0 i=1 p β j x ij ) 2 + λ j=1 위식은아래와같이이해할수있다. p β j. risk function based on data + penalty function on the model complexity j=1
모형선택
F 검정을통한모형선택 전진법변수를하나씩추가해가면서부모형들을만든다. 변수를추가할때마다, 위험함수값 (eg. SSE) 이얼마나줄어드는지계산한다. 변수를추가하면항상위험함수값은늘어날수없다. F- 검정을통해위험함수값이유의하게줄어드는지확인한다. 즉, F 통계량은유의미한위험함수의감소다시말해, 유의미한변수가모형으로들어왔는지그렇지않은지를위험함수를통해판별한다. 유의미한위험함수의감소가보이지않을때까지변수를추가한다.
F 검정을통한모형선택 후진법변수를완전모형으로부터하나씩빼가면서부모형을만든다. 변수를제거할때마다, 위험함수값 (eg. SSE) 이얼마나늘어나는지계산한다. 변수를제거하면항상위험함수값은줄어들수없다. F- 검정을통해위험함수값의감소량에유의한증거가없는지확인한다. 유의미한위험함수의감소가보일때까지변수를추가한다.
모형선택기준에의한모형선택 σ 2 = 1 이라고가정하자 AIC (Akaike information criteria) n (y i ˆβ 0 i=1 p ˆβ j x ij ) 2 + 2k j=1 단 k = # of nonzero coefficients in ˆβ j for j = 1,, p.
모형선택기준에의한모형선택 BIC (Bayesian information criteria) n p (y i ˆβ 0 ˆβ j x ij ) 2 + k log(n) i=1 j=1 단 k = # of nonzero coefficients in ˆβ j for j = 1,, p.
데이터기반통한모형선택검증데이셋 (Validation set) 의이용훈련집합과독립인 validation set 의확보훈련집합의데이터를이용하여부모형들을만들고검증데이터를이용해모형을평가 ( 우도, 정확도등 ) 검증데이터셋에서좋은성능을보이는부모형을선택 /
데이터기반통한모형선택교차검증방법 (Cross validation:cv) 데이터집합을 k 개의분할로만듬. 그중하나를검증데이터셋으로나머지를훈련데이터셋으로선택. 훈련집합의데이터를이용하여부모형들을만들고검증데이터를이용해모형을평가 ( 우도, 정확도등 ) 훈련데이터중하나를검증데이터셋으로선택하고, 나머지를다시훈련데이터셋으로놓음. 훈련집합의데이터를이용하여부모형들을만들고검증데이터를이용해모형을평가 ( 우도, 정확도등 ) 가하고같은작업을반복함. 총 k 개의평가결과를이용하여부모형을선택함 일반화교차검증 (Generalized Cross Validation: GCV): 계산의복잡성을피하기위해개발됨. GCV 는식의형태로주어져빠른시간내에계산이가능함.