Similar documents
G Power

슬라이드 1

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>


Resampling Methods

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은


비선형으로의 확장

표본재추출(resampling) 방법

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포


제 1 절 two way ANOVA 제1절 1 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라

Microsoft Word - SPSS_MDA_Ch6.doc

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Microsoft PowerPoint - ANOVA pptx

R t-..

슬라이드 1

슬라이드 1

statistics

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

Microsoft Word - skku_TS2.docx

¾DÁ ÖÖ„�Àº¨Ö´ä

cat_data3.PDF

제 4 장회귀분석

PowerPoint 프레젠테이션

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

Tree 기반의 방법

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표


MATLAB for C/C++ Programmers

untitled

선형모형_LM.pdf

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Microsoft Word - 동태적 모형.doc

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

i



Microsoft PowerPoint - LM 2014s_Ch4.pptx

Microsoft Word - sbe_anova.docx

고객관계를 리드하는 서비스 리더십 전략

공간계량경제학을 응용한 사례분석

고차원에서의 유의성 검정

<B3EDB4DC28B1E8BCAEC7F6292E687770>

Communications of the Korean Statistical Society Vol. 15, No. 4, 2008, pp 국소적 강력 단위근 검정 최보승1), 우진욱2), 박유성3) 요약 시계열 자료를 분석할 때, 시계열 자료가 가지고 있는

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

untitled


- 1 -

슬라이드 1

PowerPoint 프레젠테이션

자료분석론 - 국민건강영양조사 분석

185

<C7A5C1F620BEE7BDC4>

슬라이드 1

Microsoft Word - ch8_influence.doc

Microsoft PowerPoint - IPYYUIHNPGFU

Data Mining 1 regularized model을 이용한 이미지 분류 1 Introduction 이미지 데이터는 매트릭스 형태이다. 이미지 분류를 하기 위해서 이미지 형식을 매트릭스 에서 벡터로 변환하는 작업이 필요하다. 그러면 하나의 이미지는 p차원인 벡터형

untitled

슬라이드 1


abstract.dvi

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

텀블러514


Microsoft PowerPoint - MDA DA pptx

<3235B0AD20BCF6BFADC0C720B1D8C7D120C2FC20B0C5C1FE20322E687770>

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

슬라이드 1


PPT Template

Microsoft PowerPoint - 26.pptx

Microsoft PowerPoint - Info R(3) pptx

Microsoft Word - ch2_simple.doc

Chapter 7 분산분석

<4D F736F F D20C0C0BFEBB0E8B7AE20C1A B0AD202D20B0E8B7AEB0E6C1A6C7D E646F63>

이다. 즉 μ μ μ : 가아니다. 이러한검정을하기위하여분산분석은다음과같은가정을두고있다. 분산분석의가정 (1) r개모집단분포는모두정규분포를이루고있다. (2) r개모집단의평균은다를수있으나분산은모두같다. (3) r개모집단에서추출한표본은서로독립적이다. 분산분석은집단을구분하는

22 장정규성검정과정규화변환 22.1 시각적방법 Q-Q 플롯과정규확률그림 Q-Q 플롯( 분위수- 분위수플롯, Quantile-Quantile plot) 은하나의자료셋이특정분포( 정규분 포나와이블분포등) 를따르는지또는두개의자료셋이같은모집단분포로부터나왔는지를


시계열분석의개요 (the nature of time series analysis) 확률과정 (stochastic processes) 이란시간으로순서가매겨진확률변수들의집합임. 만일확률변수 y 가연속이라면 y(t) 라고표기하지만이산이라면 y t 라고표기함 ( 대부분의경제자

Microsoft Word - SAS_Data Manipulate.docx

歯4차학술대회원고(장지연).PDF

Microsoft PowerPoint Relations.pptx

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

슬라이드 1

<4D F736F F F696E74202D20332E20B0F8B0A3B0E8B7AEB0E6C1A6B8F0C7FCC0C720C3DFC1A428C3D6B8EDBCB72C20C0B1BCBAB5B52C20B1E8C0C7C1D8292E7


농림수산식품 연구개발사업 운영규정

MATLAB for C/C++ Programmers

Microsoft PowerPoint - MDA 2008Fall Ch2 Matrix.pptx


eda_ch7.doc

LM_matrix.pages

???? 1

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

Microsoft Word - ch3_residual.doc

(Microsoft PowerPoint - Ch21_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

통계적 학습(statistical learning)

분산분석.pages

Transcription:

1 1 Department of Statistics University of Seoul August 29, 2017

T-test T 검정은스튜던트 t 통계량의분포를귀무가설하에서살펴봄으러써가설의기각여부를결정하는의사결정모형임 검정 : X i iid N(µ, σ 2 ) 이라고가정하고, 귀무가설과대립가설을아래와같이놓자. 귀무가설즉, µ = µ 0 하에서 H : µ = µ 0 K : µ > µ 0. ( X µ 0 )/(S/ n) T (n 1), 임이알려져있고유의수준 α 에따른기각역이결정된다 (Neyman-Pearson lemma).

T-test T- 검정의모형가정 : X i = µ + ɛ i 단, ɛ i iid N(0, σ 2 ) 가정에위배되는경우 X i 의분포가동일하지않을때. X i 의분산이존재하지않을때 ( 꼬리가두꺼운분포 ) 혹은 X i 분포가대칭이아닌경우 ; 데이터가독립이아닌경우. T- 검정이주는기각역을이용하여의사결정을했을때, 이미정해진유의수준 α (1 종오류 ) 과다른의사결정을하게된다.

ANOVA 분산분석은 (Analysis of variance: ANOVA) 여러개의모집단의평균을비교, 검정하는방법이다. 1 원배치분산분석의가정 : X ij iid N(µ j, σ 2 ) for j = 1,, p (p 개의처리 ) 귀무가설하에서 µ 1 = µ 2 = = µ p F = 급간분산 F (p 1, n p 1) 급내분산 임을이용한다.

ANOVA 1 원배치분산분석은 j 번째처리에대한반응변수가 X ij = µ j + ɛ ij (ɛ ij iid N(0, σ 2 )) 임을가정한다. 가정에위배되는경우 : X ij 가정규분포를따르지않는경우 ; X ij 의분산이이질적 (heterogeneous) 인경우 ; X ij 가독립이아닌경우 (cluster effect); 검정이주는기각역을이용하여의사결정을했을때, 이미정해진유의수준 α (1 종오류 ) 과다른의사결정을하게된다.

ANOVA 2 원배치분산분석의가정 : X ijk = α + µ j + γ k + ɛ ijk (ɛ ijk iid N(0, σ 2 )) 임을가정한다. 가정에위배되는경우 : EX ijk α + µ j + γ k ( 교호작용 : interaction effects) X ijk 의분산이이질적인경우 ; 데이터가독립이아닌경우 ; 검정이주는기각역을이용하여의사결정을했을때, 이미정해진유의수준 α (1 종오류 ) 과다른의사결정을하게된다.

예제 잘못된가정하의 t 검정결과 X 1 = 0 이라하고 X i+1 = 0.9X i + ɛ i (ɛ i iid N(0, 1)) 위모형에서는 Cov(X i+1, X i ) 0 로관측치가독립이아니다. 단 E(X i ) = 0 는성립한다. X i (i = 1,, 20) 를생성하고평균에대한 t 검정을실시한다. 1000 번의반복실험을통해유의수준 α 에서의 t 검정의결과와실제얻어진 1 종오류를비교한다.

예제 Rcode

Regression 선형회귀모형은반응변수 (Y ) 와설명변수 X 의관계를모형화한통계모형이다. 설명변수가 1 개인 X R 인선형회귀모형을알아보자 모형의가정 : 단, ɛ i iid N(0, σ 2 ) Y i = β 0 + β 1 X i + ɛ i

Regression 선형회귀모형은다음과같은관계를만족한다. E(Y i X i ) = β 0 + β 1 X i 모형가정의위배 ; E(Y i X i ) β 0 + β 1 X i E(Y i X i ) 이존재하지않는경우.

Regression E(Y i X i ) β 0 + β 1 X i 인예 E(Y i X i ) = β 0 + β 1 Xi 2 E(Y i X i ) = f (X i ) 단, f : R R. ɛ i 과 X i 상관계수가 0이아닌경우. E(Y i X i ) 가존재하지않는경우? ɛ i iid t(1) ( 자유도가 1인 t분포 ).

모형가정이위배된경우 X i iid N(0, 1) for i = 1,, 100. Y i = 3 + X 2 i + ɛ i where ɛ i iid N(0, 1) E(Y X i = x) = 3 + x 2 는 x 의선형함수가아니다. 선형회귀분석에서가정한모형은 E(Y X i = x) = β 0 + xβ 1 이므로모형공간은다음과같이주어질것이다. F = {f : f (x) = β 0 + β 1 x, β 0, β 1 R}

모형가정이위배된경우 파란색선은잘못된모형가정하에서의 LSE 혹은 MLE 로구해진 E(Y X i = x) 에대한추정량이다.

다변량선형회귀모형 X i = (X i1,, X ip ) R Y i R β = (β 1,, β p ) 다항선형회귀모형 단, ɛ i iid (0, σ 2 ) Y i = X i1 β 1 + + X ip β p + ɛ i = X iβ + ɛ i

다변량선형회귀모형 실제모형이 Y i = X i1 + X i2 + ɛ i 단, ɛ i iid N(0, 1) (X i1, X i2 ) N(µ, Σ) 단, µ = (0, 0) 이고 ( ) 1 ρ Σ = ρ 1 X i1 만관찰가능하다고하자. 회귀분석의결과를구해보자. 다음과같은상황일것이다. 여기서 ɛ i = X i2 + ɛ i 이며, Y i = X i1 + (X i2 + ɛ i ) = X i1 + ɛ i Cov(X i1, ɛ i ) = ρ

예제 > set.seed(1) > x <- sort(rnorm(100)) > y<- 3+x^2 + rnorm(100) > plot(x, y, pch = 20) > fit <- lm(y~x) > abline(a = fit$coefficients[1], + b = fit$coefficients[2], col = 'blue' ) > ytrue <- 3+ x^2 > lines(x, ytrue, lty = 2, col = 'black')

예제 > library(mass) > set.seed(1) > rho = 0.5 > n = 100 ; mu.vec = c(0,0) > Sigma.mat <- matrix(c(1,rho,rho,1),2,2) > x <- mvrnorm(n, mu.vec, Sigma.mat) > y<- x%*%c(1,1) + rnorm(100) > fit <- lm(y~x[,1]-1)

예제 > set.seed(1) > iter.num = 1000 > coef.vec <- rep(0,iter.num) > for (i in 1:iter.num) + { + x <- mvrnorm(n, mu.vec, Sigma.mat) + y<- x%*%c(1,1) + rnorm(100) + fit <- lm(y~x[,1]-1) + coef.vec[i]<- fit$coefficients + } > boxplot(coef.vec, col = 'orange', ylim = c(0,2)) > abline(h = 1, lty = 2, col = 'red')

예제 > set.seed(1) > iter.num = 1000 > rho.vec = seq(-0.7, 0.7, by = 0.1 ) > coef.mat <- matrix(0,iter.num, length(rho.vec)) > for (j in 1:length(rho.vec)) + { + rho = rho.vec[j] + Sigma.mat <- matrix(c(1,rho,rho,1),2,2) + for (i in 1:iter.num) + { + x <- mvrnorm(n, mu.vec, Sigma.mat) + y<- x%*%c(1,1) + rnorm(100) + fit <- lm(y~x[,1]-1) + coef.mat[i,j]<- fit$coefficients + } + } > colnames(coef.mat)<- paste0('rho=',round(rho.vec,2)) > boxplot(coef.mat, col = 'orange', ylim = c(0,2)) > abline(h = 1, lty = 2, col = 'red')

분류문제 로지스틱회귀분석 모형가정 : 단, θ(x i ) = exp(β 0+β 1 X i ) (1+exp(β 0 +β 1 X i )). Y i X i Bernoulli(θ(X i ))

Classification 로지스틱회귀모형은 Pr(Y i X i ) = θ(x i ) 에대하여다음과같은가정을한다. θ(x i ) = (Y i X i ) = exp(β 0 + β 1 X i ) 1 + exp(β 0 + β 1 X i ), 즉 θ(x i ) 의로짓 (logit), log θ(x i )/(1 θ(x i )), 이 β 0 + β 1 X i 임을가정한다. 가정의위배 ; link misspecification: θ(x i ) = Φ(β 0 + β 1 X i ) 단, Φ( ) 표준정규분포의 cdf. nonlinear model: θ(x i ) = exp(f (X i)) 1 + exp (f (X i )),

Classification 로지스틱모형결정경계 : {x : f (x) = 0} 즉, 결정경계는 {x : θ(x) = 0.5} 과같다. f 가 x의선형함수인경우에결정경계는항상선형으로나온다.

model and sub-models

여기서는다변량선형회귀모형을중심으로모형, 부모형, 모형선택의개념을알아보겠다. X i = (X i1,, X ip ) T R p Y i R 모형 : Y i = β 0 + p β j X ij + ɛ i j=1 실제참모형이 Y i = f (X i ) + ɛ i ( 여기서 f 는부드러운함수 ) 라고하자충분히큰 p 에대하여 f (X) β 0 + p j=1 β jx j 이므로 (Y i X i ) β 0 + p β j X ij j=1 로써기대값을근사 (approximation) 시킬수있다.

부모형 가장간단한모형 : y i = β 0 + ɛ i. 즉, 완전모형 (full model) 의입장에서는 y i = β 0 + p β j x ij + ɛ i j=1 ( 단, β j = 0 for j = 1,, p) 로주어지는특별한경우에해당한다. 1 개의변량에대응되는회귀계수만 0 이아닌부모형도생각할수있다. y i = β 0 + β 1 x i1 + ɛ i y i = β 0 + β p x ip + ɛ i 2 개의변량에대응되는회귀계수만 0 이아닌부모형도생각할수있다. y i = β 0 + β 1 x i1 + β 1 x i2 + ɛ i

부모형의개수 부모형의개수는 2 p+1 1 이다. p = 30 인경우, PC 가 1 초에 1000 번의회귀모형적합을할수있다고가정하자. 이때, 모든부모형에대한계산시간은대략 24 일이다. p = 50 인경우대락 7 만년이걸린다. p 가큰경우부모형에대한모형적합을가능한시간내에다할수가없다.

부모형구성전략 ( 전진법 ) 가장간단한모형으로부터변량을하나씩만추가해나간다. 어떤변량을넣을것인가?? 1 개의변량을가지는부모형을적합하는것을고려하자. min n i=1 (y i β 0 β j x ij ) 2 (j = 1,, p) 값을계산한후에, 가장작은값을가지는 j 를선택하여모형에반영한다. j = 3 이라고가정하자. 다시 min n i=1 (y i β 0 β 3 x i3 β j x ij ) 2 for j {1,, p} {3} 를계산한후에가장작은값을가지는 j 를선택한다. 이과정을반복한다. 이때계산횟수는 p 2 이하이며 p = 1000 에대해서도 8 분안에계산을끝낼수있다. 여기서얻어지는부모형의개수는 (p + 1) 개다.

부모형구성전략 ( 후진법 ) 완전모형에서하나씩변수를빼나간다. 어떤변수를빼나갈것인가? (p 1) 변수를가지는모형을찾는경우를고려하자. min n i=1 (y i β 0 j / B β jx ij ) 2 for B = {k} 을계산하고가장작은값을가지는 k 를선택한다. k = 3 이라고하자. 다시 min n i=1 (y i β 0 j / B β jx ij ) 2 for j {1,, p} {3, k} 를계산하고가장작은값을갖는 k 3 를선택한다. 이를반복한다.

LASSO 를이용한부모형의생성 LASSO: ˆβ(λ) = argmin β n (y i β 0 i=1 p β j x ij ) 2 + λ j=1 λ 를조정하면서부모형을구성할수있다. λ = 9 ˆβ(λ) = ( ˆβ 0, 0, 0, 0,, 0) λ = 7 ˆβ(λ) = ( ˆβ 0, 0, 0, ˆβ 3 (λ),, 0) λ = 4 ˆβ(λ) = ( ˆβ 0, 0, ˆβ 2 (λ), ˆβ 3 (λ),, 0) λ = 1 ˆβ(λ) = ( ˆβ 0, ˆβ 1 (λ), ˆβ 2 (λ), ˆβ 3 (λ),, 0) λ 조정함을써부모형을쉽게생성할수있다. p β j j=1

정규화방법론연구정규화방법론은다음함수를최소화하는추정량에대한연구다. n (y i β 0 i=1 p β j x ij ) 2 + λ j=1 위식은아래와같이이해할수있다. p β j. risk function based on data + penalty function on the model complexity j=1

모형선택

F 검정을통한모형선택 전진법변수를하나씩추가해가면서부모형들을만든다. 변수를추가할때마다, 위험함수값 (eg. SSE) 이얼마나줄어드는지계산한다. 변수를추가하면항상위험함수값은늘어날수없다. F- 검정을통해위험함수값이유의하게줄어드는지확인한다. 즉, F 통계량은유의미한위험함수의감소다시말해, 유의미한변수가모형으로들어왔는지그렇지않은지를위험함수를통해판별한다. 유의미한위험함수의감소가보이지않을때까지변수를추가한다.

F 검정을통한모형선택 후진법변수를완전모형으로부터하나씩빼가면서부모형을만든다. 변수를제거할때마다, 위험함수값 (eg. SSE) 이얼마나늘어나는지계산한다. 변수를제거하면항상위험함수값은줄어들수없다. F- 검정을통해위험함수값의감소량에유의한증거가없는지확인한다. 유의미한위험함수의감소가보일때까지변수를추가한다.

모형선택기준에의한모형선택 σ 2 = 1 이라고가정하자 AIC (Akaike information criteria) n (y i ˆβ 0 i=1 p ˆβ j x ij ) 2 + 2k j=1 단 k = # of nonzero coefficients in ˆβ j for j = 1,, p.

모형선택기준에의한모형선택 BIC (Bayesian information criteria) n p (y i ˆβ 0 ˆβ j x ij ) 2 + k log(n) i=1 j=1 단 k = # of nonzero coefficients in ˆβ j for j = 1,, p.

데이터기반통한모형선택검증데이셋 (Validation set) 의이용훈련집합과독립인 validation set 의확보훈련집합의데이터를이용하여부모형들을만들고검증데이터를이용해모형을평가 ( 우도, 정확도등 ) 검증데이터셋에서좋은성능을보이는부모형을선택 /

데이터기반통한모형선택교차검증방법 (Cross validation:cv) 데이터집합을 k 개의분할로만듬. 그중하나를검증데이터셋으로나머지를훈련데이터셋으로선택. 훈련집합의데이터를이용하여부모형들을만들고검증데이터를이용해모형을평가 ( 우도, 정확도등 ) 훈련데이터중하나를검증데이터셋으로선택하고, 나머지를다시훈련데이터셋으로놓음. 훈련집합의데이터를이용하여부모형들을만들고검증데이터를이용해모형을평가 ( 우도, 정확도등 ) 가하고같은작업을반복함. 총 k 개의평가결과를이용하여부모형을선택함 일반화교차검증 (Generalized Cross Validation: GCV): 계산의복잡성을피하기위해개발됨. GCV 는식의형태로주어져빠른시간내에계산이가능함.