Microsoft PowerPoint - LM 2014s_Ch4.pptx

Save this PDF as:
 WORD  PNG  TXT  JPG

Size: px
Start display at page:

Download "Microsoft PowerPoint - LM 2014s_Ch4.pptx"

Transcription

1 1. 회귀모형및가정 모형설명 선형 linearity 함수 (,,,, ) 회귀계수 : 모수, unknown but fixed 절편 : y-축을통과하는곳 기울기 : 편미분, 한단위증가 p개의설명변수 들은결정변수 ( 확률변수아님 ) 종속변수만확률변수 모형 설명변수개수 p 개 관측치개수 n, 1,2,, ~ 0, ( 행렬 ),, 가정 ~ 0, 정규성 normality 등분산성 homoscedasticity 독립성 independency 시계열데이터에서만검증 DW 통계량, 오차자기상관 ~0, 1 1 (30)

2 2-1. 다중회귀순서 (1) (1) 회귀모형설정 이론이나경험을근거하여인과관계설정회귀분석모형구성도 ( 회귀계수부호예상 ) (2) 산점도행렬, 상관분석, 변수분포 ( 정규분포 ) 1. ( 종속변수와설명변수 ) 의산점도 상관분석 2. ( 설명변수 ) 들간산점도 상관분석 3. 종속변수와설명변수정규성검정 (1) 선형관계파괴 => 문제야기설명변수변환 (2) 다중공선성문제사전진단 (3) 변수분포 => 문제야기변수변환 (3) 회귀계수추정및유의성검정 OLS 추정치 (MLE 와동일, OLS is BLUE) 모형유의성 ( 분산분석, F- 검정 ) 개별설명변수회귀계수유의성 (t- 검정 ) (31)

3 2-2. 다중회귀순서 (2) (4) 유의한설명변수선택 유의한설명변수선택 방법 : (backward, forward, stepwise), 산점도행렬 유의한설명변수만으로다음단계로이동 (5) 다중공선성진단및해결 설명변수들간높은상관관계로인하여발생 방법 : VIF, Condition Index, 산점도행렬 ( 상관계수 ) 해결방법 문제변수제거 / 주성분분석 / Ridge Regression (6) 모형진단및잔차분석 Residual Analysis ( 잔차분석 ) ( 다음슬라이드 ) 모형진단 가정 ( 정규성, 등분산성, 선형성, 독립성 ) 파괴이상치 / 영향치진단 삭제필요 (7) 회귀분석활용 - 최종추정회귀모형 ( 추정결과표, F-통계량, 결정계수, 부호중심해석, 필요시예측값, 신뢰구간 / 예측구간추정 ) 결정계수 ( 모형설명력 ) 표준화회귀계수 ( 상대적영향도 ) (32)

4 3-1. 회귀모형설정 ( 순서 1) 예제데이터 smsa.xls 예제데이터 종속변수사망률 (Mortality) 변수변수이름변수내용 사망률 종속변수 Mortality 사망률 JanTemp 1 월기온 기후사회경제 JulyTemp 7월기온 RelHum 상대습도 Rain 강우량 Education 교육수준 PopDensity 인구밀도 NonWhite 비백인비율 WC 화이트칼라비율 pop/house 가구당가족수 income 소득 HCPot 오염물질1 ( 기후 ) 1 월기온 (-) 7 월기온 (+) 상대습도 (+) 강우량 (+) ( 사회경제 ) 교육수준 (-) 인구밀도 (+) 비백인비율 (+) WC 비율 (+) 가족수 (+?) 소득 (-) ( 환경 ) HCPot(+) NOcPot(+) SO2Pot(+) 환경 NOxPot 오염물질 2 S02Pot 오염물질 3 (33)

5 3-2. 산점도행렬및상관분석 ( 순서 2) 정규성검정 모든변수에대한정규성검정 종속변수는반드시정규성검정 Box-Cox 변환 설명변수 ( 간 ) 산점도 다중공선성사전진단 산점도행렬 종속변수와설명변수산점도 직선의관계가아닌경우변환 설명변수가많으므로설명변수를변환적절 유의성검정상관분석 유의한설명변수예상 (10% 수준 ) JulyTemp Rain Education PopDensity NonWhite WC pop_house income S02Pot 다중공선성문제야기변수군 다중공선성진단후 will be back ln (34)

6 SAS output (35)

7 3-3. 회귀모형추정 ( 순서 3) OLS 추정치 적합값 fitted value - hat matrix 잔차 residual 잔차분산 : V 전차분산추정치 : ~ to test : ( 설명변수 는종속변수를설명하지못한다. s 는 의 (k+1) 번째대각원소 분산분석 SST = (df=n-1) SSE = (df=n-p-1) SSR = (df=p) - 오차분산 MVUE MVUE 샘플링분포, (36)

8 SAS output (37)

9 분산분석 변동분해 총변동 SST 분해,,,,,, 추가자승합, 설명변수 이종속변수변동을설명한후 가추가적으로설명하는변동, (*) 가설검정시 SSE 사용하여검정함. 모형변동분해 Type I SS (sequential SS) 순차자승합 Type II SS (partial SS) 부분자승합 Full 모형 vs. Reduced Model 완전모형 : 모든설명변수삽입모형,,, 축소모형 : 귀무가설 ( : 0) 하의회귀모형,,, : (1월기온과 7월기온회귀계수동일 ) : 1 (1월기온회귀계수는 1이다 ) : 0 (1월, 7월기온모두유의않음 ) 검정통계량 ~ 줄어든모수개수,1 (38)

10 In SAS (39)

11 3-4. 변수선택 ( 순서 4) 필요성 Occam razor parsimony 불필요한가정을말자. 같은현상을설명하는동일한주장이있다면간단한것을택하라. 동일한수준의정보 ( 결정계수크기 ) 를최소의자원 ( 데이터, 변수 ) 을활용하여획득 F- 통계량방법 설명변수의추가 / 제거로인하여분산분석의 F- 통계량의유의성변화가없다면그설명변수는종속변수를설명하는유의한변수가아니다. Backward 후진제거 (1) 모든설명변수를고려한완전모형 (2) 설명변수를차례로하나씩제거하며 F-통계량 ( 유의확률 ) 축소변화크기를보고유의확률이가장큰변수, RelHum , 제거 (3) 남은설명변수가모두유의할때까지제거를반복한다. Forward 전진삽입 가장유의한설명변수 ( 유의학률가장작은것 ) 부터차례로입력, 더이상유의한설명변수없을때까지계속한다. Stepwise 단계삽입 전진삽입과동일하지만이미삽입된설명변수로새로진입한설명변수들에의해유의성을다시검정하여삽입여부결정 기타보조통계량 결정계수 determination Coeff. 모형의종속변수변동설명정도 유의하지않은설명변수가삽입되어도증가 수정결정계수 1 / / 설명변수의평균설명능력, 결정계수증가문제해결, 여전히검정통계량 dksla. (40)

12 3-4. 변수선택 ( 순서 4) cont. 부분결정계수, X1 설명변수가설명하고남은종속변수변동 ( 오차변동 ) 에대한 X2 설명비율 ( ) 잔차와 ( ) 잔차의상관계수제곱과동일 작을수록적합모형 SBC (Schwarz Bayesian information criterion) 2 ln AIC (Akaike information criterion) 2 1 2ln Mallow +2(p+1) 값이 (p+1) 에가까울수록가장적합한모형 PRESS 는 i-번째관측치를제외하고적합한회귀모형에의한 i-번째종속변수예측값 작을수록좋은모형 (41)

13 In SAS (42)

14 3-5. 다중공선성 ( 순서 5) Multicollinearity 문제 설명변수간상관관계가높음 데이터행렬 의구성변수들간높은상관 이로인하여 0 ( 행렬식이 0 에가까움 ) 매우불안정 =>??? 그리고추정분산 커짐 회귀계수의크기가상대적으로많이변하고회귀계수의부호까지바뀌는문제까지발생 예제데이터 mri_iq.xls FSIQ <- (PIQ) FSIQ <- (PIQ, VIQ) FSIQ <- (PIQ, MRI) 진단방법 설명변수간상관계수 사전진단 두변수간다중공선성문제만진단가능 VIF 분산팽창지수 종속변수 <- 나머지설명변수들을설명변수로하여회귀분석하여얻은결정계수 VIF 가크다는것은다른설명변수들의선형결합으로 가표현되므로다중공선성문제발생 일반적으로 10 이상인경우문제발생으로진단 상태지수 condition index 설명변수들의공분산행렬로부터구한고유치 고유치는 ( 원 ) 설명변수변동의설명크기 상태지수 10 이상인행에서해당고유치가각설명하는부분이큰변수들이문제진단 (43)

15 3-5. 다중공선성 ( 순서 5) cont. = 제 1 주성분설명주성분 =(, ) 선형결합 주성분분석활용 주성분변수는설명변수들 (,,, ) 의공분산행렬의고유치에대응하는고유벡터 ( 선형계수 ) 로만들어짐. 주성분변수는원변수들의선형결합으로만들어지지만서로상관계수는 0이다. 주성분변수는설명변수의결합이므로변수의정의가쉽지않아이론적방법 문제해결 문제변수제거 문제변수군에서종속변수와상관계수가가장낮은설명변수 분석자의주관적판단에의해결정가능 가장널리사용되고있음 능형회귀 Ridge Regression 불편성을희생하고 최소화하는추정량 사용 (c 는 0 과 1 사이의상수 ) 상수 c는다소주관적으로구해짐 이론적방법론으로사용 (44)

16 In SAS 단계삽입선택변수 NonWhite Education JanTemp S02Pot Rain JulyTemp 주성분분석사용 능형회귀 VIF 문제없음 Cond. 지수 ( 교육수준, 7 월기온 ) 문제? maybe, then (7 월기온 ) 제외 (45)

17 In SAS (2) (46)

18 3-6. 잔차분석및모형진단 ( 순서 6) 활용잔차 표준화잔차 스튜던트잔차 정규성 잔차정규성검정 y 2 X e ~ MN(0, I) OLS ˆ ( X ' X ) Fitted yˆ X ˆ X ' y Re sidual r eˆ ( I H ) y 이미회귀분석시작분포정규성검정실시하였으므로여기서는문제없을것임 1 회귀진단 - 이상치 & 영향치 표준화잔차 - 스튜던트잔차 - / Leverage - 선형성, 등분산성, 이차항 스튜던트잔차 적합값 종속변수변환필요시이미문제는회귀분석시작에서어느정도해결했음 스튜던트잔차 설명변수 문제해결을설명변수변환으로 (47)

19 In SAS SO2Pot 이분산문제 (48)

20 3-7. 회귀분석활용 ( 순서 7) 적합회귀모형표제시 자유도와 t- 통계량은필요없음 F- 통계량과결정계수제시 변수회귀계수 (b) 추정분산유의확률 (B) 해석 회귀계수부호위주 표준화회귀계수절대값크기 종속변수변동에대한상대적설명능력 F- 통계량 =36.3 (<0.0001) 결정계수 =78.1% 이상치 / 영향치논의 적합회귀모형활용제한점시사 (2, 28, 37) 이상주에대한설명 U95 / L95 예측구간, 신뢰구간 새로운개체 설명변수값만넣고최종모형재실행하면종속변수적합값추정 (49)