Microsoft PowerPoint - LM 2014s_Ch4.pptx

Similar documents
선형모형_LM.pdf

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

Microsoft Word - ch8_influence.doc

Microsoft Word - sbe13_reg.docx

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

Microsoft PowerPoint - Info R(3) pptx

Microsoft Word - ch4_multiple.doc

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

슬라이드 1

슬라이드 1

Microsoft Word - ch3_residual.doc

Microsoft Word - SPSS_MDA_Ch6.doc

Microsoft Word - ch2_simple.doc

Microsoft PowerPoint - MDA 2008Fall Ch2 Matrix.pptx

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

제 4 장회귀분석

G Power

Microsoft Word - skku_TS2.docx

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

<4D F736F F D20C0C0BFEBB0E8B7AE20C1A B0AD202D20B0E8B7AEB0E6C1A6C7D E646F63>

Microsoft Word - 동태적 모형.doc


Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

슬라이드 1

PowerPoint 프레젠테이션

동아시아국가들의실질환율, 순수출및 경제성장간의상호관계비교연구 : 시계열및패널자료인과관계분석

시스템경영과 구조방정식모형분석

슬라이드 1

untitled

슬라이드 1

<4D F736F F D20C0C0BFEBB0E8B7AE20C1A B0AD202D20B0E8B7AEB0E6C1A6C7D E646F63>

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

LM_matrix.pages

제 1 절 two way ANOVA 제1절 1 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라

PowerPoint 프레젠테이션

Microsoft PowerPoint - MDA DA pptx

Microsoft Word - SAS_Data Manipulate.docx

Chapter 8 단순선형회귀분석과 상관분석

MATLAB for C/C++ Programmers

한국정책학회학회보

2 / 27 목차 1. M-plus 소개 2. 중다회귀 3. 경로모형 4. 확인적요인분석 5. 구조방정식모형 6. 잠재성장모형 7. 교차지연자기회귀모형

R t-..

Microsoft Word - SBE2012_anova.docx

Microsoft Word - sbe13_anova.docx

4 장주성분분석 ( PCA: Principal Component Analysis) 예 1 ) 바지구입 - 우리몸의치수모두를알아야하는가? - 변수 : 허리둘레, 기장, 엉덩이둘레, 허벅지둘레, 무릎높이 - 허리둘레, 기장두변수면충분 ( 이것이주성분분석의개념 ) 즉, 원변

<B3EDB4DC28B1E8BCAEC7F6292E687770>

MATLAB for C/C++ Programmers

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

eda_ch7.doc

Microsoft PowerPoint - chap_11_rep.ppt [호환 모드]

Microsoft Word - LectureNote.doc

Microsoft PowerPoint - MDA DA pptx

Microsoft Word - Forecast_lecture.docx

슬라이드 1

에너지포커스 2017 봄호(제14권 제1호 통권63호)

자료의 이해 및 분석

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint

<4D F736F F D20B1E2BBF3C5EBB0E85F36C0E55FC7D0BBFD2E646F6378>

고객관계를 리드하는 서비스 리더십 전략

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a


슬라이드 1

자료분석론 - 국민건강영양조사 분석

가능한연구가설제시 가설 1 : 지지후보의선택은유권자의나이에따라차이가있을것이다. 유권자의나이는지지후보의선택에영향을미칠것이다. 유권자의나이에따라지지후보는다를것이다. 가설 2 : 유권자의사회생활만족도는지지후보의선택에영향을미칠것이다. 지지후보의선택은유권자의사회생활만족도에따라차

비선형으로의 확장

슬라이드 1

R

PowerPoint 프레젠테이션

슬라이드 1


Statistics Basic_ko_chapter_04

슬라이드 1

Microsoft PowerPoint - chap_11_rep.ppt [호환 모드]

<C8A3C5DABBEABEF720B0E6B1E2B5BFC7E220BFB9C3F820B8F0B5A8BFA120B4EBC7D120BFACB1B85FC3D6C1BE28C7D1C3A2BFB1292E687770>



<352E20BAAFBCF6BCB1C5C320B1E2B9FDC0BB20C0CCBFEBC7D120C7D1B1B920C7C1B7CEBEDFB1B8C0C720B5E6C1A1B0FA20BDC7C1A120BCB3B8ED D2DB1E8C7F5C1D62E687770>

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

외국인투자유치성과평가기준개발

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

(Microsoft PowerPoint - Ch21_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])



슬라이드 1

장연립방정식을풀기위한반복법 12.1 선형시스템 : Gauss-Seidel 12.2 비선형시스템 12.1 선형시스템 : Gauss-Seidel (1/10) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정

<BFACB1B8C0B1B8AEB0ADB7C92E687770>

슬라이드 1

22 장정규성검정과정규화변환 22.1 시각적방법 Q-Q 플롯과정규확률그림 Q-Q 플롯( 분위수- 분위수플롯, Quantile-Quantile plot) 은하나의자료셋이특정분포( 정규분 포나와이블분포등) 를따르는지또는두개의자료셋이같은모집단분포로부터나왔는지를

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Index

abstract.dvi

< FB1B8C1B6B9E6C1A4BDC4B8F0B5A828C5E4C7C8B8AEBAE4292E687770>

Microsoft Word - sbe_anova.docx

슬라이드 1

공간계량경제학을 응용한 사례분석

01

Transcription:

1. 회귀모형및가정 모형설명 선형 linearity 함수 (,,,, ) 회귀계수 : 모수, unknown but fixed 절편 : y-축을통과하는곳 기울기 : 편미분, 한단위증가 p개의설명변수 들은결정변수 ( 확률변수아님 ) 종속변수만확률변수 모형 설명변수개수 p 개 관측치개수 n, 1,2,, ~ 0, ( 행렬 ),, 가정 ~ 0, 정규성 normality 등분산성 homoscedasticity 독립성 independency 시계열데이터에서만검증 DW 통계량, 오차자기상관 ~0, 1 1 (30)

2-1. 다중회귀순서 (1) (1) 회귀모형설정 이론이나경험을근거하여인과관계설정회귀분석모형구성도 ( 회귀계수부호예상 ) (2) 산점도행렬, 상관분석, 변수분포 ( 정규분포 ) 1. ( 종속변수와설명변수 ) 의산점도 상관분석 2. ( 설명변수 ) 들간산점도 상관분석 3. 종속변수와설명변수정규성검정 (1) 선형관계파괴 => 문제야기설명변수변환 (2) 다중공선성문제사전진단 (3) 변수분포 => 문제야기변수변환 (3) 회귀계수추정및유의성검정 OLS 추정치 (MLE 와동일, OLS is BLUE) 모형유의성 ( 분산분석, F- 검정 ) 개별설명변수회귀계수유의성 (t- 검정 ) (31)

2-2. 다중회귀순서 (2) (4) 유의한설명변수선택 유의한설명변수선택 방법 : (backward, forward, stepwise), 산점도행렬 유의한설명변수만으로다음단계로이동 (5) 다중공선성진단및해결 설명변수들간높은상관관계로인하여발생 방법 : VIF, Condition Index, 산점도행렬 ( 상관계수 ) 해결방법 문제변수제거 / 주성분분석 / Ridge Regression (6) 모형진단및잔차분석 Residual Analysis ( 잔차분석 ) ( 다음슬라이드 ) 모형진단 가정 ( 정규성, 등분산성, 선형성, 독립성 ) 파괴이상치 / 영향치진단 삭제필요 (7) 회귀분석활용 - 최종추정회귀모형 ( 추정결과표, F-통계량, 결정계수, 부호중심해석, 필요시예측값, 신뢰구간 / 예측구간추정 ) 결정계수 ( 모형설명력 ) 표준화회귀계수 ( 상대적영향도 ) (32)

3-1. 회귀모형설정 ( 순서 1) 예제데이터 smsa.xls 예제데이터 종속변수사망률 (Mortality) 변수변수이름변수내용 사망률 종속변수 Mortality 사망률 JanTemp 1 월기온 기후사회경제 JulyTemp 7월기온 RelHum 상대습도 Rain 강우량 Education 교육수준 PopDensity 인구밀도 NonWhite 비백인비율 WC 화이트칼라비율 pop/house 가구당가족수 income 소득 HCPot 오염물질1 ( 기후 ) 1 월기온 (-) 7 월기온 (+) 상대습도 (+) 강우량 (+) ( 사회경제 ) 교육수준 (-) 인구밀도 (+) 비백인비율 (+) WC 비율 (+) 가족수 (+?) 소득 (-) ( 환경 ) HCPot(+) NOcPot(+) SO2Pot(+) 환경 NOxPot 오염물질 2 S02Pot 오염물질 3 (33)

3-2. 산점도행렬및상관분석 ( 순서 2) 정규성검정 모든변수에대한정규성검정 종속변수는반드시정규성검정 Box-Cox 변환 설명변수 ( 간 ) 산점도 다중공선성사전진단 산점도행렬 종속변수와설명변수산점도 직선의관계가아닌경우변환 설명변수가많으므로설명변수를변환적절 유의성검정상관분석 유의한설명변수예상 (10% 수준 ) JulyTemp Rain Education PopDensity NonWhite WC pop_house income S02Pot 다중공선성문제야기변수군 다중공선성진단후 will be back ln (34)

SAS output (35)

3-3. 회귀모형추정 ( 순서 3) OLS 추정치 적합값 fitted value - hat matrix 잔차 residual 잔차분산 : V 전차분산추정치 : ~ to test : ( 설명변수 는종속변수를설명하지못한다. s 는 의 (k+1) 번째대각원소 분산분석 SST = (df=n-1) SSE = (df=n-p-1) SSR = (df=p) - 오차분산 MVUE MVUE 샘플링분포, (36)

SAS output (37)

분산분석 변동분해 총변동 SST 분해,,,,,, 추가자승합, 설명변수 이종속변수변동을설명한후 가추가적으로설명하는변동, (*) 가설검정시 SSE 사용하여검정함. 모형변동분해 Type I SS (sequential SS) 순차자승합 Type II SS (partial SS) 부분자승합 Full 모형 vs. Reduced Model 완전모형 : 모든설명변수삽입모형,,, 축소모형 : 귀무가설 ( : 0) 하의회귀모형,,, : (1월기온과 7월기온회귀계수동일 ) : 1 (1월기온회귀계수는 1이다 ) : 0 (1월, 7월기온모두유의않음 ) 검정통계량 ~ 줄어든모수개수,1 (38)

In SAS (39)

3-4. 변수선택 ( 순서 4) 필요성 Occam razor parsimony 불필요한가정을말자. 같은현상을설명하는동일한주장이있다면간단한것을택하라. 동일한수준의정보 ( 결정계수크기 ) 를최소의자원 ( 데이터, 변수 ) 을활용하여획득 F- 통계량방법 설명변수의추가 / 제거로인하여분산분석의 F- 통계량의유의성변화가없다면그설명변수는종속변수를설명하는유의한변수가아니다. Backward 후진제거 (1) 모든설명변수를고려한완전모형 (2) 설명변수를차례로하나씩제거하며 F-통계량 ( 유의확률 ) 축소변화크기를보고유의확률이가장큰변수, RelHum-0.9023, 제거 (3) 남은설명변수가모두유의할때까지제거를반복한다. Forward 전진삽입 가장유의한설명변수 ( 유의학률가장작은것 ) 부터차례로입력, 더이상유의한설명변수없을때까지계속한다. Stepwise 단계삽입 전진삽입과동일하지만이미삽입된설명변수로새로진입한설명변수들에의해유의성을다시검정하여삽입여부결정 기타보조통계량 결정계수 determination Coeff. 모형의종속변수변동설명정도 유의하지않은설명변수가삽입되어도증가 수정결정계수 1 / / 설명변수의평균설명능력, 결정계수증가문제해결, 여전히검정통계량 dksla. (40)

3-4. 변수선택 ( 순서 4) cont. 부분결정계수, X1 설명변수가설명하고남은종속변수변동 ( 오차변동 ) 에대한 X2 설명비율 ( ) 잔차와 ( ) 잔차의상관계수제곱과동일 작을수록적합모형 SBC (Schwarz Bayesian information criterion) 2 ln AIC (Akaike information criterion) 2 1 2ln Mallow +2(p+1) 값이 (p+1) 에가까울수록가장적합한모형 PRESS 는 i-번째관측치를제외하고적합한회귀모형에의한 i-번째종속변수예측값 작을수록좋은모형 (41)

In SAS (42)

3-5. 다중공선성 ( 순서 5) Multicollinearity 문제 설명변수간상관관계가높음 데이터행렬 의구성변수들간높은상관 이로인하여 0 ( 행렬식이 0 에가까움 ) 매우불안정 =>??? 그리고추정분산 커짐 회귀계수의크기가상대적으로많이변하고회귀계수의부호까지바뀌는문제까지발생 예제데이터 mri_iq.xls FSIQ <- (PIQ) FSIQ <- (PIQ, VIQ) FSIQ <- (PIQ, MRI) 진단방법 설명변수간상관계수 사전진단 두변수간다중공선성문제만진단가능 VIF 분산팽창지수 종속변수 <- 나머지설명변수들을설명변수로하여회귀분석하여얻은결정계수 VIF 가크다는것은다른설명변수들의선형결합으로 가표현되므로다중공선성문제발생 일반적으로 10 이상인경우문제발생으로진단 상태지수 condition index 설명변수들의공분산행렬로부터구한고유치 고유치는 ( 원 ) 설명변수변동의설명크기 상태지수 10 이상인행에서해당고유치가각설명하는부분이큰변수들이문제진단 (43)

3-5. 다중공선성 ( 순서 5) cont. = 제 1 주성분설명주성분 =(, ) 선형결합 주성분분석활용 주성분변수는설명변수들 (,,, ) 의공분산행렬의고유치에대응하는고유벡터 ( 선형계수 ) 로만들어짐. 주성분변수는원변수들의선형결합으로만들어지지만서로상관계수는 0이다. 주성분변수는설명변수의결합이므로변수의정의가쉽지않아이론적방법 문제해결 문제변수제거 문제변수군에서종속변수와상관계수가가장낮은설명변수 분석자의주관적판단에의해결정가능 가장널리사용되고있음 능형회귀 Ridge Regression 불편성을희생하고 최소화하는추정량 사용 (c 는 0 과 1 사이의상수 ) 상수 c는다소주관적으로구해짐 이론적방법론으로사용 (44)

In SAS 단계삽입선택변수 NonWhite Education JanTemp S02Pot Rain JulyTemp 주성분분석사용 능형회귀 VIF 문제없음 Cond. 지수 ( 교육수준, 7 월기온 ) 문제? maybe, then (7 월기온 ) 제외 (45)

In SAS (2) (46)

3-6. 잔차분석및모형진단 ( 순서 6) 활용잔차 표준화잔차 스튜던트잔차 정규성 잔차정규성검정 y 2 X e ~ MN(0, I) OLS ˆ ( X ' X ) Fitted yˆ X ˆ X ' y Re sidual r eˆ ( I H ) y 이미회귀분석시작분포정규성검정실시하였으므로여기서는문제없을것임 1 회귀진단 - 이상치 & 영향치 표준화잔차 - 스튜던트잔차 - / Leverage - 선형성, 등분산성, 이차항 스튜던트잔차 적합값 종속변수변환필요시이미문제는회귀분석시작에서어느정도해결했음 스튜던트잔차 설명변수 문제해결을설명변수변환으로 (47)

In SAS SO2Pot 이분산문제 (48)

3-7. 회귀분석활용 ( 순서 7) 적합회귀모형표제시 자유도와 t- 통계량은필요없음 F- 통계량과결정계수제시 변수회귀계수 (b) 추정분산유의확률 (B) 해석 회귀계수부호위주 표준화회귀계수절대값크기 종속변수변동에대한상대적설명능력 F- 통계량 =36.3 (<0.0001) 결정계수 =78.1% 이상치 / 영향치논의 적합회귀모형활용제한점시사 (2, 28, 37) 이상주에대한설명 U95 / L95 예측구간, 신뢰구간 새로운개체 설명변수값만넣고최종모형재실행하면종속변수적합값추정 (49)