Statstcs 4 Busness and Economcs (Regresson) 상관계수 상관계수정의 두변수간의선형관계정도를나타내는값 COV ( X, Y ) E( X E( X ))( Y E( Y )) 정의 : V ( X ) V ( Y ) V ( X ) V ( Y ) 표본상관계수 : r ˆ ( ( x ( x x) x) ( x x x)( y x)( y /( n 1) y) ( y y) y) /( n 1) ( y E( XY ) E( X ) E( Y ) y) V ( X ) /( n 1) V ( Y ) 해석 측정형 metrc 변수간의선형관계척도 순서형은변수간선형관계정도는 Spearman 상관계수, Kendall 상관계수는최대값은 1 ( 양 / 음의완전한직선관계 ), 최소값은 이다. 타원의길이가길고폭이좁을수록상관계수는 1에가깝다.. 8 이강한상관관계,. 5 약한상관관계 Professor Kwon, Sehyug Dept. of Statstcs, HANNAM Unv. 1.6365.76 http://wolfpack.hnu.ac.kr 1
Statstcs 4 Busness and Economcs (Regresson) 유의성검정 귀무가설 : 두변수의선형함수관계는유의하지않다. H : 대립가설 : 두변수의선형함수관계는유의하지않다. H : r 검정통계량 : T n ~ t( n ) 1 r 산점도 scatter plot 두측정형변수중하나를 X-축에다른하나를 Y-축으로하여 차원공간에관측치를표현 ( 인관관계의회귀분석에서는설명변수를 X-축, 종속변수를 Y-축 ) 두변수간의함수관계를시각적진단 선형관계에서이상치 outler, 영향치 nfluental 진단 Influental Professor Kwon, Sehyug Dept. of Statstcs, HANNAM Unv. 1.6365.76 http://wolfpack.hnu.ac.kr
Statstcs 4 Busness and Economcs (Regresson) 프로그램활용 블루크로스보험회사의잉여금과보험청구상관관계가존재 Page 469, 상관분석 data p14; nput State $ Clams Surplus; cards; Alabama 145 77 Colorado 73 1 Florda 915 1 Illnos 1687 59 Mane 34 4 Montanna 14 5 North_Dakoda 59 57 Oklahoma 58 31 Texas 894 141 run; proc sgplot data=p14; scatter x=clams y=surplus / datalabel=state; run; proc corr data=p14; var clams surplus; run; 유의확률이.1 미만이므로상관관계는매우유의하다. ( 이상치없음 ) 보험청구액으로높을수록잉여금은많아진다. ( 알라마바, 일리노이는영향 치 ) 결정계수 ( 상관계수의제곱 ) 를높인다. 하여, 반드시산점도그리기필 수 단순회귀분석개요 Professor Kwon, Sehyug Dept. of Statstcs, HANNAM Unv. 1.6365.76 http://wolfpack.hnu.ac.kr 3
Statstcs 4 Busness and Economcs (Regresson) 인과관계와상관관계적용하는방법에상관없이, 두변수간의강한수학적 ( 또는그래프상의 ) 관계가어떤하나가다른것의원인이된다는것을의미하지는않음변수들이상호강하게연관되어있다고해서상호인과관계가있다고는할수없음근본원인이검증되려면다음두가지요건이모두충족되어야함 : 잠재적근본원인과결과간의통계적인유의성이있는관계 프로세스지식의검증을통하여인과관계가확정된관계 위두개조건중하나만으로는충분한인과관계검증이이루어지지않음단순회귀모형 y 1 x e ( 단순 ( 직선 ) 회귀모형 ) 회귀계수, 모수 parameter (, 1 ), unknown but constant 종속변수 dependent, response, target 독립변수 ndependent, exploratory, predctor x 오차 error ( 가정 ) e ~ dn(, ) 독립성, 등분산성, 정규성 y Professor Kwon, Sehyug Dept. of Statstcs, HANNAM Unv. 1.6365.76 http://wolfpack.hnu.ac.kr 4
Statstcs 4 Busness and Economcs (Regresson) 회귀계수추정 ˆ y ˆ x 1 ˆ 1 ˆ 1 n 1 n 1 n ( x x)( y n 1 1 ( x x) y) ( x y ) n( x)( y) ( x ) n( x) S S ( xy) ( xx) OLS 추정치 mn n, 1 1 n 1 ( y x ), (1) 1 MLE 추정치오차의가정 e ~ dn(, ) => y ~ dn( a, ) bx 1 ( y a bx ) L( y1, y,..., yn; a, b) f ( y ; a, b) exp{ } Gauss-Markov 정리 : OLS s BLUE 모형적합성 ( 분산분석 F- 검정 ) 통계적가설 귀무가설 : 대립가설 : (mod el) y a bx 적합하지않음 (mod el) y a bx 은적합하다. SST ( ) y y ( y yˆ ) ( yˆ y) SSE (unexplane d) SSR (explaned by model ) SSR / df MSR T r SSE / df e MSE 총변동 SSTO ( y y) ( 초록색부분 ) Professor Kwon, Sehyug Dept. of Statstcs, HANNAM Unv. 1.6365.76 http://wolfpack.hnu.ac.kr 5
Statstcs 4 Busness and Economcs (Regresson) 회귀 ( 모형 ) 변동 : SSR yˆ y ) ( 파란부분 ) ( 오차변동 : SSE y yˆ ) ( 빨간부분 ) ( 분산분석표 변동 자유도 자승합 SS 평균자승합 MS F-통계량 모형 model p SSR MSR=SSR/p F=MSR/MSE 오차 error n-p-1 SSE MSE=SSE/(n-p-1) ( 유의확률 ) 총변동 n-1 SST 오차분산 추정치 ( 수리적증명생략 ) ^ SSE MSE, p= 설명변수개수 ( n p 1) 회귀계수 ( 기울기 ) 유의성 통계적가설 귀무가설 : 1 설명변수 X와종속변수 Y의선형함수관계는유의하지 않다 설명변수 X 의설명력을유의하지않다. *) 절편 의유의성검정을하지않음, *) 절편 이면원점을지나는직선임 검정통계량 모형적합성 F- 검정과관계 ˆ T 1 1( ) ~ t( n ) S( ˆ 1) ˆ MSE S ˆ ( 1) ( x x SSx ) 설명변수가하나이므로모형의자유도 =1 => F( 1, n) ( t( n)) 그러므로단순회귀모형에서는분산분석과기울기유의성검정은동일하다 결정계수 coeffcent of determnaton Professor Kwon, Sehyug Dept. of Statstcs, HANNAM Unv. 1.6365.76 http://wolfpack.hnu.ac.kr 6
Statstcs 4 Busness and Economcs (Regresson) 정의 : SSR R SST 특성 회귀모형이종속변수의총변동을설명하는비율 모형적합성대표값 회귀모형에고려된설명변수의종속변수변동을선형적으로설명하는정도 단순회귀에서는상관계수제곱 r 은결정계수이다. 결정계수는검정통계량이아니므로유의성검정불가, 일반적으로 7% 이상이면종속변수설명이충분한설명변수 ( 들 ) 를선정하였음. SXX 회귀계수추정치와상관계수관계 r b SYY SSE /( n p 1) 수정 adjusted 결정계수 : R 1 SST /( n 1) 추정 ( 예측치 ) 예측치 y aˆ bˆ x E( y x) a bx 신뢰구간 confdence nterval ^ ( ) ˆ ˆ ˆ 1 ( X ) E y x ( ( )) [ X s E Y MSE ], y x ^ E( Y ) E( Y ) ~ t( n ) ^ s{ E( Y )} y a bx e 예측구간 predcton nterval new ^ n ( X X ) yˆ ˆ ˆ new x new E yˆ new ) xnew { Yˆ new 1 ( xnew x) } [1 ] n ( x x) Yˆ ˆ new E( Ynew) s{ Yˆ new} (, ~ t( n ) 1 ( ), { ˆ X new X s Ynew } MSE[1 ] n ( X X ) Professor Kwon, Sehyug Dept. of Statstcs, HANNAM Unv. 1.6365.76 http://wolfpack.hnu.ac.kr 7
Statstcs 4 Busness and Economcs (Regresson) 잔차분석 Resdual 잔차 오차항의추정치 : 표준화잔차 : 스튜던트잔차 : 활용 ( 진단 ) z r r eˆ y yˆ y aˆ bˆ x r MSE r MSE /1 h (1) 모형은선형인가? => 잔차그래프 (pattern 가짐 ) () 오차의가정 정규성 : 문제는되지않음, n> 이상 (lke CLT) => 잔차의정규성검증 독립성 : 시계열데이터만검증 => DW 통계량 등분산성 : => 잔차그래프 Fan 모양 (3) 이상치 outlers, 영향치 nfluental observaton 도구 (1) 잔차 ( 일반적으로스튜던트잔차 ) 와종속변수예측치산점도 ( 설명변수가두개이상인경우에는각설명변수를 X-축으로한잔차산점도필요 r ŷ 보험회사예제계속 proc reg data=p14; model surplus=clams; output out=out1 p=yhat rstudent=res L95m=L95m U95m=U95m L95=L95 Professor Kwon, Sehyug Dept. of Statstcs, HANNAM Unv. 1.6365.76 http://wolfpack.hnu.ac.kr 8
Statstcs 4 Busness and Economcs (Regresson) U95=U95; run; QUIT; 추정회귀모형 : 잉여금 1.56.157 * 청구액 ( t 8.71, p.1), R 91.6% Professor Kwon, Sehyug Dept. of Statstcs, HANNAM Unv. 1.6365.76 http://wolfpack.hnu.ac.kr 9
Statstcs 4 Busness and Economcs (Regresson) 다중회귀모형 회귀모형 Y a b... 1 x1 b x bp x p e, 가정 e ~ dn(, ) 독립성, 등분산성, 정규성 예제 MRI.xls VIQ (+) FSIQ MRI (+) PIQ (+) Heght (-) Weght (-) 총 IQ 에영향을미치는요인으로언어 verbal IQ, 수행 performance IQ, 몸무게, 키 ( 작을수록똑똑하다는속설 ), 뇌의크기 = 두뇌정보를고려, 이론적 / 경험적부호표시 ( 순서 1) 산점도그리기 Professor Kwon, Sehyug Dept. of Statstcs, HANNAM Unv. 1.6365.76 http://wolfpack.hnu.ac.kr 1
Statstcs 4 Busness and Economcs (Regresson) 종속변수와설명변수간의함수관계보기 설명변수간상관관계가높은경우 => 다중공선성 변수변환방법 ( 두변수의함수관계의선형화 ) 산점도유형변수변환산점도유형변수변환 변수변환방법 ( 변수의정규분포변환 ) Power Data Transformaton 해결내용 3 세제곱 Severe 좌로치우침 제곱 mld 좌로치우침 1/ 제곱근 mld 우로치우침 log 로그 우로치우침 -1 역변환 severe 우로치우침 ( 순서 ) 회귀모형추정 Professor Kwon, Sehyug Dept. of Statstcs, HANNAM Unv. 1.6365.76 http://wolfpack.hnu.ac.kr 11
Statstcs 4 Busness and Economcs (Regresson) 전체모형 (F- 검정결과 ) 의유의함. 그러나회귀계수검정결과 Weght, heght 유의하지않음 Professor Kwon, Sehyug Dept. of Statstcs, HANNAM Unv. 1.6365.76 http://wolfpack.hnu.ac.kr 1
Statstcs 4 Busness and Economcs (Regresson) ( 순서 3) 변수선택종속변수에유의한영향을미치는설명변수를찾는방법이다. 다중공선성을먼저시행한후변수선택을하는것이일반적이나결과는대부분동일하다. (F-검정통계량이용방법 ) 후진선택 Backward: 유의하지않은순서대로 (F-통계량값가장적음 ) 제거하는방법 전진선택 Forward: 유의한순서대로 (F-통계량값가장큼 ) 선택하는방법 단계선택 Stepwse: 전진선택과유사하나선택된설명변수의유의성도추가선택된설명변수에의해검증 수작업 : 유의하지않은설명변수제거 / 선택순서를분석자가결정 ( 권장 ) ( 모형적합성관련통계량이용 ) 결정계수 ( 보고서제시 ) 적합모형이종속변수변동의설명부분 수정된결정계수, 유의하지않은설명변수가 삽입되어도결정계수가커지는문제보완, 사로다른모형비교시사용 AIC(Akake Informaton Crteron) SBC(Schwarz Bayes Crteron) PRESS AIC, SBC, PRESS 값이작은모형 Professor Kwon, Sehyug Dept. of Statstcs, HANNAM Unv. 1.6365.76 http://wolfpack.hnu.ac.kr 13
Statstcs 4 Busness and Economcs (Regresson) 몸무게, 키는유의하지않아제외됨 MRI 회귀계수부호가이상하다. 상관계수부호와일치해야하는데??? 이는무슨일? 바로다중공선성문제발생 수정결정계수크기로가장높은모형순으로, 물론포함된설명변수의유의성은검증된것이아님, 그래서 heght 가포함되어있음 ( 순서 4) 다중공선성 Multcollnearty 문제 설명변수들간의높은상관관계로인하여이되고의값이불안정 추정회귀계수의분산이불안정해져추정회귀계수의부호까지바뀌는문제발생 Professor Kwon, Sehyug Dept. of Statstcs, HANNAM Unv. 1.6365.76 http://wolfpack.hnu.ac.kr 14
Statstcs 4 Busness and Economcs (Regresson) 진단방법 산점도행렬과상관계수이용, 두설명변수의관계에의한문제발생진단 VIF 이용 :, 는설명변수를종속변수로하고나머지다른변수들을설명변수로하여계산된결정계수, 3 이상이면문제, 두변수간 (parwse) 문제를발견하지못하는문제가있다. 여러설명변수가동시에고려되므로... 이에대한보완으로상태지수가있음. Condton Index:, 주성분분석개념, 설명변수의상관관계가높으면제일주성분의고유치 ( 원변수변동에대한설명기여율 ) 가커진다. 1 이상이면문제. 문제의발견은변동기여율에의해하게된다. 문제가되는행의변동기여율이큰값을찾아공통설명변수를찾으면된다. 해결방법 ( 변수제외 ) 문제가되는설명변수제외, 종속변수와상관관계가낮은설명변수제외 ( 주성분분석이용 ) 원변수의선형결합으로만들어진주성분변수 ( 서로독립 ), 그러나주성분변수의의미가불분명하여자주사용하지않음 VIF 크기는이상없음. VIQ, PIQ 의변동기여율이 3번째행에서동시에크므로두변수의상관관계로인하여다중공선성문제가발생하고이로인하여 MRI 의부호가바뀌는문제가발생하였음 (PIQ, VIQ) 중하나를제외하자. FSIQ 와상관계수낮은 PIQ 를제외하는것이적절함. Professor Kwon, Sehyug Dept. of Statstcs, HANNAM Unv. 1.6365.76 http://wolfpack.hnu.ac.kr 15
Statstcs 4 Busness and Economcs (Regresson) ( 순서 5) 회귀진단및활용 ( 스튜던트 ) 잔차와예측치산점도 잔차와설명변수간산점도 잔차에대한정규성검정 (n 이충분히크다면 CLT 에의해큰문제가되지않음 ) 영향치및이상치진단통계량 이상치 (outler) 표준화잔차 (standardzed) 스튜던트잔차 (studentzed) (hat 행렬의대각원소가 ) 스튜던트제외잔차 Professor Kwon, Sehyug Dept. of Statstcs, HANNAM Unv. 1.6365.76 http://wolfpack.hnu.ac.kr 16
Statstcs 4 Busness and Economcs (Regresson) 영향치 (Influental obs.) 통계량 Hat 행렬관측치가예측치에미치는영향정도, 대각원소인를 Leverage 라한다. 관측치가관측점의중심으로부터떨어진정도를의미한다. 기준 : 이상 COV rato, 기준값 = 이상치 & 영향치통계량 Cook's dstance:, 기준값 =1 DFBETAS (Dfference of Betas), 기준값 = Professor Kwon, Sehyug Dept. of Statstcs, HANNAM Unv. 1.6365.76 http://wolfpack.hnu.ac.kr 17
Statstcs 4 Busness and Economcs (Regresson) 이상치제거로결정계수가 9.1% 증가 FSIQ 1. 48. 95 * VIQ. * MRI ( 잉, MRI 유의않음 ) 그래도일단해석을한다면 MRI, VIQ 회귀계수부호가양이므로언어 IQ, MRI 가커지면 FSIQ 값이커진다. 표준화회귀계수크기이용 : VIQ 의영향력이 MRI 에비해 1 배크기로 FSIQ 에영향을준다. Professor Kwon, Sehyug Dept. of Statstcs, HANNAM Unv. 1.6365.76 http://wolfpack.hnu.ac.kr 18