REGRESSION / 8 장. 영향치및잔차분석 172 Chapter 8 영향치와잔차분석 단순회귀모형에서관측점이이상치 (outlier) 인지영향치 (influential) 인지판단하는것은 매우쉽다. 산점도에서이상치혹은영향치의존재여부를미리감지한다. x- 축 ( 설명변수 ) 의 동일수준의다른관측치에비해종속변수의값이상이한빨간점은이상치이다. 반면판 단할다른관측치가동일설명변수수준에없는파란점은영향치이다. 종속변수 Y 설명변수 X 영향치이든이상치이든추정된회귀모형으로부터많이벗어났는지 ( 잔차가크다 ) 판단 은스튜던트화잔차 (studentized residual) 와예측치 (predicted) 산점도를이용한다. 스튜던트 화잔차는잔차를표준오차로나눈것으로 r i = y i yˆ MSE /1 h 정의되고값이 ± 2 을벗어나면이상치혹은영향치로판단하게된다. i ii ' 1, hii = xi ( X X ) xi 으로 단순회귀모형과는달리설명변수가 2 개이상인다중회귀모형에서는산점도행렬만 으로는영향치, 이상치를여부를판단하기어렵다. 본장에서는다중회귀모형에서이상 치판단에필요한통계량과의미와그리고판단방법과해결방법을다루기로한다. 8.1 예제자료및산점도행렬 8.1.1 예제자료
REGRESSION / 8 장. 영향치및잔차분석 173 일인당국민소득에영향을미치는변수로농업노동력비율, 산업노동력비율, 서비스 노동력비율을생각해보자. 각비율의합은 100% 이므로다중공선성문제가발생하므로 3 변수중 2 개만선택하게될것이다. 정말다중공선성문제가발생하는지알아보자. 다중공선성문제발견 설명변수 (AGR, IND, SER) 간에는함수관계가있다. 당연하다. 앞에서언급하였듯이 세변수의합은 100% 이기때문이다. 향후분석에서는유의도가가장낮은 ( 유의확률이가 장큰 ) 변수 AGR 을제외하고분석할것이다. 산점도행렬에서도세변수간에는상관관계 가매우높음을알수있다. 8.1.2 산점도행렬 자료를만든후 SAS/INSIGHT 를이용하여그리면된다.
REGRESSION / 8 장. 영향치및잔차분석 174 두변수간의산점도를보면여러점들이이상치혹은영향치로판단되는점들이있다. 그러나실제이관측치들이다중회귀모형에서도산점도만으로는이상치나영향치로판단 해서는안된다. 왜냐하면설명변수가 2 개이상이므로설명변수의결합조건에따라이상치 나영향치가아닐수도있기때문이다. 그럴지라도어느한산점도에서매우극단적인경 향이나타나는관측치는회귀계수추정하지전에제외하는것이바람직하다. 설명변수를 IND, SER 로하여회귀계수를추정해보자. 두설명변수모두 0.1 에서유의 하다.
REGRESSION / 8 장. 영향치및잔차분석 175 8.2 영향치발견방법 SAS 에서는 INFLUENCE 옵션으로영향치 ( 이상치 ) 발견통계량이모두출력된다. 스튜던 트잔차나 Cook s distance 는 R 옵션을사용해야한다. 표준화제외잔차 RSTUDENT Y ˆ i Y( i) MSE( i) (1 hi ) 표준화제외잔차 (Studentized Deleted Residual) 는그관측치를제외한후회귀모형을추 정한다. 추정된회귀모형을이용하여제외된관측치에대한예측치 ( Y ( ) ) 를구하고관측치 ˆ i
REGRESSION / 8 장. 영향치및잔차분석 176 와예측치의차이를 MSE( i) (1 hii) 으로나눈값이 ± 2 보다크면영향치혹은이상치가된 다. MSE(i) 는 i-번째관측치를제외한후얻는 MSE( 오차평균자승합 ) 이고 hi 는관측치 xi 에대해다음과같이구한다. i i X 1 ( X ) xi 이다. h = x 예제데이터에서는 2 개정도영향치 ( 혹은이상치 ) 판단된다. RSTUDENT 의값만크다면 이상치가능성이높다. Leverage 1 h ii H = X ( X X ) X 의대각원소 H 행렬대각원소 있는가를나타낸다. h 는 i 번째관측치가설명변수들의중심점으로부터얼마나떨어져 ii h ii 합은 ( p +1) 이므로그값의평균은 ( p + 1) / n 이다. 그러므로 h ii 값이 2 *( p + 1) / n 보다크면영향치 ( 혹은이상치 ) 라고할수있다. Leverage 값이크지만 RSTUDENT 값이적으면 ( 이런관측치는다른관측치와는달리 설명변수의일반적인범위를벗어나므로추정에사용하지않는것이적절 ) 그관측치는 추정회귀모형상에있지만다른관측치랑많이떨어져있다는것이다. SST 를증가시켜 2 R 값을높이고 SSE 는거의증가하지않으므로 F 값을높이다. 제외하는것이좋다. 한편 Leverage(SAS 에서는 Hat Diagonal 이름으로출력 ) 값도크고 RSTUDENT 값도크 다면이는영향치일가능성이높고 RSTUDENT 값은크지만 Leverage 값이작으면이상 치로판단한다. 그러나다중회귀에서는이상치나영향치를모두제외하고회귀모형을추 정하는것이좋다. 예제데이터에서기준값은 2 * (2 + 1) / 20 = 0. 3 이므로이기준에의하면 7번째, 20번째가영 향치혹은이상치로판단된다. 표준화제외잔차와 Leverage 값으로만판단하면 1 번째, 20 번째관측치는이상치이고 7 번째관측치는회귀선상에있지만결정계수와 F- 값을크게 하는관측치인영향치일가능성이높다. COV Ratio MSE( i) ( X ( i) X CovRatio = MSE ( X X ) ) ( i) 1 1 i- 번째관측치를제외했을때추정치의분산이커진다면이관측치는회귀선상에있고 다른관측치와떨어져있을것이다. 기준값은 면일반적으로 Leverage 값도크다. CovRatio 1 3( p + 1) / n 이며이값이크다 위의예제에서는 CovRatio 1 3(2 + 1) / 20 = 0. 45, ( 즉 Cov-ratio>1.45) 7번째, 14번째, 17번째관측치가영향치일가능성이높다. 7번째관측치는 Leverage 값도크므로영향치일가능성이높다. 14번째, 17번째관측치는글쎄??? COV 값이기준에서많이벗어나진않았다.
REGRESSION / 8 장. 영향치및잔차분석 177 DFFITS(Difference of Fits ) DFFITS( i) = Yˆ i Yˆ ( i) MSE( i) hii ˆ ( i ) Y 는 i-번째관측치를제외한회귀모형에의해예측한 i -번째예측치로 Full 모형의 Yˆ i 와차이가크다면영향치혹은이상치일가능성이높다. 기준값은 2 ( p + 1) / n 이다. 예제 에서 2 (2 + 1) / 20 = 0. 775 이므로 1번째, 2번째, 20번째관측치가영향치혹은이상치일가능 성이높다. DFBETAS(Difference of Betas) c kk 는 DFBEATSk( i) = β k β k( i) MSE( i) ckk 1 ( X X ) 의 k-번째대각원소이다. β ) 는 i-번째관측치를제외하고추정한 βk 의 k(i 추정치이므로 DFBETAS 값이커지면 i- 번째관측치가영향치혹은이상치일가능성이높 다. 기준값은 2 나표본을고려한 2 / n 을사용한다. 표본의크기를고려한기준값은 0.45 이다. 이를넘는관측치는 1, 2( 설명변수 SER 입장에서이상치 ), 20 이다. Cook s Distance Ci n Yˆ Yˆ 2 ( j. f j( i) ) j= 1 = ( p + 1) MSE Leverage 통계량은설명변수들간의관계만으로영향치를판단하지만 Cook s 거리통계 량은추정회귀모형에서판단된다. Full model 에의해예측치를구하고 i- 번째관측치를제 외하고예측치와의차이제곱합평균에해당된다. 이값이클수록 i- 번째관측치는이상치 혹은영향치일가능성이높다. 기준값은 1이다. 그러나이값은 DFFITS 통계량에해당되므로 R 옵션을사용해야 SAS는출력한다. 예제데이터에서는이상치로판단되는것이없다. 단지 20번째관측치만 0.998로이상치판단기준에근접한다. 위의통계량사용방법을정리하여보면 스튜던트잔차, 제외잔차 (RSTUDENT) 값, DFFITS나 DFBETAS( 어는설명변수에의해이상치로판단되었는지알수있다 ) 값만크다면이상치이다. Leverage 값이크다면, COVRATIO 값만크다면이관측치는추정회귀모형선상에있고결정계수, F-값만크게하므로모형의유의성을증가시킨다. RSTUDENT 값이
REGRESSION / 8 장. 영향치및잔차분석 178 적다면영향치일가능성이높다. 위의예제에의하면 1번째, 2번째관측치는이상치이고 20번째도 RSTUDENT도 1.88로 2에가까우므로이상치에가깝다. 7번째관측치는 COVRATIO 값이크고 RSTUDENT 값이작으므로영향치이다. 8.3 영향치해결방법 이상치는당연히제외해야하겠지만영향치의경우어떻게처리할것인가? COVRATIO 값만크다면모형의유의성을왜곡하므로제외하고영향치역시관측치의개수가문제가 되지않으면제외하는것이좋다. 그러므로영향치나이상치는제외하는것이좋다. 일단먼저이상치만제외하자. 스튜던트잔차, RSTUDENT는 2 넘는것이없고, HAT 기준값 2 * ( p + 1) / n = 2 *3/17 = 0. 35, Cov_ratio 기준값은 CovRatio 1 3( p + 1) / n = 3(2 + 1) /17 = 0. 52 이고, DFFITS 기준값은 2 ( p + 1) / n = 2 3/17 = 0.84, DFNETAS 기준값은 1이므로관측치 7이문제이다. 이를다시제 외하자.
REGRESSION / 8 장. 영향치및잔차분석 179 더이상영향치나이상치는없다. 회귀계수유의확률을보자. 이상치를제거하기전과는달리 ( 페이지 174) SER 설명변수는유의하지않다. Why? 이상치 ( 특히영향치 ) 제거는 SSE 를줄이기도하지만 SST를줄이는역할을하게된다. 이로인하여 SSE 줄어드는것에비해 SSR이많이줄어들게되므로이런현상이발생한다. 그래도이상치나영향치는제거하 고추정하는것이바람직하다. 이상치나영향치는더이상존재하지않는다. 이제오차 ( 잔차 ) 에대한가정검정을위하 여잔차분석을실시하자. 다중회귀에서잔차분석은다음도구를이용한다. 1스튜던트잔차와예측치의산점도 : 이분산문제 ( 예측치를가중치1 / ŷ i 하여 WLS 방법 을사용하거나 LOG 변환사용 ), 새로운설명변수, 오차의패턴인지 ( 랜덤이어야한다 ) 2 스튜던트잔차와설명변수의산점도 : 이분산문제 ( 설명변수를가중치로하여 WLS 방 법사용 ), 설명변수이차항삽입여부문제진단, 오차의패턴인지 ( 랜덤이아니면그 설명변수는제외하자.) 이상치진단이끝나면 R, INFLUENCE 옵션은더이상필요없다. 잔차분석을위하여 PLOT 문장을실행하면된다. 서로다른변수군의적합도비교하려면여기에 AIC, SBC 옵션을사용하면된다. 다음페이지의산점도에서볼수있듯이모든산점도에특이한문제가발생하는것같 지는않다. 즉랜덤하다. 잔차분석통과
REGRESSION / 8 장. 영향치및잔차분석 180 ( 스튜던트잔차와예측치 ) ( 스튜던트잔차와설명변수 IND) ( 스튜던트잔차와설명변수 SER) 최종적으로오차의정규성을검정해보자. 원래오차의정규성은잔차 (residual) 가지고 해야하나 REWEIGHT 문장을사용해도잔차는모두계산되므로스튜던트잔차를이용하 여정규성검정하자. REWEIGHT( 이상치제거 ) 문장이없다면 R=RES 사용하면된다.
REGRESSION / 8 장. 영향치및잔차분석 181 유의확률이 0.09 로유의수준 0.05 에서는귀무가설 ( 정규분포를따른다 ) 을기각할수없으 므로오차는정규성을만족한다. 최종회귀모형 이제최종모형을구해보자. STB 옵션은설명변수의영향력비교를위해표분화회귀계 수를출력하기위한옵션이다. ^ Income = 816.03 + 25.32 * IND + 14.9 * SER p = 0. 003 p = 016. IND, SER 이증가할수록개인소득은증가한다 ( 회귀계수의부호가양이다 ). 국민소득에 미치는영향은설명변수 IND 의영향력이더크다.( 표준화회귀계수가 0.65 로 SER 의 0.27 보다크므로 ).
REGRESSION / 8 장. 영향치및잔차분석 182 에서영향치진단통계량구하기
REGRESSION / 8 장. 영향치및잔차분석 183 다중회귀분석 Flow Chart 연구목적설정산점도그리기회귀모형추정다중공선성진단 변수선택 영향치진단 잔차분석 최종회귀모형 이론이나경험에의해설명변수분류군을선택하고그 군에적절한설명변수를선택하고데이터를수집한다. 변수를측정할수없으면대체변수를생각하거나제외한다. 변수측정시자료수집과정 (6W 원칙 ) 을적어놓는다. 종속변수에대한설명변수의유의성예상 설명변수간높은상관관계로인한다중공선성예상 이상치, 영향치미리진단 ( 많이벗어나면미리제외 ) OLS 방법에의해회귀계수를추정한다. 이분산경우에는 WLS 다중공선성문제가발생하면 Ridge Regression 을한다. 산점도와 VIF, Condition Index 에의해진단 문제를발생하는변수를제거한다. (*) 주성분변수를이용하여회귀분석한다. Ridge 추정치를구한다. 회귀계수 t- 검정유의성에의해 회귀계수 t- 검정유의성에의해변수선택 (*) 변수선택방법이용 (Stepwise*, Backward, Forward) 수정결정계수, C, PRESS, AIC, SBC 이용변수군비교 p RSTUDENT, LEVERAGE, DFFITS, BFBETAS, COVRATIO 이상치는제외한다., 다중회귀에서는영향치도제외하는 것이좋다. 단영향치에대해서는좀더연구할필요있음. 잔차와예측치의산점도, 잔차의정규성검정 (Univariate) 정규성검정이무너지면종속변수에대한변환한다. 등분산가정이무너지면 : WLS 방법을사용한다. 독립성은시계열자료 (Econometric) 추정모형을적고해석한다. 표준화회귀계수에의해각설명변수의영향력을비교한다.
REGRESSION / 8 장. 영향치및잔차분석 184 다중회귀분석예제 by Flow Chart SALES.txt 데이터에서 SALE( 매출 ) 에영향을미치는요인으로광고비 (A), 기업홍보비 (P), 매출관련비용 (E) 을생각하여 22개년자료를수집하였다. 광고비나홍보비가당해매 출에영향을미치기도하나이전년도홍보비, 광고비에영향을받을것이라생각하여전 년도데이터도고려하였다. 매출관련비용은이전년도고려할필요는없다. 제안모형 : (0) 데이터만들기 (1) 산점도그리기 Y E + e t = α + β1 * At + β2 * At 1 + β3 * Pt + β4 * Pt 1 + β5 * WORK 라이브러리에서 SALES 데이터를선택하면된다. 데이터창이열리면변수를선 택하고 (CTRL 을누른상태에서마우스선택 ) t t
REGRESSION / 8 장. 영향치및잔차분석 185 종속변수 S 에영향을미치는설명변수는 ( 빨간사각형 ) E( 매출관련비용 ) 정도영향을 미치는것같다. 물론다른설명변수들도개별적으로는설명력이작을지모르나설명변수 E 가설명하고남은나머지부분에충분히설명한다면유의할수있으니유의성을검정을 해야한다. 상관분석결과상관계수의유의성을보면설명변수 P 와 E 가유의하다. 설명변수들간의상관관계가유의한가? (why? 다중공선성문제 ) 설명변수 A 와 P 의상관 관계가높아보인다. 다른설명변수들간에는유의한상관관계가보이지않으나상관계 수유의성검정결과 (A, P), (A, P0) 가상관관계가있다. 즉다중공선성문제를일으킬수 있다. 상관계수만으로는모든다중공선성문제를발견할수는없다. ( 예 : A 가 P, E 의선형 함수로이루어진다면..) 그러므로 VIF, CONDITION index 사용하여다중공선성진단하게되 는것이다. 사실원변수와시차변수 (LAG) 는상관관계가존재하는것은당연하다.(A 와 A0, P 와 P0) 그런데상관계수는유의하지않다. 그러나 VIF, COLLIN 에의하면이것이밝혀질것이 다.
REGRESSION / 8 장. 영향치및잔차분석 186 (2) 회귀모형추정 분산분석 (F- 검정 ) 결과유의확률이 0.0001 이므로귀무가설 ( 모든설명변수는유의하지않 다 ) 이기각되어적어도하나의설명변수는종속변수 S 를설명한다. 개별설명변수에대한유의성검정결과유의하지않은설명변수들이존재한다. 변수선 택먼저해도되나다중공선성문제를먼저진단하자.
REGRESSION / 8 장. 영향치및잔차분석 187 (3) 다중공선성진단 VIF 에의하면설명변수 E 를제외한모든설명변수가문제를일으킨다. 상태지수 (condition index) A, A0, P, P0 가문제를일으킨다. 다중공선성문제해결 주성분변수를설명변수, 능형회귀분석이있으나가장간편하고합리적인변수제외방 법을사용하자. 가장유의하지않은설명변수는 P0( 작년홍보비 ) 이다. ( 페이지 186) 그다음은 A( 올해광 고비 ) 이다. 어느변수를사용해도합리적이므로덜유의한 P0 을제외하였다. 다중공선성문제가해결되었다.
REGRESSION / 8 장. 영향치및잔차분석 188 (4) 변수선택 다중공선성문제를해결한결과설명변수 A, A0, P, E 가남았다. A0, A 는유의하지않으므 로변수선택을실시하자. Stepwise, Forward, Backward 방법이있으나설명변수개수가 많지않으므로수작업에의한변수선택을실시하자. 유의확률이가장큰 A0 를제외하자. ( 여기서잠깐, 설명변수 A 의유의확률이비슷하면 분석자의주관적선택이가능하다 ) 설명변수 A 는유의하지않다. 당연히제외해야하나, (P. E) 만으로회귀분석을실시하면 설명변수 P 도유의하지않다. 그러므로유의수준을다소높여 0.15 로하고최종회귀모형 을설정하는것이바람직하다. (5) 영향치진단 이상치나영향치를진단하는다양한통계량을이용하여진단해야하나간단하게스튜던트잔차 (student residual, 기준 ± 2 ), 스튜던트제외잔차 (Rstudent, 기준 ± 2 ), leverage(hat diagonal, 기준 2 ( p + 1) / n = 8 / 21 = 0. 38 ) 만을살펴보면된다. 마지막 22 번째관측치가이상치로판단된다.
REGRESSION / 8 장. 영향치및잔차분석 189 (6) 잔차분석 더이상이상치로판단되는관측치는없다. 1 오차의독립성검정 ( 시계열자료이므로 ) 에필요한 Durbin Watson 통계량을출력한다. DW 통계량은오차자기상관존재여부를판단한다. e = ρ 1 + ε t, ε t ~ iidn(0, ) 자기상 t e t 2 σ * 관이존재한다는것은회귀계수 ρ 가 0 이아니라는것이다. 다음은자기상관을검정하는 DW 검정통계량이다.
REGRESSION / 8 장. 영향치및잔차분석 190 DW n ( e i= 2 = 2 i ei 1) n 2 ei i= 1 e 만약자기상관이존재하지않으면 DW 는 2 에근사한다.(why? DW 검정통계량에 = ρ 1 + ε t 을넣고 ρ = 0 으로해보자 ) 임계치 DL 과 DU 는자료의개수와설명변수의 t e t 개수 p 에의존하며표가따로주어진다. 만약 렇지않으면귀무가설기각한다. D L DW D U 이면귀무가설채택한다. 그 ( 0, D L ) ( D L, DU ) ( DU,4 DU ) ( 4 DU,4 DL ) ( 4 D L, DL ) 귀무가설기각 양의자기상관 미결정 H 0 기각도채택 도하지않음 귀무가설채택 자기상관없음 미결정 H 0 기각도채택 도하지않음 귀무가설기각 음의자기상관 DW 표에의하면 n=21, p=3인경우 ( DL = 0.8, DU = 1.41) 이다. DW 통계량은 2.24이므로 귀무가설은채택되고자기상관이존재하지않는다. 오차의독립성성립한다. 1 st autocorrelation 은오차와 Lag 오차간의상관계수를의미한다. order 2 잔차의이분산성을검정하거나설명변수의이차항이필요한지알아보기위하여실시 한다. 이미이상치진단은실시하였다. 다른산점도는문제가없으나설명변수 A 의경 우산점도가 2 차형태를띈다.. 문제해결책으로설명변수 A의제곱항을설명변수를넣었다. A는유의하지않았으므로제외하고 A의제곱항을설명변수로하였다. 만약설명변수 A도유의하였다면 A를표준화하여설명변수로사용하는것이바람직하다. 다중공선성문제해결을위하여
REGRESSION / 8 장. 영향치및잔차분석 191 설명변수가다시선택되었으므로다시이상치진단을해야한다. 진단결과 22 번째가역시이상치로판단되어제외하고다시이상치진단을하였다. 13 번 째가다시이상치이다. 계속제외되므로여기서멈추기로한다. 기준을 2.5 로높인다. 이제잔차분석을다시시작해보자. 산점도도문제가없어보인다. 3 잔차의정규성검정결과
REGRESSION / 8 장. 영향치및잔차분석 192 (7) 최종회귀모형 최종회귀모형 2 매출 = 8.603 + 4.602 * ( 홍보비) + 22.01* ( 비용) 0.797 * ( 광고비) p < 0.001 p < 0.0001 p = 0.0009 홍보비가많이쓰면매출이올라가고매출관련비용이높아질수록매출이늘어난다. 당 연하지않나? 광고비의경우 2 차형식을가지고이차항의부호가음이므로광고비가높아 지면매출이증가하다가다시감소하는경향이있다. 물론완전히떨어진다고보기어렵지 만 성장곡선의형태가된다. 표준화회귀계수를보면매출관련비용이홍보비에비해매출에더튼영향을줌을알 수있다.