REGRESSION / 3 장. 잔치분석 50 Chapter 3 잔차분석 이론이나경험에의해변수간의회귀모형을설정하고 y = α + βx ( 선형 : lnearty), 관측치가 ( x, y ), = 1,,..., n 얻어지면이를이용하여회귀분석을실시한다. 설정된회귀모형에 는오차항에대한 3가지가정 e ~ dnormal(0, σ ) 을한다. ( 정규성 normalty, 등분산성 homoscadcty, 독립성, ndependence) 1 관측치를이용하여 OLS 추정치 (resdual) r =, 그리고 ˆ σ = MSE 을구한다. eˆ = y yˆ ˆ α, ˆ β 을구하고, 예측치 (predcted) yˆ = ˆ α + ˆ βx, 잔차 이때까지는오차에대한가정이필요없다. * 분산분석접근을이용하여 H 0 : β = 0 검정할때는 = SSR /1 MSR F = ~ F(1, ) SSE /( n ) MSE n 이용한다. 단순회귀 ( 설명변수가하나 ) 분석에서는 와 3이동일하다. 3 βˆ 의분포를이용하여 H : β 0 ( 설명변수가종속변수에영향을미치지않는다. 선형 0 = ˆ * β β 관계가존재하지않는다 ) 가설검정을 0( = 0) T = ~ t( n ) 이용한다. s( ˆ) β 장에서살펴본것은 H : β 0 의유의성을검정하여설명변수가종속변수의변동을설 0 = 명하는정도가 유의하다 는가설을검정하였다. 이런가설검정은오차의 3가지가정과선형성하에서이루어졌다. 그러므로이런가정이성립해야회귀분석결과가타당한것이 다. 이에대한분석을잔차 (resdual) 분석이라한다. 회귀모형에서종속변수는오차항의가정을그대로따르므로종속변수에대한일변량 분석 (stem-leaf plot, box-whsker plot, Shapro-Wlk W- 통계량 ) 을다루는책도있으나잔차분 석만으로충분하므로본강의에서는제외한다. 3.1 잔차 회귀모형에서오차항은측정할수없으므로오차항 ( e = Y E( Y ) ) 에대한추정치가필요한데이를잔차라한다. 오차의가정은잔차에의해성립여부가판단된다. 잔차는다음 과같이정의된다. r = eˆ = y yˆ Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 60 참고 SAS에서스튜던트잔차 (Studentzed resdual) 와예측치 ( Yˆ ) 의산점도를 PROC REG에서그릴수있다. Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 61 3.4 가정파괴와해결책 선형회귀분석이란선형모형을설정하고수집된데이터를이용하여회귀계수를추정하고 (OLS 방법 ) t-검정이나분산분석에의해설명변수의유의성 ( 단순회귀모형에서는회귀계수의유의성과동일 ) 을검정한다. 그리고얻어진적합 (ftted) 회귀모형에의해주어진설명변수의값에대한종속변수의예측치를얻는다. 이런과정에서회귀모형은선형이고오차는독립성 ( 시계열자료만 ), 등분산성, 정규성을가정한다. 이제이런가정을진단하는방법과파괴되었을때해결책을살펴보기로하자. 다음은잔차와예측치의산점도를그린것이다. 무작위패턴, 문제없 3.3.1 선형성 (lnearty) 등분산가정무너짐 설명변수이차항필요 새로운설명변수필요 진단방법 1( 설명변수와종속변수 ) 산점도 이차함수형태 잔차와예측치산점도 이차함수형태 해결방법 1설명변수의이차항이나다차항을삽입한다. 산점도를보면종속변수와설명변수의직선 ( 산형 ) 관계를진단할수있다. 잔차와예측치의산점도가일정한함수형태를가지면 ( 일반적으로이차함수 ) 선형성이무너지게되는데이를해결하려면설명변수의이차항을설명변수로추가한다. 이차항을추가할때는설명변수를표준화한후넣으면다중공선성문제가완화된다. ( 다음페이지참고 ) Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 6 EXAMPLE 3- 선형성파괴 : 이차관계 종속변수와설명변수의산점도를보면직선관계라고보기어렵다. 이차함수관계에가 깝다. 그러나설명변수 X 의회귀계수유의성검정결과는매우유의하므로잔차분석을하지 않는다면설명변수와종속변수간에는직선관계가성립한다고결론내리게된다. 잔차와예측치산점도를살펴보자. 무작위패턴이아니라이차함수형태를가지므로설 명변수의제곱항이필요하다. 이는앞의산점도에서도예상되었던일이다. 이처럼종속변 수와설명변수의산점도는회귀분석결과를미리예상할수있게하는주요도구이다. Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 63 Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 64 회귀계수에대한 t-검정결과설명변수 X, X 모두유의하고잔차분석결과잔차가 패턴을갖지않으므로최종회귀모형은 Yˆ = 10.03 + 0.16X 0.0004X 이다. 회귀계수도유의하고잔차에도아무문제가없어보인다. 그러나 설명변수의일차항과이차항을회귀모형에동시에넣으면다중공선성문제가발생한다 는것이다. 다중공선성이란설명변수들간의높은상관관계로인하여회귀계수추정치의 분산이커져추정치의부호까지바뀌는심각한문제를의미한다. 설명변수를표준화한후 넣으면다중공선성문제가다소해결할수있다. 정말다중공선성문제가발생하는지알아보자. 다중공선성에대한자세한다음에다루기로하고여기서간단히언급하겠다. VIF. Condton Index를출력하기위하여 VIF, COLLIN 옵션을사용하였다. VIF, condton Index 가 10( 일반적으로 ) 이상이므로, X X 은다중공선성문제를일으킨다. 이제설명변수 X 을표준화한후설명변수로사용해보자. STANDARD procedure 는평 균 (M=0) 과표준편차 (STD=1) 에의해표준화하는문장이다. Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 65 다중공선성문제는해결되고회귀계수도유의하였다. 여기에는보여주지않았지만잔차 와예측치의산점도에도아무문제가없었다. 최종회귀모형은다음과같다. Yˆ * * 5.55 +.13X 0.97 X =, where X * = X X S X HOMEWORK #4- DUE 3 월 30 일 ( 수 ) 다음자료에서설명변수 X 가종속변수 Y 에선형적인영향을미치는지분석하시오. 잔차 분석결과문제가있으면해결하고최종회귀모형을제시하시오. SPSS 사용 3.3. 등분산성 (homoscedastcty) 진단방법 1잔차와예측치산점도, 나팔모양 해결방법 1 가중최소자승법, WLS(Weghted Least Square) 사용한다. 종속변수변환. 일반적으로 LOG 변환을하는것이일반적이다. 잔차와예측치산점도에서나팔모양이면오차의분산이예측치가커짐에따라커지거나작아지고있음을의미하므로등분산가정이무너지게된다. 이런경우가중최소자승추정치를이용하거나종속변수변환을실시한다. 등분산의경우일반적으로오차의분산은 V ( e ) = σ = σ / w 으로가정되고가중최소자승가중치로 사용한다. w = 1/ y, 혹은 w = 1/ x 을주로 WLS(Weghted Least Square) mn w ( y α βx ) 인 α, β ) α, ˆ β 을 WLS 추정치라한다. 일반적으로가중치 w 는 1/ σ σ ( Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 66 을알고있을때, 그러나실제알지못한다 ) 혹은 잔차분석은잔차와예측치산점도에주로의존하므로 1/ x, 1/ ˆ ˆ 1/ y y 등을사용한다. 단순회귀의 을주로사용한다. 다중회귀에 서는문제가되는설명변수를이용한가중치 / x 을사용하기도하지만판단이쉽지않아 다중회귀모형에서도 ˆ 1/ y 을사용한다. 1 가중회귀추정치를구하는문제는다음과같이생각할수있다. 종속변수가 * y, 설명변 수가 1/ x 인회귀모형의 OLS 구하는문제와동일하다. 가중치를 1 y α * 1 mn ( y α β ) = mn ( β ) = mn ( α β ), x y α β x α, β x x α, β x ˆ 1/ 가중회귀추정치이다. EXAMPLE 3-3 y 사용했을때는다음정규방정식에의해추정치를구할수있다. 이를 α w + β w x = w α w x + β w x = w x y y 이분산성문제 NFL 선수연봉관련자료이다.[ NFL.xls] 연봉 (salary), 포지션 (poston: 1=Offensve Back, =Defensve Back, 3=Lneman, 4=kcker/punter), Draft 순위 (draft), 경력 (yrs_exp), 출장회수 (played), 선발출장회수 (started), 지역인구 (cty_pop) 를조사하였다. Draft 순위가연봉에미치는영향을보기위하여선형회귀분석을실시하자. 다음은종속변수 (salary) 와설명변수 (draft) 의산점도이다. 여기서도알수있듯이설명변수의각값에서보면종속변수의변동이다름을알수있다. 산점도를통하여서도종속변수의변동이다름을알수있다. 아마이분산 (heteroscedastcty) 문제가발생할것이라는것을예상할수있다. 그런데문제가심각해보인다. 이분산문제가부채꼴의형태가아니라는것이다. 왜냐하면가중자승추정은부채꼴의이분산만해결할수있기때문이다. 산점도에의하면이상치도존재하는것같다. Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 67 회귀계수검정에의하면추정된회귀모형은적합하다.( 유의확률 <0.001) 문제가없어 보인다. 잔차분석전까지는 불행히도잔차와예측치의산점도는나팔모양을갖는다. 이는이분산문제가발생했음을말해준다. 이분산문제로인하여네모상자부분의관측치들이이상치로간주되고있다. 산점도를보면종속변수의값이커짐에오차의분산이커지므로이분산문제를해결하기 위해서는가중치로 ˆ 1/ y 을사용하면된다. Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 68 다음프로그램은가중치를 ˆ 1/ y 하여 WLS 추정치를구한프로그램이다. (ŷ 값이용하여가중치계산 ) 회귀계수추정치가 OLS 추정치와다르다. 회귀계수는매우유의하다. 그러나잔차와예 측치산점도를보면여전히이분산문제가있는것으로나타났다.( 아래산점도 ) 이는종속 변수 ( 연봉 ) 와설명변수 (DRAFT) 의산점도에서살펴본것같이나팔모양이아니라양쪽이 넓어짐을알수있다. 이로인하여 1 을가중치로이용한 WLS 추정방법은문제해결을하지못했다. / ŷ 가중회귀분석절차는이다. 가중치 를종속변수의예측치로사용하려면우선일반회귀분석을시행하여종속변수의예측치를 변수로저장하여구한후에종속변수예측치 ( 변수명 : ) 를지정하면된다. Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 69 HOMEWORK #4-3 DUE 3 월 30 일 ( 수 ) 다음자료는나이가혈압에영향을미치는지알아보고자조사한자료이다. 잔차분석결 과문제가있으면해결하고최종회귀모형을제시하시오. SAS 이용하기 3.3.3 변수변환회귀분석에서변수변환 (varable transformaton) 은오차의비정규성문제, 종속변수와설명변수간의비선형함수관계해결에이용된다. 변수변환은종속변수나설명변수모두가능하나일반적으로종속변수에하는것이적절하다. 왜냐하면회귀계수의의미는설명변수 한단위의증가에따른종속변수변화량이므로해석의편리성때문이다. 변수변환방법설정은원변수의산점도나잔차와예측치의산점도에의해결정한다. 다 음은잔차와예측치산점도의형태에따른적절한종속변수변환방법을보여준다. * y = y y * = * 1/ y y = ln( y ) EXAMPLE 3-4 변수변환 NFL 선수연봉자료에서 Draft 순위가연봉에미치는영향을보기위하여선형회귀분석을실시하였더니이분산문제가발생하였다. 그러나 WLS 추정방법에의해이분산문제를해결하지못하였다. 변수변환에의해이분산문제를해결해보자. Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 70 종속변수를로그변환한후회귀분석을실시해보자. 회귀계수도유의하고잔차와예측치산점도에도이상치만몇개나올뿐이분산문제는 해결되었다. 이처럼로그변환은많은문제의해결책으로빈번히등장한다. 설명변수유의무작위로보이므로이분산문제해결 회귀계수 H : β 0 가설검정결과귀무가설이기각되고, 잔차분석결과문제 (Random 0 = pattern) 가없으므로최종회귀모형을얻을수있다. 아직이상치는제외하지않았지만 설명변수 Draft 순위는선수연봉에영향을미치되음의영향 ( 추정회귀계수 βˆ 부호 -) 을미친다. 즉, draft 순위가늦을수록연봉은높아진다. 추정된최종회귀모형은다음과같다. ln( sa lary ˆ ) = 1.99 0.0705* draft Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 71 1.7785 Draft 순위가 3위인경우연봉은얼마인가? 354,51.9(= e )($) 이다. 다중회귀모형에서는종속변수와설명변수의산점도를보고선형관계가아닌설명변수가존재하면설명변수에대한변수변환을실시한다. 일반적으로변수변환은종속변수와설명변수어느것이나가능하나다중회귀의경우에는설명변수를단순회귀에서는종속변수를변환하는것이일반적이다. y * = log y, y * = 1 / y * x = x, * x = x 3 * * y = y, y = y x * = log x, * x = 1 / x 3 y * = log y, y * = 1/ y x * = log x, * x = 1 / x EXAMPLE 3-5 변수변환 () 다음자료에대한회귀분석을실시해보자. * * y = y, y = y * x = x, * 3 x = x 3 종속변수와설명변수의산점도를보면종속변수와설명변수의관계는직선으로생각하기에는어렵다. 이산점도는페이지 70의변수변환보기그림의첫번째와비슷하므로종속변수 y * * = log y 이나설명변수의 x = x 변환이적절하다. Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 7 잔차와예측치의산점도는마치설명변수이차항을삽입해야하는형태이다. 페이지 70 을보라. 위형태의산점도를보이면이문제를해결하기위하여설명변수를변환하는경 우제곱변환을해야한다고설명하였다. 앞에서언급하였듯이종속변수변환이해석용이, 일반적인방법이므로종속변수변환을사용하여문제를해결하였다. 직선관계가적절하지않아도선형회귀모형을추정하면유의하다. ( 기울기회귀계수의유의확률 =0.0001) 그러므로 F-검정이나 t-검정에만의존하여모형의유의성 ( 회귀계수의유의성, 설명변수의유의성 ) 을검정하면문제가발생한다. 잔차와예측치산점도의경우를보면설명변수의이차항이빠진것으로판단된다. 그러 므로설명변수의이차항을넣는것도고려할수있다. 그러나이차항을넣으면설명변수 일차항과다중공선성문제가발생하므로사용하지않는것이좋다. (3.3.1 절끝부분 ) 종속 Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 73 변수변환후 y * = log y 회귀분석을실시하자. Log(y) 와 X의산점도는직선형태를보이고, 잔차와예측치의산점도문제가없어보이므로추정회귀모형은적합하다. 설명변수 X 가한단위증가하면종속변수 ln(y ) 는 0.46 0.46 증가한다. 그러므로 Y 는 e = 1. 584 증가한다. Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 74 최종회귀모형 : Ln( y) = 0.18 + 0.4596* X (p < 0.0001) 우선변수변환을실시한다. 데이터에 로그Y 변수가계산된다. 이제종속변수를 로그Y, 설명변수를 C로하여회귀분석을실시하면된다. HOMEWORK #5-1 DUE 4 월 6 일 ( 수 ) HOMEWORK#4- 문제를변수변환방법으로해결하고최종회귀모형을구하고해석하시오. SPSS 사용 Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 75 참고 (1) 에서변수표준화하기. 을누르면데이터마지막열에표준화변수가만들어진다. () 에서잔차의정규성검정하기. 회귀분석을실시하고잔차를변수로저장한다. Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 76 데이터마지막열에잔차가만들어진다. 다음방법을이용하여잔차의정규성을검정하면된다. 종속변수에는잔차를설정하고 도표 옵션을아래와같이설정한다. K-S나 S-W 검정통계량모두유의확률이 0.05보다크므로귀무가설 ( 정규분포를따른다 ) 은채택되어정규성을만족한다고할수있다. 정규성검정 Kolmogorov-Smrnov(a) Shapro-Wlk 통계량자유도유의확률통계량자유도유의확률 Unstandardzed Resdual.17 10.00(*).915 10.318 Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 51 3.1.1 잔차의성질 ( r r) ( r ) ( y yˆ ) 잔차의평균은 0이고분산은 MSE ( V ( r ) = = = MSE ) 이다. 실 n n n 제잔차들은서로독립은아니다. 왜냐하면잔차를구하기위해서는 ˆ α, ˆ β 가추정되는데이추정치에는각관측치 ( x, y ) 의정보가모두있기때문이다. 그러나우리가앞에서증명하였듯이 x r = 0, yˆ r = 0 이성립하고모수 ( α, β ) 의개수에비해관측치의개수 ( n ) 가상대적으로크면잔차의비독립성효과는줄어든다. 실제횡단면자료 ( 시계열자료가 아님 ) 에대한회귀분석에서는오차 ( 잔차 ) 의독립성검정을실시하지않는다. 시계열자료 에서오차의독립성은 Durbn-Watson (DW) 통계량을이용한다. 3.1. 잔차분석정의 잔차분석이란오차의추정치인잔차를이용하여다음정보를얻어내는과정을의미한다. (1) 설명변수와종속변수의함수관계는선형인가? () 오차의분산은설명변수의값에따른변화는없는가? ( 등분산성 ) (3) 오차항은서로독립인가? ( 독립성 ) (4) 이상치나영향치가존재하는가? (5) 오차항은정규분포를따르는가? ( 정규성 ) (6) 고려된설명변수이외다른주요한설명변수가존재하지는않는가? 3. 잔차의종류 3..1 표준화잔차 잔차의표준화값을표준화잔차 (standardzed resdual) 이라하고다음과같이정의한다. z = r r MSE 위식에서알수있듯이표준화잔차는추정회귀식으로부터관측치가얼마나떨어져 있나를나타내는것으로 ± 보다크면이상치 ( 혹은영향치 ) 일가능성이높다. 잔차를이용 한통계량은표준화잔차이외에도많이존재하는데이는나중에다루기로한다. Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 5 3.. 스튜던트잔차 (Studentzed Resdual) y yˆ ' 1 r =, h = x ( X X ) x MSE /1 h 잔차를 t-분포를따르는통계량으로만든것으로 ± 이면이상치 ( 혹은영향치 ) 로판단하 게된다. 3..3 스튜던트제외잔차 자신의관측치를제외하고회귀모형을추정한후얻어진잔차로다음과같이정의한다. y yˆ ( ) ' 1 r( ) =, h = x ( X X ) x MSE( ) /1 h yˆ ( ) 는 -번째관측치를제외하고얻은추정회귀모형으로부터구한예측치, MSE() 는평균오차변동이다. 스튜던트화제외잔차가 ± 는이관측치는이상치 ( 혹은영향치 ) 로판단 하게된다. 그럼스튜던트잔차와스튜던트제외잔차중어는것을이용하여이상치나영향치를 판단하는가? 스튜던트제외잔차를이용하는것이이상치를더욱많이발견하게되므로 일반적으로스튜던트화잔차를이용한다. 3.3 잔차진단 3.3.1 그래프 잔차분석의 6 가지이탈성에대한진단을위하여다음그래프를그릴수있다. 각각이대 응되는것은아님을주의하기바란다. 1잔차 (Y-축) 와설명변수산점도 Scatter plot of resdual aganst ndependent varable: 설명변수와잔차의산점도는함수형태를가져서는안된다. 왜냐하면오차와설명변수가종속변수를설명하지못하는부분에해당되기때문이다. 단순회귀에서는설명변수가하나이므로설명변수와종속변수가동일하므로 ( 동일한형태 ) 단순회귀에서는이산점도를사용하지않는다. 다중회귀에서는오차의등분산성진단을위하여가끔사용하기도하지만유효성이의심되어이산점도는다중회귀잔차분석에서도거의사용하지않는다. Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 53 잔차와종속변수추정치산점도 : 잔차를 Y축, 종속변수의예측치를 X-축으로하여산점도를그린다. 잔차는추정된회귀모형이종속변수의변동을설명하지못하는부분에해당하므로산점도에일정한패턴이있으면안되고평균 0을중심으로무작위 (random) 하게흩어져있어야한다. 그리고잔차가크다는것은그관측치가이상치가능성있다. 또한이산점도에의해등분산성, 선형성도진단한다. 3잔차와시간 (tme) 의시간도표 (tme plot): 시계열데이터에만국한된다. 4변수 ( 관측치를나누는분류변수 ) 수준별잔차그래프 : 관측치를분류할만한변수가있을때에만 ( 예 : 성별 ) 가능하다. 즉설명변수이외에분류형변수 ( 이를지시변수라한다. 다음에다루기로한다 ) 가있을때만그린다. 5 잔차에대한일변량분석 : Stem and Leaf plot 과 Shapro-Wlks W- 통계량 ( 정규성 ), Box- Whsker plot( 정규성, 이상치혹은영향치 ) 이상치나영향치는 의그래프에서진단되 므로정규성만검정하면된다. 그러나일반적으로앞에서언급하였듯이회귀모형에서 비정규성은큰문제는아니다. 그러므로실제잔차분석은 의그래프만이용하여실시한다. 무작위패턴, 문제없설명변수이차항필요 등분산가정무너짐 새로운설명변수필요 Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 54 3.3. 통계소프트웨어이용하기 EXAMPLE 3-1 잔차분석 AD.xls ( 엑셀데이터 ) 잔차분석을위한 ⑴잔차와종속변수추정치산점도 ⑵잔차의정규성검정을실시하시오. 원데이터 0개모두사용하여회귀계수를추정하고이상치로판단되면제외하고회귀모형을다시추정하여추정하시오. MODEL 문장의옵션중 P, R을사용하면회귀계수추정결과와함께예측치, 잔차 ( 스튜던트잔차도출력 ) 가출력된다. 이것을이용하며어느관측치의스튜던트잔차가 이상인지발견할수있다. OUTPUT 문장은분석결과를 SAS 데이터로만드는데사용된다. OUT= 에는만들어지는 SAS 데이터이름을지정한다. PREDICTED= ( 혹은 P= ) 는종속변수예측치의변수이름지정, RESIDUAL= ( 혹은 R= ) 잔차, STUDENT= 는스튜던트잔차변수이름을지정하게된다. 스튜던트제외잔차는 RSTUDENT= 사용한다. Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 55 만들어진데이터안에어떤변수와관측치가있는지출력해보자. 이과정은필요없다. 단지확인상보는것이다. 스튜던트잔차와종속변수의예측치의산점도를그려보자. VREF 옵션은수평참조선을 긋는옵션이다. 스튜던트잔차가 ± 을넘는관측치가 개이므로이를제외하자. 제외하고 회귀분석다시실시하려면 OUPUT 문장에의해저장하여 PROC PRINT 사용하는것보다 는 MODEL 에서옵션사용하여회귀계수추정결과와함께출력하는것이편리하다. 산점 도에는특별한형태가없으므로 ( 무작위 ) 이상치문제만해결하면된다. 잔차의형태는무작위로보인다. 이상치가 + 보다큰것하나, - 보다작은 것하나, 두개의이상치가존재한다. 이산점도는이상치판단의통계량을나타 낸것이므로참조선을벗어난관측치는이 상치로판단하면된다. 페이지 53, MODEL 문장의 R 옵션에의해출력된결과를보면관측치 1, 9 는이상치에 해당된다. PLOT 문장에의해그려진산점도를보자. Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 56 스튜던트잔차에의해원의두관측치가이상치로밝혀졌다. 이를제외하고다시회귀계 수를추정해보자. REWEIGHT 문장은관측치를제외하고분석하라는의미이다. 산점도를보면다시 개 ( 관측치 5, 19) 가이상치이다. 이를제외하고다시회귀분석하면 1 개관측기치이상치 ( 관측치 7), 이를제외하고재분석하면관측치 11 가이상치이다. 이제 더이상이상치는없다. 이상치가존재하지않는것이확인되면오차의정규성을잔차에대한 UNIVARIATE 분석을통하여이용하여검정한다. Shapro-Wlk 정규성검정통계량의유의확률을보면 0.17 이므로귀무가설이채택되어정규분포를따른다고할수있다. 정규성검정통과 Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 57 0개관측치중 6개가이상치로제외되었으므로 14개의관측치만이용하여최종회귀모형을얻었다. 0개모두사용하여얻은추정기울기가 0.86이었는데, 이상치를제외한후추정된회귀모형은기울기는 0.47로변했음을알수있다. 광고비를 1단위증가시키면평가도는 0.47만큼증가한다. 최종회귀모형 : 평가 = 1.34 + 0.47 * 광고비 ( 페이지 44와비교 ) ( t = 3.97, p = 0.0015) 메뉴를선택하고나타난 선형회 귀분석 창에서종속변수와독립변수를선택한다. Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 58 옵션에서는잔차와예측치를변수로저장하고에서는산점도를그린다. X- 축의변수로는예측치를사용하나 SPSS 에서는표준화된종속변수예측치만있어이것 을대신사용하였다. 상관없다. Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 59 산점도가특별한형태를띄지않으므로이상치문제만해결하면된다. 스튜던트잔차의 절대값이 ± 이상인관측치가이상치로판단하므로이를제외하자. ABS는절대값을구하 는함수이다. 관측치 1, 9는이제부터제외된다. 다시회귀모형을추정하면 SAS 결과에서본것처럼 (5, 19), 7, 11이차례로제외된다. 최종결과는 SAS와동일하다. HOMEWORK #4-1 DUE 3 월 30 일 ( 수 ) CANCER.txt ( 텍스트데이터 ) 연평균온도 (F: Fahrenhet, 설명변수 ) 가여성종양사망지수 (mortalty ndex) 에영향을미치는지알아보기위하여유럽몇지역을대상으로조사한자료이다. SPSS 이용하기 HOMEWORK#3 산점도만보고관측치하나만제외했는데여기서는스튜던트잔차를이용하여이상치를판단하고결과를비교하시오. Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 77 3.3.4 정규성검정 진단방법 1 오차의추정치잔차의정규성검정실시 : 그래프 stem and leaf, Q-Q plot 등을을이용하기도하지만 S-W 통계량이나 K-S 통계량을이용한다. 잔차와예측치산점도, 이차함수형태 해결방법 1종속변수변환, Ln (y) 변환이나 y 변환이가장일반적이다. 앞에서언급하였듯이정규성파괴는그렇게큰문제가아니다. 데이터크기가 0 개이 상이면정규성검정은생략해도문제가되지않는다. EXAMPLE 3-6 정규성검정 3.3.3절예제데이터의경우종속변수를 LOG 변환하여 ln( y) 와설명변수 ( X ) 의선형회귀 모형을적합을시켜유의함을알았다. 잔차의정규성을검정해보자. 아래출력결과를보면유의확률이 0.31 이므로잔차는정규분포를따른다는가정을기 각하지못한다.( 오차에대한정규성검정만족 ) 줄기 - 잎그림이나나무 - 상자그림 ( 이상치, 치우침 ) 은참고그래프로이용할수있으나최종판단은 S-W 검정통계량을이용한다. Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 78 HOMEWORK #5- DUE 4 월 6 일 ( 수 ) HOMEWORK#4-1, #4- 에서정규성검정을실시하고문제가있으면해결하시오. 3.3.5 영향치나이상치존재여부 진단방법 1 표준화잔차 ( 잔차를표준오차 MSE 로나눈값 ) 와예측치의산점도 해결방법 1영향치 (nfluental obs.) 는영향치를포함하고회귀모형을추정하고제외 하고추정하여모두제시한다. 이상치 (outler) 는제외하고모형을추정한다. 영향치나이상치는모두다른관측치에비해오차 ( 잔차 ) 가큰관측치라는점에서공통점이있으나이상치 ( 빨강관측치 ) 는비교할대상이 ( 설명변수관계속에서 ) 있어그값들에비해값이매우크거나작아회귀계수추정값을변화시킨다. 한편영향치 ( 파랑관측치 ) 는회귀계수추정값을변화시키지만비교대상이되는관측치가없으므로이상치인지판단할수없는경우에해당된다. 영향치가존재하는경우에는 (1) 영향치를제외하고회귀 모형을추정하고 () 포함하여회귀모형을추정한두가지모두를제시하는것이옳다. 이상치도정보를가진관측치이다. 회귀모형적합을위해서는제외하지만왜이관측치 가다른관측치에비해 ( 설명변수기준 ) 종속변수의값이크거나작은지파악하여정보를 얻고이를연구결과나의사결정에반영할필요가있다. EXAMPLE 3-7 이상치문제해결 NFL 데이터의경우종속변수를 LOG 변환하여 ln(y) 와설명변수 ( X ) 의선형회귀모형을적합을시켰고유의함을알았다. 또한잔차분석결과모든것이유의하였다. 이제영향치나이상치가있으면이를제외하고최종회귀모형을얻어보자. Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 79 종속변수 SALARY 를로그변환하자. LOG(salary) 를종속변수, draft 를설명변수로하여회귀모형을적합을하자. 표준화잔차 를볼수있는방법은 MODEL 에서 R 을사용하거나표준화잔차와예측치산점도를이용 하면된다. 참조선을 ± 로하여그릴수있다. 이상치가 3개나타났다. STUDENT Res. 에서절대값이 이상인관측치를찾으면 1, 44, 16번째관측치다. Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 80 REWEIGHT 문을사용하면그관측치들은제외하고회귀모형을추정한다. 분산분석을보면총변동의자유도는 19( 총관측치수는 193) 로이전페이지보다 3 개 줄었다. 이는관측치 3 개가제외되었기때문이다. 이상치를제외하고표준화잔차를재계산하면다시이상치가생길가능성이있다. ( 아 래산점도에서타원부분 ) 이상치가없을때까지위의방법으로계속이상치를제거하면된다. 이상치제거가계속되면어디에서멈출까? 기준을높여 ±. 5 수준으로결정하시오. 3.3.6 설명변수누락 고려된설명변수이외에종속변수에영향을미치는설명변수가존재한다면잔차와 추정치산점도는오른쪽과같다. 이런경우이론이나경험을바탕으로새로운변수를회귀 모형에고려해야만한다. Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 81 3.4 회귀분석절차 3.4.1 단순회귀분석절차 (1) 회귀모형설정이론이나경험을근거하여인과관계설정 y = α + βx + e, ~ Normal(0, σ ) e () 산점도그리기비선형 (1) 선형모형재설정 (3)OLS 추정치구하기 (4) H : β 0 채택 (1) 0 = 모형재설정 가설검정 종속변수, 설명변수데이터 ( x, y ) 수집하면두 변수함수관계를보기위한산점도그린다. (1) 선 형관계가존재여부 => 변수변환 () 이분산진단 (3) 이상치, 영향치존재감지 mn( y α, β α βx ) 만족하는 ˆ α, ˆ β 구하기 가설검정 ˆ β β 회귀계수유의성 t-검정 : 0( = 0) ~ t( n ) s( ˆ) β 분산분석접근방법 : * MSR F = ~ F(1, n ) MSE 기 각 Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 8 (5) 선형성진단 도구 : 잔차와예측치 ( Yˆ ) 산점도 진단 : 포물선이나 3 차식형태 해결책 : 설명변수이차항 (X ) 이나삼차항 (X 3 ) Go to (3) (6) 등분산성검정 도구 : 잔차와예측치 ( Yˆ ) 산점도진단 : 나팔모양 해결책 : WLS( ˆ 1/ x,1/ y ) 혹은종속변수변환 Go to (1) Go to (3) (7) 주요변수존재도구 : 잔차와예측치 ( Yˆ ) 산점도 (8) 이상치진단 (9) 정규성검정 (10) 최종회귀모형 진단 : 직선경향 해결책 : 새로운설명변수고려해야한다. 도구 : 표준화잔차와예측치산점도 진단 : ± 넘는관측치, 이상치나영향치구별 해결책 : 이상치제거, 영향치진단 도구 : 잔차에대한일변량분석 진단 : 줄기 - 잎그림, Shapro-Wlk W- 통계량 해결책 : 적절한종속변수변환 (1) 추정회귀식제시 ( 유의확률과함께 ) yˆ = ˆ α + ˆ βx (p =...), 결정계수 R () 선형회귀모형에서기울기 βˆ 에대한해석 (3) 관심있는설명변수값에대한종속변수예측치와신뢰구간 Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 83 3.4. CANCER 데이터회귀분석하기 EXAMPLE 3-8 회귀분석하기 연평균온도가암사망지수에영향을미치는지알아보자. CANCER.txt 순서 (1)-() 종속변수와설명변수산점도 위의산점도를살펴본결과 (1) 선형관계는존재하는것같다. 만약산점도의형태가변수 변환이필요하다고판단되면 ( 종속 ) 변수변환후회귀분석을실시하면된다. 변수변환을 해야하는지여부는잔차분석에서도판단되지만산점도에의해변수변환이필요하다고 판단되면변환을하는것이좋다. () 이분산문제는없어보인다. (3) 영향치는없으나이상 치가존재하는것같다. (1) 선형관계 () 등분산가정만족 (3) 이상치존재 순서 (3)-(4) 회귀계수유의성검정 회귀계수유의성 ( H 0 : β = 0, H a : β 0 ) 검정이나설명변수의유의성 ( 설명변수가종속변수를선형적으로설명한다 ) 검정은동일하다. 선형회귀의경우설명변수의유의성검정을위한 t-검정이나분산분석적유의성검정f-검정은동일하다. 귀무가설 H : β 0 에대한가설검정결과 p-값이 0.05보다작으므로통계적으로유의 0 = 하다. 즉온도는사망지수에양의영향을미치고 1도올라가면사망지수가 0.35 높아진다. 잔차분석실시하기전에잠정적으로다음회귀모형은적절하다고할수있다. Index = 17.58 + 0.3 * Temp (t = 4.3, p = 0.001) ( t = 6.76, p < 0.0001) Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 84 만약회귀계수가유의하지않으면다음순서로갈필요는없다. 아직추정회귀모형을발표하기에는이르다. 모형에대한가정진단및이상치발견을위한잔차분석과정이남아있기때문이다. 순서 (5)-(7) 잔차분석 선형성, 등분산성이무너질만한특별한패턴이존재하지않고, 변수변환이필요한것같 지도않다. 회귀모형의선형성과오차의등분산가정이성립한다. Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 85 순서 (8) 이상치진단 이상치존재여부는스튜던트잔차가 ± 이상인지에대한판단으로결정한다. 다음프 로그램을실행하자. P 는종속변수예측치 R 은잔차, 표준화잔차, 스튜던트잔차등을출 력창에출력하라는명령이고 VREF, HREF 옵션은산점도에참조선을긋는옵션이다. 위의산점도를보면이상치가하나존재한다. 출력창의잔차출력결과를보면 15 번째 관측치가이상치이다. 이는순서 () 산점도 ( 종속변수와설명변수 ) 에의해서도이미예상된 결과이다. 이상치인지영향치인지여부는종속변수와설명변수의산점도에의해결정된다. Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 86 다음은관측치 15번째를제외하고회귀분석을실시한결과이다. 스튜던트잔차가 ± 이상인관측치는더이상존재하지않는다. 이상치는없다고할수있다. 순서 (9) 정규성검정오차의정규성을검정하기위하여 OUTPUT 옵션에의해스튜던트잔차를 SRES 변수명 으로, 잔차는 RES 변수명으로 SAS 데이터 OUT1 에저장하였다. 일반적으로잔차를이용 하여오차의정규성을검정하지만 SAS 의경우 REWEIGHT 에의해이상치를제외한경우 제외된이상치라도출력결과창에는결측치로나오나 OUT1 에는잔차가계산되어저장되 어있다. 그러므로스튜던트잔차로해야된다. ( 차이는무시할만하다 ) 물론 SPSS 에서는 표준화하지않은 잔차를이용하면된다. Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 87 잔차에대한정규성검정을위하여 NORMAL( 통계량출력 ), PLOT( 줄기 - 잎그림, 상자수 염그림 ) 을그리게했다. 시각적도움은얻을수있으나줄기 - 잎그림이나상자 - 수염그림에의해서는정규분포 를따르는지 ( 아니적어도좌우대칭이되는지 ) 알수없을뿐아니라정규분포를따르는지 에대한유의성을판단할수없다. 유의확률이 0.05 보다크므로귀무가설 ( 정규분포를따른 다 ) 이채택되어정규성가정은만족함을알수있다. S-W W- 검정통계량과 K-S D- 검정통계 량 (Goodness of fts 검정 ) 중어는것을사용할것인가? 일반적으로 W-검정통계량을사용한다. 순서 (10) Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng
REGRESSION / 3 장. 잔치분석 88 관측치개수는 16 개였으나 1 개가이상치로판단되어 15 개데이터만이용하여회귀분석 을실시하여다음결과를얻었다. 평균온도는암사망지수에양의영향을미치고온도가 1 도올라가면사망지수가 0.83 만큼높아진다. Index = 1.55 + 0.83* Temp, R = 0. 85 ( t = 8.7, p < 0.0001) 만약온도가 90 도인국가의암사망지수를예측하고 95% 신뢰구간을구하려면다음과 같이하면된다. P 는예측치, CLM 은평균에대한신뢰구간을출력하라는명령이다. 데이터마지막라인에예측을원하는설명변수 값을지정하고종속변수는결측치를의미하는. 을찍는다. 그러면이관측치는회귀모형추정에사용되지 는않고예측결과만출력된다. 위의회귀모형에서 TEMP에 90을넣으면 47.3 이나오는데이는아래결과와일치한다. HOMEWORK #5-3 DUE 4 월 6 일 ( 수 ) 3.4. 절 CANCER 데이터회귀분석작업을 SPSS 로시행하시오. Prof. Sehyug Kwon, Dept. of Statstcs, HANNAM Unversty http://wolfpack.hannam.ac.kr @005 Sprng