REGRESSION / 4 장. 다중회귀 89 Chapter 4 다중회귀 장에서는설명변수가하나인단순회귀모형에대한추론과분석방법에관해다루었 다. 간편성 회귀분석개념에대한이해 그러나현실세계에서는 설명변수하나만으로 설명력이부족하고 유의한설명변수간영향력비교가요구된다. 이로인하여설명변수 가 개이상인회귀모형에대한분석이필요하게된다. 이를다중회귀분석이라한다. 동일설명변수의 차항과 차항이동시에있는모형은다중회귀모형이라기보다는다항 회귀모형 Polynomial Regression 이라한다. 동일변수의 차항과 차항이동시에들어간회 귀모형은설명변수간다중공선성문제가발생하므로이를해결하기위하여설명변수를표 준화하여사용해야한다고언급하였다. 4. 모형과가정 설명변수의개수가 p 이고관측치개수가 n 인경우다중회귀모형은다음과같다. Y i = β 0 + βi + β i +... + β p pi + ei i =... n --- e i ~ iidn0 σ : 오차항 ei 는 독립성 정규성 등분산성 단순회귀분석과동일 β 0 β... β p 는회귀계수이며모수 parameter 이다. βi 는 i-번째설명변수의편미분계수 로다른설명변수의값이고정일때영향력을의미한다. 설명변수 i i... pi 는 deterministic 이고 확률변수가아니다 그러므로종속변수의 분포는오차항의분포와동일하다 적어도하나이상은측정형변수이어야한다. 설명 변수가모두분류형 범주형 이면분산분석 ANOVA 이다. 회귀분석에서분류형설명변 수를지시변수 indicator variable 혹은가변수 dummy variable 라한다. 식 을행렬로표현하면다음과같다. y y = L y n x x L x p β 0 e x x L x p β e + y = β + e e ~ N 0 σ I L L L xn xn L x np p e β n http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 90 데이터 y x x L xp y x x L x p L y xn xn L xnp y : 종속변수벡터 차수 n : 데이터행렬 차수 n p + β : 회귀계수벡터 차수 p + e : 오차벡터 차수 n 이로부터 4. 산점도행렬 E y = β V y = σ I n 이고종속변수는정규분포를따른다. 단순회귀의시작은종속변수와설명변수의산점도를그려 변수간의함수관계 이 상치나영향치존재여부를판단할수있다. 다중회귀분석의시작도산점도를그리는것이 다. 종속변수와설명변수간의산점도 이는단순회귀분석에서산점도를그리는이유와동일 하다 설명변수간의산점도 다중공선성문제미리진단 를그린다. 설명변수가 p 개인경 우산점도의개수는 p+ C = 도행렬 scatter plot matrix 이라한다. EAMPLE 4- p p + 이다. 이산점도들을행렬처럼그려놓은것을산점 산점도행렬그리기 학생의성별 IQ 종류 FSIQFull scale IQ VIQVerbal 언어 PIQPerformance 수행능력 와신체조건 키 몸무게 과두뇌의크기 MRI 개수 을조사하였다.MRI_IQ.xls 종속변수를 FSIQ라하고설명변수를 VIQ PIQ HEIGHT WEIGHT MRI라하자. n = 8 MRI_IQ.xls SAS 에서산점도행렬을그리려면 SAS/INSIGHT 가있어야한다. 이제품에대한라이센 스가없으면아래에러메시지가 LOG 윈도우에출력된다. 해결방법은? 여러개의산점도 를그릴수밖에없다. http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 9 그러나 다소어려운점이있다. 아래프로그램을실행하면종속변수와설명변수들의 산점도가출력되고각각하나씩출력된다. T.T MRI_IQ.xls 데이터를 SAS 데이터 MRI 로만든후메뉴에서다음절차를밟아대화식데 이터분석 SAS/INSIGHT 을실시하면된다. 산점도그릴변수를선택한후 CRTL 을누른상태에서마우스로선택한다 분석메뉴에 서산점도옵션을선택하면된다. 우상단삼각형과죄하단삼각형은동일한산점도이므로상단산점도만해석하면된다. 빨간박스안은 가능하면종속변수가제일위에올라오게데이터를만드는것이유리하다 종속변수와설명변수들간에산점도이므로종속변수에유의한영향 직선관계가존재 을미치는설명변수를예상할수있다. VIQ와 PIQ는 FSIQ에양의영향을미침을 상관계수양 회귀계수부호양 파란타원 알수있다. 영향치나이상치는존재하는것같지않다. 파란역삼각형부분은설명변수들간의 함수 관계를나타내는산점도이므로변수들간의 http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 9 직선 상관 관계가존재하면다중공선성문제 상관관계가높은설명변수들에의해종속변수를설명하는부분이겹친다. 이로인하여회귀계수추정치의분산이커진다 가발생하므로미리주의해야한다. 이에대해서는나중에자세히다루기로한다. PIQ VIQ 키 몸무게 뇌의크기 사이에는양의상관관계가존재함을알수있다. SPSS 에서산점도행렬을그리려면다음방법을사용하면된다. 메뉴를선택한후아래와같이설정하면된다. http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 9 종속변수와설명변수를행렬변수에넣는다. 종속변수를제일위에오게하는정도의 센 스 는갖자. 그래야종속변수와설명변수들의산점도가가자위에나오게되고 HOMEWORK #6- DUE 4 월 일 수 CARS.txt 텍스트데이터 연비에영향을주는변수로자동차무게 운전비율 마력 배기량 실린더수를고려하였 다. 우선산점도행렬을먼저그리고해석하시오. 데이터 CARS.txt Country: 제조국가 U.S. Japan MPG: Miles per gallon 연비 Car: 자동차이름 4Weight: 자동차무게 5Drive_Ratio: Lead-screw 회전운동을직선운동으로바꿈 회전당모터회전비율 http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 94 6Horsepower: 마력 7Displacement: 배기량 8Cylinder: 실린더수 지시변수 4. 추론및분산분석 4.. 회귀계수에대한 OLS 추정 OLS 추정치는오차항의제곱합 중회귀모형으로부터 는추정치가 OLS 추정치이다. 즉 n min e i β 0 β.. β p i= 을최소화하는추정치이다. 그러므로다 Y i = β 0 + βi + β i +... + β p pi + ei 오차의제곱합을최소화하 min yi β0. β... β p β 0 xi xi... px pi β β β 으로부터회 귀계수 β β β... β 의 OLS 추정치를구하려면각회귀계수에의해편미분을하여 0 0 p 이라놓은후 p + 개의방정식을풀어야한다. 행렬에의해 OLS 추정치를구해보자. 회귀모형 계수벡터를추정하면된다. 이고 min α β β n e... β p i= i Gauss Markov Theorem 에의해 E ˆ β = β 이고 About Matrix 차수가 = min e e = min Y β Y β β β V ˆ = σ y = β + e 로부터다음식에의해회귀 OLS 추정치 ˆβ = y ˆβ = y 는 BLUEBest Linear Unbiased Estimator β 이다. V βˆ 의추정치는 ˆ s β = MSE 이다. n p 인행렬 n p matrix of order n p 라부른다. i 는행을 j 는열을나 타내며행렬의간편기호는 n p = { x ij } 이다. xij 를원소 element 라한다. x x... x p x x... x p n p =...xij... xn xn... xnp http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 95 정방행렬 : 행과열의차수가같은행렬 즉 n = p A = 4 대각행렬 : 정방행렬에서대각선에위치한원소를대각원소 diagonal element 라하며 대각원소를제외한모든원소가 0 인행렬대각합 : 정방행렬의대각원소의합을대각합 trace 이라하고 n tr A = 로정의한다. 항등행렬 : 정방행렬중대각원소가모두 이고다른원소는모두 0 인행렬을항등행 렬 Identity Matrix 라하고 I 라표시한다. 항등행렬은선형대수 Linear Algebra 의곱 n 에서 의역할과동일하다. 행렬대수 matrix algebra 의역수의개념은역행렬 inverse matrix 이며정방행렬 A 에대해 i= AA = A A = I 가성립하는 A 을역행렬이라한다. I = 0 0 동일 : 차수가동일하고 대응원소가같으면두행렬은동일 equal 하다고한다. 즉 A = B 이면 a ij = bij for all i j 이다. EAMPLE 0 0 0 0 A = B = C = 인경우 A = B 이나 A C 이다. 전치 : 행의원소를열로보내고열의원소를행으로보내어만들어진행렬을전치행렬 이라하고이과정을전치 transpose 라하다. 행렬 A ii n p 의전치행렬은 p n 수는 p n 이다. 이를간편기호로나타내면다음과같다. = x } EAMPLE 4 5 = 4 4 의전치행렬 4 을구하면 4 = 5 전치성질 : A = A A + B = A + B AB = B A 대칭행렬 : 행렬과전치행렬이동일한행렬 즉 { ji 이고차 A = A' { a ij } = { a ji} 인경우행렬 A 을 대칭행렬 Systematic Matrix 이라한다. 대칭행렬이되려면반드시정방행렬이어야한다. 합연산 : 행렬의합을구하는경우두행렬의차수는동일해야하며 conformable for addition: 합연산적합 각행렬에서대응하는원소들의합을그위치에적으면된다. 합성질 : tr A + B = tr A + tr B 결합법칙 associate law: A + B + C = A + B + C http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 96 행렬 x 행렬 : 앞행렬의열의차수와뒤행렬의행의차수가동일해야행렬의곱이성 립하며 결과는앞행렬의행의차수와뒤행렬의열의차수가된다. 곱성질 : AB n q 행렬 a = a A n p B p q b b A n n p + a + a a a... ap a a... a p =...a ij... an an... anp b b M n + L+ a + L+ a p np b b p p B p q L M L b b... bq b b... bq = 이라면...b ij...... b p b p... b pq a a + L+ a n b q b q + a + a BA 의연산이가능하더라도일반적으로 AB BA 이다. n b q b M q + L+ a AB ' = B' A' 이성립한다. 단곱의연산이적합한경우가능하다 A B 가대칭행렬이면 AB = B A = BA 4 tr AB = tr BA 단 AB 가정방행렬일때만성립한다. 5 결합법칙 Associate law: A + B + C = A + B + C AB C = A BC = ABC 6 배분법칙 Distribution law: A B + C = AB + AC 7 교환법칙 Communication law: A + B = B + A 멱등행렬 : 이면 직교행렬 : 행렬식 M = MM = M 이면행렬 M은멱등행렬 Idempotent matrix 이다. M 이멱등행렬 M k = M k 는양의정수 이성립한다. AA ' = A' A = I 이면행렬 A 는직교행렬 Orthogonal matrix 이라한다. 차수가 일경우 : 행렬 이다. 차수가 일경우 : 7 A = 의행렬식 Determinant 은 A = 7 6 4 = 0 scalar 4 6 A = 4 8 5 7 의행렬식은 9 0 p np b b pq pq + 5 6 + 4 7 + 4 5 A = + + = 혹은 7 0 8 0 8 9 A = 4 + + 5 9 0 + + 7 8 0 + = 8 9 번째행을이용 혹은 http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 97 A = + 5 7 + 4 9 0 + + 8 9 0 + = 5 7 번째열이용 모두같은값이다. n ij i= n ij j= 이를확장하면차수 n의행렬의행렬식은 A = a M = a M 이다. i+ j ij i+ j ij Mij 를 minor라하고 i+ j Mij 를 cofactor라한다. 행렬식성질 A = A AB = A B AB = BA 행렬 A 의두행이같으면행렬식은 0 이다. 한행 열 의상수를곱하여다른행에더해도행렬식값은변하지않는다. 4 한행 열 을다른행들의선형결합으로표현할수있으면행렬식의값은 0 이다. 예 : 다중공선성 역행렬 : 정방행렬 A 에서 나타낸다. 역행렬성질 AB = BA = I 를만족하는행렬 B를 A의역행렬이라하고 A 로 A = adja = [A 원소를 cofactor로대치 ] A A 역행렬은 unique 하다. A = / A A = A A = A AB = B A 정의 LIN: linearly independent vector: a x + a x +... + a p x p = 0 가모든 ai = 0 일때만만 족한다면벡터 x x... x p 는선형독립 linearly independent 벡터라하고 0이아닌 ai 에대해서만족한다면선형종속 linearly dependent 인벡터라한다. 상호종속인벡터 는하나의벡터를다른벡터들의선형결합으로표시할수있다는것을의미한다. 정의 full rank: nxn 정방행렬에서선형독립인행 열 의개수 rank A 가행렬의차수 n 와같다면이행렬은 full-rank 행렬이라한다. 즉 rank An n = n 이면 full-rank이다. http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 98 역행렬이존재한다. full-rank 이다. ranka=n A는 non-singular 이다. A 0 Ax=b 의해가존재한다. 행렬미분 상수벡터 a a a = 확률변수벡터 M a p a x = a x a = a x x 역행렬이존재하지않는다 full-rank 아니다. ranka<n A 는 singular 이다. A =0 Ax=b 의해가존재하지않는다. x x x = 라하면 M x p x Ax = Ax + A x A는정방행렬 만약 A가대칭행렬이면 x Ax = Ax x x END of Matrix HOMEWORK #6- DUE 4 월 일 수 n e e i = e = Y β Y β 임을보이시오. i= 가대칭행렬임을보이시오. y β y β = y y y β β y + β β 임을보이시오. 4OLS 추정치 ˆβ = y 을구하시오. 5V a = av a 을이용하여 E ˆ β = β V ˆ β = σ 을증명하시오. 6 H = 을 HAT 행렬이라정의한다. H I H 가멱등행렬임을보이시오. 7예측치 y ˆ = H y 이고잔차 r = eˆ = I H y 임을보이시오. http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 99 4.. 예측치와잔차 추정치 βˆ 가구해지면종속변수에대한예측치는 y ˆ = ˆ β = y = H y H 는 Hat 행렬이라부른다 이고잔차벡터는 이고 V r = σ I H 이다. V r 의추정치는 MSE I H 이다. e ˆ = r = y yˆ = I H y 이다. 잔차벡터에대해 E r = 0 HOMEWORK #6- DUE 4 월 일 수 개인프로젝트 term paper 에대한 페이지개요제출하기 프로젝트분석목적 내용 데이터 변수 측정 수집 방법 4.. 모형에대한추론 분산분석 총변동 SST = yi y 오차변동 SSE = y i yˆ 회귀변동 = yˆ i y 를행렬 i 로표시하고분산분석표 ANOVA 를작성하면다음과같다. 변동 source Regression 모형 Error 오차 Total 총변동 SS 자승합 자유도 MS = y [ H J ] n SSE = y [ I H ] y n p SST = y [ I J ] y n Yi SST = Yi Y = Yi n p SSE = e e = y ˆ β y ˆ β = y y ˆ β y = SST SSE = ˆβ y J n 평균자승합 MSR = p SSE MSE = n n 결정계수 : F- 검정 MSR F = MSE ~ F p n R = SST = y' y y' J y J 는모든원소가 인정방행렬 n http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 00 F- 검정 다중회귀모형에서 F- 검정은다음귀무가설을검정한다. 귀무가설 H β β =... = β 0 모든설명변수는유의하지않다 0 : = p = 대립가설 H : all β 0 유의한설명변수가적어도하나는있다. a i 그러므로 F- 검정결과귀무가설이기각되면유의한설명변수가하나이상있다는것이 므로각설명변수에대한유의성을 t- 검정을이용하여알아보면된다. 결정계수 coefficient of multiple determination 결정계수는 SSE R = = SST SST 에의해정의되므로어떠한설명변수를 비록유의하지않 더라도 추가하더라도 SST 는일정하므로 항상증가한다. 이를보완하기위하여수정된 adjusted 결정계수를구하게된다. 수정된결정계수 SSE / n p = 는결정계수가 SST / n 항상증가하는문제는해결할수있으나결정계수분포를알수없으므로 단순회귀의경우 결정계수의제곱근은상관계수와동일하므로상관계수유의성검정에의해유의성판단이 가능하다. 설명변수의유의성을판단하는검정통계량으로사용되지않는다. 4..4 회귀모형에대한 t- 검정 앞절에서 OLS R a ˆβ = y 정규분포 이고 E ˆ β = β ^ V ˆ β = s ˆ β = MSE 알았다. 이사실을이용하여각회귀계수의유의성 설명변수의유의성 을다음에의해검 정할수있다. 귀무가설 H0 : β k = 0 설명변수 k 는유의하지않다 대립가설 Ha : β k 0 설명변수 k 는유의하다 ˆ β 검정통계량 T = k βk ~ t n p s ˆ β k 임을 4..5 종속변수평균및종속변수에측치추론 ' 설명변수들의관측치 x x x K x h = h h ph 가주어지면종속변수평균은 E y h ' h = x β http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 0 이므로추정치는 ^ ^ ' ' E y h = x h βˆ 이고추정분산은 s E yh = MSEx h x h 이다. 그러므로 평균에대한 00-α% 신뢰구간은 ' 설명변수들의관측치 x x x K x h ' x ˆ ' h β ± t α / ; n p MSExh xh = 가주어지면새로운관측치에대한추정치는 h h hp ^ ^ ' ' y new = x h βˆ 이고추정분산은 s ynew = MSE + xh xh 이다. 그러므로새로운관측치 에대한 00-α% 신뢰구간은 4..6 분석예제 EAMPLE 4- ' ˆ ' xh β ± t α / ; n p MSE + xh xh. 산점도행렬그리기 종속변수를 FSIQFull scale IQ 설명변수를 VIQVerbal 언어 와두뇌의크기 MRI 개수 로하여다중회귀분석을실시해보자. FSIQ MRI + e i = β 0 + βviqi + β 다중회귀분석은단순과달리우선각설명변수의유의성을점검한후유의한설명변수 만으로잔차분석과이상치진단을실시하면된다. 물론이상치가많이존재하거나산점도 에서특이한사항이존재하면유의성검정전에해결하는것이적절하다. F-검정결과유의하므로귀무가설 H β = β 0 은기각되므로 VIQ MRI 중적어도 0 : = 하나는 FSIQ 에영향을준다 유의하다. 결정계수는 0.896 이다. i i http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 0 t- 검정결과유의수준 0.05 에서유의한설명변수는 VIQ 이다. 만약두설명변수가모두 유의하였다면 임시적 추정회귀모형은 FSIQi 0.88 + 0.96VIQi + 0. 00008MRIi = 이다. 유의할것같은 PIQ 를사용하지않은것은설명변수 VIQ 와상관관계가높아다중공선 성문제가발생할것같아제외하였다. 물론산점도만보고제외하면안되고다중공선성을 판단하는 VIF 나상태지수를이용해야하지만여기서는예제이므로 MRI 를사용하였다. 유의하지않은설명변수는유의하지않은순서대로 유의확률이큰순서대로 하나씩제 외하면된다. MRI 를제외하자. 설명변수가모두유의하면잔차분석과이상치진단을한다. P R CLM 옵션에의해예측치 잔차 평균에대한신뢰구간이출력된다. 단순회귀와동 일 유의한설명변수를선택하면다중공성선문제진단 이상치혹은영향치진단 그후 에잔차분석을실시한다. 잔차분석에서는단순회귀분석과유사하나다음과같은차이가있 다. 스튜던트잔차와예측치의산점도는등분산성체크에만사용된다. 이에대한해결책으 로 WLS 방법 가중치로 ˆ / i y 이나종속변수를변환한다. 잔차는정규성검정에사용된다. 정규성가정이무너지면그냥뭉개거나 표본의크기 가크면정규성가정이무너져도큰문제가되지않는다. 중심극한정리와유사 LOG 변환이나제곱변환을실시한다. 스튜던트잔차와설명변수의산점도를그려설명변수로인한이분산성을문제를진단 한다. 이에대한해결책으로는설명변수를변환시킨다. 이상치진단은스튜던트잔차만으로하는것이아니라다양한통계량을이용한다. http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 0 이상치가 개존재한다. 출력창에서어느관측치가이상치인지알아보았더니 9 번째 관측치이다. 최종적으로 개관측치 9 가이상치로제외되었다. 산점도는가운데가비여이상해 보이지만랜덤으로보기에문제는없고정규성가정 잔차가아니라스튜던트잔차를사용 한것은 REWEIGHT 문을사용해고이상치에대한잔차는계산되어있기때문이다 도만 족한다. 가운데가비어있는것은종속변수 FSIQ 특성이다. http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 04 4.4 추가자승합 4.절에서다중회귀모형의유의성검정은 F -검정 H β β =... = β 0 모든설명변 0 : = p = 수는유의하지않다. 을이용하였고각회귀계수 설명변수 에대한유의성검정은 t- 검정 H0 : β k = 0 을이용하였다. 귀무가설 H 0 : β i = β j = 0 i j 두설명변수는모두유의하지않 다 혹은두설명변수의회귀계수는동일하다는 H 0 : β i = β j i j 가설을검정하려면추가 자승합 ESS Extra sum of Square 개념이필요하다. 고려한모든변수가있는모형 이를 Full 모형 의 SSE 혹은 와귀무가설하에서모형 이를 Reduced 모형 의 SSE 을 비교하여귀무가설의유의성을검정한다. 4.4. 기본개념 EAMPLE 4- 추가자승합개념 MRI_IQ.xls 예제데이터를이용하여추가자승합개념을살펴보자. http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 05 설명변수 VIQ 가들어감으로써 이 7.0 에서 880 로증가하였다. 그러므로 SSE는 8648에서 8.9로동일한값만큼감소하였다. 즉 총변동 SST = y i yi 동일하다. 설명변수가추가됨으로써증가된 의한계증가량기호를 기존 추가 이라하자. 는 VIQ MRI = VIQ MRI MRI = 880 7.04 = 6465 FSIQ=VIQ 에설명변수 MRI 을삽입하였을때증가되는한계 marginal 설명력 이다. SSEVIQ MR I = SSEMRI SSEVIQ MRI FSIQ=VIQ 에설명변수 MRI을삽입하였을 때감소되는한계 marginal SSE 설명되지않는 이다. 같은이유로 PIQ VIQ MRI = PIQ VIQ MRI VIQ MRI = 0890 880 = 088 이 다. 이것역시 정의 SSEPIQ VIQ MRI = SSEVIQ MRI PIQ VIQ MRI 표시할수있다. = = SSE SSE = = SSE SSE = = SSE SSE 4.4. 을 ESS 분해 SST = SSE... p +... p = SSE... p + + + +... + p... p EAMPLE 4-4 추가자승합개념 MRI_IQ.xls 데이터에서 VIQ PIQ 만설명변수로사용했을경우 를분해해보자. VIQ 8745 MRI VIQ 57 SSE 8 MRI 7 VIQ MRI 880 VIQ MRI 6465 SST 0985 SSE SSE 8 8 http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 06 MRI 변수가혼자단독으로설명하는설명력은 MRI = 7 이나되지만 VIQ 변수가 설명하고남은부분에대한설명력은 MRI VIQ = 57 밖에는되지않는다. 그러므로 MRI 하나만설명변수인경우에는지적수준 FSIQ 을설명하는것이유의하지만 VIQ 변수가추 가된상태에서는 MRI 의설명력은유의하지않다 아래결과 p- 값은 0.47. 4.4. 분산분석에서 분해 설명변수가 개인경우예를들어설명해보기로하자. 변동 SS df MS 회귀 μ MSR = / MSR μ = μ MSR = MSR = 오차 SSE n 4 MSE = SSE / n 4 수정총변동 SST n http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 07 http://wolfpack.hannam.ac.kr @005 Spring ESS 에기호에대한몇가지예를들어보자. SSE SSE = + = = = 을분해하는방법은두가지방법이있다. 위와같은방법의분해는 Sequential SS 이라한다. 설명변수를하나씩추가하면서마지막변수의한계설명력을나타낸다. Partial SS 는다른설명변수들에의해설명되고남은부분에대해그설명변수가설명하는부분을나타내는것이다. 설명변수가 n... 인다중회귀에서 Type I SS Type II SS 를표로나타내면다음과같다. 모수 Sequential SS Type I SS Partial SS Type II SS p M... p p μ μ μ μ M............ p p p p p μ μ μ μ M 마지막으로고려된설명변수에대해서는 Sequential SS Partial SS 는서로동일하다. EAMPLE 4-5 Type I III 자승합 MRI_IQ.xls 데이터에서 VIQ PIQ VIQ 세개사용했을때 Sequential SS Type I SS Partial SS Type II SS 를구해보자.
REGRESSION / 4 장. 다중회귀 08 각설명변수에대한유의성검정은각회귀계수의 t- 검정이나 Partial SSType II 를이 용하면된다. F- 값 Type II SS/MSE=t- 값 이므로유의확률은동일하다. 4.4.4 ESS 를이용하여설명변수유의성검정 Full model 에서 Reduced Model 로줄어든회귀계수에대한모수개수를 m 이라할때다 음검정통계량에의해회귀계수에대한가설의유의성을검정한다. F R / m F R / m 이용 : T = = ~ F m n p SSEF / n p MSEF SSER SSEF / m SSER SSEF / m SSE 이용 : T = = ~ F m n p SSEF / n p MSEF 귀무가설 H0 : β k = 0 설명변수 k 는유의하지않다 에대한검정 각설명변수하나에대한유의성검정은 ESS 를이용하기보다는 t- 검정을이용하면된 다. 그러나 ESS 를이용한유의성검정개념을이해하기위하여살펴보기로하자. Full model: Reduced model: y i = β 0 + βi + β i +.. + β p pi + ei 줄어든모수의개수 m = y i = β 0 + βi +... + β k k i + β k+ k+ i.. + β p pi + ei k. k k+.. p =. p. k k+.. p = F R SSE k. k k+.. p = SSE. k k+.. p SSE. p = SSER SSEF EAMPLE 4-6 추가자승합개념 MRI_IQ.xls 데이터에서 VIQ PIQ VIQ 세개사용했을때 MRI 설명변수유의성검정을 ESS 방법을사용하여실시해보자. 회귀모형 FSIQ = β + β MRI + β * VIQ + β * PIQ + e for i.. 8 설명변수개수 p = 0 * i = 귀무가설 : H β 0 MRI 설명변수는유의하지않다 0 : = http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 09 검정통계량을계산해보자. F R / m 0890 0876 / 이용 : T = = = 4.96 ~ F5 반올림오차 SSEF / n p.8 SSER SSEF / m 09.07 95.86 / SSE 이용 : T = = = 4.68 ~ F5 SSEF / n p.8 이검정통계량은 H β 0 설명변수하나의유의성검정 에대한 F-검정통계량이므로 0 : = 페이지 07의설명변수 MRI의 t-검정통계량값과동일하다 4.68 =. 6 아이고복잡하다. SAS 를이용하면간단히해결될수있는가? http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 0 귀무가설 H0 : β = β =... = βk = 0 설명변수... k 가모두유의하지않다 검정 EAMPLE 4-7 Full model vs. Reduced Model MRI_IQ.xls 데이터에서 VIQ PIQ VIQ 세개사용했을때 MRI VIQ 설명변수군의유 의성검정을실시하시오. Full 회귀모형 귀무가설 : H β = β 0 FSIQ = β 0 + β * MRI + β * VIQ + β * PIQ + ei 0 : = Reduce 회귀모형 줄어든모수의개수 m = 이다. β FSIQ = 0 + β * PIQ + ei FullModel _ FullModel _ MSE 을계산 Re ducedmodel _ Re ducedmodel _ MSE 을계산 검정통계량을계산해보자. F R / m 0890 8 / 이용 : T = = = 455.4 ~ F4 SSEF / n p.8 SSER SSEF / m 66.9 95.86 / SSE 이용 : T = = = 455.4 ~ F4 SSEF / n p.8 http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 Test 문을이용하여실시해보자. PIQ 설명변수가있는경우 MRI VIQ 설명변수군을추가하여도그들의설명력은유 의하다. TEST 문이없으므로 Full model 과 Reduced model 의 SSE 을구하여수 작업계산해야한다. HOMEWORK #7- DUE 4 월 7 일 수 MRI_IQ.xls 데이터 SPSS 활용 Reduced 모형을쓰고 Full 모형 Reduced 모형에의해귀무가설의유의성을검정하시오. 그리고 SAS 의경우 TEST 문을이용하여확인하시오. FSIQ = β0 + β * MRI + β * VIQ + β * PIQ + ei 에서 H 0 : β = β 유의성검정을실시하시오. FSIQ = β + β MRI + β * VIQ + * PIQ + e 에서 H β 0. 5 유의성검정을실시하시오. 0 * β SSE 을이용해야한다 i 0 : = 추가자승합으로회귀계수에대한가설검정의경우 SST 가변동이없다면 Full 모형과 Reduced 모형의 모형변동 차이에의해가설을검정하면된다. 그러나 SST 총변동 가변하는경우에는 예 : H β 0. 5 SSE 의변동에의해가설을검정해야 0 : = 한다. 즉 SSEF-SSER 가분자의변동이된다. http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 4.5 Coefficient of Partial Determination 부분결정계수 ESS 는다중회귀모형에서회귀계수들의유의성 즉설명변수의유의성 검정에사용할 수있을뿐아니라부분결정계수라불리는변수들의선형관계척도를구하는데도유용 하다. 부분결정계수는단순회귀모형의결정계수 R 와동일하게해석되며 0과 사이의값을갖는다. 부분결정계수의제곱근은부분상관계수이다. 변수가 개일경우 y i = β 0 + βi + β i + ei SSE 는 y i = β0 + β i + ei 의오차변동이고 SSE 는 y i = β0 + βi + β i + ei 의오차변동이다. 설명변수 가이미들어간상태에서 을추가했을때 Y 의변동의한계감소 marginal reduction 이는 Y 에대한설명변수 설명력의한계증가 는다음 과같다. SSE SSE = SSE SSE --- 은 가주어졌을때 Y 와 의부분상관계수라하고 r Y 라표시한다. 그러므로 가주어졌을때 Y 와 의부분상관계수는 r Y = --- SSE 설명변수 과종속변수 Y 의단순회귀분석의잔차 Y ˆ i Yi 와설명변수 와종속변수 의단순회귀분석의잔차 ˆ i i 의상관계수 r 은 r Y. 그러므로종속변수와설명변수의부분결정계수는다른설명변수에의해수정된 adjusted 결정계수이다. 일반적인경우 r Y o = SSE y i = β 0 + βi + β i +.. + β p pi + ei r Y o = SSE 4 r Y 4o = SSE 부분상관계수는부분결정계수의제곱근이며부호는회귀계수추정치의부호에의해 결정된다. 위에서언급한것같이 r Y 4o 는설명변수 와종속변수 Y 의단순회귀분석의잔차 Y ˆ i Yi 와설명변수 4 와종속변수 의회귀분석의잔차 ˆ 4i 4i 사이의단순상관계수의제곱 r 과같으므로부분상관계수는나머지설명변수들에의해 given 수정된종속변수 Y 와설명변수 4 의상관관계정도를 나타낸다. 부분결정계수는주로변수선택에사용될수있지만다른방법들이 F- 검정을 이용한 stepwise 선호되고있으므로자주사용되는개념은아니다. http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 4.6 표준화회귀계수 설명변수의측정단위가다른경우종속변수에대한그들의영향력을비교할때사용되는개념이표준화회귀계수다. OLS 추정치 ˆβ = Y 를계산할때반올림 rounding-off 문제가발생하게되는데이는 계산하는과정에서발생한다. 이런문제는 의 행렬식의값이 0에가깝거나 0 의측정단위의차이가많은경우발생하게 된다. 은다중공선성문제라하는데이는설명변수들간의높은상관관계로인하여발 생한다. 다음에다루기로한다. 의문제는단위를표준화함으로써해결할수있다. 변수 들을표준화한후구한회귀계수를표준화회귀계수 standardized regression coefficient 라 하며이는 측정단위가달라반올림으로인해발생하는문제를해결할수있을뿐아니 라 설명변수의종속변수에대한설명력비교 추정된회귀계수 를하고자할때사용 된다. 그러나컴퓨터발달로인하여반올림문제는거의해결하였으므로표준화회귀계수 는설명변수간의설명력비교에주로사용된다. * i Y Yi Y = s Y * ki ki = s 추정치를구하면표준화회귀계수라한다. 회귀계수 k k i =... n k =... p 표준화하고다음회귀모형의 OLS * y * i = β + β 0 + β +.. + β dy βk 는편미분계수 에해당하므로다른설명변수들의값이주어졌을때 * dx k 종속변수 Y 에대한설명변수 MRI_IQ.xls EAMPLE 4-8 k * i * i p * pi + e 의한계영향력 한계설명력 으로해석된다. 표준화회귀계수 지적능력예제계속 : 설명변수 MRI VIQ PIQ 세개를사용했을때지적능력에가장 영향을많이미치는설명변수는무엇인가? 설명변수들의측정단위가다르므로표준화회귀계수를구하여비교하여야한다. STB 옵션이표준화회귀계수를출력한다. i http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 4 지적능력 FSIQ 에 VIQ 가영향을가장많이영향을미치며 MRI 의영향력은가장적을 뿐아니라음의영향을미치고있음을알수있다. 근데이상하지않나요? 머리가크면지 적능력이떨어진다? 이는다중공선성문제이다. 자세한내용은나중에다루기로한다. MRI MRI VIQ 만있는모형에서는양의영향미친다. 어떻게이런일이 짐작하겠 지만다중공선성문제이다. 즉 VIQ PIQ 의상관관계가매우높아회귀계수추정에문제가 발생한다. PIQ 가들어오면서 VIQ MRI 추정치가전혀다른값을보이고있다. 4.7 적합성결여검정 동일한설명변수의값에종속변수가 개이상측정이있는경우회귀모형의유의성검 정을하는경우적합성결여는실제직선관계가아니기때문에발생한것이아니라종속 변수의분산에의해오차의분산이커지기때문일수있다. 적합결여성분석은설명변수 가하나인경우주로실시된다. 다음예제데이터를살펴보자. http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 5 동일한설명변수에종속변수값이여러개측정되었으므로설명변수간의직선관계결 여때문에오차변동이생길뿐아니라측정오차에의한변동이생긴다. 그러므로오차 변동은다음과같이분해할수있다. 설명변수의동일값이종속변수가 개이상이므로 i j 두개첨자가필요하다. 오차변동은다음과같이분해할수있다. Y ˆ ˆ ij Yij = Yij Y j + Y j Yij Yij Yˆ ij = Yij Y j + Y j Yˆ ij SSE = SSPE + SSLF 설명변수동일값에대해종속변수의관측치가반복되는오차변동 SSE 은관측치의반 복으로생긴순수오차변동 SSPE SS of Pure Error 과두변수간의직선관계의결여로인 하여생긴적합결여변동 SSLF SS of Lack of Fit 으로나눌수있다. 적합결여변동 Y Yˆ 이므로이는일원분산분석 Y ij = μ i + eij 의오차변동과동일하 j ij 다. 이런데이터의경우두변수의직선관계유의성검정은다음과같이해야한다. Full model: Y ij = μ i + eij Y j Yˆ ij : Lack Of Fit http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 6 Reduced model: Y ij = α + βxij + eij 데이터의직선관계유의성검정을위한분산분석표를만들어보자. 변동 source SS 자승합 자유도 MS 평균자승합 F- 검정 Regression 모형 54 54. Error 오차 결여적합성 59 4 98.4 순수변동 48 5 9.6 Total 총변동 988 0 98.4/9.6 =4.8 E MSPE = σ E MSLF = σ + n j [ μ j α + β j x j ] / k k 는설명변수수준수 이므로 SSLF / c p + MSLF F * = = c = 수준수 가크면두변수직선관계는유의하지않다. SSE / n c MSPE 귀무가설 : 대립가설 : H 0 : E Y = β 0 + β +... + β p p H a : E Y 0 + β +... β + β p p http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 7 설명변수 와종속변수 Y의직선관계에대한유의성검정은 MSE=SSE/9 를이용하는것이아니라순수변동의 MSPE=SSPE/ 자유도 를이용해야한다. 유의수준 0.05 하에서귀무가설 설명변수와종속변수간에는직선관계가성립한다 기각치 F 0.95;45 = 5. 9 가기 각된다. 그러므로 Y의직선관계는유의하다. OLS 추정회귀직선데이터에적합하다. Yˆ ij 50.7 + 0. 48xij = 이위 직선적합성결여검정과는달리단순회귀분석을하면회귀계수 회귀모형 도유의하지 않다고결론이나온다. F = 54. /67.95 =. 4 이전페이지분산분석결과를참고 어느 것이옳은가? 동일한설명변수값에대해관측치가반복되므로당연히적합성결여유의성 검정을실시하는것이바람직하다. MRI_IQ.xls 데이터 SPSS 활용 HOMEWORK #7- DUE 4 월 7 일 수 다중회귀분석 Y ij = α + β xij + β xij + eij 을실시하고회귀계수를추정하시오. 직선적합결여성분석을실시하시오. 결과 이용하여최종회귀모형을적고해석하시오. 4.8 다항회귀모형 설명변수가 개이상이고 각설명변수의차수가 차이상이거나 이고 설명변 수의교차항이존재하는모형을다항회귀모형 Polynomial Regression 이라하며이모형 은곡선반응 curvilinear response 모형이다. 변수가하나인경우다항모형은산점도 사실쉽게구별할수있는것은아니다 아래 예제참고 나잔차분석결과 잔차와예측치산점도가이차형태를갖는다 이용하면가능 하나변수가 개이상인경우다항모형을생각하는것은쉬운일이아니다. 다소 TRIAL- ERROR 방법이나이론적모형에의존할수밖에없다. 설명변수가하나인경우다항모형은다음과같다. http://wolfpack.hannam.ac.kr @005 Spring
REGRESSION / 4 장. 다중회귀 8 Yi = β 0 + βxi + βx + e i i second order Yi = β 0 + βxi + βx + β x + e i i third order i 설명변수 xi 와 xi 는상관관계가높으므로두설명변수를모두넣은다항식모형은다 * 중공선성문제가발생한다. 이를완화시키는방법으로 xi = xi x 혹은표준화 앞에서 언급 을사용한다. 데이터가이차형식을따르므로다음과같이 GPLOT 을이용하여산점도 를그리면된다. RQ 는 regression quadratic 의약어이다. 이차형식함수를그려준다. 직선 은 RL 을사용한다. 설명변수 의평균은 이다. 일차항 이차항 모두유의하므로 최종추정회귀모형은다음과같다. yˆ = 705.05 + 54.8x 4.4x http://wolfpack.hannam.ac.kr @005 Spring