REGRESSION / 장. 단순회귀 0 Chapter 단순회귀 회귀분석은종속변수 ( Y ) 와설명변수들 ( X 1, X,..., X p, 독립변수 ) 과관계를분석하는도 구이다. (1) 모형에설정된설명변수들의유의성검정?( 모형과회귀계수의유의성검정 ) () 유의한설명변수중종속변수에영향력이가장큰변수는무엇인가?( 표준화회귀계수 ) (3) 그리고설명변수값들이주어진경우종속변수의예측치는? 이에대한해답을회귀분석이 제공한다. 회귀분석은종속변수 ( Y ) 와설명변수들 ( X 1, X,..., X p, 독립변수 ) 사이의함수는매우다 양하다. Y = f X, X,.., X ) 일반적으로다루기편하고해석이용이한선형함수형태를고 ( 1 p 려하게되는데이런이유로회귀분석은선형회귀분석이라고도한다. 선형함수가아닌회귀 모형에대한분석을비선형 (olear) 회귀분석이라한다. 비선형회귀모형에대한분석은 다소복잡하고무엇보다도모형에대한해석이 ( 선형회귀모형에서회귀계수의의미는편미 분계수이므로해석이용이 ) 쉽지않아사용빈도가낮다. 선형회귀모형 : α, = 1,,...,, ~ dn (0, σ ) Y = + β1 X1 + β X +... + β p X p1 + e 선형변환경제학의 Cobb-Douglas 생산모형은비선형모형이다. e β λ Q = αk L u, Q = 생산 량, K = 자본, L = 노동력, u 는오차항이고나머지는계수이다. 양변에 Log 를취하면 l( Q) = lα + β l K + λ l L + l u 이되므로선형회귀분석이가능하다. 인구성장모형 Pt βt e et = α 도선형변환이가능하다. l Q = lα + l( β ) T + l( e ) 회귀계수선형회귀모형에서회귀계수 ( β k ) 의의미는설명변수 X k 가한단위증가할 때종속변수가얼마나변하는지 ( 편미분계수 ) 나타내는값이다. 이처럼선형모형에서 는회귀계수에대한해석이용이하다. 회귀모형에서설명변수가하나인경우에대한분석을단순회귀분석이라하는데이장에 서는회귀분석에대한개념, 이론, 분석방법에대한이해를높이기위하여 고자한다. t t 이를살펴보.1 산점도.1.1 개요 산점도 (scatter plot) 는두변수간의 ( 함수 ) 관계를나타내는이차원그래프로종속변수는 http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 1 Y 축, 설명변수는 X 축으로 ( 인과관계가존재할때, 상관관계존재할때는아무변수나 Y 축에지정 ) 하여데이터관측치쌍을그린다. 산점도를통해두변수 (X, Y) 간의함수관 계를쉽게파악할수있으므로회귀분석의시작이다. 다음은키와몸무게 ( 종속변수 ) 의인과관계를알아보기위해조사한자료의일부이다. 표본 18명의키와몸무게데이터에대한산점도를그린것이다. ( 그림1) 만약산점도를그리지않고 F-검정에의한분산분석만 ( 산점도아래 ) 을실시하면설정한회귀모형은적 절하면이로부터추정된모형을이용하게된다. [ 그림 1] [ 그림 ] 그러나산점도를살펴되면 ( 그림, 물론붉은선은추정회귀선 ) 두가지특이한관측치 가발견된다. 1 관측치는같은키의다른사람에비해몸무게가많이나가는것을알수 있다.[ 이상치 outler] 관측치는키와몸무게의관계가선형이아니라 차식관계가성립하지않을까하는의심을갖게한다.[ 영향치 fluetal observato] 이처럼산점도는다음을알수있다. 1종속변수와설명변수들간의함수 ( 직선 ) 관계 ( 유의성 ) 를미리진단할수있다. 설명변수들간의상관관계가존재하는지알수있어다중공선성문제를예상할수있다. 다중공선성문제는다중회귀모형에서일어나는일이다. 다중회귀분석에서는산점도행렬 (scatter plot matrx) 을그리게된다. 1 3 특이한관측치 ( 이상치, 영향치 ) 가존재하는지를알수있다. http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀.1. 산점도그리기 EXAMPLE -1 산점도그리기 AD.xls ( 엑셀데이터 ) 1983 년미국 1 개기업광고비 (SPEND, 단위 : 백만 $) 가소비자평가도 (RATE) 를조사한 것이다. 두변수간의함수관계를살펴보기위하여산점도를그려보자. 광고비와소비자평가간의함수관계가있는지알아보기위하며산점도를그려보자. 데이터입력이정형화되지않은경우 INFILE 문은사용해 SAS 데이터를만드는것은 시간낭비이다. 회귀분석데이터의경우데이터의양이많지않으므로 CTRL+C CTRL+V 를이용해프로그램에디터 ( 확장편집기 ) 에데이터를복사하여 DATALINES;( 혹은 CARDS;) 이용하여 SAS 데이터를만들자. 1-14 의의미는 1 열부터 14 열까지를변수 ame 의관측치 로읽으라는명령이다. 만약이옵션을사용하지않으면 8 자리만읽어온다. ( 이전프로그램 ) I=Iterpolato 관측치를연결하는방법이다. JOIN 은관측치를직선으로연결하는것이 고 SPLINE는곡선으로연결한다. R은회귀선 (Regresso Le) 을의미하며 L은직선 (Lear) 을의미한다. 이차곡선이면 L 대신 Q를적어주면된다. V=Value 관측치점의모양설정한다. dot, tragle, square, star 등을사용할수있고 V= a 사용하면점들이 a로찍힌다. http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 3 메뉴에서 선택하고다음과같이메뉴를설정한다. 광고비가증가할수록평가정도는높아짐을알수있다. 원의관측치는이상치 (outler) 일 가능성이높다. 문제는네모상자안에있는관측치들이다. 이관측치들로인하여특히원 안의관측치, 추정된회귀직선은 와같다. 그러나네모상자안의관측치 3 개를제외하 면추정회귀식은 1 이다. 어느것이적절한가? 광고비를많이지출하는회사를보니자동 차회사 FORD, 전화회사 ATT, 그리고 MacDoald이다. 이들회사는다양한이유로유난히많이광고비를지출하고있는회사이다. 그러므로이들을제외하고 ( 분석자판단 ) 회귀모형을추정하는것이바람직해보인다. 만약네모안의 3 관측치가 ( 그렇다면원의관측치는이상치이지만 ) 유효하다면직선관 http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 4 계가어니라이차식을관계가아닐는지? 즉점선의이차식으로광고비용이평가도에영향 을미치고있다고해야하는한다. HOMEWORK #- DUE 3 월 16 일 ( 수 ) CARPRICE.txt ( 텍스트데이터 ) 1990 년미국 Ford 자동차구매자중 6 명을임의선택조사한자료이다. 목적은구매하 는자동차종류 ( 가격 ) 에영향을미치는변수 ( 요인 ) 를알아보기위한것이었다. 성별 (1= 남 자, 0= 여자 ), 연소득 ($), 나이, 결혼여부 (1= 기혼, 0= 미혼 ), 자녀수, 학력 (1= 대졸, 0= 고졸이 하 ), 자동차가격 ($) 구매하는자동차가격에연소득이영향을미치는지알아보고자회 귀분석을실시하고자한다. 먼저산점도를그리고해석하시오. (SAS 이용하기 ). 모형및가정..1 모형 종속변수를 y, 설명변수를 x 라하고첨자 (subscrpt) 는관측치를나타내며 을표본 의개수라하면선형회귀모형 (model) 은다음과같다. Y = α + βx + e, = 1,,..., α : 회귀계수 (regresso coeffcet), 모수, 절편 (tercept) ---(1) β : 회귀계수, 설명변수 x 의기울기, 설명변수 x 가한단위증가할때마다종속변수 y 의증가량 ( 미분계수 ), 다중회귀모형에서는편미분계수이다. x : 설명변수, 확률변수가아닌다. e : 오차항 (error term), 회귀직선 ( α + βx ) 에의해설명되지못하는부분 y1 = α + βx1 + e1 y = α + βx + e 모형 (1) 을관측치에따라풀어쓰면다음과같다.... y = α + βx + e 모형 (1) 행렬의형태로표시하면 y1 1 x1 e1 y 1 x α e y + = = = X β + e M M β M y x e 1 http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 5.. 가정 회귀모형의가정 (assumpto) 은다음과같다. 1회귀계수 α, β 는모수이며상수 (costat) 이다. 종속변수와설명변수간에는선형 ( 직선 ) 함수관계가존재한다. 3 설명변수 X 는확률변수가아니라수학변수 (determstc) 로오차없이측정할수있 다고가정한다. 그러므로회귀모형에서확률변수는 e 와 Y 이다. 확률변수이면확률분 포함수를갖는다. 4 ~ d N(0, σ ) : depedetly ad detcally dstrbuted e 독립성 (depedet): 오차항은서로독립이다. 즉각오차는서로영향을주지않 는다. 독립성가정은시계열데이터 ( 시간적순서를갖는데이터 ) 경우에만체크한다. 정규성 (ormalty): 오차항은정규분포를따른다. 이가정은 F- 검정방법을사용하 기위하여반드시필요하다. 등분산성 (homoscadcty): 오차항의분산은동일하다. 분산이일정하다는가정의주 어진설명변수값에서관측되는 Y 의값의분산이일정하다는의미와같다. 분산이 다르면설정된회귀모형이적절함에도불구하고관측치가직선에모여있지않게 된다. 분산이크므로벗어나는경향이있다. 회귀직선설명변수각값에대해분포의평균은회귀직선 정규분포확률밀도함수 EXAMPLE - 종속변수의평균과분산 가정 e ~ d N(0, σ ) 하에서종속변수 Y 의분포, 평균과분산을구하시오. http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 6.3 회귀계수추정 회귀모형을추정한다는것은수집된데이터 ( 산점도 ) 에가장적절한회귀직선을구하는것이다. 방법으로는 OLS(Ordary Least Square: 최소자승법 ) 과 MLE(MLE: Maxmum Lkelhood Estmator: 최대우도추정법, 최우추정법 ) 방법이있다..3.1 최소자승법 각관측치에가장적합한회귀직선은회귀직선과관측치의벗어난정도 ( 오차 : e ) 가가 장적은직선일것이다. 그런데 e = 0 이므로 e ( 절대값대신제곱하는이유는 (1) 다 = 1 = 1 루기쉽고 () 멀리떨어질수록더큰페널티를부여 ) 을최소화하는 을최소자승법 (OLS) 라한다. = 1 Q = e α, β 을추정하는방법 = ( y α βx ) 을최소화하는추정치 ˆ α, ˆ β 를 OLS 추정치라한다. 즉, = 1 OLS 추정치를구하려면 Q 를 y y α, β 에대해각각편미분 (partal dervatve) 하고그결과를 0 이라놓고얻은연립방정식을풀면된다. 이를정규방정식이라한다. 정규방정식 (ormal equato): yˆ = ˆ α + ˆ βx = 1 = 1 Q = ( y α Q = x β y ˆ α ˆ βx ( y e = y yˆ ˆ α ˆ βx ) = 0 ) = 0 정규방정식에서 α, β 의해를구하면다음과같고이를 OLS 추정치라한다. http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 7 S xy.3. 최대우도추정량 (MLE) ˆ ( x x)( y y) β =, ˆ α = y ˆ βx ( x x) = ( x x)( y y), S = ( x x) xx 라정의하면 xy βˆ = 이다. S xx 최대우도추정량이란우도함수 (Lkelhood fucto, 확률밀도함수의곱 ) 를최대화하는 추정량이다. 확률표본 x, x,..., x) ~ f ( x; ) 인경우우도함수는 L θ; x, x,..., x ) = f ( x ; ) ( 1 θ 이고이함수를최대화하는 θˆ 을최대우도추정량 (MLE) 이라한다. 1 σ S ( 1 θ 회귀모형의가정으로부터 ( y, y,..., y ) ~ N( α + βx, ) 임을알았다. 그러므로우도함수는 우도함수를최대화하는 L( α, β; x1, x,..., x ) = f ( y1, y,..., y ; α, β ) = Π 1 ( y α βx ) exp( ) πσ σ = ( 1 ( y α βx ) ) exp( ) πσ σ 다는것은우도함수의로그 l L ( y α βx ) α, β 을구하면이것이 MLE 추정치이다. 우도함수를최대화한 로회귀계수에대한 MLE 추정치는 OLS 추정치와동일하다. 3.3.3 추정된회귀식성질 최소자승 (OLS) 추정치 을최대화하는것과동일하다. 그러므 ˆ ( x x)( y y) β =, ˆ α = y ˆ βx 을이용하여얻은 yˆ = ˆ α + ˆ βx 을 ( x x) 추정된회귀식혹은적합된 (ftted le) 회귀직선이라한다. GAUSS-MARKOV Theorem 회귀계수에대한 OLS 추정치는 BLUE(Best Lear Ubased Estmator) 이다. 즉모든선 형, 불편추정량중최소분산 (mmum varace) 를갖는다. 3.3.절에의해본것처럼 MLE와 OLS 추정치와동일하다. MLE 추정치의성질에의하면 MLE 함수중불편성을갖는추정치는 Rao-Blackwell 정리에의해그추정량이 MVUE 이다. 다음에살펴보겠지만 OLS 추정치는불편성을갖는다. 그러므로 GAUSS-Markov 정리가증명된다. http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 8 종속변수의예측치 ( 적합치 ) ŷ 와실제관측치의차이를잔차 (resdual) 라하면이는오차의추정치가되는데이는다음장에서다루기로한다. r = eˆ = y ˆ ˆ β α x = y y ( 잔차 ) ˆ 적합된회귀직선의성질을살펴보면다음과같다. 1 r = 0 잔차의합은 0이다. x = 0 ( 관측치 x 을가중치로한잔차의가중치평균은 0이다 ) r ˆ 3 y r = 0 ( 예측치 ŷ 을가중치로한잔차의가중치평균은 0이다 ) 4적합된회귀직선은 ( x, y) 을지난다. EXAMPLE -3 1, 는정규방정식에의해당연하다. 3 yˆ ( ˆ ˆ ) ˆ ˆ r = α + βx r = αr + βxr = 0 from 1, 4 ˆ α = y ˆ βx.4 회귀계수에대한가설검정 단순회귀모형 y = β + 잔차성질증명하기 α + x e 에서의하면 α, β 는모수 (parameter) 이다. 모수에대한추 정량을구하는방법으로 OLS, MLE 방법을살펴보았고이는동일함을알았다. 이절에서 는각추정량의성질과분포함수를도출하고모수에대한가설검정하는방법을살펴보 기로하자..4.1 회귀계수 β 에대한추론 회귀계수 β 의분포 회귀분석에서가장관심을갖는것은기울기회귀계수 β 이다. 설명변수의유의성을검 http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 9 정한다는것을귀무가설 H : β 0 의유의성검정과동일하다. H : β 0 채택되면회귀 모형에서 βx 않다 ) ) 회귀모형은 0 = 0 = 가없어지므로 1) 설명변수 ( x ) 는종속변수 ( y ) 를설명하지못하고 ( 유의하지 y + e = α 로줄어들어종속변수는 αˆ = Y 에의해설명된다. β 의 OLS 추정치는 ˆ ( x x)( y y) β = 이다. ( x x) EXAMPLE -4 1 ˆ ( x x)( y y) β = 가 ( x x) 1 의결과 ( βˆ 의 잔차성질증명하기 ˆ ( X X ) β = k Y, k = 임을보이시오. ( X X ) y 의선형결합이다 ) 을이용하여 βˆ 의분포가정규분포임을보이시오. HOMEWORK #-3 DUE 3 월 16 일 ( 수 ) (1) k = 0 1, k X = 1, k = 임을보이시오. ( X X ) ()(1) 을이용하여 E ( ˆ) β = β ( 불편추정량 ), (3) 위의결과를이용하여 ˆ σ β ~ Normal( β, ) 보이시오. ( x x) σ V ( ˆ) β = σ ( ˆ) β = 임을보이시오. ( X X ) 오차항 ( e ) 이정규분포라는가정 ( 그러면종속변수 ) 하에 ˆ σ β ~ Normal( β, ) 가성립 ( x x) 한다. OLS 추정치를구할때는오차항의정규성가정이사용되지않았으나회귀계수 β 에 ˆ θ θ 대한가설검정에사용된다. 대표본이론이성립하나? ~ Normal(0,1) s ˆ θ app Gauss Markov Theorem (o, why?) 회귀계수에대한 OLS 추정치는 BLUE(Best Lear Ubased Estmator) 이다. 즉모든선형, 불편추정량중최소분산 (mmum varace) 를갖는다. [ 증명 ]1 ˆ ( X X )( Y Y ) β = 가 Y 선형추정량이며 (Lear) 불편 (Ubased) 추정량 ( X X ) E( ˆ) β = β http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 30 임을증명하였다. 이제선형추정량중최소분산을가짐을증명하면된다. β 의선형추정량을 * ˆβ = c Y 라하면불편추정량이되기위해서는 c = 0, c X = 1 을만족해야한다. 추정량 * ˆβ = c Y 의분산은 = σ ( ˆ β* ) σ c 이다. 만약 c = k + d 이라하면 (OLS 추정량의계수 ( X X ) k = ) σ ( ˆ β = + *) σ ( ˆ) β σ d ( 왜냐하면 k d = 0 ) 이므로 ( X X ) σ ( ˆ β* ) 의분산은 d 가 0인경우이므로모든 d 가 0이어야한다. 그러므로 OLS는 최소분산을갖는선형불편추정량이다. [ 증명 ] Rao-Blackwell 정리에의해 MLE 의함수중불편성을갖는추정치는 MVUE 이다. 앞에서회귀모형의회귀계수추정치 OLS 는 MLE 추정치와같고불편추정량임을보 였다. Q.E.D ˆ β β 의분포함수 (samplg dstrbuto) s( ˆ) β 앞에서 ˆ σ β ~ Normal( β, ) 임을알았으나오차분산 σ 을모르므로추정해야한다. ( x x) 오차에대한 MVUE 추정량은 y ˆ ˆ ( x = ) ˆ α β ˆ ( ) σ σ = MSE 이다. 그리고 ~ χ ( ) 이므 σ ˆ β β 로 ~ t( ), where σ 임을알수있다. s( ˆ) β EXAMPLE -5 MSE ˆ ( ˆ) β = ( X X ) ˆ ( ) σ 1 ~ χ ( ) 임을보이시오. (brefly) σ 잔차성질증명하기 HOMEWORK #-4 DUE 3 월 16 일 ( 수 ) ˆ β β EXAMPLE-4 이용하여 ~ t( ) 임을보이시오. s( ˆ) β http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 31 β 에대한신뢰구간과가설검정 ˆ β β ~ t( ) 을이용하여신뢰구간과가설검정을할수있다. s( ˆ) β t(-) 1100(1-α)% 신뢰구간 (cofdece terval) [ ˆ β t( ;1 α / ) * s( ˆ), β ˆ β + t( ;1 α / ) * s( ˆ)] β, MSE s ( ˆ) β = ( X X ) 신뢰구간에 0이포함되어있으면양측검정의경우 H0 : β = β0 이채택된다. 가설검정 H 0 : β = β0 ( 가장일반적인형태는 H0 : β = 0 이다 ) 검정통계량 ˆ β β T = 0 이다. 만약양측검정인경우 ( H 0 : β β0 ) 검정통계량의절대값 s( ˆ) β 이 t ( ;1 α / ) 보다크면귀무가설을기각하고단측검정 ( H 0 : β > β0 혹은 H 0 : β < β0 ) 인 경우는 t( ;1 α) 보다크면귀무가설을기각한다. β 0 ( 설명변수가유의하지않다 ) 에 관심이있으므로양측검정이일반적이다. 설명변수가하나인단순회귀분석의경우.4. 회귀계수 α 에대한추론 단순선형모형에서 α 는절편에해당되므로 H0 : α = 0 가채택되면원점을지나는회귀 선이된다. 그러나일반적으로절편에대해관심이없으므로필요한경우이외에는검정하 지는않는다. ˆ α α 의분포함수 s( ˆ) α ˆ α α ˆ 1 ( X ) α = y βx 이므로 ~ Normal(0,1), σ ( ˆ) α = σ ( + ) ) 이다. σ ( ˆ) α ( X X ) 1 ( X ) ˆ α α σ ( ˆ) α = s ( ˆ) α = MSE( + ) 라하면 ~ t( ) ( X X ) s( ˆ) α α 에대한신뢰구간과가설검정 0 = t(-, α/) t(-,1-α/) 1100(1-α)% 신뢰구간 (cofdece terval) ˆ ˆ 1 ( X ) [ α t( ;1 α / )* s( ˆ), α α + t( ;1 α / )* s( ˆ)] α, s ( ˆ) α = MSE( + ) ( X X ) http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 3 가설검정 H 0 : α = α0 = 0 : 검정통계량 ˆ α α0 ˆ α 0 T = = 의절대값이 t ( ;1 α / ) 보 s( ˆ) α s( ˆ) α 다크면귀무가설을기각하고적으면귀무가설을채택한다..4.3 회귀계수추론에대한 Commet Abormalty ( 비정규성 ) 오차항 추정치 e 가정규분포를따르지않으면 y 가정규분포를따르지않게되고회귀계수 ˆ α, ˆ β ( y 의함수 ) 도정규분포를따르지않게된다. 즉더이상회귀계수가설검정 에있어서 t- 분포를사용할수없게된다. 그러나안심하자. 비록 않더라도표본개수 이증가하면 y 가정규분포를따르지 ˆ α, ˆ β 는근사적으로정규분포에근사한다. 그러므로 t- 분포를사용하여가설검정할수있다. 회귀분석에서비정규성문제는심각한것이아니다. 설명변수 X 값의간격 설명변수 X의간격이넓어질수록 ( X X ) 이커지므로 s( ˆ), α s( ˆ β ) 는줄어들어 t-값은커 지고 (F- 값도커진다 ) 회귀계수가유의할가능성이높아진다. 다음은 4 개의자료가측정되 었는데 X 가등간격일경우와 ( 왼쪽 ) 하나가다른관측치에비해멀리떨어진경우 ( 오른쪽 ) 차이점을살펴보자. 기울기회귀계수추정치 ( βˆ ) 값은비슷하지만추정오차의차이로인 하여 t- 검정통계량이크게차이가난다. 정말로오른쪽경우가더유의한가? 그렇지않다. 그러므로 X 값이다른관측치에비해너무멀리떨어진경우에는그관측치를회귀분석 에서제외하기바란다. 또한수집된설명변수데이터범위를많이벗어나는곳에서는예측 치를구하지말자. http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 33.4.4 E(Y 0 ) 에대한추론 임의의설명변수값에대해종속변수의평균을추정해보자. E( y0 ) = μ y x = α + βx 0 0. 예 를들면광고비를 500 만 $ 쓰면고객상품인지도의평균은얼마일까? 관심을갖는설명변 수의값을 x0 라하면 E( y ) = α + βx0 이고이것에대한점추정치는 E( y ˆ 0 ) = ˆ μ y x = ˆ α + βx0 이다. E( Y0 ) E( E( Y0 )) 의분포함수 s{ E( Y0 )} (Y 0 ) x =500 만 0 E 는추정치 ˆ α, ˆ β 의선형결합함수이므로정규분포따른다. ( Q ˆ α ~ Normal ˆ β ~ ormal) (Y 0 ) 1 ( X ) E 의평균 E( E( Y0 )) = α + βx0, 분산 ( ( )) ( ( )) [ 0 X V E Y0 = σ E Y0 = σ + ] ( X X ) 1 ( X ) 산의추정치 ( ( )) [ 0 X s E Y0 = MSE + ] 이다. 추정치 ( X X ) 0 추정치 E (Y 0 ) 분 ˆ α, ˆ β 의분포유도와동일한방법으 E( Y 로분포함수를유도하면 0 ) E( Y0 ) ~ t( ) 1 ( X ), { ( )} [ 0 X s E Y0 = MSE + ] ( ) s{ E( Y )} X X E( Y 0 ) 에대한신뢰구간과가설검정 0 1100(1-α)% 신뢰구간 ˆ α + ˆ βx t( ;1 α / ) * s( E( Y )), ˆ α + ˆ βxh + t( ;1 α / ) * s( E( )) 0 0 Y0 유의수준 α 가설검정 H0 : E( Y0 ) = μ y x0 E( Y0 ) μ y x T = 0 의절대값이 t( 1;1 α / ) 보다크면 ( 양측검정 ) 귀무가설을기각한다. s{ E( Y0 )} http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 34.4.5 새로운관측치 Yew 에대한추론 설명변수의값이주어졌을때관측되는종속변수의값을추정해보자. 주어진설명변수의값을 xew 라하고이에대응하는종속변수의값을 yew 라하자. 점추정치는 새로운관측치 yˆ ew ˆ α + ew ˆxew y ew x ew = β 이다. 이것은 E y ) 의추정치와동일하다. 차이가있다면 ( 0 Y 의점추정치의분산이 σ 만큼크다는것이다. 수집된데이터에없는 설명변수에대한종속변수값의예측치은이방법을사용하고데이터에있는설명변수값 에대한추정치는.4.4 절 ( 종속변수평균에대한관측치 ) 방법을사용하자. 설명변수새로운값에대한종속변수예측치를구할때관측된설명변수범위내의설 명변수값들에대해서만한정하기를강력권한다. (.4.3 절에서설명 ) Yˆ ˆ ew E( Yew) 의분포 s{ Yˆ ew} Yˆ 도추정치 ˆ α, ˆ β 의선형결합함수이므로정규분포를따른다. ( Q ˆ α ~ Normal ˆ β ~ ormal) 평균 ew E yˆ 1 ( ) ( ew ) = α + βxew 이고분산은 { ˆ xew x σ Yew} = σ [1 + + ] 이다. ( x x) σ 만큼크다. 다음이성립한다. Yew Yˆ ˆ ew E( Yew) s{ Yˆ ew} ~ t( ), 1 ( ) { ˆ X ew X s Yew } = MSE[1 + + ] ( X X ) 에대한신뢰구간과가설검정 (Y 0 ) E 분산보다 1100(1-α)% 신뢰구간 ˆ α + ˆ βx t( ;1 α / ) * s( Yˆ ), ˆ α + ˆ βx + t( ;1 α / ) * s( Yˆ ), 유의수준 α 가설검정 h H 0 : Y ew = Yh T ( 양측검정 ) 귀무가설을기각한다. ew h ew Yˆ ew Y = ew 의절대값이 t( 1;1 α / ) 보다크면 s{ Yˆ ew} http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 35.5 회귀분석에분산분석적접근 회귀분석을분산분석적측면에서다루는것은단순회귀에서는새로운것이없으나 ( 단순회귀모형에서는회귀계수에대한 t-검정은분산분석의 F-검정과동일하다. F (1, ) = t ( ) ) 보다복잡한회귀모형을다루는데도움을얻을것이다..5.1 변동분할 y yˆ 분산분석접근은종속변수 Y 에관련된총변동과자유도분할에근거한다. 총변동 (SSTO, SST, Total Sum of Square) 은종속변수의관측치와평균의편차 (devato) ( y y) 제곱 합을의미하며이는종속변수가가진정보이다. ( Y ) 총변동 SSTO = ( y y) ( 초록색부분 ) SST = Y = Y Y 회귀모형에서데이터에포함된불확실성 (ucertaty) 은적합회귀선 (ftted regresso le, 추정회귀식 ) 으로부터관측치가얼마나벗어나있나를의미하며이것에대한측정은 ( y yˆ ) 이고제곱합을오차변동 (Error Sum of Squares, SSE) 혹은오차제곱합 ( 자승합 ) 이 라하며적합회귀식에의해설명되지않는변동에해당된다. 이오차변동을 ( ) 로나 눈값을 MSE 라하면이는오차의분산에대한추정치로사용한다. 오차변동 : SSE = ( y yˆ ) ( 빨간부분 ) 두변동의차이를회귀변동 (Regresso Sum of Squares, SSR) 혹은모형변동 (Model SS) 이라하며적합된회귀식이데이터의관계를얼마나잘설명하는지나타낸다. y 회귀 ( 모형 ) 변동 : SSR = ( yˆ y ) ( 파란부분 ) y yˆ y yˆ = ˆ α + ˆ βx y SSR = ˆ β ( X Y X Y ) = ˆ β ( X X ) http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 36.5. 자유도분할 총변동의자유도 ( 관측치중자유로운개수, 관측치하나하나는독립적이고정보를갖고있다 ) 는평균이하나 ( y ) 추정되었으므로 ( 1) 이다. SSE의자유도는 ( ) 이다. 왜냐하면 ˆ α, ˆ β 가두개추정되었기때문이다. SSR의자유도는 SST 자유도로부터 SSE 자유도를뺀값으로 1이다. 회귀모형에서총변동의자유도는 ( 1) 이고모형변동자유도는설명변수의 개수 p, 오차변동의자유도는 ( p 1) 이다..5.3 평균변동과 ( 평균제곱합 ) 기대평균변동 변동합 ( 제곱합 ) 을자유도로나눈값을평균변동이라한다. SSR MSR = (Mea Sum of squares of Regresso 회귀평균변동 ) 1 SSE MSE = ( Mea Sum of squares of Error 오차평균변동 ) ( ) EMS (Expected Mea Squares 기대평균변동 ) 이에대한증명은다음과같다. E ( MSE) = σ, E( MSR) = + β ( X X ) σ 이다. ˆ ˆ ˆ SSE ( Y ) ( ) = Y Y = α βx ~ χ ( ) σ σ σ E ( MSE) = σ SSR = ˆ β ( X X ) 와 σ V ( ˆ) β = σ ( ˆ) β = E( MSR) = σ + β ( X ) X ( X X ) MSE의기대값인 σ 이므로 MSE는 σ 의불편추정치이다. MSR 기대값의의미는? 만약 β = 0 ( 설명변수가유의하지않음 ) 혹은모든관측치 ( X ) 가평균 ( X ) 과같으면 EMR은 σ 이므로 F-값은 1이다. 실제현실에서는모든관측치 ( X ) 가평균 ( X ) 과같을경우는발 생하지않으므로설명변수가유의하지않으면 MSR은 σ 다. 즉 F-값이커져야설명변수는유의하다. 에근사하고 F-값은 1에근사한 http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 37.5.4 F- 검정 H0 : β = 0 이면오차변동과모형변동은같아지므로다음통계량에의해 H0 : β = 0 의유의 성을검정할수있을것이다. 그러므로 * MSR F = 의값이커지면귀무가설 H0 : β = 0 을기각 MSE 할가능성이높아지게된다. 귀무가설 ( H 0 : β = 0 ) 하에서는 SSR 과 SSE 가서로독립임 σ σ SSR /1 * MSR (1) /1 을이용하면 F = = σ χ = ~ F(1, ) 이성립한다. 그러므로 MSE SSE /( ) χ ( ) /( ) σ F* F(1 α;1, ) 이면귀무가설 H 0 : β = 0 ( 설명변수는종속변수에영향을미치지않는다 ) 채택하고 F* > F(1 α;1, ) 이면귀무가설을기각한다. F- 검정의모형에설정한설명변수전체에대한유의성검정에사용된다. 즉 F- 검정은 H 0 : β 1 = β =... = β p = 0 ( 회귀모형에고려된설명변수모두는유의하지않다 ) 의유의성을 검정한다. 그러므로분산분석적측면에서모형변동 ( SSR = ( y y ) 은고려된설명변수 들의유의성검정이다. F- 검정결과귀무가설이기각되면 설명변수중적어도하나는유의 함을알수있다 β k 0, at least oe k. 그러므로모형변동 ( SSR = ( y y ) 은 고려된모형의설명변수에의한설명력의척도이다. F- 검정결과유의하지않으면유의한설명변수가없다는의미이므로더이상의분석은 의미가없다. 유의하면설명변수각각에대한유의성검정인 t- 검정을실시하면된다. t- 검정과의관계 SSR = β ( X X ) 이고 MSE s ( ˆ) β = 이므로다음이성립하므로단순회귀분석에서는 ( X X ) 분산분석의 F-검정과기울기회귀계수에대한 t-검정은동일하다. 단순회귀에서는모형에대한 F-검정이나설명변수 ( 회귀계수 ) 에대한 t-검정은동일하다. ˆ ˆ * β ( X X ) F (1, ) = β β = = ( ) = t ( ) MSE s ( ˆ) β s( ˆ) β http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 38.5.5 분산분석표 변동 SS( 자승합 ) (source) Regresso SSR = Yˆ Y ) ( 모형, 회귀 ) = 1 Error ( 오차 ) SSE = ( ˆ ) Total ( 총변동 ) Df ( 자유도 ) ( p = 1 Y Y = 1 p 1 = MS ( 평균자승합 ) MSR = SSR / p MSE = SSE /( ) EMS ( 기대평균자승합 ) E( MSR) = σ + β ( X X ) E ( MSE) = σ MSR SST = ( Y Y ) 1 F = ~ F(1, 1) = 1 MSE 다중회귀모형 ( y = α + β1 x1 + β x +... + β p x p + e ) 에서는 H 0 : β 1 = β1 =... = β p = 0 ( 설명변수가모두유의하지않다 ) 유의성검정은 F-검정을실시하고각설명변수에대한유의성검정은 t-검정을실시한다..5 상관분석 두변수간의 ( 선형 ) 관계를분석하는방법으로상관정도는상관계수에의해측정하며상관계수에대한검정은 t-검정을이용한다..5.1 상관계수 상관계수는두변수간의선형 ( 직선 ) 관계가존재하는알아보는방법이다. 회귀분석과유사하지만인과관계에대한분석은아니다. 상관계수는다음과같이구한다. 이를 Pearso 상관계수 (correlato coeffcet) 라한다. ( x x)( y y) ( x x) ( y y) r = cov( X, Y ) E( X E( X )) E( Y E( Y )) = = var( X ) var( Y ) var( X ) var( Y ) http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 39 x -- + + 점들이직선에모여있을수록상관계수는커진다. 상관계수의부호가양이면한변수의 값이커질수록 ( 작아질수록 ) 다른변수의값도커짐 ( 작아짐 ) 을의미하며음이면한변수의 값이커질수록 ( 작아질수록 ) 다른변수의값도작아짐 ( 커짐 ) 을의미한다. 표본의크기가커지면상관계수값이커지므로상관계수값이얼마이상이어야기준은없 으므로가설검정에의한유의확률을계산하기바란다. 상관계수에대해다음사항을주의 하기바란다. -- 상관계수는두변수간의선형관계를알아보는것이 다. 이차관계의상관계수는 0 이다. y 두변수간의관계는 차식 상관계수는점들이직선에모여있는정도를나타내는 지표이지직선의기울기의크기를나타내는것은아니 다. 오른쪽그림에서두타원의상관계수는동일하다. 이나선형관계정도를측 정하는상관계수는 0 이다. http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 40 Pearso 상관계수는측정형변수간의상관정도를나타낸다. 데이터가순서형이거나가질수있는값이 10개이하인경우 ( 예 : 리커트 Lkert 척도 ) 비모수적인방법으로상관계수를구하는것이좋다. Spearma 순위 (rak order) 상관계수와 Kedall의 τ 이대표복인비모수적방법이다. ( R )( ) x Rx R y R y 6 d rs = 1, R 은관측치순위, ( R R ) ( R R ) ( 1) x x sg( x x ) sg( y y j ) < j τ =, ( T0 Tx )( T0 Ty ) t 는동일한.5. 상관계수추론 y y x 의 - 번째그룹내의관측치개수이다. Rx R y d = 이다. 1, w < 0 sg ( w) = 0, w = 0, T 0 = ( 1) /, T x = t ( t 1) /, 1, w > 1 귀무가설 : H : ρ 0 ( 모집단상관계수는 0이다. 두변수는서로독립이다 ) 0 = 대립가설 : H : ρ 0 a 검정통계량 : T = r ~ t( ) (1 r ) /( ) 만약귀무가설이 H ρ = ρ 0 ( 예 : 모집단의상관계수가 0.7이다.) 이라면다음절차를 0 : 0 이용하여상관관계에대한가설을검정한다. 1+ r 1+ ρ0 1 검정통계량 : T = 0.5 l ~ N(0.5 l, ) 1 r 1 ρ 3 위사실을이용하여두모집단상관계수차이검정을다음절차에의해실시할수있다..5.3 회귀계수와관계 1+ r z( x) = 0.5 l 1 r z = 1/( z( x) z( y) x x x 3) + 1/( 1+ r, z( y) = 0.5 l 1 r y y y ~ N(0,1) 3) Sxx = ( x x), Syy = ( y y) 이라하면회귀모형에서기울기회귀계수추정치와상 Syy 관계수는관계는 βˆ = r 이다. 그러므로다음사실을알수있다. Sxx 0 기울기의부호와상관계수의부호는같다. 단순회귀분석기울기에대하유의성검정과상관계수유의성검정은동일하다. http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 41 타원이좁을수록상관계수는커지면회귀분석의정도 (precso) 은높아진다. 다음장에 서설명하게될회귀분석의결정계수 ( R ) 는상관계수는제곱과동일하다..6 원점을지나는회귀직선원점을지나는회귀모형은 y = βx + e 이므로이경우회귀계수 β 의 OLS는 ˆ x = y β 이다. 일반선형회귀모형 y = α + βx + e 에서절편 (α ) 이 0인경우이다. 선형회 x 귀모형에서절편에대한가설검정 ( H0 : α = 0) 을실시하여가설이채택되면원점을지나는 회귀직선을사용하면된다. 그러나일반적으로절편에대해관심이없으므로 ( 주로기울기, 설명변수의영향 ) 절편에대한추정, 검정은실시하지않는다. 대신분석하려는상황 ( 데이 터 ) 이원점을지나는회귀모형을고려해야한다면처음부터원점을지나는회귀모형을 설정한다. 예를들어비용과생산량과의관계를보거나약복용량에따른바이러스감소량 의관계를보는경우원점을지나는회귀모형을고려하면된다. SAS 에서는 NOINT 옵션 사용하면된다..7 결정계수 회귀계수추정과검정, 종속변수관측치에대한예측치 ( Yˆ ew ), 평균예측치 ( E (Y 0 ) ) 에대해 살펴보았으나두변수간의선형관계정도를나타낸통계량은없었다. 이에다음과같이 결정계수 (Coeffcet of Determato) 를정의한다. SSR SSE R = = 1 SST SST 결정계수는두변수 간의선형관계정도가높으면 ( 관측치들이직선가까이에모여있다는것을의미 ) 결정 계수는 1에가까워진다. 특히단순회귀모형에서는상관계수는 r = ± R 이성립한다. S yy ( 참고 : β = r ) 결정계수는단순히선형관계정도를나타내는수치일뿐검정할수 S xx 있는검정통계량이존재하지않아단지지표로사용될뿐이다. 특히설명변수가이산형 ( 설문지 Lkert 척도 ) 인경우매우낮아지는경향이있고관측치가많아지면커지는경향이 있어선형관계정도를나타내는좋은지표는아니다. 유의하지않은설명변수라도모형에삽입되면결정계수값은올라가므로모형의유의성 비교에는사용하지않는다. 대신설명변수의개수에의해조정된수정 (adjusted) 결정계수 를사용한다. 이것은다중회귀에서상세히다루기로한다. http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 4.8 통계소프트웨어사용하기 EXAMPLE -5 단순회귀하기 AD.xls ( 엑셀데이터 ) 1983 년미국 1 개기업광고비 (SPEND, 단위 : 백만 $) 가소비자평가도 (RATE) 를조사한 것이다. 회귀분석을다음과같이실시하시오. (1) 산점도를그리시오..1. 절 ( 페이지 참고 ) () 광고비의회귀계수 OLS 추정치와추정분산을구하시오. (3) 광고비의유의성을검정하시오. (4) 유의하다면회귀모형을적고해석하시오. 회귀계수의 95% 신뢰구간도구하자. (5) 유의하다면광고비가 40.1 인경우평가도예측치를구하시오. 95% 신뢰구간 (6) 유의하다면광고비가 50 인경우평가도예측치를구하시오. 95% 신뢰구간 (1) 풀이.1. 절의산점도 ( 페이지 ) 결과광고비 100 이상인기업 (3 개, MacDoald, Ford, AT&T) 은기업구조상광고비를많이편성하는기업으로이를제외하는것이적절하다. 그러므 로향후회귀분석에서는이를제외한 17 개기업만을사용하기로한다. 을선택한후 광고비 변수로정렬한후지우려는개체의행에서지우거나다음방법을이용한다. http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 43 을선택하고아래와같이화면을설정한다. ()-(3) 풀이 여전히이상치가존재하는것같다. 이상치를판단하는검정통계량을배 울때까지잠시덮어두자. http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 44 분산분석표 : 유의확률이 0.0015이므로회귀모형은유의하다. 개별설명변수의유의성검정은아래 t-검정이용하면된다. 데이터가 17(3개는이상치로제외 ) 개이므로총변동의자유도는 16이다. F-검정유의확률이 0.0015이므로회귀모형에설정한설명변수광고비는유의하다. 즉광고비는소비자평가도에영향을미침을알수있다. Root MSE = MSE = 40. 3, R-square= 결정계수, Depedet Mea은종속변수 ( 평가도 ) SSE /( p 1) 40.3 의평균, Adj-R-Sq는 1 = 1 = 0. 4667 ( 결정계수의문제점을보완 SST /( 1) 1610 /16 하기위한통계량 ) Coeff. Var은종속변수의변동계수 ( s y / y *100(%), 분산의비교에사용 ) 이다. 광고비회귀계수의유의확률이 0.0015 로유의수준 0.05 보다작으므로유의하다고할수 있다. 회귀계수가 0.86 이므로광고를많이할수록평가가높아짐을알수있다. 광고비를 단위 1 만큼더사용하면평가는 0.86 만큼증가한다. 최종회귀모형 : 평가 = 9.57 + 0.86 * 광고비 ( t = 3.97, p = 0.0015) 메뉴를선택하고아래와같이메 뉴를설정한다. 일단은설명변수와종속변수만지정하자. 나머지는 default 사용하자. 산점도그리기는페이지 3 을참고하기바란다. http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 45 SAS 결과와동일하다. 하나더출력되는것이있다면표준화회귀계수 (stadardzed beta coeffcet) 이다. 이는설명변수를표준화 (stadardzato) 하여얻은회귀계수이다. 종속변수에대한설명변수간의영향력을비교하는데사용한다. 자세한내용은다중회귀에서다루기로한다. (4) 회귀계수신뢰구간구하기 회귀계수신뢰구간을구하려면 CLB(Cofdece Lmt for Beta) 옵션을사용하면된다. 신 뢰수준 0.95이면 α = 0. 05 (default) 사용하면한다. 90% 신뢰구간이면 α = 0. 1 사용한다. 기울기 ( 설명변수 sped) 의 95% 신뢰구간은 0 을포함하고있지않으므로유의하다. 검정 결과와동일하다. 사실회귀계수신뢰구간은별로사용하지는않는다. http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 46 선형회귀모형설정창에서 통계량 옵션의신뢰구간을선택하면된다. (5)-(6) 수집된데이터에없는설명변수의값에대해예측치나예측치신뢰구간을구하려면데 이터제일마지막부분에설명변수값과종속변수는결측치 (.) 으로하여데이터를입력한 다. 물론마지막관측치는회귀모형에사용되지않는다. P(predcted) 종속변수예측치 CLM(cofdece lmt for mea) E y ) 의신뢰구간 CLI(cofdece lmt for dvdual) ŷ R(resdual) 잔차 ( r = y yˆ ) ( 0 yew 의신뢰구간 SAS 에는종속변수개별예측치신뢰구간, 평균예측치신뢰구간을그릴수있는 PROC 가있다. RL 의의미는 Regresso Le 의약어이다. E( Y 0 ) 와 Y ew 의신뢰구간그리기 http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 47 언급한대로평균에대한예측구간, 개별관측치에대한신뢰구간에비해좁다. 잔차는관측치와예측치 ŷ 의차이이다. ŷ 는최종회귀모형평가 = 9.57 + 0.86 * 광고비에의해계산된값이다. 회귀모형추정결과를비교해보라. 마지막관측치없는결과와동일하다. 데이터창마지막에설명변수데이터를입력한다. 선형회귀분석창의 저장 옵션을아래와같이선택하면된다. 표준화하지않음 은예 측치 ŷ, 예측구간은 E( Y 0 ) 와 Y ew 값, 표준화하지않음 잔차는 r 을의미한다. http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 48 상관계수 단순회귀모형의회귀계수와상관계수의관계를알아보기위하여상관계수를구해보자. 이상치로보이는 3 개를제외한 AD0 데이터를이용하여상관분석을실시하였다. DATA 문옆에아무옵션을사용하지않으면 Pearso 상관계수가출력된다. 만약비모수상관계 수를출력하기원하면 KENDALL 혹은 SPEARMAN 이라적어주면된다. 유의확률이 0.0015 이므로평가도와광고비의상관관계는유의하다. 상관계수는 0.707 이 므로광고비가높아지면평가도가높아진다. 페이지 40 의상관계수와회귀계수의관계식이맞는지숫자로살펴보자. 다음은 SAS 에 출력된각변수의기초통계량이다. 만약이것을출력하지않으려면 PROC CORR 문장에 옵션으로 NOSIMPLE 을사용하면된다. 관계식이 Syy Syy 8.07 βˆ = r 이었으므로 r = * 0.707 = 0. 864 ( 페이지 45) 는회귀계수의 Sxx Sxx.96 추정치와동일하다. 그러므로단순회귀에서상관계수의유의성검정 ( H 0 : r = 0 ) 과회귀모형의기울기회귀계수유의성검정 ( H 0 : β = 0 ) 은동일하다. http://wolfpack.haam.ac.kr @005 Sprg
REGRESSION / 장. 단순회귀 49 상관계수를구하려는변수를변수타원으로표시한부분은 default 로나타나므로따로 설정할필요는없다. HOMEWORK #3 DUE 3 월 3 일 ( 수 ) CANCER.txt ( 텍스트데이터 ) SPSS 와 SAS 모두사용하여분석하시오. 연평균온도 (F: Fahrehet, 설명변수 ) 가여성종양사망지수 (mortalty dex) 에영향을미 치는지알아보기위하여유럽몇지역을대상으로조사한자료이다. (SPSS 이용하기 ) 1 산점도를그리자. 산점도를이용하여이상치가있으면제외하자. 하나는있다. 이를제 외한다음분석을실시하자. 회귀모형을추정하고유의성을검정하시오. 3 예측치와잔차를구하자. 4연평균온도가 90도일때여성종양사망지수의평균예측치를구하시오. 신뢰수준은 90% 로하시오. 5 상관계수를구하고해석하시오. 회귀계수와의관계를밝히시오. http://wolfpack.haam.ac.kr @005 Sprg