Principles of Economerics (3e) Ch. 4 예측, 적합도, 모형화 013 년 1 학기 윤성민
4.1 OLS 예측 (1) 점예측 x0 y0 - 설명변수일때, 종속변수의값을예측하고자함 y ˆ = b + 0 1 b x 0 Ch. 4 예측, 적합도, 모형화 /60
4.1 OLS 예측 예측오차 (forecas error), f 예측오차의기대값 ( ) ( ) f= y yˆ = β +β x + e b+ bx 0 0 1 0 0 1 0 ( ) ( ) ( ) ( ) E f =β 1 +β x0 + E e0 E b1 + E b x0 [ x ] =β +β x + 0 β +β = 0 1 0 1 0 예측오차의분산 1 ( x0 x) var( f ) =σ 1 + + N ( xi x) ŷ y0 는의최우수선형불편예측값 (BLUP) 0 Bes Linear Unbiased Predicor Ch. 4 예측, 적합도, 모형화 3/60
4.1 OLS 예측 예측오차 (forecas error) 의분산을줄이기위한방법 = 예측의정확도를높이기위한방법 1 ( x0 x) var( f ) =σ 1 + + N ( xi x) 모형의전체적불확실성 ( ) 을줄임 표본의크기 ( N ) 를늘림 설명변수의변동을크게함 평균근처에서예측함 ( 평균에서벗어나서예측할수록정확도가떨어짐 ) σ Ch. 4 예측, 적합도, 모형화 4/60
4.1 OLS 예측 () 구간예측 ( ) yˆ 0 ± cse f 신뢰구간, 혹은예측구간 se ( f ) = var ( f ) 1 ( x0 x) var( f ) =σ ˆ 1 + + N ( xi x) Ch. 4 예측, 적합도, 모형화 5/60
4.1 OLS 예측 구간예측 x - 가에서멀어질수록, 예측오차분산증가 예측신뢰성감소 0 x Ch. 4 예측, 적합도, 모형화 6/60
4.1 OLS 예측 4.1.1 식료품지출액모형의예측 주당소득이 $,000 인가계의식료품지출액은얼마인가? 점예측 yˆ = b+ bx = 83.4160 + 10.096(0) = 87.6089 0 1 0 구간예측 [ ] yˆ ± se( f) = 87.6069 ±.044(90.638) = 104.133, 471.0854 0 c 1 ( x0 x) var( f ) =σ ˆ 1 + + N ( xi x) Ch. 4 예측, 적합도, 모형화 σˆ =σ ˆ + + ( ) σˆ x0 x N ( xi x) σˆ =σ ˆ + + ( x 0 x) var ( b) N 7/60
4. 적합도의측정 Y β 1 + β X + = e 이모형을추정하고분석하는이유의하나는 예측 임 X 설명변수가모형에도입된이유는 그것이종속변수 것이라고생각하기때문임 E ( Y ) = β 1 + β X 의변동을가능한많이설명할 : 체계적인요소, 설명할수있는부분 e : 무작위적교란요소, 설명할수없는부분 이두요소는실제로는관찰불가능 Y Ch. 4 예측, 적합도, 모형화 8/60
4. 적합도의측정 추정을통하여관찰가능한식 Y ˆ + ˆ 여기서 ˆ b + b X, = Y e Y = 1 e = Y Y ˆ ˆ Y 의총변동을측정하는합리적인방법 : ( Y Y ) p.131 < 그림 4.3> Ch. 4 예측, 적합도, 모형화 9/60
4. 적합도의측정 Ch. 4 예측, 적합도, 모형화 10/60
4. 적합도의측정 Y = ˆ Y ) ( Y Y ) + eˆ ( SST = SSR + SSE 총변동을이렇게분해하여정리한것을 분산분석표 (analysis of variance able) 라함 Ch. 4 예측, 적합도, 모형화 11/60
4. 적합도의측정 결정계수 (coefficien of deerminaion) : 종속변수의변동중설명변수로회귀모형내에서 설명할수있는부분의비율 SST = SSR + SSE R SSR = = 1 SST SSE SST R ˆ + 가 1에가까울수록로 Y 의변동을 Y = b1 b X 잘설명할수있다는것을의미함, 또추정된모형의예측성과 ( 능력 ) 가높다는것을의미함 Ch. 4 예측, 적합도, 모형화 1/60
4. 적합도의측정 R SSR = = 1 SST SSE SST 0 R 1 Ch. 4 예측, 적합도, 모형화 13/60
4. 적합도의측정 유의사항 R 만으로는회귀모형의질을측정할수없음 R 를극대화하는것에만초점을맞추는것은올바른회귀분석방법이아님 R 는단지회귀모형의적합도 (goodness of fi) 를측정하여나타내는척도임 Ch. 4 예측, 적합도, 모형화 14/60
4. 적합도의측정 4..3 식료품지출액추정식의적합도측정 ( i ) SST = y y = 49513.160 ( ) i i i SSE = y yˆ = eˆ = 304505.176 SSE 304505.176 R = 1 = 1 = 0.385 SST 49513.160 해석 식료품지출액변동은약 39% 가소득변동으로설명가능 추정된회귀모형은식료품지출액변동의약 39% 를설명할수있으나, 변동의 61% 는이모형으로설명할수없다는의미 Ch. 4 예측, 적합도, 모형화 15/60
4. 적합도의측정 <EViews Regression Oupu> Ch. 4 예측, 적합도, 모형화 16/60
<Excel Regression Oupu> 4. 적합도의측정 SSE 304505.176 R = 1 = 1 = 0.385 SST 49513.160 Ch. 4 예측, 적합도, 모형화 17/60
4. 적합도의측정 유의사항 R = 0.385 Ch. 4 예측, 적합도, 모형화 18/60
4. 적합도의측정 4.. 상관계수와결정계수의관계 correlaion coefficien ρ beween X and Y sample correlaion coefficien r XY = R r Y Yˆ = R R : is called a measure of goodness of fi. Ch. 4 예측, 적합도, 모형화 19/60
4. 적합도의측정 r = R = 0.385 YYˆ Ch. 4 예측, 적합도, 모형화 0/60
4. 적합도의측정 4..4 회귀분석결과를보고하는방법 회귀분석컴퓨터 SW는다양한정보를제공함 회귀분석결과를보고할때는그러한정보를아래와같이요약하여표시함 FOOD_EXP = + INCOME R = 83.4 10.1 0.385 (se) (43.41) (.09) * *** 83.4 10.1 0.385 FOOD_EXP = + INCOME R = (- 값) (1.9) (4.88) * *** *, **, *** indicaes significan a he 10%, 5%, 1% level, respecively. Ch. 4 예측, 적합도, 모형화 1/60
4.3 모형화문제 통계자료를일정한비율로조절하면? 통계수치가너무큰경우는편리한측정단위로조절하여발표함 ( 예 ) X * = 93,491,400,000,000 ( 원 ) X = 93.4914 ( 조원) 이경우자료를다음과같은비율로조절한것임 * X = X 1,000,000,000,000 자료를일정한비율로조절하는경우, 추정결과에어떤영향을미치는가? 추정결과의해석에는어떤영향을미치는가? Ch. 4 예측, 적합도, 모형화 /60
4.3 모형화문제 X 의측정단위변화경우 * ( 예 ) X = 100 로조절한경우 X 소득이 $100 증가하면, 식료품지출은 $1.83 증가함 if X = 100 즉 X * = 1, hen Y = 1.83., se( ) 해당회귀계수및표준오차 ( ) 도 100 배증가 b 다른모든회귀분석통계량은불변 b Ch. 4 예측, 적합도, 모형화 3/60
4.3 모형화문제 Y 의측정단위변화경우 * ( 예 ) Y =100 로조절한경우 Y 100 Y ˆ = (100 40.77) + (100 0.183) X ˆ * = 4077 + 1. X Y 83 소득이 $1 증가하면, 식료품지출은 1.83 센트증가함 소득이없는사람은식료품지출에 4,077센트사용함 모든회귀계수및표준오차도 100배증가 다른모든회귀분석통계량 ( R, 값등 ) 은불변 모수에대한해석은측정단위와관련지어이루어져야함 Ch. 4 예측, 적합도, 모형화 4/60
4.3 모형화문제 회귀분석결과, 그리고수치들사이의상호관계 Ch. 4 예측, 적합도, 모형화 5/60
4.3 모형화문제 회귀분석결과, 그리고수치들사이의상호관계 ( 계속 ) Ch. 4 예측, 적합도, 모형화 6/60
4.3 모형화문제 회귀분석결과, 그리고수치들사이의상호관계 ( 계속 ) Ch. 4 예측, 적합도, 모형화 7/60
4.3 모형화문제 회귀분석결과, 그리고수치들사이의상호관계 ( 계속 ) Ch. 4 예측, 적합도, 모형화 8/60
4.3 모형화문제 4.3. 함수형태의선택 단순선형회귀모형 Y β 1 + β X + = e 선형 이라는용어는 변수들사이의선형 이아니라 모수들사이의선형 을의미함 이경우 변수들사이의비선형 모형은적절한변형을통하여 변수들사이의선형 모형으로전환될수있으며, OLS를적용하여추정할수있음 Ch. 4 예측, 적합도, 모형화 9/60
4.3 모형화문제 Ch. 4 예측, 적합도, 모형화 30/60
4.3 모형화문제 ( 예 ) 식료품지출액 아래와같은비선형관계일가능성이높음 선형모형으로추정하면적절치못할수있음 변수간의비선형관계 Ch. 4 예측, 적합도, 모형화 31/60
4.3 모형화문제 변수간의비선형관계 자연대수 :, 역수 :, lny 1 Y 1 X ln X Y 제곱 :, X e Y 지수 :, e X 위와같은대수학적인변형을통하여 다양한형태의변수간비선형관계를나타낼수있음 Ch. 4 예측, 적합도, 모형화 3/60
비선형관계, 그렇지만선형모형으로변환가능한모형 들 4.3 모형화문제 Ch. 4 예측, 적합도, 모형화 33/60
4.3 모형화문제 함수형태의선택 : 실증적인논의 최선의함수형태를어떻게고를수있을까? - 모든상황에적용될수있는원칙은없음 실증분석을할때유용한방법들 - 경제이론이의미하는함수형태 - 단순회귀모형의기본가정이준수되는함수형태 - 자료의산포도를그려보고그것을잘반영할수있는함수형태 Ch. 4 예측, 적합도, 모형화 34/60
4.3 모형화문제 식료품지출액사례의모형화방법 1 FOOD _ EXP =β 1 +β + e INCOME FOOD _ EXP =β +β ln( INCOME) + e 1 Ch. 4 예측, 적합도, 모형화 35/60
4.3 모형화문제 함수형태를선택하는기준 만족스러운함수형태를선택할경우, 회귀모형의기본가정이준수되는데도움이됨 함수형태를선택하거나변수를변형시키는주요한목적은오차항이다음과같은특성을갖는모형을설정하기위한것. 이경우에 OLS 추정량은타당한통계적특성을가짐 R 가높다고꼭좋은모형은아님 Ch. 4 예측, 적합도, 모형화 36/60
4.3 모형화문제 4.3.4 잔차는정규분포를하는가? OLS 추정량을이용한가설검정과구간추정은잔차가정규분포를한다는가정에의존함. 따라서함수형태를선택할때, 잔차가정규분포를하는것이바람직함 잔차의정규성 (normaliy) 을검정하는통계량들이대부분의컴퓨터 SW에서계산되어제공됨 ( 예 ) J-B 통계량 Ch. 4 예측, 적합도, 모형화 37/60
4.3 모형화문제 4.3.4 잔차는정규분포를하는가? Ch. 4 예측, 적합도, 모형화 38/60
4.3 모형화문제 쟈크 - 베라검정 (Jarque-Bera es, J-B es) 귀무가설 : 잔차는정규분포를한다 JB = T 6 s + ( k 3) 4 ~ χ () s 는왜도 ( 비대칭도, skewness) k 는첨도 ( 첨예도, kurosis) Ch. 4 예측, 적합도, 모형화 39/60
4.3 모형화문제 왜도 (skewness) 분포의비대칭도를나타냄 정규분포에서는 s = 0 s < 0 s > 0, 왼쪽꼬리분포 ;, 오른쪽꼬리분포 Ch. 4 예측, 적합도, 모형화 40/60
4.3 모형화문제 첨도 (kurosis) 분포의첨예도, 자료가얼마나뾰족한가를판단하는척도 정규분포에서는 k = 3 (execss kurosis = 0) 첨도가클수록분포는뾰족한모습 Ch. 4 예측, 적합도, 모형화 41/60
4.3 모형화문제 잔차는정규분포를하는가? Ch. 4 예측, 적합도, 모형화 4/60
4.3 모형화문제 식료품비지출액잔차의정규성검정 JB ( ) 40.99 3 = 0.097 + = 0.063 6 4 χ () 의 5% 임계값은 5.99 (1% 임계값은 9.1) 0.063<5.99 이므로, 잔차가정규분포를한다는귀무가설을기각할수없음 p-값 =0.9688>0.05( 유의수준 ), 귀무가설을기각할수없음 Ch. 4 예측, 적합도, 모형화 43/60
4.3 모형화문제 4.3.5 밀산출량산포도 (p.143 사례 ).5 밀산출량 1.5 1 0.5 0 1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 000 시간 Ch. 4 예측, 적합도, 모형화 44/60
4.3 모형화문제 선형모형으로추정 Y β 1 + β X + = e 회귀분석통계량 다중상관계수 0.80585 결정계수 0.649394 조정된결정계수 0.64177 ˆ Y = 0.638 + 0.01X R = (0.064) (0.00) ( s. e.) 0.649 표준오차 0.1869 관측수 48 분산분석 자유도 제곱합 제곱평균 F 비 유의한 F 회귀 1 4.07486 4.07486 85.015 4.88E-1 잔차 46.00009 0.04786 계 47 6.74869 계수표준오차 통계량 P- 값 Y 절편 0.637778 0.064131 9.944999 4.85E-13 X 1 0.0103 0.0079 9.3045 4.88E-1 Ch. 4 예측, 적합도, 모형화 45/60
4.3 모형화문제 밀산출량표본회귀선의추정.5 밀산출량 1.5 1 Y = 0.638+0.01X R² = 0.649 0.5 0 1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 000 시간 Ch. 4 예측, 적합도, 모형화 46/60
4.3 모형화문제 잔차계산.5 실제값잔차추정된회귀선 1.5 밀산출량 1 0.5 0-0.5-1 1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 000 시간 Ch. 4 예측, 적합도, 모형화 47/60
잔차가 (+), (-), (+) 형태로집중되어있음 4.3 모형화문제 밀산출량의증가속도가빠르다는의미, 비선형모형필요함 0.6 0.4 잔차 0. E-15-0. 1950 1955 1960 1965 1970 1975 1980 1985 1990 1995-0.4-0.6 Ch. 4 예측, 적합도, 모형화 48/60
4.3 모형화문제 비선형모형으로추정 3 Y = β 1 + β X + e 회귀분석통계량 다중상관계수 0.866496 결정계수 0.750815 조정된결정계수 0.745398 표준오차 0.184368 관측수 48 ˆ 3 Y = 0.874 + 9.68Z R = 0.751 (0.036) (0.84) ( s. e.) Z = 3 3 X 1,000,000 분산분석 자유도 제곱합 제곱평균 F 비 유의한 F 회귀 1 4.71165 4.71165 138.6017 1.77E-15 잔차 46 1.563604 0.033991 계 47 6.74869 계수표준오차 통계량 P- 값 Y 절편 0.874117 0.035631 4.537 4.6E-8 X 1 9.681516 0.8355 11.779 1.77E-15 Ch. 4 예측, 적합도, 모형화 49/60
4.3 모형화문제 잔차의집중화개선, R 증가.5 1.5 실제값 잔차 추정된회귀선 Yha=0.874+9.68Z 3 R =0.751 밀산출량 1 0.5 0-0.5-1 1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 000 시간 Ch. 4 예측, 적합도, 모형화 50/60
4.4 대수 - 선형모형 (log-linear model) lny β + β X + = 1 e Slope: β Y if β > 0, 체증하는율로증가 β > 0 Elasiciy: β X 해석 : X 가 1단위증가할때, Y 는대략 100 β % 변화함 β < 0 Ch. 4 예측, 적합도, 모형화 51/60
4.4 대수 - 선형모형 4.4.1 성장모형 앞의밀생산사례에서기술이진보함에따라 ( 즉, 시간이흐름에따라 ) 밀생산은체증하는율로증대되었음 밀생산량이연간일정한율 ( g ) 로증가한다면, YIELD ( 1 g ) YIELD 1 = + 이런관계를반복적으로대체시키면, ( ) = ( ) + ( + ) ln YIELD ln YIELD ln 1 g YIELD 0 =β +β 1 - 여기서는 0 연도의생산량 ( 몰라도좋음, 추정가능 ) 0 Ch. 4 예측, 적합도, 모형화 5/60
4.4 대수 - 선형모형 밀생산사례 : 대수 - 선형모형 밀생산통계자료를대수 - 선형모형으로추정해보면, ln = 0.3434 + 0.0178 ( YIELD ) (se) (0.0584) (0.001) 추정치 b = ln ( 1+ g) = 0.0178 x 가작은경우 ln(1 + x) x 라는사실을이용하면, 밀생산의증가율은대략 0.0178 g = 또는연간약 1.78% 로추정됨 100 β % Ch. 4 예측, 적합도, 모형화 53/60
4.4 대수 - 선형모형 4.4. 임금방정식 교육을추가적으로 1 년더받으면, 임금이일정율 ( r ) 로증가 한다면 WAGE ( 1 ) = + r WAGE 1 0 ( 1 ) ( 1 ) WAGE = + r WAGE = + r WAGE 1 0 교육받은기간 ( 년 ) 을 EDUC 라고나타내면, 다음이성립함 ( ) = ( ) + ( + ) ln WAGE ln WAGE ln 1 r EDUC =β +β 1 0 EDUC 교육을추가적으로 1 년더받으면, 임금은대략 100 β % 증가 Ch. 4 예측, 적합도, 모형화 54/60
4.4 대수 - 선형모형 미국통계를이용한임금방정식추정결과 ln = 0.7884 + 0.1038 ( WAGE) (se) (0.0849) (0.0063) EDUC 교육을추가적으로 1 년더받으면, 임금은대략 10.4% 증가함 Ch. 4 예측, 적합도, 모형화 55/60
4.4 대수 - 선형모형 4.4.3 대수 - 선형모형에서의예측 소표본경우 : 대표본경우 : ( ( )) ( 1 ) yˆ = exp ln y = exp b+ bx n ( ) exp( 1 ) yˆ = E y = b+ bx+σ ˆ = ye ˆ σ c ˆ n ( 교과서부록 4C에증명참조 ) 교육받은기간이 1년인근로자의임금은얼마인가? ln =.7884 +.1038 EDUC =.7884 +.1038 1 =.0335 ( WAGE) ( ( y) ) ( ) yˆ = exp ln = exp.0335 = 7.6408 1 ( 시간당 7.64 달러 ) 수정된예측값은 Ch. 4 예측, 적합도, 모형화 ( ) ˆ yˆ ˆ c = E y = ye σ n = 7.6408 1.176 = 8.6161 ( 시간당 8.61 달러 ) 56/60
4.4 대수 - 선형모형 R 4.4.4 일반화된의측정 ( ˆ ) R = corr yy, = r g yy, ˆ 임금방정식의사례 R ( ) ln WAGE = 0.7884 + 0.1038 EDUC R = 0.146 (se) (0.0849) (0.0063) ( yyˆ ) = corr, = 0.4739 = 0.46 g c Ch. 4 예측, 적합도, 모형화 57/60
대수 - 대수모형 대수 - 대수모형 (log-log model) Y = β 1 β ln X + ln + e Slope β Y X Elasiciy β Ch. 4 예측, 적합도, 모형화 58/60
대수 - 대수모형 대수 - 대수모형 (log-log model)- 계속 Y = β 1 β ln X + ln + e Slope β Y X β < 1 Elasiciy β Ch. 4 예측, 적합도, 모형화 59/60
< 과제 > 4.8 4.14 Eviews oupu을출력하고, 출력물의빈여백에간단하게답을적으시오. 참고 : 필요한 daa 는 WILEY 교과서홈페이지에있음 hp://principlesofeconomerics.com/ Ch. 4 예측, 적합도, 모형화 60/60