회귀분석의 기초 한국보건사회연구원 2017년 6월 19일(월요일) & 22일(목요일) 강의 슬라이드 9 1/ 78
목차 1 2 3 4 2/ 78
지난 시간 복습 모집단 평균 µ에 대한 통계적 추론을 하는 방법: σ 신뢰구간: x ± t 유의성 검정: t = x µ σ/ 위 공식을 보면 모집단 표준편차 σ가 들어 있는데 이 σ를 모르니까 표본 표준편차 s로 대체해서 다음 공식을 사용해서 통계적 추론을 함: s 신뢰구간: x ± z 유의성 검정: z = x µ s/ s = 위에서 를 표준오차(stadard errors)라고 하는데 이것이 의미하는 바는 어떤 추정량의 추출분포의 변이(분산)를 지칭!! 왜 σ를 s로 대체? = s가 σ의 일치(cosistet) 추정량이기 때문!! 3/ 78
지난 시간 복습 수리통계학: 1. 추정량의 유한표본(fiite sample) 성질 = 표본의 크기와 상관 없이 항상 성립하는 추정량의 성질 2. 추정량의 대표본(large sample) 성질 혹은 점근적(asymptotic) 성질 = 표본의 크기가 클 때만 성립하는 추정량의 성질 4/ 78
지난 시간 복습 추정량의 유한표본 성질: 1. 비편의성(ubiasedess) = E(W ) = θ; E(X ) = µ 2. 효율성(efficiecy) = W1 과 W2 가 모수 θ의 비편의 추정량일 때, V ar(w1 ) V ar(w2 )이면 추정량 W1 이 W2 에 비해 효율적이라고 함 3. 평균제곱오차(mea squared error, MSE) = M SE(W ) = E (W θ)2 = V ar(w ) + Bias(W )2 5/ 78
지난 시간 복습 추정량의 대표본 성질: 일치성(cosistecy) 1. E(W ) = θ이고 일 때 V ar(w ) 0이면 W 는 θ의 일치 추정량! 2. 어떤 추정량을 사용하기 위해서는 이 추정량에 일치성이 요구됨! 3. X 는 µ의 일치 추정량 2 = E(X ) = µ이고 V ar X = σ /이기 때문에 일 때 V ar X 0이 되므로! 6/ 78
들어가며 두 변수 간에 존재하는 선형 관계를 최소자승 회귀선을 이용해서 검토하는 법을 다뤘을 때, 최소자승 회귀선은 다음과 같은 형태를 갖고 있음을 배움: y i = β 0 + β 1 xi 그리고 위 절편 β 0 과 기울기 β 1 의 공식, 즉 추정량은 β 1 = r sy sx β 0 = y β 1 x = 위 추정량 즉 β i 은 모집단 모수 βi 의 추정량이라고 생각할 수 있음 변수 y와 x는 어떤 모집단을 대변하는 변수이고 우리의 관심사는 x를 이용해 y를 설명하고자 하는 것 모집단 에서의 y와 x 간의 관계식을 다음과 같이 기술할 수 있음 y = β0 + β1 x + ε 7/ 78
들어가며 y = β0 + β1 x + ε 위 식에서 ε는 오차항(error term)이라고 부름 = 오차항이 나타내는 것은 y의 변화 중에서 x가 설명하지 못하는 변화 재밌는 것은 위 식에서처럼 모집단에서 y와 x 간의 관계식이 선형적으로 기술이 되고 또 절편 β0 이 포함되어 있다면 다음과 같은 가정을 해도 아무 문제가 되지 않는다는 사실: E(ε) = 0 즉 모집단에서 오차항의 기대값은 0이라는 것! = 이런 가정을 해도 될까? Yes! 8/ 78
들어가며 y = β0 + β1 x + ε 우선 E(ε) 6= 0이라고 가정하겠음. 이 때 상수 a = E(ε)를 위 모집단 관계식의 왼쪽에 다음과 같이 더했다가 빼도록 하겠음: y = β0 + β1 x + ε = (a + β0 ) + β1 x + (ε a) = 위 식을 보면 새로운 절편 a + β0 와 오차항 ε a가 생겼음을 알 수 있음 이 새로운 절편과 오차항을 이용해서 모집단을 기술한 것인데 재밌는 것은 여기서 새로운 오차항은 0이라는 사실: E(ε a) = E(ε) E(a) = E(ε) a = E(ε) E(ε) = 0 = 즉 모집단 관계식에 절편 을 포함한다면 오차항은 항상 0으로 만들 수가 있고, 따라서 E(ε) = 0이라는 가정을 해도 아무 문제가 없음 예를 들어, y가 임금이고 x가 교육수준, 그리고 ε에는 우리가 관측할 수 없는 끈기가 포함되어 있다고 하겠음 세상에는 끈기가 있는 사람(+)과 없는 사람( )으로 나눌 수가 있을텐데, E(ε) = 0이라는 가정은 모집단에서 사람들의 끈기의 기대값은 0이라는 것 = 전혀 비합리적인 가정이 아니고 절편만 식에 포함한다면 항상 성립하는 가정!! 9/ 78
들어가며 y = β0 + β1 x + ε 위에서 β0 과 β1 은 모집단 모수이고 β 0 과 β 1 은 표본 통계량!! 위 β0 과 β1 을 추정량 β 0 과 β 1 으로 추정하는 것 무엇을 이용해서? = 우리가 갖고 있는 표본 자료를 이용해서 추정! 10/ 78
들어가며 y = β0 + β1 x + ε 자 이제 통계학을 공부했기 때문에 다음과 같은 질문에 답을 할 수 있어야 함: 추정량 β 0 과 β 1 을 이용해 모수 β0 와 β1 을 추정하기 위해서는 이 추정량에 어떠한 특성이 존재해야 할까? 통계학에서 모수 µ를 추정할 때 x 라는 추정량을 사용했음. Why? 1. x 는 µ의 비편의 추정량 2. x 가 µ의 일치 추정량 3. 일정한 조건(이 크고 무작위 표본)을 갖추면 CLT에 의해 이 x 와 관련해서 통계적 추론 가능 11/ 78
들어가며 추정량 β 0 과 β 1 을 이용해 모수 β0 와 β1 을 추정하기 위해서는 이 추정량에 어떠한 특성이 존재해야 할까? β 0 과 β 1 을 이용해 β0 와 β1 을 추정하기 위해서는 이 추정량에 x 와 같이 비편의성이나 일치성과 같은 바람직한 성질이 존재해야 함 그럼 β 0 과 β 1 에 이러한 바람직한 성질이 존재하는지 확인하기 위해서는 뭘 검토해야 할까? = β 0 과 β 1 의 추출분포의 중앙, 변이, 그리고 모양에 대해서 알아야 함 이제 왜 계량경제학을 배우기 전에 통계학을 배워야 하는지 아시겠나요? 12/ 78
들어가며 그래서 계량경제학의 기초에서는 β 0 과 β 1 의 추출분포의 특성에 대해서 배움 통계학을 배웠으니 좀 더 엄밀하게 말하면: 1. β 0 과 β 1 의 유한 표본(fiite sample) 성질을 검토 2. 대표본(large sample) 성질 검토 3. β 0 과 β 1 의 추출분포의 모양에 대해서 검토하고 이를 토대로 β 0 과 β 1 에 대한 통계적 추론을 하는 방법 계량경제학에서는 매우 귀찮은 수리적 도출과정을 많이 다룰 것임 좀 짜증이 나도 이러한 도출과정을 꼼꼼하게 익힐 것을 권함 = 그 이유는 이러한 과정을 공부해야 회귀분석의 기초를 튼튼하게 다질 수 있고, 또 제가 경험한 바에 의하면, 회귀분석의 기초를 완벽하게 마스터해야 추후에 나오는 계량경제학이나 실험 및 준실험적 연구방법론의 내용을 제대로 이해할 수 있음 13/ 78
적합값(Fitted Values)과 잔차(Residuals) OLS 통계량의 대수 성질 적합도(Goodess-of-Fit) β 1 = r sy sx β 0 = y β 1 x 위 추정량을 β0 와 β1 의 보통최소제곱(ordiary least squares, OLS) 추정량이라고 함 표본 자료를 추정량에 대입을 해서 위 추정량의 추정값을 구하면 다음과 같은 OLS 회귀선을 도출할 수 있음 y = β 0 + β 1 x = 위 OLS 회귀선을 적합(fitted) OLS선이라고도 하는데 그 이유는 표본 자료를 추정량에 적합(fit)했기 때문 과 대표본 성질을 공부하기 전에 위 적합 회귀선의 대수 성질을 먼저 배우겠음 = 대수 성질이란 어떤 표본을 갖고 있든 성립하는 성질이라고 생각하면 됨. 즉 표본을 무작위로 추출을 했든 안했든 성립한다는 것을 의미 14/ 78
적합값(Fitted Values)과 잔차(Residuals) OLS 통계량의 대수 성질 적합도(Goodess-of-Fit) 적합값(Fitted Values)과 잔차(Residuals) 표본을 이용해 β 0 과 β 1 의 추정값을 구하고 이 추정값을 토대로 각각의 관측치 i의 적합값 y i 을 구할 수 있음 = 이 각각의 적합값 y i 은 OLS 회귀선 상에 위치 실제 자료값 yi 와 이 적합값 y i 의 차이를 i의 잔차(residual)라고 하고 ε i 라고 표기함: ε i = yi y i = yi β 0 β 1 xi 만약 ε i 이 양수이면 OLS 회귀선이 실제 yi 값을 과대 추정한 것이고, ε i 이 음수이면 OLS 회귀선이 실제 yi 값을 과소 추정한 것이 됨 ε i = 0이면 실제 자료값과 추정값이 일치한다는 것임 = 물론 대개의 경우 잔차가 0으로 나오지는 않습니다. 15/ 78
적합값(Fitted Values)과 잔차(Residuals) OLS 통계량의 대수 성질 적합도(Goodess-of-Fit) OLS 통계량의 대수 성질 OLS 통계량의 대수 성질을 다루기 전에 확률변수의 공분산 및 표본 공분산에 대해서 배우겠음 모집단 공분산(populatio covariace)는 두 확률변수의 선형 관계의 정도를 나타내는 지표: Cov(X, Y ) E[(X E(X))(Y E(Y ))] 모집단 공분산은 다음과 같이 나타낼 수도 있음: Cov(X, Y ) E(XY ) E(X)E(Y ) 표본 공분산 sxy 은: sxy 1X xi yi 1X xi! 1X yi! 16/ 78
적합값(Fitted Values)과 잔차(Residuals) OLS 통계량의 대수 성질 적합도(Goodess-of-Fit) OLS 통계량의 대수 성질 OLS 통계량에는 3가지 유용한 대수 성질이 존재: 1. 잔차들의 합은 항상 0. 수리적으로 표현을 하면: X ε i = 0 = 다시 말해, 어떤 표본 자료를 사용하던 잔차들의 합이 0이 되게끔 하는 게 OLS 추정값 β 0 과 β 1 2. 설명변수 값 xi 와 OLS 잔차들 ε i 간의 표본 공분산은 0. 수리적으로 나타내면: X xi ε i = 0 3. 성질 1과 2를 이용해서 y i 과 ε i 간의 표본 공분산이 0임을 알 수 있음: 1X 1X 1X y i ε i y i ε i = 0 17/ 78
적합값(Fitted Values)과 잔차(Residuals) OLS 통계량의 대수 성질 적합도(Goodess-of-Fit) OLS 통계량의 대수 성질 위 대수의 성질을 이용해서 총제곱합(total sum of squares, TSS), 설명제곱합 (explaied sum of squares, ESS), 그리고 잔차제곱합(residual sum of squares, RSS)에 대해서 배우겠음 각각의 정의: 1. T SS X (yi y )2 = yi 의 변이! 2. ESS X 2 X y i y = (y i y )2 = OLS 적합값 y i 의 변이! 3. RSS X 2 X ε i ε = ε 2i = OLS 잔차 ε i 의 변이! 어떤 표본 자료의 yi 의 총 변이는 ESS와 RSS의 변이에 의해 설명됨: = T SS = ESS + RSS 18/ 78
적합값(Fitted Values)과 잔차(Residuals) OLS 통계량의 대수 성질 적합도(Goodess-of-Fit) OLS 통계량의 대수 성질 T SS = ESS + RSS 증명: T SS = X (yi y )2 = = X X [(yi y i ) + (y i y )]2 [ε i + (y i y )]2 = X ε 2 + 2 = RSS + X ε i (y i y ) + X 2 X (y i y )2 ε i (y i y ) +ESS {z } y i 과 ε i 간의 표본 분산을 의미 = RSS + 0 + ESS (성질 3에 의해) = RSS + ESS 19/ 78
적합값(Fitted Values)과 잔차(Residuals) OLS 통계량의 대수 성질 적합도(Goodess-of-Fit) 적합도(Goodess-of-Fit) 이제 연구에 자주 나오는 R2, 즉 적합도라는 것에 대해서 공부를 할 수 있음 적합도란 설명변수 x가 결과변수 y를 얼마나 잘 설명하는지를 나타내는 지표 = 다르게 표현을 하면 추정한 OLS 회귀선이 자료를 얼마나 적합하는지를 나타내는 지표 T SS가 0이 아니라는 가정 하에, T SS = ESS + RSS의 양변을 T SS로 나누면: = T SS ESS RSS = + T SS T SS T SS 1= RSS ESS + T SS T SS 1 RSS ESS = T SS T SS 회귀선의 R2 는 다음과 같이 정의됨: R2 ESS RSS =1 T SS T SS 단, T SS 6= 0 20/ 78
적합값(Fitted Values)과 잔차(Residuals) OLS 통계량의 대수 성질 적합도(Goodess-of-Fit) 적합도(Goodess-of-Fit) R2 ESS RSS =1 T SS T SS 단, T SS 6= 0 위 R2 는 결정계수(coefficiet of determiatio)라고도 부름 R2 은 T SS에서 ESS가 차지하는 비율 = 쉽게 설명하면 결과변수 yi 의 총 변이 중 설명변수 xi 가 설명하는 비중을 나타내는 것 R2 는 0과 1 사이에 값을 가짐. 왜냐하면 0 ESS T SS이기 때문 만약 자료 값들이 모두 OLS 회귀선에 위치해 있다면 OLS선이 자료를 완벽하게 적합한다는 것이고, 그렇다면 이 경우에는 R2 = 1 R2 이 0에 가까울수록 OLS선이 자료를 적합하는 정도가 낮다는 것을 의미 21/ 78
적합값(Fitted Values)과 잔차(Residuals) OLS 통계량의 대수 성질 적합도(Goodess-of-Fit) 적합도(Goodess-of-Fit) 사회과학 연구에서 그리고 특히 정책 평가와 관련해서 R2 값은 대개 낮게 나옴 = 이 R2 값이 낮다고 해서 OLS 회귀선이 나쁘다는 것을 의미하는 것이 결코 아님 많은 연구자들이 R2 값이 낮으면 안 좋은 것이라고 생각을 하는데 그렇게 생각할 필요가 전혀 없음 R2 값이 낮다는 것의 의미는 단지 설명변수 x가 결과변수 y의 변이를 많이 설명을 못한다는 것이지 y를 틀리게 설명한다는 것이 아님 또한 R2 값이 낮다고 해서 어떤 정책의 효과가 없다라고 해석되는 것도 아님 22/ 78
적합값(Fitted Values)과 잔차(Residuals) OLS 통계량의 대수 성질 적합도(Goodess-of-Fit) 적합도(Goodess-of-Fit) 예: 어떤 흡연 정책의 효과를 추정하기 위해 결과변수는 흡연량(Yi ), 설명변수는 정책의 수혜 여부를 나타내는 이항 변수(Di )를 사용해서 다음과 같은 회귀분석 식을 추정함 Yi = β0 + β1 Di + εi = 위 결과 나온 R2 값이 0.03이라고 하겠음 0.03이 의미하는 것이 뭘까? = 이 0.03이 의미하는 것은 정책의 수혜 여부가 흡연량의 변이 의 3% 정도를 설명한다는 것임 물론 정책 변수가 흡연량의 변이를 많이 설명하지는 못함. 하지만 그렇다고 해서 이 정책 변수가 잘못됐다고 주장할 수 있나? No!! 어떤 설명변수 x가 y를 얼마나 잘 예측 하느냐가 관심 사항이면 높은 R2 값이 좋은 거지만 x가 y에 미치는 효과가 얼마 인지가 관심 사항이면 R2 값이 낮든 높든 아무 상관이 없음 이러한 인식 때문인지는 모르겠으나 실제로 최근 해외의 저명한 논문(예를 들어 Quarterly Joural of Ecoomics나 Joural of Policy Aalysis ad Maagemet)을 보면 이 R2 값이 표기되어 있는 경우는 잘 없음 23/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) (즉 β 의 추출분포의 중앙 및 변이)을 본격적으로 배우기 전에 몇 가지 확률이론에 대해서 공부를 해야함 = 왜냐하면 이 이론을 모르면 OLS 추정량의 유한 표본 및 대표본 성질을 제대로 이해할 수 없기 때문 이렇게 계량경제학은 확률과 통계학을 모르고서는 제대로 공부할 수 없다는 것을 명심하시길 바랍니다! 두 가지 확률이론: 1. 조건부 기대값(Coditioal Expectatio) 2. 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) 24/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) 조건부 기대값(Coditioal Expectatio) 연구자는 어떤 한 설명변수 X와 결과변수 Y 간에 어떤 관계가 존재하는지 연구를 함 이 때 이 관계는 선형 으로 나타날 수도 있고 비선형 으로 나타날 수도 있음 = 어떤 형태의 관계가 존재하든 이 두 변수 간의 관계를 연구함 연구자가 연구하는 Y 의 예로 임금수준 그리고 X의 예로 교육수준을 들 수 있음 확률이론을 공부할 때 조건부 확률에 대해서 배움: P (Y X = x) 조건부 확률을 아는 것도 중요하지만 연구자가 주로 밝혀내고 싶은 것은 X의 변화로 인해 Y 의 분포가 어떻게 변하는지임 = 이러한 관계식은 X가 주어졌을 때 Y 의 조건부 기대값을 구하면 알 수 있음 25/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) 조건부 기대값(Coditioal Expectatio) 설명변수 X가 어떤 특정한 값 x를 취한다고 하겠음. 이 때 Y 의 기대값을 계산할 수 있는데 이 기대값을 E(Y X = x)로 표기함 = 대개 x가 변하면 E(Y X = x)의 값도 변하게 됨 예: (X, Y )는 어떤 모집단을 대변하는 두 확률변수. X는 교육수준이고 Y 는 임금수준 1. E(Y X = 12)가 의미하는 것이 뭘까? = 이 조건부 기대값이 의미하는 것은 모집단에서 교육수준이 12년인(즉 고졸) 사람들의 임금수준의 기대값(평균)임 2. E(Y X = 16)은 교육수준이 16년인(즉 4년 제 대졸) 사람들의 임금수준의 기대값(평균)임 이와 같이 모든 교육수준 에 대해서 Y 의 조건부 기대값을 계산하면 교육수준(X)과 임금(Y )이 어떤 식으로 연관되어 있는지를 파악할 수 있음 26/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) 조건부 기대값(Coditioal Expectatio) 밑의 그림이 그 예를 보여주고 있음: 그림: X가 주어졌을 때의 Y 의 조건부 기대 함수 27/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) 조건부 기대값(Coditioal Expectatio) OLS 회귀식도 이 조건부 기대 함수를 나타내는 한 예: E(Y X = x) = β 0 + β 1 x = 조건부 기대 함수와 관련해서 OLS 회귀식은 두 변수 간의 관계를 선형 으로 기술한 것임 조건부 기대값과 관련해서 다음의 법칙이 유용: E(g(X) X) = g(x) = 즉 X가 주어졌을 때의 g(x)의 기대값은 g(x)라는 것을 의미 직관적으로 명백. X를 아니까 당연히 이 X의 함수 g(x)도 알게 된다는 것임 예: E(X 2 X) = X 2 E(X + Y X) = X + E(Y X) 28/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) 조건부 기대 함수와 관련해서 굉장히 유용한 법칙: 기대값의 반복 법칙! = 이 법칙을 계량경제학에서 굉장히 많이 활용 Theorem 두 개 확률변수 X와 Y 에 대해서 다음이 성립: E [E(Y X)] = E(Y ) 위 정리를 기대값의 반복 법칙(LIE)이라고 함 = 즉 어떤 조건부 기대 함수 E(Y X)가 있을 때 이 함수에 또 기대값을 취하면 무조건부 기대 함수 E(Y )가 된다는 것임 29/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성(β 의 추출분포의 중앙) 추정량 x 는 모수 µ의 비편의 추정량! = E(x ) = µ. 항상 그랬나? No! x 가 µ의 비편의 추정량이기 위해서는 한 가지 가정이 필요했음: = 바로 표본을 무작위로 추출했을 때만 성립 안타깝게도 OLS 추정량 β 이 모수 β의 비편의 추정량이기 위해서는 총 4 가지 가정이 필요!! = 다시 말해 이 4가지 가정이 만족하지 않으면 β 은 β의 비편의 추정량이 되지 않는다는 것임!!! 이 4가지 가정이 매우 매우 중요!!! 30/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 위해 필요한 가정 1 Assumptio 1 (선형 모수) 모집단에서 결과변수 y는 설명변수 x 및 오차항 ε과 선형적인 관계에 놓여 있다는 가정! 즉 다음과 같은 가정을 만족해야 함: y = β0 + β1 x + ε = 위에서 β0 와 β1 은 모집단에서의 절편과 기울기를 나타내는 모수 질문: 모집단 관계식이 y = β0 + β1 x + β2 x2 + ε이면 가정 1 위배인가? = No! 가정 1이 말하는 선형 모수 라는 것은 모수에 있어서 선형이어야 1 한다는 것을 의미. 즉 y = β0 + x + ε 이런 관계식이 안된다는 것을 의미! β1 31/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 위해 필요한 가정 2 Assumptio 2 (무작위 표본) 모집단에서 개 크기의 표본을 무작위로 추출했다는 가정 모집단 관계식은 무작위 표본 하에서 다음과 같이 표시됨: yi = β0 + β1 xi + εi, i = 1, 2,..., 위에서 εi 는 오차항. 잔차 ε i 가 아님 32/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 위해 필요한 가정 3 Assumptio 3 (설명변수의 변이 필요) 표본 자료에서 설명 변수 xi 에 변이가 존재해야 함 가정 3이 왜 필요할까? = 그 이유는 설명 변수 xi 에 변이가 존재하지 않으면 OLS 추정량을 계산할 수 없기 때문 노트 2에서 β 1 = r (sy ) / (sx )인 것을 배웠음. 즉 x에 변이가 없으면 sx = 0 이 되어서 분수가 정의가 안됨! 33/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 위해 필요한 가정 4 Assumptio 4 (영 조건부 기대값) 설명변수 x가 주어졌을 때의 오차항 ε의 기대값은 0이라는 가정이 필요. 즉 다음과 같은 가정: E(ε x) = 0 무작위 표본 하에서 가정 4가 의미하는 것: E(εi xi ) = 0, i = 1, 2,..., = 이 가정이 가장 중요!!!! 34/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 위해 필요한 가정 위에 언급한 가정 1부터 4가 모두 만족을 해야 OLS 추정량에 비편의성이 성립하므로 각각의 가정이 뭘 의미하는지 알아야 함! 가정 1: y = β0 + β1 x + ε = 가정 1은 모집단에서 x와 y가 선형적인 관계에 놓여 있어야 한다는 것을 의미 이 가정은 당연히 만족하지 않을 수 있음 = 가정 1이 만족하지 않을 때 OLS 추정량에 편의 가 존재하기 때문에 OLS 추정량 β 은 β에 근사하지 않을 확률이 매우 큼 이 가정 1이 만족하지 않을 때 사용할 수 있는 추정량이 비선형 최소제곱법 (o-liear least squares)인데, 이 방법은 매우 어렵기 때문에 여기서는 못다룸 35/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 위해 필요한 가정의 의미 가정 2: 무작위 표본이어야 한다는 것 = 따라서 통계 분석에 앞서 자신이 갖고 있는 표본이 모집단을 잘 대표하는 표본인지에 대해서 항상 생각을 해봐야 함 가정 3: 설명변수에 변이가 존재 = 가정 3은 웬만하면 성립하는 가정 = 예를 들어, 어떤 정책을 평가할 때 정책의 수혜자가 있고 수혜를 못 받은 사람이 있어야 정책의 효과를 분석할 수 있다는 것임 36/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 위해 필요한 가정의 의미 OLS 추정량을 사용할 때 연구자가 가장 신경써야 할 가정은 네 번째 가정!! 영 조건부 기대값 가정이라고 하는데 이 가정은 Corr(ε, x) 6= 0일 때 위배됨 = 즉 ε과 x 간에 상관관계가 존재할 때 가정 4가 만족을 안 하게 됨 따라서 연구에서 OLS 추정량을 사용해서 β 을 추정하고자 한다면 ε와 x 간에 상관관계가 존재하는지 안 하는지에 대해서 판단을 반드시 해야 함 37/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 위해 필요한 가정의 의미 ε와 x 간에 상관관계가 존재한다는 것의 의미? 예: 교욱수준(x)이 임금(y)에 미치는 효과를 추정하고자 다음과 같은 회귀식을 추정 yi = β0 + β1 xi + εi 만약 위에서 Corr(xi, εi ) 6= 0이면 가정 4 위배!! 이 세팅에서는 가정 4가 위배될까? = 위배될 소지가 너무나도 많음! 38/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 위해 필요한 가정의 의미 yi = β0 + β1 xi + εi εi 는 오차항인데 이 안에 포함되어 있는 것들: 1. yi 에 영향을 미치는 관측 가능한 변수 중에 우리가 통제하지 않은 변수 2. 우리가 관측할 수 없는 변수: 어떤 사람의 자제심, 호기심, 끈기 이러한 특성이 xi 와 상관관계가 존재할까? 충분히 존재할 소지가 있음 기본적으로 호기심, 끈기 등이 강한 사람일수록 교육수준이 높을 것임 = 즉 이 세팅에서는 Corr(xi, εi ) 6= 0!! 따라서 가정 4가 만족하지 않음. 가정 4가 만족 안 하기 때문에 OLS 추정량에는 편의가 존재 = 이런 상태에서 OLS 추정량으로 β1 을 β 1 으로 추정하면 이 β 1 값이 반영하는 것이 교육수준의 효과인지 혹은 끈기의 효과인지를 알 수가 없다는 것 39/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 위해 필요한 가정의 의미 yi = β0 + β1 xi + εi 어떤 정책의 효과를 추정하는 연구에서도 가정 4가 위배되는 경우가 허다함 예를 들어 고혈압 환자에 대한 상담 서비스와 같은 정책(x)을 시행한다고 하겠음 이 상담 서비스를 받는 사람들은 대개 자신의 상태를 개선시키고 싶어하는 사람. 이런 사람들은 건강에 관심이 많은 사람일 것임 = 따라서 이 정책에 참여하는 사람과 참여하지 않는 사람 간에는 다양한 형태의 차이점이 존재할 것임 그렇다고 한다면 이런 상태에서도 Corr(정책 수혜 여부, εi ) 6= 0이어서 가정 4 위배! 40/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 위해 필요한 가정의 의미 yi = β0 + β1 xi + εi 질문: 어떤 상황이 가정 4가 만족하는 상황일까? 통계학을 배울 때 인과관계 증명에 있어서 가장 강력한 툴이? = 무작위 배정! 만약 어떤 정책의 수혜 여부를 무작위로 결정했다고 하면 정책에 참여하는 사람과 정책에 참여하지 않은 사람 간에 어떤 특성 차이가 존재하지 않을 것임 = 따라서 이런 경우에는 Corr(정책 수혜 여부, εi ) = 0이 성립할 확률이 굉장히 높을 것임 통계학에서와 마찬가지로 계량경제학에서도 설명변수를 무작위로 결정하는 게 가정 4를 만족시키는 가장 확실한 방법으로 간주되고 있음 41/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 위해 필요한 가정의 의미 지금까지 가정 4에 대해서 참 많은 얘기를 했음 사실 계량경제학이나 실험 및 준실험 설계 기법의 여러 이론이 개발된 이유가 이 가정 4를 만족시키기 위해 개발되었다고 해도 과언이 아님 나중에 제가 또 강의를 할 기회가 생기면 그 때 배우게 되겠지만 고정효과모형(fixed effects model), 도구변수 추정량(istrumetal variable estimator), 이중차이추정량(differece-i-differeces estimator) 등이 개발된 이유가 바로 이 가정 4를 만족시키기 위해서임 강조하고 싶은 것은 어떤 연구를 OLS 회귀분석을 통해 수행하고자 할 때, 위 가정(특히 가정 4)이 만족을 하는지 반드시 검토를 해야 한다는 것임 = 양적 연구는 어떻게 보면 이 가정들이 만족한다는 것을 여러 형태로 보여주는 과정이라고 해도 과언이 아니라고 생각함 42/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 위해 필요한 가정의 의미 이제 OLS 추정량의 비편의성 정리를 논할 수 있음: Theorem (OLS 추정량의 비편의성 정리) 가정 1부터 4가 만족하면, OLS 추정량 β 0 과 β 1 은 모수 β0 과 β1 의 비편의 추정량이 됨. 즉, E βˆ0 = β0 E βˆ1 = β1 OLS 추정량의 비편의성이 가정 1부터 4에 아주 크리티컬하게 달려 있다는 것을 여러분이 안 잊었으면 하는 바램으로 위 정리를 증명해보도록 하겠음 43/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 증명 증명에 앞서 다음과 같은 사실을 알고 있어야 함: X X X (xi x )(yi y ) = xi (yi y ) x (yi y ) = X " X xi (yi y ) = = = X x yi " xi (yi y ) x X X X X # x y yi X # x y xi (yi y ) [x y x y ] xi (yi y ) 마찬가지로 P (xi x )(xi x ) = P xi (xi x ) 44/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 증명 Cov(xi, yi ) β 1 = = V ar(xi ) P P (xi x )yi (xi x )(yi y ) P = P 2 2 (x x ) i (xi x ) 가정 1과 2 에 의해 yi = β0 + β1 xi + εi 이고 이를 위 β 1 식에 대입하면 P P (xi x )yi (xi x )(β0 + β1 xi + εi ) β 1 = P = 2 T SSx (xi x ) 위 식에서 분자만을 놓고 보면 다음이 성립: X (xi x )(β0 + β1 xi + εi ) = X (xi x )β0 + = β0 X (xi x )β1 xi + X (xi x ) + β1 X X (xi x )εi X (xi x )xi + X = β0 0 + β1 T SSx + (xi x )εi (xi x )εi 45/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 증명 그럼 β 1 은 β 1 = P P β1 T SSx + (xi x )εi (xi x )εi = β1 + T SSx T SSx = 가정 3 에 의해 분수 정의됨! β 1 의 비편의성을 증명하기 위해 조건부 기대값 E(β 1 x)을 먼저 계산: P X 1 (xi x )εi x = β1 + E (xi x )εi E(β 1 x) = E β1 + T SSx T SSx = β1 + 가정 4 에 의해 = = β1 + 1 X (xi x )E εi T SSx! x x 1 X (xi x ) 0 T SSx = β1 = E E(β 1 x) = E(β1 ) E(β 1 ) = β1 (LIE에 의해) 46/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 증명 즉 우리는 추정량 β 1 이 모수 β1 의 비편의 추정량인 것을 증명했음: E(β 1 ) = β1 증명 쉽나요????? 증명 과정을 다시 차분하게 보면 E(β 1 ) = β1 이기 위해서는 가정 1, 2, 3, 4 모두 만족을 해야 한다는 것을 알 수 있음!!! 47/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 증명 다음은 β 0 의 비편의성 증명: h i = E β 0 x = E y + β 1 x x = β0 + E β1 β 1 x x + E (ε i x)! 1X εi x = β0 + x E β1 β 1 x + E 1X E(εi x) (기대값의 성질에 의해) = β0 + x E β1 β 1 x + = β0 + x E β1 β 1 x (가정 4에 의해 E(εi x) = 0) h i = β0 + x E (β1 x) E β 1 x = β0 + x (β1 β1 ) = = = β0 i E E β 0 x = E(β0 ) E β 0 = β0 h (LIE에 의해) 48/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 증명 자꾸 이런 증명 과정에 익숙해져야 고급계량경제학에 도전을 할 수 있음 = 따라서 책을 읽으면서 이런 과정을 회피하면 안됨 이 증명 과정을 통해 다시 한 번 강조할 것은 가정 1부터 4가 만족을 할 때만이 OLS 추정량이 비편의 추정량이 된다는 사실!! = 즉 이 가정들이 만족할 때만 이 추정량의 추출분포의 중앙이 모수와 일치한다는 것! 49/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 서울시는 강북에 사는 학생들이 점심 끼니를 많이 거른다는 설문조사의 결과를 토대로 강북에 사는 학생들에 대해서 무상급식을 실시하는 정책을 실시. 이 무상급식 정책이 학생들의 학업성취도에 미친 효과를 분석하기 위해 서울시에 있는 학생을 대상으로 통계분석을 실시. 변수 x는 무상급식을 제공받은 학생의 경우 1의 값을 갖고 그렇지 않은 학생의 경우 0의 값을 갖는 이항변수. 이 변수를 토대로 다음과 같은 회귀식 추정: y = β0 + β1 x + ε 교육패널을 이용해 다음과 같은 OLS 회귀식을 추정함: y = β 0 + β 1 x = 0.121 0.319x 위 OLS 추정값을 보면 학생이 무상급식을 제공받으면 학업성취도가 약 0.32 표준편차 만큼 떨어진다는 것을 알 수 있음 = 이 추정값이 맞을까? 저는 이 추정량을 안 믿음. 왜냐하면 OLS 추정량에 편의가 존재하기 때문. 제일 문제가 되는 것은 가정 4가 만족을 안한다는 것. 즉 Corr(ε, x) 6= 0 강북에 사는 학생들은 다른 지역에 사는 학생에 비해 가구 소득수준도 낮고 학교 시설이나 주변 환경도 강남에 있는 학교에 비해 그 질이 좀 떨어질 것임 = 이러한 요인들이 ε에 포함되어 있을 것임. 따라서 당연히 Corr(ε, x) 6= 0 그렇기 때문에 OLS 추정량에는 편의가 존재하게 되고 위에 도출한 추정값 0.319이 x가 y 에 미치는 인과적 효과라고 주장할 수 없음 50/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량과 관련해서 우리가 또 알아야 할 것은 변이 즉 추출분포의 분산 = 이와 관련해서 OLS 추정량이 다른 추정량에 비해서 큰 장점이 있다는 것을 말해주는 Gauss-Markov 정리에 대해서 배울 것임 좀 전에 가정 1부터 4가 만족하면 OLS 추정량이 비편의 추정량이 된다는 것을 증명 = 문제는 이 4개의 가정이 모두 만족할 때 모수 βj 의 비편의 추정량이 되는 추정량은 많이 존재한다는 사실 수리통계학을 배울 때 여러 개의 비편의 추정량이 존재할 때 사용할 수 있는 기준은? = 효율성 기준 어떤 두 개의 비편의 추정량 W1 과 W2 가 존재할 때, V ar(w1 ) < V ar(w2 )이면 추정량 W1 이 W2 에 비해 효율적이라고 배움 51/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) 따라서 OLS 추정량 β j 이 효율적인지 안 효율적인지를 판단하기 위해서는 우선 β j 의 분산 즉 V ar β j 을 구해야 함 V ar β j 을 계산하기 위해서 다음과 같은 다섯 번째 가정이 필요 Assumptio 5 (등분산성(Homoskedasticity)) 설명변수 x에 따라 오차항 ε의 분산 값이 변하지 않는다는 가정. 수학적으로는: V ar(ε x) = σ 2 가정 5를 등분산성 가정이라고 함 52/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) V ar(ε x) = σ 2 등분산성이 의미하는 것: 예: X =소득, Y =저축 = 등분산성이 의미하는 것은 소득수준이 적든 많든 사람들의 저축 행태가 똑같다는 것임 OLS 추정량의 분산을 구하기 위해서는 이와 같은 등분산성의 가정이 필요하다는 것! 53/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) V ar(ε x) = σ 2 연구를 할 때 이 등분산성 가정이 만족하는 경우는 거의 없음. 이 예에서도 당연히 성립하지 않을 소지가 큼 = 소득수준이 높은 사람의 경우 그렇지 않은 사람에 비해 투자 기회 등이 많기 때문에 저축의 행태에 많은 변이가 존재할 것임. 따라서 등분산성 가정이 성립하지 않음 이렇게 등분산성이 아닐 때 이분산성(heteroskedasticity)이 존재한다고 함 54/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) 이분산성이면: V ar(ε x) = σi2 그림 : 이분산성의 예시 55/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) 앞서 OLS 추정량의 분산을 계산하기 위해서는 가정 5 즉 등분산성 가정을 만족해야 한다고 했음 이분산성이 존재할 때는 그럼 OLS 추정량의 분산을 구할 수 없느냐? 그렇지는 않음 우리의 똑똑한 통계학자들이 등분산성이 만족을 안할 때 사용할 수 있는 분산 공식을 개발함: 1. 강건 표준오차(robust stadard errors) 2. 클러스터 표준오차(cluster stadard errors) = 하지만 위 분산식은 좀 어렵기 때문에 여기서는 다루지 못함 우선 여기서는 등분산성 가정이 만족한다는 가정 하에 OLS 추정량의 분산을 계산함 56/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) 가정 1부터 5 까지 모두 만족을 하면 OLS 추정량의 추출변이(분산)는 다음 공식을 이용해서 구할 수 있음 Theorem (OLS 추정량의 추출변이) 가정 1부터 5가 만족을 하면 OLS 추정량의 분산은: 1 2X 2 σ xi σ2 V ar β 0 x = V ar β 1 x = X X (xi x ) (xi x ) 위 정리 증명하길 원하시나요? 57/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) V ar β 0 x 의 증명 과정: 58/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) Gauss-Markov 정리 어쨌든 위 증명 과정을 찬찬히 따라가시면 OLS 추정량의 분산을 구하기 위해서도 가정 1부터 4 그다음에 추가적으로 가정 5까지 필요하다는 것을 알 수 있음 = 이렇게 OLS 추정량을 실제 연구에 사용하기 위해서는 이 가정들이 만족한다는 것을 연구에서 보여줘야 함! 이제 우리는 Gauss-Markov 정리를 논할 수 있음 우리가 OLS로 어떤 연구 주제를 통계 분석하는 이유가 바로 이 정리 때문임 = 이 정리가 알려주는 것은 가정 1부터 5가 만족을 하면 모수 βj 의 여러 선형(liear) 추정량 중에 이 OLS 추정량 β j 이 가장 좋다는 사실! 59/ 78
조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) Gauss-Markov 정리 Theorem (Gauss-Markov 정리) 가정 1부터 5가 만족을 하면, β 0 과 β 1 이 모수 β0 과 β1 의 가장 좋은 선형 비편의 추정량(best liear ubiased estimators, BLUE)이 됨 가장 좋다는 것의 의미는 뭘까? = 이 OLS 추정량이 효율적이다, 즉 다시 말해 OLS 추정량의 추출분포의 변이가 가장 적다는 측면에서 좋다는 것임 어떤 두 개의 비편의 추정량이 존재할 때, 변이가 작은 추정량을 사용해야 좀 더 모수 값과 일치하는 통계량을 얻을 수 있음! 다시 한 번 강조: 가정 1부터 5가 모두 만족해야 함! 60/ 78
OLS 추정량의 일치성(Cosistecy) OLS 추정량의 일치성(Cosistecy) 어떤 추정량의 사용 여부를 결정할 때 추정량에게 최소한으로 요구되는 대표본 특성이 있음. 바로 일치성 일치성의 정의: 일 때 W θ(모수)이면 추정량 W 을 θ의 일치 추정량이라고 함 많은 사람들이 이 OLS 추정량을 사용하는 이유가 이 OLS 추정량도 일치 추정량이기 때문!! β i 이 모수 βi 의 일치 추정량이라는 것은 이면 β i βi 이 된다는 것을 의미 = 언제 β i 이 일치추정량이 될까? 61/ 78
OLS 추정량의 일치성(Cosistecy) OLS 추정량의 일치성(Cosistecy) Theorem (OLS 추정량의 일치성) 가정 1부터 4가 모두 만족할 때, β 0 과 β 1 은 β0 과 β1 의 일치 추정량이 됨 = 정리를 보면 일치성도 가정 1부터 4가 모두 만족해야 성립!! 62/ 78
OLS 추정량의 일치성(Cosistecy) OLS 추정량 결론 지금까지 OLS 추정량의 비편의성(가정 1부터 4가 모두 만족할 때), 변이 및 효율성(가정 1부터 5가 모두 만족할 때), 그리고 일치성(가정 1부터 4가 모두 만족할 때)에 대해서 배움 연구에서 OLS 추정량으로 어떤 정책의 효과를 추정하고자 한다면 이 가정들이 만족을 하는지 안 하는지에 대해서 많은 고민을 해야 함 만족을 안한다면 만족을 하게끔 연구설계를 짜던가 혹은 그 연구를 하면서 상관관계만을 도출하는데에 만족을 해야 함 계량경제학이나 실험 및 준실험 설계 기법에서 배우는 내용은 이러한 가정이 만족하지 않을 때 OLS 추정량에 어떤 문제점이 생기고 또 그에 따라 어떻게 대응을 해야 하는지를 배우게 됨 63/ 78
OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 이제 을 하는 법에 대해서 배울 것임 통계적 추론을 하기 위해서는 뭘 알아야 할까? = OLS 추정량의 추출분포의 중앙과 변이, 그리고 모양 중앙과 변이는 이미 알아냄. 이제 남은 건 OLS 추정량의 추출분포의 모양이 어떻게 되는지임 64/ 78
OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 OLS 추정량의 추출분포의 모양 지금까지 OLS 추정량의 추출분포의 중앙 및 변이 가 어떻게 되는지 알아보았음. 가정 1부터 4가 모두 만족을 하면 OLS 추정량 β 0 과 β 1 의 추출분포의 중앙은 모수 β0 과 β1 에 위치. 즉, E β 0 = β0 E β 1 = β1 그리고 가정 1부터 5가 모두 만족하면 우리는 OLS 추정량의 분산을 구할 수 있음. 즉 OLS 추정량의 추출분포의 변이는 다음과 같은 공식을 이용해 계산할 수 있음: V ar β 0 x = 1 2X 2 σ x i X V ar β 1 x = (xi x ) σ2 X (xi x ) 65/ 78
OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 OLS 추정량의 추출분포의 모양 문제는 중앙과 변이에 대한 정보만을 갖고는 을 할 수가 없음. 추론을 하기 위해서는 OLS 추정량의 추출분포의 모양을 알아야 함 x 의 추출분포의 모양은 CLT에 의해 정규분포를 띤다는 것을 배움 = 이 때 두 가지 가정 즉, 무작위 표본과 표본 수가 커야한다는 가정필요했음 β 0 과 β 1 의 추출분포의 모양을 알기 위해서는 다음과 같은 여섯 번째 가정이 추가적으로 필요함. 계량경제학에는 참 많은 가정이 나옴... Assumptio 6 (정규성 가정) 모집단 모수인 오차항 ε은 평균이 0이고 분산이 σ 2 인 정규분포를 따른다는 가정임. 즉, ε N 0, σ 2 66/ 78
OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 OLS 추정량의 추출분포의 모양 가정 1부터 5 그리고 가정 6 까지 모두 만족하면 이제 우리는 OLS 추정량의 추출분포의 모양에 대해서 알 수 있음 Theorem (추출분포의 정규성) 가정 1부터 6이 모두 만족하면: β j N E β j, V ar β j = N βj, V ar β j 이에 따라 추론을 할 때 사용되는 z 검정 통계량과 관련해서 다음이 성립: z= β j βj N (0, 1) SD β j 67/ 78
OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 OLS 추정량의 추출분포의 모양 z= β j βj N (0, 1) SD β j 위 검정통계량을 보면 한 가지 곤란한 점이 있음. 분모에 SD(β j )가 문제 β 1 의 표준편차: SD β 1 = r V ar β 1 v u σ2 u =u ux t (xi x ) = 위 식을 보면 σ 2 즉 오차항의 모집단 분산 V ar(ε)을 알아야 검정통계량을 계산할 수 있음을 알 수 있음 68/ 78
OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 OLS 추정량의 추출분포의 모양 통계학에서 x 에 대한 통계적 추론을 할 때 x 와 관련해서 사용하는 z 검정통계량: z= x µ σ/ = 식 안에 σ 즉 모집단 표준편차가 있음 통계학에서 우리는 이 σ를 모를 때 뭐로 대체? = 바로 표본의 표준편차 s로 σ를 대체하고 t 검정 통계량을 계산 계량경제학에서도 V ar(ε)을 표본을 이용해 추정해서 그 추정값으로 대체를 할 것임. 즉 V ar(ε i )을 구해서 V ar(ε)을 대체하고 검정 통계량을 계산할 것임 69/ 78
OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 OLS 추정량의 추출분포의 모양 왜 V ar(ε i )로 V ar(ε)를 대체할까? 통계학에서는 왜 σ를 s로 대체? = s가 σ의 일치 추정량이기 때문 여기서 V ar(ε)를 V ar(ε i )로 대체하는 이유 또한 마찬가지 = V ar(ε i )는 V ar(ε)의 일치 추정량이기 때문. 즉, E (σ ) = σ V ar(ε i )로 V ar(ε)를 대체하면 분모는 SD β j 이 아닌 SE β j 가 됨. 즉 표준오차가 됨. 표준오차를 이용하면 다음과 같은 사실이 성립: t= β j βj t( k 1) SE β j = 즉 검정 통계량이 자유도가 k 1인 t 분포를 따르게 됨. 여기서 k는 설명변수의 개수 70/ 78
OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 OLS 추정량의 신뢰구간 이제 을 하기 위한 모든 정보가 있음 모수 βj 에 대한 신뢰구간은: β j ± t SE β j = µ의 신뢰구간을 구하는 공식과 비슷한 형태 여기서 강조하고 싶은 것은 저 신뢰구간 추정량이 맞기 위해서는 반드시 가정 1부터 6까지 만족을 해야 한다 는 것 = 만약 가정이 만족 안 하면 β j 에는 편의가 있게 되고 심지어 표준오차 (SE) 식 또한 알 수가 없기 때문에 표준오차 값도 계산할 수 없기 때문 71/ 78
OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 OLS 추정량의 신뢰구간 예 예: 기업의 규모(x)가 R&D 지출(y)에 미치는 효과를 추정하기 위해 42개의 기업을 모집단에서 무작위로 추출한 후에 회귀분석을 실시. 기업 규모는 연 매출액으로 측정. 표본 자료를 토대로 다음과 같은 선형 회귀식을 추정. 괄호 안에 있는 숫자는 표준오차 y = 4.38 + 0.084x (0.47) (0.038) β1 의 95% 신뢰구간은? 답: 95% 신뢰구간을 추정하기 위해서는 t 값을 구해야 함. 우선 자유도는 k 1 = 42 1 1 = 40. t 분포표를 보면 t = 2.021인 것을 알 수 있음 β 1 = 0.084이고 SE β 1 = 0.038이므로, β1 의 95% 신뢰수준은: 95% 신뢰구간 = β 1 ± t SE β 1 = 0.084 + 2.021 0.038 = (0.007, 0.161) 다시 강조를 하지만 위에서 추정한 신뢰구간이 타당하기 위해서는 가정 1부터 6이 만족해야 함!! 72/ 78
OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 OLS 추정량에 대한 유의성 검정 두 번째 통계적 추정 방법인 유의성 검정은 t 검정 통계량과 p 값을 구하면 됨 앞서 배웠듯이 t 검정 통계량은: t= β j βj SE β j 예: 학생의 강의 출석율과 학점(GPA) 간의 인과관계를 분석하기 위해 표본의 크기를 = 82로 해서 무작위로 학생을 추출하고 대학 학점(y)을 결과변수로 그리고 한 주에 빠진 강의 수(x)를 설명변수로 해서 회귀분석을 돌림. 추정된 회귀모형은: y = 3.061 + 0.022x (0.762) (0.032) 위에서 계수 밑에 있는 숫자(괄호 안 숫자)는 각각의 OLS 추정값의 표준오차 = 변수 x의 계수 값의 유의성을 5% 유의수준에서 검정해보시오 답: 유의성 검정을 할 때 첫 번째로 해야할 일? 가설 설정! 이 세팅에서 가설은 다음과 같이 설정할 수 있을 것 같음: H0 : β1 = 0 vs. Ha : β1 6= 0 = 즉 귀무가설은 출석율이 학점에 미치는 영향이 전혀 없다는 것! 73/ 78
OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 OLS 추정량에 대한 유의성 검정 y = 3.061 + 0.022x (0.762) (0.032) 그다음으로 할 일은 다음과 같이 t 검정 통계량을 구하는 것: t= β 1 β1 SE β 1 0.022 0 0.032 = 0.68 = 마지막 단계는 p 값을 구하는 것 = 자유도는 82 1 1 = 80이고 양측검정이기 때문에 t 분포표에 의하면 p 값은 0.25 2 = 0.5임 이 추정된 p = 0.5는 0.05 즉 5% 유의수준보다 크기 때문에 우리는 귀무가설을 기각할 수 없음 = 다시 말해 강의 출석률이 학점에 미치는 영향이 없다 라는 가설을 기각할 수 있는 강력한 근거가 부족!! 74/ 78
OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 OLS 추정량에 대한 유의성 검정 y = 3.061 + 0.022x 위 결과를 갖고 강의를 빠지는 것이 학점에 아무런 영향을 미치지 않는다고 결론 내릴 수 있나? 즉 강의 출석율과 학점 간에 아무런 인과관계가 존재하지 않는다고 결론 내릴 수 있을까? = 결코 그렇게 결론 내릴 수 없음. Why? 이 세팅 하에서는 OLS 추정량에 편의가 존재하기 때문. 특히 가정 4가 만족할 가능성이 없음 다시 말해 이 세팅 하에서는 다음과 같이 가정 4가 만족하지 않음 Cov(x, ε) 6= 0 = E(ε x) 6= 0 예를 들어 관측 불가능한 특성(의지력) 같은 것이 ε에 포함되어 있을 것임 = 당연히 의지력이 높은 학생일수록 강의 출석율이 높을 것임 가정 4가 만족을 안하기 때문에 위 OLS 추정량에는 편의가 존재하고 위와 같은 결과를 토대로 두 변수 간에 인과관계를 주장할 수 없음!! 75/ 78
OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 OLS 추정량에 대한 유의성 검정 가정 4, 인과관계 증명과 관련해서 너무나도 중요한 가정!! 실험 및 준실험적 연구방법론이 이 가정 4를 만족시키는 방법을 다룬다고 해도 과언이 아님 통계학 및 계량경제학의 기초를 튼튼히 해서 반드시 이 실험 및 준실험적 연구방법론을 마스터 하고 이러한 방법론이 갖고 있는 매력을 여러분이 느끼셨으면 좋겠음 76/ 78
OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 당부의 말씀 이제 Wooldridge 책을 이해하기 위해 필요한 기초는 갖추었다고 해도 과언이 아닙니다 Data를 활용한 연구 능력을 증진시키기 위해서는 반드시 교재를 읽어야 합니다. 즉 공부를 하셔야 합니다! 공부를 하지 않으면 결코 연구 능력이 증진되지 않습니다! 책을 읽으면서 항상 why?라는 질문을 하고 그 why라는 질문에 답을 하면서 교재 진도를 빼십시오! 책을 읽다가 모르는 게 있으면 언제든지 저한테 찾아 오세요 책 뒤에 있는 연습문제를 꼭 푸세요. 온라인에 답이 다 나와 있습니다 Wooldridge 책에 나와 있는 내용을 정말 확실하게 알고 있으면 웬만한 경제학 박사보다도 더 연구를 잘 할 수 있게 됩니다. 제가 장담합니다! 공부할 시간이 도저히 없다면 최소한 9장까지는 철저하게 공부하길 바랍니다! 77/ 78
OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 강의를 마치며 강의를 마치며: 1. 제가 이번에 강의를 하면서 강의 내용을 바탕으로 책을 썼어요. 6월 말에 출간되는데 저의 허접한 강의를 끝까지 열심히 들어준 분들께 보내드리겠습니다 2. 이렇게 강의를 통해 만나게 된 것도 인연이니 저와의 인연을 유지하고 싶으시면 언제든지 찾아오세요. 연구를 하면서 궁금한 것이 생기면 찾아오세요. 저는 커피 한잔 하면서 연구 얘기하는 걸 전 굉장히 좋아합니다. 물론 커피 값은 내주시면 감사하고요 3. 앞으로의 진로(유학, 박사 진학, 전공 결정)와 관련해서 조언을 구하고 싶으시면 언제든지 찾아오세요! 4. 강의를 또 맡게 될 일이 없으면 좋겠지만... 혹시라도 맡게되면 그 때 또 보아요 5. 강의를 끝까지 들어주셔서 감사합니다! 78/ 78