Similar documents
모수 θ의 추정량은 추출한 개의 표본값을 어떤 규칙에 의해 처리를 해서 모수의 값을 추정하는 방법입니다. 추정량에서 사용되는 규칙은 어떤 표본을 추출했냐에 따라 변하는 것이 아닌 고정된 규칙입니다. 예를 들어 우리의 관심 모수가 모집단의 평균이라고 하겠습니다. 즉 θ

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

statistics

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

슬라이드 1

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

= ``...(2011), , (.)''

(001~006)개념RPM3-2(부속)

... —....—

G Power

R t-..

152*220

와플-4년-2호-본문-15.ps

<B3EDB4DC28B1E8BCAEC7F6292E687770>

PowerPoint 프레젠테이션

한국보건사회연구원통계학및계량경제학의기초및응용 강의노트 2017 년 4 월 5 월 통계학 : 통계적추론 (Statistical Inference) I. 들어가며 이제통계학에서가장중요한토픽이라고할수있는통계적추론에대해서본격적으로공부를해보도록하겠습니다. 통계적추론을통해연구와관

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

... —... ..—

2013unihangulchar {45380} 2unihangulchar {54617}unihangulchar {44592} unihangulchar {49328}unihangulchar {50629}unihangulchar {51312}unihangulchar {51


제 4 장회귀분석

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint

슬라이드 1

PowerPoint 프레젠테이션

Microsoft PowerPoint - IPYYUIHNPGFU


슬라이드 1

<4D F736F F D20C0C0BFEBB0E8B7AE20C1A B0AD202D20B0E8B7AEB0E6C1A6C7D E646F63>

Microsoft Word - multiple

고객관계를 리드하는 서비스 리더십 전략


비선형으로의 확장

제 1 절 two way ANOVA 제1절 1 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라

MATLAB for C/C++ Programmers

Microsoft PowerPoint - chap_2_rep.ppt [호환 모드]

Microsoft PowerPoint - chap_11_rep.ppt [호환 모드]

»êÇÐ-150È£

메타분석: 통계적 방법의 기초

에듀데이터_자료집_완성본.hwp

<4D F736F F D20C0C0BFEBB0E8B7AE20C1A B0AD202D20B0E8B7AEB0E6C1A6C7D E646F63>

Microsoft Word - ch2_simple.doc


Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

2014학년도 수시 면접 문항

마지막 변경일 2018년 5월 7일 ** 이항분포와 정규분포의 관계 ** Geogebra와 수학의 시각화 책의 3.2소절 내용임. 가장 최근 파일은 링크를 누르면 받아 보실 수 있습니다.


hwp

한국정책학회학회보

기본소득문답2

hwp

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

Microsoft PowerPoint Predicates and Quantifiers.ppt

Jkafm093.hwp

표본재추출(resampling) 방법

Microsoft Word - skku_TS2.docx

Artificial Intelligence: Assignment 5 Seung-Hoon Na December 15, Numpy: Tutorial 다음 자료를 참조하여 numpy기본을 공부하시오.

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

10. ..

untitled

º»ÀÛ¾÷-1


저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

자료의 이해 및 분석

슬라이드 1

Communications of the Korean Statistical Society Vol. 15, No. 4, 2008, pp 국소적 강력 단위근 검정 최보승1), 우진욱2), 박유성3) 요약 시계열 자료를 분석할 때, 시계열 자료가 가지고 있는

R

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a


Resampling Methods

untitled

<B3EDB9AEC0DBBCBAB9FD2E687770>

<5BB0EDB3ADB5B55D B3E2B4EBBAF12DB0ED312D312DC1DFB0A32DC0B6C7D5B0FAC7D02D28312E BAF2B9F0B0FA20BFF8C0DAC0C720C7FCBCBA2D D3135B9AEC7D72E687770>

(초등용1)1~29

A Time Series and Spatial Analysis of Factors Affecting Housing Prices in Seoul Ha Yeon Hong* Joo Hyung Lee** 요약 주제어 ABSTRACT:This study recognizes th


문제지 제시문 2 보이지 않는 영역에 대한 정보를 얻기 위하여 관측된 다른 정보를 분석하여 역으로 미 관측 영역 에 대한 정보를 얻을 수 있다. 가령 주어진 영역에 장애물이 있는 경우 한 끝 점에서 출발하여 다른 끝 점에 도달하는 최단 경로의 개수를 분석하여 장애물의

Microsoft PowerPoint - Info R(3) pptx

Microsoft PowerPoint - chap_11_rep.ppt [호환 모드]

<B1DDC0B6B1E2B0FCB0FAC0CEC5CDB3DDB0B3C0CEC1A4BAB82E687770>


Microsoft Word - SAS_Data Manipulate.docx

제 3강 역함수의 미분과 로피탈의 정리

새로운 지점에서 단이 시작하는 경우 기둥코로 시작하라고 표시합니다. 기둥코(standing stitch)로 시작하는 방법은 YouTube 에서 찾아볼 수 있습니다. 특수 용어 팝콘뜨기: 1 코에 한길긴뜨기 5 코, 바늘을 빼고 첫번째 한길긴뜨기코의 앞에서 바늘을 넣은

동아시아국가들의실질환율, 순수출및 경제성장간의상호관계비교연구 : 시계열및패널자료인과관계분석

Microsoft PowerPoint - chap04-연산자.pptx

ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행

750 1,500 35

외국인투자유치성과평가기준개발

Microsoft PowerPoint - SBE univariate5.pptx

Microsoft Word - Ch3_Derivative2.docx

= Fisher, I. (1930), ``The Theory of Interest,'' Macmillan ,

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

untitled

<4D F736F F D20B1E2BBF3C5EBB0E85F36C0E55FC7D0BBFD2E646F6378>

Transcription:

회귀분석의 기초 한국보건사회연구원 2017년 6월 19일(월요일) & 22일(목요일) 강의 슬라이드 9 1/ 78

목차 1 2 3 4 2/ 78

지난 시간 복습 모집단 평균 µ에 대한 통계적 추론을 하는 방법: σ 신뢰구간: x ± t 유의성 검정: t = x µ σ/ 위 공식을 보면 모집단 표준편차 σ가 들어 있는데 이 σ를 모르니까 표본 표준편차 s로 대체해서 다음 공식을 사용해서 통계적 추론을 함: s 신뢰구간: x ± z 유의성 검정: z = x µ s/ s = 위에서 를 표준오차(stadard errors)라고 하는데 이것이 의미하는 바는 어떤 추정량의 추출분포의 변이(분산)를 지칭!! 왜 σ를 s로 대체? = s가 σ의 일치(cosistet) 추정량이기 때문!! 3/ 78

지난 시간 복습 수리통계학: 1. 추정량의 유한표본(fiite sample) 성질 = 표본의 크기와 상관 없이 항상 성립하는 추정량의 성질 2. 추정량의 대표본(large sample) 성질 혹은 점근적(asymptotic) 성질 = 표본의 크기가 클 때만 성립하는 추정량의 성질 4/ 78

지난 시간 복습 추정량의 유한표본 성질: 1. 비편의성(ubiasedess) = E(W ) = θ; E(X ) = µ 2. 효율성(efficiecy) = W1 과 W2 가 모수 θ의 비편의 추정량일 때, V ar(w1 ) V ar(w2 )이면 추정량 W1 이 W2 에 비해 효율적이라고 함 3. 평균제곱오차(mea squared error, MSE) = M SE(W ) = E (W θ)2 = V ar(w ) + Bias(W )2 5/ 78

지난 시간 복습 추정량의 대표본 성질: 일치성(cosistecy) 1. E(W ) = θ이고 일 때 V ar(w ) 0이면 W 는 θ의 일치 추정량! 2. 어떤 추정량을 사용하기 위해서는 이 추정량에 일치성이 요구됨! 3. X 는 µ의 일치 추정량 2 = E(X ) = µ이고 V ar X = σ /이기 때문에 일 때 V ar X 0이 되므로! 6/ 78

들어가며 두 변수 간에 존재하는 선형 관계를 최소자승 회귀선을 이용해서 검토하는 법을 다뤘을 때, 최소자승 회귀선은 다음과 같은 형태를 갖고 있음을 배움: y i = β 0 + β 1 xi 그리고 위 절편 β 0 과 기울기 β 1 의 공식, 즉 추정량은 β 1 = r sy sx β 0 = y β 1 x = 위 추정량 즉 β i 은 모집단 모수 βi 의 추정량이라고 생각할 수 있음 변수 y와 x는 어떤 모집단을 대변하는 변수이고 우리의 관심사는 x를 이용해 y를 설명하고자 하는 것 모집단 에서의 y와 x 간의 관계식을 다음과 같이 기술할 수 있음 y = β0 + β1 x + ε 7/ 78

들어가며 y = β0 + β1 x + ε 위 식에서 ε는 오차항(error term)이라고 부름 = 오차항이 나타내는 것은 y의 변화 중에서 x가 설명하지 못하는 변화 재밌는 것은 위 식에서처럼 모집단에서 y와 x 간의 관계식이 선형적으로 기술이 되고 또 절편 β0 이 포함되어 있다면 다음과 같은 가정을 해도 아무 문제가 되지 않는다는 사실: E(ε) = 0 즉 모집단에서 오차항의 기대값은 0이라는 것! = 이런 가정을 해도 될까? Yes! 8/ 78

들어가며 y = β0 + β1 x + ε 우선 E(ε) 6= 0이라고 가정하겠음. 이 때 상수 a = E(ε)를 위 모집단 관계식의 왼쪽에 다음과 같이 더했다가 빼도록 하겠음: y = β0 + β1 x + ε = (a + β0 ) + β1 x + (ε a) = 위 식을 보면 새로운 절편 a + β0 와 오차항 ε a가 생겼음을 알 수 있음 이 새로운 절편과 오차항을 이용해서 모집단을 기술한 것인데 재밌는 것은 여기서 새로운 오차항은 0이라는 사실: E(ε a) = E(ε) E(a) = E(ε) a = E(ε) E(ε) = 0 = 즉 모집단 관계식에 절편 을 포함한다면 오차항은 항상 0으로 만들 수가 있고, 따라서 E(ε) = 0이라는 가정을 해도 아무 문제가 없음 예를 들어, y가 임금이고 x가 교육수준, 그리고 ε에는 우리가 관측할 수 없는 끈기가 포함되어 있다고 하겠음 세상에는 끈기가 있는 사람(+)과 없는 사람( )으로 나눌 수가 있을텐데, E(ε) = 0이라는 가정은 모집단에서 사람들의 끈기의 기대값은 0이라는 것 = 전혀 비합리적인 가정이 아니고 절편만 식에 포함한다면 항상 성립하는 가정!! 9/ 78

들어가며 y = β0 + β1 x + ε 위에서 β0 과 β1 은 모집단 모수이고 β 0 과 β 1 은 표본 통계량!! 위 β0 과 β1 을 추정량 β 0 과 β 1 으로 추정하는 것 무엇을 이용해서? = 우리가 갖고 있는 표본 자료를 이용해서 추정! 10/ 78

들어가며 y = β0 + β1 x + ε 자 이제 통계학을 공부했기 때문에 다음과 같은 질문에 답을 할 수 있어야 함: 추정량 β 0 과 β 1 을 이용해 모수 β0 와 β1 을 추정하기 위해서는 이 추정량에 어떠한 특성이 존재해야 할까? 통계학에서 모수 µ를 추정할 때 x 라는 추정량을 사용했음. Why? 1. x 는 µ의 비편의 추정량 2. x 가 µ의 일치 추정량 3. 일정한 조건(이 크고 무작위 표본)을 갖추면 CLT에 의해 이 x 와 관련해서 통계적 추론 가능 11/ 78

들어가며 추정량 β 0 과 β 1 을 이용해 모수 β0 와 β1 을 추정하기 위해서는 이 추정량에 어떠한 특성이 존재해야 할까? β 0 과 β 1 을 이용해 β0 와 β1 을 추정하기 위해서는 이 추정량에 x 와 같이 비편의성이나 일치성과 같은 바람직한 성질이 존재해야 함 그럼 β 0 과 β 1 에 이러한 바람직한 성질이 존재하는지 확인하기 위해서는 뭘 검토해야 할까? = β 0 과 β 1 의 추출분포의 중앙, 변이, 그리고 모양에 대해서 알아야 함 이제 왜 계량경제학을 배우기 전에 통계학을 배워야 하는지 아시겠나요? 12/ 78

들어가며 그래서 계량경제학의 기초에서는 β 0 과 β 1 의 추출분포의 특성에 대해서 배움 통계학을 배웠으니 좀 더 엄밀하게 말하면: 1. β 0 과 β 1 의 유한 표본(fiite sample) 성질을 검토 2. 대표본(large sample) 성질 검토 3. β 0 과 β 1 의 추출분포의 모양에 대해서 검토하고 이를 토대로 β 0 과 β 1 에 대한 통계적 추론을 하는 방법 계량경제학에서는 매우 귀찮은 수리적 도출과정을 많이 다룰 것임 좀 짜증이 나도 이러한 도출과정을 꼼꼼하게 익힐 것을 권함 = 그 이유는 이러한 과정을 공부해야 회귀분석의 기초를 튼튼하게 다질 수 있고, 또 제가 경험한 바에 의하면, 회귀분석의 기초를 완벽하게 마스터해야 추후에 나오는 계량경제학이나 실험 및 준실험적 연구방법론의 내용을 제대로 이해할 수 있음 13/ 78

적합값(Fitted Values)과 잔차(Residuals) OLS 통계량의 대수 성질 적합도(Goodess-of-Fit) β 1 = r sy sx β 0 = y β 1 x 위 추정량을 β0 와 β1 의 보통최소제곱(ordiary least squares, OLS) 추정량이라고 함 표본 자료를 추정량에 대입을 해서 위 추정량의 추정값을 구하면 다음과 같은 OLS 회귀선을 도출할 수 있음 y = β 0 + β 1 x = 위 OLS 회귀선을 적합(fitted) OLS선이라고도 하는데 그 이유는 표본 자료를 추정량에 적합(fit)했기 때문 과 대표본 성질을 공부하기 전에 위 적합 회귀선의 대수 성질을 먼저 배우겠음 = 대수 성질이란 어떤 표본을 갖고 있든 성립하는 성질이라고 생각하면 됨. 즉 표본을 무작위로 추출을 했든 안했든 성립한다는 것을 의미 14/ 78

적합값(Fitted Values)과 잔차(Residuals) OLS 통계량의 대수 성질 적합도(Goodess-of-Fit) 적합값(Fitted Values)과 잔차(Residuals) 표본을 이용해 β 0 과 β 1 의 추정값을 구하고 이 추정값을 토대로 각각의 관측치 i의 적합값 y i 을 구할 수 있음 = 이 각각의 적합값 y i 은 OLS 회귀선 상에 위치 실제 자료값 yi 와 이 적합값 y i 의 차이를 i의 잔차(residual)라고 하고 ε i 라고 표기함: ε i = yi y i = yi β 0 β 1 xi 만약 ε i 이 양수이면 OLS 회귀선이 실제 yi 값을 과대 추정한 것이고, ε i 이 음수이면 OLS 회귀선이 실제 yi 값을 과소 추정한 것이 됨 ε i = 0이면 실제 자료값과 추정값이 일치한다는 것임 = 물론 대개의 경우 잔차가 0으로 나오지는 않습니다. 15/ 78

적합값(Fitted Values)과 잔차(Residuals) OLS 통계량의 대수 성질 적합도(Goodess-of-Fit) OLS 통계량의 대수 성질 OLS 통계량의 대수 성질을 다루기 전에 확률변수의 공분산 및 표본 공분산에 대해서 배우겠음 모집단 공분산(populatio covariace)는 두 확률변수의 선형 관계의 정도를 나타내는 지표: Cov(X, Y ) E[(X E(X))(Y E(Y ))] 모집단 공분산은 다음과 같이 나타낼 수도 있음: Cov(X, Y ) E(XY ) E(X)E(Y ) 표본 공분산 sxy 은: sxy 1X xi yi 1X xi! 1X yi! 16/ 78

적합값(Fitted Values)과 잔차(Residuals) OLS 통계량의 대수 성질 적합도(Goodess-of-Fit) OLS 통계량의 대수 성질 OLS 통계량에는 3가지 유용한 대수 성질이 존재: 1. 잔차들의 합은 항상 0. 수리적으로 표현을 하면: X ε i = 0 = 다시 말해, 어떤 표본 자료를 사용하던 잔차들의 합이 0이 되게끔 하는 게 OLS 추정값 β 0 과 β 1 2. 설명변수 값 xi 와 OLS 잔차들 ε i 간의 표본 공분산은 0. 수리적으로 나타내면: X xi ε i = 0 3. 성질 1과 2를 이용해서 y i 과 ε i 간의 표본 공분산이 0임을 알 수 있음: 1X 1X 1X y i ε i y i ε i = 0 17/ 78

적합값(Fitted Values)과 잔차(Residuals) OLS 통계량의 대수 성질 적합도(Goodess-of-Fit) OLS 통계량의 대수 성질 위 대수의 성질을 이용해서 총제곱합(total sum of squares, TSS), 설명제곱합 (explaied sum of squares, ESS), 그리고 잔차제곱합(residual sum of squares, RSS)에 대해서 배우겠음 각각의 정의: 1. T SS X (yi y )2 = yi 의 변이! 2. ESS X 2 X y i y = (y i y )2 = OLS 적합값 y i 의 변이! 3. RSS X 2 X ε i ε = ε 2i = OLS 잔차 ε i 의 변이! 어떤 표본 자료의 yi 의 총 변이는 ESS와 RSS의 변이에 의해 설명됨: = T SS = ESS + RSS 18/ 78

적합값(Fitted Values)과 잔차(Residuals) OLS 통계량의 대수 성질 적합도(Goodess-of-Fit) OLS 통계량의 대수 성질 T SS = ESS + RSS 증명: T SS = X (yi y )2 = = X X [(yi y i ) + (y i y )]2 [ε i + (y i y )]2 = X ε 2 + 2 = RSS + X ε i (y i y ) + X 2 X (y i y )2 ε i (y i y ) +ESS {z } y i 과 ε i 간의 표본 분산을 의미 = RSS + 0 + ESS (성질 3에 의해) = RSS + ESS 19/ 78

적합값(Fitted Values)과 잔차(Residuals) OLS 통계량의 대수 성질 적합도(Goodess-of-Fit) 적합도(Goodess-of-Fit) 이제 연구에 자주 나오는 R2, 즉 적합도라는 것에 대해서 공부를 할 수 있음 적합도란 설명변수 x가 결과변수 y를 얼마나 잘 설명하는지를 나타내는 지표 = 다르게 표현을 하면 추정한 OLS 회귀선이 자료를 얼마나 적합하는지를 나타내는 지표 T SS가 0이 아니라는 가정 하에, T SS = ESS + RSS의 양변을 T SS로 나누면: = T SS ESS RSS = + T SS T SS T SS 1= RSS ESS + T SS T SS 1 RSS ESS = T SS T SS 회귀선의 R2 는 다음과 같이 정의됨: R2 ESS RSS =1 T SS T SS 단, T SS 6= 0 20/ 78

적합값(Fitted Values)과 잔차(Residuals) OLS 통계량의 대수 성질 적합도(Goodess-of-Fit) 적합도(Goodess-of-Fit) R2 ESS RSS =1 T SS T SS 단, T SS 6= 0 위 R2 는 결정계수(coefficiet of determiatio)라고도 부름 R2 은 T SS에서 ESS가 차지하는 비율 = 쉽게 설명하면 결과변수 yi 의 총 변이 중 설명변수 xi 가 설명하는 비중을 나타내는 것 R2 는 0과 1 사이에 값을 가짐. 왜냐하면 0 ESS T SS이기 때문 만약 자료 값들이 모두 OLS 회귀선에 위치해 있다면 OLS선이 자료를 완벽하게 적합한다는 것이고, 그렇다면 이 경우에는 R2 = 1 R2 이 0에 가까울수록 OLS선이 자료를 적합하는 정도가 낮다는 것을 의미 21/ 78

적합값(Fitted Values)과 잔차(Residuals) OLS 통계량의 대수 성질 적합도(Goodess-of-Fit) 적합도(Goodess-of-Fit) 사회과학 연구에서 그리고 특히 정책 평가와 관련해서 R2 값은 대개 낮게 나옴 = 이 R2 값이 낮다고 해서 OLS 회귀선이 나쁘다는 것을 의미하는 것이 결코 아님 많은 연구자들이 R2 값이 낮으면 안 좋은 것이라고 생각을 하는데 그렇게 생각할 필요가 전혀 없음 R2 값이 낮다는 것의 의미는 단지 설명변수 x가 결과변수 y의 변이를 많이 설명을 못한다는 것이지 y를 틀리게 설명한다는 것이 아님 또한 R2 값이 낮다고 해서 어떤 정책의 효과가 없다라고 해석되는 것도 아님 22/ 78

적합값(Fitted Values)과 잔차(Residuals) OLS 통계량의 대수 성질 적합도(Goodess-of-Fit) 적합도(Goodess-of-Fit) 예: 어떤 흡연 정책의 효과를 추정하기 위해 결과변수는 흡연량(Yi ), 설명변수는 정책의 수혜 여부를 나타내는 이항 변수(Di )를 사용해서 다음과 같은 회귀분석 식을 추정함 Yi = β0 + β1 Di + εi = 위 결과 나온 R2 값이 0.03이라고 하겠음 0.03이 의미하는 것이 뭘까? = 이 0.03이 의미하는 것은 정책의 수혜 여부가 흡연량의 변이 의 3% 정도를 설명한다는 것임 물론 정책 변수가 흡연량의 변이를 많이 설명하지는 못함. 하지만 그렇다고 해서 이 정책 변수가 잘못됐다고 주장할 수 있나? No!! 어떤 설명변수 x가 y를 얼마나 잘 예측 하느냐가 관심 사항이면 높은 R2 값이 좋은 거지만 x가 y에 미치는 효과가 얼마 인지가 관심 사항이면 R2 값이 낮든 높든 아무 상관이 없음 이러한 인식 때문인지는 모르겠으나 실제로 최근 해외의 저명한 논문(예를 들어 Quarterly Joural of Ecoomics나 Joural of Policy Aalysis ad Maagemet)을 보면 이 R2 값이 표기되어 있는 경우는 잘 없음 23/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) (즉 β 의 추출분포의 중앙 및 변이)을 본격적으로 배우기 전에 몇 가지 확률이론에 대해서 공부를 해야함 = 왜냐하면 이 이론을 모르면 OLS 추정량의 유한 표본 및 대표본 성질을 제대로 이해할 수 없기 때문 이렇게 계량경제학은 확률과 통계학을 모르고서는 제대로 공부할 수 없다는 것을 명심하시길 바랍니다! 두 가지 확률이론: 1. 조건부 기대값(Coditioal Expectatio) 2. 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) 24/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) 조건부 기대값(Coditioal Expectatio) 연구자는 어떤 한 설명변수 X와 결과변수 Y 간에 어떤 관계가 존재하는지 연구를 함 이 때 이 관계는 선형 으로 나타날 수도 있고 비선형 으로 나타날 수도 있음 = 어떤 형태의 관계가 존재하든 이 두 변수 간의 관계를 연구함 연구자가 연구하는 Y 의 예로 임금수준 그리고 X의 예로 교육수준을 들 수 있음 확률이론을 공부할 때 조건부 확률에 대해서 배움: P (Y X = x) 조건부 확률을 아는 것도 중요하지만 연구자가 주로 밝혀내고 싶은 것은 X의 변화로 인해 Y 의 분포가 어떻게 변하는지임 = 이러한 관계식은 X가 주어졌을 때 Y 의 조건부 기대값을 구하면 알 수 있음 25/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) 조건부 기대값(Coditioal Expectatio) 설명변수 X가 어떤 특정한 값 x를 취한다고 하겠음. 이 때 Y 의 기대값을 계산할 수 있는데 이 기대값을 E(Y X = x)로 표기함 = 대개 x가 변하면 E(Y X = x)의 값도 변하게 됨 예: (X, Y )는 어떤 모집단을 대변하는 두 확률변수. X는 교육수준이고 Y 는 임금수준 1. E(Y X = 12)가 의미하는 것이 뭘까? = 이 조건부 기대값이 의미하는 것은 모집단에서 교육수준이 12년인(즉 고졸) 사람들의 임금수준의 기대값(평균)임 2. E(Y X = 16)은 교육수준이 16년인(즉 4년 제 대졸) 사람들의 임금수준의 기대값(평균)임 이와 같이 모든 교육수준 에 대해서 Y 의 조건부 기대값을 계산하면 교육수준(X)과 임금(Y )이 어떤 식으로 연관되어 있는지를 파악할 수 있음 26/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) 조건부 기대값(Coditioal Expectatio) 밑의 그림이 그 예를 보여주고 있음: 그림: X가 주어졌을 때의 Y 의 조건부 기대 함수 27/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) 조건부 기대값(Coditioal Expectatio) OLS 회귀식도 이 조건부 기대 함수를 나타내는 한 예: E(Y X = x) = β 0 + β 1 x = 조건부 기대 함수와 관련해서 OLS 회귀식은 두 변수 간의 관계를 선형 으로 기술한 것임 조건부 기대값과 관련해서 다음의 법칙이 유용: E(g(X) X) = g(x) = 즉 X가 주어졌을 때의 g(x)의 기대값은 g(x)라는 것을 의미 직관적으로 명백. X를 아니까 당연히 이 X의 함수 g(x)도 알게 된다는 것임 예: E(X 2 X) = X 2 E(X + Y X) = X + E(Y X) 28/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) 조건부 기대 함수와 관련해서 굉장히 유용한 법칙: 기대값의 반복 법칙! = 이 법칙을 계량경제학에서 굉장히 많이 활용 Theorem 두 개 확률변수 X와 Y 에 대해서 다음이 성립: E [E(Y X)] = E(Y ) 위 정리를 기대값의 반복 법칙(LIE)이라고 함 = 즉 어떤 조건부 기대 함수 E(Y X)가 있을 때 이 함수에 또 기대값을 취하면 무조건부 기대 함수 E(Y )가 된다는 것임 29/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성(β 의 추출분포의 중앙) 추정량 x 는 모수 µ의 비편의 추정량! = E(x ) = µ. 항상 그랬나? No! x 가 µ의 비편의 추정량이기 위해서는 한 가지 가정이 필요했음: = 바로 표본을 무작위로 추출했을 때만 성립 안타깝게도 OLS 추정량 β 이 모수 β의 비편의 추정량이기 위해서는 총 4 가지 가정이 필요!! = 다시 말해 이 4가지 가정이 만족하지 않으면 β 은 β의 비편의 추정량이 되지 않는다는 것임!!! 이 4가지 가정이 매우 매우 중요!!! 30/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 위해 필요한 가정 1 Assumptio 1 (선형 모수) 모집단에서 결과변수 y는 설명변수 x 및 오차항 ε과 선형적인 관계에 놓여 있다는 가정! 즉 다음과 같은 가정을 만족해야 함: y = β0 + β1 x + ε = 위에서 β0 와 β1 은 모집단에서의 절편과 기울기를 나타내는 모수 질문: 모집단 관계식이 y = β0 + β1 x + β2 x2 + ε이면 가정 1 위배인가? = No! 가정 1이 말하는 선형 모수 라는 것은 모수에 있어서 선형이어야 1 한다는 것을 의미. 즉 y = β0 + x + ε 이런 관계식이 안된다는 것을 의미! β1 31/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 위해 필요한 가정 2 Assumptio 2 (무작위 표본) 모집단에서 개 크기의 표본을 무작위로 추출했다는 가정 모집단 관계식은 무작위 표본 하에서 다음과 같이 표시됨: yi = β0 + β1 xi + εi, i = 1, 2,..., 위에서 εi 는 오차항. 잔차 ε i 가 아님 32/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 위해 필요한 가정 3 Assumptio 3 (설명변수의 변이 필요) 표본 자료에서 설명 변수 xi 에 변이가 존재해야 함 가정 3이 왜 필요할까? = 그 이유는 설명 변수 xi 에 변이가 존재하지 않으면 OLS 추정량을 계산할 수 없기 때문 노트 2에서 β 1 = r (sy ) / (sx )인 것을 배웠음. 즉 x에 변이가 없으면 sx = 0 이 되어서 분수가 정의가 안됨! 33/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 위해 필요한 가정 4 Assumptio 4 (영 조건부 기대값) 설명변수 x가 주어졌을 때의 오차항 ε의 기대값은 0이라는 가정이 필요. 즉 다음과 같은 가정: E(ε x) = 0 무작위 표본 하에서 가정 4가 의미하는 것: E(εi xi ) = 0, i = 1, 2,..., = 이 가정이 가장 중요!!!! 34/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 위해 필요한 가정 위에 언급한 가정 1부터 4가 모두 만족을 해야 OLS 추정량에 비편의성이 성립하므로 각각의 가정이 뭘 의미하는지 알아야 함! 가정 1: y = β0 + β1 x + ε = 가정 1은 모집단에서 x와 y가 선형적인 관계에 놓여 있어야 한다는 것을 의미 이 가정은 당연히 만족하지 않을 수 있음 = 가정 1이 만족하지 않을 때 OLS 추정량에 편의 가 존재하기 때문에 OLS 추정량 β 은 β에 근사하지 않을 확률이 매우 큼 이 가정 1이 만족하지 않을 때 사용할 수 있는 추정량이 비선형 최소제곱법 (o-liear least squares)인데, 이 방법은 매우 어렵기 때문에 여기서는 못다룸 35/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 위해 필요한 가정의 의미 가정 2: 무작위 표본이어야 한다는 것 = 따라서 통계 분석에 앞서 자신이 갖고 있는 표본이 모집단을 잘 대표하는 표본인지에 대해서 항상 생각을 해봐야 함 가정 3: 설명변수에 변이가 존재 = 가정 3은 웬만하면 성립하는 가정 = 예를 들어, 어떤 정책을 평가할 때 정책의 수혜자가 있고 수혜를 못 받은 사람이 있어야 정책의 효과를 분석할 수 있다는 것임 36/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 위해 필요한 가정의 의미 OLS 추정량을 사용할 때 연구자가 가장 신경써야 할 가정은 네 번째 가정!! 영 조건부 기대값 가정이라고 하는데 이 가정은 Corr(ε, x) 6= 0일 때 위배됨 = 즉 ε과 x 간에 상관관계가 존재할 때 가정 4가 만족을 안 하게 됨 따라서 연구에서 OLS 추정량을 사용해서 β 을 추정하고자 한다면 ε와 x 간에 상관관계가 존재하는지 안 하는지에 대해서 판단을 반드시 해야 함 37/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 위해 필요한 가정의 의미 ε와 x 간에 상관관계가 존재한다는 것의 의미? 예: 교욱수준(x)이 임금(y)에 미치는 효과를 추정하고자 다음과 같은 회귀식을 추정 yi = β0 + β1 xi + εi 만약 위에서 Corr(xi, εi ) 6= 0이면 가정 4 위배!! 이 세팅에서는 가정 4가 위배될까? = 위배될 소지가 너무나도 많음! 38/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 위해 필요한 가정의 의미 yi = β0 + β1 xi + εi εi 는 오차항인데 이 안에 포함되어 있는 것들: 1. yi 에 영향을 미치는 관측 가능한 변수 중에 우리가 통제하지 않은 변수 2. 우리가 관측할 수 없는 변수: 어떤 사람의 자제심, 호기심, 끈기 이러한 특성이 xi 와 상관관계가 존재할까? 충분히 존재할 소지가 있음 기본적으로 호기심, 끈기 등이 강한 사람일수록 교육수준이 높을 것임 = 즉 이 세팅에서는 Corr(xi, εi ) 6= 0!! 따라서 가정 4가 만족하지 않음. 가정 4가 만족 안 하기 때문에 OLS 추정량에는 편의가 존재 = 이런 상태에서 OLS 추정량으로 β1 을 β 1 으로 추정하면 이 β 1 값이 반영하는 것이 교육수준의 효과인지 혹은 끈기의 효과인지를 알 수가 없다는 것 39/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 위해 필요한 가정의 의미 yi = β0 + β1 xi + εi 어떤 정책의 효과를 추정하는 연구에서도 가정 4가 위배되는 경우가 허다함 예를 들어 고혈압 환자에 대한 상담 서비스와 같은 정책(x)을 시행한다고 하겠음 이 상담 서비스를 받는 사람들은 대개 자신의 상태를 개선시키고 싶어하는 사람. 이런 사람들은 건강에 관심이 많은 사람일 것임 = 따라서 이 정책에 참여하는 사람과 참여하지 않는 사람 간에는 다양한 형태의 차이점이 존재할 것임 그렇다고 한다면 이런 상태에서도 Corr(정책 수혜 여부, εi ) 6= 0이어서 가정 4 위배! 40/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 위해 필요한 가정의 의미 yi = β0 + β1 xi + εi 질문: 어떤 상황이 가정 4가 만족하는 상황일까? 통계학을 배울 때 인과관계 증명에 있어서 가장 강력한 툴이? = 무작위 배정! 만약 어떤 정책의 수혜 여부를 무작위로 결정했다고 하면 정책에 참여하는 사람과 정책에 참여하지 않은 사람 간에 어떤 특성 차이가 존재하지 않을 것임 = 따라서 이런 경우에는 Corr(정책 수혜 여부, εi ) = 0이 성립할 확률이 굉장히 높을 것임 통계학에서와 마찬가지로 계량경제학에서도 설명변수를 무작위로 결정하는 게 가정 4를 만족시키는 가장 확실한 방법으로 간주되고 있음 41/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 위해 필요한 가정의 의미 지금까지 가정 4에 대해서 참 많은 얘기를 했음 사실 계량경제학이나 실험 및 준실험 설계 기법의 여러 이론이 개발된 이유가 이 가정 4를 만족시키기 위해 개발되었다고 해도 과언이 아님 나중에 제가 또 강의를 할 기회가 생기면 그 때 배우게 되겠지만 고정효과모형(fixed effects model), 도구변수 추정량(istrumetal variable estimator), 이중차이추정량(differece-i-differeces estimator) 등이 개발된 이유가 바로 이 가정 4를 만족시키기 위해서임 강조하고 싶은 것은 어떤 연구를 OLS 회귀분석을 통해 수행하고자 할 때, 위 가정(특히 가정 4)이 만족을 하는지 반드시 검토를 해야 한다는 것임 = 양적 연구는 어떻게 보면 이 가정들이 만족한다는 것을 여러 형태로 보여주는 과정이라고 해도 과언이 아니라고 생각함 42/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 위해 필요한 가정의 의미 이제 OLS 추정량의 비편의성 정리를 논할 수 있음: Theorem (OLS 추정량의 비편의성 정리) 가정 1부터 4가 만족하면, OLS 추정량 β 0 과 β 1 은 모수 β0 과 β1 의 비편의 추정량이 됨. 즉, E βˆ0 = β0 E βˆ1 = β1 OLS 추정량의 비편의성이 가정 1부터 4에 아주 크리티컬하게 달려 있다는 것을 여러분이 안 잊었으면 하는 바램으로 위 정리를 증명해보도록 하겠음 43/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 증명 증명에 앞서 다음과 같은 사실을 알고 있어야 함: X X X (xi x )(yi y ) = xi (yi y ) x (yi y ) = X " X xi (yi y ) = = = X x yi " xi (yi y ) x X X X X # x y yi X # x y xi (yi y ) [x y x y ] xi (yi y ) 마찬가지로 P (xi x )(xi x ) = P xi (xi x ) 44/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 증명 Cov(xi, yi ) β 1 = = V ar(xi ) P P (xi x )yi (xi x )(yi y ) P = P 2 2 (x x ) i (xi x ) 가정 1과 2 에 의해 yi = β0 + β1 xi + εi 이고 이를 위 β 1 식에 대입하면 P P (xi x )yi (xi x )(β0 + β1 xi + εi ) β 1 = P = 2 T SSx (xi x ) 위 식에서 분자만을 놓고 보면 다음이 성립: X (xi x )(β0 + β1 xi + εi ) = X (xi x )β0 + = β0 X (xi x )β1 xi + X (xi x ) + β1 X X (xi x )εi X (xi x )xi + X = β0 0 + β1 T SSx + (xi x )εi (xi x )εi 45/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 증명 그럼 β 1 은 β 1 = P P β1 T SSx + (xi x )εi (xi x )εi = β1 + T SSx T SSx = 가정 3 에 의해 분수 정의됨! β 1 의 비편의성을 증명하기 위해 조건부 기대값 E(β 1 x)을 먼저 계산: P X 1 (xi x )εi x = β1 + E (xi x )εi E(β 1 x) = E β1 + T SSx T SSx = β1 + 가정 4 에 의해 = = β1 + 1 X (xi x )E εi T SSx! x x 1 X (xi x ) 0 T SSx = β1 = E E(β 1 x) = E(β1 ) E(β 1 ) = β1 (LIE에 의해) 46/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 증명 즉 우리는 추정량 β 1 이 모수 β1 의 비편의 추정량인 것을 증명했음: E(β 1 ) = β1 증명 쉽나요????? 증명 과정을 다시 차분하게 보면 E(β 1 ) = β1 이기 위해서는 가정 1, 2, 3, 4 모두 만족을 해야 한다는 것을 알 수 있음!!! 47/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 증명 다음은 β 0 의 비편의성 증명: h i = E β 0 x = E y + β 1 x x = β0 + E β1 β 1 x x + E (ε i x)! 1X εi x = β0 + x E β1 β 1 x + E 1X E(εi x) (기대값의 성질에 의해) = β0 + x E β1 β 1 x + = β0 + x E β1 β 1 x (가정 4에 의해 E(εi x) = 0) h i = β0 + x E (β1 x) E β 1 x = β0 + x (β1 β1 ) = = = β0 i E E β 0 x = E(β0 ) E β 0 = β0 h (LIE에 의해) 48/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 증명 자꾸 이런 증명 과정에 익숙해져야 고급계량경제학에 도전을 할 수 있음 = 따라서 책을 읽으면서 이런 과정을 회피하면 안됨 이 증명 과정을 통해 다시 한 번 강조할 것은 가정 1부터 4가 만족을 할 때만이 OLS 추정량이 비편의 추정량이 된다는 사실!! = 즉 이 가정들이 만족할 때만 이 추정량의 추출분포의 중앙이 모수와 일치한다는 것! 49/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량의 비편의성 서울시는 강북에 사는 학생들이 점심 끼니를 많이 거른다는 설문조사의 결과를 토대로 강북에 사는 학생들에 대해서 무상급식을 실시하는 정책을 실시. 이 무상급식 정책이 학생들의 학업성취도에 미친 효과를 분석하기 위해 서울시에 있는 학생을 대상으로 통계분석을 실시. 변수 x는 무상급식을 제공받은 학생의 경우 1의 값을 갖고 그렇지 않은 학생의 경우 0의 값을 갖는 이항변수. 이 변수를 토대로 다음과 같은 회귀식 추정: y = β0 + β1 x + ε 교육패널을 이용해 다음과 같은 OLS 회귀식을 추정함: y = β 0 + β 1 x = 0.121 0.319x 위 OLS 추정값을 보면 학생이 무상급식을 제공받으면 학업성취도가 약 0.32 표준편차 만큼 떨어진다는 것을 알 수 있음 = 이 추정값이 맞을까? 저는 이 추정량을 안 믿음. 왜냐하면 OLS 추정량에 편의가 존재하기 때문. 제일 문제가 되는 것은 가정 4가 만족을 안한다는 것. 즉 Corr(ε, x) 6= 0 강북에 사는 학생들은 다른 지역에 사는 학생에 비해 가구 소득수준도 낮고 학교 시설이나 주변 환경도 강남에 있는 학교에 비해 그 질이 좀 떨어질 것임 = 이러한 요인들이 ε에 포함되어 있을 것임. 따라서 당연히 Corr(ε, x) 6= 0 그렇기 때문에 OLS 추정량에는 편의가 존재하게 되고 위에 도출한 추정값 0.319이 x가 y 에 미치는 인과적 효과라고 주장할 수 없음 50/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) OLS 추정량과 관련해서 우리가 또 알아야 할 것은 변이 즉 추출분포의 분산 = 이와 관련해서 OLS 추정량이 다른 추정량에 비해서 큰 장점이 있다는 것을 말해주는 Gauss-Markov 정리에 대해서 배울 것임 좀 전에 가정 1부터 4가 만족하면 OLS 추정량이 비편의 추정량이 된다는 것을 증명 = 문제는 이 4개의 가정이 모두 만족할 때 모수 βj 의 비편의 추정량이 되는 추정량은 많이 존재한다는 사실 수리통계학을 배울 때 여러 개의 비편의 추정량이 존재할 때 사용할 수 있는 기준은? = 효율성 기준 어떤 두 개의 비편의 추정량 W1 과 W2 가 존재할 때, V ar(w1 ) < V ar(w2 )이면 추정량 W1 이 W2 에 비해 효율적이라고 배움 51/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) 따라서 OLS 추정량 β j 이 효율적인지 안 효율적인지를 판단하기 위해서는 우선 β j 의 분산 즉 V ar β j 을 구해야 함 V ar β j 을 계산하기 위해서 다음과 같은 다섯 번째 가정이 필요 Assumptio 5 (등분산성(Homoskedasticity)) 설명변수 x에 따라 오차항 ε의 분산 값이 변하지 않는다는 가정. 수학적으로는: V ar(ε x) = σ 2 가정 5를 등분산성 가정이라고 함 52/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) V ar(ε x) = σ 2 등분산성이 의미하는 것: 예: X =소득, Y =저축 = 등분산성이 의미하는 것은 소득수준이 적든 많든 사람들의 저축 행태가 똑같다는 것임 OLS 추정량의 분산을 구하기 위해서는 이와 같은 등분산성의 가정이 필요하다는 것! 53/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) V ar(ε x) = σ 2 연구를 할 때 이 등분산성 가정이 만족하는 경우는 거의 없음. 이 예에서도 당연히 성립하지 않을 소지가 큼 = 소득수준이 높은 사람의 경우 그렇지 않은 사람에 비해 투자 기회 등이 많기 때문에 저축의 행태에 많은 변이가 존재할 것임. 따라서 등분산성 가정이 성립하지 않음 이렇게 등분산성이 아닐 때 이분산성(heteroskedasticity)이 존재한다고 함 54/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) 이분산성이면: V ar(ε x) = σi2 그림 : 이분산성의 예시 55/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) 앞서 OLS 추정량의 분산을 계산하기 위해서는 가정 5 즉 등분산성 가정을 만족해야 한다고 했음 이분산성이 존재할 때는 그럼 OLS 추정량의 분산을 구할 수 없느냐? 그렇지는 않음 우리의 똑똑한 통계학자들이 등분산성이 만족을 안할 때 사용할 수 있는 분산 공식을 개발함: 1. 강건 표준오차(robust stadard errors) 2. 클러스터 표준오차(cluster stadard errors) = 하지만 위 분산식은 좀 어렵기 때문에 여기서는 다루지 못함 우선 여기서는 등분산성 가정이 만족한다는 가정 하에 OLS 추정량의 분산을 계산함 56/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) 가정 1부터 5 까지 모두 만족을 하면 OLS 추정량의 추출변이(분산)는 다음 공식을 이용해서 구할 수 있음 Theorem (OLS 추정량의 추출변이) 가정 1부터 5가 만족을 하면 OLS 추정량의 분산은: 1 2X 2 σ xi σ2 V ar β 0 x = V ar β 1 x = X X (xi x ) (xi x ) 위 정리 증명하길 원하시나요? 57/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) V ar β 0 x 의 증명 과정: 58/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) Gauss-Markov 정리 어쨌든 위 증명 과정을 찬찬히 따라가시면 OLS 추정량의 분산을 구하기 위해서도 가정 1부터 4 그다음에 추가적으로 가정 5까지 필요하다는 것을 알 수 있음 = 이렇게 OLS 추정량을 실제 연구에 사용하기 위해서는 이 가정들이 만족한다는 것을 연구에서 보여줘야 함! 이제 우리는 Gauss-Markov 정리를 논할 수 있음 우리가 OLS로 어떤 연구 주제를 통계 분석하는 이유가 바로 이 정리 때문임 = 이 정리가 알려주는 것은 가정 1부터 5가 만족을 하면 모수 βj 의 여러 선형(liear) 추정량 중에 이 OLS 추정량 β j 이 가장 좋다는 사실! 59/ 78

조건부 기대값(Coditioal Expectatio) 기대값의 반복 법칙(Law of Iterated Expectatio, LIE) OLS 추정량의 비편의성(β 의 추출분포의 중앙) Gauss-Markov 정리 Theorem (Gauss-Markov 정리) 가정 1부터 5가 만족을 하면, β 0 과 β 1 이 모수 β0 과 β1 의 가장 좋은 선형 비편의 추정량(best liear ubiased estimators, BLUE)이 됨 가장 좋다는 것의 의미는 뭘까? = 이 OLS 추정량이 효율적이다, 즉 다시 말해 OLS 추정량의 추출분포의 변이가 가장 적다는 측면에서 좋다는 것임 어떤 두 개의 비편의 추정량이 존재할 때, 변이가 작은 추정량을 사용해야 좀 더 모수 값과 일치하는 통계량을 얻을 수 있음! 다시 한 번 강조: 가정 1부터 5가 모두 만족해야 함! 60/ 78

OLS 추정량의 일치성(Cosistecy) OLS 추정량의 일치성(Cosistecy) 어떤 추정량의 사용 여부를 결정할 때 추정량에게 최소한으로 요구되는 대표본 특성이 있음. 바로 일치성 일치성의 정의: 일 때 W θ(모수)이면 추정량 W 을 θ의 일치 추정량이라고 함 많은 사람들이 이 OLS 추정량을 사용하는 이유가 이 OLS 추정량도 일치 추정량이기 때문!! β i 이 모수 βi 의 일치 추정량이라는 것은 이면 β i βi 이 된다는 것을 의미 = 언제 β i 이 일치추정량이 될까? 61/ 78

OLS 추정량의 일치성(Cosistecy) OLS 추정량의 일치성(Cosistecy) Theorem (OLS 추정량의 일치성) 가정 1부터 4가 모두 만족할 때, β 0 과 β 1 은 β0 과 β1 의 일치 추정량이 됨 = 정리를 보면 일치성도 가정 1부터 4가 모두 만족해야 성립!! 62/ 78

OLS 추정량의 일치성(Cosistecy) OLS 추정량 결론 지금까지 OLS 추정량의 비편의성(가정 1부터 4가 모두 만족할 때), 변이 및 효율성(가정 1부터 5가 모두 만족할 때), 그리고 일치성(가정 1부터 4가 모두 만족할 때)에 대해서 배움 연구에서 OLS 추정량으로 어떤 정책의 효과를 추정하고자 한다면 이 가정들이 만족을 하는지 안 하는지에 대해서 많은 고민을 해야 함 만족을 안한다면 만족을 하게끔 연구설계를 짜던가 혹은 그 연구를 하면서 상관관계만을 도출하는데에 만족을 해야 함 계량경제학이나 실험 및 준실험 설계 기법에서 배우는 내용은 이러한 가정이 만족하지 않을 때 OLS 추정량에 어떤 문제점이 생기고 또 그에 따라 어떻게 대응을 해야 하는지를 배우게 됨 63/ 78

OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 이제 을 하는 법에 대해서 배울 것임 통계적 추론을 하기 위해서는 뭘 알아야 할까? = OLS 추정량의 추출분포의 중앙과 변이, 그리고 모양 중앙과 변이는 이미 알아냄. 이제 남은 건 OLS 추정량의 추출분포의 모양이 어떻게 되는지임 64/ 78

OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 OLS 추정량의 추출분포의 모양 지금까지 OLS 추정량의 추출분포의 중앙 및 변이 가 어떻게 되는지 알아보았음. 가정 1부터 4가 모두 만족을 하면 OLS 추정량 β 0 과 β 1 의 추출분포의 중앙은 모수 β0 과 β1 에 위치. 즉, E β 0 = β0 E β 1 = β1 그리고 가정 1부터 5가 모두 만족하면 우리는 OLS 추정량의 분산을 구할 수 있음. 즉 OLS 추정량의 추출분포의 변이는 다음과 같은 공식을 이용해 계산할 수 있음: V ar β 0 x = 1 2X 2 σ x i X V ar β 1 x = (xi x ) σ2 X (xi x ) 65/ 78

OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 OLS 추정량의 추출분포의 모양 문제는 중앙과 변이에 대한 정보만을 갖고는 을 할 수가 없음. 추론을 하기 위해서는 OLS 추정량의 추출분포의 모양을 알아야 함 x 의 추출분포의 모양은 CLT에 의해 정규분포를 띤다는 것을 배움 = 이 때 두 가지 가정 즉, 무작위 표본과 표본 수가 커야한다는 가정필요했음 β 0 과 β 1 의 추출분포의 모양을 알기 위해서는 다음과 같은 여섯 번째 가정이 추가적으로 필요함. 계량경제학에는 참 많은 가정이 나옴... Assumptio 6 (정규성 가정) 모집단 모수인 오차항 ε은 평균이 0이고 분산이 σ 2 인 정규분포를 따른다는 가정임. 즉, ε N 0, σ 2 66/ 78

OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 OLS 추정량의 추출분포의 모양 가정 1부터 5 그리고 가정 6 까지 모두 만족하면 이제 우리는 OLS 추정량의 추출분포의 모양에 대해서 알 수 있음 Theorem (추출분포의 정규성) 가정 1부터 6이 모두 만족하면: β j N E β j, V ar β j = N βj, V ar β j 이에 따라 추론을 할 때 사용되는 z 검정 통계량과 관련해서 다음이 성립: z= β j βj N (0, 1) SD β j 67/ 78

OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 OLS 추정량의 추출분포의 모양 z= β j βj N (0, 1) SD β j 위 검정통계량을 보면 한 가지 곤란한 점이 있음. 분모에 SD(β j )가 문제 β 1 의 표준편차: SD β 1 = r V ar β 1 v u σ2 u =u ux t (xi x ) = 위 식을 보면 σ 2 즉 오차항의 모집단 분산 V ar(ε)을 알아야 검정통계량을 계산할 수 있음을 알 수 있음 68/ 78

OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 OLS 추정량의 추출분포의 모양 통계학에서 x 에 대한 통계적 추론을 할 때 x 와 관련해서 사용하는 z 검정통계량: z= x µ σ/ = 식 안에 σ 즉 모집단 표준편차가 있음 통계학에서 우리는 이 σ를 모를 때 뭐로 대체? = 바로 표본의 표준편차 s로 σ를 대체하고 t 검정 통계량을 계산 계량경제학에서도 V ar(ε)을 표본을 이용해 추정해서 그 추정값으로 대체를 할 것임. 즉 V ar(ε i )을 구해서 V ar(ε)을 대체하고 검정 통계량을 계산할 것임 69/ 78

OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 OLS 추정량의 추출분포의 모양 왜 V ar(ε i )로 V ar(ε)를 대체할까? 통계학에서는 왜 σ를 s로 대체? = s가 σ의 일치 추정량이기 때문 여기서 V ar(ε)를 V ar(ε i )로 대체하는 이유 또한 마찬가지 = V ar(ε i )는 V ar(ε)의 일치 추정량이기 때문. 즉, E (σ ) = σ V ar(ε i )로 V ar(ε)를 대체하면 분모는 SD β j 이 아닌 SE β j 가 됨. 즉 표준오차가 됨. 표준오차를 이용하면 다음과 같은 사실이 성립: t= β j βj t( k 1) SE β j = 즉 검정 통계량이 자유도가 k 1인 t 분포를 따르게 됨. 여기서 k는 설명변수의 개수 70/ 78

OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 OLS 추정량의 신뢰구간 이제 을 하기 위한 모든 정보가 있음 모수 βj 에 대한 신뢰구간은: β j ± t SE β j = µ의 신뢰구간을 구하는 공식과 비슷한 형태 여기서 강조하고 싶은 것은 저 신뢰구간 추정량이 맞기 위해서는 반드시 가정 1부터 6까지 만족을 해야 한다 는 것 = 만약 가정이 만족 안 하면 β j 에는 편의가 있게 되고 심지어 표준오차 (SE) 식 또한 알 수가 없기 때문에 표준오차 값도 계산할 수 없기 때문 71/ 78

OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 OLS 추정량의 신뢰구간 예 예: 기업의 규모(x)가 R&D 지출(y)에 미치는 효과를 추정하기 위해 42개의 기업을 모집단에서 무작위로 추출한 후에 회귀분석을 실시. 기업 규모는 연 매출액으로 측정. 표본 자료를 토대로 다음과 같은 선형 회귀식을 추정. 괄호 안에 있는 숫자는 표준오차 y = 4.38 + 0.084x (0.47) (0.038) β1 의 95% 신뢰구간은? 답: 95% 신뢰구간을 추정하기 위해서는 t 값을 구해야 함. 우선 자유도는 k 1 = 42 1 1 = 40. t 분포표를 보면 t = 2.021인 것을 알 수 있음 β 1 = 0.084이고 SE β 1 = 0.038이므로, β1 의 95% 신뢰수준은: 95% 신뢰구간 = β 1 ± t SE β 1 = 0.084 + 2.021 0.038 = (0.007, 0.161) 다시 강조를 하지만 위에서 추정한 신뢰구간이 타당하기 위해서는 가정 1부터 6이 만족해야 함!! 72/ 78

OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 OLS 추정량에 대한 유의성 검정 두 번째 통계적 추정 방법인 유의성 검정은 t 검정 통계량과 p 값을 구하면 됨 앞서 배웠듯이 t 검정 통계량은: t= β j βj SE β j 예: 학생의 강의 출석율과 학점(GPA) 간의 인과관계를 분석하기 위해 표본의 크기를 = 82로 해서 무작위로 학생을 추출하고 대학 학점(y)을 결과변수로 그리고 한 주에 빠진 강의 수(x)를 설명변수로 해서 회귀분석을 돌림. 추정된 회귀모형은: y = 3.061 + 0.022x (0.762) (0.032) 위에서 계수 밑에 있는 숫자(괄호 안 숫자)는 각각의 OLS 추정값의 표준오차 = 변수 x의 계수 값의 유의성을 5% 유의수준에서 검정해보시오 답: 유의성 검정을 할 때 첫 번째로 해야할 일? 가설 설정! 이 세팅에서 가설은 다음과 같이 설정할 수 있을 것 같음: H0 : β1 = 0 vs. Ha : β1 6= 0 = 즉 귀무가설은 출석율이 학점에 미치는 영향이 전혀 없다는 것! 73/ 78

OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 OLS 추정량에 대한 유의성 검정 y = 3.061 + 0.022x (0.762) (0.032) 그다음으로 할 일은 다음과 같이 t 검정 통계량을 구하는 것: t= β 1 β1 SE β 1 0.022 0 0.032 = 0.68 = 마지막 단계는 p 값을 구하는 것 = 자유도는 82 1 1 = 80이고 양측검정이기 때문에 t 분포표에 의하면 p 값은 0.25 2 = 0.5임 이 추정된 p = 0.5는 0.05 즉 5% 유의수준보다 크기 때문에 우리는 귀무가설을 기각할 수 없음 = 다시 말해 강의 출석률이 학점에 미치는 영향이 없다 라는 가설을 기각할 수 있는 강력한 근거가 부족!! 74/ 78

OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 OLS 추정량에 대한 유의성 검정 y = 3.061 + 0.022x 위 결과를 갖고 강의를 빠지는 것이 학점에 아무런 영향을 미치지 않는다고 결론 내릴 수 있나? 즉 강의 출석율과 학점 간에 아무런 인과관계가 존재하지 않는다고 결론 내릴 수 있을까? = 결코 그렇게 결론 내릴 수 없음. Why? 이 세팅 하에서는 OLS 추정량에 편의가 존재하기 때문. 특히 가정 4가 만족할 가능성이 없음 다시 말해 이 세팅 하에서는 다음과 같이 가정 4가 만족하지 않음 Cov(x, ε) 6= 0 = E(ε x) 6= 0 예를 들어 관측 불가능한 특성(의지력) 같은 것이 ε에 포함되어 있을 것임 = 당연히 의지력이 높은 학생일수록 강의 출석율이 높을 것임 가정 4가 만족을 안하기 때문에 위 OLS 추정량에는 편의가 존재하고 위와 같은 결과를 토대로 두 변수 간에 인과관계를 주장할 수 없음!! 75/ 78

OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 OLS 추정량에 대한 유의성 검정 가정 4, 인과관계 증명과 관련해서 너무나도 중요한 가정!! 실험 및 준실험적 연구방법론이 이 가정 4를 만족시키는 방법을 다룬다고 해도 과언이 아님 통계학 및 계량경제학의 기초를 튼튼히 해서 반드시 이 실험 및 준실험적 연구방법론을 마스터 하고 이러한 방법론이 갖고 있는 매력을 여러분이 느끼셨으면 좋겠음 76/ 78

OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 당부의 말씀 이제 Wooldridge 책을 이해하기 위해 필요한 기초는 갖추었다고 해도 과언이 아닙니다 Data를 활용한 연구 능력을 증진시키기 위해서는 반드시 교재를 읽어야 합니다. 즉 공부를 하셔야 합니다! 공부를 하지 않으면 결코 연구 능력이 증진되지 않습니다! 책을 읽으면서 항상 why?라는 질문을 하고 그 why라는 질문에 답을 하면서 교재 진도를 빼십시오! 책을 읽다가 모르는 게 있으면 언제든지 저한테 찾아 오세요 책 뒤에 있는 연습문제를 꼭 푸세요. 온라인에 답이 다 나와 있습니다 Wooldridge 책에 나와 있는 내용을 정말 확실하게 알고 있으면 웬만한 경제학 박사보다도 더 연구를 잘 할 수 있게 됩니다. 제가 장담합니다! 공부할 시간이 도저히 없다면 최소한 9장까지는 철저하게 공부하길 바랍니다! 77/ 78

OLS 추정량의 추출분포의 모양 OLS 추정량의 신뢰구간 OLS 추정량에 대한 유의성 검정 강의를 마치며 강의를 마치며: 1. 제가 이번에 강의를 하면서 강의 내용을 바탕으로 책을 썼어요. 6월 말에 출간되는데 저의 허접한 강의를 끝까지 열심히 들어준 분들께 보내드리겠습니다 2. 이렇게 강의를 통해 만나게 된 것도 인연이니 저와의 인연을 유지하고 싶으시면 언제든지 찾아오세요. 연구를 하면서 궁금한 것이 생기면 찾아오세요. 저는 커피 한잔 하면서 연구 얘기하는 걸 전 굉장히 좋아합니다. 물론 커피 값은 내주시면 감사하고요 3. 앞으로의 진로(유학, 박사 진학, 전공 결정)와 관련해서 조언을 구하고 싶으시면 언제든지 찾아오세요! 4. 강의를 또 맡게 될 일이 없으면 좋겠지만... 혹시라도 맡게되면 그 때 또 보아요 5. 강의를 끝까지 들어주셔서 감사합니다! 78/ 78