모수 θ의 추정량은 추출한 개의 표본값을 어떤 규칙에 의해 처리를 해서 모수의 값을 추정하는 방법입니다. 추정량에서 사용되는 규칙은 어떤 표본을 추출했냐에 따라 변하는 것이 아닌 고정된 규칙입니다. 예를 들어 우리의 관심 모수가 모집단의 평균이라고 하겠습니다. 즉 θ

Similar documents

statistics

슬라이드 1

... —....—

152*220

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

한국보건사회연구원통계학및계량경제학의기초및응용 강의노트 2017 년 4 월 5 월 통계학 : 통계적추론 (Statistical Inference) I. 들어가며 이제통계학에서가장중요한토픽이라고할수있는통계적추론에대해서본격적으로공부를해보도록하겠습니다. 통계적추론을통해연구와관

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

(001~006)개념RPM3-2(부속)

= ``...(2011), , (.)''

문제지 제시문 2 보이지 않는 영역에 대한 정보를 얻기 위하여 관측된 다른 정보를 분석하여 역으로 미 관측 영역 에 대한 정보를 얻을 수 있다. 가령 주어진 영역에 장애물이 있는 경우 한 끝 점에서 출발하여 다른 끝 점에 도달하는 최단 경로의 개수를 분석하여 장애물의

10. ..

»êÇÐ-150È£


소규모 비즈니스를 위한 플레이북 여기서 다룰 내용은 다음과 같습니다. 1. YouTube 소개 2. YouTube에서 비즈니스를 위한 채널 만들기 3. 눈길을 끄는 동영상 만들기 4. 고객의 액션 유도하기 5. 비즈니스에 중요한 잠재고객에게 더 많이 도달하기

... —... ..—

CT083001C

04 Çмú_±â¼ú±â»ç

마지막 변경일 2018년 5월 7일 ** 이항분포와 정규분포의 관계 ** Geogebra와 수학의 시각화 책의 3.2소절 내용임. 가장 최근 파일은 링크를 누르면 받아 보실 수 있습니다.

기본소득문답2

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

2013unihangulchar {45380} 2unihangulchar {54617}unihangulchar {44592} unihangulchar {49328}unihangulchar {50629}unihangulchar {51312}unihangulchar {51

내지-교회에관한교리


2014학년도 수시 면접 문항

Poison null byte Excuse the ads! We need some help to keep our site up. List 1 Conditions 2 Exploit plan 2.1 chunksize(p)!= prev_size (next_chunk(p) 3

G Power

Ä¡¿ì_44p °¡À» 89È£

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

메타분석: 통계적 방법의 기초

장연립방정식을풀기위한반복법 12.1 선형시스템 : Gauss-Seidel 12.2 비선형시스템 12.1 선형시스템 : Gauss-Seidel (1/10) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정

슬라이드 1

금강인쇄-내지-세대주의재고찰

untitled

Microsoft PowerPoint - SBE univariate5.pptx

제 3강 역함수의 미분과 로피탈의 정리

¼Òâ¹Ý¹®Áý¿ø°í.hwp

R t-..

새로운 지점에서 단이 시작하는 경우 기둥코로 시작하라고 표시합니다. 기둥코(standing stitch)로 시작하는 방법은 YouTube 에서 찾아볼 수 있습니다. 특수 용어 팝콘뜨기: 1 코에 한길긴뜨기 5 코, 바늘을 빼고 첫번째 한길긴뜨기코의 앞에서 바늘을 넣은

LaTeX. [width=1em]Rlogo.jpg Sublime Text. ..



레이아웃 1

한국의 양심적 병역거부

<5BB0EDB3ADB5B55D B3E2B4EBBAF12DB0ED312D312DC1DFB0A32DC0B6C7D5B0FAC7D02D28312E BAF2B9F0B0FA20BFF8C0DAC0C720C7FCBCBA2D D3135B9AEC7D72E687770>

Microsoft PowerPoint - chap04-연산자.pptx

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

중심경향치 (measure of central tendency) 대표값이란용어이외에자료의중심값또는중심위치의척도 (measure of central location) 라고도함. 예 : 평균 (mean= 산술평균 ; arithmetic mean), 절사평균 (trimmed

SIGIL 완벽입문

SBR-100S User Manual

= " (2014), `` ,'' .." " (2011), `` ,'' (.)"

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표


PowerPoint 프레젠테이션

05 ƯÁý

(초등용1)1~29




국어 순화의 역사와 전망

<B3EDB4DC28B1E8BCAEC7F6292E687770>

hwp

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

<3235B0AD20BCF6BFADC0C720B1D8C7D120C2FC20B0C5C1FE20322E687770>

Vision Mission T F T F T F T

º´¹«Ã»Ã¥-»ç³ªÀÌ·Î

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Microsoft PowerPoint - MonthlyInsighT-2018_9월%20v1[1]

5월전체 :7 PM 페이지14 NO.3 Acrobat PDFWriter 제 40회 발명의날 기념식 격려사 존경하는 발명인 여러분! 연구개발의 효율성을 높이고 중복투자도 방지할 것입니다. 우리는 지금 거센 도전에 직면해 있습니다. 뿐만 아니라 전국 26

TOEIC 12월호*


4-Ç×°ø¿ìÁÖÀ̾߱â¨ç(30-39)


Microsoft PowerPoint - Monthly InsighT (2018년 11월_.pptx

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint

A12 작품설명서.hwp

¾ç¼ºÄÀ-2

내지(교사용) 4-6부

Microsoft Word - SAS_Data Manipulate.docx

..(..) (..) - statistics

¿©¼ºÀαÇ24È£

Microsoft PowerPoint - Monthly InsighT 7월_취합_편(은)__v2.pptx

연구노트

- 2 -


온습도 판넬미터(JTH-05) 사양서V1.0

ÆÞ¹÷-Æîħ¸é.PDF

Communications of the Korean Statistical Society Vol. 15, No. 4, 2008, pp 국소적 강력 단위근 검정 최보승1), 우진욱2), 박유성3) 요약 시계열 자료를 분석할 때, 시계열 자료가 가지고 있는

41호-소비자문제연구(최종추가수정0507).hwp

À¯¾ÆâÀÇ°úÇмÒÃ¥ÀÚ.PDF

Drucker Innovation_CEO과정

wtu05_ÃÖÁ¾

이다. 즉 μ μ μ : 가아니다. 이러한검정을하기위하여분산분석은다음과같은가정을두고있다. 분산분석의가정 (1) r개모집단분포는모두정규분포를이루고있다. (2) r개모집단의평균은다를수있으나분산은모두같다. (3) r개모집단에서추출한표본은서로독립적이다. 분산분석은집단을구분하는

와플-4년-2호-본문-15.ps


1504-<C804><CCB4>.pdf

용역보고서

Microsoft PowerPoint - chap05-제어문.pptx

BY-FDP-4-70.hwp

Transcription:

수리통계학(Mathematical Statistics)의 기초 I. 들어가며 지금부터 계량경제학이나 실험 및 준실험 연구설계 기법을 공부할 때 도움이 되는 수리통계 학의 기초에 대해 다룰 것입니다. 이 노트에서 다루게 될 내용은 어떤 추정량(estimator)이 지니고 있는 성질입니다. 한 가지 말씀 드릴 것은 이 노트에 나오는 대부분의 성질들은 지금까 지 배운 내용입니다. 그럼 무엇이 다르냐 하면 좀 더 그 개념들을 엄밀하게 그리고 수리적으로 배울 것입니다. 이러한 개념들을 수리적으로 공부를 해야 고급 과목에 대한 도전을 할 수 있 습니다. 수리적으로 공부한다고 해서 뭐 무슨 거창한 수학을 사용해서 다루는 것은 아닙니다. 고등학교 정도의 수학 지식만 있으면 아무 문제 없습니다. 물론 지금까지 공부한 통계학의 기초도 알고 있어야 합니다. 추정량(Estimator)의 유한 표본(Fiite Sample) 성질 II. 이 노트에서 배우게 될 첫 번째 내용은 추정량의 유한 표본 성질입니다. 유한 표본 성질이 뭘 뜻할까요? 이 유한 이라는 단어는 표본의 크기()가 작든 크든 상관 없다는 뜻입니다. 따라 서 추정량의 유한 표본 성질이란 어떤 추정량이 있을 때 이 추정량과 관련해서 여러 성질이 존재하는데 이 성질이 표본의 크기와 상관 없이 항상 성립하는 성질이라는 것입니다. 어떤 교재에서는 이 유한 표본 성질을 소(small)표본 성질이라고 하기도 하는데 개인적으로 잘못된 단어라고 생각합니다. 왜냐하면 유한 표본 성질은 표본이 클 때도 성립하기 때문입니다. 어쨌 든 중요한 것은 추정량의 유한 표본 성질은 의 크기와 상관 없이 성립하는 성질이라는 것을 명심하시길 바랍니다. A. 추정량(Estimator) vs. 추정값(Estimate) 추정량의 성질을 본격적으로 배우기에 앞서 추정량의 정의를 엄밀하게 내리고 진행하도록 하겠습니다. 모집단 모수가 θ(쎄타라고 읽습니다)인 모집단 분포로부터 개 크기의 표본 {X1, X2,..., X }을 무작위로 추출했다고 하겠습니다. 각각의 Xi 는 확률변수입니다. 그렇죠? 1

모수 θ의 추정량은 추출한 개의 표본값을 어떤 규칙에 의해 처리를 해서 모수의 값을 추정하는 방법입니다. 추정량에서 사용되는 규칙은 어떤 표본을 추출했냐에 따라 변하는 것이 아닌 고정된 규칙입니다. 예를 들어 우리의 관심 모수가 모집단의 평균이라고 하겠습니다. 즉 θ µ입니다. 지금까지 이 모수 µ의 추정량으로 우리는 표본 평균 X 를 사용했습니다. 이 추정량 X 는 모집단 평균이 µ인 모집단 분포에서 {X1, X2,..., X }의 표본을 무작위로 추출한 후 다음과 같은 규칙에 의해 모수를 추정합니다. X X Xi i1 X 는 모집단 평균 µ의 추정량인 것입니다. 이 추정량 X 는 확률변수입니다. 왜냐하면 개의 확률변수 X1, X2,..., X 의 함수이기 때문입니다. 추정값(estimate)은 실제 표본 자료값 x1, x2,..., x 을 위와 같은 추정량에 대입해서 나온 구체적인 값을 말합니다. 실제 값과 확률변수를 구분하기 위해 실제 값은 소문자로 확률변수는 대문자로 표기를 하겠습니다. 위와 같은 추정량과 추정값을 일반화해서 표기를 해보겠습니다. 모수 θ의 추정량을 W 라고 할 때 W 은 다음과 같이 추상적인 식으로 표기할 수 있습니다. W h(x1, X2,..., X ) W X 이면 X 는 다음과 같이 표기할 수 있습니다. X h(x1, X2,..., X ) h는 함수를 말하는 것입니다. 다시 말해 추정량 W 는 확률변수 X1, X2,..., X 에 의해 결정이 된다는 것을 의미합니다. 물론 W 도 확률변수입니다. 어떤 표본을 추출했냐에 따라 W 의 값은 달라질 것이기 때문입니다. 어떤 표본을 추출한 후, 실제 표본 값 x1, x2,..., x 를 함수 h에 대입을 하면 모수 θ의 추정값 w h(x1, x2,..., x )가 도출됩니다. 이제 이러한 표기법에 익숙해지셨나요? 때로는 추정량 W 를 점추정량(poit estimator) 그리고 w를 점추정값(poit estimate)이라고 부르기도 합니다. 그 이유는 구간 추정량(iterval estimator) 혹은 구간 추정값(poit estimator)과 구분을 짓기 위해서입니다. 뭐 굳이 그렇게까지 구분할 필요가 있을까 합니다. 전 그냥 추정량 추정값이라고 부르겠습니다. 어떤 추정량 W 의 가치를 평가할 때, 이 추정량 W 의 확률분포를 검토해서 하게 됩니다. W 는 확률변수이기 때문에 확률분포가 존재합니다. 그렇죠? 이러한 추정량의 확률분포를 추출 분포(samplig distributio)라고 한다고 배웠습니다. 왜 추출분포라고 하냐면 어떤 W 의 값이 나올 확률은 어떤 표본을 추출했냐에 의해 결정되기 때문입니다. 2

어떤 모수 θ를 추정하고자 할 때, 어떤 한 가지 규칙만 있는 것이 아닙니다. 즉 여러 종류 의 추정량이 존재합니다. 예를 들어 모집단 평균 µ를 추정할 수 있는 여러 종류의 추정량이 있습니다. 우리는 산술평균 X 만 사용했지만, 이것 말고도 기하평균, 가중평균, 조화평균 등 수많은 추정량이 존재합니다. 그럼 이렇게 수많은 추정량 중 어떤 추정량을 택해야 할까요? 그냥 아무 거나 편한 걸 택하면 되나요? 제가 툭하면 말씀을 드립니다만 통계학자들은 이렇 게 자의적으로 택하는 걸 굉장히 싫어 합니다. 저도 이런 통계학자의 가치관에 동의합니다. 자의적으로 하면 그건 과학이 아닙니다. 객관성이 떨어집니다. 연구에 객관성이 부족한 순간 그 연구의 가치는 확 떨어집니다. 그렇지 않나요? 따라서 여러 종류의 추정량 중 연구자가 바람직한 추정량을 선택할 수 있게끔 하는 어떤 기준이 있어야 합니다. 혹은 최소한 어떤 추정량은 결코 사용하지 않게끔 하는 기준이 있어 야겠죠. 통계학자들은 추정량의 추출분포의 성질을 토대로 이러한 기준을 개발했고 이러한 기준들이 현재 많은 연구자에게 어필을 한 것입니다. 이 장에서는 세 가지 기준에 대해서 배 울 것입니다. 비편의성(ubiasedess), 효율성(efficiecy), 그리고 평균제곱오차(mea square error)입니다. B. 비편의성(Ubiasedess) 어떤 추정량의 이용 여부를 판단할 때 제일 중요하게 여겨지는 기준 혹은 성질이 비편의성입 니다. 추정량의 비편의성은 추정량의 기대값과 관련된 성질입니다. Defiitio 1 E(W ) θ 위 등식이 성립할 때 추정량 W 를 모수 θ의 비편의 추정량(ubiased estimator)이라고 합니다. 어떤 추정량이 비편의 추정량이면 이 추정량의 추출분포의 기대값(중앙)이 추정하고자 하 는 모수의 값과 일치합니다. 여기서 강조하고 싶은 것은 어떤 추정량이 비편의 추정량이라고 해서 어떤 한 개의 표본을 토대로 계산한 추정값이 모수와 반드시 일치하거나 근사하다는 것이 아닙니다. 추정량이 비편의 추정량이라는 것은 어떤 모집단에서 개 크기의 표본을 무한대로 추출한 후 각각의 표본을 토대로 추정값을 계산하고 모든 표본들의 추정값들의 평균을 구하면 그 평균이 모수와 일치한다는 것입니다. 이 개념은 좀 추상적입니다. 왜냐하면 대개 우리는 표본 한 개만 갖고 있으니까요. 이제 추정량의 비편의성에 대해서 배웠기 때문에 추정량의 편의(bias) 에 대한 정의를 다음과 같이 내릴 수 있습니다. 3

그림 1: 모수 θ의 세 가지 추정량 Defiitio 2 추정량 W 가 모수 θ의 편의 추정량이면 그 편의(bias)의 정도는 다음과 같이 계산할 수 있습 니다. Bias(W ) E(W ) θ Defiitio 2에서 는 동등성을 나타내는 표기법입니다. 만약 추정량에 편의가 존재하지 않으면 다음과 같습니다. E(W ) θ 0 E(W ) θ 즉 추정량 W 는 모수 θ의 비편의 추정량입니다. 그림 1에 모수 θ를 추정하는 세 개의 추정량을 표시했습니다. 보시면 W1 은 θ의 비편의 추정량이고, W2 는 θ의 편의 추정량입니다. W3 도 편의 추정량입니다만 W3 의 편의의 정도가 W2 에 비해 큽니다. 다시 말해 다음과 같습니다. Bias(W2 ) < Bias(W3 ) 비편의의 정의를 살펴보면 두 가지를 알 수 있습니다. 추정량 W 의 편의의 정도는 표본 값 X1, X2,..., X 에 의해 결정됩니다. 추정량 W 의 편의의 정도는 추정량의 규칙 즉 함수식 h에 의해 결정됩니다. 4

연구자들은 표본 값에 대해서는 통제를 할 수가 없습니다. 이건 주어져 있는 것입니다. 하지 만 어떤 규칙 혹은 함수식 h에 대해서는 선택을 할 수 있습니다. 따라서 바람직한 추정량을 사용하기 위해서는 어떤 h를 택하느냐가 굉장히 중요합니다. 몇몇의 추정량의 비편의성은 쉽게 증명이 됩니다. 예를 들어 X 가 그렇습니다. 예전에 E(X ) µ인 것을 증명했었습니다. 표본 분산 S 2 도 모집단 분산 σ 2 의 비편의 추정량입니다. 즉 다음과 같습니다. E S 2 σ2 확실하냐고요? 한 번 증명을 해볼까요? 휴... 한 숨을 한 번 크게 쉬시고 밑의 증명 절차를 따라가시길 바랍니다. 2 1 X Xi X 1 X 2 Xi 2X Xi + X 2 1 X 2 Xi X 2 S2 E S 2 " # X 1 E Xi2 X 2 1 i " # X 1 E Xi2 E X 2 " 2 X 1 V ar (Xi ) + E (Xi )2 V ar X + E X! # 1X 1X 1 X Xi + E Xi V ar (Xi ) + E (Xi )2 V ar i i!!2 1 X 1 X 1 X V ar (Xi ) + E (Xi )2 2 V ar (Xi ) + 2 E (Xi ) i i!2 1P 1 P Xi 2 V ar(xi )라고 썼습니다. 독립이기 때문입니다. 증명을 더 진 위에서 V ar 행하기 위해서는 V ar(xi )와 E(Xi )가 뭔지 알아야 합니다. V ar(xi ) σ 2 이고 E(Xi ) µ 입니다. 예전에 왜 이렇게 되는지 공부했습니다. 자 증명을 계속하겠습니다. 5

E S 2 1 X 2 1 X 2 1 X σ + µ2 2 σ + 2 µ i i " σ2 1 σ 2 + µ2 + µ2 1 1 2 σ σ 2 1 σ2!2!# 어떤가요? E (S 2 ) σ 2 즉 S 2 가 σ 2 의 비편의 추정량인 것을 증명했습니다. 이 증명 과정을 보여드린 이유는 우리의 똑똑한 통계학자나 계량경제학자들이 밥 먹고 하는 일이 이런 것이기 때문입니다. 이 분들이 추정량의 비편의성을 증명해 주었기 때문에 우리는 연구를 할 때 이러 한 추정량을 사용해서 정책의 효과를 추정하고 그럴 수 있는 것입니다. 그런데 이런 증명을 할 줄 알아야 하냐고요? 할 줄 알면 좋습니다. 왜냐하면 통계학자나 계량경제학자들이 개발 한 이론과 방법론을 제대로 이해하고 올바로 응용하기 위해서는 이런 걸 할 줄 알아야 하기 때문입니다. 자 다시 본론으로 돌아가겠습니다. E(X ) µ 즉 X 는 µ의 비편의 추정량인 것을 배웠습니 다. 근데 여러분. X 가 µ의 비편의 추정량이기 위해 필요한 조건이 뭐였죠? 바로 무작위 표본 추출입니다. 표본을 무작위로 추출하지 않으면 E(X ) µ가 성립 안합니다. 나중에 계량경제학에서 우리는 β 라는 OLS 추정량에 대해서 배울 것입니다. 이 β 라는 OLS 추정량은 모집단 모수 β의 비편의 추정량입니다. 하지만 명심해야할 것은 E(β ) β가 되기 위 해서는 많은 조건을 만족해야 합니다. 무작위 표본 추출 말고도 다른 가정을 만족해야 합니다. 대충 계량경제학에서 뭘 배울지 예상이 가시죠? 바람직한 추정량을 선택함에 있어서 비편의성이라는 기준이 많은 연구자에게 어필을 했 지만 이 비편의성이라는 기준에는 두 가지 단점이 존재합니다. 어떤 추정량에 편의가 있다고 해서 그 추정량을 무조건 배제할 수는 없습니다. 왜냐하면 편의 추정량 중에서도 모수를 추정함에 있어서 굉장히 합리적이고 또 좋은 추정량이 존재하기 때문입니다. 또한 비편의 추정량이라고 해서 반드시 바람직한 것은 아닙니다. 비편의 추정량 중에서 도 굉장히 좋지 않은 추정량이 존재합니다. 첫 번째 단점과 관련한 예는 나중에 다루겠습니다. 두 번째 단점과 관련한 예를 보여드리 겠습니다. 모집단 평균 µ를 추정한다고 하겠습니다. 이 µ의 비편의 추정량에는 X 뿐만 아니라 X1 도 있습니다. 기억하시나요? X1 도 추정량입니다. 다음과 같은 추정량입니다. W h(x1, X2,..., X ) X1 6

그림 2: 변이가 다른 두 개의 비편의 추정량 다시 말해 X1 이라는 추정량은 개 크기의 표본을 추출한 후 이 중에서 첫 번째 관측치 값 만을 취하고 나머지는 버리는 것입니다. 그리고 이 추정량 X1 은 µ의 비편의 추정량이라고 배웠습니다. 즉 다음과 같습니다. E(X1 ) µ X 도 비편의 추정량이고 X1 도 비편의 추정량입니다. 그럼 모수 µ를 추정하기 위해 우리는 이 중 어떤 추정량을 택해야 할까요? 이와 같이 비편의성이라는 기준은 이런 상황에서 우리 에게 적절한 답을 주지 못합니다. 상식적으로 X 와 X1 이 있을 때 당연히 X 을 택할 것입니다. 왜냐하면 추정량 X1 은 다른 관측치 값들의 정보를 전혀 이용 안하는 것이기 때문입니다. 이 처럼 추정량을 택할 때 X1 과 같은 추정량을 배제할 수 있게끔 하기 위한 기준이 필요합니다. 그 기준은 효율성입니다. C. 효율성(Efficiecy) 추정량의 비편의성은 추출분포의 중앙과 관련된 개념입니다. 추출분포와 관련해서 우리가 또 알 수 있는 성질에 변이가 있습니다. 추출분포의 변이가 작으면 어떤 한 개의 표본만으로 모수의 값을 추정할 때 신뢰성이 더 확보된다고 배웠습니다. 기억하시죠? 그림 2를 보도록 하겠습니다. 그림을 보면 추정량 W1 도 비편의 추정량이고 W2 도 비편의 추정량입니다. 하지만 추정량 7

W2 의 변이가 W1 에 비해 큽니다. 이런 두 종류의 추정량이 있을 때 어떤 추정량을 사용하는 것이 모수 θ를 올바로 추정할 확률이 클까요? 당연히 W1 입니다. 따라서 이와 같은 두 개의 추정량 W1 과 W2 가 있을 때 W2 를 배제할 수 있기 위한 기준이 필요합니다. 그럼 어떤 기준을 사용하면 될까요? 바로 추출분포의 변이를 계산하면 됩니다. 그림 2 에서는 분명 다음이 성립합니다. V ar(w1 ) < V ar(w2 ) 따라서 추정량 W2 를 배제할 수 있게 됩니다. 즉 어떤 모수 θ의 비편의 추정량이 많을 때 우리는 이들 중 추출변이가 가장 작은 추정량을 택하면 되는 것입니다. 자 모수 µ의 두 개의 비편의 추정량 X 와 X1 에 대한 판단을 해보겠습니다. X 와 X1 의 변이는 다음과 같습니다. V ar(x ) σ2 vs. V ar(x1 ) σ 2 두 변이를 보면 추정량 X1 을 배제할 이유가 충분해 보이지 않나요? 추정량 X 의 변이는 표본 크기가 증가할 수록 작아지는 반면 추정량 X1 의 변이는 불변입니다. 표본의 크기는 연구자가 충분히 콘트롤 할 수 있는 사안이기 때문에 당연히 우리는 추정량 X 를 택하는 것이 바람직합 니다. 이 비편의 추정량의 변이의 정도를 기준으로 추정량을 선택할 때 사용하는 용어가 효율성 입니다. Defiitio 3 W1 과 W2 가 모수 θ의 비편의 추정량일 때, V ar(w1 ) V ar(w2 )이면 W1 이 W2 에 비해 효율적이라고 합니다. > 1이기만 하면 X 는 X1 에 비해 효율적인 것을 알 수 있습니다. 효율성 기준과 관련해서 한 가지 강조할 것이 있습니다. 효율성 기준은 비편의 추정량끼리 비교할 때만 적용할 수 있다는 사실입니다. 정의를 다시 보시길 바랍니다. 만약 W1 은 편의 추정량이고 W2 는 비편의 추정량이라고 할 때 이 효율성 기준을 적용할 수 없다는 것입니다. 그럼 두 추정량 중 편의 추정량이 존재하는 경우에는 어떤 기준을 사용하느냐? 바로 평균 제곱오차(mea square error, MSE)라는 기준을 사용합니다. 8

Defiitio 4 W 가 모수 θ의 추정량일 때, W 의 MSE는 다음과 같이 정의합니다. h M SE(W ) E (W θ)2 i M SE의 정의를 보면 알겠지만 M SE는 추정량 W 가 모수 θ와 평균적으로 얼마나 떨어져 있는지를 나타내는 지표입니다. M SE는 다음과 같이 계산할 수도 있습니다. h i E (W θ)2 E W 2 2θW + θ2 E W 2 2θE(W ) + θ2 E W 2 E(W )2 + E(W )2 2θE(W ) + θ2 E W 2 E(W )2 + [E(W ) θ]2 V ar(w ) + Bias(W )2 즉 M SE(W )는 W 의 변이와 편의에 의해 결정됩니다. 두 개의 추정량 중 한 개 혹은 두 개 가 모두 편의 추정량일 때 이 M SE라는 기준을 적용해서 M SE가 작은 추정량을 선택하면 됩니다. III. 추정량의 대표본(Large Sample) 성질 모집단 평균 µ의 추정량으로서 X1 은 좋은 추정량이 아닌 것을 배웠습니다. 그 이유는 표본 수가 커져도 X1 의 변이가 작아지지 않기 때문입니다. 이 예를 통해 한 가지 유추할 수 있는 것은 어떤 추정량과 관련해서 표본 수가 증가할 수록 뭔가 장점이 생기는 그런 추정량을 선 택하는 것이 바람직하다는 것을 알 수 있습니다. 모집단 평균 µ의 추정량 X 는 이런 측면에서 바람직하다는 것을 알 수 있습니다. 왜냐하면 표본 수가 증가할 수록 X 의 변이가 작아지기 때문입니다. 따라서 우리는 표본 수의 크기가 증가함에 따라 추정량의 성질이 어떻게 변하는지를 검 토해서 특정한 추정량을 배제하거나 선택할 수 있습니다. 표본 수의 크기가 클 때 성립하는 성질을 추정량의 대표본(large sample) 성질 혹은 점근(asymptotic) 성질이라고 합니다. 이 노트에서 배우게 될 대표본 성질은 일치성(cosistecy)입니다. 일치성은 표본 수가 증가할 수록 추정하고자 하는 모수와 추정량이 얼마나 근사하게 되는지를 나타내는 지표입니다. Defiitio 5 9

그림 3: 표본 크기에 따른 일치 추정량의 추출분포 개 크기의 표본 X1, X2,..., X 을 토대로 모수 θ를 추정하는 추정량 W 이 있습니다. 만약 일 때 W θ이면 W 을 모수 θ의 일치(cosistet) 추정량이라고 합니다. 만약 W 이 모수 θ의 일치 추정량이 아니면 W 을 불일치(icosistet) 추정량이라고 합니다. 비편의성은 표본 수와 상관 없이 성립 하는 추정량의 성질입니다. 반면 일치성은 표본 수가 클수록 성립 하는 추정량의 성질입니다. 그렇기 때문에 일치성을 추정량의 대표본 성질 이라고 하는 것입니다. 추정량의 일치성은 표본 수에 영향을 받기 때문에 W 에 이라는 아래 첨자를 붙여서 W 이라는 표기법을 쓰는 것입니다. 일치성이 의미하는 것은 직관적으로 명백합니다. 어떤 추정량 W 이 일치 추정량이라는 것은 이 커질수록 W 의 추출분포가 모수 θ 주변으로 오밀조밀 모여있게 된다는 것입니다. 다시 말해 이 커질수록 추정값 w 이 모수 θ와 차이가 날 확률이 적어진다는 것입니다. 이를 그림 3에 표시했습니다. 그림에는 한 개의 추정량만을 표시한 것입니다. 이 추정량이 표본 수 크기에 따라 어떤 모양의 추출분포를 갖는지를 보여주고 있습니다. 만약 어떤 추정량이 일치 추정량이 아니면 아무리 이 커도 모수 θ를 추정할 확률이 커지지 않습니다. 이 이유 때문에 통계학이나 계량경제학에서 어떤 추정량을 사용할 때 이 일치성을 최소의 요건으로 간주하고 있습니다. 즉 어떤 추정량이 일치 추정량이 아니면 연구에 사용을 안 한다는 것입니다. 10

어떤 추정량이 비편의 추정량이라고 해서 이 추정량이 일치 추정량인 것은 아닙니다. 하 지만 이 커질수록 어떤 비편의 추정량의 변이가 0으로 수렴을 하면 그러한 비편의 추정량은 일치 추정량입니다. 즉 다음과 같습니다. E(W ) θ이고 일 때 V ar(w ) 0가 되면 W 은 일치 추정량입니다. 일치 추정량의 예로 X 를 들 수 있습니다. E X µ이고 또한 V ar X σ 2 /이기 때문에 일 때 V ar X 0이 됩니다. 그렇기 때문에 모집단 평균 µ의 추정량으로서 X 를 사용하는 것입니다. 반면 X1 은 비편의 추정량이긴 하지만 라고 해서 V ar (X1 )이 0으로 수렴하지 않습니다. 따라서 X1 은 일치 추정량이 아닙니다. 좀 전에 비편의성에 두 가지 단점이 있다고 배웠습니다. 그 중 첫 번째 단점과 관련해서 아직 예를 안 들었는데요 이제 일치성을 배웠으니 이 예에 대해서 말씀을 드리도록 하겠습 니다. 첫 번째 단점은 때로는 편의가 있는 추정량 중에 좋은 추정량이 있다는 것이였습니다. 이 예로 들 수 있는 것이 바로 표본 표준편차 S입니다. 아까 표분 분산 S 2 는 모집단 분산 σ 2 의 비편의 추정량인 것을 증명했습니다. 아쉽게도 표본 표준편차 S는 모집단 표준편차 σ의 비편의 추정량이 아닙니다. 황당하시죠? 하지만 현실이 그렇습니다. 그럼 왜 유의성 검정을 할 때 이 σ를 S로 대체해서 할까요? 그 이유는 이 S가 σ의 일치 추정량이기 때문입니다. 이 예에서 알 수 있듯이 만약 비편의성이라는 기준만 사용하게 되면 σ를 추정할 때 S를 사용하지 않게 되는 우를 범할 수 있는 것입니다. 이제 비편의성의 첫 번째 단점이 이해되시죠? 이제 우리는 계량경제학의 기초를 공부하기 위해 필요한 통계학 지식을 다 습득했다고 해 도 과언이 아닙니다. 계량경제학의 기초는 별 게 아닙니다. 지금까지는 추정량 X 와 관련해서 논의를 했습니다만 계량경제학에서는 이 X 가 아닌 β 에 대해서 공부를 하는 것뿐입니다. X 와 관련해서 배운 내용은 X 의 추출분포의 중앙, 변이, 그리고 모양입니다. 또 그 정보를 이용해 서 통계적 추론을 하는 것을 배웠습니다. β 도 마찬가지입니다. 이 β 의 추출분포의 중앙, 변이, 그리고 모양에 대해서 배울 것입니다. 그리고 그 정보를 이용해서 통계적 추론을 하는 것을 배우게 될 것입니다. 11