... —....—

Similar documents
모수 θ의 추정량은 추출한 개의 표본값을 어떤 규칙에 의해 처리를 해서 모수의 값을 추정하는 방법입니다. 추정량에서 사용되는 규칙은 어떤 표본을 추출했냐에 따라 변하는 것이 아닌 고정된 규칙입니다. 예를 들어 우리의 관심 모수가 모집단의 평균이라고 하겠습니다. 즉 θ

슬라이드 1

... —... ..—

statistics

한국보건사회연구원통계학및계량경제학의기초및응용 강의노트 2017 년 4 월 5 월 통계학 : 통계적추론 (Statistical Inference) I. 들어가며 이제통계학에서가장중요한토픽이라고할수있는통계적추론에대해서본격적으로공부를해보도록하겠습니다. 통계적추론을통해연구와관

10. ..

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

Microsoft PowerPoint - SBE univariate5.pptx

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

<3235B0AD20BCF6BFADC0C720B1D8C7D120C2FC20B0C5C1FE20322E687770>

(001~006)개념RPM3-2(부속)


<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

Microsoft Word - EDA_Univariate.docx

R t-..

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

Microsoft PowerPoint - chap_2_rep.ppt [호환 모드]

G Power

LaTeX. [width=1em]Rlogo.jpg Sublime Text. ..

... — —


= ``...(2011), , (.)''

마지막 변경일 2018년 5월 7일 ** 이항분포와 정규분포의 관계 ** Geogebra와 수학의 시각화 책의 3.2소절 내용임. 가장 최근 파일은 링크를 누르면 받아 보실 수 있습니다.

자료의 이해 및 분석

이다. 즉 μ μ μ : 가아니다. 이러한검정을하기위하여분산분석은다음과같은가정을두고있다. 분산분석의가정 (1) r개모집단분포는모두정규분포를이루고있다. (2) r개모집단의평균은다를수있으나분산은모두같다. (3) r개모집단에서추출한표본은서로독립적이다. 분산분석은집단을구분하는

제 3강 역함수의 미분과 로피탈의 정리

모수검정과비모수검정 제 6 강 지리통계학

한국보건사회연구원통계학및계량경제학의기초및응용 강의노트 2017 년 4 월 5 월 통계학 : 자료의분포 (Distribution) 검토 자료폭탄을맞았다고할만큼현재우리주변에는자료가산재해있습니다. 문제는이렇게곳곳에널려있는자료중에서중요하고유용한정보를끄집어내기가참힘들다는점입니다


< B0B3C0CEC1A4BAB8BAD0C0EFC1B6C1A4BBE7B7CAC1FD2E687770>

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

FGB-P 학번수학과권혁준 2008 년 5 월 19 일 Lemma 1 p 를 C([0, 1]) 에속하는음수가되지않는함수라하자. 이때 y C 2 (0, 1) C([0, 1]) 가미분방정식 y (t) + p(t)y(t) = 0, t (0, 1), y(0)

PowerPoint 프레젠테이션

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

메타분석: 통계적 방법의 기초

슬라이드 제목 없음

제 12강 함수수열의 평등수렴

확률과통계6

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint

3. 다음은카르노맵의표이다. 논리식을간략화한것은? < 나 > 4. 다음카르노맵을간략화시킨결과는? < >

확률 및 분포

OCW_C언어 기초

Microsoft PowerPoint - PDF3 SBE pptx

문제지 제시문 2 보이지 않는 영역에 대한 정보를 얻기 위하여 관측된 다른 정보를 분석하여 역으로 미 관측 영역 에 대한 정보를 얻을 수 있다. 가령 주어진 영역에 장애물이 있는 경우 한 끝 점에서 출발하여 다른 끝 점에 도달하는 최단 경로의 개수를 분석하여 장애물의

R

3.2 함수의정의 Theorem 6 함수 f : X Y 와 Y W 인집합 W 에대하여 f : X W 는함수이다. Proof. f : X Y 가함수이므로 f X Y 이고, Y W 이므로 f X W 이므로 F0이만족된다. 함수의정의 F1, F2은 f : X Y 가함수이므로

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

중심경향치 (measure of central tendency) 대표값이란용어이외에자료의중심값또는중심위치의척도 (measure of central location) 라고도함. 예 : 평균 (mean= 산술평균 ; arithmetic mean), 절사평균 (trimmed

한국정책학회학회보

Microsoft Word - skku_TS2.docx

Contents 확률분포 (probability distribution) 이항분포 (binomial distribution) 초기하분포 (hypergeometric distribution) 포아송분포 (poisson distribution) 2

i

PowerPoint 프레젠테이션

고객관계를 리드하는 서비스 리더십 전략


Microsoft PowerPoint - LN05 [호환 모드]

슬라이드 1

01

실험 5

untitled

Microsoft PowerPoint - IPYYUIHNPGFU


qme1-qm-4.toler&cp(1)-출판★-1?!?]đ??????????

Microsoft PowerPoint Predicates and Quantifiers.ppt

Microsoft Word - SAS_Data Manipulate.docx

ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행

untitled

JAVA 프로그래밍실습 실습 1) 실습목표 - 메소드개념이해하기 - 매개변수이해하기 - 새메소드만들기 - Math 클래스의기존메소드이용하기 ( ) 문제 - 직사각형모양의땅이있다. 이땅의둘레, 면적과대각

장연립방정식을풀기위한반복법 12.1 선형시스템 : Gauss-Seidel 12.2 비선형시스템 12.1 선형시스템 : Gauss-Seidel (1/10) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정

Resampling Methods

슬라이드 1

한국보건사회연구원통계학및계량경제학의기초및응용 강의노트 2017 년 4 월 5 월 강의개괄및수학복습 I. 강의개괄 A. 들어가며 제가강의노트를준비한이유는세가지입니다. 하나는제가강의를잘못할확률이크기때문에이강의노트를통해서라도수강자분들이도움이되는내용을얻길바라는마음이있어서이고,

05 ƯÁý

용역보고서

Microsoft Word - Chapter6.doc

PowerPoint Presentation


기술통계

<B1B3C0B0B0FAC1A45FC3E2B7C22E687770>

PowerPoint Presentation

버퍼오버플로우-왕기초편 3.c언어에서버퍼사용하기 버퍼는 임시기억공간 이라는포괄적인개념이기때문에여러곳에존재할수있습니다. 즉, CPU 에도버퍼가존재할수있으며, 하드디스크에도존재할수있고, CD- ROM 이나프린터에도존재할수있습니다. 그리고앞의예제에서보신바와같이일반프로그램에도

대학교육151호-합침

제 8 장. 통계적추정 개요 : 통계적추정 ( 추론 ) 은모집단에서추출된표본의정보로모집단에대한값의추측또는그값에대한확신을결정하는과정이며다음의두단계가있다. 2 통계적추정 (statistical estimation): 모수인평균 ( m), 분산 ( s ), 표준편차 ( s

(3) 추론에서계산이모수적방법보다훨씬단순. (4) 사용자가이의논리를스스로발견하게하며이해하기쉬움. (5) 표본이정규분포를따를때에도검정력에큰손실이없으며, 정규분포와상이한경우에이의검정력은정규분포에의한방법보다크다. 3. 부호검정 (Sg test) 모집단의중앙값에대한검정으로관찰

v 사례연구 오염노출된아기들 2005년 7월 28일자시드니모닝해럴드에 1998년에서 2000년사이에태어난아기 138,000명모두에대한연구결과를인용하였다. 뉴사우스웨일즈주보건부환경보건과에있는Vicky Sheppeard 박사는출생전에최고수준의오염에노출된아기는가장요염수준낮은

의사결정기준 왈드기준 (Wald Criterion) 최대최소 (maximin) 기준 최소값중에서가장나은값을가지는전략을선택. 일이잘안되었을때만생각함비관론자들에게적합 일이잘되었을때 일이잘안되었을때 조건1 1,800원 1,600원 <--선택 조건2 2,000원 1,500원

Microsoft Word - Lab.4

<B3EDB4DC28B1E8BCAEC7F6292E687770>

½½¶óÀ̵å Á¦¸ñ ¾øÀ½

제 5강 리만적분

<C5EBB0E8C0FBB0A1BCB3B0CBC1F5C0C7C0FDC2F7BFCDB9AEC1A6C1A1B1D7B8AEB0EDB4EBBEC E687770>

Microsoft Word - logic2005.doc

표본재추출(resampling) 방법

Microsoft PowerPoint - chap04-연산자.pptx

설계란 무엇인가?

Microsoft PowerPoint - MDA DA pptx

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

Transcription:

통계학 추출분포 한국보건사회연구원 2017 년 5 월 22 일 ( 월요일 ) 강의슬라이드 6 1/ 36

목차 1 들어가며 2 표본평균의추출분포 3 추출분포결론 2/ 36

추출분포와통계적추론 통계량의추출분포모집단분포 통계적추론이어떤표본을토대로모집단에대한결론을내리게끔해줌 어떤표본을토대로모집단에대한결론을내릴때, 이표본이모집단을잘대표해야한다는것은이제두말하면잔소리 = 어떤표본이모집단을잘대표? 확률표본 (probability sample)! 이확률표본의통계량을갖고모집단모수를추정 = 통계적추론을할때, 표본통계량의 추출분포 를이용해통계적추론을하게됨 3/ 36

추출분포와통계적추론 통계량의추출분포모집단분포 확률이론자체만으로도재미있지만 (?) 이확률이론을통계학적논리를이용한연구에적용하기위해서는 X 와같은표본통계량의추출분포에대해서배워야함 표본통계량은 확률변수 임. Why? 어떤표본을추출했느냐에따라통계량의값이달라지기때문에이통계량의값을사전에확실히알수없기때문 = 따라서통계량은어떤확률분포를갖고있음 이러한통계량의확률분포를통계량의추출분포라고함 4/ 36

통계량의추출분포모집단분포 모집단분포 통계량의추출분포를본격적으로공부하기전에모집단분포를이해하고넘어가야함 Definition 모집단분포 (Population Distribution) 변수의모집단분포 (population distribution) 란그변수가갖는모든값의분포를말함 모집단분포도확률분포임 = 즉어떤모집단에서한사람을무작위로추출했을때그사람의변수값의분포를찍은것이모집단분포임 5/ 36

모집단분포의예 들어가며표본평균의추출분포추출분포결론 통계량의추출분포모집단분포 학생을무작위로추출하여그대학생의학점이무엇인지기록 여기서는학생의학점이변수. 당연히이변수는확률변수! Why? 실제로어떤학생을추출하기전까지는그값을모르기때문 우리나라모든대학생의학점이평균이 3.08 그리고표준편차가 0.33 인정규분포를따른다고가정. 즉 X N(3.08, 0.33) 1. 이상태에서어떤학생을무작위로추출하고그학생의학점을기록 2. 또학생을무작위로추출하고그학생의학점을기록 3. 이런식으로학생을 무한반복해서 추출하고추출할때마다학점을기록 4. 그러면이값들의분포는어떻게될까? 모집단분포와동일해질것임 = 즉어떤학생을무작위로추출하는행위를, 어떤확률분포를갖고있는모집단에서무작위로추출하는행위로생각할수있음 이 N(3.08, 0.33) 가분포가모집단분포 6/ 36

통계량의추출분포 들어가며표본평균의추출분포추출분포결론 통계량의추출분포모집단분포 이강의에서는표본의여러가지통계량중에서표본평균 X 의추출분포에어떤패턴이존재하는지공부할것임 표본통계량에는여러가지가존재 : 1. 표본분산 (s 2 ), 표본표준편차 (s) 2. 표본공분산, 표본상관계수... = 다시말해, 갖고있는 표본자료 를이용해계산할수있는여러형태의값들이다통계량. 당연히이들모두확률변수!! 나중에계량경제학을배우게되는데계량경제학에서배우는내용중에하나가이회귀계수 ˆβ 이라는통계량의추출분포 = 이제왜계량경제학을배우기전에통계학을배워야하는지대충감이오시죠? 7/ 36

추출분포의검토 자료의분포를검토할때알아봐야할세가지는? = 분포의중앙, 산포도 ( 변이 ), 그리고모양! 이세가지를알아야분포에대한여러가지판단을할수있는데, 통계량의 추출분포 도마찬가지!!! = 추출분포의중앙, 변이, 그리고모양이어떻게되는지알아야이추출분포를토대로통계적추론을할수있음 따라서우리는우선표본평균 X 의추출분포의중앙, 변이, 그리고모양이어떻게되는지공부를할것임 8/ 36

모집단분포 vs. 표본평균의추출분포 왼쪽그림 오른쪽그림 고객센터에걸려온전화 n = 80인무작위표본을토대로 총통화시간 ( 초 ) X 계산 : 총 500번추출 = 모집단분포 = X 의추출분포 9/ 36

모집단분포 vs. 표본평균의추출분포 두히스토그램을자세히살펴보면 X 의추출분포와관련해서두가지중요한사실을유추할수있음 : 1. 표본평균들의분포 ( 오른쪽 ) 가개별관측치값들의분포 ( 왼쪽 ) 에비해서변이가작음 2. 개별관측치값들의분포에비해표본평균의추출분포의모양이좀더정규분포에가까움 = 이제왼쪽그림에있는표본평균 X 의추출분포의중앙, 변이그리고모양에대해서배우겠음 10/ 36

표본평균 X 의추출분포의중앙 확률변수인통계량의추출분포의중앙을나타내는지표는? = 기대값 : E(X)! 따라서통계량 X 의추출분포의중앙을알아보기위해서는 E( X) 를계산하면됨 E( X)? 우선모집단분포가 N(µ, σ) 를따른다는가정하에 E( X) 계산하겠음 11/ 36

표본평균 X 의추출분포의중앙 E( X) 를계산하기위해알아야할사실 : 1. 모집단분포가 N(µ, σ) 를따르는데이모집단에서 n 개크기의표본을무작위로추출한다고하겠음 2. 이표본에는 n 명이존재. 즉총 n 개의확률변수 X 1, X 2,..., X n 이존재 3. 각각의 X i 도확률변수이기때문에 X i 별로확률분포즉추출분포가존재! 4. X 1? = N(µ, σ) 인모집단분포에서 n 명크기의표본을무작위로추출하고 n 명중에서 첫번째사람 의값 5. X 2? 6. 그럼 E(X 1)? = E(X 1) = µ! Why? 12/ 36

표본평균 X 의추출분포의중앙 E(X 1) = µ: 1. N(µ, σ) 인모집단분포에서 n 명크기의표본을무작위로추출하고 n 명중에서첫번째사람의값을기록 = 그값이 X 1 2. 또 n 명크기의표본을무작위로추출하고 n 명중의첫번째사람의값을기록 = 또다른 X 1 값이나옴 3. 이런식으로무한반복해서추출하고추출할때마다첫번째사람의값을기록 = 그러면무한개의 X 1 값들이수중에존재 4. 이무한개의 X 1 값들의평균은뭐가될까? = 아무래도모집단평균 (µ) 과같아질것임 5. 표본을무작위로무한반복해서추출하다보면결국모집단에있는모든사람들이뽑혔을것임 = 따라서추출한값들의평균은모집단평균과같아짐 13/ 36

표본평균 X 의추출분포의중앙 이제 E( X) 가뭔지계산할수있음 : X = 1 (X1 + X2 + + Xn 1 + Xn) n [ ] = E( X) 1 = E (X1 + X2 + + Xn 1 + Xn) n = 1 E (X1 + X2 + + Xn 1 + Xn) n = 1 [E (X1) + E (X2) + + E (Xn 1) + E (Xn)] n = 1 n (µ + µ + + µ + µ) }{{} µ 의개수 : n 개 = 1 n (nµ) = µ 14/ 36

표본평균 X 의추출분포의중앙 매우놀랍게도, E( X) = µ 즉, X 가 µ 의비편의추정량 (unbiased estimator) 이라는것임 = 간략하게해석을하면표본을여러번 무작위로 추출한후이 X 를이용해추출할때마다평균을계산하면, 그여러개의평균의평균은모집단과일치한다는것 예전에편의 (bias) 가적고변이 (variation) 가작은추정량을사용해야한다고했음 일단모집단평균을추정하는데있어서이 X 는편의가없으므로일단편의측면에서는기준을충족하는것임 = 만약추정량 X 에편의가있으면연구자들이결코모집단평균을추정하기위해사용하지않을것임 15/ 36

표본평균 X 의추출분포의분산 표본평균 X 의추출분포의 중앙 에대해서알아냈음 그다음에알아내야할것은? = 바로 X 의추출분포의산포도 ( 변이 )! 분포의변이를알기위해서는뭘계산하면될까? = 분산! 즉 V ar( X)! V ar( X) 를계산하기전에우선알고있어야할사실 : V ar(x 1 ) =? = V ar(x 1 ) = σ 2 Why? 16/ 36

표본평균 X 의추출분포의분산 V ar( X): X = 1 (X1 + X2 + + Xn 1 + Xn) n [ ] = V ar( X) 1 = V ar (X1 + X2 + + Xn 1 + Xn) n = 1 V ar (X1 + X2 + + Xn 1 + Xn) n2 ( 주의!) = = 1 [V ar (X1) + V ar (X2) + + V ar (Xn 1) + V ar (Xn)] (why?) n2 = 1 n 2 (σ2 + σ 2 + + σ 2 + σ 2 ) }{{} σ 2 의개수 : n 개 = 1 n 2 (nσ2 ) = σ2 n 17/ 36

표본평균 X 의추출분포의분산 즉 V ar( x) = σ2 임을증명함 n 위분산식을보면왜 x 를이용해 µ 를추정하는지알수있음 = n 하면 V ar( x) = σ2 n 0 이기때문 이말은 n 이커질수록표본평균 x 와모집단평균 µ 와의차이가적어진다는것을의미 = 따라서 n 이매우큰경우에는어떤표본을갖고있든그한개표본의평균과 µ 는비슷할것이다라는얘기! 18/ 36

표본평균 X 의추출분포의중앙과변이관련결론 E( x) = µ V ar( x) = σ2 n = SD( x) = σ n 위결과의함의 : 1. n 개크기의표본을무작위로반복적으로추출했을때각각의표본평균값 ( 즉 X 1, X 2,..., X n) 들은대체로 µ 주변에몰려있을것임. Why? X 가 µ 의 비편의추정량 이기때문 2. 그런데각각의표본평균값들이얼마나 µ 와비슷할까? 만약추출분포의분산이작다면, 어떤표본을모집단에서추출했든그하나의표본평균값은 µ 와비슷할것임 = 위결과에따르면추출분포의분산은 n 이클수록작아짐. 극단적으로만약 n 이무한대이면추출분포의분산은 0. 따라서이경우에는어떤표본을갖고있든그표본평균은모집단평균과일치할것임 19/ 36

표본평균 X 의추출분포의중앙과변이관련결론 E( x) = µ V ar( x) = σ2 n = SD( x) = σ n 위결과의함의 : 3. E( x) = µ, 이결과를차분하게보면표본의크기 n 은추정량 x 의편의에전혀영향을끼치지않는것을알수있음 = 표본을무작위로추출할때 n 이크든적든편의에는전혀영향을끼치지않는다는것임 4. 마지막으로추출분포의분산은 n 에영향을받지만 σ 의크기에도영향을받는다는것을알수있음 = 직관적으로명백. 모집단값의변이가클수록어떤한개의표본을갖고모집단모수를추정하는게어려워질것이기때문 20/ 36

표본평균 X 의추출분포의모양 이제마지막으로 x 의추출분포의 모양 에대해서알아보도록하겠음 당연한얘기인지는모르겠지만 X 의추출분포의모양은 모집단 분포의모양에영향을받을것임 N(µ, σ) 를따르는모집단에서 n 개크기의표본을무작위로추출한다고하겠음 = 이정규분포인모집단에서 n 개크기의표본을여러번추출하고 x 들의추출분포를찍어보면이추출분포의모양도모집단을따르게됨!! 그러나 모집단분포 가정규분포를따를때 x 들의추출분포도정규분포를따른다는위사실은그렇게유용한사실이아님. Why? = 모집단분포가정규분포를따르지않는경우가굉장히많기때문 ( 임금, 주택가격등 ) 21/ 36

표본평균 X 의추출분포의모양 다행스럽게도우리의똑똑한수학자와통계학자들이모집단분포가 어떤모양을갖고있든 i) 한개표본의크기 (n) 가충분히크고, ii) 표본을무작위로추출하면, x 의추출분포가정규분포가된다는것을증명하는확률이론을발견!! 이놀라운이론을중심극한정리 (Central Limit Theorem) 라고함 = 아마여러가지수학적정리중에서이중심극한정리가가장중요하다고할만큼세상에큰영향을끼친정리 정리 (Theorem) 란? = 정리란항상참인명제를말함 22/ 36

표본평균 X 의추출분포의모양 정리예 1: i) 만득이는사람이다. ii) 모든사람은죽는다. = i) 과 ii) 에의해만득이는죽는다 정리예 2: i) 모집단평균이 µ 인모집단에서 ii) 표본을무작위로추출하면 = E( x) = µ 이된다 23/ 36

표본평균 X 의추출분포의모양 Theorem 중심극한정리 (CLT) 평균이 µ 이고표준편차가 σ인모집단에서 ( 모집단모양이무엇이든상관없이 ) n개크기의표본을 무작위 로추출한다고하겠음. 그러면표본평균 x 의추출분포의중앙은 µ, 분산은 σ/ n, 그리고모양은정규분포에가깝게됨. 단, n이 충분히 클때만성립함. 이를간략하게표기하면 : ( ) x 근사 σ N µ, n 24/ 36

표본평균 X 의추출분포의모양 CLT 덕분에표본평균의추출분포의모양을알수있게되어, 어떤표본평균이모집단분포 ( 모양을모르는 ) 에서추출될확률을계산할수있게됨 CLT 가정말세상에큰획을그은정리임에는틀림없으나, 한가지한계가있음 = CLT 가적용되려면 n 이충분히커야되는데도대체얼마나커야하는지에대한답을알려주지는않음 x 의추출분포가정규분포에얼마나근사하게될지는모집단분포의모양에큰영향을받는데, 만약 모집단 분포가정규분포를따른다면아마 n 의크기는 10 이면충분하지않을까함 반면모집단분포가한쪽으로치우쳐있거나분포가굉장히지져분하면 n 의크기가상당히커야 CLT 가성립할것임 25/ 36

표본평균 X 의추출분포의모양 아까 CLT 가세상에큰영향을끼친정리라고했는데그이유는이 CLT 가성립하기위해서그렇게큰표본크기가필요하지않기때문 물론 CLT 가성립하기위한정확한표본크기는 case-by-case 이나, 수많은연구와시뮬레이션에서이 CLT 가적용되기위해필요한표본의크기가대략 30 에서 50 이면충분하다는것이밝혀짐 물론모집단분포가굉장히지져분하면표본크기가 50 보다는커야될것임. 하지만아무리지져분해도 100 이면성립한다고함 CLT 와관련해서한가지강조할것은표본의크기보다더중요한것은표본을 무작위 로추출해야한다는것임 = 많은연구자들이표본의크기가중요하다고생각하는데그것보다더중요한것은표본을무작위로추출하는것임. 표본을추출할때무작위로추출하지않으면아무리표본의크기가커도 CLT 는성립안함 26/ 36

표본평균 X 의추출분포의모양 n 의변화에따라 x 의추출분포의모양에어떤변화가생기는지 : 27/ 36

CLT 적용예 예 : A 대학교통계학과의학과장은최근학과졸업생들의초봉이얼마나되는지추정하려고함. A 대학교통계학과를최근에졸업한모든졸업생들의평균, 즉 모집단 평균은 6,000 만원그리고표준편차는 500 만원이라고가정. 물론학과장은이값들을모르기때문에무작위표본을추출해서추정을하려고함. 실제학과장이추출한한개의표본으로구한표본평균이실제모집단평균과 100 만원내로차이날확률이얼마나될까? = 우선그림과같은모집단에서무작위표본을추출하는것임 : 28/ 36

CLT 적용예 우리가알고싶은확률은표본평균이모집단평균과 100 만원내로차이가날확률 = 즉, 문제는 P (5900 x 6100) 을구하라고하는것임 이확률을구하기위해서는 x 의추출분포의중앙, 분산, 그리고모양을알아야함. 이문제에서이정보를알수있는지? Yes! Why? CLT 덕분에! CLT 적용할수있는지? Yes! Why? = i) 표본을무작위로추출했고 ii) 표본의크기가 40 으로상당히크기때문에 CLT 를적용할수있음 CLT 에따르면무작위표본평균의추출분포는정규분포를따르고중앙은 µ 그리고분산은 σ/ n 29/ 36

CLT 적용예 30/ 36

CLT 적용예 확률을계산해보면 : ( 5900 6000 P (59, 000 x 61, 000) = P 500/ x 6000 40 500/ 40 = P ( 1.26 Z 1.26) = P (Z 1.26) P (Z 1.26) = 0.8962 0.1038 = 0.7924 ) 6100 6000 500/ 40 즉학과장이추출한한개표본의평균이모집단평균과 100 만원내로차이가날확률은 79.24% = CLT 가없었다면우리는이확률을결코구할수없었음! Why? CLT 없이는 x 의추출분포의모양을모르므로 31/ 36

CLT 관련유용한사실 CLT 와관련해서유용한사실 : = 정규분포를따르는두개의 독립적인 확률변수를선형결합한확률변수또한정규분포를따름 X 와 Y 가서로독립이고각각정규분포를따르면, ax + by 또한정규분포를따른다는것임 = 여기서 a 와 b 는상수 물론두개뿐만아니라여러개의독립적인확률변수를선형결합한확률변수또한정규분포를따름 32/ 36

CLT 적용예 2 예 : 김경래연구원은집에서연구원까지버스를타고다님. 출근에걸리는시간은매일매일다르기때문에집에서연구원까지걸리는시간을 X 라고할때이 X 는확률변수임. 이 X 는 N(20, 4) 를따름. 반면연구원에서집까지걸리는시간을 Y 라고할때이 Y 는 N(18, 8) 를따름. 이 X 와 Y 가서로독립이라고할때, 어떤날에 집에서연구원으로가는시간 (X) 이 연구원에서집으로가는시간 (Y ) 보다덜걸릴확률이어떻게될까? 1. 이문제는다음과같은확률을구하라고하는것 : P (X < Y ) = P (X Y < 0) 2. 위확률을구하기위해서는뭘알아야할까? = X 와 Y 의선형결합으로만들어지는확률변수 X Y 의추출분포가어떻게되는지를알아야함! 33/ 36

CLT 적용예 2 우선 X 와 Y 가각각정규분포를따르고있다고문제에주어졌음 그리고두확률변수는서로독립이라고주어졌음 따라서이두개의서로독립인확률변수를 선형결합 해서도출되는 X Y 또한정규분포를따른다는것을알수있음 = X Y Normal 그다음으로해야할것은이확률변수 X Y 의중앙과분산을알아야함 = Why? 그래야표준화를해서확률을계산을할수있기때문 34/ 36

CLT 적용예 2 X Y 의기대값과분산을구해보겠음 : 1. E(X Y ) = E(X) E(Y ) = 20 18 = 2 2. V ar(x Y ) = V ar(x) + V ar(y ) 2Cov(X, Y ) = 4 2 + 8 2 + 0 = 80 = Why Cov(X, Y ) = 0? X 와 Y 는독립이므로! X Y N(2, 80) = X Y 를표준화하기위한모든정보가도출됨 : ( (X Y ) 2 P (X Y < 0) = P < 0 2 ) 80 80 = P (Z < 0.22) = 0.4129 계산한확률 41.3% 해석 : 확률이 40% 정도이기때문에 5 일중에약 2 일정도는출근하는데걸리는시간이더걸린다는것임 35/ 36

추출분포결론 들어가며표본평균의추출분포추출분포결론 추출분포결론 36/ 36