통계학 추출분포 한국보건사회연구원 2017 년 5 월 22 일 ( 월요일 ) 강의슬라이드 6 1/ 36
목차 1 들어가며 2 표본평균의추출분포 3 추출분포결론 2/ 36
추출분포와통계적추론 통계량의추출분포모집단분포 통계적추론이어떤표본을토대로모집단에대한결론을내리게끔해줌 어떤표본을토대로모집단에대한결론을내릴때, 이표본이모집단을잘대표해야한다는것은이제두말하면잔소리 = 어떤표본이모집단을잘대표? 확률표본 (probability sample)! 이확률표본의통계량을갖고모집단모수를추정 = 통계적추론을할때, 표본통계량의 추출분포 를이용해통계적추론을하게됨 3/ 36
추출분포와통계적추론 통계량의추출분포모집단분포 확률이론자체만으로도재미있지만 (?) 이확률이론을통계학적논리를이용한연구에적용하기위해서는 X 와같은표본통계량의추출분포에대해서배워야함 표본통계량은 확률변수 임. Why? 어떤표본을추출했느냐에따라통계량의값이달라지기때문에이통계량의값을사전에확실히알수없기때문 = 따라서통계량은어떤확률분포를갖고있음 이러한통계량의확률분포를통계량의추출분포라고함 4/ 36
통계량의추출분포모집단분포 모집단분포 통계량의추출분포를본격적으로공부하기전에모집단분포를이해하고넘어가야함 Definition 모집단분포 (Population Distribution) 변수의모집단분포 (population distribution) 란그변수가갖는모든값의분포를말함 모집단분포도확률분포임 = 즉어떤모집단에서한사람을무작위로추출했을때그사람의변수값의분포를찍은것이모집단분포임 5/ 36
모집단분포의예 들어가며표본평균의추출분포추출분포결론 통계량의추출분포모집단분포 학생을무작위로추출하여그대학생의학점이무엇인지기록 여기서는학생의학점이변수. 당연히이변수는확률변수! Why? 실제로어떤학생을추출하기전까지는그값을모르기때문 우리나라모든대학생의학점이평균이 3.08 그리고표준편차가 0.33 인정규분포를따른다고가정. 즉 X N(3.08, 0.33) 1. 이상태에서어떤학생을무작위로추출하고그학생의학점을기록 2. 또학생을무작위로추출하고그학생의학점을기록 3. 이런식으로학생을 무한반복해서 추출하고추출할때마다학점을기록 4. 그러면이값들의분포는어떻게될까? 모집단분포와동일해질것임 = 즉어떤학생을무작위로추출하는행위를, 어떤확률분포를갖고있는모집단에서무작위로추출하는행위로생각할수있음 이 N(3.08, 0.33) 가분포가모집단분포 6/ 36
통계량의추출분포 들어가며표본평균의추출분포추출분포결론 통계량의추출분포모집단분포 이강의에서는표본의여러가지통계량중에서표본평균 X 의추출분포에어떤패턴이존재하는지공부할것임 표본통계량에는여러가지가존재 : 1. 표본분산 (s 2 ), 표본표준편차 (s) 2. 표본공분산, 표본상관계수... = 다시말해, 갖고있는 표본자료 를이용해계산할수있는여러형태의값들이다통계량. 당연히이들모두확률변수!! 나중에계량경제학을배우게되는데계량경제학에서배우는내용중에하나가이회귀계수 ˆβ 이라는통계량의추출분포 = 이제왜계량경제학을배우기전에통계학을배워야하는지대충감이오시죠? 7/ 36
추출분포의검토 자료의분포를검토할때알아봐야할세가지는? = 분포의중앙, 산포도 ( 변이 ), 그리고모양! 이세가지를알아야분포에대한여러가지판단을할수있는데, 통계량의 추출분포 도마찬가지!!! = 추출분포의중앙, 변이, 그리고모양이어떻게되는지알아야이추출분포를토대로통계적추론을할수있음 따라서우리는우선표본평균 X 의추출분포의중앙, 변이, 그리고모양이어떻게되는지공부를할것임 8/ 36
모집단분포 vs. 표본평균의추출분포 왼쪽그림 오른쪽그림 고객센터에걸려온전화 n = 80인무작위표본을토대로 총통화시간 ( 초 ) X 계산 : 총 500번추출 = 모집단분포 = X 의추출분포 9/ 36
모집단분포 vs. 표본평균의추출분포 두히스토그램을자세히살펴보면 X 의추출분포와관련해서두가지중요한사실을유추할수있음 : 1. 표본평균들의분포 ( 오른쪽 ) 가개별관측치값들의분포 ( 왼쪽 ) 에비해서변이가작음 2. 개별관측치값들의분포에비해표본평균의추출분포의모양이좀더정규분포에가까움 = 이제왼쪽그림에있는표본평균 X 의추출분포의중앙, 변이그리고모양에대해서배우겠음 10/ 36
표본평균 X 의추출분포의중앙 확률변수인통계량의추출분포의중앙을나타내는지표는? = 기대값 : E(X)! 따라서통계량 X 의추출분포의중앙을알아보기위해서는 E( X) 를계산하면됨 E( X)? 우선모집단분포가 N(µ, σ) 를따른다는가정하에 E( X) 계산하겠음 11/ 36
표본평균 X 의추출분포의중앙 E( X) 를계산하기위해알아야할사실 : 1. 모집단분포가 N(µ, σ) 를따르는데이모집단에서 n 개크기의표본을무작위로추출한다고하겠음 2. 이표본에는 n 명이존재. 즉총 n 개의확률변수 X 1, X 2,..., X n 이존재 3. 각각의 X i 도확률변수이기때문에 X i 별로확률분포즉추출분포가존재! 4. X 1? = N(µ, σ) 인모집단분포에서 n 명크기의표본을무작위로추출하고 n 명중에서 첫번째사람 의값 5. X 2? 6. 그럼 E(X 1)? = E(X 1) = µ! Why? 12/ 36
표본평균 X 의추출분포의중앙 E(X 1) = µ: 1. N(µ, σ) 인모집단분포에서 n 명크기의표본을무작위로추출하고 n 명중에서첫번째사람의값을기록 = 그값이 X 1 2. 또 n 명크기의표본을무작위로추출하고 n 명중의첫번째사람의값을기록 = 또다른 X 1 값이나옴 3. 이런식으로무한반복해서추출하고추출할때마다첫번째사람의값을기록 = 그러면무한개의 X 1 값들이수중에존재 4. 이무한개의 X 1 값들의평균은뭐가될까? = 아무래도모집단평균 (µ) 과같아질것임 5. 표본을무작위로무한반복해서추출하다보면결국모집단에있는모든사람들이뽑혔을것임 = 따라서추출한값들의평균은모집단평균과같아짐 13/ 36
표본평균 X 의추출분포의중앙 이제 E( X) 가뭔지계산할수있음 : X = 1 (X1 + X2 + + Xn 1 + Xn) n [ ] = E( X) 1 = E (X1 + X2 + + Xn 1 + Xn) n = 1 E (X1 + X2 + + Xn 1 + Xn) n = 1 [E (X1) + E (X2) + + E (Xn 1) + E (Xn)] n = 1 n (µ + µ + + µ + µ) }{{} µ 의개수 : n 개 = 1 n (nµ) = µ 14/ 36
표본평균 X 의추출분포의중앙 매우놀랍게도, E( X) = µ 즉, X 가 µ 의비편의추정량 (unbiased estimator) 이라는것임 = 간략하게해석을하면표본을여러번 무작위로 추출한후이 X 를이용해추출할때마다평균을계산하면, 그여러개의평균의평균은모집단과일치한다는것 예전에편의 (bias) 가적고변이 (variation) 가작은추정량을사용해야한다고했음 일단모집단평균을추정하는데있어서이 X 는편의가없으므로일단편의측면에서는기준을충족하는것임 = 만약추정량 X 에편의가있으면연구자들이결코모집단평균을추정하기위해사용하지않을것임 15/ 36
표본평균 X 의추출분포의분산 표본평균 X 의추출분포의 중앙 에대해서알아냈음 그다음에알아내야할것은? = 바로 X 의추출분포의산포도 ( 변이 )! 분포의변이를알기위해서는뭘계산하면될까? = 분산! 즉 V ar( X)! V ar( X) 를계산하기전에우선알고있어야할사실 : V ar(x 1 ) =? = V ar(x 1 ) = σ 2 Why? 16/ 36
표본평균 X 의추출분포의분산 V ar( X): X = 1 (X1 + X2 + + Xn 1 + Xn) n [ ] = V ar( X) 1 = V ar (X1 + X2 + + Xn 1 + Xn) n = 1 V ar (X1 + X2 + + Xn 1 + Xn) n2 ( 주의!) = = 1 [V ar (X1) + V ar (X2) + + V ar (Xn 1) + V ar (Xn)] (why?) n2 = 1 n 2 (σ2 + σ 2 + + σ 2 + σ 2 ) }{{} σ 2 의개수 : n 개 = 1 n 2 (nσ2 ) = σ2 n 17/ 36
표본평균 X 의추출분포의분산 즉 V ar( x) = σ2 임을증명함 n 위분산식을보면왜 x 를이용해 µ 를추정하는지알수있음 = n 하면 V ar( x) = σ2 n 0 이기때문 이말은 n 이커질수록표본평균 x 와모집단평균 µ 와의차이가적어진다는것을의미 = 따라서 n 이매우큰경우에는어떤표본을갖고있든그한개표본의평균과 µ 는비슷할것이다라는얘기! 18/ 36
표본평균 X 의추출분포의중앙과변이관련결론 E( x) = µ V ar( x) = σ2 n = SD( x) = σ n 위결과의함의 : 1. n 개크기의표본을무작위로반복적으로추출했을때각각의표본평균값 ( 즉 X 1, X 2,..., X n) 들은대체로 µ 주변에몰려있을것임. Why? X 가 µ 의 비편의추정량 이기때문 2. 그런데각각의표본평균값들이얼마나 µ 와비슷할까? 만약추출분포의분산이작다면, 어떤표본을모집단에서추출했든그하나의표본평균값은 µ 와비슷할것임 = 위결과에따르면추출분포의분산은 n 이클수록작아짐. 극단적으로만약 n 이무한대이면추출분포의분산은 0. 따라서이경우에는어떤표본을갖고있든그표본평균은모집단평균과일치할것임 19/ 36
표본평균 X 의추출분포의중앙과변이관련결론 E( x) = µ V ar( x) = σ2 n = SD( x) = σ n 위결과의함의 : 3. E( x) = µ, 이결과를차분하게보면표본의크기 n 은추정량 x 의편의에전혀영향을끼치지않는것을알수있음 = 표본을무작위로추출할때 n 이크든적든편의에는전혀영향을끼치지않는다는것임 4. 마지막으로추출분포의분산은 n 에영향을받지만 σ 의크기에도영향을받는다는것을알수있음 = 직관적으로명백. 모집단값의변이가클수록어떤한개의표본을갖고모집단모수를추정하는게어려워질것이기때문 20/ 36
표본평균 X 의추출분포의모양 이제마지막으로 x 의추출분포의 모양 에대해서알아보도록하겠음 당연한얘기인지는모르겠지만 X 의추출분포의모양은 모집단 분포의모양에영향을받을것임 N(µ, σ) 를따르는모집단에서 n 개크기의표본을무작위로추출한다고하겠음 = 이정규분포인모집단에서 n 개크기의표본을여러번추출하고 x 들의추출분포를찍어보면이추출분포의모양도모집단을따르게됨!! 그러나 모집단분포 가정규분포를따를때 x 들의추출분포도정규분포를따른다는위사실은그렇게유용한사실이아님. Why? = 모집단분포가정규분포를따르지않는경우가굉장히많기때문 ( 임금, 주택가격등 ) 21/ 36
표본평균 X 의추출분포의모양 다행스럽게도우리의똑똑한수학자와통계학자들이모집단분포가 어떤모양을갖고있든 i) 한개표본의크기 (n) 가충분히크고, ii) 표본을무작위로추출하면, x 의추출분포가정규분포가된다는것을증명하는확률이론을발견!! 이놀라운이론을중심극한정리 (Central Limit Theorem) 라고함 = 아마여러가지수학적정리중에서이중심극한정리가가장중요하다고할만큼세상에큰영향을끼친정리 정리 (Theorem) 란? = 정리란항상참인명제를말함 22/ 36
표본평균 X 의추출분포의모양 정리예 1: i) 만득이는사람이다. ii) 모든사람은죽는다. = i) 과 ii) 에의해만득이는죽는다 정리예 2: i) 모집단평균이 µ 인모집단에서 ii) 표본을무작위로추출하면 = E( x) = µ 이된다 23/ 36
표본평균 X 의추출분포의모양 Theorem 중심극한정리 (CLT) 평균이 µ 이고표준편차가 σ인모집단에서 ( 모집단모양이무엇이든상관없이 ) n개크기의표본을 무작위 로추출한다고하겠음. 그러면표본평균 x 의추출분포의중앙은 µ, 분산은 σ/ n, 그리고모양은정규분포에가깝게됨. 단, n이 충분히 클때만성립함. 이를간략하게표기하면 : ( ) x 근사 σ N µ, n 24/ 36
표본평균 X 의추출분포의모양 CLT 덕분에표본평균의추출분포의모양을알수있게되어, 어떤표본평균이모집단분포 ( 모양을모르는 ) 에서추출될확률을계산할수있게됨 CLT 가정말세상에큰획을그은정리임에는틀림없으나, 한가지한계가있음 = CLT 가적용되려면 n 이충분히커야되는데도대체얼마나커야하는지에대한답을알려주지는않음 x 의추출분포가정규분포에얼마나근사하게될지는모집단분포의모양에큰영향을받는데, 만약 모집단 분포가정규분포를따른다면아마 n 의크기는 10 이면충분하지않을까함 반면모집단분포가한쪽으로치우쳐있거나분포가굉장히지져분하면 n 의크기가상당히커야 CLT 가성립할것임 25/ 36
표본평균 X 의추출분포의모양 아까 CLT 가세상에큰영향을끼친정리라고했는데그이유는이 CLT 가성립하기위해서그렇게큰표본크기가필요하지않기때문 물론 CLT 가성립하기위한정확한표본크기는 case-by-case 이나, 수많은연구와시뮬레이션에서이 CLT 가적용되기위해필요한표본의크기가대략 30 에서 50 이면충분하다는것이밝혀짐 물론모집단분포가굉장히지져분하면표본크기가 50 보다는커야될것임. 하지만아무리지져분해도 100 이면성립한다고함 CLT 와관련해서한가지강조할것은표본의크기보다더중요한것은표본을 무작위 로추출해야한다는것임 = 많은연구자들이표본의크기가중요하다고생각하는데그것보다더중요한것은표본을무작위로추출하는것임. 표본을추출할때무작위로추출하지않으면아무리표본의크기가커도 CLT 는성립안함 26/ 36
표본평균 X 의추출분포의모양 n 의변화에따라 x 의추출분포의모양에어떤변화가생기는지 : 27/ 36
CLT 적용예 예 : A 대학교통계학과의학과장은최근학과졸업생들의초봉이얼마나되는지추정하려고함. A 대학교통계학과를최근에졸업한모든졸업생들의평균, 즉 모집단 평균은 6,000 만원그리고표준편차는 500 만원이라고가정. 물론학과장은이값들을모르기때문에무작위표본을추출해서추정을하려고함. 실제학과장이추출한한개의표본으로구한표본평균이실제모집단평균과 100 만원내로차이날확률이얼마나될까? = 우선그림과같은모집단에서무작위표본을추출하는것임 : 28/ 36
CLT 적용예 우리가알고싶은확률은표본평균이모집단평균과 100 만원내로차이가날확률 = 즉, 문제는 P (5900 x 6100) 을구하라고하는것임 이확률을구하기위해서는 x 의추출분포의중앙, 분산, 그리고모양을알아야함. 이문제에서이정보를알수있는지? Yes! Why? CLT 덕분에! CLT 적용할수있는지? Yes! Why? = i) 표본을무작위로추출했고 ii) 표본의크기가 40 으로상당히크기때문에 CLT 를적용할수있음 CLT 에따르면무작위표본평균의추출분포는정규분포를따르고중앙은 µ 그리고분산은 σ/ n 29/ 36
CLT 적용예 30/ 36
CLT 적용예 확률을계산해보면 : ( 5900 6000 P (59, 000 x 61, 000) = P 500/ x 6000 40 500/ 40 = P ( 1.26 Z 1.26) = P (Z 1.26) P (Z 1.26) = 0.8962 0.1038 = 0.7924 ) 6100 6000 500/ 40 즉학과장이추출한한개표본의평균이모집단평균과 100 만원내로차이가날확률은 79.24% = CLT 가없었다면우리는이확률을결코구할수없었음! Why? CLT 없이는 x 의추출분포의모양을모르므로 31/ 36
CLT 관련유용한사실 CLT 와관련해서유용한사실 : = 정규분포를따르는두개의 독립적인 확률변수를선형결합한확률변수또한정규분포를따름 X 와 Y 가서로독립이고각각정규분포를따르면, ax + by 또한정규분포를따른다는것임 = 여기서 a 와 b 는상수 물론두개뿐만아니라여러개의독립적인확률변수를선형결합한확률변수또한정규분포를따름 32/ 36
CLT 적용예 2 예 : 김경래연구원은집에서연구원까지버스를타고다님. 출근에걸리는시간은매일매일다르기때문에집에서연구원까지걸리는시간을 X 라고할때이 X 는확률변수임. 이 X 는 N(20, 4) 를따름. 반면연구원에서집까지걸리는시간을 Y 라고할때이 Y 는 N(18, 8) 를따름. 이 X 와 Y 가서로독립이라고할때, 어떤날에 집에서연구원으로가는시간 (X) 이 연구원에서집으로가는시간 (Y ) 보다덜걸릴확률이어떻게될까? 1. 이문제는다음과같은확률을구하라고하는것 : P (X < Y ) = P (X Y < 0) 2. 위확률을구하기위해서는뭘알아야할까? = X 와 Y 의선형결합으로만들어지는확률변수 X Y 의추출분포가어떻게되는지를알아야함! 33/ 36
CLT 적용예 2 우선 X 와 Y 가각각정규분포를따르고있다고문제에주어졌음 그리고두확률변수는서로독립이라고주어졌음 따라서이두개의서로독립인확률변수를 선형결합 해서도출되는 X Y 또한정규분포를따른다는것을알수있음 = X Y Normal 그다음으로해야할것은이확률변수 X Y 의중앙과분산을알아야함 = Why? 그래야표준화를해서확률을계산을할수있기때문 34/ 36
CLT 적용예 2 X Y 의기대값과분산을구해보겠음 : 1. E(X Y ) = E(X) E(Y ) = 20 18 = 2 2. V ar(x Y ) = V ar(x) + V ar(y ) 2Cov(X, Y ) = 4 2 + 8 2 + 0 = 80 = Why Cov(X, Y ) = 0? X 와 Y 는독립이므로! X Y N(2, 80) = X Y 를표준화하기위한모든정보가도출됨 : ( (X Y ) 2 P (X Y < 0) = P < 0 2 ) 80 80 = P (Z < 0.22) = 0.4129 계산한확률 41.3% 해석 : 확률이 40% 정도이기때문에 5 일중에약 2 일정도는출근하는데걸리는시간이더걸린다는것임 35/ 36
추출분포결론 들어가며표본평균의추출분포추출분포결론 추출분포결론 36/ 36