통계학 추출설계와통계적추론의기초 한국보건사회연구원 2017 년 4 월 24 일 ( 월요일 ) 강의슬라이드 4 1/ 86
목차 1 2 2/ 86
지난시간복습 자료의주요출처 : 1. 일화 2. 공용자료 3. 표본조사 : 관측연구 (observational study) 4. 실험 : 무작위통제실험 (randomized controlled trial, RCT) 3/ 86
지난시간복습 실험설계 (experimental design): 1. 처리집단 (treatment group) 과통제집단 (control group) 2. 위약효과 (placebo effect) 3. 편의 (bias): 실험설계 에편의가존재하는것임 1 위약효과편의 (placebo effect) 2 실험자편의 (experimenter bias) 3 불응편의 (noncompliance bias) 4 표본이탈편의 (attrition bias) 5 선택편의 (selection bias) 요것이가장골칫거리! = 선택편의제거에강력한힘을발휘하는실험설계? RCT! 4/ 86
지난시간복습 무작위통제실험 (RCT): 처리변수를무작위로배정. 다시말해집단을무작위로두집단으로나눔 = RCT 가인과관계증명의 황금기준 그이유는? 5/ 86
지난시간복습 정책평가실례 : 공학교육의효과분석 분석변수 : 1. 결과변수 = Y is = 시험성적 { 1, 공학고등학교다님 2. 설명변수 = S is = 0, 비공학고등학교다님 분석전략 : Y is = β 0 + β 1 S is + ε is 6/ 86
지난시간복습 Y is = β 0 + β 1 S is + ε is 관심계수 = ˆβ 1 이 ˆβ 1 이순수하게공학교육의인과적효과만을반영? = No! Why? 7/ 86
지난시간복습 Y is = β 0 + β 1 S is + ε is 공학 / 비공학의인과적효과추정을위해사용하는접근방법 : 연구방법론 1 Y is = β 0 + β 1 S is + β 2 Xis 1 + β 3 Xis 2 + + ε is = 즉부모의소득수준 (Xis 1 ), 교육수준 (X2 is ) 등과같이관측가능한특성에대한통제실시! 관측가능한특성을통제하면관측불가능한특성도통제될까? = 회의적! 8/ 86
지난시간복습 Y is = β 0 + β 1 S is + ε is 공학 / 비공학의인과적효과추정을위해사용하는접근방법 : 연구방법론 2 RCT! = 학생이학교선택을못하게끔하고학생을공학혹은비공학고등학교에무작위로배정! 9/ 86
지난시간복습 RCT 방법을이용해공학 / 비공학의효과분석절차 : 10/ 86
지난시간복습 RCT 방법으로통계분석시추가적으로분석해야할점 : 1. 불응편의 (noncompliance bias) = 예, 공학에무작위로배정받은학생이공학에가지않음, 전학을가버림 개연성높은편의! 1 이런상황이발생하기가어려운점을피력 ( 예, 법이못하게함등 ) 2 무작위배정결과에대한정보있을시통계적으로검정 : 실제공학에다님 = β 0 + β 1 공학으로배정 + ε = ˆβ 1? 거의 1에가까운숫자로나와야하고통계적으로유의미해야함! 11/ 86
지난시간복습 RCT 방법으로통계분석시추가적으로분석해야할점 : 2. 표본이탈편의 (attrition bias) = 고 1 때무작위로학생을배정. 고 3 때수능성적분석하는데그기간동안퇴학등을해버림 충분히있는일! 1 표본이탈비율이높다고해서무조건문제가되나? = 공학과비공학간에이탈한학생의특성차이존재시에만문제! 2 이탈한학생의특성차이통계적으로검정 : X is = β 0 + β 1 공학에서이탈 + ε = ˆβ 1? 통계적으로유의미하지않아야함! 3 문제는대개이탈한학생에대한정보존재안함 = 최소한두집단간에이탈한학생의비율에차이없음을보여줘야함 = 공학에서이탈한학생과비공학에서이탈한학생간에특성차이가날 특별한이유 가없음을이론이나다른방법으로피력! 12/ 86
지난시간복습 RCT 를통해공학의인과적효과추정성공했다고가정 마지막으로고민을해야할것은과연연구자가추정한효과, 즉설명변수의효과가도대체무엇을의미하는지에대한판단! 추정한효과는 공학변수 의인과적효과 = 공학변수가의미하는바가무엇인가? 13/ 86
지난시간복습 무작위실험에서뿐만아니라어떤방법을쓰든통계분석의마지막절차는두집단간에결과변수값에차이를분석하는것! 단지차이가존재한다고해서그차이가처리변수때문이라고 100% 확신을갖고말할수없음. Why? = 이관측된차이가내가갖고있는표본에서만관측되었을수도있기때문! 그래서이표본에서관측된차이가처리변수때문에발생한것이라고설득력있게말하기위한방안이필요 = 추출설계 (sampling design) 와통계적추론 (statistical inference) 의영역! 14/ 86
추출설계 : 서론자발적응답표본확률표본표본조사의문제 : 서론 연구자는표본을분석해서모집단에대한결론을이끌어내고싶어함 표본을토대로도출한연구결과를모집단에일반화할수있을때그연구의가치가높을것 모집단은고정된집단이아님. 연구주제에따라다양한모집단존재 예 ) 자녀가없는기혼자에대한결론을내리는게목적이라면, 이자녀가없는기혼자가모집단이됨 예 ) 기혼자에대한결론을내리는게목적이라면, 자녀가있든없든상관없이모든기혼자가모집단이됨 15/ 86
추출설계 : 서론 추출설계 : 서론자발적응답표본확률표본표본조사의문제 연구자가도출한결론을모집단에일반화할수있기위해서는 : = 자신이선택한표본이모집단을잘대표해야함 어떻게하면모집단을잘대표할수있는표본을추출 (sampling) 할수있을까? 이에대한답을하기위해두가지표본에대해서공부 : 1. 자발적응답표본 (voluntary response sample) 2. 확률표본 (probability sample) 16/ 86
추출설계 : 서론자발적응답표본확률표본표본조사의문제 자발적응답표본 (Voluntary Response Sample) Definition 자발적응답표본 자발적응답표본이란사람들이자발적으로그표본구성에참여를해서구성된표본을말함 예 ) 온라인서베이같은것이전형적인자발적응답표본 17/ 86
추출설계 : 서론자발적응답표본확률표본표본조사의문제 자발적응답표본 (Voluntary Response Sample) 온라인서베이와같은자발적응답표본을분석해모집단에대한결론을내릴데큰한계점이존재 : = 자발적응답표본은선택편의의정도가상당히큰표본 = 달리말하면이온라인서베이를통해구성한표본자료는모집단을잘대표하지않을확률이굉장히큼. Why? 그이유는 : 1. 인터넷접근이가능한사람만이온라인서베이에참여를하기때문 2. 온라인서베이에굳이자발적으로참여를한사람은참여를하지않은사람과여러면에서굉장히다를소지가큼 18/ 86
추출설계 : 서론자발적응답표본확률표본표본조사의문제 자발적응답표본 (Voluntary Response Sample) 다시말하면, 사람들이온라인서베이에참여하는것을 스스로선택 했기때문에그러한사람들로구성된표본에는선택편의가존재한다는것 온라인서베이에참여한사람이참여하지않은사람과체계적으로다른특성을갖고있다면이렇게자발적으로구성된표본은모집단을대표하지않을확률이크기때문에이런표본을토대로도출한결론은틀렸을확률이큼 여기서알수있듯이 자기선택 (self-selection) 이인과관계도출에있어서원흉인것임 그럼어떻게선택편의가없는표본, 즉모집단을잘대표할수있는표본을구할수있을까? = 통계학자들이내놓은답은무작위! 19/ 86
확률표본 (Probability Sample) 추출설계 : 서론자발적응답표본확률표본표본조사의문제 표본을무작위로추출을하면 : = 연구자나응답자의가치판단이개입되지않기때문에모집단을잘대표하는표본을추출할확률이큼 무작위로표본을추출한다는것이무슨의미인지? = 모집단을구성하는개인이있을때각개인이뽑힐확률이모두동일한상태에서표본을추출한다는것 무작위방식으로추출한표본을확률표본이라고함 20/ 86
무작위표본 vs. 무작위배정 추출설계 : 서론자발적응답표본확률표본표본조사의문제 무작위 표본 이랑무작위 배정 은다른개념 21/ 86
추출설계 : 서론자발적응답표본확률표본표본조사의문제 확률표본 (Probability Sample) 확률표본 (Probability Sample) Definition 확률표본이란확률의법칙혹은우연 (chance) 를이용해추출한표본을말함 확률표본의대표적인예 : 1. 단순무작위표본 (simple random sample, SRS) 2. 층화무작위표본 (stratified random sample, SRS2) 22/ 86
추출설계 : 서론자발적응답표본확률표본표본조사의문제 단순무작위표본 (SRS) N 개의모집단으로부터 n 개의표본을추출한다고하고할때 Definition 다음과같은원칙을토대로추출한표본을단순무작위표본이라고함 : 1) 어떤표본이뽑힐확률은어떤조합의표본이든모두동일 2) 어떤한관측치를뽑았을때그사실이다른관측치가뽑힐확률에영향을끼치지않음 23/ 86
단순무작위표본 (SRS) 추출설계 : 서론자발적응답표본확률표본표본조사의문제 모집단에서 SRS 를추출하면그 SRS 가모집단을잘대표할확률이다른그어떤표본보다도큼 물론때로는 SRS 도모집단을잘대표하지않는상황을초래하기도함 = 특히모집단이굉장히클때 예를들어관심모집단이우리나라전체국민이고이모집단에서천명의 SRS 를뽑는다고가정 물론 SRS 를통해뽑으면모집단을구성하고있는각개인이뽑힐확률이동일하지만그렇다고해서이천명의 SRS 가모집단을잘대표한다는보장은없음 = 우리나라모든국민의모집단특성은굉장히다양!! 24/ 86
층화무작위표본 (SRS2) 추출설계 : 서론자발적응답표본확률표본표본조사의문제 이런경우를대비해대개모집단을층화해서표본을추출함 층화무작위표본이란모집단을잘대변할수있도록모집단을어떤기준으로층화해서 ( 나눠서 ) 그층화내에서무작위로표본을추출한표본을말함 25/ 86
층화무작위표본 (SRS2) 추출설계 : 서론자발적응답표본확률표본표본조사의문제 26/ 86
다른확률표본 추출설계 : 서론자발적응답표본확률표본표본조사의문제 다른종류의확률표본 : 예 ) 체계적표본, 클러스터표본, 다단계표본, etc. 확률표본결론 : 1. 어떤종류의표본이든 무작위 라는아이디어활용 2. 무작위표본추출은조사설계의근원이고추후에배우게되는통계적추론또한이추출설계에기반해서이루어짐 모든확률표본의공통적인목표 : = 모집단을잘대변하는표본을추출하는것! 27/ 86
표본조사의문제 추출설계 : 서론자발적응답표본확률표본표본조사의문제 표본을무작위로추출하면선택편의가제거되어모집단을잘대표는표본을추출했을확률이큼 잘대표할확률이크다고해서잘대표한다는보장없음 무작위로표본을추출해도결과적으로잘대표하지못하게만드는시나리오 : 1. 과소포함 (undercoverage) 2. 비응답 (nonresponse) 3. 응답편의 (response bias) 28/ 86
과소포함 (undercoverage) 추출설계 : 서론자발적응답표본확률표본표본조사의문제 모집단을잘대표하는표본을추출하기위해서는모집단에대한정확한그리고완전한정보가있어야함 하지만모집단에대한확실한정보가대개존재하지않음 = 그래서결국대부분의표본은어느정도과소포함의문제가있음 패널조사는대개표본가구조사. 가구단위로표본추출을하기때문에다음과같은사람을놓치게됨 : 1. 노숙자 2. 병원이나교도소의피수용자 3. 학교기숙사에살고있는학생 4. etc. 29/ 86
과소포함 (undercoverage) 추출설계 : 서론자발적응답표본확률표본표본조사의문제 이러한과소포함의문제는여론조사에서특히두드러짐 여론조사는대개전화를이용해수행 = 이런여론조사에는휴대폰이없는사람, 집에전화가없는사람이포함되어있지않음 대개대선혹은국회의원선거여론조사실제결과값과다른경우많음 국가에서실시하는표본조사이과소포함문제때문에대표성많이떨어짐 30/ 86
비응답 (nonresponse) 추출설계 : 서론자발적응답표본확률표본표본조사의문제 표본조사의또다른심각한문제는비응답관련한문제 비응답이발생하게되는두개의시나리오 : 1. 표본에포함되어있는개인이연락이안되는경우 2. 응답을거부하는경우 이비응답은상당히큰문제!! 이개인 ( 무작위로뽑힌개인 ) 이표본에포함되어있는이유는이사람이모집단의일정부분을반영하기때문 = 그런데이사람이비응답을하게되면편의를발생시키게됨 31/ 86
응답편의 (response bias) 추출설계 : 서론자발적응답표본확률표본표본조사의문제 표본을구성하고있는개인을인터뷰등으로조사할때, 때로는응답자가진실된정보를제공안하기도함 거짓말을하는응답자도있을것임 예 ) 낙태와같은사안에대해서조사를한자료는대개실제정보를반영하지않는다고함 = 어린여성일수록전혀모르는사람앞에서그런경험을얘기하지는않을것임 32/ 86
응답편의 (response bias) 추출설계 : 서론자발적응답표본확률표본표본조사의문제 예 ) 사람들은대개과거의일에대해서잘기억을못함 = 1 년전에영화를보고그이후에는한번도본적이없음에도불구하고 지난 6 개월동안영화를본적이있나요? 라는문항에 예 라고답을하곤함 예 ) 설문문항의표현법에의해서도응답편의가생기기도함 = 약 10% 정도의사람들만 가난한사람들에게 정부가너무많은지출을하고있다고생각함 = 약 40% 정도의사람들은복지에정부가너무많은지출을하고있다고생각함 33/ 86
표본조사소결 추출설계 : 서론자발적응답표본확률표본표본조사의문제 자신이사용하고있는표본의타당성에대해서항상위와같은문제점에대해서많은고민을해야함 미디어나조사센터에서발표하는여론조사를보면비응답률이얼마나되는지대개밝히지않음 여론조사를토대로연구를수행시, 반드시어떤문항을사용했는지, 비응답율은얼마나되는지, 그리고어떤표본조사설계를사용했는지공부를한후에본격적인연구를하길권함 34/ 86
복습문제 추출설계 : 서론자발적응답표본확률표본표본조사의문제 밑의사례에서표본추출과정에무슨문제가있고또있다면어떻게개선을할것인지말하시오 1. 학생들이얼마나단어를암기했는지알아보기위해사전의첫 10 페이지에나와있는단어를대상으로시험을치름 = 첫 10 페이지는무작위가아님. 무작위로페이지수를결정 2. 부연구위원의강의평가를알아보기위해강의시간에선착순으로온 5 명의수강생을대상으로강의평가서걷어감 = 강의시간에일찍온수강생을선택하는것은무작위가아님. 짝수번째로들어온수강생을선택 35/ 86
복습문제 추출설계 : 서론자발적응답표본확률표본표본조사의문제 3. 모집단에있는개인을가나다라순서대로정렬하고처음 10명을선택 = 가나다라순서는무작위가아님 = 예 ) 가나다라순서대로뽑으면형제자매가함께뽑힐수있음 = 예 ) 미국같은경우어떤인종의경우특정성에집중되어있음 36/ 86
복습문제 추출설계 : 서론자발적응답표본확률표본표본조사의문제 보사연은세종시에존재하는식당을대상으로설문조사를함. 전화번호부에서 160 개의식당을무작위로선택해서질문지를보내고그중 72 개의질문지회수성공함 1. 이표본조사에서모집단은? = 전화번호부에등록되어있는모든식당 2. 분석표본은? = 질문지를보내온 72 개식당 3. 160 개식당은그럼무엇인가? = 모집단에서추출한단순무작위표본 (SRS) 4. 이분석표본의문제점은? = 비응답의비율이굉장히높아서 (88/160 = 55%), 분석표본이모집단을대표하지않을확률이큼 37/ 86
복습문제 추출설계 : 서론자발적응답표본확률표본표본조사의문제 표본조사에포함되어있는다음과같은문항에대해사 i) 질문이명확한지 ii) 질문이특정한응답이나오게끔편향되어있지는않은지에대해서판단을하기바람 1. 휴대전화를이용하는일부의사람들은뇌암에걸렸습니다. 휴대전화를이용하면위험할수도있다는경고사인을모든휴대전화에표기해야한다는데에동의하십니까? = 질문이명확하지않음 : 휴대전화 이용자 가무엇인가? 경고사인을어떻게표기할것인가? = 특정한응답이나오게끔편향되어있음 : 왜냐하면 휴대전화를이용하는일부의사람들은뇌암에걸렸습니다 라고하면서근거를제시하고있지않음 38/ 86
복습문제 추출설계 : 서론자발적응답표본확률표본표본조사의문제 2. 보육기관을공립화하면모든아이들이그혜택을받을수있고또규제비용도덜들기때문에보육기관을국가가관리해야한다는것에찬성하십니까? = 질문이명확하지않음 : 보육기관을공립화하는것이무엇인가? = 특정한응답이나오게끔편향되어있음 : 보육기관을공립화하면모든아이들이혜택을볼수있다고어떻게장담을하는가? = 공립보육기관의장점만나열하고있음. 단점에대해서는언급을안하고있음 39/ 86
복습문제 추출설계 : 서론자발적응답표본확률표본표본조사의문제 3. 환경오염과자원고갈문제가심각해지고있기때문에자원을많이활용하는소비재를재활용하는기업에게경제적유인을제공하는것에찬성하십니까? = 질문이명확하지않음 : 어떤경제적유인? 어떤환경오염? = 재활용하는기업에게경제적유인을제공할때장점과단점이있는데이에대해서는전혀얘기를안함 = 좀더바람직한문항 : 환경자원을절약하기위해재활용을한기업이만든상품에좀더가격을지불할용의가있습니까? 40/ 86
통계적추론 : 서론 연구자는표본을통해모집단에대한결론을내리는사람 모집단에대한올바른결론을내리기위해서는, 사용하고있는표본이모집단을잘대표하는표본이어야함 표본이모집단을잘대변하는표본인지아닌지를어떻게판단? 자신이사용하고있는표본이모집단을잘대변하는지안하는지는모집단을보면알수있음 = 순환논법의오류! 우리는모집단을모르니까이렇게표본을이용해서연구를하고있는것임! 41/ 86
통계적추론 : 서론 그래서추출설계에서표본이모집단을잘대표하는지안하는지알려고하지말고차라리이표본이어떻게추출이되었는지를봐야한다고강조 왜냐하면무작위로표본을추출했을때그표본이모집단을잘대표할확률이크기때문 표본을무작위로추출해서이표본이모집단을대표한다고가정 : = 표본을토대로도출한결론이실제로모집단에대한진실과일치한다고어떻게판단할수있을까? 통계학의논리가가장극단적으로발현되는 통계적추론 (statistical inference) 이판단하게해줌!! 42/ 86
통계적추론 : 예시 통계적추론의기본적인아이디어 : 1. 한여론조사기관이두대선후보 (A 와 B) 에대한선호도를무작위로뽑은 2,500 명을대상으로조사. 조사결과응답자 2,500 명중에 66% 의사람이 A 후보를지지하였다는것을알수있었음 2. 중요! 이여론조사결과는표본을구성하고있는 2,500 명에대한진실. 모집단에대한진실이아님 3. 하지만이 2,500 명이모집단을상당히잘대표할것이라고믿을만한 합리적인 이유가존재. Why? 2,500 명을무작위로추출했기때문에 4. 이여론조사기관은표본의 66% 의사람이 A 후보를지지한다는 사실 (fact) 을토대로우리나라전체유권자의 66% 가 A 후보를지지한다고 추정 (estimate) 하는것임 = 이게바로통계적추론의기본적인아이디어. 즉통계적추론이란표본을토대로도출한사실을갖고모집단에대한결론을내리는과정을말하는것 43/ 86
모수와통계량 통계적추론의기초를올바로이해하기위해서는두통계용어에대한이해요망 : 1. 모수 (parameter) 2. 통계량 (statistic) 44/ 86
모수와통계량 모수 (Parameter) Definition 모수는모집단을기술하는숫자 모수는상수임. 다시말해변수가아님. 변하지않는진실 대개우리는이모수가무엇인지알지못함 45/ 86
모수와통계량 Definition 통계량은표본을기술하는숫자 통계량 (Statistic) 표본이있다면통계량의구체적인값을알수있음 통계량은상수인가? No! = 어떤표본을갖고있느냐에따라이통계량의값은달라짐! 연구자는자신이갖고있는표본의통계량을계산한후, 이통계량을이용해모수의값 ( 즉모집단을기술하는숫자 ) 을추정 46/ 86
모수와통계량 여론조사기관이두대선후보 (A 와 B) 에대한선호도를무작위로뽑은 2,500 명을대상으로조사함. 조사결과응답자 2,500 명중에 66% 의사람이 A 후보를지지 1. 이예에서모수는? = A 후보를지지하는우리나라유권자의비율 2. 통계량은? = 66%. = 만약다른표본을추출했다면 66% 가아닌다른숫자가통계량이될것임 어떤표본을추출했냐에따라다른통계량이나온다는사실 : 추출변이! 47/ 86
우리나라여성을모집단으로하고이모집단에서 100 명의여성을무작위로추출 (sampling) 한다고하겠음 이 100 명은표본. 이 100 명의표본을대상으로신장을재고표본의신장평균을구했을때, 그때의평균을 x 1 라고하겠음 = 즉첫번째표본의신장평균 = x 1 이동일한모집단에서 100 명의여성을또무작위로추출하고이두번째표본을토대로신장의평균을계산했을때, 그때의평균은 x 2 질문 : 밑의결과중어떤것이가능성이가장높을까? (A) x 1 = x 2 (B) x 1 > x 2 (C) x 1 < x 2 (D) x 1 x 2 48/ 86
가능성이높은것은 x 1 x 2! 이와같이표본간에존재하는통계량 ( x 1 과 x 2 는통계량!) 의변동폭혹은변이 (variability) 를추출변이라고함 추출변이는항상존재. 표본을무작위로추출해도발생 질문 : 이추출변이가존재하는게연구자의입장에서는안좋을까? = 답 : 추출변이의크기가얼마나크냐에따라다름 49/ 86
모집단에서표본을무작위로추출하면표본의편의가제거됨 = 즉, 다른형태의표본보다무작위표본이모집단을가장잘대표할확률이큼 무작위표본 = 모집단잘대표 = 통계량 = 모수 = Why? 추출변이때문에!! 같은모집단에서여러번표본을반복해서추출할때추출변이가크면, 어떤 하나의 표본을토대로계산한통계량을신뢰할수있을까? = No! 50/ 86
극단적인반대의경우의예 추출변이가전혀없다고가정 이것이의미하는바는? = x 1 = x 2 = x 3 = x 4 = x 5 = 만약위와같이추출변이가없는상황이라면어떤 한개의 표본을토대로계산한통계량이모집단모수와비슷하다고결론을내릴수있는그런확신이들것임 51/ 86
연구자입장에서는추출변이가적은상황이좋음 하지만그렇다고추출변이가존재한다고해서인생이끝은아님 그이유는이러한추출변이에어떤특정한패턴같은것이존재해서연구자가예측을할수있기때문 이렇게추출변이에어떤예측가능한패턴이생기게되는경우는표본을무작위로추출했기때문!! 다시말해, 같은모집단에서크기가동일한무작위표본을무수히많이추출을하면, 이표본간에존재하는어떤변이가예측가능한패턴을따르게된다는것임 52/ 86
이렇게변이가예측가능한패턴을따르면어떤 하나의 표본을토대로계산한통계량을갖고모집단모수를추정한다고했을때그통계량에대해서얼마나신뢰할수있는지에대한판단을할수있음 어떻게? 구체적인방법은다음에 ( 곧 ) 다룰것임 이시점에서명심할것은 추출변이가존재한다고해서인생의끝은아니다 라는사실 53/ 86
추출변이의존재와그런변이에패턴이존재함을예로설명 설정 : 1. 모집단은우리나라모든남성. 모집단크기 (N) 를 2 천만명이라고가정 2. 관심모수 : 평균체중 (µ). = 우리나라모든남성의체중을조사할수없음 3. 그래서모집단에서무작위로표본을추출한후이표본을토대로모수 µ 에대한추정 4. 이해를돕기위해, µ = 83kg 라고가정 = 이상태에서무작위표본추출을하게되면추출변이와관련해서어떤그림이그려질까? 54/ 86
55/ 86
위와같은밀도곡선혹은분포를통계량 x 의추출분포 (sampling distribution) 라고함 56/ 86
Definition 통계량의추출분포란동일한모집단에서같은크기의표본을여러번반복해서추출했을때, 각각의표본의통계량의분포를나타냄 57/ 86
위추출분포는한개표본의크기 (n) 를몇명으로했을때만들어진분포? n = 200! 만약 n = 2, 000으로하고표본을여러번추출하면추출분포는어떻게될까? 58/ 86
위추출분포는한개표본의크기가 2,000 명일때만들어지는추출분포 n = 200 vs. n = 2, 000? 59/ 86
60/ 86
분포의모양 : 분포의모양은정규분포와유사!! 61/ 86
분포의중앙 : 두경우모두, 통계량 x 의값들은표본별로다름. 하지만대부분의통계량들은모집단모수인 83 kg 주변에몰려있음 1. 어떤표본의 x 는 83보다작고어떤건 84보다큼 2. 그러나!! 그렇다고 83이랑굉장히차이가나거나그러지는않음 3. 표본의크기에상관없이두그래프에서다그런패턴을보임 4. 표본크기를 200명으로했을때, 100개의통계량의평균은 83.6kg 5. 표본크기를 2,000명으로했을때, 100개의통계량의평균은 82.9kg 62/ 86
분포의산포도 : 표본크기를 2,000 명으로설정하고표본을반복해서추출했을때생성되는통계량 x 의추출분포의변이 ( 오른쪽 ) 가표본크기를 200 명으로설정했을때생성되는추출분포의변이 ( 왼쪽 ) 에비해훨씬작음 63/ 86
한개표본을추출할때크기를더크게하면할수록추출분포의변이는작아짐!! 극단적인사례를생각해보면쉽게이해가됨 : 1. 모집단이 20,000,000 명이였음 2. 한개표본의크기를 1,000,000 명으로설정후모집단에서무작위로추출 3. 1,000,000 명의표본을 100 번반복해서추출 64/ 86
1. 이번에는 19,999,900 명을표본크기로하고무작위로 100 번추출 65/ 86
한개표본의크기가크면클수록, 표본통계량들의추출분포는모집단모수값을주변으로더오밀조밀모여있게됨 추출분포논의의결론 : 1. 모양 : 정규분포 2. 중앙 : 각각의통계량의값은표본에따라다른값을갖지만대부분의통계량들은모집단모수의주변에위치해있음 3. 변이 ( 산포도 ): 한개표본의크기가클수록추출분포의변이작아짐 위결론은모집단에서표본을무작위로추출할때만성립 = 위결론이성립하게되는이유는중심극한정리 (central limit theorem) 때문!!! 66/ 86
위예를통해확실히알수있는두가지사실 : 1. 표본크기가 1,000,000 명이면어떤표본을내가갖고있든대개그표본의통계량 ( x) 이모집단모수 (µ) 와일치할확률이굉장히큼 2. 표본의크기가 200 명이면내가갖고있는표본의통계량 ( x) 이모집단모수 (µ) 와일치할확률이조금은낮을것임 위두가지사실에대해서차분히생각을해보면편의 (bias) 의개념을더정확히이해할수있음 그리고변이 (variability) 또한굉장히중요한개념이라는것을알수있음 67/ 86
편의 (Bias) 비편의추정량 (Unbiased Estimator) Definition 편의란추출분포의중앙과관련이깊은개념. 어떤모집단모수 ( 예, µ) 를추정하기위해사용되는통계량 ( 예, x) 의추출분포의중앙값 ( 다시말해통계량들의평균 ) 이모집단모수와일치할때그통계량을비편의추정량이라고함 수학적으로 x 들의평균 = µ 일때우리는이통계량 x 를 µ 의비편의추정량 (unbiased estimator) 라고함 68/ 86
편의 (Bias) 위예에서통계량 x 들의평균이 µ 와정확히일치하지는않음하지만위에서는표본을 100번밖에추출하지않았음만약표본을 10,000번반복해서추출했다고가정하면 = 그러면통계량 x 들의평균이 µ 와일치할것임따라서통계량 x 는모수 µ 의비편의추정량이라고함 69/ 86
변이 (Variability) 이번에는통계량의변이에대해서공부 통계량의변이는통계량의추출분포의산포도를일컫는것 통계량의변이는두가지에의해결정됨 : 1. 표본추출설계방식 2. 한개표본의크기, 즉 n 70/ 86
변이 (Variability) 모집단에서표본을무작위로추출하면표본이모집단을잘대표할확률이크기때문에어떤표본을뽑던모집단과비슷한통계량을도출할수있을것. 따라서무작위로표본추출시추출분포의변이는작아짐 또한추출분포의변이는표본의크기 (n) 가크면클수록작아짐을배웠음 추출분포의변이를수치로측정하는지표존재 : 표준오차 (standard error)!! Definition 표준오차 (standard error) 표준오차 (standard error) 란추출분포의표준편차를말함 71/ 86
: 예시 그림에있는까만점들을표본통계량 ( x) 으로그리고과녁의정중앙을모집단의모수값이라고생각하면됨 사격수가총을여러번쐈을때어떤식으로과녁에명중을했는지를보면편의와변이를좀더쉽게이해할수있음 여러번총을쏘는행위를표본을여러번추출하는행위라고생각하면됨. 여러번총을쏜행위가표본의크기를크게했다는뜻이아님 72/ 86
: 예시 편의란총알이정중앙에서벗어나서맞았다는것을의미 그리고정중앙에안맞고총알이계속해서같은방향으로빗나간다는것을의미 다시말해표본통계량 ( 총알 ) 이모집단모수 ( 정중앙 ) 에위치하지않는다는것을의미 73/ 86
: 예시 변이가크다는것은총알이명중한위치가과녁여러군데에넓게퍼져있는상태를말함 74/ 86
: 예시 과녁을보면변이가작은상태에서도편의는클수있음 ( 경우 1) 변이가크면서도편의가클수도있음 ( 경우 2) 75/ 86
: 예시 우리가어떤모집단의모수를추정한다고했을때그럼어떤경우가가장바람직할까? 정답은바로경우 4!! 경우 4와같이총을쏠수있는사격수가좋은사격수이듯이우리가사용하는통계량과추출방식도경우 4와같은결과를가져다줘야함 : 1. 편의가小 2. 변이가小 76/ 86
그럼경우 4 와같은바람직한상황은어떻게달성할수있을까? 답 : 1. 편의를줄이려면표본을무작위로추출해야함 = 모집단으로부터표본을무작위로추출하면어떤표본이든대개통계량 ( 예를들어 x) 의값들이모수와크게다르게나타나지않을것 2. 변이를줄이려면표본수 (n) 를늘려야함 = 여러번표본을추출해야한다는뜻이아님. 한번표본추출할때의표본크기를늘려야한다는뜻 77/ 86
물론우리는연구를할때단한개의표본만을갖고모집단모수를추정함우리가갖고있는표본이모집단과얼마나일치하는지우리는결코알수없음 : 모집단의진실을모르기때문하지만표본크기가매우큰무작위표본의통계량은모집단모수와일치할확률이굉장히높을것임 오른쪽상태라면내가어떤표본을갖고있더라도모집단모수를올바로추정할수있을확률이큼 78/ 86
지금까지표본의크기 (n) 는통계량의변이즉추출분포의표준편차에영향을미침을배움 그러면모집단의크기 (N) 는? 모집단의크기가크면통계량의변이도클까? 정답 : no! 표본을추출할때모집단 10,000 명에서한명을추출하던 10,000,000 에서한명을추출하던상관이없음 79/ 86
그림과같이아이스크림이가득담겨있는용기에서일정량의아이스크림을푸는상황을상상 : 용기안에들어있는아이스크림이모집단 아이스크림용기안에들어있는초콜릿의무게를모수라고가정 = 용기전체에서초콜릿의무게가얼마나되는지를추정하고자함 표본한개를뽑아서그표본에들어있는초콜릿의무게를재기로결정 = 이예에서표본을추출한다는것은그림과같이숟가락으로아이스크림을한웅큼퍼내는행위와같음 80/ 86
용기에서아이스크림을퍼낼때이숟가락 ( 혹은퍼내는사람 ) 은그퍼내는지점에초콜릿이많이들어있는지모름 초콜릿이용기안에골고루퍼져있다는가정하에아이스크림을푸면마치표본을무작위로추출하는것과같음 그렇다고한다면아이스크림을떴을때그숟가락안에들어있는초콜릿의무게는오직그숟가락의크기 ( 즉표본의크기, n) 에만양향을받지, 용기의크기 ( 즉모집단의크기, N) 에는영향을받지않음 = 즉통계량의변이는모집단크기에영향을받지않음!! 81/ 86
복습문제 적은수의표본보다큰수의표본이항상좋음. 진실 or 거짓? = 항상그렇지는않음! 표본수를크게잡으면그만큼에러도많아짐 ( 전수조사의비용 ) = 하지만표본수가크면추출분포의변이를줄여줌!! 추출분포는컴퓨터시뮬레이션으로만만들어지는것임. 진실 or 거짓? = 물론추출분포를컴퓨터로시뮬레이션해서만들수도있지만기본적으로추출분포는표본을반복해서추출하는과정에서만들어지는것임 82/ 86
복습문제 각각의히스토그램은모집단추정을위해사용할통계량의추출분포를나타냄. 각각의추출분포의특성을편의 ( 大혹은小 ) 와변이 ( 大혹은小 ) 의기준을이용해설명하시오 = 편의大그리고변이大 83/ 86
복습문제 = 편의小그리고변이小 84/ 86
복습문제 = 편의小그리고변이大 85/ 86
복습문제 = 편의大그리고변이小 86/ 86