제 6 장표본추출방법 전광희교수 jkh96@cnu.ac.kr
학습목표 본장에서는표본조사의장단점을보고, 기본용어와그개념을이해하며, 특히확률추출법과비확률추출법의장단점을보고이들확률추출법의기본원리를파악한다. 또표본오차의영향에영향을미치는요인들이무엇인가를살펴보고, 표본크기의결정에영향을미치는요인들을살펴본다. 주요용어 : 전수조사, 표본조사, 기본단위, 모집단, 추출단위, 추출단위, 추출틀, 표본추출틀, 모수, 통계량, 확률추출법, 단순임의추출법, 계통추출법, 층화임의추출법, 집락추출법, 무작위전화걸기법, 비확률추출법, 간편추출법, 판단추출법, 할당추출법, 눈덩이추출법, 표본오차 2016-12-09 제 6 장표본추출방법 2
학습목표 표본조사의개요확률추출법비확률추출법단순임의표본에대한표본오차의계산표본크기의결정 2016-12-09 제 6 장표본추출방법 3
표본추출과정의도표화 1. 관심모집단의정의 2. 표본추출프레임, 조사항목의특정화 3. 표본추출프레임에서특정항목또는사건을선정하기위한 ( 표본 ) 추출방법의특정화 4. 표본크기의결정 5. 표본추출의실행 6. 표본추출및자료수집 2016-12-09 제 6 장표본추출방법 4
2016-12-09 제 6 장표본추출방법 5
1. 표본조사의개요 전수조사 (census, complete enumeration survey) - 관심의대상이되는집단내의모든단위들을조사하는방법예 ) 인구주택총조사 - 인력 (manpower) 과예산 (budget) 비교적많이소요 - 현실적으로집단내모든단위를조사하는것은불가능한경우가많기때문에, 대부분의통계조사는표본조사에의해이루어짐 2016-12-09 제 6 장표본추출방법 6
1. 표본조사의개요 표본조사 (sample survey) - 관심의대상이되는전체에서일부의부분집단을선택한후, 그일부집단에대해서조사한자료를분석하여전체집단의특성을추정하는통계조사방법 - 장점 전수조사에비해비용절감 조사결과의신속성 조사규모가크지않기때문에심도있는조사가능 관리가비교적잘되어정확성이높음 2016-12-09 제 6 장표본추출방법 7
1. 표본조사의개요 표본조사의한계 - 표본은전체모집단의대표성 (representation) 을가져야한다. - 표본을조사하여얻은결과는단지표본이추출되는추출틀에대해서일반화할수있다. - 표본조사를통해서모집단의세부적인특성을알기는어렵다. 반대로, 표본조사의결과를가지고전체대상중희소한하부집단의특성까지알기는어렵다. 2016-12-09 제 6 장표본추출방법 8
1. 표본조사의개요 기본단위 필요한정보를얻기위해조사를할때조사의대상이되는가장최소의요소 = 단위 (unit), 조사단위 (observation unit) 2016-12-09 모집단 관심의대상인모든기본단위들의집합 - 목표모집단 : 관심의대상이되는모든기본단위들의집합 - 연구모집단 : 현실적으로조사가능하고추출틀을작성할수있는추출단위만을모아서만든모집단 제 6 장표본추출방법 9
1. 표본조사의개요 추출단위 - 모집단에서표본을추출하기위해설정한기본단위들의집합 - 추출단위는하나의기본단위또는여러개의기본단위로구성 - 추출단위는중복또는누락되어서는안됨 추출틀 표본이실제로추출되는추출단위의목록 표본추출율 모집단에서표본이선택된비율 2016-12-09 제 6 장표본추출방법 10
1. 표본조사의개요 모수 - 관심을갖고있는조사변수에대한모집단전체의특성치 (parameter) - 대표적모수모비율 ( 찬성률, 지지율 ), 모평균 ( 평균소득, 평균신장 ), 모총계 ( 우리나라전체경지면적. 총사교육비 ) 등 통계량 - 표본을조사하여얻은데이터를가지고모수를추정하기위해만든공식 (statistic) - 표본추출변동표본을뽑을때마다통계량의값이달라지는것을일컬음 2016-12-09 제 6 장표본추출방법 11
1. 표본조사의개요 2016-12-09 제 6 장표본추출방법 12
1. 표본조사의개요 표본 - 모집단을대표하여추출틀로부터뽑혀진추출단위들의집합 - 모집단을효과적으로잘나타내는올바른표본을선택해야함 표본추출과정에서고려할점 - 표본추출의대상 ( 모집단 ) 은무엇인가? - 어떻게표본을추출할것인가? - 표본의크기는얼마로할것인가? - 조사된표본자료는어떻게분석할것인가? 2016-12-09 제 6 장표본추출방법 13
2016-12-09 제 6 장표본추출방법 14
2. 확률추출법 (probability sampling) 정의 : 모집단에속하는모든추출단위에대해사전에일정한추출확률이주어지는표본추출법 모든표본들의추출확률을사전에알수있음 표본자료로부터얻어지는추정량의통계적정확도를확률적으로나타낼수있음. 대표적인확률추출방법 : 단순임의추출법, 계통추출법, 층화임의추출법, 집락추출법, 다단계추출법 2016-12-09 제 6 장표본추출방법 15
2. 확률추출법 통계조사에알맞은표본추출법결정 - 존재하는리스트가없고, 새로작성함이불가능할경우다른방안으로 지역표본추출법 (area sampling): 전체조사지역을작은소지역으로구분하여소지역을추출단위로하는표본추출법. 연구목적에적합한목표모집단엄밀히설정 목표집단의리스트 = 추출틀구하거나작성 ( 전화번호부, 회원명부, 카드회원명부, 유권자명부등 ) 실제표본추출 - 조사대상지역이작은경우 : 단순임의추출법, 계통추출법적용 - 모집단의규모가크거나조사대상지역이넓을경우 : 복잡한표본추출법적용 2016-12-09 제 6 장표본추출방법 16
2. 확률추출법 (1) 단순임의추출법 (simple random sampling) 통계조사에서가장기본이되는표본추출법 다른여러확률추출법들의기초 단순임의추출법을사용하기위해서는, 먼저모든단위들의목록인추출틀이마련되어있어야함추출틀을통해모집단내조사단위수 (N) 를파악한다음, 원하는표본수 (n) 만큼의난수를발생시키고, 그수에해당되는조사단위를표본으로선택하면된다. 2016-12-09 제 6 장표본추출방법 17
2. 확률추출법 난수 (random number) : 고려대상이되는모든숫자들의추출확률이같아지도록한상태에서무작위로뽑은수 단순임의추출법은모집단에대한사전지식이많지않을때추출틀만마련되면적용할수있는간편한방법 같은표본크기인경우에층화임의추출법 (stratified random sampling) 보다추정의정확도가떨어짐 2016-12-09 제 6 장표본추출방법 18
2. 확률추출법 예제 1) 학생수가 N = 1,000 명인어느학교에서학생들을대상으로사교육현황을조사하기위하여그중 n = 30 명의단순임의표본을선택하는경우를생각해보자 먼저, 1,000 명의학생에게 001, 002,., 999, 000 의고유번호를지정 난수표에서출발점결정 세자리숫자를읽어고유번호가이숫자에해당하는학생을표본으로선정 만약, 똑같은난수가여러번발생하게되면나중에생긴수는무시하고난수를발생시키면됨 2016-12-09 제 6 장표본추출방법 19
2. 확률추출법 (2) 계통추출법 (systematic sampling) 추출틀 (sampling frame) 에서처음의 k 개단위들중에서무작위로하나의단위를추출하고, 그이후매 k 번째간격마다하나씩의단위를표본으로추출하는표본추출방법을 1/k 계통추출법이라고함. K 를추출간격 (sampling interval) 이라하고, 계통추출법에의해뽑히는표본의크기는전체모집단의크기가 N 인경우에 n=n/k 이다. 2016-12-09 제 6 장표본추출방법 20
계통추출법 2016-12-09 제 6 장표본추출방법 21
2. 확률추출법 장점 1. 표본의추출이간편 ( 실제표본조사에서선택오차자주발생 ) 2. 단순임의추출법의대용으로사용가능 3. 표본이모집단전체를잘반영 단점 1. 표본자료에서추정량의분산을계산하기위해서는추출틀에대한추가적인가정필요 ( 대개모집단은랜덤하게배열되어있다고가정 ) 2. 계통표본은추출틀의형태에따라그정도에차이가큼특히추출틀이주기성을갖는경우는계통추출법의사용을피해야함 2016-12-09 제 6 장표본추출방법 22
2. 확률추출법 (3) 층화임의추출법 (stratified random sampling) 모집단을서로겹치지않는여러개의층으로분할한후각층에서배정된표본을단순임의추출법에따라추출하는방법 모집단을서로겹치지않는몇개의집단으로나누어야함. 이렇게구성집단을층 (stratum) 이라고함 ( 층 : 관심을갖고있는집단, 각집단내에있는추출단위들이유사하도록구성 ) 2016-12-09 제 6 장표본추출방법 23
2. 확률추출법 예제 2 어느대학교에서학교측이제공하는서비스에대한학생들의만족도를조사하려고한다. 이조사를통해서전체학생의서비스만족도뿐만아니라성별, 학년별, 전공별 ( 인문계열, 이공계열, 예체능계열 ) 로학생들이느끼는만족도를함께알아보고자한다. 전체학생의정보뿐아니라, 각집단구분정보도요구 : 층화임의추출법적용 고려할수있는층 : 성별 (2) x 학년 (4) x 전공 (3) = 24 개 각층에표본을배분하고, 각층에서배분된표본을단순임의추출법에의해서추출 단순임의추출법적용을위해각층별추출틀마련 : 학생들의등록명부를이용 24 개층구분에따라 2016-12-09 제 6 장표본추출방법 24
2. 확률추출법 계획적으로어떤층에표본을많이배정할수있음 각층의표본추출률이다른경우에모집단전체에대한통계치는각층의추출률을고려해서추정 층화임의추출법적용이유 - 각집단별통계작성을목적으로 - 모집단전체에대한특성치의효율적인추정위해 층화변수 (stratification variable) : 모집단의각추출단위가어느층에속하는지를구분하기위해서사용되는변수 2016-12-09 제 6 장표본추출방법 25
2. 확률추출법 층화임의추출법 실제표본설계에서널리이용되는이유 1 모집단을효과적으로층화할경우층화임의표본에서구한추정량보다오차가적게되어추정의정도를높일수있음. - 층내부에서단위특성치들이동질적일수록단순임의추출법에비해효과적 2 전체모집단에대한추정뿐만아니라각층별추정결과도얻을수있음 3 조사관리보다편리하며조사비용절감할수있음 2016-12-09 제 6 장표본추출방법 26
2. 확률추출법 (4) 집락추출법 모집단을서로인접한기본단위들로묶어집락을구성하여먼저집락을추출하고, 추출된집락내의일부또는전체를조사하는방법 추출단위 : 하나이상의기본단위들로구성된집락 (cluster) 표본으로추출된집락내의조사단위에대한리스트만필요 2016-12-09 제 6 장표본추출방법 27
2. 확률추출법 (4) 집락추출법 장점 1. 모집단에대한추출틀마련이곤란한경우표본추출이편리 2. 정부통계나센서스등을통해서얻어진자료를이용할수있기때문에효율적인추정가능 3. 조사단위들이인접한지역으로묶여있어서조사가편리하고비용도줄일수있음 단점 표본크기가같은경우단순임의추출법에비해표본오차가커짐 2016-12-09 제 6 장표본추출방법 28
2. 확률추출법 (4) 집락추출법 같은집락내의기본단위들은서로가깝게위치하거나같은외부환경을공유하여서로밀접한관련이있음 집락내의관찰값들사이상관관계가상당히커서, 같은집락내에서는조사대상을늘려도모수에대한정보의양이많이증가하지는않을수있다. 이러한경우에는표본으로추출되는집락의수를늘리고, 집락내의조사대상을줄이는 2 단계집락추출방법 (two-stage cluster sampling) 또는다단추출방법 (multi-stage sampling) 을적용할수있다. 2016-12-09 제 6 장표본추출방법 29
2. 확률추출법 (5) 다단계추출법 널리사용되는이유 : 표본으로추출된집락내기본단위들에대한추출틀만마련되면표본추출이가능하기때문 2 단집락추출법 - 1 단계 : 모집단의집락들중표본집락을추출 (1 단계에서추출되는집락 : 1 차추출단위 primary sampling unit) - 추출방법 : 단순임의추출법. 계통추출법, 확률비례추출법사용 -2 단계 : 추출된집락들로부터조사된기본단위들을추출 (2 차추출단위 secondary sampling unit) 2016-12-09 제 6 장표본추출방법 30
2. 확률추출법 (6) 확률비례추출법 집락의크기에차이가큰경우에그규모에비례하여추출하는방법 추정의효율을높일수있음 대부분의전국적인대규모조사는층화다단추출법으로설계 2016-12-09 제 6 장표본추출방법 31
2. 확률추출법 층화다단추출법 -1 차추출단위를층화하고표본을여러단계에걸쳐뽑는방법 층화 3 단추출법 1 전국대상으로실시되는대규모의사회조사는지역적특성을고려한모집단층화 2 각층에서시또는군 (PSU) 을뽑고, 표본시-군내에서읍-면-동 (SSU) 를뽑으며, 표본읍-면-동내에서최종적으로표본가구를추출 3 이때, 표본가구는 3차추출단위 (TSU :third sampling unit) 2016-12-09 제 6 장표본추출방법 32
2. 확률추출법 (7) 무작위전화걸기법 표본 : 전화번호부에서추출 이미마련된전화번호부에서계통추출법으로표본추출 : 실제적이용가능, 시간과비용절약 추출틀로사용된전화번호부가최신의정보를담고있지못하기때문에포괄범위오차 ( 포함오차 ) 문제대두 무작위전화걸기법 : 일부사람들이전화번호부에누락되거나최신정보를담지못하기때문에발생하는문제점을해결하기위해널리사용되는방법 2016-12-09 제 6 장표본추출방법 33
2016-12-09 제 6 장표본추출방법 34
3. 비확률추출법 비확률추출법 ( 비확률표집, nonprobability sampling) 각추출단위들이표본에추출될확률을객관적으로나타낼수없는표본추출법 일반적으로모집단을정확하게규정지을수없는경우, 표본오차가큰문제가되지않는경우, 본조사에앞서서진행되는새로운개념에대한탐색적연구등에사용 비용, 시간, 조사의편리함때문에자주사용 2016-12-09 제 6 장표본추출방법 35
3. 비확률추출법 장점 - 확률추출법에비해훨씬간편하고경제적 단점 - 추정의정확성을평가할수없고표본추출에조사자의주관이개입되어표본자료로부터분석된결론을모집단으로일반화할수없기때문에과학적인조사방법으로활용될수없음 표본이추출되는모집단은실제관심을가지는모집단과크게다를수있음 2016-12-09 제 6 장표본추출방법 36
3. 비확률추출법 1. 간편추출법 ( 편의추출법, 간편표집, 편의표집, convenience sampling) 응답자를선정하는데있어서조사원개인의자의적인판단에따라간편한방법으로표본을추출하는방법 단점 : 얻어진표본이목표모집단을얼마나잘대표하는지알수없고, 얻어진통계치에대한통계적정확성을평가할수없음 2016-12-09 제 6 장표본추출방법 37
3. 비확률추출법 간편추출법의예 - 어떤연구에서자발적으로참여한사람들을대상으로조사연구하는경우 - 어떤연구에서특정초등학교의학생들을표본으로선정하는경우 - 도심지에서지나가는사람들을대상으로면접조사를실시하는경우 - TV 의시사프로그램에서어떤특정사안에대하여 ARS ( 자동응답장치 ) 를이용하여여론조사를하는경우 2016-12-09 제 6 장표본추출방법 38
3. 비확률추출법 2. 판단추출법 ( 유의추출법, 판단표집, judgement sampling) 조사자가나름의지식과경험에의해모집단을가장잘대표한다고여겨지는표본을주관적으로선정하는방법 판단추출법에의한표본은조사자의주관적판단에의해서표본이추출되기때문에그표본을통해얻은추정치의정확성에대해객관적으로평가할수없다. 표본의크기가작은경우에조사의오차를좌우하는요인은추정량의분산이다. 2016-12-09 제 6 장표본추출방법 39
3. 비확률추출법 판단추출법 : 표본의크기가아주작은경우에사용 확률추출법 : 표본의크기가커지면사용표본의크기가작은경우에확률추출법을이용하면보통의경우추정량의편향은발생하지않지만, 추정량의분산이대단히커서문제가된다. 하지만표본의크기를늘림에따라추정량의분산이줄게되어추정의정확도를원하는수준까지높일수있다. 판단추출법의예 - 어느교육연구소의연구원이전체학생들의평균성적을알아보기위해전체학생들의성적을대표한다고생각되는몇학교를나름대로선택하는경우 2016-12-09 제 6 장표본추출방법 40
3. 비확률추출법 3. 할당추출법 ( 할당표집, quota sampling) 조사목적과밀접하게관련되어있는조사대상자의연령이나성별과같은변수값에따라모집단을부분집단으로구분하고, 모집단의부분집단별구성비율과표본의부분집단별구성비율이유사하도록표본을선정하는방법. 비용이적게들고손쉽기때문에단기간에조사를해야하는경우에알맞은방법 2016-12-09 제 6 장표본추출방법 41
3. 비확률추출법 조사목적과관련이있는일부중요변수를고려하여표본을추출하므로두드러지게나타나는오차는줄일수있지만, 경우에따라서는심각한오차가발생할수있다. 할당추출법의예 - 어느대학에서학생서비스만족도를조사하고자한다면기존의자료에의거하여각학과별, 학년별, 성별구성비율을알아본다음, 그비율에따라표본을학과별, 학년별, 성별로할당하는방법 2016-12-09 제 6 장표본추출방법 42
3. 비확률추출법 4. 눈덩이추출법 (snowball sampling) 접근이어렵거나추출틀 (sampling frame) 의작성이곤란한특정한집단에대한조사에서사용되는방법 먼저해당집단에속하는것으로, 사전에알고있는사람들을대상으로해당집단에속하는다른사람들을소개받아서조사를진행하는방법 이와같은소개과정을통해서표본은눈덩이처럼점점커지게됨 2016-12-09 제 6 장표본추출방법 43
3. 비확률추출법 눈덩이추출법의예 - 폭력서클에가입한 10 대학생들의의식을조사할경우 - 우리나라의외국인근로자를대상으로우리나라기업체에대한의식을조사할경우 2016-12-09 제 6 장표본추출방법 44
2016-12-09 제 6 장표본추출방법 45
2016-12-09 제 6 장표본추출방법 46
4. 단순임의표본에대한표본오차의계산 표본오차 (sampling error) 란? 확률추출법사용이유 : 표본에서얻어진통계치의정확도평가가능 표본오차 (= 표집오차, 추출오차 ): 모집단에서표본을추출할때표본추출에따른변동때문에발생하는확률적현상 표본의크기가커짐에따라추정치의분포는모집단의 참값 (true value) 을중심으로집중되어얻어진추정치가정확함 2016-12-09 제 6 장표본추출방법 47
4. 단순임의표본에대한표본오차의계산 표본오차를줄이기위해서는표본의크기를증가시킴 그러나, 제한된조사비용으로표본의크기를늘릴수없음 추정량의표본오차크기를나타내기위한통계량 : 추정량의표준오차 (standard error) 모집단에서정해진크기의표본을무한히추출 >> 각각의표본에서표본평균값구하기 >> 이들의분포는정규분포를따름 개념상의분포에대한표준편차를표본평균의표준오차 (standard error of sampling means) 라함 2016-12-09 제 6 장표본추출방법 48
4. 단순임의표본에대한표본오차의계산 모비율추정 크기가 n 인단순임의표본의표본비율에대한표준오차 모집단크기가표본의크기에비해서대단히큰경우적용 표본비율의표준오차 어떤특정한속성을갖고있거나갖고있지않은표본비율 2016-12-09 제 6 장표본추출방법 49
4. 단순임의표본에대한표본오차의계산 표준오차는표본에서얻은추정치가얼마나정확한가를알아보기위해서사용 표준오차를계산함으로써모수에대한신뢰구간작성 모비율에대한 100(1-a)% 신뢰구간 표준오차이작을수록추정의정확도가높아짐 2016-12-09 제 6 장표본추출방법 50
4. 단순임의표본에대한표본오차의계산 예제 3) 1,500 명의유권자를대상으로정부의어떤정책에대한지지도를조사한결과, 60% 의유권자는찬성하고나머지 40% 는반대한다고응답하였을때, 표본지지율에대한표준오차를구해보자 의해서얻어진것 에 모집단의참값에대한 95% 신뢰구간은 57.4% 에서 62.6% 의범위가된다. 2016-12-09 제 6 장표본추출방법 51
4. 단순임의표본에대한표본오차의계산 모평균추정 표본평균에대한표준오차계산 표본평균에대한표준오차 표본에서구한각관측값에대한표준편차 표준오차를계산함으로써모수에대한신뢰구간작성가능 2016-12-09 제 6 장표본추출방법 52
4. 단순임의표본에대한표본오차의계산 모평균에 100(1-a)% 신뢰구간 표준오차가작을수록신뢰구간의폭이줄어들어추정의정확도가높아짐 2016-12-09 제 6 장표본추출방법 53
4. 단순임의표본에대한표본오차의계산 표본오차에영향을주는요인들 표본추출법 모집단의특성 표본의크기 2016-12-09 제 6 장표본추출방법 54
4. 단순임의표본에대한표본오차의계산 1) 표본추출법 어떤방법으로표본이추출되었는가에따라표본오차차이랜덤모집단인경우계통추출법사용 >> 단순임의추출법을적용한것과같은효과층화임의추출법적용하는경우효과적층화 >> 단순임의추출법에비해추정량의표준오차줄어듬 집락추출법의경우 단순임의추출법에비해추정의정확도는떨어지지만, 조사가편리하고비용절감효과 >> 대규모통계조사에널리사용 2016-12-09 제 6 장표본추출방법 55
4. 단순임의표본에대한표본오차의계산 2) 모집단의특성 모비율추정인경우, 조사대상자들이동질적일수록추정량의표준오차는줄어듦 3) 표본의크기 표본의크기가증가하면표본오차는줄어듦 2016-12-09 제 6 장표본추출방법 56
4. 단순임의표본에대한표본오차의계산 표괄범위오차 (coverage error) 측정오차 (measurement error) 무응답오차 (non-response error) 조사전과정에서나타나는추가적오차고려 x 표본오차에대한내용만을고려 훌륭한조사연구가되기위해균형잡힌질문, 편향되지않은면접, 응답거절에대한설득등조사절차를통해나타나는오차를최소화하려는노력필수 2016-12-09 제 6 장표본추출방법 57
2016-12-09 제 6 장표본추출방법 58
5. 표본크기의결정 표본의크기란? 통계적으로믿을만한추정치를얻기위해조사해야하는조사단위의수 조사단위는? 사람 (20 세이상의성인남녀등 ), 장소 ( 학교, 병원, 행정구역상의시 - 군 - 구등 ), 기록 ( 병원기록, 학교기록등 ) 2016-12-09 제 6 장표본추출방법 59
5. 표본크기의결정 표본크기의결정 조사목적 부분집단별통계치의필요성여부 전체적인조사비용과계획등여러요인고려 표준오차 표본크기 (n) 표본의크기가늘면, 추정량의표준오차줄어듦 데이터수집, 데이터처리, 분석등조사전과정의비용증가 조사원의업무량, 관리 - 감독이어려워져표본조사에따른총오차 (total error) 가증가하는경우발생 2016-12-09 제 6 장표본추출방법 60
2016-12-09 제 6 장표본추출방법 61