통계적표본조사론소개 김호 서울대학교보건대학원
기초개념 전수조사혹은총조사 (census) vs. 표본조사 (sampling survey) : 전수조사가불가능하거나혹은더정확하지않을수도있음 대상모집단 (target population) and 추출모집단 (sampling population): 일치하지않을수도있음 (ex. 전화조사 )
기초개념 표본오차 (sampling error): 일부만을조사하기때문에발생 비표본오차 (nonsampling error) 혹은비표집오차 : 그이외의오차 대상모집단과추출모집단의차이 설문지결함 무응답오차 기타 ( 조사원불성실, 조사단위의누락, 자료처리과정에서의오류등 )
기초용어 원소 (element): 기본단위 ( 유권자, 제품 ) 모집단 : 원소들의모임 확률추출법 (probability sampling) 추출단위의확률계산가능 비확률추출법 (nonprobability sampling) 추출단위의확률을모름 추출단위 (sampling unit, 표집단위 ) ( 전화있는가구 ) 추출틀 (sampling frame, 표집틀 )
표본조사의특징 유한모집단, 표본추출틀이존재, 자료들이독립적으로뽑히는것이아님 변수가많고관심모수가다양하다 추정치보다는데이터자체가 output 인경우가많다.
표본조사의대표성 표본조사의대표성을확보하는방법 Purposive sampling ( 주관적인표본추출 ) Random sampling Random sampling 의장점 Random distribution 을이용해서신뢰구간을만들수있다. 모집단의분포에관계없이성립 ( 중심극한정리 ) 표본의크기가클경우대표성이확보됨
편이 (bias) 와효율 (efficiency) 모수( ) 를추정하는추정치 ( ) 가있을때 Bias ( ) = ˆ E( ˆ ) Bias가 0인경우을불편추정치 (unbiased estimator) 라고부른다 ˆ 한모수( ) 를추정하는추정치가두개 ( ˆ 가 1, ˆ 2) 있을경우두추정치의분산의비율을상대효율 (relative efficiency) 라고한다 RE ( ˆ 1, ˆ Var( ˆ 2) 2) Var( ˆ ) 1 ˆ
추정치( ˆ ) 의분포 Bias=0 Bias 가있음 즉불편추정량 E( ˆ ) 추정치( ˆ ) 의분포추정치( ˆ ) 의분포 1 2 ˆ ˆ ) Var( ˆ ) Var( ˆ ) 2 RE( 1, 2 1 1
자료소개 변수명변수설명비고 ykiho_n 요양기호 같은번호는같은기관 jumin_n 주X번호 각각 susul 수술여부 0: 미수술, 9: 수술 start 요양개시일자 day 내원일수 money 총진료비 type 종별구분 0 : 종합전문병원, 1:
ykiho_n jumin_n susul start day money type 1 1532 9 20031215 1 2427460 0 1 2056 0 20030724 9 3244980 0 1 2165 0 20031008 16 2080780 0 1 3115 0 20030710 10 2465320 0 1 3477 0 20030425 22 3617720 0 1 3514 9 20030409 3 3178460 0 1 4870 9 20030322 1 335150 0 1 5234 0 20031018 18 2909290 0 1 6212 0 20031021 11 1374890 0 1 8613 0 20030731 10 3479160 0 1 8741 0 20030221 15 3807270 0 1 9262 0 20030122 8 2005320 0 1 9262 0 20030215 3 860040 0 1 11291 9 20030930 22 6999700 0 1 12088 0 20030114 16 5155950 0 1 12092 9 20030901 21 7458950 0 1 12116 0 20031129 13 2070080 0 1 12193 9 20030929 16 4617370 0 1 12496 0 20030122 36 8345470 0 1 13486 0 20031104 16 2690370 0 1 13716 9 20030306 18 9826760 0 1 13994 9 20030516 23 10325690 0 N=21,916
보내주신 excel 과 SAS 파일을이용해서 libname kim ' C:\kim\XX'; proc print data=kim.ami_ho_re (obs=10);run; proc contents data=kim.ami_ho_re ;run;
OBS ykiho 1 11100010 2 11100010 3 11100010 4 11100010 5 11100010 6 11100010 7 11100010 8 11100010 9 11100010 10 11100010 OBS jumin_no 1 XX12 2 XX12 3 XX10 4 XX22 5 XX12 6 XX17 7 XX68 8 XX02 9 XX10 10 XX19 OBS susul 1 9 2 0 3 0 4 0 5 0 6 9 7 9 8 0 9 0 10 0 OBS start 1 20031215 2 20030724 3 20031008 4 20030710 5 20030425 6 20030409 7 20030322 8 20031018 9 20031021 10 20030731 OBS day money type jumin_n ykiho_n 1 1 2427460 0 1532 1 2 9 3244980 0 2056 1 3 16 2080780 0 2165 1 4 10 2465320 0 3115 1 5 22 3617720 0 3477 1 6 3 3178460 0 3514 1 7 1 335150 0 4870 1 8 18 2909290 0 5234 1 9 11 1374890 0 6212 1 10 10 3479160 0 8613 1
CONTENTS 프로시저 데이터셋이름 KIM.AMI_HO_RE 관측치 21916 멤버유형 DATA 변수 9 엔진 V9 인덱스 0 생성일 2006년 12월 12일화오전 11시34분30초 관측치길이 1312 마지막수정일 2006년 12월 12일화오전 11시34분30초 삭제된관측치 0 보호 압축여부 아니오 데이터셋유형 정렬 아니오 라벨데이터표현 WINDOWS_32 엔코딩 Default 데이터셋페이지크기 16384 데이터셋페이지번호 1827 첫번째데이터페이지 1 페이지당최대관측치수 12 첫번째데이터페이지의관측치수 10 데이터셋수리의번호 0 파일이름 C:\kim\yes\projects\XX 생성된릴리즈 8.0202M0 생성된호스트 WIN_PRO 엔진 / 호스트관련정보 변수와속성리스트 ( 오름차순 ) # 변수유형길이출력형식입력형식라벨 5 day 수치 8 11. 11. 내원일수 8 jumin_n 수치 8 2 jumin_no 문자 255 $255. $255. 주X번호 6 money 수치 8 11. 11. 청구요양총액 4 start 문자 255 $255. $255. 요양개시일자 3 susul 문자 255 $255. $255. 수술여부 7 type 문자 255 1 ykiho 문자 255 $255. $255. 요양기호 9 ykiho_n 수치 8
excel 파일에서셀서식을일반에서숫자혹은텍스트로바꾼후저장 (ami) 을하고 PROC IMPORT OUT= WORK.ami RUN; DATAFILE= "C:\kim\ami.xls" DBMS=EXCEL REPLACE; SHEET="AMI_HO$"; GETNAMES=YES; MIXED=YES; SCANTEXT=YES; USEDATE=YES; SCANTIME=YES; proc print data=ami(obs=10) ; run; proc contents data=ami ;run;
OBS ykiho_n jumin_n susul start day money type 1 1 1532 9 20031215 1 2427460 0 2 1 2056 0 20030724 9 3244980 0 3 1 2165 0 20031008 16 2080780 0 4 1 3115 0 20030710 10 2465320 0 5 1 3477 0 20030425 22 3617720 0 6 1 3514 9 20030409 3 3178460 0 7 1 4870 9 20030322 1 335150 0 8 1 5234 0 20031018 18 2909290 0 9 1 6212 0 20031021 11 1374890 0 10 1 8613 0 20030731 10 3479160 0
CONTENTS 프로시저 데이터셋이름 WORK.AMI 관측치 21916 멤버유형 DATA 변수 7 엔진 V9 인덱스 0 생성일 2007년 01월 04일목오후 09시27분49초 관측치길이 48 마지막수정일 2007년 01월 04일목오후 09시27분49초 삭제된관측치 0 보호 압축여부 아니오 데이터셋유형 정렬 아니오 라벨데이터표현 WINDOWS_32 엔코딩 euc-kr Korean (EUC) 엔진 / 호스트관련정보 데이터셋페이지크기 4096 데이터셋페이지번호 262 첫번째데이터페이지 1 페이지당최대관측치수 84 첫번째데이터페이지의관측치수 48 데이터셋수리의번호 0 파일이름 C:\DOCUME~1\ 김호 \LOCALS~1\Temp\SAS Temporary Files\_TD11096\ami.sas7bdat 생성된릴리즈 9.0101M3 생성된호스트 XP_HOME 변수와속성리스트 ( 오름차순 ) # 변수유형길이출력형식입력형식라벨 5 day 수치 8 day 2 jumin_n 수치 8 jumin_n 6 money 수치 8 money 4 start 문자 8 $8. $8. start 3 susul 문자 1 $1. $1. susul 7 type 문자 1 $1. $1. type 1 ykiho_n 수치 8 ykiho_n
교훈 엑셀파일을 SAS 파일로바꿀때는엑셀에서셀서식을일반 ( 디폴트 ) 으로하지말고숫자, 텍스트, 혹은날짜형식으로한후저장 (ami) 을하고 SAS 에서불러온다
단순임의추출법 (simple random sampling) N 개의추출단위가있는모집단에서 n 개의표본을같은확률로추출하는방법 E( y) V( y) Vˆ( y ) 모평균 N n N 1 n N n s N n 의 95% 신뢰구간 2 2 Error Bound (B) 1.96 Vˆ ( y) ( ) yb 2 N n s 1.96 N n
SAS 를이용한단순임의추출법 (proc surveyselect) proc surveyselect data=ami method=srs n=200 out=sample; ;run; proc print data=sample;run; The SURVEYSELECT Procedure Selection Method Simple Random Sampling Input Data Set AMI Random Number Seed 180109000 Sample Size 200 Selection Probability 0.009126 Sampling Weight 109.58 Output Data Set SAMPLE
OBS ykiho_n jumin_n susul start day money type 1 2 11974 0 20031001 11 4044300 0 2 4 1738 9 20030601 30 7058540 1 3 5 13152 9 20030401 11 7714300 0 4 5 17323 9 20031215 5 10621720 0 5 5 17467 0 20030119 3 618580 0........... 193 254 11902 9 20030512 8 3807560 0 194 254 12442 0 20031116 3 1107630 0 195 255 5207 9 20031012 5 3242880 1 196 257 5189 0 20030511 4 1338520 1 197 257 18403 0 20031213 7 1490130 1 198 267 7885 0 20030920 8 2016070 1 199 268 1681 0 20030303 5 451300 1 200 271 3873 0 20031229 5 341870 1
SAS 를이용한단순임의추출표본 평균계산 (proc surveymeans) proc surveymeans data=sample total=21916; var money ; ;run; The SURVEYMEANS Procedure Data Summary Number of Observations 200 Statistics Std Error Variable Label N Mean of Mean 95% CL for Mean ------------------------------------------------------------------------------------------ money money 200 3544650 237998 3075329.52 4013971.28 ------------------------------------------------------------------------------------------
비율 (proportion) 의추정 비율에관심이있는경우에는 1 if 성질만족 y i 0 if 성질불만족인확률변수를만들면 y n y i 1 의갯수 표본수 = 전체표본에서 1 의비율 예제에서수술비율 (susul 이 9 인경우 ) 을추정하려면
SAS 를이용한단순임의추출표본 비율계산 (proc surveymeans) data new ; set sample ; ss=(susul='9') ;run; proc surveymeans data=new total=21916; var ss; run; The SURVEYMEANS Procedure Data Summary Number of Observations 200 Statistics Std Error Variable N Mean of Mean 95% CL for Mean --------------------------------------------------------------------------------- ss 200 0.495000 0.035280 0.42542898 0.56457102 ---------------------------------------------------------------------------------
Get Motivated ( 표본수계산 ) Trt A Trt B 2 + N 11 52 N 12 48 N 1+ - N 21 48 N 22 52 N 2+ N +1 N +2 N ++ 2 n n n / n n n n n, v 2 11 1 1 1 2 1 2 11 2 v11 n n 1 52 100100 / 200 0.32, p 0.05 2 100100100100 / 200 199 2
2 라고하고, 를다시계산하면 n ij 100n ij 100 /100 32.00, p 0.01 2 2 2 두예에서비율은정확히같음에도불구하고통계적유의성은상당히다르다.??? 전통적통계적가설검정의유의성은표본수에크게의존한다. 통계적유의성이없었던경우라도표본수를크게하면유의성을볼수있다. 표본수 ( 실험의비용 ) 와통계적유의성 ( 실험의효용성 ) 의균형을맞추는것이요구됨 최소의비용으로효과를증명하고싶다.
통계학에서의표본수계산 표본조사의경우 - 목적 : 추정 (estimation) - 도구 : 표본오차 - 예 : 여론조사 임상시험의경우 - 목적 : 검정 (testing) - 도구 : 제1종의오류, 제2종의오류 - 예 : 임상시험
단순임의추출 (simple random sampling) 에서 N : 모집단의크기, n : 표본의크기라면 ˆ y y / n Var y n i1 i 2 N n n N 1 2 N n 1.96 Var( y) 2 B : 95% 신뢰구간 ( 표준오차 ) n N 1 2 N n D B 2 ( N -1) D 2, / 4
만약가 0 혹은 1 의값을가지게되면, y y i 는비율이되고, 이경우 Npq 가된다. n ( N 1) D pq 예1) N=2000, 95% 신뢰수준, B=0.05이라면 n은? >> 사전정보가없다면 p=q=0.5 대입 D 2 2 B / 4 0.05 / 4.000625 20000.50.5 n 1999.000625 0.50.5 333.56 최소한 334 명의표본이필요하다.
층화추출법 (stratified sampling) 모집단의 L 개의층으로나누고각층에서 SRS 를실시함 각층에서의표본의배분 등배분 (equal allocation) 비례배분 (proportional allocation) 최적배분 (optimal allocation) : 비용을고려
SAS 를이용한층화추출법 (proc surveyselect) proc sort data=ami;by type ; proc surveyselect data=ami method=srs n=(100,100) out=sam2; strata type ;run; proc print data=sam2;run; The SURVEYSELECT Procedure Selection Method Strata Variable Simple Random Sampling type Input Data Set AMI Random Number Seed 669093000 Number of Strata 2 Total Sample Size 200 Output Data Set SAM2
Selection Sampling OBS type ykiho_n jumin_n susul start day money Prob Weight 1 0 2 10250 0 20030806 4 836360.008775009 113.96 2 0 5 1255 0 20030410 1 468630.008775009 113.96 3 0 5 4960 9 20031218 7 5925390.008775009 113.96 4 0 5 8021 0 20030511 3 619090.008775009 113.96 5 0 5 8967 9 20030208 7 8339620.008775009 113.96 6 0 5 12701 9 20031118 12 10170950.008775009 113.96 7 0 5 14755 0 20030912 9 3742280.008775009 113.96........... 194 1 255 18272 9 20030926 5 6490160.009505703 105.2 195 1 257 12415 0 20030502 5 1056280.009505703 105.2 196 1 257 12662 9 20030624 9 6743670.009505703 105.2 197 1 258 1060 0 20030522 2 305660.009505703 105.2 198 1 258 14865 0 20031101 3 259400.009505703 105.2 199 1 267 7533 0 20030214 6 1024610.009505703 105.2 200 1 272 6188 9 20031204 1 919950.009505703 105.2
SAS 를이용한층화추출법 (proc surveyselect) The SURVEYSELECT Procedure 혹은 data ami2; Selection Method Simple Random set ami; Sampling type2=type+0 ; Strata Variable type2 run; proc sort data=ami2;by type2; data info ; input type2 _NSIZE_ ; cards; 0 100 1 100 ;run; Input Data Set AMI2 Random Number Seed 660281000 Sample Size Data Set INFO Number of Strata 2 Total Sample Size 200 Output Data Set SAM3 proc surveyselect data=ami2 method=srs n=info out=sam3; strata type2 ;run;
SAS를이용한층화추출표본평균계산 (proc surveymeans) proc freq data=ami2; tables type2 ; run; FREQ 프로시저 누적 누적 type2 빈도 백분율 빈도 백분율 ------------------------------------------------- 0 11396 52.00 11396 52.00 1 10520 48.00 21916 100.00
SAS 를이용한층화추출표본평균계산 data pop_info; input type2 _TOTAL_ ; cards; 0 11396 1 10520 ;run; (proc surveymeans) proc surveymeans data=sam3 total=pop_info ; var money ; strata type2 ss; run; The SURVEYMEANS Procedure Data Summary Number of Strata 2 Number of Observations 200 Statistics Std Error Variable Label N Mean of Mean 95% CL for Mean ------------------------------------------------------------------------------------------ money money 200 3672743 233693 3211895.82 4133589.28 ss 200 0.465000 0.034638 0.40 0.53 ------------------------------------------------------------------------------------------
계통추출법 (systematic sampling) 전체모집단을일렬로세워서번호를붙인후 1 과 k 사이에서난수를뽑고 (r) 그후부터는 r, r+k, r+2k, 를뽑음 예 ) 10,000aud 의학생에서 200 명을뽑는경우, 추출간격은 50, 1 과 50 사이에서난수를뽑아 (29) 다음과같이표본을추출한다. 29, 29+50=79, 29+2*50=129,,9979
계통추출법의성질 임의배열 : 배열이임의적인경우 SRS 와성질이같다. 순환배열 : 배열에주기 (cycle) 이있는경우에는편이가큰표본이뽑힐수있다. 직선추세배열 : 정열 (sorting) 이되어있는경우에는 SRS 보다효율적이다. Surrogate variable 도사용가능 자연적배열 : 행정단위등으로배열이되어있는경우에도 SRS 보다는효율이좋은경우가많다. 조사의편리성 : sampling frame 이없는경우에도사용할수있다.
집락추출법 (cluster sampling) 뽑힌집락에있는기본단위를전수조사하는경우예 ) 뽑힌가구에서가계구성원전원을조사하는경우, 가구는집락이된다. 집락추출법이유용한경우 추출틀이마련될수없거나, 추출틀작성에많은비용이드는경우 추출단위들이밀집된경우조사비용을많이줄일수있다.
층화추출법 집락추출법
층 (strata) 과집락 (cluster) 의비교 집락들간의성질이매우다르다면 ( 집락내부의성질은매우비슷하다 ) 어느집락을뽑느냐에따라조사의결과가매우다를것이므로이런경우집락추출법은좋은방법이아니다. 층들간의성질이매우비슷하다면 ( 층내부의성질은매우다르다 ) 모든층에서표본을뽑을필요가별로없다. 이런경우층화추출법은좋은방법이아니다.
Within strata Variability 가크다. Between 은작다. 층화추출법 X 집락추출법 X Between cluster Variability 가크다. Within 은작다.