통계적 표본조사론 소개

Similar documents
통계적 표본조사론 소개

자료의 이해 및 분석

<4D F736F F F696E74202D20C1A636C1D620C7A5BABBC3DFC3E2B9E6B9FD20B0ADC0C72E >

10. ..

확률과통계 강의자료-1.hwp

교육정책연구 2005-지정-52 공무원 채용시험이 대학교육, 노동시장에 미치는 영향분석 및 공무원 채용제도 개선방안 연구책임자 : 오 호 영 (한국직업능력개발원 부연구위원) 이 정책연구는 2005년도 교육인적자원부 인적자원개발 정책연구비 지원에 의 한

untitled

ePapyrus PDF Document

슬라이드 1

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

G Power

methods.hwp

슬라이드 1

Microsoft PowerPoint - chap_11_rep.ppt [호환 모드]

Microsoft PowerPoint - SDA 2014s_Ch3.pptx

untitled

R t-..

Microsoft Word - SAS_Data Manipulate.docx

< BB0E6C1A65DB0F8B0B32DC1F6BDC4C0E7BBEAC0CEB7C220BCF6B1DEC0FCB8C120BFACB1B85FC0CCC1D6BFAC28C3D6C1BE292E687770>

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

II. 기존선행연구

조사연구 권 호 DOI 연구논문 몽골의가축통계조사를위한표본설계연구 A Study on Sampling Design for the Mongolian Livestock Statistics Survey 주제어

[INPUT] 뒤에는변수와관련된정보를표기한다. [CARDS;] 뒤에는각각의변수가가지는관측값들을표기한다. >> 위의프로그램에서데이터셋명은 wghtclub 이고, 변수는 idno, name, team, strtwght, endwght 이다. 이중 name 과 team 은

< 차례 > Ⅰ. 조사개요 1 Ⅱ. 통계의작성목적및이용 4 Ⅲ. 조사설계 9 Ⅳ. 자료수집 25 Ⅴ. 자료처리 46 Ⅵ. 통계추정및분석 52 Ⅶ. 통계공표, 관리및이용자서비스 58 Ⅷ. 통계기반및개선 72 Ⅸ. 참고문헌 76

<B0A3C3DFB0E828C0DBBEF7292E687770>

Microsoft PowerPoint - IPYYUIHNPGFU

PowerPoint Template

Microsoft PowerPoint - 알고리즘_5주차_1차시.pptx

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

Microsoft PowerPoint - chap_11_rep.ppt [호환 모드]

ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행

A hwp

< 차례 > Ⅰ. 조사개요 1 Ⅱ. 통계의작성목적및이용 6 Ⅲ. 조사설계 12 Ⅳ. 자료수집 50 Ⅴ. 행정자료활용 87 Ⅵ. 자료처리 91 Ⅶ. 통계추정및분석 99 Ⅷ. 통계공표관리및이용자서비스 115 Ⅸ. 통계기반및개선 132 Ⅹ. 참고문헌 141

<C1B6BBE7B5BFC7E B9DAB9CEB1D45F B3E2BCADBFEFBCADBAA3C0CC2E687770>

PowerPoint Presentation

Buy one get one with discount promotional strategy

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

statistics

본 발명은 중공코어 프리캐스트 슬래브 및 그 시공방법에 관한 것으로, 자세하게는 중공코어로 형성된 프리캐스트 슬래브 에 온돌을 일체로 구성한 슬래브 구조 및 그 시공방법에 관한 것이다. 이를 위한 온돌 일체형 중공코어 프리캐스트 슬래브는, 공장에서 제작되는 중공코어 프

레이아웃 1

발간등록번호

목차 BUG offline replicator 에서유효하지않은로그를읽을경우비정상종료할수있다... 3 BUG 각 partition 이서로다른 tablespace 를가지고, column type 이 CLOB 이며, 해당 table 을 truncate

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

슬라이드 1

Orcad Capture 9.x

MySQL-.. 1

메타분석: 통계적 방법의 기초

Gray level 변환 및 Arithmetic 연산을 사용한 영상 개선

확률과통계6

레이아웃 1

Microsoft PowerPoint - ch07 - 포인터 pm0415


자식농사웹완

chungo_story_2013.pdf

*중1부

2

Çѱ¹ÀÇ ¼º°øº¥Ã³µµÅ¥

...._



전반부-pdf

표1.4출력

003-p.ps

<4D F736F F F696E74202D20312E20B0E6C1A6C0FCB8C15F3136B3E2C7CFB9DDB1E25F325FC6ED28C0BA292E >

_

12월월간보고서내지편집3

중앙도서관소식지겨울내지33

에너지포커스 2007년 가을호


01_당선자공약_서울

인권문예대회_작품집4-2




목차

A°ø¸ðÀü ³»Áö1-¼öÁ¤

±¹³»°æÁ¦ º¹»ç1

¿¡³ÊÁö ÀÚ¿ø-Âü°í ³»Áö.PDF

전반부-pdf

뉴스레터6호

Microsoft PowerPoint 하반기 크레딧 전망_V3.pptx

50차 본문 최종

양성내지b72뼈訪?303逞

³»Áöc03âš

fsb9¿ù³»ÁöÃÖÁ¾Ãâ

¾ç¼º-¾÷¹«Æí¶÷-³»¿ëÃà¼Ò4

전도대회자료집


< DBAB4B9ABC3BB5FBAB9B9ABB0FCB8AEB8C5B4BABEF32D33B1C72E706466>

표1~4

<3344C7C1B8B0C6C320BFE4BEE02D E706466>

µ¶ÀÏÅëÀÏÁý1~2Æíq36£02Ð


Microsoft PowerPoint - SBE univariate5.pptx


(, sta*s*cal disclosure control) - (Risk) and (U*lity) (Synthe*c Data) 4. 5.

DBPIA-NURIMEDIA

hwp

src.xls

<B0E6B3B2BDC5B9AE5FB1E8C7D8C0BBBCB1B0C5B1B820BFA9B7D0C1B6BBE720BAB8B0EDBCAD2E687770>

Transcription:

통계적표본조사론소개 김호 서울대학교보건대학원

표본의대표성 (1) 2

표본의대표성 (2) 3

표본의대표성 (2) 4

표본의대표성 (2) 5

기초개념 전수조사혹은총조사 (census) vs. 표본조사 (sampling survey) : 전수조사가불가능하거나혹은더정확하지않을수도있음 대상모집단 (target population) and 추출모집단 (sampling population): 일치하지않을수도있음 (ex. 전화조사 )

기초개념 표본오차 (sampling error): 일부만을조사하기때문에발생 비표본오차 (nonsampling error) 혹은비표집오차 : 그이외의오차 대상모집단과추출모집단의차이 설문지결함 무응답오차 기타 ( 조사원불성실, 조사단위의누락, 자료처리과정에서의오류등 )

기초용어 원소 (element): 기본단위 ( 유권자, 제품 ) 모집단 : 원소들의모임 확률추출법 (probability sampling) 추출단위의확률계산가능 비확률추출법 (nonprobability sampling) 추출단위의확률을모름 추출단위 (sampling unit, 표집단위 ) ( 전화있는가구 ) 추출틀 (sampling frame, 표집틀 )

표본조사의특징 유한모집단 (N 이식에포함, n 과다름 ), 표본추출틀이존재, 자료들이독립적으로뽑히는것이아님 (variance 추정식에 correlation 이포함됨 ) 변수가많고관심모수가다양하다 추정치보다는데이터자체가 output 인경우가많다.

표본조사의대표성 표본조사의대표성을확보하는방법 Purposive sampling ( 주관적인표본추출 ) Random sampling Random sampling 의장점 Random distribution 을이용해서신뢰구간을만들수있다. 모집단의분포에관계없이성립 ( 중심극한정리 ) 표본의크기가클경우대표성이확보됨

편이 (bias) 와효율 (efficiency) 모수 ( ) 를추정하는추정치 Bias ( ) = ˆ E( ˆ ) ( ˆ) 가있을때 Bias가 0인경우을불편추정치 (unbiased estimator) 라고부른다 ˆ 한모수 ( ) 를추정하는추정치가두개 ( ˆ 가 1, ˆ 2) 있을경우두추정치의분산의비율을상대효율 (relative efficiency) 라고한다 RE ( ˆ 1, ˆ Var( ˆ 2) 2) Var( ˆ ) 1

추정치 ( ˆ ) 의분포 Bias=0 Bias 가있음 즉불편추정량 E( ˆ ) 추정치 ( ˆ ) 의분포추정치 ( ˆ ) 의분포 1 2 ˆ ˆ ) Var( ˆ ) Var( ˆ ) 2 RE( 1, 2 1 1

자료소개 변수명변수설명비고 ykiho_n 요양기호 같은번호는같은기관 jumin_n 주X번호 각각 susul 수술여부 0: 미수술, 9: 수술 start 요양개시일자 day 내원일수 money 총진료비 type 종별구분 0 : 종합전문병원, 1:

ykiho_n jumin_n susul start day money type 1 1532 9 20031215 1 2427460 0 1 2056 0 20030724 9 3244980 0 1 2165 0 20031008 16 2080780 0 1 3115 0 20030710 10 2465320 0 1 3477 0 20030425 22 3617720 0 1 3514 9 20030409 3 3178460 0 1 4870 9 20030322 1 335150 0 1 5234 0 20031018 18 2909290 0 1 6212 0 20031021 11 1374890 0 1 8613 0 20030731 10 3479160 0 1 8741 0 20030221 15 3807270 0 1 9262 0 20030122 8 2005320 0 1 9262 0 20030215 3 860040 0 1 11291 9 20030930 22 6999700 0 1 12088 0 20030114 16 5155950 0 1 12092 9 20030901 21 7458950 0 1 12116 0 20031129 13 2070080 0 1 12193 9 20030929 16 4617370 0 1 12496 0 20030122 36 8345470 0 1 13486 0 20031104 16 2690370 0 1 13716 9 20030306 18 9826760 0 1 13994 9 20030516 23 10325690 0 N=21,916

보내주신 excel 과 SAS 파일을이용해서 libname kim ' C:\kim\XX'; proc print data=kim.ami_ho_re (obs=10);run; proc contents data=kim.ami_ho_re ;run;

OBS ykiho 1 11100010 2 11100010 3 11100010 4 11100010 5 11100010 6 11100010 7 11100010 8 11100010 9 11100010 10 11100010 OBS jumin_no 1 XX12 2 XX12 3 XX10 4 XX22 5 XX12 6 XX17 7 XX68 8 XX02 9 XX10 10 XX19 OBS susul 1 9 2 0 3 0 4 0 5 0 6 9 7 9 8 0 9 0 10 0 OBS start 1 20031215 2 20030724 3 20031008 4 20030710 5 20030425 6 20030409 7 20030322 8 20031018 9 20031021 10 20030731 OBS day money type jumin_n ykiho_n 1 1 2427460 0 1532 1 2 9 3244980 0 2056 1 3 16 2080780 0 2165 1 4 10 2465320 0 3115 1 5 22 3617720 0 3477 1 6 3 3178460 0 3514 1 7 1 335150 0 4870 1 8 18 2909290 0 5234 1 9 11 1374890 0 6212 1 10 10 3479160 0 8613 1

CONTENTS 프로시저 데이터셋이름 KIM.AMI_HO_RE 관측치 21916 멤버유형 DATA 변수 9 엔진 V9 인덱스 0 생성일 2006년 12월 12일화오전 11시34분30초 관측치길이 1312 마지막수정일 2006년 12월 12일화오전 11시34분30초 삭제된관측치 0 보호 압축여부 아니오 데이터셋유형 정렬 아니오 라벨 데이터표현 WINDOWS_32 엔코딩 Default 데이터셋페이지크기 16384 데이터셋페이지번호 1827 첫번째데이터페이지 1 페이지당최대관측치수 12 첫번째데이터페이지의관측치수 10 데이터셋수리의번호 0 파일이름 C:\kim\yes\projects\XX 생성된릴리즈 8.0202M0 생성된호스트 WIN_PRO 엔진 / 호스트관련정보 변수와속성리스트 ( 오름차순 ) # 변수유형길이출력형식입력형식라벨 5 day 수치 8 11. 11. 내원일수 8 jumin_n 수치 8 2 jumin_no 문자 255 $255. $255. 주X번호 6 money 수치 8 11. 11. 청구요양총액 4 start 문자 255 $255. $255. 요양개시일자 3 susul 문자 255 $255. $255. 수술여부 7 type 문자 255 1 ykiho 문자 255 $255. $255. 요양기호 9 ykiho_n 수치 8

excel 파일에서셀서식을일반에서숫자혹은텍스트로바꾼후저장 (ami) 을하고 PROC IMPORT OUT= WORK.ami RUN; DATAFILE= "C:\kim\ami.xls" DBMS=EXCEL REPLACE; SHEET="AMI_HO$"; GETNAMES=YES; MIXED=YES; SCANTEXT=YES; USEDATE=YES; SCANTIME=YES; proc print data=ami(obs=10) ; run; proc contents data=ami ;run;

OBS ykiho_n jumin_n susul start day money type 1 1 1532 9 20031215 1 2427460 0 2 1 2056 0 20030724 9 3244980 0 3 1 2165 0 20031008 16 2080780 0 4 1 3115 0 20030710 10 2465320 0 5 1 3477 0 20030425 22 3617720 0 6 1 3514 9 20030409 3 3178460 0 7 1 4870 9 20030322 1 335150 0 8 1 5234 0 20031018 18 2909290 0 9 1 6212 0 20031021 11 1374890 0 10 1 8613 0 20030731 10 3479160 0

CONTENTS 프로시저 데이터셋이름 WORK.AMI 관측치 21916 멤버유형 DATA 변수 7 엔진 V9 인덱스 0 생성일 2007년 01월 04일목오후 09시27분49초 관측치길이 48 마지막수정일 2007년 01월 04일목오후 09시27분49초 삭제된관측치 0 보호 압축여부 아니오 데이터셋유형 정렬 아니오 라벨 데이터표현 WINDOWS_32 엔코딩 euc-kr Korean (EUC) 엔진 / 호스트관련정보 데이터셋페이지크기 4096 데이터셋페이지번호 262 첫번째데이터페이지 1 페이지당최대관측치수 84 첫번째데이터페이지의관측치수 48 데이터셋수리의번호 0 파일이름 C:\DOCUME~1\ 김호 \LOCALS~1\Temp\SAS Temporary Files\_TD11096\ami.sas7bdat 생성된릴리즈 9.0101M3 생성된호스트 XP_HOME 변수와속성리스트 ( 오름차순 ) # 변수유형길이출력형식입력형식라벨 5 day 수치 8 day 2 jumin_n 수치 8 jumin_n 6 money 수치 8 money 4 start 문자 8 $8. $8. start 3 susul 문자 1 $1. $1. susul 7 type 문자 1 $1. $1. type 1 ykiho_n 수치 8 ykiho_n

교훈 엑셀파일을 SAS 파일로바꿀때는엑셀에서셀서식을일반 ( 디폴트 ) 으로하지말고숫자, 텍스트, 혹은날짜형식으로한후저장 (ami) 을하고 SAS 에서불러온다

단순임의추출법 (simple random sampling) N 개의추출단위가있는모집단에서 n 개의표본을같은확률로추출하는방법 E( y) V( y) Vˆ( y ) 모평균 N n N 1 2 n 2 N n s N n 의 95% 신뢰구간 Error Bound (B) 1.96 Vˆ ( y) ( ) yb 2 N n s 1.96 N n

SAS 를이용한단순임의추출법 (proc surveyselect) proc surveyselect data=ami method=srs n=200 out=sample; ;run; proc print data=sample;run; The SURVEYSELECT Procedure Selection Method Simple Random Sampling Input Data Set AMI Random Number Seed 180109000 Sample Size 200 Selection Probability 0.009126 Sampling Weight 109.58 Output Data Set SAMPLE

OBS ykiho_n jumin_n susul start day money type 1 2 11974 0 20031001 11 4044300 0 2 4 1738 9 20030601 30 7058540 1 3 5 13152 9 20030401 11 7714300 0 4 5 17323 9 20031215 5 10621720 0 5 5 17467 0 20030119 3 618580 0........... 193 254 11902 9 20030512 8 3807560 0 194 254 12442 0 20031116 3 1107630 0 195 255 5207 9 20031012 5 3242880 1 196 257 5189 0 20030511 4 1338520 1 197 257 18403 0 20031213 7 1490130 1 198 267 7885 0 20030920 8 2016070 1 199 268 1681 0 20030303 5 451300 1 200 271 3873 0 20031229 5 341870 1

SAS 를이용한단순임의추출표본 평균계산 (proc surveymeans) proc surveymeans data=sample total=21916; var money ; ;run; The SURVEYMEANS Procedure Data Summary Number of Observations 200 Statistics Std Error Variable Label N Mean of Mean 95% CL for Mean ------------------------------------------------------------------------------------------ money money 200 3544650 237998 3075329.52 4013971.28 ------------------------------------------------------------------------------------------

비율 (proportion) 의추정 비율에관심이있는경우에는 1 if 성질만족 y i 0 if 성질불만족인확률변수를만들면 y n y i 1 의갯수 표본수 = 전체표본에서 1 의비율 예제에서수술비율 (susul 이 9 인경우 ) 을추정하려면

SAS 를이용한단순임의추출표본 비율계산 (proc surveymeans) data new ; set sample ; ss=(susul='9') ;run; proc surveymeans data=new total=21916; var ss; run; The SURVEYMEANS Procedure Data Summary Number of Observations 200 Statistics Std Error Variable N Mean of Mean 95% CL for Mean --------------------------------------------------------------------------------- ss 200 0.495000 0.035280 0.42542898 0.56457102 ---------------------------------------------------------------------------------

Get Motivated ( 표본수계산 ) 2 Trt A Trt B + N 11 52 N 12 48 N 1+ - N 21 48 N 22 52 N 2+ N +1 N +2 N ++ 2 n n n / n n n n n, v 2 11 1 1 1 2 1 2 11 2 v11 n n 1 52 100100 / 200 0.32, p 0.05 2 100100100100 / 200 199 2

2 라고하고, 를다시계산하면 n ij 100n ij 2 2 2 p 100 /100 32.00, 0.01 두예에서비율은정확히같음에도불구하고통계적유의성은상당히다르다.??? 전통적통계적가설검정의유의성은표본수에크게의존한다. 통계적유의성이없었던경우라도표본수를크게하면유의성을볼수있다. 표본수 ( 실험의비용 ) 와통계적유의성 ( 실험의효용성 ) 의균형을맞추는것이요구됨 최소의비용으로효과를증명하고싶다.

통계학에서의표본수계산 표본조사의경우 - 목적 : 추정 (estimation) - 도구 : 표본오차 - 예 : 여론조사 임상시험의경우 - 목적 : 검정 (testing) - 도구 : 제1종의오류, 제2종의오류 - 예 : 임상시험

단순임의추출 (simple random sampling) 에서 N : 모집단의크기, n : 표본의크기라면 ˆ y y / n Var y n i1 i 2 N n n N 1 2 N n 1.96 Var( y) 2 B : n N 1 2 N n D B 2 ( N-1) D 2, / 4 95% 신뢰구간 ( 표준오차 )

만약가 0 혹은 1 의값을가지게되면, y y i 는비율이되고, 이경우 Npq 가된다. n ( N 1) D pq 예1) N=2000, 95% 신뢰수준, B=0.05이라면 n은? >> 사전정보가없다면 p=q=0.5 대입 D 2 2 B / 4 0.05 / 4.000625 20000.50.5 n 1999.000625 0.50.5 333.56 최소한 334 명의표본이필요하다.

예제. 인구 10,000,000 인도시에서유병율이약 20% 로예상되는질병의정확한유병율을 95% 신뢰구간이 ± 2% 정도로추정하고싶다면표본의크기를얼마로하여야하는가? D n 2 2 B / 4 0.02 / 4.0001 10, 000, 0000.20.8 (10, 000, 000 1).0001 0.20.8 1599.74 예제. 인구 500,000 인지역에서유병율이약 20% 로예상되는질병의정확한유병율을 95% 신뢰구간이 ± 2% 정도로추정하고싶다면표본의크기를얼마로하여야하는가? D 2 2 B / 4 0.02 / 4.0001 500, 0000.20.8 n (500, 000 1).0001 0.20.8 1594.90

예제. 인구 10,000,000 인도시에서유병율이약 20% 로예상되는질병의정확한유병율을 95% 신뢰구간이 ± 1% 정도로추정하고싶다면표본의크기를얼마로하여야하는가? D n 2 2 B / 4 0.01 / 4.000025 10, 000, 0000.20.8 (10, 000, 000 1).000025 0.20.8 6395.91 예제. 인구 10,00,000 인지역에서유병율이약 30% 로예상되는질병의정확한유병율을 95% 신뢰구간이 ± 3% 정도로추정하고싶다면표본의크기를얼마로하여야하는가? D 2 2 B / 4 0.03 / 4.000225 10, 00, 0000.30.7 n (10, 000, 000 1).000225 0.30.7 933.246

층화추출법 (stratified sampling) 모집단의 L 개의층으로나누고각층에서 SRS 를실시함 (non-overlapping group) 각층에서의표본의배분 등배분 (equal allocation) 비례배분 (proportional allocation) 최적배분 (optimal allocation) : 비용을고려

Strata 를고려하는이유 1. Within strata 에서값들이 homogeneous 할때 SRS 보다작은분산을준다 2. Strata 를고려하면비용이줄어들수있다 3. 각 subgroup 별로의추정치를구하는데관심이있을수있다.

SAS 를이용한층화추출법 (proc surveyselect) proc sort data=ami;by type ; proc surveyselect data=ami method=srs n=(100,100) out=sam2; strata type ;run; proc print data=sam2;run; The SURVEYSELECT Procedure Selection Method Strata Variable Simple Random Sampling type Input Data Set AMI Random Number Seed 669093000 Number of Strata 2 Total Sample Size 200 Output Data Set SAM2

Selection Sampling OBS type ykiho_n jumin_n susul start day money Prob Weight 1 0 2 10250 0 20030806 4 836360.008775009 113.96 2 0 5 1255 0 20030410 1 468630.008775009 113.96 3 0 5 4960 9 20031218 7 5925390.008775009 113.96 4 0 5 8021 0 20030511 3 619090.008775009 113.96 5 0 5 8967 9 20030208 7 8339620.008775009 113.96 6 0 5 12701 9 20031118 12 10170950.008775009 113.96 7 0 5 14755 0 20030912 9 3742280.008775009 113.96........... 194 1 255 18272 9 20030926 5 6490160.009505703 105.2 195 1 257 12415 0 20030502 5 1056280.009505703 105.2 196 1 257 12662 9 20030624 9 6743670.009505703 105.2 197 1 258 1060 0 20030522 2 305660.009505703 105.2 198 1 258 14865 0 20031101 3 259400.009505703 105.2 199 1 267 7533 0 20030214 6 1024610.009505703 105.2 200 1 272 6188 9 20031204 1 919950.009505703 105.2

SAS 를이용한층화추출법 (proc surveyselect) The SURVEYSELECT Procedure 혹은 data ami2; Selection Method Simple Random set ami; Sampling type2=type+0 ; Strata Variable type2 run; proc sort data=ami2;by type2; data info ; input type2 _NSIZE_ ; cards; 0 100 1 100 ;run; Input Data Set AMI2 Random Number Seed 660281000 Sample Size Data Set INFO Number of Strata 2 Total Sample Size 200 Output Data Set SAM3 proc surveyselect data=ami2 method=srs n=info out=sam3; strata type2 ;run;

SAS를이용한층화추출표본평균계산 (proc surveymeans) proc freq data=ami2; tables type2 ; run; FREQ 프로시저 누적 누적 type2 빈도 백분율 빈도 백분율 ------------------------------------------------- 0 11396 52.00 11396 52.00 1 10520 48.00 21916 100.00

SAS 를이용한층화추출표본평균계산 data pop_info; input type2 _TOTAL_ ; cards; 0 11396 1 10520 ;run; (proc surveymeans) proc surveymeans data=sam3 total=pop_info ; var money ; strata type2 ss; run; The SURVEYMEANS Procedure Data Summary Number of Strata 2 Number of Observations 200 Statistics Std Error Variable Label N Mean of Mean 95% CL for Mean ------------------------------------------------------------------------------------------ money money 200 3672743 233693 3211895.82 4133589.28 ss 200 0.465000 0.034638 0.40 0.53 ------------------------------------------------------------------------------------------

계통추출법 (systematic sampling) 전체모집단을일렬로세워서번호를붙인후 1 과 k 사이에서난수를뽑고 (r) 그후부터는 r, r+k, r+2k, 를뽑음 예 ) 10,000 명의학생에서 200 명을뽑는경우, 추출간격은 50, 1 과 50 사이에서난수를뽑아 (29) 다음과같이표본을추출한다. 29, 29+50=79, 29+2*50=129,,9979

계통추출법의성질 임의배열 : 배열이임의적인경우 SRS 와성질이같다. 순환배열 : 배열에주기 (cycle) 이있는경우에는편이가큰표본이뽑힐수있다. 직선추세배열 : 정열 (sorting) 이되어있는경우에는 SRS 보다효율적이다. Surrogate variable 도사용가능 자연적배열 : 행정단위등으로배열이되어있는경우에도 SRS 보다는효율이좋은경우가많다. 조사의편리성 : sampling frame 이없는경우에도사용할수있다.

집락추출법 (cluster sampling) 뽑힌집락에있는기본단위를전수조사하는경우예 ) 뽑힌가구에서가계구성원전원을조사하는경우, 가구는집락이된다. 집락추출법이유용한경우 추출틀이마련될수없거나, 추출틀작성에많은비용이드는경우 추출단위들이밀집된경우조사비용을많이줄일수있다.

층화추출법 집락추출법

층 (strata) 과집락 (cluster) 의비교 집락들간의성질이매우다르다면 ( 집락내부의성질은매우비슷하다 ) 어느집락을뽑느냐에따라조사의결과가매우다를것이므로이런경우집락추출법은좋은방법이아니다. 층들간의성질이매우비슷하다면 ( 층내부의성질은매우다르다 ) 모든층에서표본을뽑을필요가별로없다. 이런경우층화추출법은좋은방법이아니다.

Within strata Variability 가크다. Between 은작다. 층화추출법 X 집락추출법 X Between cluster Variability 가크다. Within 은작다.

과제 학번의끝자리가 3,4,5,6,7 로끝나는경우각각 2003, 4,5,6,7 년도사망자료를이용해서 학번의끝자리가 8,9,0,1,2 로끝나는경우각각 2003, 4,5,6,7 년도사망자료를이용해서 1) 단순임의추출로 1000 명을추출하여서성별, 연령별 (10 세간격 ) 분포를구하시오 2) 성별로각각 500 명씩층화추출을하여서남여각각의연령별분포를구하시오 SAS 프로그램과 output 을해석과함께제시하시오