1 2 1 2 1 2
국민건강보험공단 건강보험정책연구원 부연구위원최재혁
패널조사개요 패널조사종류 패널조사표본설계 모집단, 층화, 표본크기결정, 표본배정, 표본추출 가중값 1 차가중값, 2 차웨이브이후가중값, 사후가중값 2
국가통계에서의패널조사 시계열의연속성과조사의효율성을높임 패널조사의이점 일정한시간적간격을두고동일한표본에대하조사하는것이므로횡단면자료 (cross-sectional data) 가가지는정보이외에도시간에따라달라지는특성의변동추정에효율적임때때로조사의효율적관리를위해패널을이용하는경우도존재 패널조사의주의점 표본이 1차조사당시의모집단을대표하기때문에가중값조정이매우중요 3
패널목적 : 종단면자료획득 최초설계된표본을계속유지 ( 예 ) 한국노동패널 : 1995년인구주택총조사를모집단으로하여현재 11차조사까지진행 - 최초 5,000 가구 - 2008년 (11차) 3,711가구, 분가가구 1,408가구 장점 : 종단면의특성을파악하기쉬움 단점 : 마모율이높아유지가어려움 4
패널목적 : 종단면자료획득및조사의효율성 주로 3 년단위의패널의설계 ( 예 ) 부품소재산업동향조사 : 3 년단위로패널을구축하여 3 년간매월조사 단점 : 종단면의특성을정확하기살리기어려움 장점 : 패널유지기간의짧아마모율이낮음 5
패널의단점 ( 유지와마모의어려움 ) 보완방법 교체표본조사 (rotation sample survey) ( 예 ) 미국, 캐나다실업률조사 최초 1차조사후확률적으로일부를교체하는조사방법 장점 : 계속조사보다는마모율이낮고단기간패널조사보다는더긴종단면유지기간을가짐 단점 : 표본설계가복잡, 새로운접촉시도 1-7-1, 4-8-4, 1-3-1 등으로구분 6
단순히조사의효율성을위해연속조사 순환표본조사 (rolling sample survey) ( 예 ) 국민건강영양조사 : 3 년단위로패널을설계 1,2,3 차년도조사단위가모두다름 장점 : 조사시점이상호독립으로횡단면정보가많음 단점 : 종단면정보를얻기어려움 7
패 널 교 체 순 환 8
단위 (unit, subject, case) 결정 정보를가지고있는최소단위 관심변수 (interest variable) 조사를통해추정하고자하는변수 보조변수 (auxiliary variable) 표본을설계하는데사용되는변수또는추정에도움을주는변수 층화변수 (stratified variable) 층 (strata) 을결정하는데사용하는변수 9
모집단선정 목표모집단 : 조사목적에의해개념적으로규정하는모집단 조사모집단 : 표본을직접추출하는대상이되는모집단 ( 예 ) 서울시복지패널 - 목표모집단 : OOOO년 O월현재서울특별시에거주하는가구와만 15세이상가구원 - 조사모집단 : OOOO년 O월현재특수사회시러거주가구를제외하고서울특별시에거주하는가구와만 15세이상가구원 10
추출틀 (frame) 이용 모집단 (population) 의전체정보가존재하는자료로추출에서이용 추출틀과모집단이일치하지않다면사후보정으로이를해결 목표모집단 Coverage Under-coverage 추출틀 Over-coverage 11
가구조사에서의추출틀 (frame) Census data Census data +APT 주민등록 +APT 인구주택총조사 자료이용 frame 기준조사구 인구주택총조사자료와주택의멸실, 신축을고려하기위해신축아파트추가 frame 기준조사구신축아파트는단지 일반가구 : 주민등록자료아파트가구 : KB국민은행아파트시세조사용목록 frame 기준일반가구 : 통반아파트가구 : 단지 12
계층적통계생산을위한층화 ( 보통행정구역 ) 적절한보조변수를선택하여층화변수로사용 다변량분석 (Multivariate analysis) 기법를이용 최근통계조사의층화 계층적통계생산을위해층화변수선택층내가동질적, 층간이이질적이라는층화설계의기본개념보다비용과통계생산이더우선 * 층별목표오차가초과되는경우과대추출 (Over sampling) 13
1차층화 : 행정구역등계층적통계생산의최소계급 2차층화 : 보조변수를이용하여층화 - 군집분석이용 : 계층적군집분석 ward방법, K-means방법 - 최적층수결정 : Pseudo-F 통계량방법 (PSF), Cubic cluster criterion방법 (CCC) - 1차층내에서개별적 2차층화를위한분석 - 보조변수결정이매우중요 14
국민건강영양조사 - 1차층화 : 16개시도 - 2차층화 * 일반가구 ( 읍면동 ) : 연령대별인구비율, 성별비율 * 아파트가구 ( 단지 ) : 평당가격, 평균평수, 30평이상비율 * 계층적군집분석 ward방법 CCC로층수결정 - 64개층으로층화 15
유한모집단 복원추출 비복원추출 비율추정의경우 s 대신 p(1-p) 를대입 e 는목표표본오차 목표상대표준오차를사용하는경우는식을변경하여사용 16
연속조사의경우는연속성을가짐 과거자료결과를이용하여표본크기를결정 복원추출 : 비복원추출 : 여기서 는목표상대표준오차 17
CV를이용하는경우는층별표본크기를계산 다목적조사나질적변수가관심변수인경우는비례배정, 제곱근비례배정또는두가지의절충배정을사용 다목적조사이지만가장중요한관심변수를결정하였거나양적변수가관심변수인경우는네이만배정을주로사용 각층의표본크기를배정한후층별최대허용오차가목표를초과한경우는그층에대해과대표본 (over-sample) 을배정 일반적으로질적변수가관심변수인경우최대허용오차가 10%p를넘지않도록결정 18
단위추출방법 a. 단순무작위추출 (SRS) : 모집단의단위들의추출확률이동일한방법 b. 계통추출 (SYS) : 모집단을정렬한후일정한간격으로추출하는방법 c. 확률비례크기추출 (PPS) : 보조변수의크기를추출확률로부여하여단순무작위추출하는방법 d. 확률비례크기계통추출 (SYSPPS) : 보조변수의크기를추출확률로부여하여계통추출하는방법 복원추출 (WR) 과비복원추출 (WOR) 도구분되나 대부분의표본추출은기본적으로비복원추출을가정하고있음 19
설계기반추출방법 a. 층화추출 (Stratified Sampling) : 모집단을 2 개이상의층으로나누어추출하는방법 b. 집락추출 (Cluster Sampling) : 모집단의단위들이여러개의집락 ( 군 ) 을형성하고있고이를추출하여집락내단위전체를조사하는방법 c. 2 단집락추출 (Two-stage Cluster Sampling) : 집락내단위를다시추출하는방법 d. 이중추출 ( 이상추출 ; Double Sampling) : 먼저대표본을추출하고거기에서다시소표본을추출하는방법 20
비확률추출방법 ( 할당추출 ; Quota Sampling) 표본구조를결정하고이에맞도록조사원이표본을임의로선택하는방법으로통계적추정방법을사용할수없음 ( 가중값계산불가, 불편추정량획득불가 ) 복합표본설계 (Complex Sample Design) 여러개의추출방법을혼용하는방법 ( 예 ) 층화 2단집락추출 (Stratified two-stage cluster sampling) 21
모집단 h 층 h 층 : M h 개의조사구로구성 m h 개의조사구추출 n hk 개의가구추출 k 조사구 : N hk 가구로구성 22
추출가중값 : 추출확률의역수 무응답보정가중값 : 단위무응답의경우만고려한응답률의역수 설계가중값 : 추출가중값과무응답보정가중값의곱 사후가중값 ( 벤치마킹가중값 ) 보조변수를고려하여모집단의특성을잘설명하도록보정층별보조변수와설계가중값의곱의전체합과모집단층별보조변수의합이동일해지도록보정 보조변수선택이매우중요 23
자체가중 (self-weighted) 으로설계가중값이불필요한경우 단순임의추출 층화추출 : 비례배정후층내단위를단순임의추출 그밖에모든표본설계에서설계가중값필요 추출가중값 (W p ) : 추출확률의역수 복합설계의경우추출확률도복합확률로계산 (ex) 2단추출의경우조건부확률로계산 24
무응답의종류에따른보정 항목무응답 (item non-response) : 대체 (imputation) 로해결 평균대체, 랜덤핫덱대체, 회귀대체, K-최근방대체등 단위무응답 (unit non-response) : 무응답보정가중값으로해결 최소단위의군 ( 층또는집락 ) 내의응답률의역수를무응답조정가중값 (W n ) 으로부여 최종설계가중값은추출가중값과무응답조정가중값의곱 W d = W p W n 25
사후보정 보조변수를이용하여가중값보정 보조변수는완벽한모집단의정보이어야함 사후층화를이용하여가중값보정 보조변수가질적변수이면사후층화변수와동일시되어사후층화와동일방법 목표모집단과조사모집단의차이를해결하기위한보정 26
사후보정가중값 계수조정 (Calibration) 또는벤치마크 (Benchmark) 동등확률방법으로무응답조정가중값과동일방법사용 갈퀴비 (Raking ratio) 일반적으로질적변수만사용, 벤치마크방법을반복사용 27
계수조정 ( 벤치마크 ) 가중값 보조변수 y 의층내모집단총합 (τ h ) 는이미알려짐 제약식 : h n h i1 W hi y hi 제약식을만족하는 W h ( W 1,, W ) h hn h 이설계가중값인 W d h d d ( W 1,, W ) h hn h 과의거리가최소가되는값추정 28
계수조정 ( 벤치마크 ) 가중값 층화변수, 사후층화변수, 보조변수등의목표모집단층내 총합 (D h ) 을이용하여보정 W hi D n h h i1 W y hi W d hi d hi 여기서 y hi 는층화변수, 사후층화변수, 보조변수등을사용 29
계수조정 ( 벤치마크 ) 가중값예제 정성자료 아파트 가구수벤치마크 (D 1 ) D 120 80 1( 아파트) W d 100 D1 ( 일반 ) 일반 W d 100 층 No 수입 (y) 설계가중값 아파트 1 30 30 아파트 2 20 30 아파트 3 50 40 일반가구 4 30 30 일반가구 5 30 30 일반가구 6 10 40 W1 30 W4 30 120 100 80 100 W2 30 W5 30 120 100 80 100 W3 40 W6 40 120 100 80 100 30
계수조정 ( 벤치마크 ) 가중값예제 정량자료 아파트 총수입벤치마크 (D 2 ) D 3000 D 2500 2( 아파트) yw d W1 30 3500 3000 3500 2( 일반) 일반 yw d W2 30 2200 3000 3500 층 No 수입 (y) 설계가중값 아파트 1 30 30 아파트 2 20 30 아파트 3 50 40 일반가구 4 30 30 일반가구 5 30 30 일반가구 6 10 40 W3 40 3000 3500 W4 30 2500 2200 W5 30 2500 2200 W6 40 2500 2200 31
갈퀴비가중값 2개이상의층화변수또는사후층화변수등의목표모집단층내또는사후층내모집단크기를이용하여보정 참값을찾을수없으므로반복작업을통해근사값을최종보정가중값으로결정 반복알고리즘을이용하여계산 32
갈퀴비가중값의알고리즘 1) 첫번째층화변수 (h 1 ) 를이용, 설계가중값을벤치마크보정 W (1) h i 1 N h 1 W d h i 1 n h 1 i1 W d h i 1 2) 두번재층화변수 (h 2 ) 를이용, 1) 의가중값을벤치마크 보정 W (2) h i 2 N h 2 W (1) h i 2 n h 2 i1 W (1) h i 2 33
갈퀴비가중값의알고리즘 3) 첫번째층화변수를이용, 2) 의가중값을벤치마크보정 W (1) h i 1 N h 1 W (2) h i 1 n h 1 i1 W (2) h i 1 (1) (2) 4) W h W 이만족할때까지, 2), 3) 을반복 1i h2i 34
갈퀴비가중값예제 가구수갈퀴비보정 D( 아파트 ) D( 일반 ) D( 읍면 ) D( 동 ) 80 120 70 130 층1 층2 No 설계가중값 아파트읍면 1 30 아파트읍면 2 20 아파트 동 3 40 아파트 동 4 10 일반가구읍면 5 35 일반가구읍면 6 25 일반가구동 7 20 일반가구동 8 20 35
갈퀴비가중값예제 층 1 보정 층 1 층 2 No 설계가중값 아파트 일반 d d W 100 W 100 (1) 120 (1) 120 W1 30 36 W2 30 24 100 100 (1) 120 (1) 120 W3 40 48 W4 10 12 100 100 (1) 80 (1) 80 W5 35 28 W6 25 20 100 100 (1) 80 (1) 80 W7 20 16 W8 20 16 100 100 아파트읍면 1 30 아파트읍면 2 20 아파트 동 3 40 아파트 동 4 10 일반가구읍면 5 35 일반가구읍면 6 25 일반가구동 7 20 일반가구동 8 20 36
갈퀴비가중값예제 층 2 보정 층 1 층 2 No 설계가중값 읍면 동 (1) (1) W 108 W 92 (2) 70 W1 36 108 (2) 130 W3 48 92 (2) 70 W5 28 108 (2) 130 W7 16 92 (2) 70 W2 24 108 (2) 130 W4 12 92 (2) 70 W6 20 108 (2) 130 W8 16 92 아파트읍면 1 30 아파트읍면 2 20 아파트 동 3 40 아파트 동 4 10 일반가구읍면 5 35 일반가구읍면 6 25 일반가구동 7 20 일반가구동 8 20 37
갈퀴비가중값예제 층 1 보정과층 2 보정을반복 반복후최종가중값 W 1 =22.5, W 2 =15.0, W 3 =66.0, W 4 =16.5 W 5 =18.9, W 6 =13.5, W 7 =23.8, W 8 =23.8 38
종단면가중값 추출확률역수가중값방법 (inverse selection weighting scheme) 동등가구가중값방법 (equal household weighting scheme) 동등개인가중값방법 (equal person weighting scheme) Duncan(1995) 방법인동등개인가중값방법을가장많이사용, 사업체조사는동등가구가중값방법이나동등개인가중값구분없이동일방법 39
기호 (1) W hkj : 1 차패널자료에서 h 층의 k 가구의 j 가구원의최종개인가중값 (2) W hkj : 2 차패널자료에서 h 층의 k 가구의 j 가구원의최종개인가중값 W hk (2) : 2차패널자료에서 h층의 k가구의최종가구가중값 n h : h 층의표본가구수 n hk : h 층의 k 가구의응답한가구원수 ' N h : 목표모집단의 h 층의모집단크기 N hl : h 층의 l 사후층의모집단크기 40
응답확률모형 1차패널자료에서 2차패널에응답했는지여부에대한변수생성 (2차응답자 :1, 응답거부자 :0) 응답자특성을반영하는보조변수를이용하여로지스틱모형 (logistic model) 을설정 (x) e 1 e x 0 x x 여기서 π(x)=e(y x 1,, x q ) 이고 Y는 2차패널에응답했는지여부, x 1,, x q 는 q개의보조변수 0 1 2 1 2 q q x q q 41
최초의종단면개인가중값 추정된응답확률을이용 (2') (1) W hkj W hkj ˆ hkj 1 ( x hkj ) 여기서 ˆ hkj ( x hkj ) 은 h층의 k가구의 j가구원의응답확률 2 차에새로응답한경우 1 차에가구는응답했고가구원중응답하지않는가구원이 2 차에새로응답한경우는동일가구에서가중값의최소값을가중값으로부여 가구자체가 2 차에새로응답하여개인도응답한경우는전체중에서가중값의최소값을가중값으로가지게된다 42
최종종단면개인가중값 사후층화조정 W (2) hlj W (2') hlj n hl i1 N hl W (2') hli 종단면가중값 각가구별개인가중값의평균을사후층화조정 W ( 2') 1 hk nhk n hk i1 W (2) hkj W (2) hk W (2') hk n h v1 N ' h W (2') hv 43
횡단면가중값 2차패널자료가 1차패널자료와연속해서응답했는지 2차에새로응답했는지여부에대한변수를생성 (2차연속응답자 :1, 2차새로운응답자 :0) 응답자특성을반영하는보조변수를이용하여로지스틱모형 (logistic model) 을설정 응답확률이추정되면종단면가중값과동일하게 1차패널의개인가중값에응답확률의역수를곱하여최초개인가중값계산 44
횡단면가중값 종단면가중값과다른점은 2차에새로응답한경우는 1차패널가중값이없고이를반영하는데응답확률의역수를곱하기전에실시 종단면가중값과달리 2차에새로응답한경우도응답확률이추정되기때문에 1차자료의개인가중값의역수를각각곱하여최초의개인가중값을계산 이후의과정은종단면가중값과동일한방법으로최종개인가중값과최종가구가중값을계산 45