조사연구 (2009. 11) 10 권 3 호 : 157-172 157 조사동향 2008 서울서베이표본추출틀구축및표본추출사례연구 A Case Study on the Construction of the Sampling Frame and Sampling Design for 2008 Seoul Survey 1)2)3)4)5)6)7) 강현철 * 박승열 ** 김지연 *** 김인수 **** 이동수 ***** 황재일 ****** 박민규 ******* Kang, Hyuncheol Park, Seungyeol Kim, Jeeyoun Kim, Insoo Lee, Dongsu Hwang, Jaeil Park, Mingue 추출된표본을바탕으로관심모집단의특성을파악하는조사연구에있어서는실제로표본이추출되는표본추출틀의모집단대표성이매우중요하다. 표본추출틀이관심모집단을적절한수준으로포함하지못하는경우심각한표본추출틀편향이발생하게되고이로인하여효율적인추출법에의하여추출된표본의통계적신뢰도역시손상된다. 그러나대규모조사를위한표본추출틀의구축은시간과비용의측면에서비효율적이고따라서국가에서제공하는전수조사기반의표본추출틀이흔히사용된다. 대표적으로국내의가구조사를위한표본추출틀로는매 5년마다시행되는인구주택총조사기반의자료가사용된다. 그러나인구주택총조사기반표본추출틀의경우인구주택총조사시점과실제조사시점과의시간적차이로인한표본추출틀의모집단대표성에문제가발생하게된다. 특별히인구유동성이심한서울과같은대도시의경우시간의경과에따른모집단분포의변화가심하게나타나리라예측할수있다. 따라서본연구에서는 2008 서울서베이가구조사를위해새롭게표본추출틀을구축한것과새표본추출틀을기초로하여표본을추출한사례를다룬다. 기존인구주택총조사기반표본추출틀이시간이지남에따라대표성을상실하는문제점을지적하고주민등록 DB와과세대장 DB를기반으로한새로운표본추출틀을 2008년서울서베이가구조사를위한표본추출틀로제시하였다. 새롭게작성된표본추출틀로부터의가구표본추출과정과가중치및모평균추정량또한제시되었다. * 호서대학교정보통계학과부교수 ** ( 주 ) 월드리서치대표이사 *** ( 주 ) 밀워드브라운미디어리서치상무 **** 서울시정보화기획담당관실통계분석팀장 ***** 서울시정보화기획담당관실통계분석팀주임 ****** 서울시정보화기획담당관실통계분석팀주임 ******* 교신저자 (corresponding author) : 고려대학교통계학과부교수박민규. E-mai : mpark2@korea.ac.kr
158 조사연구 주제어 : 표본추출틀, 인구주택총조사, 주민등록 DB, 서울서베이 For a survey research in which the characteristics of the population of interest are investigated from a sample, representativeness of the sampling frame is one of the most important part to be considered. If the sampling frame fails to represent the population properly, statistical procedures based on the even efficient sampling design result in significant nonsampling biases and thus the statistical validities of the results could be damaged. But the construction of the reliable sampling frame that covers the population properly costs money and time and thus the sampling frame based on a census or a large scale survey is often used in practice. For example, the sampling frame based on the population households census is used for many household surveys in Korea. But due to the time difference between the census and a survey of interest, the sampling frame constructed from the census is expected to fail to cover the population of interest. Especially, one could expect a large amount of population and household movement in a large city like Seoul. Thus in our research, we considered the construction of new sampling frame and the procedure of sample selection for 2008 Seoul survey. We analyzed the sampling frame based on 2005 population households census and found that it does not represent the population properly. Thus, we proposed a new sampling frame based on resident registration DB for 2008 Seoul survey. We also proposed the sampling weights and estimator of the population mean based on the sample selected from the newly constructed sampling frame. Key words : sampling frame, population households census, residents registration DB, Seoul survey Ⅰ. 서론 세계적으로사회구조의변화가빠르게나타나고지역단위의경쟁력이주요이슈로등장하고있는시기를맞아, 서울시에서는빠른사회변화의흐름을수용하는동시에지역별특성을반영하여시정운영에적절히활용하기위해적절한통계작성의필요성을인식하게되었다. 또한민선자치시대를맞이하여주기별로달라지는시정운영현황을파악하고, 정책방향설정및운영등에다양하게활용될수있는통계를생산할필요를느끼게되었다. 이러한필요성을바탕으로서울시는행정자료및가구조사, 사업체조사를통하여도시발전지향을지속적으로모니터링할수있는정책지표의개발및구축을목적으로하는 ' 서
2008 서울서베이표본추출틀구축및표본추출사례연구 159 울서베이 ' 사업을 2003년부터매년시행하고있다. 서울시의각시기별상태에대한객관적이고심층적인분석과도시발전수준을모니터링하기위한도시정책지표의지속적인개발을목적으로수행중인서울서베이는크게가구조사, 외국인조사그리고사업체조사의 3개부분으로구성되어있다. 가구조사의조사내용은인구, 경제, 도시발전과주거, 문화, 관광, 복지, 여성과가족, 환경, 교통정보와참여, 안전과재난, 가치와의식등의총 12개분야별지표와관련된문항으로구성되어있다. 외국인조사는동거유형, 삶의질만족도그리고서울의대표적관광지를묻는단순한문항으로구성되어있으며, 사업체조사는조세부담, 사업상의규제그리고행정편의성과관련된내용으로구성되어있다. 서울도시정책지표조사로명명되며서울서베이의가장큰부분을차지하는가구조사는서울시거주가구 ( 또는세대 ) 와 15세이상의모든가구원 ( 또는세대원 ) 을목표모집단으로정의하고있으나, 인구와가구유동성이높은서울시의특성상목표모집단과정확히부합하는적절한표본추출틀이존재하지않으며목표모집단과부합하는표본추출틀의설계또한용이하지않다. 본연구에서는먼저 2005년인구주택총조사기반표본추출틀을 2008년조사를위해사용할때발생할수있는대표성문제를, 통계청에서제공하고있는 2005년인구주택총조사기반통계와 2008년추계통계를바탕으로살펴본다. 또한 2005년인구주택총조사기반표본추출틀의시의성문제를해결하기위한방안으로주민등록 DB와과세대장 DB를이용한시의성있는표본추출틀의구축방법을소개하고이로부터 2008 서울서베이가구조사를위한표본추출과정을소개한다. Ⅱ. 표본추출틀의구축 2008년서울서베이가구조사의목표모집단은 2008년 9월 1일기준서울시전체거주가구 ( 또는세대 ) 와 15세이상의모든가구원 ( 또는세대원 ) 으로정의된다. 대부분의전국단위또는대형가구조사의경우통계청에서제공하는인구주택총조사의 90% 자료를표본추출틀로사용하게된다. 참고로인구주택총조사 10% 자료는통계청특수목적에의하여조사시 long form을이용하여구축된자료로일반에게표본추출틀로제공되지않는다. 인구주택총조사의 90% 자료를표본추출틀로사용하는경우기본관측단위는가구가되며 1차추출단위로는근접가구들의집합인조사구가주로사용된다. 통계청에서정의한가구의정의는 '1인또는 2인이상이모여취사, 취침등생계를같이하는생활단위 ' 로서일반가구
160 조사연구 와집단가구로구분된다. 일반가구와집단가구의정의는아래와같다. 1. 일반가구 1 통상가족단위로이루어져서생활을같이하고있는가구 ( 혈연가구 ) 2 친구또는혈연관계가없는사람들끼리모여생활을같이하고있는가구 ( 비혈연 5인이하가구 ) 3 혼자서살림하는가구 (1인가구 ) 2. 집단가구 1 집단시설가구 : 기숙사, 고아원, 양로원, 모자원, 특수병원등의사회시설내에서생활하는가구 2 비혈연 6인이상가구 : 혈연관계가없는 6인이상의사람들이모여동일한거처내에서생활을같이하고있는가구표본추출을위해인구주택총조사기반의표본추출틀을이용하는많은조사들은통상일반가구만을대상으로하는데, 여기에는비혈연가구가포함되며가정부, 기타가사사용인, 동거인 ( 점원, 견습인, 하숙인 ) 등이가구원으로간주된다. 이와는달리세대는주로가족몇사람이동거하여소득을통합하고, 공동으로지출 구입 소비를하는하나의조그만경제집단을말한다. 따라서동일가족이라해도별거하여수입과지출을달리하는경우에는그세대에포함될수없으며, 가족이아닌타인이동거하여수입과지출을같이하는경우에는세대원으로간주된다. 경제적의미가부여된세대는가구보다조금더세밀하게생활단위를구분하는경향이있음이알려져있으며세대의이동및주소와세대주같은기본적인정보는주민등록의내용을통해상시적으로갱신된다. 실제많은경우세대와가구는거의유사한개념으로사용되고있으며통계청주관조사의경우가구를기준으로한가구통계를제공하며, 기타행정자료의경우는주민등록상에등록된가구즉세대를기준으로한통계를제공하고있다. 최근제 5차국민건강조사와같은 1년또는단기주기의조사의경우, 인구주택총조사기반의가구조사대신주민등록자료기반의세대조사를이용하는사례가늘고있다. 2008년서울서베이가구조사를위한표본추출틀은세대를기본단위로하는주민등록자료를기본적으로사용하였다. 이는경제적생활단위인세대가가구에비해본조사의주내용인경제및문화활동의기반이된다는점과더불어상시갱신되는세대단위의주민등록자료가 5년단위로갱신되는인구주택총조사자료보다목표모집단을잘반영한다고여겨지기때문이다. 실제로 2008년서울서베이를위한표본을인구주택총조사기반표본추출틀에서
2008 서울서베이표본추출틀구축및표본추출사례연구 161 추출할경우이용가능한최근자료는 2005년에조사된자료이며, 따라서 2005 년자료를바탕으로작성된표본추출틀을이용할경우매해시행되는서울서베이조사결과의시의성에대한문제가있으리라판단된다. 이는특히가구와인구의유동성이많은서울과같은대도시의경우 3년간발생하는모집단의분포변화는상당하리라예측할수있기때문이다. < 표 1> 에서 < 표 4> 까지는통계청 (KOSIS: www.kosis.kr) 에서 2005년인구주택총조사결과를바탕으로작성한연령별, 성별모집단전체인구분포와 2008년추계인구분포를나타낸다. 2008년추계인구자료의경우각광역시 도별통계가제공되지않아 2005년과 2008 년인구분포의비교를위해서는전국기준분포를고려하였다. < 표 1> 을통해 2005년기준 20대의전체인구대비비율은감소하였으며, 60대이상의노인층의비율은증가했음을알수있다. < 표 3> 은 2005년기준각연령대별전국대비서울시의인구비율을나타내고있다. 전국대비 20 30대의구성비가서울에서높게나타나며 60대이상의노인층의비율은낮게나타나고있다. 이는인구의증감폭이크게나타나는연령대의서울인구비율이상대적으로크게나타나고있음을의미하며, 따라서 2005년인구주택총조사기반의표본추출틀을표본추출을위하여사용할경우추출된표본이서울시의연령별분포를왜곡할가능성이있음을시사한다. 또한 < 표 2> 는 2008년남 여의성비가 2005년과반대로나타남을보여주고있다. < 표 4> 에나타난전체인구대비서울시인구의성별비율이전국성별분포와유사함을볼때, 2005년인구주택총조사기반표본추출틀을 2008년서울서베이를위해사용할경우성별분포의왜곡이발생할수있음을짐작할수있다. < 표 1> 2005 년모집단및 2008 추계연령별전국인구분포 연령별 2005 인구주택총조사 2008 추계인구 ( 단위 : 명 ) 0~9세 5,551,237 11.80% 5,092,743 10.48% 10~19세 6,535,414 13.89% 6,642,016 13.66% 20~29세 7,333,970 15.59% 7,181,464 14.77% 30~39세 8,209,067 17.45% 8,283,010 17.04% 40~49세 8,023,940 17.06% 8,360,030 17.20% 50~59세 5,133,735 10.91% 6,018,796 12.38% 60~69세 3,568,920 7.59% 3,829,324 7.88% 70~79세 2,019,604 4.29% 2,372,507 4.88% 80세이상 665,547 1.41% 826,897 1.70% 합계 47,041,434 100.00% 48,606,787 100.00%
162 조사연구 < 표 2> 2005 년모집단및 2008 추계성별전국인구분포 ( 단위 : 명 ) 성별 2005 인구주택총조사 2008 추계인구 남 23,465,650 49.88% 24,415,883 50.23% 여 23,575,784 50.12% 24,190,904 49.77% < 표 3> 2005년모집단전국및서울시연령별인구분포 2005 인구주택총조사연령별전국 서울특별시 ( 단위 : 명 ) 0~9세 5,551,237 11.80% 991,679 10.16% 10~19세 6,535,414 13.89% 1,243,130 12.73% 20~29세 7,333,970 15.59% 1,835,235 18.80% 30~39세 8,209,067 17.45% 1,783,293 18.27% 40~49세 8,023,940 17.06% 1,633,559 16.73% 50~59세 5,133,735 10.91% 1,163,035 11.91% 60~69세 3,568,920 7.59% 701,502 7.19% 70~79세 2,019,604 4.29% 307,405 3.15% 80세이상 665,547 1.41% 103,708 1.06% 합계 47,041,434 100.00% 9,762,546 100.00% < 표 4> 2005년모집단전국및서울시연령별인구분포 2005 인구주택총조사성별전국서울특별시 ( 단위 : 명 ) 남자 ( 명 ) 23,465,650 4,837,112 20.61% 여자 ( 명 ) 23,575,784 4,925,434 20.89%
2008 서울서베이표본추출틀구축및표본추출사례연구 163 < 표 5> 2005 년모집단및 2008 추계가구구성별서울시가구분포 부부 1 세대기타 부부 + 자녀 한부모 + 자녀 부부 + 부모 2 세대기타 3 세대이상 ( 단위 : 가구 ) 1 인가구비친족가구 2005 364,596 107,657 1,442,057 317,607 19,639 122,488 213,458 675,739 46,649 11.02% 3.25% 43.57% 9.60% 0.59% 3.70% 6.45% 20.42% 1.41% 2008 400,135 110,254 1,505,043 336,130 21,987 122,336 219,117 718,940 43,873 11.51% 3.17% 43.28% 9.66% 0.63% 3.52% 6.30% 20.67% 1.26% < 표 6> 2005 년모집단및 2008 추계가구주의성별, 연령별서울시가구분포 가구주연령 2005 2008 ( 단위 : 가구 ) 0 14세 226 0.01% 219 0.01% 15 19세 10,842 0.33% 10,924 0.31% 20 24세 102,641 3.10% 81,547 2.34% 25 29세 242,698 7.33% 256,062 7.36% 30 34세 375,410 11.34% 351,629 10.11% 35 39세 396,766 11.99% 438,990 12.62% 40 44세 421,471 12.73% 413,732 11.90% 45 49세 452,314 13.67% 456,051 13.11% 50 54세 364,694 11.02% 417,558 12.01% 55 59세 304,723 9.21% 315,353 9.07% 60 64세 243,982 7.37% 259,164 7.45% 65 69세 181,899 5.50% 211,025 6.07% 70 74세 112,999 3.41% 139,131 4.00% 75 79세 60,304 1.82% 76,863 2.21% 80 84세 28,189 0.85% 34,650 1.00% 85세이상 10,732 0.32% 14,917 0.43% 가구주성 2005 2008 남자 2,529,317 76.42% 2,634,836 75.76% 여자 780,573 23.58% 842,979 24.24%
164 조사연구 < 표 5> 와 < 표 6> 은 2005년인구주택총조사결과와통계청이제공한 2008년서울시추계가구분포를나타내고있다. 가구구성별분포는비친족가구를제외하고그차이가크지않음을알수있다. 가구주의연령별두해의분포차이를살펴보면두해의분포의차이가유의함을알수있다. 2008년추계가구의분포를보면가구주의연령이 60세이상인가구의비율이높아졌으며가구주의연령이 30세이하인가구의비율은줄어든것을확인할수있다. 2008년추계가구주의연령별자료가제한적인이유로시간의경과에따른연령별분포를직접적으로비교할수없으나가구주의연령이 20 50세인가구의비율에도 2005년과 2008년사이에변화가있음을 < 표 6> 을통해알수있다. 즉통계청에서제공하고있는 2005년인구및가구모집단통계와이를바탕으로계산된 2008년추계결과를비교해볼때 2005년인구주택총조사기반표본추출틀을이용하여 2008 서울서베이표본을추출할경우, 기본적인인구학적변수기준표본의대표성에문제가발생할수있음을 < 표 1> 에서 < 표 6> 까지를통해서알수있다. 특별히인구나가구의이동이단시간내에빈번하게발생하는서울의경우 3년이경과된표본추출틀로부터추출된표본의대표성은심각하게훼손될것으로예측된다. 2005년인구주택총조사자료를표본추출틀로사용할경우에발생할수있는표본추출틀의대표성과시의성문제를해결하기위하여, 본연구에서는행정자료인주민등록 DB와과세대장 DB를연계시켜서 2008년 9월 1일기준세대주가서울시에거주하는세대들의리스트를표본추출틀로작성하여사용하였다. 주민등록 DB에는개인 ID, 세대주 세대원여부, 성, 연령, 거주지주소코드등의변수가있으며, 과세대장 DB에는주민등록 DB의주소코드와대응되는주소코드와주택유형을포함하는건물용도의변수가포함되어있다. 주민등록 DB와과세대장 DB의연계는주소코드를기준으로주민등록 DB에과세대장 DB 의건물용도변수를추가하여이루어졌다. 이후건물용도내에서정의된주택유형을각세대에부여하였다. 자료의특성상주민등록 DB와과세대장 DB는상시갱신되며, 따라서이두 DB의연계를통해서얻어지는표본추출틀은 2008년서울시거주자모집단을대표하는것으로간주될수있다. 또한주택유형으로일반가구와아파트가구만을고려하여약 60개의근접가구로정의된조사구를 1차추출단위로사용하는인구주택총조사기반표본추출틀과는달리, 본연구에서는과세대장 DB로부터얻을수있는보다구체적인주택유형정보를바탕으로각통 반내의동일한주택유형을갖는세대들을 1차추출단위로사용하였다.
2008 서울서베이표본추출틀구축및표본추출사례연구 165 < 표 7> 2005년모집단및 2008 서울서베이표본추출틀의성별, 연령별서울시가구주분포 ( 단위 : 가구 ) 가구주연령 2005 인구주택총조사 2008 서울서베이표본추출틀 0 14세 226 0.01% 1,203 0.03% 15 19세 10,842 0.33% 4,282 0.12% 20 24세 102,641 3.10% 76,242 2.10% 25 29세 242,698 7.33% 305,519 8.41% 30 34세 375,410 11.34% 388,370 10.69% 35 39세 396,766 11.99% 469,500 12.93% 40 44세 421,471 12.73% 440,077 12.12% 45 49세 452,314 13.67% 471,401 12.98% 50 54세 364,694 11.02% 426,341 11.74% 55 59세 304,723 9.21% 308,150 8.48% 60 64세 243,982 7.37% 255,695 7.04% 65 69세 181,899 5.50% 218,314 6.01% 70 74세 112,999 3.41% 138,139 3.80% 75 79세 60,304 1.82% 74,575 2.05% 80 84세 28,189 0.85% 35,815 0.99% 85세이상 10,732 0.32% 18,164 0.50% 가구주성 2005 인구주택총조사 2008 서울서베이표본추출틀 남자 2,529,317 76.42% 2,554,825 70.35% 여자 780,573 23.58% 1,076,962 29.65% < 표 7> 은 2008년주민등록 DB와과세대장 DB를연계하여얻은표본추출틀의가구주의연령별, 성별분포를나타내고있다. 표본추출틀의구성에있어서인구주택총조사기반표본추출틀과의비교를위하여근린생활시설, 교육연구시설, 종교시설그리고사무용오피스텔은제외시켰다. 편의상주민등록 DB와과세대장 DB를연계하여작성된표본추출틀을 2008 서울서베이표본추출틀로명명하였다. 두표본추출틀의비교를위해서는인구주택총조사자료의 2008년기준가구주의연령분포를사용하여야하나, 2008년기준각광역시도별그리고연령별통계량이제공되지않아 2005년모집단을직접비교하였다. 3년의시간및가구와세대의정의가다름에기인하여발생하는표본추출틀규모의변화를고려하더라도두표본추출틀의가구주또는세대주의연령및성별분포가매우다름을알수있다.
166 조사연구 가구주의성별분포의경우여성가구주의비율이 2008년서울서베이표본추출틀에서높게나타나고있으며, 20세미만의가구주와고령가구주의분포에있어서도두표본추출틀이큰차이를나타내고있다. 행정자료를이용한 2008 서울서베이표본추출틀의작성시발생하는연계과정상의오류와행정자료자체가갖는오류를인구주택총조사시발생하는비표본오류와동일한수준으로간주하거나또는이를무시하는경우, < 표 7> 을통해서우리는 2005년인구주택총조사기반가구모집단이가구주의성별, 연령별분포를올바르게반영하지못하고있다는사실을확인할수있다. < 표 8> 은 2005 인구주택총조사서울시가구수와 2008 서울서베이표본추출틀의세대수분포를각각나타낸다. 연립주택그리고기타부분을제외한모든주택유형에서 2008 서울서베이표본추출틀의세대수가 2005 인구주택총조사의가구수보다많게나타나나각주택유형별분포는상대적으로유사한것으로파악된다. 각주택유형별가구또는세대수의차이가크게나타나므로, 1차추출단위를정의함에있어서주택유형정보를이용하여 1차추출단위내의모든가구또는세대가동일한주택유형을갖도록하는것이바람직하다. 인구주택총조사자료의경우가구들로구성된조사구를크게아파트와일반조사구로구분하여정의하고있으나, 본연구에서는과세대장 DB로부터얻어지는각세대별구체적인주택유형정보를활용하여동일통 반내의동일주택유형을갖는세대들의집합을 1차추출단위로사용하였다. 결론적으로 2008 서울서베이를위한표본추출틀로는 3년간의인구및가구변동을고려할수없는 2005 인구주택총조사자료대신상시갱신되는주민등록 DB와과세대장 DB를연계한새로운표본추출틀을사용했다. 조사구를 1차추출단위로사용하는대부분의인구주택총조사기반가구조사와는달리이용가능하며보다상세한각세대별주택유형을고려한 1차추출단위를정의하여 2008 서울서베이표본을추출하였다. < 표 8> 서울시가구수와세대수비교 2005 인구주택총조사서울시가구수 ( 단위 : 가구, 세대 ) 2008 서울서베이표본추출틀서울시세대수 단독, 공동주택 1,404,272 43.36% 1,611,355 44.37% 아파트 1,218,779 37.63% 1,283,591 35.34% 다세대주택 414,983 12.81% 556,836 15.33% 연립주택, 기타 200,434 6.19% 180,005 4.96% 총합 3,238,468 100.00% 3,631,787 100.00%
2008 서울서베이표본추출틀구축및표본추출사례연구 167 < 표 5> 에서 < 표 8> 을통한두표본추출틀의비교에있어두표본추출틀모두유한모집단전수에대한분포이므로통계적유의성을직접논의하기어렵지만, 유한모집단이가상의무한모집단으로부터의표본임을가정하여도각표의범주별관측치의수가매우크기때문에모든범주별두표본추출틀의차이는통계적으로유의하게나타난다. Ⅲ. 표본추출 2008 서울서베이를위한표본추출을위해서는 2단계층화집락추출이사용되었다. 세대의집합이자 1차추출단위인집락은기본적으로동일통 반내의세대들로정의되나동일통 / 반내여러형태의주택유형이존재하는경우동일한주택유형을갖는세대들의집합으로정의되었다. 2차추출단위로는집락내의세대가정의되었다. 새롭게정의된집락을편의상서울서베이집락으로명명한다. 따라서구성된서울서베이집락내의세대들은층화변수로사용된구, 동그리고주택유형에대하여동일한값을갖게된다. 2008 서울서베이표본추출틀을이용하여구성된서울서베이집락의수는 109,173개이며각집락의평균세대수는약 33세대이다. 모집단의층화를위하여사용된변수로는각구의행정동 (460) 과주택유형 (4) 을고려하였다. 주택유형의경우단독, 공동주택 / 아파트 / 다세대주택 / 연립주택, 기타의범주를고려하였다. 층화변수로지역과주택유형이사용된이유는각주택유형과지역별로생활패턴이다르다는기존조사결과를바탕으로한경험적지식과, 또한각구별로통계적으로정도가높은통계작성을위한최소표본을확보하기위함이다. 서울서베이조사초기인 2003년부터지역과주택유형변수가층화변수로사용되어왔다. 각층으로부터추출될서울서베이집락수의결정은적절한수준의정도를갖는각구별통계량의산출에필요한세대수를바탕으로이루어졌다. 즉서울서베이집락의층별분포를이용한층별집락의수를결정하는배분방법이아닌각층별세대수분포를이용하여층별표본세대수를정의하고이를바탕으로필요한집락의수를결정하였다. 이때각서울서베이집락내에서의추출세대수를 5세대이하로제한하여충분한수의서울서베이집락이추출되도록하였다. 이는집락내의세대들이동일한주택유형을가지며지리적으로근접함으로써본조사의주내용인문화, 경제적행태가유사할것을예측할수있기때문이다. 효율적인집락추출방법과관련해서는 Cochran(1977) 과 Sarndal et al.(1992) 를참조하면된다.
168 조사연구 각구별세대의표본배분을위해서는구별최소표본세대수인 400 세대를만족하며층별표본세대수의변동이단순비례배분보다적은제곱근비례배분을사용하였다. 이는단순비례배분의경우모집단층규모에따라각층별로배분되는표본의크기가매우다르게나타나며따라서적은수의표본이배분된층또는관심모집단의통계량의신뢰도가매우떨어지는것을막기위함이다. 즉비례배분의장점및관심부모집단통계의통계적정도를유지하기위하여제곱근비례배분이사용되었다. 각구에서동별, 주택유형별표본배분은단순비례배분을통하여이루어졌다. 배분결과얻어진서울서베이표본집락수는 4,940ro 이며표본세대수는 20,000 세대이다. 추출된집락과세대수는전체집락과세대의각각 4.5% 와 0.6% 에해당한다. 이는집락내의세대간높은유사성을고려하여충분한수의서울서베이집락을추출함으로조사결과의정도를높이기위함이다. < 표 9> 와 < 표 10> 은구별, 주택유형별표본세대수의분포를나타낸다. 각동별표본배분결과를위해서는서울특별시 (2009) 를참조하면된다. 각층에서 1차추출단위인서울서베이집락을추출하기위해서는집락내의세대수를이용한확률비례추출법을이용하였고추출된서울서베이집락내의 2차추출단위인세대추출을위해서는단순임의추출법을사용하였다. 2008 서울서베이가구조사를위하여설명된표본추출과정을통해얻어진표본자료를분석하기위해서는통계적이론에근거하여산출된가중치를통계처리과정에적용하여야한다. 일반적으로조사자료에부여되는가중치는표본추출과정에서부여되는표본가중치, 무응답에대한조정그리고사후층화또는레이킹에의한조정등의세가지요인을통합하여산출된다. 설명된표본추출과정을통하여얻어진 h 번째층의 i 번째집락내의 j 번째세대에부여되는표본가중치는표본추출확률의역수로아래와같이정의된다. (1) 여기서 h 번째층의 i 번째집락의추출확률은 로서 는 h 번째층 의 i 번째집락내의총세대수를나타내며, n h 는 h 번째층에서추출된표본서울서베이 집락의수이며 이다. h 번째층의 i 번째집락이 1 단계에서추출되었다는 조건하에서의집락내의세대가표본에추출될조건부확률은 로 m h 는 집락에할당된표본세대수이다.
2008 서울서베이표본추출틀구축및표본추출사례연구 169 < 표 9> 각구별표본세대수배분 구서울서베이표본추출틀표본 ( 단위 : 세대 ) 종로구 61,926 1.71% 530 2.65% 중구 42,059 1.16% 437 2.19% 용산구 88,958 2.45% 634 3.17% 성동구 115,173 3.17% 722 3.61% 광진구 147,604 4.06% 817 4.09% 동대문구 140,814 3.88% 798 3.99% 중랑구 163,145 4.49% 859 4.30% 성북구 164,021 4.52% 861 4.31% 강북구 129,641 3.57% 766 3.83% 도봉구 128,082 3.53% 761 3.81% 노원구 203,486 5.60% 959 4.80% 은평구 166,883 4.60% 869 4.35% 서대문구 125,286 3.45% 753 3.77% 마포구 143,167 3.94% 805 4.03% 양천구 162,504 4.47% 857 4.29% 강서구 192,391 5.30% 933 4.67% 구로구 147,194 4.05% 816 4.08% 금천구 87,495 2.41% 629 3.15% 영등포구 145,601 4.01% 812 4.06% 동작구 148,867 4.10% 821 4.11% 관악구 214,200 5.90% 984 4.92% 서초구 142,306 3.92% 802 4.01% 강남구 202,798 5.58% 958 4.79% 송파구 218,963 6.03% 995 4.98% 강동구 149,223 4.11% 822 4.11% 합계 3,631,787 100.00% 20,000 100.00%
170 조사연구 < 표 10> 주택유형별표본세대수배분 ( 단위 : 세대 ) 단독주택 ( 공동주택 ) 아파트 다세대주택 연립주택기타 모집단 1,611,355 (44.4%) 1,283,591 (35.3%) 556,836 (15.3%) 180,005 (5.0%) 표본 9,049 (45.2%) 6,900 (34.5%) 3,043 (15.2%) 1,008 (5.0%) 추출된가구를대상으로조사를진행하게될때응답거절이나이사등으로인한단위무응답의발생은필연적이다. 조사과정에서발생하는이러한단위무응답을보정하기위하여식 (1) 에서정의된표본가중치를조정하게된다. 무응답처리를위한가중치보정방법으로는무응답패턴이유사한셀을구성하여각셀내응답률을바탕으로무응답으로인한가중치보정을실시하는셀무응답보정또는무응답여부와이용가능한보조변수들간의관계에대한모형을설정하고응답확률을예측하여이를바탕으로가중치를보정하는성향점수 (propensity score) 방법등을고려할수있다. 표본추출틀의구축시기와조사시점간의시간적인차이가있거나표본설계시반영할수없었던모집단분포와표본분포를일치시키기위하여무응답보정이이루어진후에사후충화혹은레이킹이흔히이루어진다. 2008 서울서베이가구조사의경우, 표본추출틀의구성시기와조사시점이거의일치하며표본설계시중요한보조변수들이모두고려되었으므로무응답보정후추가적인가중치보정은요구되지않을것으로예측된다. 무응답처리와사후층화그리고레이킹에대하여서는 Deville et al.(1993), Fuller(2002) 및 Kott(2006) 를참조하면된다. 표본가중치에무응답보정과사후층화또는레이킹과정을통해정의된가중치를 라할때이를이용하여정의되는관심변수 의모집단총합에대한불편추정량으로 Horvitz-Thompson(1952) 추정량 (2) 을사용할수있다. 여기서 S는추출된세대표본을나타낸다. 모집단의평균에대한추정량으로는다음의두추정량으로 Horvitz-Thompson 추정량
2008 서울서베이표본추출틀구축및표본추출사례연구 171 (3) 과비추정량 (4) 을고려할수있다. 여기서 M은모집단전체세대수를의미한다. 추정량 (3) 은모집단평균에대한불편추정량이며 (4) 는근사불편추정량이다. 본조사의경우표본세대의수가충분히크기때문에추정량 (4) 의편의는무시할수있을것으로고려된다. 각집락별세대의크기가다른경우비추정량형식의추정량 (4) 가더효율적임이알려져있고, 따라서모집단평균의추정량으로는 (4) 를사용한다. 비추정량의효율성에관해서는 Cochrane (1977) 과 Sarndal 외 (1992) 를참조하면된다. 한편제시한추정량 (4) 에대한분산추정량으로서는 를사용할수있다. 여기서, 이 다. 추정량 (4) 에대한상대표준오차로는 를사용할수있다. 분산추정량과상대표준오차에대한보다자세한내용은 Lohr(1999) 와 Scheaffer(2006) 를참조하면된다.
172 조사연구 Ⅳ. 토의및결론 2005년서울서베이조사의한부분인가구조사를위한표본추출틀의작성과이로써표본추출방법을본연구에서는소개하였다. 조사가매해수행되는즉조사주기가 1년인서울서베이의경우, 유동성이심한서울시의인구와가구의변동을감안한표본추출틀의구축이매우중요하다. 5년주기로갱신되는인구주택총조사 90% 자료를이용한표본추출틀의경우인구주택총조사시점으로부터실제표본조사시점까지의시차가커짐에따라표본추출틀의모집단대표성이심각하게훼손될수있음을살펴보았다. 본연구에서는 3년이지난 2005년인구주택총조사기반표본추출틀의시의성문제를해결하기위해주민등록 DB 와과세대장 DB를연계한새로운표본추출틀의구성을제안하였고, 이로부터각세대별주택유형정보를활용한서울서베이집락을구성하고충분한수의집락을추출하는표본추출법을제안하였다. 제안된표본추출틀과표본추출법을통해얻어진표본은, 새롭게구성된표본추출틀의적절한모집단대표성과충분한표본집락수, 그리고집락내의세대수를크기변수로활용한확률비례표본추출로써효율적인추정량을제공하리라기대된다. 참고문헌 서울특별시 2009. 2008년서울서베이보고서. Cochran, W. G. 1977. Sampling Technique. New York: Wiley. Deville, J. C., Sarndal, C. E. and Sautory, O. 1993. "Generalized Raking Procedures in Survey Sampling. Journal of the American Statistical Association 88: 013-1020. Suller, W. A. 2002. "Regression Estimation for Survey Samples. Survey Methodology 28: 5-23. Horvitz, D. G. and Thompson, D. J. 1952. "A Generalization of Sampling Without Replacement from a Finite Universe. Journal of the American Statistical Association 47: 663-685. Kott, P. S. 2006. "Using Calibration Weighting to Adjust for Nonresponse and Coverage Errors. Survey Methodology 32: 133-142. Lohr, L. L. 1999. Sampling: Design and Analysis. Duxbury Press. Sarndal, C. E., Swensson, B. and Wretman, J. 1992. Model Assisted Survey Sampling. Springer. Scheaffer, R. L., Mendenhall, W. and Ott, R. L. 2006. Elementary Survey Sampling. Thomson. [ 접수 2009/8/20, 1 차수정 2009/10/9, 2 차수정 2009/10/25, 게재확정 2009/10/29]