<C1B6BBE7BFACB1B82032B1C72031C8A BFACB1B8B3EDB9AE29202D20C0CCB1E2C0E72E687770>

Similar documents
ºñÁ¤±ÔħÇغ¸°í¼�.hwp

출산전후근로및임금동학에관한연구 첫자녀출산과연계된경력단절및복귀를중심으로 I. 서론

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

ºñÁ¤±Ô±Ù·ÎÀÇ ½ÇÅÂ¿Í °úÁ¦.hwp

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

hwp

< B0E6C3D12D4A424620BBF3C8A3B1B3B7F9C7C1B7CEB1D7B7A520C8B8C0C720C0DAB7E12028C3BBB3E2BDC7BEF72928BCADBFB5C1F8292E687770>

수도권과비수도권근로자의임금격차에영향을미치는 집적경제의미시적메커니즘에관한실증연구 I. 서론

<C0CEB1C7C0A7C3D6C1BEBAB8B0EDBCAD28BCF6C1A4BABB E687770>

< 차례 > Ⅰ. 조사개요 1 Ⅱ. 통계의작성목적및이용 6 Ⅲ. 조사설계 12 Ⅳ. 자료수집 50 Ⅴ. 행정자료활용 87 Ⅵ. 자료처리 91 Ⅶ. 통계추정및분석 99 Ⅷ. 통계공표관리및이용자서비스 115 Ⅸ. 통계기반및개선 132 Ⅹ. 참고문헌 141

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

한국정책학회학회보

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>


일러두기 노사정위원회합의문중관련내용은부록참조 유형간중복을제거한비정규직규모는 < 참고 2> 를참조

순 서 고용부문잠정결과 종사자동향월말기준 노동이동월중 입직 이직 근로실태부문 월급여계산기간기준 임금 근로시간 월누계근로실태 시계열자료 사업체노동력조사개요

슬라이드 1

발간등록번호대한민국의새로운중심 행복도시세종 2015 년기준 사업체조사보고서 Report of The Census on Establishments

10. ..

조사연구 권 호 DOI 연구논문 몽골의가축통계조사를위한표본설계연구 A Study on Sampling Design for the Mongolian Livestock Statistics Survey 주제어

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

G Power

일러두기 노사정위원회합의문중관련내용은부록참조 예 ) 일정수준임금이하또는이상의근로자를기준으로저 ( 최저 ) 임금근로자규모 ( 비중 ) 또는고임금근로자규모 ( 비중 ) 등을산출하는경우

statistics

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

hwp

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

조사연구 aim of this study is to find main cause of the forecasting error and bias of telephone survey. We use the telephone survey paradata released by N

공휴일 전력 수요에 관한 산업별 분석

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

에듀데이터_자료집_완성본.hwp

슬라이드 1

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

???? 1

DBPIA-NURIMEDIA

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint

<4D F736F F F696E74202D20C1A636C1D620C7A5BABBC3DFC3E2B9E6B9FD20B0ADC0C72E >

에너지경제연구제 16 권제 1 호 Korean Energy Economic Review Volume 16, Number 1, March 2017 : pp. 95~118 학술 탄소은행제의가정용전력수요절감효과 분석 1) 2) 3) * ** *** 95

이연구내용은집필자의개인의견이며한국은행의공식견해 와는무관합니다. 따라서본논문의내용을보도하거나인용 할경우에는집필자명을반드시명시하여주시기바랍니다. * 한국은행금융경제연구원거시경제연구실과장 ( 전화 : , *

외국인투자유치성과평가기준개발

II. 기존선행연구

(Microsoft PowerPoint - Ch19_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

조사연구 whether this expansive monitoring system might basically achieve the improvement in statistical quality capturing problems in survey research. Ba

MRIO (25..,..).hwp

¿©¼ººÎÃÖÁ¾¼öÁ¤(0108).hwp

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

R t-..

비선형으로의 확장

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

hwp

untitled

조사연구 권 호 연구노트 1) 가구방문조사에서무응답보정을위한파라데이터활용 * : 국제성인역량조사사례분석을중심으로 Using Paradata in Nonresponse Adjustment for a Household Interview Survey: Case Study o

에너지경제연구 제12권 제2호

4 _ 한국지역정보화학회기획세미나발표논문집

자료분석론 - 국민건강영양조사 분석

Microsoft PowerPoint - chap_11_rep.ppt [호환 모드]

hwp

고객관계를 리드하는 서비스 리더십 전략

제 4 장회귀분석

164

<B3EDB4DC28B1E8BCAEC7F6292E687770>

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

장연립방정식을풀기위한반복법 12.1 선형시스템 : Gauss-Seidel 12.2 비선형시스템 12.1 선형시스템 : Gauss-Seidel (1/10) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정

자료의 이해 및 분석

슬라이드 1

ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행

Microsoft PowerPoint - SBE univariate5.pptx

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할


歯4차학술대회원고(장지연).PDF

시스템경영과 구조방정식모형분석

MATLAB for C/C++ Programmers

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

조사연구 sampling error of polling sites and the additional error which comes from non-response, early voting and second stage sampling error of voters in

일시 : 2013 년 6 월 12 일 ( 수 ) 10:00 ~ 18:00 장소 : 중소기업중앙회중회의실 (2 층 ) 주최 : 한국경제연구원 ( 사 ) 한국규제학회 ( 사 ) 한국규제학회 Korea Society For Regulatory Studies

특집....,.,., (good jobs) (rent-sharing) (fairness)..... Ⅱ. 임금과생산성구조의분석모형 ) 1),,,, 2_ 노동리뷰


슬라이드 1

저작자표시 - 비영리 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 이차적저작물을작성할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물

숙련기술인의경제적 사회적지위 분석을위한측정지표개발

에너지경제연구 Korean Energy Economic Review Volume 17, Number 1, March 2018 : pp. 37~65 가정부문전기수요의결정요인분석 : 동태적패널 FD GMM 기법을중심으로 37

2

05 ƯÁý

Resampling Methods

PowerPoint 프레젠테이션

- ii - - iii -

<B0A3C3DFB0E828C0DBBEF7292E687770>

PowerPoint 프레젠테이션

슬라이드 1

모수 θ의 추정량은 추출한 개의 표본값을 어떤 규칙에 의해 처리를 해서 모수의 값을 추정하는 방법입니다. 추정량에서 사용되는 규칙은 어떤 표본을 추출했냐에 따라 변하는 것이 아닌 고정된 규칙입니다. 예를 들어 우리의 관심 모수가 모집단의 평균이라고 하겠습니다. 즉 θ

슬라이드 1

2 / 27 목차 1. M-plus 소개 2. 중다회귀 3. 경로모형 4. 확인적요인분석 5. 구조방정식모형 6. 잠재성장모형 7. 교차지연자기회귀모형


ad hwp

ePapyrus PDF Document

Transcription:

복합표본조사데이터분석을위한회귀모형접근법의비교 1) - 소규모사업체조사데이터분석을중심으로 - Comparison of regression model approaches fitted to complex survey data 이기재 2) Kee Jae Lee 본논문은복합표본조사분석에서회귀모형접근법으로사용되는모형기반접근법, 설계기반접근법과일반화추정방정식접근법을설명하고, 이들을실증적으로비교한것이다. 또한설계기반접근법과일반화추정방정식접근법에대해서설계효과와가중치효과분석을통해서표본설계가모수추정에미치는영향을살펴보았다. In this paper, we conducted an empirical study to investigate the design and weighting effects on descriptive and analytic statistics. We compared the regression models using the design-based approach and the generalized estimating equations(gees) approach with the model-based approach through the design and weighting effects analysis. Ⅰ. 서론 본연구는노동부에서매년실시하고있는소규모사업체근로실태조사데이터를분석하여복합표본설계가회귀모형에미치는영향을실증적으로분석한것이다. 소규모사업체근로실태조사는상용근로자 5인미만의사업체를대상으로임금, 정상및초과근로시간, 근로일수등의근로실태에대한정기적인공식통계작성을위해사용되고있다. 이조사는층화1단계집락추출법에의해서 14,942개사업체를표본으로추출하여표본사업체내의전체상용근로자를조사하였다 ( 이기재등, 1999). 현재우리나라에서시행되고있는사업체대상조사에서는산업대분류별, 직종별, 사업체규모별, 성별, 학력별등다양한하부영역에대해서추정치를작성하여발표하고있다. 이렇게세부영역에대한추정치생산을위해서는규모가작은영역에대해서상대적으로높은추출률로표본을추출해야하고, 이렇게추출단위에따라서추출률에차이가있으면추정과정에서가중치를이용해야한다. 가중치는추출단계에서의추출률뿐만아니라무응답조정 (nonresponse adjustment), 사후층화조정 (post-stratification adjustment) 등을위해서도필요하다. 만약추정단계에서가중치 1) 본연구는한국과학재단의 99 년도후반기박사후해외연수프로그램에의해서재정적지원을받아작성되었습니다. 2) 한국방송통신대학교정보통계학과부교수, kjlee@mail.knou.ac.kr - 1 -

를무시하고분석하면추정치에심각한편향이발생할수있다. 우리나라의대부분국가조사또는대규모표본조사에서는층화 (stratification), 집락추출 (cluster sampling), 불균등확률추출등이복합적으로사용된복합표본설계 (complex sample design) 에따라표본을추출하여조사하고있다. 일반적으로복합표본조사데이터를분석하는경우에표준통계소프트웨어패키지들은가중분석을지원하기때문에관심모수에대해서비편향점추정값을얻는데는어려움이없다. 그러나통계소프트웨어패키지로가중치를이용한분석을하는경우에도분산추정에는심각한오류가발생하게된다 ( 성내경, 2000). 소규모사업체근로실태조사는층화와집락추출등이복합적으로사용된복합표본설계에의해서얻어진표본을대상으로조사한다. 또한소규모사업체근로실태조사는표본의모집단에대한대표성을높이고, 추정량의정도 ( 精度 ) 를높이기위해서모집단 ( 사업체기초통계조사 ) 의정보를추정단계에서이용하는사후층화의기법을사용하고있다. 본논문에서조사된데이터의분석은복합표본조사분석용통계소프트웨어인 SUDAAN을이용하였다. 전체적인논문내용은 2장에서소규모사업체조사의전체적인측면과복합표본설계가각종통계량의추정에미치는영향에대해서설명하고, 3장에서복합표본조사데이터에회귀모형을적합하는경우에고려할수있는접근법인모형기반접근법 (model-based approach), 표본설계기반접근법 (design-based approach), 일반화추정방정식 (generalized estimating equations : GEEs) 접근법등을설명한다. 4장에서는소규모사업체조사결과에각접근법에따라회귀모형을적합하여회귀계수추정량의편향과분산측면에서비교한다. 마지막으로 5장에서는간단한결론을덧붙인다. Ⅱ. 소규모사업체조사의표본설계 1. 조사개요 소규모사업체근로실태조사는상용근로자수가 5인미만인사업체를대상으로임금, 정상및초과근로시간, 근로일수등의근로실태를조사하는것을목적으로한다. 조사결과는상용근로자 5인미만사업체에대한정기적인임금, 근로시간등의공식통계작성에이용되고있다. 조사항목은크게사업체에관한사항과근로자에대한사항으로구분되는데각각에대한주요조사항목은다음과같다. 사업체에관한주요조사항목 : 해당사업체의산업대분류구분, 사업체의형 - 2 -

태, 임금인상여부, 퇴직금지급여부에대한사항, 휴가실시에대한사항, 업무상치료에대한사항, 성별상용근로자수등 근로자에대한주요조사항목 : 성별, 연령, 학력, 입직경로, 근속년수, 경력년수, 직종, 출근일수, 실근로시간, 월급여액, 연간특별급여액등 이조사의대상은농업, 임업, 어업, 수렵업등과국가또는지방행정기관, 군 경찰및국 공립교육기관을제외한사업체노동실태조사결과중상용근로자 5인미만의전사업체이다. 이조사는층화1단계집락추출법에의해서 14,942개사업체를추출하여표본으로추출된사업체내의모든상용근로자들을조사한다. 표본으로추출된상용근로자에부여되는가중치는특정응답자가전체모집단에대해대표하는정도를나타내고, 모집단특성치에대한비편향추정량을얻기위해서사용된다. 일반적으로가중치는설계가중치, 무응답조정, 사후층화조정요인의곱으로구해진다. 다음의 < 표 1> 은표본으로추출된근로자에대해서부여된가중치에대한기술통계량요약이다. < 표 1> 가중치에대한기술통계량요약 구분최소값 남자 (n=19,580) 2.78 여자 (n=13,536) 1.00 전체 (n=33,116) 1.00 25% 8.79 10.76 8.79 중앙값 75% 19.60 75.12 40.42 111.47 26.28 89.01 최대값평균 154.13 41.40 123.23 56.52 154.13 41.58 CV(%) 98.95 81.34 91.89 2. 표본설계및가중치효과 복합표본설계가추정량에미치는효과는설계효과를통해서평가될수있다. 설계 효과 (design effect: DEFF) 는복합표본설계에따라구해진추정량의분산과같은크 기의표본을단순임의추출법에따라서추출되었다고가정하여구한분산의비 (ratio) 이다. 어떤조사설계 D에대해서모수 θ 의추정량으로 θ 을사용할때설계효과 (DEFF) 는다음과같이추정될수있다. deff ( θ)= V D ( θ) V SRS ( θ) (1) - 3 -

대부분의경우집락추출법이적용되면설계효과는 1보다크게나타나는데, 그의미는우리가고려하고있는조사설계가같은표본크기의단순임의추출법에비해서추정량의분산이커짐을의미한다. Kish와 Frankel(1974) 은실증적분석을통해서모평균, 모비율, 선형회귀계수등에대해서복합표본설계의설계효과를평가하였다. 일반적으로설계효과는다양하게사용될수있는데, 예를들어복합표본조사의유효표본크기 (effective sample size) 를구하거나통상적인방법으로추정량의분산을계산할수없는경우에이를근사적으로추정하는방법으로사용될수있다. 일반적으로추정과정에서가중치를무시하고분석하면모수추정에심각한편향이발생할수있다. 반면에추정과정에서가중치를이용할경우에는일반적으로추정량의표준오차 (standard error) 가증가한다. 불균등가중치를사용함으로써발생하는추정량의표준오차증가분에대한추정방법은 Kish(1965), Korn과 Graubard(1995) 등에의해서제안되었다. 다음의 < 표 2> 는주요관심변수에대하여모평균추정을위해서가중평균을사용하는경우의설계효과와비가중평균을사용할때발생하는편향의크기를정리한것이다. 복합표본조사데이터를분석할때층화, 집락추출, 가중치등의표본설계를분석단계에서반영하지않으면모수의점추정치에심각한편향이발생할수있고, 추정량의분산이과소평가되어문제가된다. < 표 2> 가중평균에대한설계효과와비가중평균에대한편향 변수가중평균설계효과비가중평균편향 (%) 월급여액 880.15 2.75 905.32 2.86 ln( 월급여액 ) 6.70 2.86 6.73 0.45 정상근로시간 212.08 3.78 208.22-1.82 초과근로시간 21.04 3.57 16.49-21.63 나이 33.69 2.38 34.57 2.61 Ⅲ. 복합표본조사데이터분석을위한회귀모형접근법들 1. 모형기반접근법 일반적으로복합표본조사를통해서얻어진데이터에회귀모형을적합하는방법은 (i) 모형기반접근법, (ii) 설계기반접근법, (ⅲ) 일반화추정방정식접근법등으로 - 4 -

구분할수있다. 모형기반접근법은추정과정에서표본설계나가중치를고려하지않는방법으로회귀계수의추정을위해서최소제곱법 (ordinary least square method: OLS) 을이용하며복합표본조사이외의분야에서통상적으로사용되고있다. 그러나복합표본조사데이터에대해모형기반접근법에따라회귀계수를추정하면추정치에편향이발생하고, 추정량의분산이과소평가되어문제가된다. 일반적으로표본의크기가작거나약간큰정도인경우통계모형을적용할때중요한것은가능한단순한모형을통해서가장효율적인방법으로모수를추정하는것이다. 반면에표본의크기가상당히큰복합표본조사분석에서중요한것은추정의효율성보다는모형가정이성립하지않는경우에대한강건성 (robustness) 이다. 2. 설계기반접근법 설계기반접근법은표본이추출된모집단이있다는기본적인가정에서출발한다. 이접근법에서는모형의회귀계수벡터 β를추정하는대신에모집단특성치인 B=(X' X) -1 X' y를추정하는것을목적으로한다. 여기서 y는반응변수 ( 종속변수 ) 에대한유한모집단의전체값들을뜻하고, X는유한모집단에대한설명변수행렬이다. 결과적으로설계기반접근법은 B=(X' X) -1 X' y 자체를하나의모수로간주해서추정하는것이다. 일반적으로회귀모형을적합하는중요한이유는현재의데이터를생성하였다고볼수있는회귀모형을적합하여그계수를추정하는것이라고할수있다. 설계기반접근법은이러한적합된회귀모형의의미를약하게하는측면이있지만전체적으로회귀모형접근법의확장된개념으로볼수있다 (Kott, 1991). 가중치를이용하는설계기반접근법에의한회귀계수추정방법은일부설명변수가분석에서누락되는경우에도상당히강건한추정방법으로알려져있다 (Pfeffermann 과 Holmes, 1985). 따라서회귀모형의설명변수들중에누락된설명변수가있을것으로판단되는경우에는설계기반접근법을이용하여추정하는것이바람직하다. 한편회귀계수추정량에대해서복합표본조사분석용통계소프트웨어에서널리사용되고있는선형화방법을적용하면오차항에대한통상적인가정인독립성과등분산성등이위배되어도근사적인비편향추정이가능한장점이있다. 3. 일반화추정방정식접근법 일반화추정방정식접근법 (GEE 접근법 ) 은일반화선형모형 (generalized linear model) 에서관측치간에서로상관관계가있는경우에이를반영하기위한방법으로 - 5 -

소개되었다. GEE 접근법은관측치가이산형과연속형모두의경우에적용될수있는일반적인접근법이지만본논문에서는회귀모형인경우로국한하여설명한다. GEE 접근법은모평균에대한함수를설명변수의선형함수로정의하고, 관측치에대한엄밀한분포가정을필요로하지않아서관측치간의의존성이존재하는경우에도분석할수있다는장점이있다. 또한관측치간에가정된상관관계모형이실제와다른경우에도 GEE 접근법으로추정된결과는일치성을만족하고, 추정량의분포가점근적으로정규분포를따르게된다 (Liang과 Zeger, 1986). 집락추출을통해서얻어진데이터에대한분석에서같은집락에소속된서로다른두조사단위는서로같은정도로상관관계를갖고, 서로다른집락에속한조사단위는서로독립적이라고가정할수있다 (Bieler와 Williams, 1995). 소규모사업체조사의경우에같은사업체에속한근로자들은이와같은가정을만족한다고볼수있다. 이조사에서월급여액의로그변환값 ( 종속변수 ) 에대한급내상관계수는 ρ Y =0.612로나타났다. 따라서같은사업체내에서근로자들의월급여액은상당히유사성이있다고할수있다. 설계기반접근법은기본적으로오차항에대한가정을필요로하지않기때문에급내상관계수 (intracluster correlation coefficient) 가존재하는경우에도사용될수있지만모수추정단계에서급내상관계수가사용되는것은아니다. 반면에 GEE 접근법은모수추정단계에서급내상관계수를이용하며, 집락내의관측치들이서로독립이라고가정할수있는경우에 GEE 접근법과설계기반방법은근사적으로같다. SUDAAN에서설계기반접근법은 GEE 접근법의특수한경우 ( 급내상관계수 ρ =0 인경우 ) 로간주하여추정할수있다 (Shah 등, 1997). Ⅳ. 소규모사업체조사에대한회귀모형의비교 1. 회귀모형적합 본연구에서는좀더신뢰성이있는회귀계수와그분산추정을위해서표본의크기가작은광업과제조업을합치고가스, 수도및전기업과건설업을합쳐서분석하였다. 제시되는결과중에서통상적최소제곱법 (OLS) 에의한결과는 SAS의 PROC REG 절차를통해서구해졌고, 설계기반접근법과 GEE 접근법에의한분석결과는 SUDAAN을이용해서구해진것이다. 여기서회귀모형의종속변수는월평균임금총액에로그를취한값이다. 한편산업대분류, 지역구분, 사업체크기등은사업체단위의독립변수이고, 직종, 학력, 근속년수, 성별, 근로시간등은근로자단위의독립변 - 6 -

수이다. 다음의 < 표 3> 은회귀모형에서사용된독립변수와종속변수를정리한것이다. < 표 3> 회귀모형의적합에사용된독립변수와종속변수목록 변수이름 변수종류 가변수명 ([ ] 안은기준집단임 ) 비고 광업 + 제조업, 수도 가스 전기 + 건설 업, 도 소매업, 음식 숙박업, 운 산업대분류가변수 (10) 수 창고 통신업, 금융 보험업, 부사업체단위동산업, 교육서비스업, 건강 사회변수서비스업, [ 기타서비스업 ] 지역 가변수 (3) 서울, 광역시, [ 시 군지역 ] 근로자수 연속형 관리자 및 입법자, 전문가, 기술공 직종 가변수 (8) 및준전문가, 사무직원, 판매원, 기능근로자, 장치조작원, [ 단순노무직 근로자 ] 근로자단위중학교졸업이하, 고등학교졸업, 학력가변수 (4) 변수전문대졸업, [ 대학졸업이상 ] 성별 가변수 (2) 남성, [ 여성 ] 종사기간 연속형 연령 연속형 2. 설계및가중치효과분석 이절에서는부록에제시되어있는설계기반접근법과 GEE 접근법에의한회귀계수추정량의분산에대해서살펴본다. 일반적으로 GEE 접근법에의한추정은설계기반접근법에비해서효율적이다. GEE 접근법이효율적인것은급내상관계수가존재하는경우에이정보를모수추정단계에서사용하기때문이다. 일반적으로복합표본조사의표본크기는대단히크기때문에회귀모형의적합에서중요한관심은효율적인회귀계수의추정보다는모형에대한가정이어긋나는경우에강건성을만족하는가여부이다. 일반적으로설계기반접근법에의한회귀계수추정은모형기반접근법에비해서모형가정에대한위배에대해서강건하지만효율이떨어진다는점은널리알려져있다. 일반적으로 OLS에의한회귀계수및그분산추정법을복합표본조사에적용하면회귀추정량에편향이생기고, 분산추정에문제가발생한다. 본연구에서도회귀모형 - 7 -

을적합시킨결과통상적인모형기반방법은상당한편향이발생하는것으로나타났다. 특히직종변수에대한회귀계수추정에대한편향이심각해서 29.2%~91.7% 로나타났다. 모형기반접근법에대한각회귀계수의편향은부록에수록된표에서계산될수있다. 다음의 < 표 4> 는설계기반접근법과 GEE 접근법에대해서 32개회귀계수추정량에대한설계효과를정리하여요약한것이다. < 표 4> 각접근법에대한회귀계수추정에대한설계효과요약통계량 구분 설계기반접근법 GEE 접근법 (exchangeable) 최소값 25% 중앙값 75% 최대값 1.39 2.55 3.19 3.53 5.05 1.64 2.10 2.39 3.18 4.12 평균 3.16 2.63 잘알려진대로모형기반접근법에의한회귀계수추정치의표준오차는가중치와조사설계를무시하고구했기때문에설계기반접근법과 GEE 접근법에비해서대단히과소평가되었다. 한편, GEE 접근법과설계기반접근법에의한표준오차추정값은전체적으로크게차이나지는않았다. 다만세부적으로살펴보면집락단위 ( 사업체단위 ) 의독립변수에대한회귀계수의표준오차는그차이가작고, 근로자단위독립변수에대한회귀계수의표준오차에서 GEE 접근법이설계기반접근법에비해서효율적인것으로나타났다. 이와같은현상은 Lipsitz 등 (1994), Bieler와 Williams(1995) 등의연구에서도나타났다. 다음의 < 표 5> 는설계기반방법과 GEE 접근법각각에대해서가중치효과를요약하여나타낸것이다. 여기서모의실험결과는원복합표본조사데이터로부터 100개의동일추출확률부차표본을추출하여각각의부차표본에대해서회귀모형을적합하여설계효과를계산하였다. 자세한모의실험방법에대해서는이기재 (2001) 를참고하기바란다. 전체적으로 Kish(1965), Korn과 Graubard(1995) 가모평균추정에서제안한가중치사용에따른분산증가량계산식을회귀계수추정의경우에도근사적으로사용할수있음을시사해준다. - 8 -

< 표 5> 가중치의사용에따른회귀계수추정량의분산증가량에대한요약표 구분 Kish 의방법 K & G 의방법모의실험결과 설계기반접근법 GEE 접근법 (exchangeable correlation) 45.8% 42.9% a 44.7% b 43.4% a 45.4% b 45.2% a 46.6% b 43.7% a 43.5% b a : 32개회귀계수추정치에서구한분산증가량에대한평균값 b : 32개회귀계수추정치에서구한분산증가량에대한중앙값 한편적합된회귀모형은임금을설명하는모형으로사용될뿐만아니라적합된회귀모형을통해서산업대분류별, 직종별, 성별, 학력별등다양한구분에대한임금을비교할목적으로사용될수있다. 예를들어월평균임금총액의산업대분류별차이를알고자하는경우를생각해보자. 각산업대분류에따라서근로자특성의분포에차이가있을것이다. 어떤산업은상대적으로학력수준이낮거나근속년수가낮은근로자들이주로분포되어있다면상대적으로낮은임금을받는것으로나타날것이다. 이경우에단순하게각산업대분류별로평균임금을구한다면각산업내에서근로자들의특성분포의차이로발생하는차이를설명할수없게되어문제가된다. 이와같이서로다른설명변수값의분포를갖는두그룹사이의비교는적합된회귀모형을이용한직접적표준화 (direct standardization) 방법을사용해야될것이다. 본연구는복합표본조사에서회귀모형접근법에대한통계적측면을중점적으로다루는것을목적으로하기때문에회귀모형의해석과이용측면은추후연구과제로다루고자한다. Ⅴ. 결론 본연구를통해서복합표본조사데이터에대해서모형기반접근법에의한회귀계수추정법은설계기반이나 GEE 접근법에비해서추정치의편향이크고, 그표준오차가대단히과소평가된다는점을확인할수있었다. 또한전체적으로 GEE 접근법에의한표준오차추정값은설계기반접근법에서구한표준오차와큰차이는없지만, 세부적으로살펴보면집락단위 ( 사업체단위 ) 의독립변수에대한회귀계수의표준오차는그차이가작고, 근로자단위의독립변수에대한회귀계수의표준오차에서 GEE 접근법이효율적인것으로나타났다. - 9 -

표본조사데이터를제대로분석하기위해서는반드시조사설계를반영할수있도록고안된전문적인소프트웨어패키지를활용해야한다. 특히관심통계량의분산을추정하고자할때표준통계소프트웨어패키지의분석결과는대부분의경우과소평가하기때문에신뢰구간작성과가설검정에심각한문제를불러일으킨다. 참고문헌 성내경 2000. 조사데이터분석용소프트웨어패키지. 조사연구 1(1): 109-123 이기재, 임금숙, 류제복 1999. 소규모사업체근로실태조사를위한표본설계연구., 한국통계학회추계학술발표대회논문집. 이기재 2001. "Design and Weight effect in small firm survey in Korea.", 한국통계학회춘계학술발표대회논문집. Bieler, G. S., and Williams, R. L. 1995. Cluster Sampling Techniques in Quantal Response Teratology and Developmental Toxicity Studies., Biometrics, 51, 764-776. Kish, L., and Frankel, M. R. 1974. Inference From Complex Samples., Journal of the Royal Statistical Society, Ser. B, 36, 1-37. Korn, E. L. and Graubard, B. I. 1995. Analysis of Large Health Surveys: Accounting for the Sampling Design., Journal of the Royal Statistical Society, Ser. A, 158, 263-295. Kott, P. S. 1991. "A Model-Based Look at Linear Regression with Survey Data." The American Statistician, 45, 107-112. Liang, K. and Zeger, S. 1986. Longitudinal data analysis using generalized linear model., Biometrika, 73, 13-22. Lipsitz, S. R., Fitzmaurice, G. M., Orav, E. J., and Laird, N. M. 1994. Performance of Generalized Estimating Equations in Practical Situations., Biometrics, 50, 270-278. Pfeffermann, D., and Holmes, D. J. 1985. Robustness Considerations in the Choice of Methods of Inference for Regression Analysis of Survey Data., Journal of the Royal Statistical Society, Ser. A, 148, 268-278. Shah, B. V., Barnwell, B. G., and Bieler, G. S. 1997. SUDAAN Users Manual, Release 7.5. Research Triangle Park, NC: Research Triangle Institute. - 10 -

< 부록 > 월평균임금총액에대한회귀계수추정치 ( 종속변수 : ln( 월평균임금 )) 변수명 OLS 방법표본설계기반 GEE (exchangeable) 산업대분류구분광업 + 제조업 a 수도, 가스, 전기 + 건설업 b 도소매업음식숙박업운수, 창고, 통신업금융 보험업부동산업교육서비스업건강, 사회서비스업기타서비스업 0.129 c (0.0069 d ) 0.127 (0.0110) 0.133 (0.0073) 0.138 (0.0090) 0.066 (0.0076) 0.221 (0.0088) 0.118 (0.0077) 0.010 (0.0121) 0.207 (0.0125) 0.154 c (0.0130 d ) 3.31 e 0.107 (0.0198) 4.37 0.147 (0.0128) 4.73 0.122 (0.0153) 4.52 0.084 (0.0152) 1.63 0.267 (0.0150) 1.39 0.144 (0.0151) 3.13 0.030 (0.0181) 3.59 0.216 (0.0175) 3.54 0.156 (0.0133) 2.12 0.121 (0.0195) 2.17 0.155 (0.0131) 2.89 0.111 (0.0155) 2.93 0.086 (0.0150) 0.87 0.291 (0.0154) 0.79 0.139 (0.0156) 1.75 0.035 (0.0178) 2.19 0.209 (0.0181) 2.20 지역서울광역시시 군지역 0.073 (0.0039) -0.012 (0.0040) 0.078 (0.0071) 3.32-0.016 (0.0073) 3.34 0.082 0.0069) 1.72-0.010 (0.0073) 1.88 사업체내의근로자수 0.023 (0.0016) 0.025 (0.0029) 3.45 0.024 (0.0029) 1.91 관리자및입법자전문가기술공및준전문가사무직원판매원기능근로자장치조작원단순노무직근로자 0.312 (0.0111) 0.169 (0.0125) 0.177 (0.0091) 0.143 (0.0076) 0.091 (0.0083) 0.105 (0.0080) 0.130 (0.0084) 0.241 (0.0238) 4.09 0.103 (0.0206) 3.16 0.122 (0.0163) 3.21 0.097 (0.0135) 2.96 0.048 (0.0139) 3.52 0.060 (0.0138) 2.52 0.074 (0.0146) 2.48 0.275 (0.0194) 3.50 0.166 (0.0197) 2.95 0.156 (0.0140) 2.51 0.096 (0.0114) 2.25 0.070 (0.0115) 2.40 0.084 (0.0124) 2.02 0.090 (0.0126) 1.94 교육수준중학교졸업이하고등학교졸업전문대학교졸업대학졸업이상 -0.152 (0.0072) -0.088 (0.0052) -0.076 (0.0064) -0.166 (0.0128) 3.05-0.100 (0.0092) 3.08-0.091 (0.0101) 2.58-0.141 (0.0108) 2.68-0.084 (0.0077) 2.83-0.074 (0.0082) 2.29 성별남성 0.286 (0.0039) 0.261 (0.0061) 2.49 0.261 (0.0054) 2.71 종사기간 1 년이하 1-3 년 3-4 년 4-5 년 5-10 년 10 년이상 근로자연령연령의제곱총근로시간 ( 월단위 ) 절편 R 2-0.242 (0.0062) -0.166 (0.0056) -0.125 (0.0064) -0.108 (0.0067) -0.065 (0.0053) 0.046 (0.0012) -0.001 (0.0000) 0.001 (0.0000) 5.308 (0.0274) 0.464-0.228 (0.0103) 2.81-0.154 (0.0093) 2.68-0.115 (0.0100) 2.35-0.100 (0.0103) 2.24-0.067 (0.0087) 2.45 0.043 (0.0021) 3.25-0.000 (0.0000) 3.34 0.001 (0.0001) 5.05 5.364 (0.0493) 3.55 0.449-0.260 (0.0091) 2.58-0.179 (0.0081) 2.51-0.131 (0.0084) 2.26-0.115 (0.0088) 2.28-0.073 (0.0072) 2.40 0.040 (0.0017) 3.08-0.000 (0.0000) 3.28 0.001 (0.0001) 4.12 5.329 (0.0429) 2.99 0.446 Note. a : 광업 + 제조업, b : 수도 전기 가스 + 건설업, c : 회귀계수추정치, d : 표준오차추정치, e : 설계효과, f : 기준범주 (Reference category) - 11 -