2244 황형태, 방미진 에서주목할만한점은대선을포함한다른선거에서는비교적정확한출구조사가이루어졌던반면에, 유독 3회에걸쳐서실시되었던총선에서만큼은출구조사의결과가실제선거결과와크게다르게나타났다는점이다. 2000년도에실시되었던 16대총선에서출구조사를실시했던각방송사들은민주당을제1당

Similar documents
조사연구 sampling error of polling sites and the additional error which comes from non-response, early voting and second stage sampling error of voters in

ad hwp

대학생연수용교재 선거로본대한민국정치사

조사연구 aim of this study is to find main cause of the forecasting error and bias of telephone survey. We use the telephone survey paradata released by N

조사연구 using odds ratio. The result of analysis for 58 election polls registered in National Election Survey Deliberation Commission revealed that progr

<B3EBC6AE3120BCB1B0C5B0B3C7A5B9E6BCDB5FB9DAC1F8BFEC2E687770>

조사연구 권 호 연구노트 사전투표득표율예측에대한연구 The Study on the Advance Voting Forecasting 1) 이찬복 a) 주제어 지방선거 사전투표 출구조사 득표율예측 예측오차 Advance voting was held nationwide in

기획 2012 년총선출구조사평가와개선방향 현경보 SBS 여론조사전문기자 연세대언론학박사 SBS 시사토론팀장 중앙선거방송토론위원회전문위원 한국방송대상특별상, 한국조사연구학회특별상수상 4 11 총선출구조사결과에대해말들이많다. 방송사출구조사또빗나갔다, 무려 70억원들여실시한

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

슬라이드 1

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

D-30의시정에서더민주당후보를선택한유권자중에서 80% 는실제로더민주당후보에게투표하였고, 11% 만이지지후보를바꾸어국민의당후보에게투표하였다. 반면국민의당후보를지지할의향이있었던유권자중에서는 63% 가국민의당후보에게투표하고 22% 는더민주당후보에게투표한것으로집계되었다. 투표

<B3EDB9AE3320B1E8BFB5BFF820BFDC2E687770>

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

<C1B6BBE7BFACB1B82031B1C72032C8A BFACB1B8B3EDB9AE29202D20B7F9C1A6BAB92E687770>

<C1B6BBE7BFACB1B82034B1C72031C8A BFACB1B8B3EDB9AE292DB7F9C1A6BAB92E687770>

[ 표 33] -김문수... 3 [ 표 34] -문재인... 7 [ 표 35] -박근혜 [ 표 36] -손규 [ 표 37] -안철수 [ 표 38] -정몽준 [ 표 3] 지난 1년간가정살림변화 [ 표 40] 지

Communications of the Korean Statistical Society Vol. 15, No. 4, 2008, pp 국소적 강력 단위근 검정 최보승1), 우진욱2), 박유성3) 요약 시계열 자료를 분석할 때, 시계열 자료가 가지고 있는

목차

<C1B6BBE7BFACB1B835B1C732C8A328312EC1B6BCBAB0E2292E687770>


한국정책학회학회보

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: (LiD) - - * Way to

???? 1

정치

B-05 Hierarchical Bayesian Model을 이용한 GCMs 의 최적 Multi-Model Ensemble 모형 구축

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

untitled

<5BBAB8B0EDBCAD5D4D424320C3D1BCB1C1B6BBE75FBCADBFEF20B3EBBFF8B1B8BAB428BFC0C3A2C8F1292E687770>

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: : Researc

1. 조사설계 조사대상 2017 년 2 월현재, 전국만 19 세이상남녀 표본의크기 조사방법 1,021 명 ( 가중전 1,021 명, 가중후 1,000 명 ) - 가중치를 1,000 명기준으로부여했으나, 보도시표본크기는 1,021 명으로보도해야함. 구조화된설문지를이용한전

관훈저널106호봄_내지

Ⅰ. 조사목적 본조사는전국민을대상으로대통령국정수행지지도, 정당지지도등을 파악하여, 국민여론을파악하는기초자료수집에그목적을둠. Ⅱ. 조사설계 조사대상 전국거주만 19세이상성인남녀 표본수 총 1,035 명조사후, 지역, 성, 연령별사후보정 표본오차 95% 신뢰수준에서최대허용

응답자분포표 전 체 (1527) 남 자 (756) 49.5 여 자 (771) 세 (281) 대 (314) 대 (336) 대 (288) 세이상 (308) 20.1 졸이

05 ƯÁý

14.531~539(08-037).fm

= Fisher, I. (1930), ``The Theory of Interest,'' Macmillan ,

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

4. 오성택.아파트 시세 등이 후보자 당락에 영향을 미치는 요인에 관한 계량 분석( ).hwp

2 조선 동아 `대통령 선거 개입' 두둔 중앙일보의 < 새누리 150석은 건지겠나 청와대 참모들 한숨뿐>(3/14, 6면) 보도 역시 집권 4년차에 접어든 박근혜 대통령이 국정 운영에 주도권을 쥐려면 4 13 총선에서 새누리 당의 과반 의석 확보가 필수적 이라는 분석과

제 3강 역함수의 미분과 로피탈의 정리

에너지경제연구제 16 권제 1 호 Korean Energy Economic Review Volume 16, Number 1, March 2017 : pp. 95~118 학술 탄소은행제의가정용전력수요절감효과 분석 1) 2) 3) * ** *** 95

) 표에 대한 옳은 분석 <보기>에서 고른 것은? ) 표는 우리나라 제8대 국회의원 총선 결과이다. 이에 대한 분 석으로 옳지 않은 것은? [국 총선의 지역구별 당 득표율] (단위 : %) 지역구 당 가 나 다 라 쪽 마 (단위 : %) 총 득표율 지역구 선거 당 A

<C7A5C1F620BEE7BDC4>

서론 34 2

<38BFF93232C0CF28BFF92920C0E7B3ADB0FCB8AE20C1BEC7D5BBF3C8B BDC320C7F6C0E7292E687770>

04_이근원_21~27.hwp

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

- 1 -

조사설계 조사대상 전국만 19 세이상남녀 조사규모 1,514 명 ( 주의 : 통계보정으로 1,500 표본으로분석하였으며, 보도시에는조사실사례수 1,514 명으로기재해야함 ) 표본오차 95% 신뢰수준에서 ± 2.5% Point 조사방법 무선전화면접 79.1% + 유선전화

에너지경제연구 제13권 제1호

Journal of Educational Innovation Research 2017, Vol. 27, No. 4, pp DOI: A Study on the Opti

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: An Exploratory Stud

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

도비라

조사연구 Key words: exit poll, sample size, primary sampling unit, secondary sampling unit, cluster, design effect, coefficient of variation Ⅰ. 서론 년 월의지방선

<5BBAB8B0EDBCAD5D4D424320C3D1BCB1C1B6BBE75FBCADBFEF20BFEBBBEAB1B828BFC0C3A2C8F1292E687770>

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: * Suggestions of Ways

¿©±âÀÚ-À¥¿ë.PDF

차례 유권자표심왜곡하고사표 ( 死票 ) 양산하는현행선거제도 3 20 대총선에서버려진유권자의표, 왜곡된민심 4 제언 11 2

(Microsoft PowerPoint - Ch19_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

CC hwp

hwp

< 차례 > Ⅰ. 조사개요 1 Ⅱ. 통계의작성목적및이용 6 Ⅲ. 조사설계 12 Ⅳ. 자료수집 50 Ⅴ. 행정자료활용 87 Ⅵ. 자료처리 91 Ⅶ. 통계추정및분석 99 Ⅷ. 통계공표관리및이용자서비스 115 Ⅸ. 통계기반및개선 132 Ⅹ. 참고문헌 141

164

12¾ÈÇö°æ 1-155T304®¶ó

제1장부산 18개선거구 ( 통합 ) 3 제2장중구 동구 8 제3장서구 13 제4장영도구 18 제5장부산진구 ( 갑 ) 23 제6장부산진구 ( 을 ) 28 제7장동래구 33 제8장남구 ( 갑 ) 38 제9장남구 ( 을 ) 43 제10장북구강서구 ( 갑 ) 48 제11장북

2004-report hwp

용역보고서

조사연구 whether this expansive monitoring system might basically achieve the improvement in statistical quality capturing problems in survey research. Ba

DBPIA-NURIMEDIA

statistics

<C1B6BBE7BFACB1B834B1C732C8A35F352EB1E8C1A4C8C62E687770>

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

= ``...(2011), , (.)''

메타분석: 통계적 방법의 기초

<B0E6B3B2BDC5B9AE5FB1E8C7D8C0BBBCB1B0C5B1B820BFA9B7D0C1B6BBE720BAB8B0EDBCAD2E687770>

71호 한소리.indd

<4D F736F F D20BACEB1B3C0E75FB5F0C1F6C5D0B6F3C0CCC7C15F3232C2F7BDC32E646F63>

성도

교육학석사학위논문 윤리적입장에따른학교상담자의 비밀보장예외판단차이분석 년 월 서울대학교대학원 교육학과교육상담전공 구승영

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

비트와바이트 비트와바이트 비트 (Bit) : 2진수값하나 (0 또는 1) 를저장할수있는최소메모리공간 1비트 2비트 3비트... n비트 2^1 = 2개 2^2 = 4개 2^3 = 8개... 2^n 개 1 바이트는 8 비트 2 2

04 Çмú_±â¼ú±â»ç

DBPIA-NURIMEDIA

R t-..

<C1B6BBE7BFACB1B82032B1C72031C8A BFACB1B8B3EDB9AE29202D20C8ABB3BBB8AE2CC7E3B8EDC8B82E687770>

(001~006)개념RPM3-2(부속)

문학석사학위논문 존밀링턴싱과이효석의 세계주의비교 로컬 을중심으로 년 월 서울대학교대학원 협동과정비교문학 이유경

<3136C1FD31C8A35FC3D6BCBAC8A3BFDC5F706466BAAFC8AFBFE4C3BB2E687770>

CC hwp

법학박사학위논문 실손의료보험연구 2018 년 8 월 서울대학교대학원 법과대학보험법전공 박성민

Transcription:

Journal of the Korean Data Analysis Society, Vol. 11, No. 4 (B), August 2009, pp. 2243-2253 출구조사자료의베이지안분석방법에대한연구 * 황형태 1, 방미진 2 1) 요약 각종선거에서투표당일에각방송사에서실시하고있는출구조사는시청자들의궁금증을이른시간에해소해줄수있는통계조사방법이지만그동안의출구조사결과는실망스러운경우가적지않았다. 이런이유로최근에주로출구조사의계획및진행상의문제에대하여초점을두고출구조사오류의원인분석및개선방향에대한다양한연구가수행되어왔는데, 이연구에서는자료의분석방법에초점을두고조사자료의분석을기존의빈도론적관점이아닌베이지안관점에서수행하는베이지안분석방법을제안하였다. 먼저기존방법과비교분석이용이한단순모형을설정하여베이즈추정량을유도하고, 그결과를평균제곱오차의척도로기존의방법과비교하여보았으며, 이를일반화된모형으로확장하였다. 단순모형에서베이즈추정량과최우추정량의성능을비교검토해본결과, 이논문에서제안한베이즈추정량이전반적으로기존의최우추정량보다우수한평균제곱오차를보였으며, 그차이는특히후보자들간의득표율차이가작은경합지역일수록커지는것으로나타났다. 주요용어 : 출구조사, 선거, 베이지안방법, 베이즈추정량, 최우추정량. 1. 서론 1999년이후우리나라에서시행되어왔던각종선거에서는선거결과를보다신속하고정확하게예측 보도하기위하여, 여러방송매체들을중심으로투표당일에투표를마친유권자들을대상으로하는출구조사가실시되어왔다. 김지현 (2007) 이지적했던바와같이, 일반적인통계적표본조사는모집단전체에대한조사가현실적으로불가능한경우에실시하기때문에사후에라도그조사결과에대한정확성이드러나는경우가별로없지만, 선거에서의출구조사는그조사결과의정확성이단시간내에판명되어일반에알려지게되므로, 출구조사는그결과의정확성여부에따라통계조사에대한일반인들의효용성인식이나신뢰성에커다란영향을미치게된다. 지난 10여년간우리나라에서는대통령선거 ( 이하대선 ) 2회, 국회의원총선거 ( 이하총선 ) 3회, 지방선거 2회, 재보선 3회등, 총 10회의각종선거에서출구조사가실시된바있다. 그런데여기 * 이연구는 2005학년도단국대학교교내연구비의지원으로연구되었음. 1 ( 교신저자 ) 448-701 경기도용인시죽전동 126, 단국대학교정보통계학과교수. E-mail : hthwang@dankook.ac.kr 2 448-701 경기도용인시죽전동 126, 단국대학교정보통계학과박사과정. E-mail : jinrosa@hanmail.net

2244 황형태, 방미진 에서주목할만한점은대선을포함한다른선거에서는비교적정확한출구조사가이루어졌던반면에, 유독 3회에걸쳐서실시되었던총선에서만큼은출구조사의결과가실제선거결과와크게다르게나타났다는점이다. 2000년도에실시되었던 16대총선에서출구조사를실시했던각방송사들은민주당을제1당, 한나라당을제 2당으로예측하여보도했으나, 실제결과는비례대표의석수를포함하여한나라당이 133석을확보하고민주당이 115석을얻는데그쳐, 예측보도와는상당히큰차이로원내제1당조차뒤바뀌는등명백한예측실패를경험하게되었다. 16대총선예측보도결과에부담을느꼈던방송사들이 2004년 17대총선에서의출구조사에서는각당의예상의석수를점추정이아닌신뢰구간추정형식으로바꾸어예측하였으나, 역시만족할만한예측결과는얻지못하였다. 소위탄핵정국상황에서치루어진선거에서열린우리당이제1당이될것이라는예측자체는어긋나지않았지만, 열린우리당과한나라당의의석수차이가방송국별로적게는 54석에서많게는 68석으로예측된가운데, 실제차이는 31석차이에그치고, 주요경합지역에서의당선자예측이상당수빗나감으로써, 내용적으로는실제결과와크게동떨어진조사결과라는평가를받아야했다. 가장최근에실시되었던 2008년 18대총선의출구조사결과도예외는아니었다. 한나라당의실제당선자수는 153석에그쳤으나, KBS MBC 공동 (154~178), SBS(162~181), YTN(160~184) 등모든방송사들이예외없이제1당인한나라당의의석수를오차범위밖에서과대예측하는등, 전반적으로부정확한예측으로심지어는출구조사무용론및통계조사전반에대한불신감이확대되는결과까지초래하였다. 이와같이총선의출구조사의연속적인예측오류에대하여, 조성겸, 김지연 (2004) 은총선출구조사에있어서많은선거구수로인하여선거구별투표소수를많이추출할수없었다는점을주요요인으로지적하였으며, 홍내리, 허명회 (2001) 는실사와조사원의부족, 투표소수의부족, 투표소선정방법의문제, 비표집오차관리문제, 조사방법의문제들을지적하고개선안을제시하였다. 이밖에도최종후, 강현철, 한상태 (2006), 최경호, 박한우 (2005), 김주환 (2004), 류제복 (2003) 등많은연구자들이선거예측조사에서의문제점과개선방안들에대하여다양한각도에서연구한바있다. 이연구에서는출구조사에서수집된자료들을바탕으로총선에서각당의예상의석수를산정함에있어서베이지안방법으로접근하여분석하는방법을제시해보고자한다. 최보승, 박유성, 이동희 (2007) 는각종선거의예비조사에서발생할수있는무응답이나결측치에대한대체방법으로베이지안방법을제안함으로써선거예측조사에서부분적으로베이지안방법을도입하였으나, 이연구에서는출구조사로수집된자료에대한분석자체를처음부터베이지안관점에서접근하는방법에대하여연구하고자한다. 출구조사자료는모집단으로부터의표본으로간주할수있다. 물론투표가종료된시점에서의모집단은투표에참여한모든투표자들의투표결과들의집합으로정의된다. 빈도론적관점에서볼때, 투표가종료된시점에서각후보자의당선확률이얼마라는식의확률

출구조사자료의베이지안분석방법에대한연구 2245 적진술은불가하다. 왜냐하면각후보자의당락은아직알려져있지않을뿐, 이미정해져있기때문이다. 따라서빈도론적분석에서는각투표소마다출구조사결과가장유력한후보자가당선될것으로가정함으로써각당의예상의석수를산정하게된다. 그러나이런방식은유력후보자들간의득표수차이가작은경합지역일수록오류의확률이높아지는문제가발생한다. 총선의경우에는선거구수가많음에따라서경합선거구의수또한상당히많아지기때문에, 결과적으로예상의석수를추정함에있어서상당히큰편차를보일수있는위험성을내포하고있는것이다. 베이지안관점에서볼때는, 투표가종료되어확정된모집단에대하여적절한사전분포를가정함으로써주어진출구조사결과에대하여각후보자들의사후당선확률을계산할수있으며, 모든선거구에서는최다득표자 1인만이당선되기때문에각후보자별로계산된사후당선확률은각소속정당의당해선거구에서의사후기대의석수와일치하게된다. 이와같이각선거구에서의사후기대의석수를구하여합산함으로써결과적으로각당의예상의석수를산정할수있다. 특정후보자가독주하는선거구에서는두방법간의예측의차이가거의나타나지않을것으로보이지만, 유력후보자들간의득표수차이가작은경합지역인경우에는다르다. 예를들어, 유력한두후보자간의결과적인득표수차이가극히미세한경우에도기존의빈도론적방법은출구조사결과조금이라도유리한후보자의당선을예상하지만, 베이지안방법에서는두후보자들의사후당선확률을각각 0.5에가깝게예상함으로써각소속정당의당해선거구에서의사후기대의석수를 0.5 에근접하게예측할것이다. 시청자들은이와같은분석결과를보고당해지역이상당한경합상태임을이해할수있는장점도있다. 이논문에서는실제의자료분석보다는출구조사자료의베이지안분석방법을제시하는데주요목적이있으므로, 다음의 2절에서는가능한단순화하여모형을설정해보고, 3절에서는단순모형하에서기존의방법과베이지안방법에의한 MSE를비교분석함으로써그성능에대하여검토해보며, 4절에서는단순모형을좀더확장하여연구해보도록한다. 2. 단순모형의설정및베이즈추정 2.1 관심모수와표본분포 총선의어떤한선거구에서 A 후보와 B 후보, 단 2 명의후보자가입후보했다고하자. 이선거구 에서출구조사가완료되고투표가종료된시점에서의관심은 2 명의후보자중과연누가당선될 것인가하는점일것이다. 이선거구에서무효표를제외한총투표자수가 N 명 ( 동률인경우를 배제하기위하여편의상 N 은홀수라고가정 ) 이라고할때이시점에서의모집단은투표에참여 한 N 명의투표결과들의집합으로볼수있다. 이제모수 θ 와 τ 를다음과같이정의하자. θ = N A /N, τ = I ( 1 2, 1]( θ) (1)

2246 황형태, 방미진 여기에서 N A 는 N 명의투표자중 A 후보에투표한사람의수를, 함수 I 는지시함수 (indicator function) 를뜻하고, τ는 0 또는 1 의값을갖는모수로서, τ = 1 은 A 후보의당선을, τ = 0 은 B 후보의당선을의미하게된다. 투표당일에이선거구에서 N 명의투표자가운데임의로추출한 n 명을대상으로출구조사를실시한결과, 그중 x명은 A 후보자에게, 나머지 n -x명은 B 후보자에게투표한것으로응답했다고하자. x의표본분포로는다음과같은이항분포를가정하도록한다. x θ B( n,θ),0 < θ < 1 (2) 2.2 사전분포와손실함수의설정및베이즈추정량 이제모수 θ 에대한사전분포로다음과같은무정보적사전분포 (non-informative prior distribution) 를가정하도록하자. 또한, 모수 p(θ) 1 θ( 1- θ),0 < θ < 1 τ 에대한베이즈추정량을구함에있어서손실함수로는다음의식과같은이차손실 함수 (quadratic loss function) 를가정하자. L( τˆ τ) = ( τˆ - τ ) 2 이때, 모수 θ 에대한사후분포가베타분포를따른다는것은잘알려져있는사실이다. 즉, θ x Beta(x,n-x) 모수 τ 에대한추정에있어서이차손실함수를가정했으므로, τ 의베이즈추정량 후기댓값으로서다음과같이구할수있다. 는 τ의사 ˆ τ B =E( τ x) = E( I ( 1/2,1] (θ) x) = P[θ > 1/2 x] = 1 1/2 Γ( n) Γ( x) Γ( n - x) θ x - 1 (1-θ) n - x - 1 dθ (3) 다음의 <Table 1> 은여러가지관측값 x 에대해서 τ 의베이즈추정량 가어떤값을가지는 가를예시하기위하여, 출구조사대상자수 n= 100, 200, 400, 800 의각경우에대하여 x 값의변

출구조사자료의베이지안분석방법에대한연구 2247 화에따라 의값들을계산해본결과이다. 이표에서 pˆ = x/n 으로서, 출구조사에서 A 후보의 득표율을의미한다. 참고적으로, 기존의빈도론적관점에서는 pˆ 의값이 0.5보다작을경우에는 τ 의값을 0으로, pˆ 의값이 0.5보다큰경우에는 τ의값을 1로추정하게되며, 이러한추정량 은 τ 에대한최우추정량 (MLE) 이됨을밝힐수있다. n pˆ <Table 1> Values of 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 100 0.000 0.001 0.022 0.157 0.500 0.843 0.978 0.999 1.000 200 0.000 0.000 0.002 0.078 0.500 0.922 0.998 1.000 1.000 400 0.000 0.000 0.000 0.041 0.500 0.959 1.000 1.000 1.000 800 0.000 0.000 0.000 0.023 0.500 0.977 1.000 1.000 1.000 이표를살펴보면, 단순모형의경우출구조사에서의득표율 pˆ 이 0.4 이하이거나 0.6 이상인경 우에는 τ의베이즈추정량 와기존의 MLE 사이에차이는거의나타나지않으며, 이와 같은현상은출구조사대상자수가커질수록뚜렷해져서 n = 800인경우에는 pˆ = 0.45 또는 pˆ= 0.55 에서도그차이는 0.023에불과하다. 즉, 베이즈방법과기존의빈도론적방법은 pˆ 이 0.5 근처에있는치열한경합상태인경우에서만뚜렷한차이가나타나게되는데, 이런경우에기존방법은조금이라도출구조사득표율이높은후보자가당선될것으로추정하여각당의예상의석수에합산하게된다. 하지만베이즈방법은이런경우에도 τ의추정량으로사후당선확률을제시하고이를각당의기대의석수에합산함으로써, 상대적인안정성을유지하면서그분석결과의해석이용이해지는장점도갖게되는것이다. 3. 단순모형에서의성능검토 이절에서는앞절에서제시한단순모형의경우에대하여평균제곱오차 (MSE) 를척도로하여 τ 의최우추정량 와베이즈추정량 의성능을비교검토해보고자한다. 먼저, 의 MSE에대하여살펴보기로한다. 은 ˆ τ M = I ( 1/2, 1] ( pˆ) (4) 으로표현될수있고, 참고적으로여기에서 pˆ = x/n 은식 (2) 의가정으로 θ 의 MLE 이므로, 식 (1) 과식 (4) 를비교해보면 MLE 의함수불변성원리 (functional invariance property of MLE) 에의하여 이 τ의 MLE 임은자명하다. 로나누어생각해보자. 의 MSE를구하기위하여 θ의범위를다음과같이두가지

2248 황형태, 방미진 (1) 0 < θ < 1/2 인경우 이경우에는 τ = 0 이므로 의 MSE는다음과같다. MSE( θ, ˆ) τ M = E θ[ ( - τ) 2 ] = P θ[ ˆ τ M = 1] = P θ[ x > n/2] P θ [ Z n/2- n θ nθ(1 - θ) ] (5) 여기에서, Z N( 0, 1) 이며근사식은이항분포의정규근사를이용한것이다. (2) 1/2 θ < 1 인경우 이경우에는 τ = 1 이므로 의 MSE는다음과같다. MSE( θ, ˆ) τ M = E θ[ ( - τ) 2 ] = P θ[ ˆ τ M = 0] = P θ[ x < n/2] P θ [ Z n/2- n θ nθ(1 - θ) ] (6) 다음으로, 해보자. 의 MSE를구하기위하여역시 θ의범위를다음과같이두가지로나누어생각 (1) 0 < θ < 1/2 인경우 이경우에는 τ = 0 이므로 (2) 식과 (3) 식으로부터 의 MSE는다음과같다. MSE( θ, ˆ) τ B = E θ[ ( - τ) 2 ] = n (2) 1/2 θ < 1 인경우 x= 0 [ { 1 1/2 이경우에는 τ = 1이고, 1 -ˆ τ B = MSE 는다음과같다. Γ( n) Γ( x) Γ( n - x) θ x - 1 (1-θ) n - x - 1 dθ } 2 ( n x ) θ x (1-θ) n - x ] (7) 0 1/2 Γ(n) Γ( x)γ( n - x) θ x - 1 (1-θ) n - x - 1 dθ이므로 의 MSE( θ, ˆ) τ B = E θ[ ( - τ) 2 ] = n x= 0 [ { 1/2 0 Γ( n) Γ( x) Γ(n - x) θ x - 1 (1-θ) n - x - 1 dθ } 2 ( n x ) θ x (1-θ) n - x ] (8) 다음의 < 그림 1> 은출구조사대상자수 n = 100, 200, 400, 800 의각경우에대하여위의식 ( 5)~(8) 로부터 와 의 MSE를계산하여도표화한것이다.

출구조사자료의베이지안분석방법에대한연구 2249 <Figure 1> MSE comparison between and 이그림에서보는바와같이베이즈추정량 는최우추정량 에비해평균제곱오차의측면 에서전반적으로우수한성능을보여주고있으며, 이는특히 θ 의값이 0.5 근처에있을때, 즉, 그 선거구가경합지역일수록그차이는극대화된다는사실을알수있다. 과거의예로볼때우리나 라총선에서는극히미세한경합지역이많이나타날뿐만아니라, 어떤정당의전국적인예상의석 수는각선거구의예상의석수의합으로나타나고, 따라서전국적인예상의석수의제곱평균오차역 시각선거구예상의석수의제곱평균오차의합으로나타나게된다는점에서, 이그림은비록후보 자수를 2 명으로가정한단순모형의경우이기는하지만, 출구조사에서베이지안분석방법의강점을 잘보여준다고할수있다.

2250 황형태, 방미진 4. 단순모형의일반화 2절에서는일단모형의단순화를위해입후보자가단 2명인경우에대한모형을설정하여연구하였으나, 이절에서는입후보자가일반적으로 k명인경우로확장하여모형을제시하고관심모수에대한베이즈추정량을구해보도록한다. 총선의어떤한선거구에서 1번후보부터 k번후보까지 k( 2) 명의후보자가입후보했다고하고, 이선거구에서무효표를제외한총투표자수가 N 명이라고하자. 이때 j = 1,,k에대하여모수 θ j 와 τ j 들을다음과같이정의하자. θ j = N j /N τ j = I { 0} (θ j - max {θ 1,,θ k }) 여기에서 N j 는 N명의투표자중 j번후보에투표한사람의수를나타내며따라서 θ 1 + +θ k = 1이고, τ j 들은 0 또는 1의값을갖는모수로서, τ j = 1 은 j번후보의당선을, τ j = 0 은 j 번후보의낙선을의미하게된다. 개표가완료되었을때최다득표자가 2명이상으로동률일가능성은무시할수있을정도로작으므로, τ 1 + + τ k =1이라고가정할수있다. 투표당일에이선거구에서 N명의투표자가운데임의로추출한 n명을대상으로출구조사를실시한결과, 그중 x j 명이 j번후보자에게투표한것으로응답했다고하자 ( x 1 + +x k =n). 이때 ( x 1,,x k ) 의표본분포로는다음과같은다항분포를가정하도록한다. (x 1,,x k ) (θ 1,,θ k ) M(n;θ 1,,θ k ),θ i >0, θ 1 + +θ k = 1 이제 (θ 1,,θ k - 1 ) 에대한사전분포로다음과같은무정보적사전분포 (non-informative prior distribution) 를가정하자. p( θ 1,,θ k - 1 ) θ i >0, 0 <θ 1 + +θ k - 1 <1 1 θ 1 θ 2 θ k - 1 ( 1- θ 1 - - θ k - 1 ), 또한, ( τ 1,,τ k ) 에대한베이즈추정량을구함에있어서손실함수로는다음의식과같은이차 손실함수 (quadratic loss function) 를가정하자. L( ˆ,, τ 1 ˆ τ τ k 1,,τ k ) = k ( ˆτ j - τ j ) 2 j = 1 이때, (θ 1,,θ k - 1 ) 에대한사후분포는다음의 pdf 를갖는 Dirichlet 분포를따르게된다.

출구조사자료의베이지안분석방법에대한연구 2251 p( θ 1,,θ k - 1 x 1,,x k ) = Γ( n) Γ( x 1 ) Γ(x k ) θ x 1-1 1 θ x k -1 k (9) ( 단, θ k = 1 -θ 1 - -θ k - 1 ) 따라서 τ j 의베이즈추정량 j = 1,,k-1 에대해서는, ˆτ 는 τ j B 의사후기댓값으로서다음과같이구할수있다. j ˆ τ j B = E(τ j x 1,,x k ) = E( I { 0} (θ j - max {θ 1,,θ k }) x 1,,x k ) = P[θ j = max { θ 1,,θ k } x 1,,x k ] = Γ(n) Γ(x 1 ) Γ( x k ) θ x 1-1 1 θ x k -1 k dθ 1 dθ k - 1 이며, 이식에서 θ k = 1- θ 1 - - θ k - 1 를나타내고, 적분영역은 θ j 가 θ 1,,θ k 가운데최대 가되는영역, 즉, { (θ 1,,θ k - 1 ) θ j = max {θ 1,,θ k },0 θ i 1,i = 1,,k} 이다. j = k 에대해서는, ˆ τ = 1 - kb ˆ- τ - 1B τ ˆ k - 1B 그러나이러한적분은적분영역의표시가다소까다로운 k-1 다중적분이므로, 실제의문제에있어서수치적으로이적분값들을계산하는것은번거로운일이다. 따라서간편하게 ˆτ 의근사 j B 값들을한꺼번에구하는방법으로, 다음과같은 Monte Carlo 적분을이용하는방법을제안한다. [ 단계 1] 관측치 ( x 1,,x k ) 에대하여, 식 (9) 의 Dirichlet 분포로부터충분히큰수 M 에대하여 M 개의 (θ 1,,θ k ) 들을서로독립적으로생성한다 ( 단, θ k = 1 -θ 1 - -θ k - 1 ). [ 단계 2] 1 단계에서생성한 M 개의 ( θ 1,,θ k ) 가운데 θ j 가최대가되는 ( θ 1,,θ k ) 의비율 을구하여 ˆτ 의근사값으로한다 j B ( j = 1,,k). 이와같은 Monte Carlo 방법은계산알고리즘이간단할뿐만아니라, 는근사의정도를얻을수있으므로권장할만하다. M 값의선택에따라원하 이장에서제시한일반화모형에대해서베이즈추정량과최우추정량의성능비교는생략할것이 며다만단순모형에서의비교결과를참고할수있을것이다. 5. 결론 이논문에서는이미수집된출구조사자료의분석을베이지안관점에서수행하는데초점을두고

2252 황형태, 방미진 연구를진행하였다. 연구의결과는다음과같이요약해볼수있다. 첫째, 어떤한후보가독주하는선거구의경우에베이즈방법과기존방법은거의차이가나타나지않는다. 둘째, 경합이치열한선거구의경우에는, 기존방법이출구조사결과조금이라도유리하게나타난후보의당선을예측하는반면에, 베이즈방법은각후보의당선확률을계산하여각당의예상의석수에합산함으로써각당의예상의석수추정에있어서좀더안정적인결과를기대해볼수있다. 셋째, 2명의후보자만을가정한단순모형의경우에있어서베이즈추정량은기존의최우추정량에비해서전반적으로우수한제곱평균오차의성능을보여주었다. 이연구의결과는기본적인이론에기초한것으로실제의출구조사자료는보다다양한구조를가지고있으므로, 베이지안방법을실제출구조사자료에구현하는데에는좀더깊이있는후속연구가필요할것으로사료된다. 참고문헌 김주환 (2004). 인구학적특성에따른단위무응답률분석, Journal of the Korean Data Analysis Society, Vol. 6, No. 6, pp. 1725-1734.. 김지현 (2007). 방송사출구조사의오차분석, 숙명여자대학교대학원석사학위논문. 류제복 (2003). 출구조사의역사와개선방향, 조사연구, 4 권 1 호, pp. 31-48. 조성겸, 김지연 (2004). 출구조사의투표소표집방안비교, 조사연구, 5 권 2 호, pp. 3-29. 최경호, 박한우 (2005). 통계적방법을활용한정치웹사이트를대상으로한웹공간분석 -17 대국회의원선거를중심으로, Journal of the Korean Data Analysis Society, Vol. 7, No. 3, pp. 905-916. 최보승, 박유성, 이동희 (2007). 무시할수없는무응답을갖는예비조사자료를이용한선거예측, Journal of the Korean Data Analysis Society, Vol. 9, No. 5, pp. 2321-2334. 최종우, 강현철, 한상태 (2006). 선거예측조사의사결정유보층분류및예측을위한의사결정나무모형의비교와평가, Journal of the Korean Data Analysis Society, Vol. 8, No. 1, pp. 167-178. 홍내리, 허명회 (2001). 제 16 대국회의원선거의예측조사에대한사후적검증, 조사연구, 2 권 1 호, pp. 1-35. [ 접수일 2009 년 7 월 22 일, 수정일 2009 년 8 월 18 일, 게재확정일 2009 년 8 월 22 일 ]

출구조사자료의베이지안분석방법에대한연구 2253 A Bayesian Approach to the Analysis of Exit Poll Data * Hyungtae Hwang 1, Mijin Bang 2 2) Abstract Exit poll is generally used to forecast the election results. In this work, we consider a Bayesian approach to the model for exit poll data. First of all, a simple model for exit poll data is supposed to derive the Bayes estimator of concerned parameter, and the performance of Bayes estimator is compared to the one of the maximum likelihood estimator by means of mean squared errors. Finally, the simple model is extended to the more generalized model. Under the proposed model, The value of the Bayes estimator is found out to represent the posterior probability of winning of concerned candidate. As a results of this work, we find that the Bayes estimator has better performance than the maximum likelihood estimator, especially in the cases of intense competitions. Keywords : exit poll, election, Bayesian methods, Bayes estimator, maximum likelihood estimator. * The present research was conducted by the research fund of Dankook University in 2005. 1 (Corresponding Author) Professor, Dept. of Statistics, Dankook University, Kyunggido 448-701, Korea. E-mail : hthwang@dankook.ac.kr 2 Doctor's Course, Dept. of Statistics, Dankook University, Kyunggido 448-701, Korea. E-mail : jinrosa@hanmail.net