한국통계학회논문집 2010, 17 권, 1 호, 55 66 인터넷선거여론조사가중치보정을위한성향점수의활용 김영원 1,a, 배예영 a a 숙명여자대학교수학통계학부 요약 본연구에서는 2007 년에실시한 17 대대통령선거를위한 NI Korea 의인터넷패널조사와 KBS 의대선패널전화여론조사결과를토대로인터넷조사와전화조사의차이를비교하고, 인터넷조사의활용가능성을검토해보고자한다. 인터넷조사는조사대상자가인터넷사용자로제한됨에따라발생하는포함오차와조사참여의사를갖는사람들만을조사에참여시킴으로써발생하는선택편향등으로인해흔히표본의대표성이문제점으로지적되고있다. 이런문제점을해결하기위해인터넷사용자표본이전체유권자표본을설명할수있도록성향점수 (propensity score) 를사용하여가중치를보정하는방안을제시한다. 17 대대선자료를기초로한사례분석을통해, 적절한성향점수보정기법을적용하는경우인터넷조사를선거예측에활용하는것이가능하다는결론을얻을수있었다. 주요용어 : 가중치, 대통령선거조사, 성향점수모형, 인터넷조사. 1. 서론 최근인터넷과전자우편의발전은사람들의의사소통방법에많은변화를주었고, 여론조사방법에도많은변화를가져왔다. 이런사회변화에따라최근에많이사용되는인터넷조사는확률추출법에근거하지않는조사방법이기때문에많은여론조사전문가들은인터넷조사를신뢰할수있는조사로받아들이지않고있다. 그러나유럽과미국의연구자들과일부조사기관에서는선거결과예측을위한몇몇조사에서할당추출법에근거한인터넷조사의활용가능성을보여주고있다 (Rosenbaum 과 Rubin, 1984). 인터넷조사는조사대상자가인터넷사용자로제한됨에따라발생하는포함오차 (coverage error) 와표본선정과정에서자발적인참여의사를갖는사람들만을조사에참여시킴으로써발생하는선택편향 (selection bias) 등으로인해조사의신뢰성에한계가있는것으로지적되고있다. Lee (2006) 등은이런인터넷조사가갖고있는문제점을해결하기위한방안으로성향점수보정 (propensity score adjustment; PSA) 기법을활용하는방안을제시하고있다. Taylor (2000) 와 Taylor 등 (2001) 에의하면 Harris Interactive 에서는미국대통령선거와상원위원및주지사선거예측을위해이런기법을적용한것으로알려져있다. 국내에서는김원용과이흥철 (2003) 이선거예측조사를목적으로웹조사의모집단대표성을확보하기위해성향가중모형을적용하는기초적인연구를수행하였다. 하지만아직우리나라에서본격적으로성향점수를선거예측조사에도입하기위해고려해야할가장중요한문제인조사자의어떤특성이성향점수가중치산출모형에반영되는것이요구되는지등, 선거예측에실제이런기법을활용하기위한연구가거의이루어지지못하고있는실정이다. 본연구에서는국내에서아직본격적인연구가미진한선거예측조사에서성향점수가중치적용기법의도입가능성을구체적으로살펴보고자한다. 이를위해우선기존연구에제시되어있는인터넷 본연구는숙명여자대학교 2008 학년도교내연구비지원에의해수행되었음. 1 교신저자 : (140-742) 서울용산구효창원길 52, 숙명여자대학교수학통계학부, 교수. E-mail: ywkim@sm.ac.kr
56 김영원, 배예영 조사에서의성향점수보정방법을정리한다. 우리나라여론조사에서이런기법의도입가능성을검토해보기위해 2007 년 12 월에실시된 17 대대통령선거를위한여론조사자료인 NI Korea 의인터넷패널조사와 MBMR 의대선패널전화조사를비교하고, 현재일반적으로선거예측에활용되는전화조사를참조조사 (reference survey) 로활용하여, 인터넷조사의편향을제어하기위해우리나라대통령선거예측조사에서실제활용할수있는성향점수가중치보정방안을제시한다. 2. 인터넷조사에서성향점수보정 일반적인인터넷 (Internet) 또는웹 (Web) 조사의자료수집과정을살펴보면, 먼저사전에자발적인의사에따라대규모패널을구축하고연구목적에따라조사대상자를구축된패널에서추출해표본을구성한다. 추출된표본을대상으로참여를유도한후, 최종조사자료는이들중자발적으로해당조사에응답한사람으로부터얻게된다. 이와같이인터넷조사의표본추출및조사과정은비확률추출법 (nonprobability sampling) 을기초로하고있으며응답률이높지않기때문에표본선택확률을파악할수없을뿐만아니라자발적참여및무응답등으로인해다양한형태의편향이발생할소지가많다. 결과적으로사전에구축된패널을이용한인터넷조사의가장큰단점은연구대상모집단을대표할수있는조사자료를확보할수없다는것이다. 이런문제를해결하기위해지역, 성별, 연령대등의인구통계학적요소를기준으로한기존의사후층화방법을이용하는방법을고려해볼수있지만, 이런기존의사후층화를통해서는인터넷조사에서발생하는편향을보정하는데한계가있다 (Vehovar 와 Manfreda, 1999). 따라서인터넷조사가갖고있는한계를해결하기위한방편으로최근성향점수보정기법이활용되고있다 (Lee, 2006). 이방법은성향점수를이용한가중치조정과정을통해인터넷조사에서흔히발생하는편향을줄이는방법이다. 원래성향점수보정기법은관측연구 (observation study) 에서비교집단사이에존재하는개체특성의차이를조정하여각집단별개체의선택절차 (selection mechanism) 에따른영향을완화하는방안으로도입된기법이다 (Rosenbaum 와 Rubin, 1983, 1984; D Agostino, 1998). 자발적참여를통해구성된패널을기초로한인터넷조사를위한성향점수보정은참조조사 (reference survey) 가존재한다는가정에서시작한다. 참조조사는인터넷조사와비슷한시점에실행되어야하고, 면접조사, 전화조사등과같이신뢰성이인정된전통적인조사방법에의한것으로높은응답률을갖는양질의조사이여야한다. 성향점수보정기법은인터넷조사가갖고있는근본적인한계를극복하기위해참조조사를벤치마킹하는것이다. 즉, 성향점수모형을매개로주요공변량을대상으로인터넷조사의표본분포가신뢰할수있는참조조사의표본분포와일치하도록사후적으로가중치를조정하는것이다. Taylor (2000) 와 Taylor 등 (2001) 에의하면관측연구에서집단비교에서사용되고있는성향점수모형을인터넷조사에처음활용한것은미국대선예측에서 Harris Interactive 에의해것으로볼수있다. Lee (2006) 가제시한인터넷패널조사를위한성향점수보정과정을정리하면다음과같다. 우선인터넷조사 (Web 조사라고도함 ) 와참조조사에대해다음기호를사용하기로한다. s W : 인터넷조사표본, n W : 인터넷조사표본크기, d W j : 인터넷조사기본가중치 ( j = 1, 2,..., n W ) s R : 참조조사표본, n R : 참조조사표본크기, d R k : 참조조사기본가중치 (k = 1, 2,..., nr ). 성향점수보정을위해우선두표본을결합하여총괄표본 (s) 을구성한다. 즉, 총괄표본 s = (s W s R ) 이고, 표본크기는 n = n W + n R 이다. 총괄표본 (s) 에서성향점수를계산하게되는데, i 번째단위의인터넷조사참여성향점수는 e(x i ) = P(i s W x i ) 에해당한다. 이는주어진조건 ( 공변량 x i 라는조건 ) 에서 i 번째단위가인터넷조사에참여할확률을나타내며, 총괄표본에서다음과같은로지스틱모형을이용해
인터넷선거여론조사가중치보정을위한성향점수의활용 57 성향점수를추정할수있다. [ ] e(x) ln 1 e(x) = α + β T f (x), 여기서 x는공변량벡터, f (x) 는공변량벡터의함수를나타낸다. 성향점수보정은추정된성향점수를기초로총괄표본의조사단위들을성향점수에따라몇개의계급 (class) 으로구분하고, 각계급에대한 s W 와 s R 에서의상대적인비중이같아지도록가중치를보정하여, s W 에서보정된가중치를적용한계급별분포가 s R 에서계급별분포와일치하도록 s W 의가중치를조정하는과정을말한다. 이런과정은단계별로다음과같이정리될수있다. 우선, 총괄표본 (s) 에서모든단위를추정된성향점수크기에따라정렬한후 C개의계급으로분할한다. 계급을구성함에있어서각계급에같은수의단위가포함되도록한다 (Cochran (1968) 은 5분위수 (quintile points) 를기초로하여다섯개의계급으로분할하는것을권장하고있음 ). 각계급내의모든단위들이동일한성향점수를갖는것이이상적이지만실제문제에서는각계급내의단위들의성향점수가큰차이가없도록한다. 구성된 C개의계급을 s c = s W c s R c 로표기하면, c번째계급은 n c = n W c + n R c 개의단위로구성된다. 여기서 s W c (n W c ) 와 s R c (n R c ) 은 c계급내에서 s W 와 s R 와연계된표본 ( 단위수 ) 를의미한다. 우선각계급에서다음과같이조정인자 (adjustment factor) 를계산한다. f c = Σ / k s RdR c k Σk s Rdk R Σ j s W c d W / j Σ j s W d W j. (2.1) 식 (2.1) 에서기본가중치가선택확률의역수라면다음과같이표현될수있다. f c = Σ / k s RdR c k Σk s Rdk R Nˆ Σ j s W c d W / j Σ j s W d W R / c N ˆ R ˆ j Nc W / N. ˆ W c 계급내에서인터넷표본단위 j 에대한성향점수보정 (PSA) 인자는다음과같다. d W.PS A j = f c d W j = Nˆ c R / N ˆR Nˆ c W / N ˆW dw j. (2.2) 만약, 단순확률추출과같이모든단위들에대한기본가중치가같거나알수없는경우에다음의조정인자를사용할수있다. f c = nr c /n R n W c /n W. (2.3) 식 (2.2) 에의한성향점수보정가중치를사용하면성향점수로구성한계급에대한인터넷조사표본에서가중분포와참조조사표본에서가중분포가같아진다. 예를들어식 (2.2) 의성향점수보정가중치를사용하게되면인터넷조사에서계급 c 에해당하는모집단크기에대한추정값은다음과같아진다. ˆN W.PS A c = j s W c d W.PS A j = ˆ 한편, s W 로부터얻어지는특정변수 (y) 에대한평균은다음과같이추정되며, 여기서추정값 ˆȳ W.PS A 를구할때, 참조조사표본은사용되지않는다는점에유의할필요가있다. N W ˆȳ W.PS A = Σ cσ j s W c d W.PS j A Σ c Σ j s W c d W.PS j A Nˆ c R Nˆ. R y i.
58 김영원, 배예영 참고로기존의확률추출법에의한조사에서는선택확률에따른가중치를산출하여비편향추정량을유도하는것이가능하기때문에선택편향을조정하는목적으로성향점수보정기법을사용할필요가없었다. 하지만포함오차 (Duncan 과 Stasny, 2001), 무응답오차 (Smith 등, 2000; Vartivarian 과 Little, 2003) 등에따른편향을줄이기위해가중치를조정하는방법으로사용되어왔다. 3. 선거예측조사에서성향점수보정실증분석 3.1. 실증분석대상자료개요 실증분석을통해자발적패널을이용한인터넷조사에 PSA 를적용함으로써인터넷조사의선택편향을어느정도보정할수있는지, 다시말해인터넷조사에서 PSA 의활용을통한효과를실제대통령선거여론조사자료를통해실증적으로검토해보고자한다. 본실증분석을위한인터넷선거여론조사자료는 2007 년 8 월 22 일부터 23 일까지 NI Korea 에서운영하는패널사이트 (PamiClub) 의 20 세이상의패널을대상으로, 전체패널중자발적으로조사에참여한 3,123 명으로부터얻은응답결과이다. 이자료에는조사시점에응답자가지지하는후보자와함께응답자의성별, 연령, 교육수준, 거주지역등의정보가포함되어있다. 한편, 본연구에서참조조사 (reference survey) 로사용된전화여론조사는 KBS 와 MBMR( 이하 KBS ) 가공동으로수행한 17 대대선패널조사이다. KBS 에서실시한대선패널전화여론조사는우리나라전체유권자들을대상으로패널을구축했으며, 표본의대표성확보를위해현재우리나라에서선거조사에서흔히사용하는성 / 연령등에따른할당추출을근간으로하는전화조사와는달리 RDD(random digit dialing) 방법을이용하여표본을추출했다. KBS 패널은 2007 년 8 월 10 일부터 14 일까지 5 일동안총 7 회에걸친콜백 (call-back) 과정을통해구축했으며, 동일표본유권자를대상으로 8 월 15 일부터 8 월 17 일까지 1 차조사가이루어진후, 대선투표일까지매달조사가수행되었다. 본연구에서는 NI Korea 의인터넷패널조사의선택편향보정을위한 PSA 활용에필요한참조조사로 KBS 의대선패널조사자료를활용한다. KBS 패널조사는수차례걸쳐조사가이루어졌기때문에인구사회통계변수이외에도정치성향, 매체접촉현황, 전자우편을포함하여인터넷사용여부등다양한정보를얻을수있다는특징을갖고있다. 따라서인터넷조사의 PSA 를이용한가중치보정에있어서성별, 연령, 교육수준, 거주지역등의인구사회통계관련정보뿐만아니라선거예측에있어서많은영향을줄수있는지지정당, 과거투표성향등의정보를활용할수있다는장점을갖고있다. 실제이들두개조사는별도의목적으로수행된선거여론조사로본연구에서다루는 PSA 의적용을염두에두고기획된것이아니다. 따라서본실증분석에서는 NI Korea 의인터넷조사가수행된시점에해당하는한나라당경선 (8 월 19 일 ) 과대통합민주신당경선 (10 월 14 일 ) 사이의시점에서대선후보로거론되고있는주요후보들의지지율예측을분석대상으로하고, 이시점과비슷한시기에실시된 KBS 대선패널 2 차조사 ( 응답자수 2,162 명 ) 를활용해 NI Korea 인터넷조사결과를보정하는경우인터넷조사와참조조사의후보자별지지율에있어서어떤차이가발생하게되는지분석해보고자한다. 아울러 NI Korea 의인터넷조사자료에는무응답이없지만, KBS 패널조사 (2 차조사 ) 에서는일부항목무응답이있다. 주어진변수중일부변수에결측값 ( 무응답 ) 이존재하는경우, PSA 를생성하기위한로지스틱모형을적합시키거나, 주요변수를선택하는과정을효과적으로수행할수없게된다. 따라서 KBS 패널자료의경우일반적인무응답대체방법을통해항목무응답을먼저처리하여완벽한자료를만든후실증분석을실시했다. 여기서는실제대선선거여론조사를대상으로한실증분석을통해우리나라인터넷선거여론조사의편향보정을위해 PSA 를적용하는경우어떤변수들을포함하는것이효과적이며또한우리나라선거여론조사에서 PSA 기법을적용한인터넷조사의활용가능성을검토해본다.
인터넷선거여론조사가중치보정을위한성향점수의활용 59 표 1: KBS 와 NI Korea 표본지역 / 성별 / 연령분포비교 ( 단위 : %) 지역 성별 연령 구분 KBS 전체표본 KBS 인터넷사용자 NI Korea 표본 서울 21.42 21.75 31.73 부산 7.45 8.11 7.78 대구 4.76 5.10 5.19 광주 2.78 2.59 3.43 인천 5.23 5.10 5.54 대전 3.01 3.43 3.65 울산 1.90 2.03 1.34 경기 22.25 22.03 20.94 강원 3.33 2.94 2.24 충북 3.61 3.36 2.53 충남 3.61 3.57 2.40 전북 4.16 3.71 2.72 전남 3.70 3.36 2.15 경북 4.76 4.62 3.59 경남 6.57 6.64 4.26 제주도 1.48 1.68 0.51 남자 49.77 51.12 59.05 여자 50.23 48.88 40.95 20대 19.61 24.76 26.42 30대 24.70 31.47 36.57 40대 22.90 25.24 19.50 50대이상 32.79 18.53 17.52 합계 100 100 100 3.2. KBS 전화조사와 NI Korea 인터넷조사표본구성 인터넷조사에서발생하는선택편향을파악하기위해서는우선자발적참여에의한인터넷조사표본과전화조사표본에서발생하는다양한인구사회통계학적특성에서어떤차이가있는지살펴보는것이중요하다. 아울러 KBS 전화조사표본의경우, 조사문항중인터넷사용여부가포함되어있기때문에전체응답자중인터넷을사용하는유권자들을구분하는것이가능하다. KBS 전화조사전체응답자 2,162 명중실제인터넷조사가가능하다고볼수있는인터넷사용자는응답자중 66% 에해당하는 1,430 명인것으로나타났다. 이를통해 NI Korea 의인터넷조사표본과같이자발적인의사에의해이루어지는인터넷조사에서의표본과 RDD 방식을통해인터넷사용자를표본으로추출하는경우얻을수표본의특성을비교하는것도의미있는결과가될수있다. KBS 전체표본과인터넷사용자표본그리고 NI Korea 인터넷조사표본을일반적인여론조사에서흔히표본할당 (quota) 변수로사용하는지역, 성별, 연령대로구분하여분포를비교해보면표 1 과같다. 지역분포에있어서는 NI Korea 인터넷조사표본의경우서울이차지하는비중이높은것을볼수있지만다른지역에있어서는구성비율에있어서큰차이를보이지않는다. 한편 NI Korea 인터넷조사표본에서 남자 구성비율이높고, 예상대로특히 50 대 의구성비율은매우낮은것을볼수있다. 한편 KBS 표본에서인터넷사용자표본의분포를보면전반적으로 KBS 전체표본과 NI Korea 표본의중간수준의분포를보이는것으로나타났다. 표본을직업, 교육수준, 가구소득에따라구분해분포현황을비교해보면표 2 와같다. 표 2 를보면자발적인참여에의해구성된 NI Korea 의인터넷조사표본에서는전화조사표본과비교해 사무 / 기술직 과 경영 / 관리 / 전문직 의비율이매우높고, 반면에 일반노무직 과 전업주부 는비율이매우낮은것을알수있다. 교육수준에서는인터넷조사의경우 대학교재학 이상의고학력자의구성비율이
60 김영원, 배예영 표 2: KBS 와 NI Korea 표본의직업 / 교육수준 / 가구소득분포비교 ( 단위 : %) 구분 KBS 전체표본 KBS 인터넷사용자 NI Korea 표본 농 / 임 / 어 / 축산업 4.35 2.80 0.58 자영업 15.36 16.22 10.34 일반노무직 10.41 11.33 1.63 사무 / 기술직 17.99 19.86 34.81 직업 경영 / 관리 / 전문직 2.59 2.87 19.53 학생 10.18 10.77 10.41 전업주부 30.11 29.58 11.40 무직 8.33 5.73 3.87 기타 0.69 0.84 7.43 중학교졸업이하 16.56 9.09 0.99 교육수준 고등하교졸업 32.70 34.83 20.75 대학교재학 / 졸업 45.42 49.51 66.83 대학원재학이상 5.32 6.57 11.43 100만원이하 14.48 4.83 4.87 101만원 150만원 6.29 3.99 8.29 151만원 200만원 10.45 10.77 10.21 201만원 250만원 10.18 11.61 11.14 가구소득 251만원 300만원 15.26 18.46 13.13 301만원 400만원 17.48 22.10 21.81 401만원 500만원 12.67 12.87 16.43 501만원 600만원 6.52 7.48 6.50 601만원 700만원 2.13 2.52 2.50 700만원이상 4.53 5.38 5.12 합계 100 100 100 높은반면저학력자의구성비율은낮은것으로나타났다. 가구소득에서는특히월소득 100 만원이하 인가구구성비율에서큰차이를보이고있다. 또다른특이한점은 KBS 표본중인터넷사용자들의분포는 NI Korea 인터넷조사표본보다는 KBS 전체표본의분포에더가깝다는것이다. 이는인터넷조사를하는경우에도 RDD 전화조사등을통해좀더대표성있는인터넷조사표본을추출하게되면자발적인참여를통해구성되는인터넷조사표본과상당히다른양상을보일수있다는것을보여준다. 이런사실은향후보다대표성있는인터넷조사를원하는경우어떤방식의표본추출방법이도움이될수있는지를알려주는의미있는결과로보인다. 선거예측을위한성향점수보정기법을개발하기위해서는인구사회통계학적변수만을이용해서는한계가있다. 따라서응답자의투표및정치성향을파악할수있는변수들을 PSA 모형에반영하는경우보다정교한가중치보정이가능해질수있다. KBS 전화조사와 NI Korea 인터넷조사에서공통적으로조사된정치성향과관련된항목들에대한분포현황을정리하면표 3 과같다. 표 3 에서 2002 년대선투표성향을보면자발적인참여를통해구성된인터넷조사표본인 NI Korea 조사에서이회창후보에대한지지율이낮아지는현상을볼수있다. 2004 년총선에대한경우 NI Korea 표본에서한나라당지지율이낮고, 열린우리당에대한지지율이높게나타나고있다. 아울러응답자들이지지하는정당에있어서도 NI Korea 표본에서한나라당에대한지지율이낮고, 민주노동당에대한지지율이높은것으로나타났다. 이런현상은자발적인인터넷조사참여자집단이보다진보적인정치성향을갖고있다는일반적인예상과일치한다. 3.3. 기본가중치적용에따른지지율차이 우리나라대부분의선거여론조사에서는시도, 성별, 연령대에따른유권자분포를고려한할당추
인터넷선거여론조사가중치보정을위한성향점수의활용 61 표 3: KBS 와 NI Korea 표본의정치성향에따른분포비교 ( 단위 : %) 구분 KBS 전체표본 KBS 인터넷사용자 NI Korea 표본 이회창 34.78 31.33 28.59 노무현 45.24 46.92 42.36 2002년대선 권영길 2.17 2.73 3.23 투표결과 기타 0.23 0.21 2.18 투표하지않았다. 13.55 16.43 14.67 말할수없다. 4.02 2.38 8.97 열린우리당 21.05 23.01 27.79 한나라당 43.39 41.40 32.69 민주당 6.98 5.80 4.13 2004년총선민주노동당 4.35 5.17 8.87 투표결과기타 2.45 2.10 1.99 투표하지않았다. 15.36 17.34 16.30 말할수없다. 6.43 5.17 8.23 한나라당 55.04 54.13 44.89 대통합민주신당 15.12 16.85 9.86 지지정당 중도통합민주신당 4.39 3.85 3.43 민주노동당 5.41 6.43 14.06 국민중심당 0.19 0.14 2.15 기타 19.84 18.60 25.62 반드시투표할것이다. 75.30 72.17 49.76 17대대선 웬만하면할것이다. 22.11 25.17 40.99 투표의향 별로투표하고싶지않다. 2.08 2.24 8.20 전혀투표할생각이없다. 0.51 0.42 1.06 합계 100 100 100 출을하고있으며, 각그룹별로할당된표본을채우지못하는경우시도 / 성별 / 연령대별유권자수를기준으로한가중치를적용하는것이일반적이다. 본연구에서분석대상으로하는 KBS 전화조사의경우후보자별지지율예측을위해통계청의주민등록인구통계를기준으로작성된시도별, 성별, 연령별구성비를기준으로산출한가중치를사용하고있다. 한편 NI Korea 인터넷조사에서는시도별, 성별, 연령별및교육수준을고려하기위해 2005 년인구주택총조사통계를기준으로한가중치를사용하고있다 ( 지금부터이들가중치를기본가중치라고함 ). 두조사에서기본가중치를적용하는경우 KBS 와 NI Korea 조사의후보자별지지율추정결과에있어서표 1 에나타난지역 / 성별 / 연령대분포가다르기때문에발생하는차이는상쇄된것으로볼수있다. KBS 전화조사와 NI Korea 인터넷조사에서사용하는기본가중치를적용한추정결과와가중치를적용하지않고산출된단순평균에의한후보자별지지율추정결과를비교해보면표 4 와같다. 기본가중치를적용한경우에도이명박후보의지지율이 KBS 의경우 59.43%, NI Korea 의경우 46.79% 를나타내는등큰차이를보이고있다. 특히두조사에서기본가중치를적용했을때단순평균의경우보다이명박후보에대한지지율차이가더벌어지는것을볼수있다. 이런차이는다른요인에의한영향도있겠지만 NI Korea 의경우자발적으로참여를원하는인터넷사용자만을조사대상에포함했기때문에발생하는선택편향에서그원인을찾을수있을것이다. 이런현상은동일한성별과연령대의유권자라고해도인터넷사용여부에따라투표성향에있어서차이가있다는것을시사한다. 따라서인터넷조사의경우인터넷사용자만을표본에포함함으로써전체유권자모집단에대한추정값을얻는데한계가있다는것을확인할수있다. 이런문제점을해결하기위해서는인터넷조사결과에대한추가적인보정이필요하며, 이런보정을위해서는단순히성별과연령대같은인구통계학적변수만을고려해서는소기의목적을이룰수없다. 결국선거예측을위
62 김영원, 배예영 표 4: KBS 표본과 NI Korea 표본의후보자별지지율 ( 단위 : %) 후보 단순평균기본가중치적용 KBS Ni Korea KBS Ni Korea 이명박 59.39 48.61 59.43 46.79 손학규 6.15 11.88 6.16 9.87 이인제 1.30 0.96 1.28 0.99 정동영 8.23 3.81 8.26 4.71 권영길 1.85 1.95 1.77 1.73 기타 8.93 12.97 8.96 13.78 모름 14.15 19.82 14.14 22.14 합계 100 100 100 100 표 5: 로지스틱회귀모형을이용한변수선택결과 구분 변수 유형 p-value 선택변수 area 지역 범주형 0.3779 gender 성별 범주형 <.0001 인구사회통계학적 age 연령 범주형 0.0341 변수 job 직업 범주형 0.0813 edu 교육수준 범주형 0.7745 inc 가구소득 순서형 <.0001 p2002 2002년대선투표후보 범주형 <.0001 정치성향 p2004 2004년총선투표정당 범주형 0.6282 변수 vote 17대대선투표의향 범주형 <.0001 party 지지정당 범주형 <.0001 한 PSA 기법의활용에있어서는표 3 과같은유권자의정치성향을나타내는변수를모형에반영하는것이필요하다는것을추론할수있다. 3.4. PSA 적용을위한변수선택 KBS 전화조사와 NI Korea 인터넷조사에서공통적으로조사된변수들중에서후보자지지율에영향을줄것으로예상되는변수를정리하여보면인구사회통계학적변수 6 개와정치성향과관련된변수 4 개가포함되어있다. 따라서본연구에서는이들 10 개변수를활용하도록한다. 이들변수중에서후보자지지율에대한설명력이높은주요변수를파악하기위해두자료를합하여다항로지스틱회귀모형을이용하여주요변수를선택했다. 변수선택은단계별선택방법을적용하였으며, 변수선택기준으로유의수준 α = 0.05 를사용했다. 변수선택결과를정리하면표 5 와같으며, 인구사회통계학적변수중에서는 성별 과 가구소득 이선택되었고, 정치성향변수중에서는 2002 년대선때, 투표한후보, 17 대대선투표의향 및 지지정당 이선택되었다. 실제 PSA 가중치보정을수행함에있어서정치성향관련변수를모형에포함하는것이효과적인지또는변수선택에의한주요변수만을모형에반영하는것이효과적인지등에대해서는실증분석과정을통해확인해볼필요가있다. 이런측면에서본연구에서는모형에포함된설명변수를달리하는 6 개의로지스틱회귀모형 (M1 M6) 을이용한 PSA 보정을수행해보고, 어떤모형이인터넷조사가구조적으로갖고있는한계를극복하는데도움이되는지검토해보기로한다. 본연구에서검토한 6 개의모형에포함된변수들을정리하면표 6 과같다. 6 개의로지스틱회귀모형중, 주요변수만을포함하는모형 (M1) 을예로들면,
인터넷선거여론조사가중치보정을위한성향점수의활용 63 표 6: 6 개로지스틱회귀모형에포함된변수 변수 [M4] [M5] [M1] [M2] [M3] [M6] 변수선택 & 변수선택 & 변수선택인구사회정치성향전체변수인구사회정치성향 area gender 인구사회 age 통계학적 job 변수 edu inc p2002 정치성향 p2004 변수 vote party 표 7: 모형별 PSA 가중치보정에따른인터넷조사후보자별지지율 ( 단위 : %) 후보 [M4] [M5] KBS [M1] [M2] [M3] [M6] 기본가중치변수선택인구사회정치성향변수선택 & 변수선택 & 전체변수인구사회정치성향 이명박 59.43 54.27 50.23 55.28 58.13 54.21 59.47 손학규 6.16 9.67 8.38 10.67 8.38 9.88 9.00 이인제 1.28 0.79 1.41 0.66 0.94 0.75 0.95 정동영 8.26 4.87 4.83 4.62 5.12 4.80 4.85 권영길 1.77 1.02 1.49 0.92 1.12 1.00 1.15 기타 8.96 12.65 13.02 12.76 10.81 12.71 10.88 모름 14.14 16.72 20.65 15.09 15.51 16.64 13.70 합계 100 100 100 100 100 100 100 PSA는다음과같은로지스틱회귀모형을이용하여개인별인터넷사용여부에대한성향점수를산출하여활용한것이다. 여기서 g는인터넷사용여부를나타낸다. [ ] Pr(g = 1) ln = α + β 1 [ 성별 ] + β 2 [ 가구소득 ] + β 3 [ 지지정당 ] 1 Pr(g = 1) + β 4 [2002 년대선투표후보 ] + β 5 [17 대대선투표의향 ]. 3.5. PSA 적용에의한가중치보정결과 각모형에서개인별성향점수를산출해 Cochran (1968) 이제안한방법에따라 5 분위수 (quintile points) 를기초로다섯개의계급으로분할하고 PSA 가중치보정후, 후보자별지지율을추정한결과는표 7 과같다. 기본가중치를적용한 KBS 전화조사에서후보자별지지율과각모형을이용해 PSA 가중치보정을통해 NI Korea 인터넷조사에서산출한후보자별지지율의차이는표 4 의기본가중치를적용한결과에비해상당히줄어든것을볼수있다. 전반적으로정치성향변수가추가됨에따라 KBS 전화조사와지지율차이가작아지는것을알수있으며, 모든변수를포함한경우 (M6) KBS 전화여론조사와의차이가가장작은것을알수있다. 전화조사와의차이를최대한줄인다는관점에서는 M6 과같이모든변수를포함하는것이효과적일수있다. 비용대비효율성을생각했을때변수선택과정을통해선정된변수만을모형에포함하는것 (M1) 이하나의방안이될수있다. 한편, 인구사회통계학적변수만을포함한모형 (M2) 보다정치성
64 김영원, 배예영 향관련변수만을포함한모형 (M3) 이 KBS 전화여론조사와차이가작아지고있다는점에유의할필요가있으며, 이는선거예측을목적으로하는경우 PSA 의적용에있어서과거선거에서의투표성향이나지지정당관련변수가모형에포함되는것이필수적이라는것을보여주고있다. 4. 결론및향후과제 흔히자발적인참여를통해수행되는인터넷선거여론조사의경우포함오차와선택편향등으로인해일반적인유권자모집단을설명하는데한계가있다. 본연구결과를통해이런인터넷선거예측조사가갖고있는한계는지역, 성별, 연령대등일반적인여론조사에서사용되는인구통계학적변수를벤치마킹하는사후층화과정을통해해결될수없다는것을볼수있었다. 또한인터넷조사를선거예측에활용하기위해서는인터넷조사응답자의정치적인성향을파악할수있는정보가필요하며, 이런정보가확보되는경우사전에적절한 PSA 모형을설정하고, 이를이용한가중치보정과정을통해최소한참조조사 (reference survey) 와유사한수준의정확성을갖는선거예측조사가가능하다는것을본연구결과를통해확인할수있었다. 이런연구가향후좀더체계적으로이루어진다면, 우리나라에서도 PSA 의활용을통해정확성을담보할수있는선거예측을위한인터넷조사의도입이가능할것으로보인다. 본연구에서제시된 PSA 기법이실제인터넷조사를기반으로한선거예측에있어서얼마나효과적인지를제대로평가하기위해서는실제선거가임박한시점에추가적으로실시된인터넷조사에본연구에서제시된 PSA 기법을적용해선거예측정확성을평가해보는것이필요하다. 하지만여기서는현실적인여건상추가적인인터넷조사가이루어지지않아서결국최종선거예측과정에제시된방법을적용해사후적으로본연구에서제안된방법의정확성을평가하는과정을수행하지못했다는한계를갖고있다는점을밝혀둔다. 제시된 PSA 기법을통해산출된가중치보정방법은향후유사한인터넷조사에서도활용될수있을것이며, 이를통해인터넷조사가갖고있는한계를상당폭넘어설수있을것으로예상된다. 물론사회적인이슈를다루는일반적인인터넷여론조사에대한 PSA 가중치보정을위한모형은본연구에서제시한모형과상당히다른양상을보일수있다는점에유의할필요가있다. 한편, 표 1 과 2 를보면 KBS 표본중인터넷사용자들의분포는 NI Korea 인터넷조사표본보다는 KBS 전체표본의분포에더가깝다는것을볼수있다. 따라서만약인터넷조사를수행하는경우에도 NI Korea 인터넷조사와같이사전에구성된대규모패널에서자발적으로조사에참여하는응답자들로인터넷조사표본을구성하는대신 RDD 방법과같은표본추출이론에따른과학적인표본추출과정을통해인터넷사용자표본을구성한다면보다대표성있는표본을확보하는것이가능할것으로판단된다. 따라서보다정확성있는인터넷조사를원하는경우어떤방식의표본추출방법이현실적으로도입이가능하고효과적인지보다심층적인연구가수행될필요가있으며이런연구들을통해인터넷조사의활용도를높일수있을것이다. 참고문헌 김원용, 이흥철 (2003). 웹조사의모집단대표성확보를위한성향가중모형의적합성검증, < 방송연구 >, 여름호, 143 166. Cochran, W. G. (1968). The effectiveness of adjustment by subclassification in removing bias in observational studies, Biometrics, 24, 295 313. D Agostino, R. B. Jr. (1998). Propensity score methods for bias reduction for the comparison of a treatment to a non-randomized control group, Statistics in Medicine, 17, 2265 2281.
인터넷선거여론조사가중치보정을위한성향점수의활용 65 Duncan, K. B. and Stasny, E. A. (2001). Using propensity scores to control coverage bias in telephone surveys, Survey Methodology, 27, 121 130. Lee, S. (2006). Propensity score adjustment as a weighting scheme for volunteer panel web surveys, Journal of Official Statistics. Rosenbaum, P. R. and Rubin, D. B. (1983). The central role of the propensity score in observational studies for causal effects, Biometrika, 70, 41 55. Rosenbaum, P. R. and Rubin, D. B. (1984). Recucing bias in observational studies. Using subclassification on the propensity score, Journal of the American Statisical Association, 79, 516 524. Smith, P. J., Rao, J. N. K., Battaglia, M. P., Daniels, D. and Ezzati-Rice, T. (2000). Compensating for nonresponse bias in the national immunization survey using response propensities, In Proceedings of the American Statistical Association, Section on Survey Research Methods, 641 646. Taylor, H. (2000). Dose internet research Work? Comparing online survey result with telephone survey, International Journal of Market Research, 42, 58 63. Taylor, H., Bremer, J., Overmeyer, C., Siegel, J. W. and Terhanian, G. (2001). The record of internet-based opinion polls in predicting the results of 72 races in the November 2000 US Elections, International Journal of Market Research, 43, 127 135. Vartivarian, S. and Little, R. (2003). On the formation of weighting adjustment cells for unit nonresponse, University of Michigan Department of Biostatistics Working Paper Series. Vehovar, V. and Manfreda, K. L. (1999). Web surveys: Can the weighting solve the problem? Proceedings of American Statistical Association, Section on Survey Research Methods, 962 967. 2009 년 11 월접수 ; 2009 년 12 월채택
66 Propensity Score Weighting Adjustment for Internet Surveys for Korean Presidential Election Young-Won Kim 1,a, Ye-Young Be a a Department of Statistics, Sookmyung Women s University Abstract Propensity score adjustment(psa) has been suggested as approach to adjustment for volunteer internet survey. PSA attempts to decrease the biases arising from noncoverage and nonprobability sampling in volunteer panel internet surveys. Although PSA is an appealing method, its application for internet survey regarding Korea presidential election and its effectiveness is not well investigated. In this study, we compare the Ni Korea internet survey with the telephone survey conducted by MBMR and KBS for 2007 Korean presidential election. The result of study show that the accuracy of internet survey can be improved by using PSA. And it is critical to include covariates that highly related to the voting tendency and the role of nondemographic variables seems important to improving PSA for Korea presidential election prediction. Keywords: Internet survey, presidential election survey, propensity score adjustment(psa), weight. This Research was supported by the Sookmyung Women s University Research Grants 2008. 1 Corresponding author: Professor, Department of Statistics, Sookmyung Women s University, Seoul 140-742, Korea. E-mail: ywkim@sookmyung.ac.kr