저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할수없습니다. 변경금지. 귀하는이저작물을개작, 변형또는가공할수없습니다. 귀하는, 이저작물의재이용이나배포의경우, 이저작물에적용된이용허락조건을명확하게나타내어야합니다. 저작권자로부터별도의허가를받으면이러한조건들은적용되지않습니다. 저작권법에따른이용자의권리는위의내용에의하여영향을받지않습니다. 이것은이용허락규약 (Legal Code) 을이해하기쉽게요약한것입니다. Disclaimer
이학석사학위논문 일반화가법모형을이용한대선후보지지율추정 2018 년 2 월 서울대학교대학원 통계학과 강정일
국문초록 선거기간 동안 다양한 여론조사기관이 앞다퉈 선거후보자들의 지지율을 조 사해 발표한다. 여론조사기관들은 기존의 유선전화 조사 외에 모바일 조사와 같은 새로운 여론조사 방식을 접목해 예전보다 많은 발표가 이뤄지고 있으 며, 거의 매일 새로운 여론조사결과를 접할 수 있는 환경이 되고 있다. 하지만 대부분의 여론조사는 낮은 응답률과 여론조사기관들의 고유한 조사방식으로 후보자들의 지지율을 추정하는 데에 있어 정확도와 편향성의 문제를 갖게된 다. 이번 분석에서는 정확도와 편향성의 문제를 해결하기 위해 19대 대선기간 동안 발표되었던 데이터를 한데 모아 국소회귀를 기반으로 한 일반화가법모 형을 적합하고 후보들의 지지율을 추정하는 방식을 제시하였다. 또한 적합된 모형을 통해 여론조사기관이 갖는 편향을 계산하는 방식을 제안하였다. 주요어 : 여론조사, 편향, 지지율 추정, 국소회귀모형, 일반화가법모형 학 번 : 2016-20257 2
Contents 1 서론 1 2 데이터 3 3 통계적 방법론 4 3.1. 국소회귀모형........................... 4 3.2. 일반화가법모형.......................... 6 3.3. 여론조사기관의 편향....................... 8 4 데이터 분석 10 4.1. 대선후보 지지율 추정....................... 10 4.2. 여론조사기관의 편향....................... 14 5 결론 16 References 18 i
List of Tables 2.1 데이터 요약............................ 4.1 대선후보의 지지율 추정치와 실제 득표율............ 14 4.2 후보별 여론조사기관 편향.................... 15 ii 3
List of Figures 4.1 문재인후보의지지율추정치그림................ 11 4.2 홍준표후보의지지율추정치그림................ 11 4.3 안철수후보의지지율추정치그림................ 12 4.4 유승민후보의지지율추정치그림................ 12 4.5 심상정후보의지지율추정치그림................ 13 4.6 대선후보의지지율추정치그림................. 13 iii
Chapter 1 서론 선거기간 동안 다양한 여론조사 기관들이 선거후보자들의 지지율을 조사 해 발표한다. 후보들의 지지율 추이가 주된 관심사항이기 때문에, 대부분의 여론조사기관이 선거기간 전부터 가급적 자주 후보들의 지지율 추정치를 발 표한다. 따라서 유력 후보의 출마, 후보들 사이의 통합 등 유권자에게 영향을 미칠 정치적 이슈가 발생하면 오래 지나지 않아 여론조사기관의 지지율로 그 영향력을 확인할 수 있을 정도로 많은 여론조사가 이뤄지고 있다. 하지만 선거기간에 집중하여 많은 여론조사가 이뤄지기 때문에 적은 표본 의 수와 낮은 응답률, 여론조사기관마다 상이한 조사방법의 구조적 특징을 갖는다. 이러한 특징으로 예상되는 문제점은 크게 두 가지로 볼 수 있다. 첫째, 적은 표본의 수와 낮은 응답률로 개별 여론조사기관의 지지율 추정치가 실제 후보들의 지지율과 동떨어질 수 있는 정확도 측면에서의 문제, 둘째, 여론조사 기관마다의 고유의 조사 방식, 표본 구성으로 후보의 지지율에 대한 편향성을 갖는 문제를 생각할 수 있다. 이러한 문제로 여론조사에 대한 신뢰는 선거를 치를수록 개선되지 않고 있다. Jackman(2005)은 이러한 문제를 해결하기 위해 여론조사기관들의 지지율 1
추정치들을 섞어 정확도 측면에서 개선된 지지율을 추정하고, 이를 바탕으로 여론조사기관이 갖는 편향성을 계산하는 통계적 방법론을 제시하였다. 본 논 문에서는 여론조사기관의 조사 결과를 하나로 합치는 아이디어에 착안해 19 대 대선기간 동안 발표됐던 후보들의 여론조사기관 지지율 추정치들을 데이터 로, 일반화가법모형을 적용하여 개선된 추정치를 구하고, 이 모형을 바탕으로 조사기관이 갖는 편향을 계산해보았다. 2
Chapter 2 데이터 이번 분석에 사용된 데이터는 19대 대선과 관련하여 2016년 9월 2일부터 2017년 5월 3일까지 중앙선거여론조사심의위원회에 등록된 여론조사결과를 사용하였다. 분석의 특성상 다자대결 구도의 427개의 자료를 사용하였고, 조 사 대상 후보자는 군소후보를 제외한 대선 후보 5명(문재인, 홍준표, 안철수, 유승민, 심상정), 여론조사기관은 리얼미터를 포함한 29개가 되었다. 조사기간 2016년 9월 2일 2017년 5월 3일 대상 후보 문재인, 홍준표, 안철수, 유승민, 심상정(5명) 리얼미터, 알앤써치, TNS KOREA, 조원씨앤아이, 중앙일보 조사연구팀, 한국리서치, 마크로밀엠브레인, 한국갤럽조사연구소, 타임리서치, 에스티아이, 밀워드브라운미디어리서치, 조사기관 리서치뷰, 한국사회여론연구소(KSOI), 디오피니언, 더리서치, 휴먼리서치, 리서치앤리서치, 리서치플러스, 코리아리서치센터, 시대정신연구소, 에이알씨그룹, 원스리서치, 칸타코리아(칸타 퍼블릭), 메트릭스코퍼레이션, 엠알씨케이, 에이스리서치, 리서치앤리서치, PNR 피플네트웍스, 여의도연구원 (29개) Table 2.1: 데이터 요약 3
Chapter 3 통계적 방법론 3.1. 국소회귀모형 이번 분석에서는 후보들의 지지율을 추정하기 위해 국소회귀모형(local regression)을 기본 모형으로 사용하느였다. 국소회귀모형을 설명하기 위해 반 응변수 y와 독립변수 x0 로 표현되는 다음의 모형을 생각하자. y = g(x0 ) + 여기서 함수 g는 매끄러운(smooth) 함수를, 오차항 는 평균이 0이고 대칭적 분포를 갖는 확률변수를 나타낸다. 국소회귀모형은 함수 g를 추정하기 위해 x0 주변에 있는 관측치들을 국소적(locally)으로 사용하여 추정값 y = g (x0 )을 구하는 비모수적 방법이다. Cleveland(1979)는 국소회귀모형을 제시하고 구체적으로 적합하기 위한 방법론을 설명하였다. 먼저 가중치 함수 W 를 다음과 같이 정의하자. (1 u3 )3 for 0 u < 1 W (u) = 0 for u 1 4
주어진 n개의 관측치 {(x1, y1 ), (x2, y2 ),..., (xn, yn )}에서 i (x0 )를 xi 와 x0 사 이의 유클리드 거리로 두고, (i) 를 이러한 유클리드 거리값을 오름차순으로 정렬했을 때 i번째 값으로 정의하자. 주어진 양수 s(0 s 1)에 대해, q = [s n]으로 놓는다면, i번째 관측값에 대해 가중치 wi (x0 )를 다음과 같이 계산할 수 있다. i (x0 ) wi (x0 ) = W (q) (x0 ) 여기서 양수 s는 너비(span)로, 가중치 w를 국소 가중치(neighborhood weight) 라 부른다. 국소 가중치 w와 관측치 {(x1, y1 ), (x2, y2 ),..., (xn, yn )}를 이용해 다음의 P 가중오차제곱합 ni=1 wi (x0 )(yi β0 β1 xi +... + βd xdi )2 를 최소화하는 회 귀계수 βˆ0, βˆ1,... βˆd 를 추정할 수 있다. x0 에서 계산된 예측값을 y (x0 ) = βˆ0 + βˆ1 x0 +... + βˆd xd0 라 놓자. 다음의 Algorithm1를 통해 국소회귀모형을 적합할 수 있다. Algorithm 1: Local Regression 1 Initialize : Let y i = y (xi ) 2 Residual : Let ei = yi y i 3 Median : Let M ED = B( ei ) 4 Robustness weight : Let δi = B(ei /6M ED) 5 Compute new y i for each i by fitting a dth degree polynomial using weighted least squares with weight δw instead of w 6 Repeat 2-5 until converge 5
Algorithm1에서 사용된 함수 B는 이중제곱(bi-square)함수로서 다음과 같 이 정의된다. (1 x2 )2 for 0 x < 1 B(x) = 0 for x 1 이를 통해 잔차가 작은 관측치에 더 큰 가중치가 적용될 수 있다. Algorithm1을 통해 i 관측치에서 Robustness weight δ를 계산할 수 있고, 이 밖의 점 x0 에서 는 i번째 관측치에 δi wi (x0 )를 두어 d차 가중다항회귀모형을 적합시켜 예측값 y 를 추정한다. 일반적으로 차수 d는 2차 이하로 사용하고, 이번 분석에서는 d = 2로 두어 모형을 적합하였다. 3.2. 일반화가법모형 일반화가법모형은 다음과 같은 수식으로 표현될 수 있다. y i = β0 + p X fj (xij ) + i (3.1) j=1 여기서 β0 는 선형회귀모형에서와 마찬가지로 절편항을, fj 는 매끄러운(smooth) 비선형 함수를, i 는 i번째 오차항을 나타낸다. 일반화가법모형의 적합은 역적합(backfitting)을 통해 이뤄지게 된다. 먼 저 βˆ0 = y, 모든 j에 대해 fj = 0으로 초기화하고, j(= 1, 2,..., p)에 대해 전단계에서 추정된 fˆk (k 6= j)로 부분잔차(partial residual) ri = yi βˆ0 P ˆ k6=j fk (xik )를 구해 fj 를 추정한다. 이 과정을 추정값이 수렴할 때까지 반복 한다.(Algorithm2) 6
Algorithm 2: Backfitting 1 Initialization: Let fˆ1 = fˆ2 = = fˆp = 0 2 Backfitting 3 for j = 1, 2,..., p do (a) Let 4 ri = yi [fˆ1 (xi1 ) + + fˆj 1 (xi(j 1) ) + fˆj+1 (xi(j+1) ) + + fˆp (xip )] for i = 1,..., n (b) Fit fˆj by any smoother with ri as response and xij as predictor. 5 6 end 7 Repeat until the functions fˆj change less than a prespecified threshold. 분류모형에서와 같이 y가 1 또는 0의 값을 갖는 이진 출력변수일 경우, 일반화가법모형을 로지스틱 회귀에 적용하여 다음과 같은 모형을 생각할 수 있다. log p(xi ) 1 p(xi ) = β0 + p X fj (xij ) (3.2) j=1 여기서 p(xi ) = P (yi = 1 xi )을 나타낸다. 이번 분석에서는 여론조사기관의 후보별 지지율이 반응변수로 사용된다. k번째 후보의 i번째 지지율을 pik 라고 놓는다면 다음과 같은 모형을 세울 수 있다. log pik 1 pik = β0 + fk (ti ) + lk X βj Dij (3.3) j=1 여기서 ti 는 i번째 관측치의 시점(일)을, lk 는 k번째 후보자에 대한 지지율을 조사기간동안 2번 이상 발표한 여론조사기관의 수를, Dij 는 j번째 여론조사 기관의 i번째 관측치에 대한 가변수를 나타낸다(즉, i번째 관측치가 j번째 여 론조사기관의 발표치일 경우 1을, 그 외의 경우는 0을 갖는 변수). fk 는 k번째 7
후보에 대해 지지율과 시간(일)에 대한 관계를 설명하는 매끄러운 함수를 나 타낸다. 이 분석에서는 3.1 절에서 설명한 국소회귀모형을 통해 fk 를 추정할 것이다. 3.3. 여론조사기관의 편향 (3.3)의 모형을 사용한다면, 여론조사기관마다 갖는 고유한 편향을 계산할 수 있다. k번째 후보의 지지율에 nk 개의 관측치로 (3.3)의 모형을 적합시켰다 고 하면 다음의 추정치 β 0, β j (j = 1, 2,..., lk )와 매끄러운 함수 fˆk 를 추정할 수 있다. y i = βˆ0 + fˆk (ti ) + lk X β j Dij (3.4) j=1 식 (3.4)는 추정모형을 나타내며 y ik 는 log(pik /(1 pik ))의 추정값이다. 여론조사기관의 편향을 계산하기 먼저 다음의 값 δk 를 고려하자.! nk X lk X δk = β j Dij /nk i=1 j=1 δk 는 log pik 1 pik 의 추정값 y i 을 추정하는 데에 절편항과 시간의 영향을 배제 하고, 조사기관의 효과가 평균적으로 얼마나 반영되었나를 나타내는 값이다. (3.4)에서 식을 변형한다면 다음의 식을 얻을 수 있다. y ik = βˆ0 + fˆk (ti ) + lk X β j Dij δk + δk j=1 = βˆ0 + fˆk (ti ) + lk X j=1 8 (β j δk )Dij + δk
위의 식에서 세 번째 항은 k번째 후보의 예측값 중 i번째 관측값을 내놓은 여론조사기관의 고유한 편향을 나타낸다. 이러한 편향을 제거한다면 여론조 사기관의 효과를 제외한 예측값을 구할 수 있다. 이를 s ik 라 하면 다음과 같이 나타낼 수 있다. s ik = y ik lk X (β j δk )Dik (3.5) j=1 다시 y ik 를 역로짓변환(inverse-logit transformation)한다면 k번째 후보의 i번째 지지율 예측치 p ik 를 구할 수 있다. exp(y ik ) 1 + exp(y ik ) Pk (β j δk )Dij + δk ) exp(βˆ0 + fˆk (ti ) + lj=1 = P l k (β j δk )Dij + δk ) 1 + exp(βˆ0 + fˆk (ti ) + j=1 p ik = i번째 예측값에서 j번째 여론조사기관의 편향을 계산하기 위해서 이를 Dij 에 대해 미분한다면 편향을 계산할 수 있다. biasij = exp(y ik ) (β j δk ) (1 + exp(y ik ))2 (3.6) 전체 관측치에서 각각의 관측치를 내놓은 여론조사기관에 대해 bias를 계산하 고 이 값들의 평균을 구한다면 j번째 여론조사기관의 편향인 biasj 를 계산할 수 있다. biasj = nk X X nk X X biasij / 1 i=1 j:dij =1 i=1 j:dij =1 9 (3.7)
Chapter 4 데이터 분석 4.1. 대선후보 지지율 추정 427개의 데이터로 5명의 후보 각각 모형 (3.3)을 적합하였다. 모형의 적 합에서 국소회귀모형의 너비(span)은 0.25로, 차수는 2차로 설정하고 분석을 진행하였다. 모형을 적합 후 (3.5)의 개별 여론조사기관의 효과를 제거한 추 정값 s 을 이용해 5명 후보(문재인, 홍준표, 안철수, 유승민, 심상정)의 지지율 그림을 다음 Figure 4.1-4.5에 나타내었다. 그림의 점들은 관측치, 실선은 s 값을, 음영으로 칠한 너비는 모형 (3.3)의 예측값에서 ±1.96 s.e.만큼 계산 후 역로짓 변환을 통해 구한 예측구간을 나 타낸다. 조사기간의 양쪽 10%범위에서는 국소회귀모형의 특성상 표준오차가 커지는 경향이 있어 예측구간의 너비를 상,하위 10% 시점에 해당하는점 에측 구간의 너비보다 커지지 않도록 조정하였다. 후보마다 관측치들이 존재하는 기간이 다른 이유는 본격적으로 대선 출 마를 결정한 시기가 달랐기 때문이다. 종합적으로 후보들의 지지율 추이를 비교하기 위해 5명 후보의 결과를 Figure 4.6에 나타내었다. 10
다 Figure 4.1: 문재인후보의지지율추정치그림 Figure 4.2: 홍준표후보의지지율추정치그림 11
Figure 4.3: 안철수후보의지지율추정치그림 Figure 4.4: 유승민후보의지지율추정치그림 12
Figure 4.5: 심상정후보의지지율추정치그림 Figure 4.6: 대선후보의지지율추정치그림 13
후보 예측구간 예측치(%) 하한(%) 예측구간 대선 득표율(%) 상한(%) 문재인 34.7 41.5 48.6 41.1 홍준표 14.9 18.9 23.7 24 안철수 16.4 20.7 25.8 21.4 유승민 4.01 5.28 6.91 6.8 심상정 6.47 9.45 13.6 6.2 Table 4.1: 대선후보의 지지율 추정치와 실제 득표율 이번 분석에서 사용된 관측치 중 가장 마지막에 사용된 자료는 2017년 5월 3일에 발표된 자료였다. 따라서 이번 모형의 가장 마지막 예측치는 5월 3일에 해당된다. 여론조사 공표금지기간으로 6일의 공백이 있지만 대선 투표일인 5 월 9일의 후보들의 실제 득표율과 비교하면 Table 4.1과 같다. 대선 득표율이 예측 범위 안에 들어오는 후보도 있고, 아닌 후보도 있지만 Figure 4.6의 후보 별 증감 추세와 6일의 공백기간을 고려할 때, (3.3)의 모형이 어느 정도 정확한 득표율을 추정한다고 짐작할 수 있다. 4.2. 여론조사기관의 편향 주어진 데이터로 (3.3)의 모형을 적합 후 식 (3.7)을 통해 여론조사기관의 편향을 계산할 수 있다. 계산된 결과는 다음 Table 4.2와 같다. 비어있는 칸은 조사기간 동안 각 후보별로 2개 이상의 조사 결과를 발표하지 않은 경우에 해당한다. 14
유승민(%) 심상정(%) 조사기관 문재인(%) 홍준표(%) 안철수(%) 리얼미터 -0.08 0.17 0.53 0.26 0.48 알앤써치 2.85-0.35-0.55-0.25-0.26 TNS KOREA -1.92-1.23-0.54 조원씨앤아이 1.30 1.83 0.67 0.30 0.20 중앙일보 조사연구팀 0.09-0.79-0.01-0.07-0.60 한국리서치 -1.88-3.01-2.24-0.69-0.04 마크로밀엠브레인 -0.07-0.38 0.05-0.61-0.78 한국갤럽조사연구소 -1.44-4.05-0.88-0.61-1.02 타임리서치 4.11 2.82 0.73 에스티아이 2.31-0.44 0.61 밀워드브라운미디어리서치 -5.48-1.01-0.69 리서치뷰 2.50 0.02-0.60 0.23-0.62 한국사회여론연구소(KSOI) 0.59-2.13-0.78-0.37-1.01 디오피니언 -3.75-1.12-1.38-0.11-0.37 리서치앤리서치 -2.08-2.85-1.75-0.51-1.19 리서치플러스 -1.31-1.54-1.22-0.87-1.83 코리아리서치센터 -3.03-2.35-0.74-0.61 윈스리서치 5.36-0.39 칸타코리아(칸타 퍼블릭) -3.36-4.46-3.33-1.33-1.38 메트릭스코퍼레이션 -4.62-2.82-1.85-0.91-0.61-0.31 0.62 더리서치 휴먼리서치 시대정신연구소 에이알씨그룹 엠알씨케이 에이스리서치 리서치앤리서치 PNR-피플네트웍스 여의도연구원 Table 4.2: 후보별 여론조사기관 편향 15
Chapter 5 결론 이번 분석에서는 국소회귀모형과 일반화가법모형을 이용해 19대 대선기 간 동안 여론조사기관들의 발표치들을 모아 좀 더 정확하게 후보들의 지지율 추정치를 계산하고, 적합된 모형을 이용해 여론조사기관의 편향 정도를 각 후 보별로 구해보았다. 분석의 기본 가정은 각 여론조사기관들이 고유한 편향을 갖는다는 것이고, 이들의 발표 자료를 섞는 다면 각자의 편향을 상쇄하여 더 나 은 추정치를 계산할 수 있다는 것이었다. Figure 4.6과 Table 4.1을 통해 이번에 사용된 모형이 개별 여론조사기관 발표치보다 더 정확하게 후보별 지지율을 추정하여, 후보자의 지지율 추이를 읽어내는 데에 유용하게 사용됨을 알 수 있었다. 이번 분석에 사용된 데이터가 갖는 고유한 특징으로는 대부분의 데이터가 특정 여론조사기관의 자료였다는 점(전체 427개의 자료 중 211개가 리얼미터 에서 발표된 자료였다)과 여론조사 공표금지기간(6일)이 존재한다는 점이었 다. 이러한 특징은 이번 분석에서 후보들의 지지율을 추정하고 여론조사기관 의 편향을 계산하는 데에 영향을 미쳤다. 대부분의 자료가 리얼미터의 발표 자료이므로 리얼미터의 추정치가 정확하지 않다면 후보들의 지지율을 정확히 16
추정하는 데에 한계점으로 작용했을 것이며, 모형의 적합이 리얼미터 관측치 에 쏠림으로써 여론조사기관의 편향을 계산하는 데 제약사항으로 작용했을 것이다(Table 4.2를 보면 리얼미터의 편향이 다른 여론조사기관의 편향보다 작은 경향이 있다). 또한 여론조사 공표금지기간으로 실제 대선 득표율과 이번 모형을 통해 계산된 예측치의 차이가 어느 정도 존재함을 확인할 수 있었다 (Table 4.1). 향후 여론조사기관들의 데이터 구성으로 인한 쏠림을 방지하기 위해 적합 과정에서 가중치를 조정하는 방식과 국소회귀모형의 너비(span) 및 차수에 변 화를 줌으로써 모형을 개선할 수 있을 것이다. 이러한 점을 고려한다면 앞으로 있을 대선, 지방선거, 총선 등 여러 선거 과정에서 이번에 사용된 모형이 정 확한 지지율 추정과 여론조사기관의 편향을 계산하는 데에 유용한 모형이 될 것으로 예상한다. 17
References [1] 박종희. (2013). 제18대 대선 여론조사에서 나타난 조사기관 편향. 한국조 사연구학회, 14(1), 1-30 [2] 박창이, 김용대, 김진석, 송종우, 최호식. (2015). R을 이용한 데이터마이닝. 서울: 교우사 [3] Cleveland WS. (1979). Robust Locally Weighted Regression and Smothing Scatterplots. Journal of the American Statistical Association, 74: 829836 [4] Cleveland WS, Grosse E. (1991). Computational methods for local regression. Statistical and Computing, 1: 47-62 [5] Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. (2013). An Introduction to Statistical Learning with Applications in R. New York: Springer [6] S Jackman. (2005). Pooling the Polls Over an Election Campaign. Australian Journal of Political Science, 40: 499-517 18
Abstract Jeongil Kang The Department of Statistics The Graduate School Seoul National University During the campaign, various polling agencies compete to investigate and announce the popularity of candidates. In addition to the existing wired telephone surveys, polling agencies are now releasing new ways to survey people s opinions, such as mobile surveys, and the environment is where new polls can be seen almost daily. However, most polls have problems with accuracy and bias in estimating the approval rating of candidates using their own unique forms of polls with low response rates. We solve the problmes of accuracy and bias by using the generalized additive model based on local regression with the data published during the 19th Korean presidential election season. We also propose a method to calculate the bias of polling agencies through this models. Keyword :Election poll, Bias of polling agency, Support level, Local regression, Generalized additive model Student Number : 2016-20257