한국통계학회논문집 2012, 19 권, 6 호, 771 780 DOI: http://dx.doi.org/10.5351/ckss.2012.19.6.771 Statistical Properties of News Coverage Data Eunju Lim a, Kyu S. Hahn 1,b, Johan Lim 2, a, Myungsuk Kim c, Jeongyeon Park a, Jihee Yoon a a Department of Statistics, Seoul National University b Department of Communication, Seoul National University; c School of Business, Sogang University Abstract In the current analysis, we examine news coverage data widely used in media studies. News coverage data is usually time series data to capture the volume or the tone of the news media s coverage of a topic. We first describe the distributional properties of autoregressive conditionally heteroscadestic(arch) effects and compare two major American newspaper s coverage of U.S.-North Korea relations. Subsequently, we propose a change point detection model and apply it to the detection of major change points in the tone of American newspaper coverage of U.S.-North Korea relations. Keywords: ARCH effects, mass media, dynamic programming, news coverage data, change point analysis. 1. 서론 미디어 (media) 는 중간 이라는그어원에서알수있듯이서로일면식이없는사람들사이에서뉴스또는정보의전달자역할을하는개체를일컫는다. 특히여러미디어들중대중매체 (mass media) 또는언론은방송이나신문매체와같이대량으로뉴스를생산배포하는산업을일컫는말로사회가복잡다양해짐에따라대중의의견인여론 (public opinion) 의전달자로서그중요성이증대되어왔다. 여론은지난수십여년간의연구결과가보여주고있듯이그주요의제 (agenda) 가매우유동적이고빠르게등락을거듭하고이러한등락은현대사회가복잡해짐에따라언론매체에의하여주도되는경향이있다고알려져있다 (Lippmann, 1922). 즉, 언론의보도가어떠한의제를부각시키느냐에따라해당의제에대하여대중이부여하는중요도또한변하게됨을이야기한다 (MacKuen 과 Coombs, 1981; Erbring 등, 1980). 현대사회에있어서언론의의제변화가대중의관심도에영향을끼친다는것은매우중요한시사점을가진다. 이는언론이단순히대중들사이에서의견을전달하는전달자의입장을넘어대중과의견을주고받고때로는대중의의제에영향을주는독립된개체임을의미한다. 이러한독립된개체로서의역할이가장극명하게나타난예는 1992 년미국대선이라고할것이다. 걸프전의랠리효과 (rally effect) 로 90% 를넘었던부시대통령의지지율이종전직후언론보도의초점이 전쟁 에서 경제 로옮겨가면서급격한하락으로이어졌고결과적으로역사상처음으로공화당현직대통령으로서재선에실패하게된다. 이러한예는언론매체시장이덜경쟁적인한국에서도종종관측된다. 2008 년의경우 Support for this research was partially provided by the Korean Science Foundation (NRF-2010-330-B00028). 1 Corresponding author: Kwanak-gu, Daehak-dong, Department of Communication, Seoul National University, Seoul 151-747, E-mail: kyuhahn@snu.ac.kr 2 Corresponding author: Kwanak-gu, Daehak-dong, Department of Statistics, Seoul National University, Seoul 151-747, Korea. E-mail: johanlim@snu.ac.kr
772 Eunju Lim, Kyu S. Hahn, Johan Lim, Myungsuk Kim, Jeongyeon Park, Jihee Yoon MBC 의 PD 수첩이미국산소고기수입문제를대중의주요의제로이끌어낸바있고, 또한 2010 년의도가니사건, 한 미 FTA 등도대중매체가여론에영향을준대표적인예로생각할수있다. 이러한중요성으로인하여언론보도에대한많은연구가진행되어왔다. 특히언론보도와관련하여보도 ( 기사 ) 의어조 ( 긍정 / 부정 ) 와보도의양 ( 기사에사용된단어의수 ) 을분석의중요한정보로사용한다. 이러한요약정보는기사의단어의수를세고해당기사의어조에따라 +/ 의부호를부여함으로써하나의숫자로표현하고이러한자료를 언론보도자료 라한다. 언론에관한기존의연구들을살펴보면이러한언론보도자료에대한단순통계량에의존하고자료자체의분포적성질을포함한통계적고찰은극히제한적이었다 본연구에서는언론연구에중요한역할을하는언론보도자료에대한몇가지통계적성질에대하여연구한다. 특히본연구는기존연구와는다르게언론보도자료가시계열자료임을인식하고시계열모형하에서의성질들에대한연구에집중한다. 먼저언론보도자료의분포적성질로주변분포 (marginal distribution) 의두꺼운꼬리 (heavy tail) 현상등을포함한 arch(autoregressive conditional heteroscadestic) 효과와이에대한측도들을살펴본다. 또한이러한분포적성질들이언론매체들의특정주제 (issue) 에대한보도행태를비교하는데중요한도구로사용될수있음을예제를통하여살펴본다. 다음으로언론보도자료의시계열적특성에보다충실하여변화점모형을적용하여본다. 이러한변화점분석의결과는식별된변화점에대한추가적인내용분석 (context analysis) 을통하여해당언론사의주요사건 (event) 들에대한보도성향을이해하는데도움을준다. 본논문은다음과같이구성되었다. 제 2 절에서는본연구에서사용하게될언론보도자료에대하여설명한다. 본논문의자료는연구자들이미국에서공부하는기간동안북한핵실험으로인하여대북문제가미국언론의많은조명을받고있었고이를계기로자료를수집하게되었다. 제 3 절에서는언론보도자료의분포적성질로서 arch 효과에대하여공부하고이를이용하여언론사들의사건또는의제에대한보도태도를비교하여본다. 제 4 절에서는언론보도자료의변화점모형과이를추정하기위한동적프로그밍 (dynamic programming) 을소개한다. 또한이를실제자료에적용하여본다. 제 5 절에서는본연구를간단히요약한다. 2. 자료 본논문에서는 1992 년 7 월 1 일부터 2004 년 1 월 14 일사이에미국의뉴욕타임즈와워싱턴포스트지에게재된북한관련기사들의분석을통하여언론보도자료의통계적특성을살펴본다. 본연구에서신문을선택한이유는신문의구독률이 TV 시청률에비하여상대적으로낮으나정치나외교문제등과같은경성뉴스에있어서는여론형성에큰영향력이있음이알려져있다 (Curran 등, 2008). 특히본연구에서살펴보게될두신문사는미국에서다른언론매체들의의제를설정하는데도막대한영향력을미치는매체임이많은실증연구를통하여알려져있다 (Gans, 1980; Iyengar 과 McGrady, 2007). 분석에포함된기사들은렉서스 - 넥서스 (Lexis-Nexis) 데이터베이스에서키워드검색을통해수집되었다. 북한과관련된기사들을추려내기위해 (1) 북한의공식국명 ( Democratic People s Republic of Korea ) 과그약자 ( DPRK ), (2) 북한의수도명 ( Pyongyang ), 그리고 (3) 북한사람 에해당하는 North Korean(s) 을키워드로사용하였다. 이세가지키워드가헤드라인에등장하는기사가 1 차분석대상으로분류되었고, 이렇게추려진검색결과를기사의내용을확인하는과정을거쳐실제북한과관련이없는기사들은분석대상에서제외하였다. 실제로 1 차검색에서추출되어나온상당수의기사들이본분석과관련이없는스포츠등에대한기사였고이들은최종분석대상에서제외되었다. 이런검색절차를거쳐최종적으로 3,373 개 ( 뉴욕타임즈 : 1,942 개, 워싱턴포스트 : 1,431 개 ) 의북한관련헤드라인이분석대상으로분류되었다.
Statistical Properties of News Coverage Data 773 총 3,373 개의기사들을대상으로여덟명의코더 (coder) 들이다양한정보를자료화했다. 여덟명의코더전원은미국스탠포드대학 (Stanford University) 의학부및대학원생들로모두영어를모국어로사용하고정치외교학또는국제정책을전공하는학생들로구성되었다. 자료의신뢰도를높이기위해모든코더들간의데이터에상당한정도의일치도가성취될때까지충분한훈련을실시하였다. 단순한몇가지변인들 ( 기사게재일자, 섹션, 페이지등 ) 외에각기사별로몇가지코더의주관적인판단을필요로하는변인들이지수화되었다. 우선, 각기사를 (1) 북한내부적상황, (2) 북한과미국의관계, (3) 남북관계, 그리고 (4) 북한과기타국가와의관계 에대한기사로분류하였다. 이렇게수집된기사들을토대로북한관련보도의월별어조에대한측도를만들기위해일단뉴욕타임즈와워싱턴포스트에게재된북한관련보도의기사별어조를측정했다. 이를위해일단각기사에서문단별로해당문단이북한에대하여 긍정적 ( 또는중립적 ) 또는 부정적 내용인지의여부를입력한후, 각기사별로 긍정적, 부정적 문단의비율을구했다. 다음으로해당기사의 긍정적 문단과 부정적 문단의비율들에그기사의총단어숫자를곱한후, 긍정적 단어숫자에서 부정적 단어숫자를빼는방식으로기사별어조를계산하였다. 최종적으로해당월에나온모든기사의어조를더하여월별어조를계산하였다. 3. 분포적성질 : Arch 효과 3.1. 정의 언론보도자료는여러가지측면에서주식의수익률에관한자료와유사한분포적특성을지닌다. 이러한특성들중하나로아래에서간략하게살펴볼 arch 효과를생각할수있다. 일반적으로 arch 효과를하나의문장으로정의하기는어려우나굳이정의하면이름에서알수있듯이관측값의오차항이 auto-regressive conditionally heteroscadestic(arch) 한특성을지닌시계열에서나타나는현상들을통틀어지칭하는용어라할수있다. Arch 오차항의몇가지대표적인현상들로는우선자료의주변분포 (marginal distribution), 즉시간축을무시한원자료들의분포가 0 근처에집중되어있고두터운꼬리를가지는현상이다. 이러한현상은첨도 (kurtosis) 를통하여확인가능하고 arch 오차항을지닌경우첨도는정규분포의첨도인 3 보다큰값을지니게된다. 이러한현상을특별히 leptokurtotic 현상이라부른다. Arch 오차항을지닌경우나타나는다른현상으로는변동성의군집화 (volatility clustering) 현상을이야기할수있다. 이는자료의분산이시간에따른자기상관을지니는현상을일컫는것으로어느시점에서자료의분산이크면뒤따른시점들에서도분산이크게나타나는경향을이야기한다. 이제언론보도자료가위에서언급된 arch 효과들을지니는지생각하여볼필요가있다. 일반적으로어떤관심의제와관련하여새로운사건이발생하지않으면해당기간동안언론매체는통상적인최소의양의보도를하게되는반면해당의제와관련하여중요한사건이발생하면사건에대한배경분석등을포함한상당한양의보도가나오게된다. 이러한현상은 arch 효과의존재가처음으로제기된주식시장에서도자주나타나는현상으로특별한호재나악재가없는경우주식의수익률은 0 근처에서변동하지만주식시장에최근에문제가된유럽의금융위기와같은불확실성이개입하게되면사소한사건들에도수익률이크게요동치는현상이발생한다. 이러한현상의결과로주식수익률의주변분포는 0 근처에서높은밀도를보이고두꺼운꼬리를지닌분포적특성을지니게된다. 마찬가지이유로언론보도자료또한주변분포가 0 근처에서높은빈도를갖게되고두꺼운꼬리를가지게된다. 언론보도자료에있어변동성의군집화현상은대중매체의경우특정한사건에대한보도가지면 (section) 을옮겨가며단기간에사라지지않는현상을통하여설명할수있다. 한예로지난해에국내에서논쟁이되었던장애인교육시설에대한의제 ( 도가니사건 ) 의경우초기에는연예면의한영화
774 Eunju Lim, Kyu S. Hahn, Johan Lim, Myungsuk Kim, Jeongyeon Park, Jihee Yoon 에대한소개로부터논의가시작되었으나, 다음으로는교육에관련된사회면으로, 최종적으로는관련법안에대한의제를다루는정치면으로이동하며오랜기간언론의관심을받게되었다. 물론언론보도자료도시간에따라관측되는시계열자료이고의제자체의시간적상관성도변동성의군집화에영향을준다고생각할수있다. 3.2. 측도들 다음으로앞에서설명한언론보도자료의통계적특성의이해를돕기위한세가지정량적측도들에대하여살펴본다. 본절에서소개하는측도들은통계학에서널리사용되는측도이고본연구자들이새로이제안하는것은아니다. Arch 효과의통계적측도로서먼저왜도 (skewness) 를생각할수있다. 이는관심의제에대하여보도의성향 ( 긍정 / 부정 ) 을나타내는측도로만일어느언론매체가 A 라는주제에대하여음의왜도값을가졌다면이는덩치가큰부정적인보도가해당매체에자주나타났음을나타내고결과적으로는매체가해당주제에대하여부정적인보도행태를지니고있음을보여준다고할수있다. 두번째측도로서첨도 (kurtosis) 를생각할수있다. 첨도는원자료의꼬리의두꺼운정도를나타내는지수로첨도의값이클수록언론보도자료의주변분포가중앙부분은뾰족하고꼬리가두터운분포를갖게됨이알려져있다. 언론매체의보도자료가특정의제에관하여큰첨도값을가졌다함은해당매체가관련의제에대하여높은중요도를두고 ( 또는민감하게반응하여 ) 관련된사건이발생시많은양의보도를내보내고있음을이야기한다. 마지막으로변동성군집화에관련된지수를 arch 모형에서는분산에관련한자기회귀모형을이용하여정의한다. 제안된측도는분산성분의자기상관이얼마나빠른속도로 0 으로가는지를나타낸다. 다시이야기하면큰변동성이나타났을때이변동성이얼마나오랜기간지속되는지를나타내는측도이다. 언론보도자료가 arch 모형으로부터나왔다는가정하에서변동성의자기회귀식은 σ 2 t = α 0 + α 1 y 2 t 1 + α 2y 2 t 2 + + α py 2 t p 로표현되고제안된측도는위식의귀무식 ϕ(z) = 1 α 1 z α 2 z 2 α p z p = 0 의고유해 (eigenvalue) λ 1, λ 2,..., λ p 들의절대값중가장큰값으로정의한다. 여기서분산성분에대한자기상관계수가상수 c 1, c 2,..., c p 에대하여 γ(k) cov ( y t, y t+k ) = c1 λ k 1 + c 2λ k 2 + + c kλ k p, k = 0, 1, 2,... 로표현됨을생각하면자기상관계수가 0 으로의수렴하는속도는우리가제안한측도인고유해의절대치의최대값에의하여결정됨을알수있고따라서변동성의군집화에대한적절한측도임을확인할수있다. 위의측도들외에도 arch 효과에대한여러다양한측도들이존재하고이는 (Tsay, 2009) 등과같은시계열관련서적을살펴보면쉽게확인할수있다. 본논문에서는언론보도자료에대하여이러한측도들이사용될수있다는사례를보이고자응용연구자들이쉽게사용할수있는세가지측도에의거하여논의를진행한다.
Statistical Properties of News Coverage Data 775 Series NYT Series WP ACF 0.2 0.0 0.2 0.4 0.6 0.8 1.0 ACF 0.0 0.2 0.4 0.6 0.8 1.0 0 20 40 60 80 100 Lag 0 20 40 60 80 100 Lag (a) New York Times (b) Washington Post Figure 1: Auto-correlation function of New York Times and Washington Post data. The dotted lines are 90% confidence interval for white noise. 3.3. 사례응용 이절에서는앞서소개된세가지측도들을본연구진이수집한실제자료에적용하여보고자한다. 본분석을시작하기이전에언론보도자료의 arch 효과에대한탐색적분석으로서두매체의자료들의자기상관계수를계산하여본다. Figure 1 은두자료의자기상관계수를그림으로표현한것으로두자료모두긴시간의 Lag 에대하여도자기상관계수가쉽게없어지지않음을알수있다. 또한두자료에대하여 ARCH 모형을적합시켜보면워싱턴 - 포스트의경우는 ARCH(1) 모형이뉴욕타임즈자료의경우 ARCH(2) 모형이 BIC(Bayeisan Information Criteria) 기준을잘적합되고모형의계수들이유의하게나옴을확인할수있다. 이제구체적으로는위세가지측도를활용하여미국유력일간지인워싱턴포스트와뉴욕타임즈간의북한관련보도에대한매체적차이를비교해본다. 우선평균을비교하여보면뉴욕타임즈 ( 평균 = 62.75) 보다워싱턴포스트 ( 평균 = 68.57) 가북미관계를상대적으로부정적으로보도했다는것을알수있으나이차이는우리측도상불과다섯단어정도의차이여서큰의미를부여하기는어려웠다. 따라서북한관련보도에있어두언론사간의어조의차이는극히미미하고이는일반적으로미국언론에서북한관련보도가매우사건중심적이라는점에서어느정도예견된일치성이라할수있을것이다. 즉, 보도가치가있는북한관련사안이한정적이기때문에두언론사간의전반적인어조의차이가상당히작으리라는예측이가능하다. 평균과는다르게왜도 (skewness) 와첨도 (kurtosis) 에서의차이를고려할경우두언론사간의북한관련보도의특성차이가좀더확연하게드러났다. 구체적으로살펴보면왜도의경우뉴욕타임즈 ( 왜도 = 1.99) 가워싱턴포스트 ( 왜도 = 1.19) 보다두배가까운음의값을가지고이는뉴욕타임즈가북한관련사안에있어많은지면을할애한부정적인보도를워싱턴포스트지에비하여자주보도하고있
776 Eunju Lim, Kyu S. Hahn, Johan Lim, Myungsuk Kim, Jeongyeon Park, Jihee Yoon Histogram of NYT Histogram of WP Frequency 0 20 40 60 80 mean= 62.75 skewness= 1.99 kurtosis= 12.63 volatility clustering index= 3.83 Frequency 0 20 40 60 80 mean= 68.57 skewness= 1.19 kurtosis= 7.34 volatility clustering index= 4.42 3000 2000 1000 0 1000 3000 2000 1000 0 1000 New Your Times Washington Post (a) New York Times (b) Washington Post Figure 2: Arch effects 음을의미한다. 첨도의경우뉴욕타임즈 ( 첨도 = 12.63) 가워싱턴포스트 ( 첨도 = 7.34) 보다매우큰값을가진것을확인할수있고이또한뉴욕타임즈의주변분포의꼬리쪽분포가워싱턴포스트보다더두텁다는것을의미한다. 즉, 북미관계에대한보도에있어서뉴욕타임즈의경우상대적으로극단적인어조를띄는기사의숫자가많았다는것을시사한다. 마지막으로두신문의변동성군집화현상은워싱턴포스트가 (4.42) 뉴욕타임즈보다큰것으로 (3.83) 나타났다. 이것은두신문모두북한관련사안에대한관심이사건중심적이고일시적이나, 이러한현상이뉴욕타임즈의경우특히심했다는것을의미한다. 즉, 사안의신선함이하락할때뉴욕타임즈의경우워싱턴포스트보다훨씬더빠른속도로보도의양이감소한다는것을의미한다. 이는워싱턴포스트의경우그지리적위치상정치나외교와관계된사안을좀더비중있게다루는반면뉴욕타임즈지는보다다양한사안을균형있게다루는특성이있음이알려져있다. 이러한이유로뉴욕타임즈의경우기사의관심사안이빠르게이동하는경향이있고이러한경향이변동성군집화지수에반영되었다. 결론적으로뉴욕타임즈의경우북한관련사안이발생했을때상대적으로극단적인어조의기사를많이내는반면기사의관심이빠르게다른사안으로옮겨가는것을확인할수있었다. 반면, 워싱턴포스트의경우북한관련사안이발생했을때뉴욕타임즈보다상대적으로균형잡힌어조의기사가주류를이루고좀더긴기간동안사안에대한관심을유지하면서심층적인보도를했다는것을알수있다. 4. 시간적특성 : 변화점모형 앞절에서는 arch 효과에대한측도들이특정주제 (issue) 에대한여러언론매체들의보도행태를측정하고이를비교분석하는데유용하게활용될수있음을살펴보았다. 본절에서는언론보도자료에변화점모형을적합시키고이를통하여특정매체가사건 (event) 들에대하여가지는보도의특성을살펴본다. 본절의분석절차를구체적으로살펴보면관심주제 (issue) 에대하여언론보도자료에변화점모
Statistical Properties of News Coverage Data 777 형을적용하고검색된변화점에서발생한사건들을살펴봄으로써매체의사건별보도특성을알아보고자한다. 4.1. 변화점모형 변화점의탐색을위하여언론보도자료에대하여다음의가정을한다. 지정된매체의 t번째월의자료를 y t 라하면 y t 는평균이 µ t 이고분산이 σ 2 t 인분포를따르고 µ t 와 σ 2 t 는시간에따라분할적-상수 (piecewise constant) 함수임을가정한다. 변화점의개수가 m개로정하여져있을때 µ t 와 σ 2 t 의변화점을추정하는문제를표현하여보자. 먼저 µ[1 : n] = (µ 1,..., µ n ) 와 σ[1 : n] = (σ 1,..., σ n ) R n 라하고 S k [1 : n] 를 k개의변화점을지닌 (µ[1 : n], σ[1 : n]) 들의집합으로정의한다. 이들정의하에변화점의탐색은최적화문제 minimize 1 n ) (y t µ 2 t + log σ 2 t (4.1) t=1 σ 2 t subject to ( µ[1 : n], σ[1 : n] ) S m [1 : n] 의해를구하는문제로표현된다. 위의변화점모형은변화점에대하여 l 0 - 벌점 (bounded complexity) 을가정한모형으로 Friedrich 등 (2008) 과 Boysen 등 (2009) 에의하여연구되었다. 4.2. 알고리즘과모형선택 이절에서는최적화문제 (4.1) 를해결하기위하여동적프로그램 (dynamic programming) 과모형선택기준에대하여공부한다. 동적프로그램에대한자세한소개는 Bellman (1975) 를살펴보기바란다. 문제 (4.1) 를풀기위한방법으로동적프로그램을생각할수있다. 먼저 J k (i, j) 를 k 1개의변화점을가지고있는자료점들 y i,..., y j 에대한문제 (4.1), 즉 minimize 1 2 j { (yt µ t ) 2 } + log σ t t=i σ 2 t subject to (µ[i : j], σ[i : j]) S k [i : j] 의최적값으로정의한다. 이렇게정의된 J k (i, j) 들은재귀적관계식 { J k (1, n) = min J 1 (1, i) + J k 2 (i + 1, n)} 1 i n 을만족시킨다. 여기서 k = 1,..., m 의임의의수가될수있고최적값 J 1 (i, j) 은모든 i 와 j 에대하여표본평균과분산을이용하여쉽게계산할수있다. 이제문제 (4.1) 을푸는반복적알고리즘을설명하면다음과같다. 먼저 k 1 을 J m(1, n) 을최소화하는최적분할점이라고가정하면 J m 1 (k 1, n) 을최소화하는변화점 k 2 를구할수있고, 비슷한방법으로계속해서 k m 1 까지구할수있다. 이렇게계산된 (k 1, k 2,..., k m 1 ) 이식 (4.1) 의해를정의하는변화점이된다. 다음으로변화점의개수 m 을선택하는과정에대해서설명하고자한다. 문제 (4.1) 과관련하여 m 을선택하는것은유한개의포함모형 (nested model) 들가운데최적의모형을찾는문제이고이를위한통상적인방법은정보량기준 (information criteria) 을이용하는방법이다. 대표적인정보량기준들로는 Akaike (1974) 의 Akaike Information Criteria, Schwarz (1978) 의 Bayesian Information Criteria, (4.2)
778 Eunju Lim, Kyu S. Hahn, Johan Lim, Myungsuk Kim, Jeongyeon Park, Jihee Yoon 1950 HQI News Coverage Data 1500 1000 Hannan Quinn Information Criteria 1900 1850 1800 1750 Signed coverage 500 0 500 1000 1500 2000 Data Est. mean Est. std. 1700 0 2 4 6 8 10 12 14 16 18 20 num of segments Figure 3: Analysis of the Washington Post data. 2500 06.1992 02.1994 09.1995 06.1997 02.1999 10.2000 06.2002 02.2004 Month 그리고 Hannan 과 Quinn (1979) 의 Hannan-Quinn Information Criteria(HQI) 를생각할수있다. 본절에서는 HQI 를사용하기로한다. 정보량기준 HQI 는, k = 1,..., M 에대해서, HQI(k) = 2 max Θ S k, log f (y t; θ t ) + 2k log log(n) 로정의된다. 여기서 M 은우리가얻을수있는모형의복잡도 (model complexity) 의최대값을의미하고변화점모형의경우최대허용변화점의수이다. HQI 는복잡한모형에대하여 AIC 보다는강한벌점을 BIC 보다는약한벌점을제공함으로써선택된모형은복잡도 ( 또는모수의수 ) 에있어서두정보량기준들에의하여선택된모형의중간정도이다. 4.3. 사례응용 : 워싱턴 - 포스트 본절에서는앞에서제안된변화점모형을이용하여워싱턴 - 포스트의언론보도자료를분석하였다. 변화점의수 m = 1, 2,..., M = 20 에대하여식 (4.1) 의해를구하고이결과를이용하여 HQI 를계산하였다. Figure 3 의왼쪽패널은각변화점의수에대한 HQI 값을그린것인다. 앞절에서제안한방법에근거하면평균이나분산에서총 12 개의변화점이검색되었고이들중평균에큰변화를보인 1993 년 3 월, 1994 년 5 월, 2000 년 10 월과 2003 년 2 월을주요변화점으로간주하고변화점주변의사건들에대한추가적인조사를시행하였다. 우리분석에따르면첫변화점은 1993 년 3 월로볼수있었다. 북한은이보다조금뒤인 1993 년 5 월에미사일발사에성공함으로써북미관계가최악으로치닫는시발점이된바있는데, 사실이것은치밀한계획하에진행된수개월간에걸친이란과의협상및공조의결과물이었다. 이란과북한은일본본토까지타격이가능한장거리미사일을개발하기위한협력을꾸준히진행해왔었으며이러한협력의결과물로서 1993 년 3 월처음으로북한이이란으로부터미사일발사대제작에필요한원자재를수입하기에이르렀다. 그리고북한은곧핵확산방지조약 (NPT) 에서탈퇴를선언함으로써소위제 1 차북핵위기가촉발된바있다. 미국언론의시각에서이때부터이미북미관계의새로운변화를보여주는중대한사건으로보여졌으리라추측해볼수있다. 두번째변화점은 1994 년 5 월경으로보여지는데이시기는북한의미사일발사실험으로촉발된일촉즉발의위기상황에서북한의태도에일련의변화의조짐이나타나기시작한시점이라할수있다. 1994 년 5 월, 북한당국은처음으로 UN 핵사찰단을만나핵무기의원료가될수있는폐핵연료봉의관리와감시를위한시스템을구축하는것에대한논의를시작하는데합의했다. 이합의는핵사찰과관
Statistical Properties of News Coverage Data 779 련북미간의입장차가상당한접근을보임에따라양국당국자들간의고위급회담을개최하는것에양측이합의했다는워싱턴발보도가나온직후에발표되었다. 우리데이터에서 1994 년 5 월전후의뉴스보도가긍정적이면서상당히높은변동폭을보이는것은이런맥락에서해석이가능할것이다. 세번째변화점은 1994 년 10 월경이었는데이시점을전후로뉴스보도의어조는중립적인태도를띄면서상당히폭의변동폭을보이는것이감지되었다. 이시점을전후한북한관계사건들을살펴보면 1994 년 10 월 21 일, 북한과미국의협상단은북한이핵개발의심시설에대한특별사찰을거부하면서시작된 18 개월에걸친위기상황을봉합하는데공식적으로합의하였다. 양국은이미 8 월에합의를위한기본틀에동의한바있고, 이것이 10 월합의의기초가되었다. 양국은 8 월이전에도북한의 93 년 3 월핵확산금지조약 (NPT) 탈퇴로촉발된긴장상태를타결하기위한부분적합의를도출해낸바있었으나최종적인합의는 1994 년 10 월에이르러서야이뤄지게되었다. 네번째변화점은 2000 년 10 월이었다. 2000 년 10 월, 매들린올브라이트당시미국무부장관이클린턴대통령의북한방문가능성을논의하기위해이틀간북한을방문하는역사적인사건이일어났다. 그러나, 올브라이트장관은북미관계개선을위해서는북한의핵무기개발능력에대한투명성제고가선행되어야한다는점을분명히하였고, 결국클린턴대통령의방북은끝내이뤄지지못했다. 또한, 비슷한시기에두대의미국전투기가실수로남북한국경을침범하는사건이발생하여양국간의긴장완화에걸림돌이되기도했다. 실제로이네번째주요변화점이후뉴스보도의어조가매우부정적으로변한것을확인할수있다. 마지막변화점은 2003 년 2 월이었는데이것은제 2 차북핵위기와일치한다고할수있는데 2002 년가을부터이미제 2 차북핵위기의전조를예시하는일련의사건들이일어나기시작했다. 좀더구체적으로적시하자면 2002 년 10 월 16 일북한당국이제임스켈리미국무부차관보에게핵무기개발프로그램의존재를시인함으로써제 2 차북핵위기가촉발되었다고할수있다. 이에대한대응으로 2002 년 11 월에는한반도에너지개발기구 (KEDO) 는 1994 년제네바합의에의해지원했던대북중유지원을중단키로결정했고, 이에반발하여북한은 12 월 13 일핵시설동결해제를선언했으며, 22 일에는핵시설봉인제거작업을시작하면서국제원자력기구 (IAEA) 의감시카메라를제거하기에이르렀다. 또닷새후에는국제원자력기구 (IAEA) 에서파견된감시요원을추방했다. 또한 2003 년 1 월 10 일에는북한은핵확산금지조약 (NPT) 탈퇴를선언하면서그효력이즉시발효한다고발표하면서이탈퇴선언은 1993 년이미했던핵확산금지조약탈퇴를임시정지시킨것이었을뿐이기때문에공식절차인 탈퇴 3 개월전통보 는불필요하다는주장을폈다. 급기야북한은 2003 년 2 월 26 일에영변의핵원자로를재가동하기시작하면서현재까지도해결의실마리가보이지않고있는제 2 차북핵위기가본격화되었다. 5. 결론 본연구에서는대중매체의연구에있어중요한도구가되는언론보도자료의여러통계적성질에대하여살펴보았다. 특히언론보도자료에있어금융시계열자료에서흔히나타나는 arch 효과와변화점모형에대하여살펴보고이를실제북한관련실제언론보도자료에적용하여보았다. 본연구의결과를추후한국의주요언론들간의비교나또는한국과미국의매체들간의비교에응용할수있으리라사료된다. References Akaike, H. (1974). A new look at the statistical model identification, IEEE-Transactions on Automatic Control, 19, 716 723. Bellman, R. (1975). Dynamic Programming, Princeton Univ Press, Princeton, New Jersey.
780 Eunju Lim, Kyu S. Hahn, Johan Lim, Myungsuk Kim, Jeongyeon Park, Jihee Yoon Boysen, L., Kempe, A., Liebsher, V., Munk, A. and Wittich, O. (2009). Consistencies and rates of convergence of jump-penalized least square estimators, The Annals of Statistics, 37, 157 184. Curran, J., Iyengar, S., Lund, A. B. and Salovaara-Moring, I. (2008). Media system, public knowledge and democracy: A comparative study, European Journal of Communication, 24, 5 26. Erbring, L., Goldenberg, E. N. and Miller, A. H. (1980). Front-page news and real-world cues: A new look at agenda-setting by the media, American Journal of Political Science, 24, 16 49. Friedrich, F., Kempe, A., Libesher, V. and Winkler, G. (2008). Complexity penalized M-estimation: Fast computation, Journal of Computational and Graphical Statistics, 17, 1 24. Gans, H. J. (1980). Deciding What s News, Vintage Books, New York. Hannan, E. J. and Quinn, B. G. (1979). The Determination of the order of an auto-regression, Journal of the Royal Statistical Society-Series B, 41, 190 195. Iyengar, S. and McGrady, J. A. (2007). Media Politics: A citizen s Guide, W.W. Norton, New York. Lippmann, W. (1922). Public Opinion, Free Press, New York. MacKuen, M. J. and Coombs, S. L. (1981). More Than News, Sage Publications, Beverly Hills, C.A. Schwarz, G. E. (1978). Estimating the dimension of a model, The Annals of Statistics, 6, 461 464. Tsay, R. S. (2009). Analysis of Financial Time Series, John Wiley & Sons, Hoboken, New Jersey. 2012 년 5 월 19 일접수 ; 2012 년 9 월 15 일수정 ; 2012 년 9 월 26 일채택