TOBIGS TEAM PROJECT 감성분석을통한키워드기반대한민국정치흐름파악 2017.07.15 구혜인김서연연다인허능호
INDEX 주제선정배경 데이터수집및전처리 데이터분석 결론및제언
1 주제선정배경
1 주제선정배경
데이터 수집
데이터수집 2 1) 신문사수집기준 전국신문사발행부수순위와네이버의뉴스스탠드목록을바탕으로총 8 개의신문사를선정하였다. à 조선일보, 동아일보, 중앙일보, 문화일보, 국민일보, 서울신문, 한겨레, 프레시안 선정된 8 개신문사의사설들을수집하였다. 사설이일반기사보다해당신문사의주장이나의견을더잘반영할것이라판단 2017 년일간신문발행유료부수인증결과 예 ) 사드배치시작에관한사설의신문사간시각차이 VS 출처 : http://news.heraldcorp.com/view.php?ud=20170621000925 http://www.hani.co.kr/arti/society/schooling/787278.html
데이터수집 2 2) 크롤링 데이터수집기간 : 2016.01.01~ 2017.06.26 문화일보의경우, 최근 6 개월간의사설만제공하기때문에 2017 년 1 월 1 일부터 2017 년 6 월 26 일까지의사설만크롤링 à 아래크롤링한사설의개수역시현저히적은것확인가능 신문사별크롤링한사설개수 1362 1361 1500 1394 1529 1000 991 367 조선일보동아일보중앙일보문화일보국민일보서울신문한겨레프레시안
3 감성사전구축 프로젝트를진행하면서서울대학교언어학과연구진이구축한 KOSAC 감성사전을활용하였다. KOSAC 내의여러사전중에서는 Polarity 와 Intensity 라는두개의사전을이용하였다. 위감성사전은조선일보의생활, 사회면과한국일보, 한겨레에서총 332 개의기사, 7744 개의문장을선정, 3 명의연구진들이주석하여구축하였다. à 프로젝트의주제가신문과깊은관련이있다는점을바탕으로해당감성사전이가장적합하여채택함. 출처 : http://word.snu.ac.kr/kosac/index.php
3 감성사전구축 해당형태소의긍정 / 부정정도를의미하는가장중요한사전! Polarity 사전 ü 각형태소가어떤극성을띄고있는지 COMP, NEG, NEUT, NONE, POS의속성중하나로표현하였다. ü 계산방식 : POS / NEG 점수를각각 +1, -1 로잡고 사전내의확률과곱하여계산 출처 : http://word.snu.ac.kr/kosac/index.php
3 감성사전구축 해당형태소에어느정도의주관성이개입되는지설명해주는사전 Intensity 사전 ü 각형태소의주관성의정도를 High, Low, Medium, None 의 속성으로표현하였다. ü 계산방식 : 각속성의확률에 (NONE)1점, (LOW)4점, (MEDIUM)7점, (HIGH)10점을곱하여계산 출처 : http://word.snu.ac.kr/kosac/index.php
3 감성사전구축 더구체적인감성사전을구축하고자 8 개신문사에서사설 25 개씩을뽑아총 200 개의사설을먼저맞춰본후, 기존의감성사전에없는 6063 개의단어를추가하였다. à 전체 22423 개! 기존의사전이구축된방법그대로새로운형태소에대한각각의 polarity 와 intensity 점수를계산하였다. 실제추가한형태소사전및예시 샘플기사 200 개를적용시켰을때의정확도 원래의사전으로구한정확도 : 80/200 = 40% 새로추가했을때의정확도 : 140/200 = 70% ü 강공책 polarity : (+1-1-1)/3 = -0.667 intensity : 4*(1/3) + 7*(2/3) = 6 ü 열심 polarity : (+1+1+1)/3 = 1 intensity : 7*(2/3) + 10*(1/3) = 8
4 감성사전적용 감성사전이 n-gram 으로이루어져있기때문에, 각사설의단어를 3-gram/2-gram/1-gram 으로나누어사전에서검색한후, 각점수를합산하는방식을채택하였다. * 명확한이해를위하여다음예시를통하여알아보도록하자. 이때, Int*Pol 은 Intensity*Polarity 점수를사용하였음을의미하며, 이점수가적용된형태소는따로주황색으로표시하였다. 예시 ) 나는밥을맛있게먹는다. à 나 /NP+ 는 /JX+ 밥 /NNG+ 을 /JKO+ 맛있 /VA+ 게 /ECD+ 먹 /VV+ 는 /EPT+ 다 /EFN 전체 Polarity 적용 나 /NP+ 는 /JX+ 밥 /NNG+ 을 /JKO+ 맛있 /VA+ 게 /ECD+ 먹 /VV+ 는 /EPT+ 다 /EFN 전체 Int*Pol 적용 나 /NP+ 는 /JX+ 밥 /NNG+ 을 /JKO+ 맛있 /VA+ 게 /ECD+ 먹 /VV+ 는 /EPT+ 다 /EFN 141/200 = 70% 129/200 = 64.5% 서술어 Int*Pol + 나머지 Polarity ü 서술어 ( 동사, 형용사, 종결어미, 연결어미 ) 나 /NP+ 는 /JX+ 밥 /NNG+ 을 /JKO+ 맛있 /VA+ 게 /ECD+ 먹 /VV+ 는 /EPT+ 다 /EFN 명사 Int*Pol + 나머지 Polarity ü 명사 ( 보통명사, 고유명사 ) 나 /NP+ 는 /JX+ 밥 /NNG+ 을 /JKO+ 맛있 /VA+ 게 /ECD+ 먹 /VV+ 는 /EPT+ 다 /EFN 127/200 = 63.5% 126/200 = 63%
4 감성사전적용 역대정부의비선실세는제왕적대통령의어두운그림자다. { 역대 /NNG + 정부 /NNG + 의 /JKG + 비선 /NNG + 실세 /NNG + 는 /JK + 제왕 /NNG + 적 /XSN + 대통령 /NNG + 의 /JKG + 어둡 /VA + ㄴ /ETD + 그림자 /NNG + 이 /VCP + 다 /EFN} {polarity 점수 } {0 + 1 + 0.581920904 + -1 + -0.666666667 + 0 + -1 + -0.555555556 + 0 + 0.581920904 + -1 + -0.409090909 + -0.666666667 + 0.385620915 + -0.435483871} -2.677428034 이혜훈대표는보수철학과소신이뚜렷하고열정넘치는합리적정치인으로평가된다. { 이혜훈 /NNG + 대표 /NNG + 는 /JX + 보수 NNG + 철학 /NNG + 과 /JC + 소신 /NNG + 이 /JKS + 뚜렷 /XR + 하 /XSA + 고 /ECE + 열정 /NNG + 넘치 /VV + 는 /ETD + 합리적 /NNG + 정치인 /NNG + 으로 /ETD + 합리적 /NNG + 정치인 /NNG + 으로 /JKM + 평가 /NNG + 되 /VV + ㄴ다 /EFN} 5.03155871
분석결과 5 1) 키워드분석 대한민국의 1 년 6 개월동안의정치키워드를파악하기위해크롤링한사설본문의제목을바탕으로빈도분석을진행하였다. 사설의제목은가장중요하고요점이되는부분을포함한다는가정하에, 제목에서많이언급된키워드는당시이슈라판단하였기때문이다. 그결과는다음과같다. 세월호, 대통령 + 박근혜, 촛불, 사드 관련사설의개수가너무많아의미있는분석이어렵다고판단 위 3 개의키워드를기반으로신문사간비교진행하였다.
분석결과 5 2) 세월호키워드 세월호키워드에대한그래프 *** 문화일보의경우, 세월호에대한사설의개수가 10 개뿐이라제외 중앙일보 서울신문 조선일보 국민일보 동아일보한겨레프레시안
분석결과 5 2) 세월호키워드 세월호키워드에대한그래프 동아일보 2016 년 10 월쯤박근혜사건을계기로세월호에대한사설들이부정적으로변하기시작하였다. 이는대부분세월호사건당일박근혜의행적을비판했기때문이다. [ 동아일보사설 ] 비선실세 의단골의사에게대통령건강맡기다니 세월호참사가일어난 2014 년 4 월 16 일 7 시간동안 노화방지전문김모원장이 대통령자문의 를맡아수시로대통령에게주사제를처방했다는것은사실로확인됐다 2017 년 4 월쯤세월호인양과함께본격적으로긍정적인사설들이많이작성되었다. 이는세월호인양및정권교체를통한새로운변화를희망하는이야기가많았기때문이다. [ 동아일보사설 ] 과거보단미래향한통합. 복지대한민국으로 문대통령은 세월호 다시좀제대로조사되고진실이규명되게끔하는것이필요 라말했다.
분석결과 5 3) 촛불키워드 촛불키워드에대한그래프 국민일보문화일보조선일보 동아일보 중앙일보서울신문한겨레프레시안
분석결과 5 4) 사드키워드 사드키워드에대한그래프 국민일보문화일보조선일보동아일보 중앙일보 서울신문 한겨레 프레시안
분석결과 5 4) 사드키워드 사드키워드에대한그래프 국민일보 실제국민일보에서 사드 에대한사설의개수가기간별로급격한차이를보였다. 급격히개수가많아지는지점에대한이유를다음과같이찾아볼수있었다. 10 개 2016 년 2 월초 : 사드협상시작 30 개 2016 년 7 월경 : 대한민국경북성주에사드배치확정 à 부정적 49 개 2017 년 3 월경 : 정권교체에따른사드재협상논의 à 긍정적으로변화
분석결과 5 5) 추가사항 프레시안의경우, 타신문사보다사설의양과길이가압도적으로많음을데이터수집단계에서부터확인하였다. 실제분석한결과, 전반적으로세키워드에대한긍정적인성향을갖고있었다. 문화일보의경우, 최근반년간의데이터밖에제공하지않아분석의한계가있었지만, 세월호 키워드검색결과반년동안총 10 개의사설 ( 전체의 2.7%) 밖에없는것은눈여겨볼만하다. 중앙일보의경우, JTBC 의영향을많이받은것으로보인다. 박근혜전대통령과태블릿 PC 사건을기점으로, 촛불 키워드가전반적으로긍정적으로사용되었음을확인하였다.