<C0CEBCE C0D3C8ADC1F E687770>

Similar documents
<C3E6B3B2B8AEC6F7C6AE20B3BBC1F C8A3292E687770>

ㅇ ㅇ

목차 Ⅰ. 기본현황 Ⅱ 년도성과평가및시사점 Ⅲ 년도비전및전략목표 Ⅳ. 전략목표별핵심과제 1. 군정성과확산을통한지역경쟁력강화 2. 지역교육환경개선및평생학습활성화 3. 건전재정및합리적예산운용 4. 청렴한공직문화및앞서가는법무행정구현 5. 참여소통을통한섬

2011년_1분기_지역경제동향_보도자료.hwp

목 차 Ⅰ. 사업개요 5 1. 사업배경및목적 5 2. 사업내용 8 Ⅱ. 국내목재산업트렌드분석및미래시장예측 9 1. 국내외산업동향 9 2. 국내목재산업트렌드분석및미래시장예측 목재제품의종류 국내목재산업현황 목재산업트렌드분석및미래시

<C3E6B3B2B1B3C0B C8A32DC5BEC0E7BFEB28C0DBB0D4292D332E706466>

- 2 -

**09콘텐츠산업백서_1 2



뉴스평가지수의개발과적용

CR hwp

MRIO (25..,..).hwp

PowerPoint 프레젠테이션

장애인건강관리사업


ÃѼŁ1-ÃÖÁ¾Ãâ·Â¿ë2

( 제 20-1 호 ) '15 ( 제 20-2 호 ) ''16 '15 년국제개발협력자체평가결과 ( 안 ) 16 년국제개발협력통합평가계획 ( 안 ) 자체평가결과반영계획이행점검결과 ( 제 20-3 호 ) 자체평가결과 국제개발협력평가소위원회

hwp

이발간물은국방부산하공익재단법인한국군사문제연구원에서 매월개최되는국방 군사정책포럼에서의논의를참고로작성되었습니다. 일시 장소주관발표토론간사참관 한국군사문제연구원오창환한국군사문제연구원장허남성박사 KIMA 전문연구위원, 국방대명예교수김충남박사 KIMA객원연

<BBE7C8B8C0FBC0C7BBE7BCD2C5EBBFACB1B820C3D6C1BEBAB8B0EDBCAD2E687770>

01정책백서목차(1~18)

활력있는경제 튼튼한재정 안정된미래 년세법개정안 기획재정부


성인지통계

C O N T E N T S 목 차 요약 / 1 Ⅰ. 태국자동차산업현황 2 1. 개관 5 2. 태국자동차생산 판매 수출입현황 우리나라의대태국자동차 부품수출현황 Ⅱ. 태국자동차산업밸류체인현황 개관 완성차브랜드현황 협력업체 ( 부

슬라이드 1

2013 국토조사연감 075 전국 대기오염도(SO2) 년 대기오염도(SO2) (ppm) 년 2012년

보도자료 2014 년국내총 R&D 투자는 63 조 7,341 억원, 전년대비 7.48% 증가 - GDP 대비 4.29% 세계최고수준 연구개발투자강국입증 - (, ) ( ) 16. OECD (Frascati Manual) 48,381 (,, ), 20


2 Journal of Disaster Prevention

Untitled-1

2003report250-9.hwp

C O N T E N T S 목 차 요약 / 3 Ⅰ. 브라질소비시장동향및특성 경제현황 2. 소비시장의특성 Ⅱ. 브라질소비시장히트상품분석 최근히트상품 년소비시장, 이런상품을주목하라! Ⅲ. 우리기업의 4P 진출전략

<B3EDB9AEC0DBBCBAB9FD2E687770>

ICT À¶ÇÕÃÖÁ¾

목 차 주요내용요약 1 Ⅰ. 서론 3 Ⅱ. 스마트그리드산업동향 6 1. 특징 2. 시장동향및전망 Ⅲ. 주요국별스마트그리드산업정책 17 Ⅳ. 미국의스마트그리드산업동향 스마트그리드산업구조 2. 스마트그리드가치사슬 3. 스마트그리드보급현황 Ⅴ. 미국의스마트그리드정

[11하예타] 교외선 인쇄본_ver3.hwp

목 차

학교교과교습학원 ( 예능계열 ) 및평생직업교육학원의시설 설비및교구기준적정성연구 A Study on the Curriculum, Facilities, and Equipment Analysis in Private Academy and It's Developmental Ta

육계자조금29호편집

발간등록번호대한민국의새로운중심 행복도시세종 2015 년기준 사업체조사보고서 Report of The Census on Establishments

04 특집

<C0CCBCF8BFE42DB1B3C1A4BFCFB7E12DB1E8B9CCBCB12DC0DBBCBAC0DAB0CBC1F5BFCFB7E12DB8D3B8AEB8BBB3BBBACEC0DAB0CBC1F52E687770>

맘톡광고소개서

2013지발-가을내지1004-4


< C0DAC0B2C5BDB1B820BFEEBFB520B8DEB4BABEF32D33C2F720C6EDC1FD2E687770>

<B3EDB4DC28B1E8BCAEC7F6292E687770>

1362È£ 1¸é

1-표지 및 목차 & 1-서론 (최종보고서안).hwp

2002report hwp

목차 Ⅰ. 기본현황 Ⅱ 년도성과평가및시사점 Ⅲ 년도비전및전략목표 Ⅳ. 전략목표별핵심과제 1. 녹색생활문화정착으로청정환경조성 2. 환경오염방지를통한클린증평건설 3. 군민과함께하는쾌적한환경도시조성 4. 미래를대비하는고품격식품안전행정구현 5. 저탄소녹색

1 제 26 장 사회간접자본의확충

Ⅰ Ⅱ Ⅲ Ⅳ

[ 조사개요 ] 구분 내용 모집단 전국에거주하는만 19 세이상성인남녀 표집틀 유무선전화 RDD 표집방법 지역별, 성별, 연령별기준비례할당추출 표본크기 2,000 명 ( 유선 551 명 (27.55%), 무선 1,449 명 (72.45%)) 표본오차 무작위추출을전제할경우



대학생연수용교재 선거로본대한민국정치사

차 례

2


신규투자사업에 대한 타당성조사(최종보고서)_v10_클린아이공시.hwp


제 1 호 지방자치단체녹색정보화추진동향 제 2 호 전자정부성과관리를위한평가동향 제 3 호 외국모바일전자정부추진동향 제 4 호 업무용 PC 가상화 제 5 호 증강현실구현기술현황 제 6 호 Web 기술의진화와공공서비스 제 7 호 ICT 를통한일자리창출방안 제 8 호 스마트

2002report hwp

hwp

Layout 1

- I - - II -

어디서 찾지? TAAS(교통사고분석시스템)홈페이지를 클릭하면 교통사고통계가 한눈에 TAAS란? 도로교통공단은 교통안전법 제59조, 동법 시행령 제48조 제3항 에 따라 경찰 보험사 공제 조합 등의 교통사고 통계자료를 통합(구

untitled

수출및수입액현황 (2016) 6억 1,284 만달러억 1 7,045 만달러 4억 4,240 만달러 2015 년대비 15.4 % 증가 2015 년대비 11.1 % 증가 2015 년대비 1.3 % 증가 수출액 수출입차액 수입액 지역별수출액 ( 비중 ) 일본 4,129만달러

선진사례집(0529)

지역온천수의농업활용타당성연구


목차 C O N T E N T S

그린홈이용실태및만족도조사


제출문 한국연구재단이사장귀하 본보고서를정책연구용역과제인 학문분야별연구개발사업추 진체계수립을위한사전기획연구 의최종보고서 ( 초안 ) 로제출 합니다 년 6 월 한국연구재단 연구기관명 : 건국대학교산학협력단 연구책임자 : 박재민 공동연구원 : 엄미정 공동연구원 :

2010 산업원천기술로드맵요약보고서 - 화학공정소재

UDI 이슈리포트제 20 호 울산권개발제한구역의효율적관리방안 도시계획연구실정현욱연구원 052) / < 목차 > 요약 1 Ⅰ. 서론 3 Ⅱ. 울산권개발제한구역의현황및문제점 4 Ⅲ. 외국의개발제구역대안적관리사

조사보고서 구조화금융관점에서본금융위기 분석및시사점

농림축산식품부장관귀하 본보고서를 미생물을활용한친환경작물보호제및비료의제형화와현장적용매뉴 얼개발 ( 개발기간 : ~ ) 과제의최종보고서로제출합니다 주관연구기관명 : 고려바이오주식회사 ( 대표자 ) 김영권 (

untitled

고3-02_비문학_2_사회-해설.hwp

단양군지

UDI 이슈리포트제 18 호 고용없는성장과울산의대응방안 경제산업연구실김문연책임연구원 052) / < 목차 > 요약 1 Ⅰ. 연구배경및목적 2 Ⅱ. 한국경제의취업구조및취업계수 3 Ⅲ. 울산경제의고용계수 9

Layout 1

자유학기제-뉴스레터(6호).indd

센터표지_ 수정

암호내지

2016남서울_수시모집요강_단면.pdf

11+12¿ùÈ£-ÃÖÁ¾

041~084 ¹®È�Çö»óÀбâ

산업별인적자원개발위원회역할및기능강화를위한중장기발전방안연구 한국직업자격학회

November Vol.90 39

ePapyrus PDF Document

....pdf..

세미나자료 전국초 중 고성교육담당교사워크숍 일시 ( 목 ) 10:00~17:00 장소 : 한국교원대학교교원문화관

CC hwp

Transcription:

전략연구 2014-15 빅데이터를이용한충남도정책키워드분석 임화진

발간사 최근중앙정부나지방정부가직면하고있는정책환경에있어가장큰변화는아마도빅데이터라는개념의등장과이를정책에어떻게활용할것인가라는고민일것이다. 빅데이터를활용한민간부문의마케팅이나수익창출모델의개발은이미수년전부터국내외를막론하고활발하게추진되고있다. 한편, 행정부문에있어서도이를활용한혁신에관한연구도활발하게진행되고있으며, 몇몇부분에서는실질적으로이를적용하고있기도하다. 우리정부도정부 3.0을내세워데이터과학을공공서비스분야에적용함으로써효율적인정책추진을시도하고있다. 즉, 행정에도 SNS 및빅데이터를활용하여효율적인정책추진및보다질높은서비스를주민에게제공하려는노력들이이루어지고있다. 이러한측면에서본연구는충남도와관련된언론데이터와 SNS 데이터를분석하여지역현안및정책에대한도민의생각을추출하여이를도정에적극적으로활용할수있는방법을모색하고있다. 본연구는구체적정책내지방향을제시하고있지는않지만, 충남도와관련된언론데이터의활용을통하여정책모니터링및도민의의견을효율적으로수렴하여도민의삶의질을높일수있는맞춤형정책수립을위한기초연구로서의의미가있다. 후속연구를통하여빅데이터를활용하여도민이체감할수있는좋은정책을만들어낼수있기를기대해본다. 끝으로본연구를수행한임화진박사와본연구를수행하는데도움과조언을아끼지않은원내외자문위원및심의위원들에게감사의말씀을드립니다. 2014년 8월 31일충남발전연구원장강현수

연구요약 본연구는충남도와관련된언론데이터와 SNS 데이터를분석하여충남도에지역현안을보도한언론기사분석을바탕으로한도민의견을구조적으로평가하고, 여론분석결과도출해낸키워드를정책과연결하여파급도와수요등을가시적으로표현하였다. 분석결과는다음과같다. 언론기사추출결과로는상반기에는주로정치, 경제적이슈가, 하반기에는문화관련이슈등조금더폭넓은이슈를발견할수있었다. 트위터분석을통한충남도정책관련키워드구조에서는천안시가전체정보네트워크안에서중요한 HUB 로서추출되었으며이는충남내의다양한화제들이천안시와밀접한관계를이룬다고볼수있다. 한편사회적경제와 3농혁신에관한분석에서는각키워드의특성과충남도와의관계를조망할수있었다. 사회적경제는전국적인화두로인식되고있으며구체적으로서울, 수원, 성남등과같은지역명이대두되고있고이중하나로충남이언급되고있다는것을알수있다. 이와는대조적으로 3농혁신은충남고유의정책으로거의대부분의언급이충남도와직접적으로연관이있는키워드지만전국적인파급효과가있다고는보기힘들며아직추상적인단계의사업들이대부분이다. 즉사회적경제는전국적인화두로인식되고있으며구체적으로서울, 수원, 성남등과같은지역명이대두되고있고이중하나로충남이언급되고있었다. 또한여러가지주체가얽혀있는열린네트워크를발견할수있었으나충청남도관련키워드가전체네트워크에서중심적인역할을하고있지는않았다. 따라서향후사회적경제에관한정책은전국적인네트워크형성에주력하고그무대를확장시켜나가는것이필요하다. 한편 3농혁신은충남고유의정책으로거의대부분의언급이충남도와직접적으로연관이있는키워드지만아직추상적인연관어가대부분이었고구체적인사례나사업에관한연관어가많지않았다. 따라서향후 3농혁신정책은도내외여론이더욱관심을가질수있는구체적인사업과대중적이고체감할수있는언어로전달하는것이필요하다는점을도출할수있었다. 본연구의분석절차및활용방안을참고하여향후충청남도도정에관련된키워드를적절히모니터링하여빅데이터를적극활용하는도정방안을마련하는것이중요하다고생각한다.

목 차 제1장서론 1 1. 연구의배경및목적 1 1) 연구의배경 1 2) 연구의목적 2 3) 사용개념의정의 4 2. 연구의흐름 5 제2장빅데이터에관한선행연구및활용사례 6 1. 빅데이터의개념 6 1) 빅데이터의정의및특징 6 2) 빅데이터에관한선행연구 8 2. 국내, 외빅데이터활용사례 11 1) 민간부문의활용사례 11 2) 공공부문의활용사례 13 제3장충청남도정책키워드분석방법 20 1. 충남도정책키워드분석개요 20 2. 분석자료의범위및자료구축방법 21 1) 분석자료의범위 21 2) 분석자료의수집 22 3. 분석방법의개요 23 1) 텍스트마이닝 (Text Mining) 23 2) 텍스트마이닝기법및지표 24 3) 분석의구성 26 제 4 장충청남도정책키워드분석결과 27 1. 충청남도언론기사분석 27 i

1) 기본통계 언론기사전체월별현황및검색어 27 2) 신문기사키워드분석결과 32 2. 충남도관련트위터분석 36 1) 기초현황분석 36 2) 연관어분석 39 3) 연관어네트워크 45 제5장결론및제언 50 1. 주요결론 50 2. 연구성과의활용과향후과제 50 1) 충남도빅데이터활용현황과과제 50 2) 본연구의한계 52 참고문헌 53 ii

표목차 < 표 1> 연구질문과연구목적 3 < 표 2> 정부 3.0의추진방향및전략 15 < 표 3> 빅데이터의공공분야활용가능성 18 < 표 4> 수집데이터개요 22 < 표 5> 트위터추출주제어 23 < 표 6> 충청남도에대한관심이높은도시 30 < 표 7> 신문기사주요키워드리스트 33 < 표 8> 빈출키워드 1: 고유명사, 인물 39 < 표 9> 빈출키워드 2: 일반명사, 지역명 40 < 표 10> 3농혁신키워드 42 < 표 11> 노출도상위 10위 43 < 표 12> 인용트윗수 10 이상미디어 44 < 표 13> 중심성지수 49 iii

그림목차 [ 그림 1] 빅데이터의개념과범위 7 [ 그림 2] 월마트소셜게놈시스템 ( 출처 : 월마트랩 HP) 12 [ 그림 4] 충남, 충청남도키워드네이버트렌드검색결과 28 [ 그림 5] 충남, 충청남도의구글검색수 29 [ 그림 7] 월별키워드추출 (TF-IDF 이용 ) 35 [ 그림 8] 충청남도관련트윗수및작성자수 37 [ 그림 9] 정책키워드관련트윗수및작성자수 37 [ 그림 10] 각시군별관련트위터현황 ( 붉은색 : 1월 ~6월, 파란색 : 7월 ~12월 ) 38 [ 그림 13] 사회적경제관련트위터네트워크 ( 충청남도 ) 46 [ 그림 14] 3농혁신관련트위터네트워크 48 iv

제 1 장서론 1. 연구의배경및목적 1) 연구의배경 제 3의물결인정보화사회를지나제 4의물결이라칭할수있는데이터사회로들어서게되었다. 앨빈토플러가언급한제 4의물결의세가지중요요소인시간, 공간, 지식을다루는중요한수단으로부상하고있는것이바로빅데이터다. 빅데이터는사전적의미로본다면큰용량의데이터지만최근에통용되는정의로는기존의저장기술및분석기술로대응할수없는대용량데이터를지칭한다. 빅데이터는 3V( 크기, 속도, 다양성 )+1V 라는개념으로대용량의여러가지형태의데이터를빠른속도로처리하여새로운가치를창출하는패러다임으로주목받고있다. 한편 2000 년대이후스마트폰사용자가급증하면서모바일을중심으로한시대가오게되었다. 즉데이터를이용및생산하는스마트폰이라는플랫폼이보급되면서모바일시대에는언제어디서나개인기반으로데이터를구축할수있는시대가오게되었다. 이러한스마트폰과같은플랫폼은 SNS 보급에큰역할을하게되어 SNS 를통한실시간의개인의의견을활용하고자하는수요가급격히증가하게되었다. 이러한변화는기존의정형화된데이터를일정시간이상공들여생산하는것이아닌실시간으로각개인이대량의데이터를생산하게되면서이러한데이터가빅데이터로자리잡게되었다. 최근에는행정과빅데이터및오픈데이터가융합한정부 3.0 그리고지방 3.0이큰반향을 1

일으키고있다. 데이터과학을공공서비스분야에적용함으로서효율적인정책추진및평가를시도한것이라고볼수있는데최근정부 3.0이라는구상을발표하였고이에발맞추어지방자치단체에서도지방 3.0이라는정책아젠더를내걸고정책구상단계에돌입하여행정과관련된제반데이터를오픈하는방안을추진하고있다. 이러한배경하에충남도민의의견을충실히반영하기위한취합체계구축이필요하게되면서설문조사및여론조사에선행하여정보를효율적으로수집하기위한수단으로서유용한 SNS 데이터가각광을받고있다. 또한정책키워드와여론분석결과를비교검토하여정책평가를도출하고새로운정책과제를발견하는모니터링이시급하다. 이러한모니터링을통하여맞춤형정책수립이가능하며행정비용을대폭감소시킬수있다는것이큰이점이라고할수있다. 빅데이터를활용한민간부문의마케팅이나수익창출모델은이미수년전부터정책추진및평가를시도하는연구가국내외를막론하고활발하게추진되고있으며행정혁신부문에서도많은연구가실시되어왔다. 이때체계화된데이터이외에도비정형데이터를효율적으로분석하는방안이필요하다. 정부3.0의공공분야의데이터공개사례를살펴보면먼저정형데이터공개사례로서국내사업중에서는국토교통부와 LH공사와지적공사등이함께구축한온나라부동산시스템을통한부동산공시지가및관련정보공개사례가있다. 한편비정형데이터를활용한이동통신통화데이터를이용한서울시심야버스노선설정, 다음지도와재해정보연계및범죄데이터결합등의사례가있다. 이처럼다양한분야에서많은정보를공개하고이용하는움직임이가속화되고있으며이러한흐름에서빅데이터를적극적으로활용하여도정에유용한시사점을얻는것이무엇보다중요해지고있다. 2) 연구의목적 본연구는이러한배경을바탕으로이하와같이연구의문제의식을설정하였다. 행정혁신의관점으로볼때정책투입일변도가아닌수요응답형모니터링이중요해지고있지않는가? 빅데이터의흐름을이용한수요자중심의맞춤형정책과제도출이가능하지않을까? 충남도가적극적으로추진하고있는정책에대한여론의반응과수요자 ( 도민 ) 의반응은어떠한가? 2

이러한연구의문제의식을바탕으로본연구는다음과같은목적을설정하였다. 먼저기존데이터와빅데이터의융합활용을통한언론통계및비정형데이터통계시스템을구축하고비정형데이터의정책평가활용방안을제안하는것이다. 다음으로빅데이터를이용한충남정책모니터링을실시하고자하는데이에지역별, 시기별맞춤형정책수립을위한기초분석결과를바탕으로향후정책모니터링의여론및나아가서민원등의반영체계에대한실험적분석을실시한다. 또한이를통해방향성을도출하고자한다. 나아가비정형데이터를효율적으로정책평가에활용할수있는제안을검토한다. 지역현안을보도한언론기사분석을바탕으로한도민의견을구조적으로평가하고, 여론분석결과도출해낸키워드를정책과연결하여파급도와수요등을가시적으로 표현하도록한다. < 표 1> 연구질문과연구목적 연구질문빅데이터를이용한수요자중심정책과제를발굴할수있지않을까? 행정혁신의관점으로볼때정책투입일변도가아닌수요응답형모니터링이중요해지고있지않는가? 충남도가적극적으로추진하고있는정책에대한여론의반응과수요자 ( 도민 ) 의반응은어떠한가? 연구목적기존데이터와빅데이터의융합활용 : 언론통계및비정형데이터통계시스템구축빅데이터를이용한충남정책모니터링의실험적분석도민여론분석을통한사회적경제추진정책평가 3

3) 사용개념의정의 본연구에서는정책파급도란개념을이용하여충청남도의정책에관련된키워드를분석하도록한다. 또한연관어를통한정책이미지를평가하도록한다. 언론과트위터로대표되는어떠한현상에대한글을통하여정책자체의만족도나선호도를구할수는없다. 다만파급도라고명명한일정이상의관심도는그빈도수나구조로서파악할수있고함께언급된관련키워드를통해단어에관한이미지를파악할수있다. 따라서본연구에서는정책에관련된핵심키워드를도출하고키워드간의연관관계를통해충청남도관련여론의구조를파악하도록한다. 4

2. 연구의흐름 1. 빅데이터활용정책현황과사례조사 2. 충남도신문기사분석 3. 충남도트위터분석 4. 충남도핵심정책을모니터링하는빅데이터활용방안구상 5

제 2 장빅데이터에관한선행연구및활용사례 1. 빅데이터의개념 1) 1) 빅데이터의정의및특징 빅데이터의개념및범위 빅데이터란대용량데이터를활용및분석하여가치있는정보를추출하고, 생성된지식을바탕으로능동적으로대응하거나변화를예측하기위한정보화기술과그데이터자체를일컫는다. 초기에는기술측면에서접근하여데이터자체만을지칭하였으나, 현재는수집, 저장, 검색, 공유, 분석, 시각화등관련제반기술을폭넓게포함하고있으며분석도구및인재, 조직으로확대되는경향도보이고있다. 빅데이터의가장큰특징은지금까지잘다루어지지않았던비정형데이터를데이터분석에연계하여활용한다는점이다. 특히 SNS 데이터와같은방대한텍스트데이터를손쉽게처리및분석하는부분이빅데이터관련분야중에서도가장주목받고있는부분이다. 1) 정책 FOCUS 를바탕으로작성 6

빅데이터의특징 빅데이터의특징은크게 3V로설명된다. 여기서 3V는데이터의규모 (Volume) 와데이터의종류 (variety), 데이터의속도 (Velocity) 를일컫는다. 최근에는 3V에가치 (Value) 를추가하여 3V+V라고도한다. 빅데이터의효용가치의가장대표적인것으로다양한정보를파악할수있다는것을들수있다. 빅데이터의가장대표격인 SNS 데이터는개개인의취향을직접반영한시간, 공간이파악가능한데이터이다. 이를통해기업및고객, 행정및정책수요자간의쌍방향소통에있어서유용하게활용될수있다. 빅데이터의저장기술과데이터구축기술, 데이터분석기술이함께융합된다면기존에시도하지못했던데이터사이에상호융합이가능해지며새롭고입체적인대안의도출이가능해진다. [ 그림 1] 빅데이터의개념과범위노무라연구소빅데이터시대도래 (2012) 를참고및수정 7

2) 빅데이터에관한선행연구 빅데이터분석방법 빅데이터분석방법은크게텍스트마이닝, 웹마이닝, 소셜마이닝, 현실마이닝이라는단계로구분할수있는데텍스트마이닝과웹마이닝, 소셜마이닝까지는현재빅데이터분야에서주된방법론으로사용되고있다. 즉마이닝이라는개념은분석방법을일컫는것이며텍스트, 웹, 소셜이라는것이분석데이터를지칭한다고볼수있다. 여기서현실마이닝은이러한복합적인데이터를융합하여현실에더욱근접한모델을구성하는것이라고할수있다. 각각의마이닝에대해서는수집, 저장, 처리, 해석의측면에서다분야에걸친연구성과가존재한다. 이중자연어처리분야인텍스트마이닝분야가발달하면서대용량의텍스트를기계적으로분석할수있는기반이갖추어지게되어빅데이터분석분야에큰지평을열었다고할수있다한편빅데이터흐름과는달리기존의언론정보학에서다루던내용분석이나대응분석등은사회학분야를포함하여오랜시간연구성과가축척되어왔다. 본연구에서는수집, 저장의측면은컴퓨터과학과같은기술적인분야기때문에다루지않고텍스트처리및해석방법에초점을두어선행연구를검토하도록한다. 국외연구동향 빅데이터와 SNS 를결합한최초의사례라고평가되는연구는 08년인디애나주립대 Johan Bollen 에의해행해졌다. 이연구는트위터데이터가개인의의사를반영한정보가포함된것을발견하고이에착안했던연구라고할수있다. 구체적인분석과정은반년간의트위터의데이터를이용하여오피니언분석을통해기분변화를측정하고이와관련된연간이벤트의연관성을도출하였다. 이러한연구를바탕으로 MIT 연구그룹은트위터데이터를활용하여행복도를측정하는연구를시도하기도하였다. 국내연구동향 국내연구에서는특히 2012 년이후한국에서는 SNS 데이터, 특히트위터에대한분석이활 8

발하게실시되고있다. 주로기술적인측면은정보학분야에서실시된연구가많으나기술을적용하여새로운시사점을뽑아내기위한시도도사회학이나정치학등다양한분야에서이루어지고있다. 한예로배정환외 2 (2013) 는국내트위터를분석하여선거결과를조망하여선거전의과정과결과에있어서트위터의구조등을본연구이다. 또한박재희 (2013) 의연구는트위터데이터를이용하여도시정책지표를구성하고주거환경만족에대한공간적특성을도출하는연구를수행하였다. 여기서는트위터의공간정보와트위터텍스트를주거만족도로해석하는텍스트마이닝기법이결합된연구라고할수있다. 데이터별로본텍스트마이닝기존연구 빅데이터의성질을규정하는가장큰부분인비정형데이터는음성, 사진, 동영상등을일컬으나주로텍스트데이터로환원되어분석에사용된다. 즉텍스트데이터는빅데이터에서큰비중을차지하고있으며이를분석하는텍스트마이닝또한빅데이터분석의중요요소라고할수있다. 최근까지주로행해져온텍스트마이닝의주요데이터소스는신문기사, 검색어, 트위터, 그외데이터를들수있다. 신문데이터는언론정보학분야에서연구가풍부하게진행되었다. 그러나이전까지는기계적인텍스트마이닝보다는주로일대일로읽고내용을분석하는연구방법이주로행해져왔다. 최근들어데이터마이닝툴이발달함에따라대용량의신문기사및여론자료를분석하는논문들이발표되기시작하였다. 그예로감미아외 1 (2012) 를들수있다. 이연구에서는주요신문사의논조비교를대용량의데이터분석을통해구현했으며구체적으로어떤단어에대한논조의차이가존재했는지검토를시도하였다. 구글검색어를이용한텍스트마이닝도새로운시도로조망받고있다. KISTEP 에서수행한미래트렌드분석연구는텍스트마이닝과네트워크분석을활용한연구로서구글검색어를데이터베이스로정하고기존의텍스트마이닝지표를개량한새로운빈도수지표를활용하는등다양하고새로운시도를행한연구라고할수있다. 이연구에서는검색엔진및논문등을통한새로운지식에대해추이를분석하고관계도를그려보는것이미래예측의하나의방법론이될수있다고지적하고있다. 9

이외에행정기관에서다룰수있는대표적인데이터로민원데이터를들수있다. 중앙정부의사례를보면국민신문고출범이후국민신문고처리민원을분석한연구로민원텍스트마이닝을실시한연구사례가존재한다. 분석내용을살펴보면연도별민원현황및총량적인민원추이분석, 연령대별, 성별, 지역별민원추이및특성분석, 민원주제별, 민원키워드별추이및특성분석등이며연도별 성별민원키워드 TOP100 을추출 분석하여남 여주요민원주제 5개를각각선정하여키워드분석결과공통주제 4개와성별특성주제각각 1개씩총 6개민원주제에대해분석하였으며연령대와성별로각부문별민원키워드수를집계하였다. 빅데이터연구의유의점 빅데이터연구에서가장유의해야할점은빅데이터라는단어에지나치게고착되어있어서는안된다는것이다. 즉단순히데이터베이스만을구축하는것을목표로해서는안되고데이터를활용해야할목표가있어야하며목적에맞는방법을구체화해야하는것이가장필요하다. 빅데이터에관한전문적인시각을가지고있는가트너의부사장은아래와같이빅데이터에도입시에주의해야할부분에대해언급하고있다. 빅데이터를도입할때확인할부분은투자대비원하는만큼의효과를낼수있는지확인하는것이다. ( 중략 ) 빅데이터는새로운것이아니라이전부터존재했던데이터를모은것에불과하다. 기업활동에의미가없는다크데이터와가치있는데이터를구분할수있어야경영에도움이되지만대부분은분위기에휩쓸려빅데이터를무조건받아들이고있다. ( 중략 ) 보유한데이터중가치있는부분을발견하고분석하는것에집중하는것이중요하다. - 도널드페인버그, 가트너부사장, 2013.10.21. 이글에서도알수있듯이빅데이터를데이터구축에한정시키는것이아니라새로운방법을동원하여가치있는사실을도출해내는것이가장중요한목적이며이것은지금까지행한데이터분석과크게다르지않다는것을의미한다. 즉빅데이터는조금더새롭고다양한데이터를추출과정제를통해분석할수있는형태로구비하고해법을찾아내는과도기적인개념이라고할수있다. 10

2. 국내, 외빅데이터활용사례 1) 민간부문의활용사례 [ 국내 ] 포스코의원료가격효율적구매관리 포스코는빅데이터를이용하여효율적이고빠른속도로원료가격을예측하여구매관리를실시하고있다. 가격변동이큰철광석등자원을적시에조달하기위하여데이터분석을통하여최적구매시기와가격대를결정하는것이다. 이를통하여고객의수요데이터, 남미 호주광산의상황, 런던금속거래소의광물가격데이터를분석하여미래의철광석가격을예측하고있으며이를통해생산공정별온도, 습도, 압력, 성분등의데이터와불량률을결합하여, 생산효율성이높아지도록실시간으로공정제어도실시하고있다. [ 국내 ] SK 텔레콤의 Tmap 공간정보와통신정보를결합한 SK텔레콤은지도와연결된유동인구, 업종별 월별매출정보등으로상권분석서비스를제공하고있다. 자영업창업희망자가업종별매출현황, 경쟁매장, 잠재수요고객, 유동인구등의정보를지도에서직접분석가능한시스템을제공하고있다. 총연결정보는 10종으로 2,650 만 SK텔레콤가입자동선 ( 유동인구 ), 3,000 만 OK캐쉬백회원소비패턴, 현대카드가맹점결제, 부동산114의상권시세등을제공하고있다. [ 국내 ] 다음소프트소셜인사이트 다음소프트소셜인사이트라는분석플랫폼을통해소셜네트워크의이슈와관심키워드의실시간모니터링으로상황에맞는대응전략및마케팅전략의수립을지원하고있다. 자연어처리, 분석기법등을이용하여블로그와트위터에서형성되는트렌드와여론을일반과공공으로구분 * 하여제공하고있다. * 일반 : insight.some.co.kr, 공공 : pub.some.co.kr 11

[ 국외 ] 월마트 (Walmart) 의 social genome 을통한고객관리 월마트는각지점의모바일과소셜쇼핑의특징을이용한월마트랩을운영하고있으며웹사이트에서발생하는거래데이터를재고예측에이용하여적절하고효율적인재고관리를도입하였다. 또한소셜미디어회사인코스믹스 (Kosmix) 인수를통해소셜네트워크와콘텐츠를관리하여고객정보에맞게각지점을운영할방침을가지고있다. [ 그림 2] 월마트소셜게놈시스템 ( 출처 : 월마트랩 HP) 12

2) 공공부문의활용사례 정부 3.0 과밀접하게연결되는공공부문의데이터베이스공개에관한선행사례는국내, 외 에다양하게존재한다. 국외공공분야빅데이터활용사례 먼저외국의데이터개방제도에관하여살펴보도록한다. 유럽연합은빅데이터물결이닥치기이전에도 ' 공공정보재활용지침 '(DIRECTIVE on The Re-Use of Public Sector Information, 2003) 을제정하고매년회원국의이행여부를심사하는제도를마련한바있다. 이후 2012 년에 27개회원국공공기관의모든공공데이터의온라인개방을의무화한 오픈데이터전략 (Open Data Strategy, ODS) 을발표하고적극적으로공공데이터개방에나서고있는모습을보이고있다. 영국에서도이미 2005년에정보화물결에대응하면서민간이더욱활발하게공공데이터를이용할수있도록 ' 공공정보재활용규칙 '(The Re-use of Public Sector Information Regulations, 2005) 을제정하였고 ODI(Open Data Institute, 국가전반의공공데이터활용정책총괄 ) 를설립하여공공정보재활용정책을총괄하도록하였다. 이를통해공공데이터의접근성이높아지고정보공유인프라가구축되어왔다. 최근에는 data.gov.uk 을통해인구, 범죄, 건강등공공정보를개방하고있다. 이와같은데이터원스톱서비스는정부의투명성을높이고국민의알권리를향상시켜경제및사회적가치를증대시키도록도모한다. 나아가제 4의물결에서주도권을획득하려는전략이라고도할수있다. 한편미국또한오래전부터공공데이터개방에적극적인자세를보여왔다. 일례로 1996 년에민간이공공데이터를자유자재로활용할수있는권리를 ' 정보자유법 (Electronic Freedom of Information Act, 1996) 에서규정하고웹2.0기반의정부2.0정책으로 172개공공기관의 38만개가넘는정보를개방해온실적이있다. 오바마정부이후에는대대적인공공데이터개방에더욱박차를가해, 국방부등 6개연방기관의주체가되어빅데이터선진기술개발에 2억달러규모의 빅데이터연구개발이니셔티브 가추진되었다. 구체적으로의료부문에서는국립보건원의필박스 (Pillbox) 서비스로검색통계를활용하여약검색등을제공하고주요질 13

병의분포, 연도별증가등을분석하고있다. 이사업은연간 5천만달러의비용절감효과를거둘수있다고기대하고있다. 다음으로호주에서는 ' 범정부차원의정보공개체계정립에관한지침 (Whole of Government Information Publication Scheme, 2009) 이마련되어 data.australia.gov.au 을통해연방, 주, 지방정부에서생성되는 1,100개의공공정보를개방하고있다. [ 그림 3] 영국, 미국, 호주의공공데이터개방홈페이지 이처럼빅데이터흐름이본격적으로전개되기이전부터미국과영국등지에서는공공데이터를적 극적으로개방하는등체계적인준비를해왔으며이를통한새로운사업창출을독려해왔다. 국내공공분야빅데이터활용사례 다음으로국내사례에대해살펴보도록한다. 우리나라에서는 2013 년이후정부3.0이라는기조를내걸고본격적으로공공데이터개방을추진하고있다. 이는다른선진국들의흐름에힘입어세계화 3.0과자본주의 4.0등새로운물결하에새로운성장동력을찾기위한돌파구로서행정혁신을이루고자함이다. 정부는 공공데이터의제공및이용활성화에관한법률 을제정하는등제도적인기반을마련하고사업을추진하고있다. 정부3.0의대략적인효과로서한국정보화진흥원 (2011) 의추산에따르면영국의행정혁신정책을한국의공공시스템에적용하면약 10.7 조원의비용절감을기대할수있다고한다. 또한비용절감뿐아니라다양한의견을수렴하고정책을설계및평가할수있다는점에서시너지효과를낼수있다. 14

< 표 2> 정부 3.0 의추진방향및전략 실현목표실천방안세부전략 소통하는투명한정부 공공정보의적극공개 공공데이터개방 적극적이고능동적인공개를통해정책사업에대한사전공표를확대. 원문공개, 전과정공개, 국민중심공개민간수요가많은공공데이터의대폭개방. 개방로드맵수립 민관협치강화 인터넷투표, 전자공청회, 토론회등의견수렴의장마련. 일잘하는유능한정부 칸막이를없애는국정운영시스템혁신데이터기반의과학적행정 국정, 협업과제의보다근원적이고본질적인해결도모. 국민체감할수있는가시적성과창출클라우드컴퓨팅환경구축으로지식공유기반마련및빅데이터를활용한과학적행정구현 국민중심의서비스정부 민원서비스혁신 원스톱기업민원서비스제공 생애주기별맞춤형민원서비스제공 중소기업지원사업통합관리시스템구축 * 공공기관정부 3.0 책임관워크숍내용저자편집 15

민원분야국내활용사례 국민권익위원회민원정보분석시스템은민원정보분석시스템구축사업 ( 10년 ~ 12년 ) 을통해국민신문고를운영하고있다. 2) 정부민원에대한민원통계DB 구축및분석기반마련하기위해구축되었으며그동안사회이슈등단기분석을수행하며축적된노하우와분석기법을활용하여장기적 거시적관점에서민원분석을이하와같이시도하였다. 1차년도사업에대한이용활성화및지속적인확대를위한 2차사업추진 (2011 년 ) - 안정적서비스를위한인프라증설 : 110콜센터연결및하드웨어증설 - 민원분석업무지원강화 : 의미기반의민원분석을위한클러스터링및의견분석기능개발 - 보다다양한국민의소리분석 : 194개교육청, 16개광역시도, 29개중앙행정기관민원게시판수집, 뉴스, 아고라등외부정보수집 - 부처별공동활용서비스제공 : 고용노동부, 국토해양부, 보건복지부, 경찰청분류체계 충남도의활용사례 충남도에서도빅데이터와행정혁신에대응하기위해다방면으로전략을수립하고있다. zero 100 프로젝트 를통해빅데이터를연계활용하여지역현안을해결하는사업을추진하고있다. 또한이밖에도공공기관보유정보의활용과다양한사업화지원을위하여 충남도민발명아이디어공모전 을개최하였다. 최근에는다수부처에분산되어있는안전과관련된데이터를활용하여분석및공유를통한재난예측체계도입하고재난대응기능의보강을넘어선, 재난의사전예측 대비기능을도입하는것을목표로하고있다. 즉이를통해결과적으로는재난정보빅데이터를활용한미래위기대응및대비전략수립하는것을목표로하고있다. 3) 2) 민원분석서비스를제공하였으나현재는잠정적으로운영이되지않고있다.(2014 년 2 월기준 ) 3) 출처 : 2013 년충청남도시책토론회자료 16

공공분야활용가능성 이상으로현재공공분야의빅데이터활용의국내외사례를살펴보았다. 향후공공분야의빅데이터활용은다양한측면으로정리될수있다. OECD 가지적한빅데이터중요 5대분야로첫째, 온라인마케팅 ( 맞춤형서비스 ), 둘째, 보건의료 (smart health-care), 셋째, 지능형교통, 넷째, 스마트에너지, 그리고마지막으로행정의효율화를들수있다. 여기서공공데이터활용또한전분야에걸쳐서유용하게사용될수있다. 각분야별로살펴보면온라인마케팅은민간부문에서주력을기울이고있는분야이나공공분야에서도관광및지역마케팅으로이용될수있다. 지능형교통분야는교통데이터베이스가대부분공공에서관리하고있는만큼잠재력이높은분야이다. 실제사례로서서울시심야버스노선설정과정에서통신사의통화량을이용하여통행인구를예측하여노선을합리적으로설정한것을들수있다. 이처럼공공분야의데이터개방은다양한활용사례들이등장하고있으며향후활용가능성도무궁무진하다. 활용분야에대해분류해보면표 4와같이크게사회조사및민원, 의료보건복지, 환경및도시, 방범보안의분야로나눌수있다. 17

< 표 3> 빅데이터의공공분야활용가능성 ( 알기쉬운공공부문빅데이터분석, 활용가이드 2013 를참고로연구자재구성 ) 구분활용방안이용가능데이터 특정주제에대한시민의목소리를 시민목소리이해 이해하고추이분석하여민원센터와소셜데이터에기반을둔정책의제발 민원, 소셜데이터 굴과전략확보방안 사회조사 민원 사회이슈분석기관, 인물평판분석 이슈의발굴과연관검색어등을통한주제분석을통해정책수요발굴및지역별이슈도출. 또한맞춤형대국민서비스전략수립가능하도록분석지정된기관의시민인식및평판에대한소셜미디어분석. 일간지, 소셜데이터, 민원센터로그 SNS, 일간지, 포털게시판등 맞춤형민원서비스 지역별, 기관별로주민의민원을분석하여개인맞춤형시스템을구축 서비스사용로그, 게시판및민원센터로그, 포털게시판등 의료 보 의료및복지서비스 의료보험비용분석, 부당청구방지, 복지정책의수요및만족도분석, 불균형해소 의료보험데이터, 민원센터로그, 소셜데이터, 서비스기관홈페이지, 주요일간지통합분석 건 복 전염병, 질병관리 유행전염병, 질병예측, 대응및지역적전파, 연도별거시분석등 검색어, 보고데이터및 GIS등 지 교육정책및 교육환경개선및민원처리를포함한 예산집행데이터, 소셜 현안분석 합리적교육예산의집행및절감 데이터, 민원센터등 18

재난대응, 도시관제 사고다발지역대책및재난예측을통한사고및재난방지. 응급시시민의목소리를적확하게반영 CCTV, 도로센서, SNS, 전화량등 환경 도시 교통상황관리및최적화환경감시및대응 교통흐름모델링을통한예측, 최적화시스템, 교통신호체계및교통유지보수활용가능환경데이터와다양한연구결과를메타분석하여환경오염과변화상황을모니터링. 또한중장기적수행전략수립을위한기초자료수집 도로센서, 사건사고기록, 날씨, 명절, SNS 리모트센싱, 측량, 각종연구결과등 방 범죄예방과대응 지역별, 시간별, 이벤트별, 유형별, 범죄패턴문석및지역별, 시기별예방전략수립 뉴스, 언론사, 소셜데이터 범 보안 금융감독및세금, 내부감사 조세회피및탈세의패턴감지및조기대응. 지역별기간별동향파악내부담합및보안등감시기능 조세, 금융거래데이터와소셜데이터의통합분석 국방및국가 주요이슈모니터링및정책근거자 보고서, 뉴스, 정보사이트 안보 료수집및분석 등 19

제 3 장충청남도정책키워드분석방법 1. 충남도정책키워드분석개요 어떠한정책에관련된키워드를추출하고이를통한파급양상을분석함으로써정책키워드에대한대중의관심도및인지양상을간접적으로파악할수있다. 이러한관심도및인지도를바탕으로정책파급도를정의해볼수있다. 즉정책이파급된다는것은넓은의미로해석한다면정책에대해사회적으로인지도가상승한다는의미와정책자체의전파를통한실천주체의증가및정책효과의극대화및만족도증대로표현할수있다. 한편기존의대표적인매스미디어의형태로서신문기사를들수있으나 2000 년대후반부터빠른속도로전파된 SNS 의미디어로서의기능이새롭게부각되고있다. 여기서신문기사가주로언론사를중심으로전개되는공급자위주의미디어라면 SNS 는쌍방향소통을통한공급자와수요자가동시다발적으로정보를생산해내는새로운미디어채널로서주목받고있다. 따라서본연구에서는보도자료및언론사를중심으로한공급자의시선을대표하는신문기사와공급자와수요자가상호연관적으로실시간으로소통하는미디어인 SNS 에서충청남도가적극적으로추진해온주요정책에관한키워드를파악하여도정에관한여론을간접적으로측정하도록한다. 20

2. 분석자료의범위및자료구축방법 1) 분석자료의범위 본연구의분석자료는크게신문기사와 SNS 데이터로나누어진다. 흔히이러한문자 ( 텍스트 ) 가기반인데이터를비정형데이터라고하는데이는여러통계표로대표되는정형화된수치데이터와대비되는표현으로사용하는용어이다. 이러한비정형데이터를수집하고분석하기위해서는기존의정형데이터와는다른분석방법론이필요하다. 먼저데이터의수집에관해살펴보면신문기사에대해서는자체적인스크랩이나검색엔진에서제공되는데이터를사용하여독자적으로전산화를거쳐텍스트데이터화시키는것이필요하다. 그러나전자화되어있지않은데이터를처리하기위해서는 OCR(Optical Character Recognition) 이라는광학문자인식기술이필요한데전반적으로한국어에관해서는인식도가많이부족한것이사실이다. 한편 SNS 데이터에관해서는유명한데이터가 Facebook, 트위터 (Twitter), 카카오톡등이존재하는데이중가장분석이용이한매체가트위터분석이다. 그러나이경우에도개인정보관리등과관련하여이전보다일반인이데이터를제공받기힘든상황이전개되고있다. 따라서늘어나는분석수요를조달하고비정형데이터에관한자체적인아카이브를구축하는것이힘들경우에는데이터를보유하고있는기업과적극적인연계를통해해법을찾는것이중요하다고할수있다. 한편최근에는서울시가심야버스노선선정에 KT의통신데이터를이용한것으로유명하다. 이러한통신사데이터이외에는행정에서습득할수있는빅데이터로서민원데이터와센싱 ( 측정 ) 데이터등이있을수있다. 그러나이와같은데이터베이스는축척에의미를두기때문에활용도가낮다는것이문제점으로지적되고있다. 21

2) 분석자료의수집 본연구에서는다음표5 와같은자료를구축하여충청남도정책에관한키워드분석을실시하였다. 구축한자료는크게언론기사와트위터데이터로나눠진다. 언론데이터는주로웹페이지에서모은기사를활용하였고기간은 2013 년 1년간을수집하였다. 또한트위터는공개트위터만을기준으로분석하였다. 트위터데이터를추출한방법은먼저공개트위터데이터안에서각각주제1과주제2를포함한트위터데이터를추출한뒤관계가적은데이터는삭제하는방법을거쳤다. 이때주제1 은지역에관련된주제어이며, 주제2는충남의핵심정책과전반적으로연결되어있는주제어와지명등고유명사를포함한주제어로나누어진다. < 표 4> 수집데이터개요 데이터종류 언론데이터 트위터데이터 수집방법 - 포털사이트 ( 네이버 ) 웹페이지의뉴스리스트 공개트위터분석 - 수집및전처리는 사이람에의뢰 기간 2013.1.1.~2013.12.31 2013.1.1.~2013.12.31 건수 12,959건 ( 충청남도검색 ) 언론사 : 384개 ( 상세목록은부록참조 ) 주제1: 약 30만건주제2: 약 125만건 22

< 표 5> 트위터추출주제어 주제 1 충청남도, 충남, 안희정, 충청 & 논산, 충청 & 서산, 충청 & 공주, 충청 & 부여, 충청 & 천안, 충청 & 예산, 충청 & 아산, 충청 & 서천, 충청 & 당진, 충청 & 홍성, 충청 & 보령, 충청 & 청양, 충청 & 금산, 충청 & 태안, 충청 & 계룡공주, 부여, 천안, 예산, 아산등의지역명은충청남도와전혀상관없는트윗를추출하는데영향을미쳐추출키워드를수정 ex) 백설공주, 동기부여, 천안함, 정부예산, 아산병원등 주제 2 사회적경제, 사회적기업, 공유경제, 착한기업, 마을기업, 내포신도시, 3 농 혁신, 서해안, 농업직불금, 농촌마을, 지속가능발전, 행복지표, 협동조합, 6 차산업, 미더유, 경제선순환, 에너지, 균형발전, 송전선로, 전통시장 3. 분석방법의개요 1) 텍스트마이닝 (Text Mining) 빅데이터분석에특화된분석기법으로가장대표적인것이데이터마이닝 (Data Mining) 이다. 데이터마이닝은가설을정확하게수립하고모델을검증하는기존의통계분석과는달리데이터의홍수속에서해답을찾아내는기법으로귀납적이고경험적인방법이다. 또한그러한분석을실시하기전까지수많은과정의전처리가필요한데이러한과정도데이터마이닝에속한다. 데이터마이닝이수치정보에근거한정형화된데이터 (Structured Data) 를처리및분석하는방법이라면텍스트마이닝은비정형데이터 (Unstructured Data, or unstructured information) 을처리및분석하는가장대표적인방법이라고할수있다. 왜냐하면현재비정형데이터라고불리는대다수의정보들은사람의말이나글이기때문이다. 대표적인비정형데이터로 23

e-mail, 논문, 책, 사진, 오디오, 비디오등을들수있으며이러한데이터는언어데이터를디지털화시켜야하는과정을반드시수반한다. 이러한처리및분석과정에서쓰이는기법을텍스트마이닝이라고한다. 텍스트마이닝의일반적인과정은크게 4단계로이루어져있다. 데이터수집, 가공, 정보추출, 분석의절차이다. 2) 텍스트마이닝기법및지표 텍스트마이닝의기법은크게정보추출, 문서클러스터링, 토픽추출, 웹마이닝, 질의응답시 스템등을들수있다. 이러한여러기술중에서본연구에서는문장의분절을통한단어별 통계작성기법을적용한뒤단어를분석하는빈도수나여러지표를사용하였다. R Package: tm, KoNLP 분석에사용한 R 패키지는 tm 과 KoNLP 이다. 여기서 tm 은텍스트마이닝을위한패키지이 며 KoNLP 는한국어처리를위한패키지이다. 4) 또한한국어사전은 sejong.dic 에충남관련 정책키워드를포함한 user dic 을구축하여수행하였다. TF-IDF 텍스트마이닝의여러지표들은수학적알고리즘을바탕으로구축되어있다. 가장보편적인지표중하나로 TF-IDF (Term Frequency - Inverse Document Frequency) 를들수있다. 이 TF-IDF 는 TF와 DF의역수를곱한지수로서어떠한단어의중요도를추출하는데사용될수있다. 즉단순한빈도처리가아닌단어의출현확률을기준으로출현빈도를한번더가공처리하여단어의빈도수를나타내고있다. 즉여러문서에동시에출현하는단어는출현확률이높다는전제하에역문헌빈도수를계산하여 DF가커질수록중요도가감소하는효과를볼수있다. 4) 자세한사항은 R 홈페이지 (http://www.r-project.org/) 를참조 24

max (1) (2) log (3) (4) TF: 문서내특정단어의빈도수 DF: 여러문서내의특정단어빈도수 IDF: DF 의역수 그러나 TF-IDF 모델은일반적인단어를분석하는측면에서는매우유용하나고유명사나새로운개념을분석할때는중요도가과소및과대평가될수있어주의를요구한다. 따라서본연구에서는이러한한계점을보완하기위하여키워드빈도수를중심으로 TF-IDF 를보완적으로사용하였다. 연관어분석 연관어분석에앞서연관관계의정의가불가피하다. 연관관계 (association relationship) 란 어떠한단어에대한다른단어들이가진패턴의유사성을의미한다. 연관규칙의기본개념은 도로파악할수있다. 트위터노출도분석 트위터분석에서어떠한트위터또는 URL 이얼마만큼전파되었는지를나타내는정도를노 출도라고명명하였다. 즉노출도는트윗의총노출범위를말하는것으로, 트윗을보게되는전체유저수를일컫는 25

다. 계산방법은해당트윗을작성한사람의팔로워와 RT한사람들의팔로워를모두를합하여중복을제거한유저수로환산하였다. 또한 자주인용된미디어 의노출도는그미디어 (URL) 를포함한트윗들의노출도를모두합한값이다. 3) 분석의구성 본연구에서는충청남도정책에관한키워드를분석하는방법으로신문기사와 SNS 데이터를이용한텍스트마이닝을실시하였다. 구체적으로는텍스트마이닝을통한키워드의 TF-IDF 분석과관련어분석을실시하고관련어를바탕으로한키워드네트워크맵을작성하여단어간의연관성에대해가시적으로검토하는과정을거칠것이다. 나아가네트워크상의중심적인단어에대해중심지지표의간략한분석을통해중심키워드를도출하도록한다. 26

제 4 장충청남도정책키워드분석결과 1. 충청남도언론기사분석 여기서는웹에서수집한충청남도언론기사를대상으로텍스트마이닝을이용하여분석한 결과를살펴보도록한다. 1) 기본통계 언론기사전체월별현황및검색어 먼저충남에관련된언론기사의전체적인경향을파악하기위해네이버트렌드 (http://trend.naver.com/) 를통해 [ 충청남도 ] 와 [ 충남 ] 이라는단어로검색어추이를알아보았다. 그림5는각각충청남도와충남의검색어횟수를살펴보면 2010 년도이후건수가지속적으로증가하는경향을띠고있으나간헐적으로검색어가급속히증가하는시점이등장한다. 이때주로충청남도에대한관심도가상승했다고할수있다. 27

[ 그림 4] 충남, 충청남도키워드네이버트렌드검색결과 다음으로구글트렌드 (http://www.google.com/trends/) 도네이버와같이검색어에대한정보를제공하고있는데네이버트렌드에비해서시, 군단위의지역도파악할수있어더욱자세한경향파악이가능하다. 구글트렌드결과를살펴보면 2010 년 1월부터 2014 년 1월에걸친기간중, 2010 년하반기부터 2011 년연초, 2012 년 6월즈음의검색어결과가급상승했다는것을알수있다. 28

[ 그림 5] 충남, 충청남도의구글검색수다음으로지역별로집계된 [ 충청남도 ] 라는검색어의검색현황을살펴보도록한다. 기간은 2010 년부터 2013 년 12월까지이고아산시의검색회수를 100 으로놓고아산시를기준으로다른지역을상대적으로표시한수치를나타내었다. 그결과전국현황중아산시에서검색한횟수가가장높게나타났다. 이때아산시를 100으로봤을때천안시가 80, 그다음으로대전광역시가 28, 서울시가 10 으로나타났다. 즉충청남도내에서는아산시, 천안시지역의사람들이충청남도라는검색어로가장많이검색했으며그외에는충청남도내지역이아는대전광역시와서울시에있는사람들이검색을실시하였다. 한편아산시와천안을제외한충청남도내다른지역들은충청남도에대한검색어빈도수가많지않다는것을알수있다. 29

< 표 6> 충청남도에대한관심이높은도시 아산시 ( 대한민국 ) 100 천안시 ( 대한민국 ) 80 대전광역시 ( 대한민국 ) 28 서울특별시 ( 대한민국 ) 10 인천광역시 ( 대한민국 ) 7 부산광역시 ( 대한민국 ) 6 다음으로웹에서 [ 충청남도 ] 라는단어가들어간신문기사를추출한데이터의단어수를살펴보았다. 데이터베이스의출처는네이버뉴스라이브러리에서 2013 년1월부터 12월까지 1년동안의신문기사를수집하였고이를 OCR 등으로정리하였다. 또한 100퍼센트일치하는기사는보도자료등의복사로간주하여중복수집하지않고 1회로제한하였다. 그결과총 12950 건의기사가추출되었다. 월별기사량을살펴보면 1월이가장많았고 10월이가장적었다. 또한전체적인경향을보았을때하반기보다는전반기가훨씬많았다. 2013년전체기사의단어수는 4,787,780개이며매월평균은 398,981 이다. 30

< 그림 6> 구축한신문기사데이터월별글자수및단어수그래프 31

2) 신문기사키워드분석결과 단어 ( 명사 ) 추출및주요키워드분석 여기서는 2013 년도충청남도라는단어를포함한신문기사를수집한데이터베이스를이용하여형태소분석을거친후, 명사를중심으로단어를추출한결과를살펴보도록한다. 이때출현빈도가 12회 5) 가넘는단어를추출하고동일한의미를가지는단어를통합한결과를표 10에나타내었다. 표 10을통하여전체키워드빈도수를살펴보면지역명인 [ 충청남도 ] 가가장높은빈도수를나타냈으며다음으로 [ 사업 ] 이라는단어의빈도가높은것을알수있다. 다음으로내포신청사를포함한 [ 내포신도시 ] 가높게나타났다. 5) 최소출현빈도설정에는이견이있을수있으나 12달치라고생각할경우한달에한번이상언급되었다고가정할경우총빈도수가 12회일때라고할수있음. 32

< 표 7> 신문기사주요키워드리스트 단어 빈도수 단어 빈도수 단어 빈도수 충청남도 4961 사회적기업 114 농업정책 23 사업 3483 황해경제자유구역 112 롯데백화점 23 안희정 ( 도지사, 충남도지사 ) 1312 기후변화 99 발광다이오드 23 내포신도시 ( 내포신청사 ) 851 온실가스 97 벤처기업 23 활성화 653 농공단지 76 허베이스피리트호 23 디스플레이 397 출연금 68 지역균형발전 21 중소기업 368 환황해권 67 국립부여박물관 18 농업기술 299 보령머드축제 65 김수근문화재단 18 서해안 296 사회복지시설 61 재정자립도 17 신도시 294 노동조합 58 리솜스파캐슬 16 에너지 294 경부고속도로 56 송산일반산업단지 16 백제문화 285 송전선로 53 스토리텔링 16 친환경 229 공유재산 50 에너지관리 16 글로벌 199 온양온천 47 외국인투자기업 16 균형발전 167 거버넌스 46 투자설명회 16 네트워크 162 국제통상 43 환경영향평가 16 문화예술 160 롯데아울렛 40 충남테크노파크 15 지역발전 158 서해안고속도로 40 부곡산업단지 14 주민자치 156 농촌마을 38 탄천산업단지 14 고속도로 152 도시계획 34 친환경농업 13 지역주민 148 에너지사업 33 자유무역협정 12 사회복지 145 환경오염 33 중소기업지원 12 워크숍 142 고마나루 29 천안국제웰빙식품엑스포 12 협동조합 136 상생산단 26 지속가능 ( 지속가능발전 ) 136 환경정화 26 총 73개 33

TF-IDF 를이용한월별이슈추출 다음으로신문기사텍스트를이용하여키워드를분석한결과를살펴보도록하겠다. 여기서는 TF-IDF 를이용하여 3글자이상인키워드중에서 TF-IDF 가 0.5 이상인단어를월별이슈로선정하였다. 결과를살펴보면 3월, 4월, 8월, 9월, 12월에는특별한이슈는추출되지않았다. 한편 1월은중소기업지원, 산업단지, 디스플레이, 국제통상등의지역경제와관련된이슈가추출되었는데이는연초의도정계획및언론의관심이주로경제분야에주목되어있다는것을알수있다. 한편 2월에는외국인투자기업, 에너지사업, 상생산업단지에관한기사가주된키워드로부상하였다. 이는 1월에서이어진경향으로산업분야의화제를보여주고있으며에너지등에관한언급도있었다는것을알수있다. 또한상생산단에대한관심이급증했던때라고도할수있다. 이후 5월, 6월에는부곡산업단지, 투자설명회로이어지는지역경제와관련된이슈가추출되었다. 7월부터는경제적인화제가아닌다른측면에서도많은키워드들이부상하였다. 보령머드축제와같은문화관광에서의이슈도주목을받았다. 한편김수근문화재단의경우에는 7월에건축가김수근을기리는기사가작성되고반향을부름에따라국립부여박물관과함께언급된것이영향을미쳤다고할수있다. 9월에는다른달에비해부여롯데아울렛및롯데백화점에관한화제가주된기사였다. 이와관련해서지속가능발전도함께언급되었던점이특징적이라고할수있다. 11월에는리솜스파캐슬에관한기사가많았다. 한편충남내송전선로에관한이슈도많이언급되었다. 34

[ 그림 7] 월별키워드추출 (TF-IDF 이용 ) 35

2. 충남도관련트위터분석 여기서는트위터에서수집한충청남도언론기사를대상으로텍스트마이닝을실시한결과를 살펴보도록한다. 1) 기초현황분석 먼저기초데이터를살펴보면충청남도관련키워드를언급한트윗수와작성자수를나타낸것이그림9이며표6에나타낸주제2의정책별키워드를언급한트윗수와작성자수를나타낸것이그림10이다. 먼저그림9를보면 2013 년한해동안 6월이가장많은트윗수를나타냈고 6월을기준으로상반기보다하반기가트윗수가많아진것으로보아충남에대한트윗노출도가하반기로갈수록증가했다는점을알수있다. 이를바탕으로하반기에들어서서충청남도에대한관심도가상승했다고유추할수있다. 주요트윗내용을살펴보면 6월에는충남도민체전에아이돌스타출연으로인한팬들의관심, 안희정충남지사관련뉴스, 국정원관련충남지역시국선언이있었고 7월에는해병대사설캠프사건, 호두과자업체노무현비하사건, SKT 홍보글등이화제를일으켜트위터수를증가시킨요인으로작용했다. 한편충남도정책키워드관련트윗수는이와다르게월별경향이크게다르지않은것을발견할수있다. 전체트윗수는충남을언급한트윗보다훨씬많은데이는각정책이충청남도만이아닌다른지역에서도전개되고있으며보편적인사항이기때문이기도하다. 세부적으로살펴보면 7월과 11월에정책키워드를언급한트윗이다른달에비해많은반면 5월과 10월, 12월에는다소적었다. 그러나작성자수는크게다르지않는것으로보아고정된인원이정책키워드에관해관심을가지고언급하였다는점을알수있다. 36

40,000 트윗수 작성자수 35,000 30,000 25,000 20,000 15,000 10,000 5,000 0 1 월 2 월 3 월 4 월 5 월 6 월 7 월 8 월 9 월 10 월 11 월 12 월 [ 그림 8] 충청남도관련트윗수및작성자수 140,000 120,000 100,000 80,000 60,000 40,000 20,000 트윗수 작성자수 0 1 월 2 월 3 월 4 월 5 월 6 월 7 월 8 월 9 월 10 월 11 월 12 월 [ 그림 9] 정책키워드관련트윗수및작성자수 37

다음으로각시, 군에관한트위터현황을살펴보도록한다. 시군별트윗수를살펴보면전체적으로천안시, 공주시에관한언급이주로되고있다는점을알수있다. 상반기와하반기로분류하면주로상반기보다하반기에들어서서트윗수가증가하는것을알수있다. 특히하반기에들어서는천안시와아산시에관한언급이가장높았다. [ 그림 10] 각시군별관련트위터현황 ( 붉은색 : 1월 ~6월, 파란색 : 7월 ~12월 ) < 지도삽입 > 38

2) 연관어분석 충남또는충청남도에관한연관어분석결과로다음과같은결과를얻을수있다. 충남에관한고유명사로는충남도청, 충남대학교, 내포신도시, 교육청에관한단어가다수등장하였다. 다음으로충남과연관되어등장하는인물로서는안희정충남지사. 노홍철, 김호연, 김종성, 이회창순이었다. 일반명사에관해서는행사에관한주목및관심도가매우높았던관계로경품, 추천, 이벤트등과같은단어가빈도수가높았다. 행사관련키워드를제외한다른단어에서는농축수산물에관한언급도매우높은수준이었다. 한편충남도의중요한정책이슈이자많은사람들이주목하고있는 [ 행복 ] 이라는키워드또한 1635 회를차지하는높은수준의빈도를나타내고있다. 다음으로지역명에대한결과를살펴보면천안, 아산, 대전순으로빈도가높았으나천안이다른지역에비해압도적인빈도수를나타냈다. 한편다른충남지역의노출도는대전이나충북, 경기보다낮은수준이었다. < 표 8> 빈출키워드 1: 고유명사, 인물 충남고유명사 인물 키워드 빈도수 키워드 빈도수 충남도청 8623 안희정 9982 충남대 ( 학교 ) 15540 노홍철 2628 내포신도시 ( 청사 ) 11771 김호연충남 2017 충남교육청 3278 김종성 1661 이회창충남 1657 충남도지사 1574 김형오부산 1564 39

< 표 9> 빈출키워드 2: 일반명사, 지역명 일반명사 지역명 키워드 빈도수 키워드 빈도수 경품 8287 천안 15407 추천 5732 아산 6887 이벤트 5605 대전 6539 확인 5167 공주 5664 희망 4999 충북 5085 개청 4879 강원 4829 상품권 4755 경기 4677 지역 4732 서산 4610 퀴즈 4680 전북 4085 농축수산물 4490 세종 4083 추첨 4191 논산 4066 도전 4151 경북 3988 참여자중 4059 전남 3928 스마트폰 4008 보령 3791 개최 3999 당진 3782 세계최초 3898 예산 3175 속도 3597 전국 2965 학생 3492 홍성 2929 명단 2796 서북구 2813 찬성의원 2768 부여 2733 지사 2631 동남구 2580 시작 2399 태안 2086 40

학교 2083 부산 1918 실시 2037 수원시 1606 사랑 2035 영도구 1596 대통령 1999 안성시 1594 이전기념 1912 연제구 1573 친구 1888 팔달구 1564 현재 1862 사람 1849 장학사 1833 경찰 1824 SNS공유이벤트 1741 등록 1644 행복 1635 의원 1617 지원 1566 41

다음으로는각정책별로나눈키워드를살펴보도록하겠다. 여기서는전체정책에대해살펴보는것은불가능하기때문에그중 3농혁신에관한키워드를추출해서살펴보았다. 3농혁신에관한키워드중가장높은빈도를차지하는것은충청남도라는지역이었으며그다음이안희정지사의이름이었다. 그다음으로많았던것이개최, 농업, 의회등이었다. 이로미루어보아 3농혁신에관련된기사는충청남도가주도적인역할을한기사가대부분이었다는점을알수있다. 이것은충남에서보도자료나사업홍보를위한트윗이대부분이었고다른이미지나일상적인언어에서는많이언급되지않는다는것을알수있다. 한편 3농혁신에관해서는다른지역에대한언급은거의없는것으로보아충남도고유의정책으로봐도무관하다고할수있다. < 표 10> 3농혁신키워드 3농혁신키워드 빈도수 충남도 ( 충남, 충청남도 ) 231 안희정 ( 도지사, 지사 ) 124 충남타임뉴스홍대 42 개최 37 농업 31 충남도의회 31 가속 24 다짐 23 전진대회 21 추진 20 사업 20 하반기 19 가시 18 내포 17 농업기술원 17 선정 16 42

다음으로실제트위터에서노출된 URL 을추적하여어떠한정보가가장많이노출되었는지 를알아보았다. 많이노출되었다는것은많은사람들이이정보를접했다는것을의미한다. 여기서는상위 10 위까지의노출도를보이는 URL 을정리해보았다. < 표 11> 노출도상위 10위 분류 미디어명 URL 컨텐츠명 인용한인용한작트윗수성자수 노출도 뉴스미디어 중도일보 http://www. 오늘의대전충남충북-중도일보 (3월 19일화요일자 ) 1 1 271,370,256 뉴스미디어 뉴스1 http://news1충남대학생들, 도내초중고생멘토로활동 1 1 94,113,479 뉴스미디어 동아일보 http://news. [ 대전 / 충남 ] 대전문화체육계 트리플펀치 1 1 90,764,618 커뮤니티 메디톡 http://medi-메디톡 38 1 59,597,575 뉴스미디어 위키트리 http://www. Social Network News Service 1 1 42,958,992 뉴스미디어 한국일보 http://media[ 여행 ] 시간이멈춘그곳.. 충남강경 1 1 27,941,323 동영상 유스트림 http://www. 인터넷종합편성방송팩트TV 입니다. 5 2 24,158,349 뉴스미디어 노컷뉴스 http://www. 노컷뉴스 5 5 14,362,910 뉴스미디어 SBS http://news. 김종성충남교육감음독시도 병원후송 10 10 14,302,519 먼저가장높은노출도를보이는기사중충남과관계가깊은기사를보면충남대학생들에관한기사와여행정보에관한기사를볼수있다. 한편부정적인기사인경우높은노출도를보이는것도알수있다. 다음으로는노출도만이아니라인용한트윗수및작성자수를살펴보도록하겠다. 인용트윗수및작성자수가많을수록많은사람들이이정보를알리고자했다는것을나타낸다. 전체적으로이웃돕기, 롯데아울렛오픈, 정치적인화제등이주로언급되었다. 공주시수돗물에관련된글이상위로올라온점도특징적이다. 43

< 표 12> 인용트윗수 10 이상미디어 분류 미디어명 URL 컨텐츠명 인용한인용한작트윗수성자수 노출도 신천지자원봉사단, 충남논산에서농촌봉사블로그네이버블로그 http://blog.naver.co 활동펼쳐 : 네이버블로그 192 145 309,037 블로그 네이버블로그 http://blog.naver.co충남논산농촌일손돕기 : 네이버블로그 185 149 218,419 병풍김대업, 안희정 50억배달사고주장! [ 단블로그다음블로그 http://blog.daum.ne 독 ] 종북 in USA 실체를밝힌다 74 3 502,313 블로그 충청권최초의관광쇼핑테마파크, 부여롯데롯데그룹블로그 http://blog.lotte.co. 아울렛 70 18 369,952 블로그 충청권최초의관광쇼핑테마파크, 부여롯데롯데그룹블로그 http://blog.lotte.co. 아울렛 52 12 369,952 헌집줄게새집다오! - 충청남도인터넷방블로그네이버블로그 http://blog.naver.co 송 2013 이벤트 : 네이버블로그 50 15 814,044 커뮤니티 메디톡 http://medi-talk.co. 메디톡 38 1 59,597,575 뉴스미디어 뉴시스 http://media.daum. 운전기사대신운전하는안희정지사 38 36 329,402 [ 뉴스기사 ] 공주시와 K-water 충남중부권관리블로그네이버블로그 http://blog.naver.co 단, 안전한수돗물만들기 : 네이버블로그 31 2 630,461 커뮤니티 네이버카페 http://cafe.naver.co 교육주체우선하기운동후원요청의글 24 1 1,153,569 뉴스미디어 연합뉴스 http://media.daum. 안희정안철수민주당입당해야 "" 23 23 183,507 커뮤니티 네이버카페 http://cafe.naver.co 교육주체우선하기운동후원요청의글 22 1 1,153,569 [ 뉴스기사 ] 공주시와 K-water 충남중부권관리블로그네이버블로그 http://blog.naver.co 단, 안전한수돗물만들기 : 네이버블로그 20 2 630,461 커뮤니티 네이버카페 http://cafe.naver.co 교육주체우선하기운동후원요청의글 19 1 1,153,569 각대학교수들잇단시국선언, 민주주의생사뉴스미디어뷰스앤뉴스 http://www.viewsnn 기로 "" 17 17 464,578 안희정실체없는친노이름으로책임공방옳뉴스미디어조선일보 http://news.chosun 지않아 "" 15 15 4,490,645 커뮤니티 네이버카페 http://cafe.naver.co 교육주체우선하기운동후원요청의글 15 1 1,153,569 충남도, 1,194곳세무조사로 157억대추가세블로그네이버블로그 http://blog.naver.co 원발굴 : 네이버블로그 14 14 341,470 충남도, 고액체납자공동관리TF 가동 : 네이블로그네이버블로그 http://blog.naver.co 버블로그 14 14 204,882 충남부여지적장애인찾기에군민 1000여명뉴스미디어한겨레 http://www.hani.co. 나서 13 13 4,440,935 뉴스미디어 경향신문 http://news.khan.co홀로서기성공한 친노 안희정충남지사 13 13 351,082 커뮤니티 네이버카페 http://cafe.naver.co 교육주체우선하기운동후원요청의글 12 1 1,153,569 뉴스미디어 한겨레 http://www.hani.co. 시험유출충남장학사 대포폰 사용 11 10 4,486,229 뉴스미디어 한겨레 http://www.hani.co. 충남전지역에 보호자없는병실 11 10 4,476,901 뉴스미디어 블로터닷넷 http://www.bloter.n훌륭한대학자료들, 왜 ' 검색 ' 은막나요 11 11 413,339 한양 가톨릭 충남대교수 국정원규탄 시국뉴스미디어고발뉴스 http://www.gobalne 선언가세 11 11 239,495 150여명해고위기 충남학비노조, 혹한속뉴스미디어민중의소리 http://www.vop.co. 노숙단식농성 5일째 11 11 199,609 뉴스미디어 경향신문 http://news.khan.co[ 속보 ] 김종성충남교육감구속 11 11 145,075 뉴스미디어 SBS http://news.sbs.co.k김종성충남교육감음독시도 병원후송 10 10 14,302,519 44

3) 연관어네트워크 여기서는앞에서추출된연관어를이용하여각중심키워드를중심으로형성되어있는연관어네트워크를살펴보도록한다. 여기서네트워크의강도는연관등장빈도이며사각형은 Newman 방식으로클러스터링한서브그룹을나타낸다. 20개의정책키워드중충남지역의정책아젠다로서큰역할을하는 2가지키워드 6) (3농혁신, 사회적경제 ) 에대해네트워크를그려보았다. [ 사회적경제 ] 연관어네트워크 사회적경제를중심으로한연관어네트워크에서는안내, 부탁, 사회적경제센터, 개최등이중요한키워드로나타났다. 사회적경제연관어네트워크에서는총 5개의클러스터를추출할수있었다. 클러스터 1에서는주로이벤트및행사를개최한다는언급이대부분이었다. 한편각충남, 수원시, 동대문구, 종로구, 도봉구등지역명도거론되어있었다. 한편사회적경제와비교적가까운거리를유지하고있는클러스터 2에서는충남도, 성남시, 화성시등의지자체와교육, 판로지원, 구매촉진등실질적인정책방향성을제시하는키워드도발견할수있었다. 한편클러스터 3 에서는주로사회적경제지원센터와서울시에관한네트워크가형성되어있으며협동조합등의언급도볼수있다. 클러스터 4 수원사회적경제센터가, 5에서는강동구가속해있었다. 전체네트워크에서보았을때사회적경제와굵은선으로연결되어있는단어가서울시, 부탁, 활성, 개최, 전문가, 전국, 사회적기업, 협동조합등이다. 다만충남은서울시보다는약한연결고리를보였다. 6) 여기서정한두가지키워드는충청남도도정의 3 대혁신인 3 농혁신, 행정혁신, 자치분권 과, 충남발전연구원의핵심어젠다인 행복, 사회적경제, 지역경제선순환 중에서트위터키워드상위를차지한 3 농혁신 과 사회적경제 를대상으로분석하였다. 45

같은색깔은같은클러스터에속해있다는것을의미함 [ 그림 13] 사회적경제관련트위터네트워크 ( 충청남도 ) 46

[3 농혁신 ] 연관어네트워크 3농혁신을중심으로한연관어네트워크에서는가장중요한키워드가 3농혁신이아니라충남, 충남도였다는점이특징적이다. 다만충남에관련된명사가대부분이며주요키워드들도추진, 사업, 선정등의도정보도자료나정책기사를벗어나지못하고있다는점을알수있다. 총클러스터는 11개가존재하나의미있는클러스터는 3개정도이다. 클러스터 1에서는충남도지사의발언및관계자를중심으로한농업중요성강조및행사개최및참석에대한언급이대부분이었다. 다음으로클러스터 2에서는민선5 기, 충남도, 추진상황, 보고등민선5기의정책성과로연결짓는언급이연관되어있다. 마지막으로클러스터 3 에서는충남을중심으로몇개의촘촘한네트워크로연결되어있는데주로행사및홍보, 농업기술및농업관련, 농어촌등으로나뉠수있다. 그러나전체적으로추상적인명사가많은점도특징적이다. 47

같은색깔은같은클러스터에속해있다는것을의미함 [ 그림 14] 3 농혁신관련트위터네트워크 48

마지막으로충남도관련트위터연관어네트워크중매개중심성이높은키워드를도출해보면표 15와같다. 충남도관련트위터중천안시에관한매개중심성이높은것으로보아천안시가충남도에관련된정보중에서다양한상황에서등장하고있다는점을지적할수있다. 다음으로충남도청이전과관련한키워드에관해서도높은매개중심성을나타내고있다고볼수있다. < 표 13> 중심성지수 Vertex Betweenness Centrality 충남 3029.683 천안시 1695.227 경품 705.904 예산 462.310 홍성 462.310 충청남도 252.963 명단 249.730 찬성의원 249.730 한미FTA 249.730 충남도청 133.814 지역 133.281 충남도 104.000 내포신도시 98.000 49

제 5 장결론및제언 1. 주요결론 본연구에서는언론기사와트위터를대상으로충청남도와관련된기사및월별이슈를추출하였다. 언론기사추출결과로는상반기에는주로정치, 경제적이슈가, 하반기에는문화관련이슈등조금더폭넓은이슈를발견할수있었다. 트위터분석을통한충남도정책관련키워드구조에서는천안시가전체정보네트워크안에서중요한 HUB 로서추출되었으며이는충남내의다양한화제들이천안시와밀접한관계를이룬다고볼수있다. 한편사회적경제와 3농혁신에관한분석에서는각키워드의특성과충남도와의관계를조망할수있었다. 사회적경제는전국적인화두로인식되고있으며구체적으로서울, 수원, 성남등과같은지역명이대두되고있고이중하나로충남이언급되고있다는것을알수있다. 이와는대조적으로 3농혁신은충남고유의정책으로거의대부분의언급이충남도와직접적으로연관이있는키워드지만전국적인파급효과가있다고는보기힘들며아직추상적인단계의사업들이대부분이다. 2. 연구성과의활용과향후과제 1) 충남도빅데이터활용현황과과제 충남도의빅데이터활용및발전방안으로먼저체계적인민원조사등을통해충남도민의 50

목소리를적극적으로반영하는체계를구축하여기존데이터의체계적인관리와오픈데이터의복합활용을통해맞춤형정책과효율적의사결정을실행하는것이필요하다. 한편데이터공유를통한효율적인정보전달수단도필요하다. 현재충남도는충남.NET 이라는포털사이트에행정정보를공유하여충남도민의정책에대한관심을유도하고행정데이터의적극적인활용을도모하고있다. 뿐만아니라다수부처에분산되어있는안전과관련된데이터를활용하여분석및공유를통한재난예측체계를도입하고재난대응기능의보강을넘어선, 재난의사전예측 대비기능을도입하는것을목표로하고있다. 이를통해재난정보빅데이터를활용한미래위기대응및대비전략수립하는것을목표로하고있다. 7) 이와같이충남도에서는다방면의빅데이터를이용한행정혁신전략을수립하고있다. 이러한기존의대책들은추후지속적인추진이필요한부분이며추가적인참여와아이디어의실사업화를통한가치창출에초점이맞춰져야한다. 이를위해서는중앙정부에서파악하지못하는지역밀착형데이터구축이시급하다. 또한기존의데이터베이스를더욱효율적으로결합하여사용하는방안을끊임없이고민해야한다. 또한빅데이터를통한공공분야혁신의가치사슬을바탕으로데이터구축, 융복합, 의사결정, 공유및전파의단계에서신속한의사결정이이루어져야한다. 빅데이터를통한충남도의로드맵으로서데이터를통한과학적인정책평가모니터링이우선되어야하고행정데이터를체계적으로공유함으로써정책수요자인도민이융합을통한아이디어를발굴할수있는체계를마련해야한다. 나아가아이디어를통한신규사업들이발굴되고신속하게사업화되는것이필요할것이며도정전반과새로운아이디어에대한홍보및공유가 SNS 와같은네트워크상에서이루어져야한다. 이를위해서는함축된정보를효과적으로전달하는인포그래픽과같은플랫폼이중요할것이다. 빅데이터활용시주의해야할점도많다. 빅데이터는아직과도기적인개념으로정확하게그의미가정립되어있지않다는점과구체적인사업화가어렵다는것이큰한계이다. 또한실질적인성과를얻기까지는오랜시간과노력이투입되어야한다는것도위험부담이크다고할수있다. 7) 출처 : 2013 년충청남도시책토론회자료 51

또한개인정보및보안상문제에대한방안이선행되어야할것이고빅데이터의규모에만주목하거나데이터를구축하는측면에만치우쳐서는안된다. 빅데이터의가장핵심은데이터간의융복합을통한가치창출에있으므로현실의문제점에대한질문을가지고이를해결할목적으로빅데이터분석을진행하는것이바람직하다. 즉데이터베이스가풍부해질수록데이터에관한한계는줄어들지만얼마나현명한질문을하느냐에따라결과가좌우되게된다. 이에관해서는충남도정책에서도빅데이터를적극적으로활용하여현재문제에대한대응방안과끊임없는질문, 그리고데이터를기반으로한정책판단이이루어져야할것이다. 또한향후데이터과학과기술이발달함에따라많은기술적한계를극복할수있을것이고이를통해행정혁신과사회혁신을도모할수있다는가능성에주목할필요가있다. 즉공공분야의빅데이터정책을효율적으로추진및평가하는툴 (Tool) 로서적극적으로활용할것, 행정혁신을리드하고서포트하는체제를구축한다면충분히성과를거둘수있다. 현재충남의대표적인문제인한계마을문제, 환경문제, 지역경제선순환등에대해빅데이터를이용하여해법을찾아낼수있을것이다. 2) 본연구의한계 본연구의한계로먼저자료의한계를들수있다. 본연구에서는트위터와신문데이터만을이용하였으나더많은웹페이지나다른매체에서얻을수있는데이터를이용한다면조금더정확한분석이가능하리라고생각한다. 또한한국어형태소분석기법의한계를지적할수있다. 이는긍정부정의분석과같은오피니언분석에서도한계가있다고할수있다. 나아가충청남도라는구체적인지역에대한정보를수집할때위치정보를결합한정보를구득했다면더욱복합적인결과를얻을수있었을것이다. 52

참고문헌 김성웅. 2013. OECD 의빅데이터관련논의동향, 제25권 10호통권 555호박주영. 2013. 공공혁신을위한떠오르는키워드, 빅데이터, 예산춘추 NABO Budget & Policy, Vol.30 주 OECD 대표부. 2013. 빅데이터를활용한창조경제실현방안충청남도. 2013. 2013 년충청남도시책토론회자료박원준. 2012. 빅데이터 (Big Data) 활용에대한기대와우려. Journal of Communications & Radio Spectrum 윤미영, 권정은. 2012. 빅데이터로진화하는세상 : Big Data 글로벌선진사례이유택, 홍영조. 2012. 알기쉬운공공부문빅데이터분석활용가이드, 한국정보화진흥원행정안전부. 2012. 스마트행정구현을위한빅데이터마스터플랜현황과추진계획국가정보화전략위원회. 2011. 빅데이터를활용한스마트정부구현이만재. 2011. 빅데이터와공공데이터활용, Internet and Information Security, 제2권제2 호,pp.47-64 조수곤, 김성범,, 2011. 텍스트마이닝을활용한산업공학학술지의논문주제어간연관관계연구, 2011년대한산업공학회추계학술대회김수연. 2006. 마이닝기법을이용한연관용어집합생성에관한연구연세대학교대학원문헌정보학과석사논문정근하. 2011. 텍스트마이닝과네트워크분석을활용한미래예측방법연구, 한국과학기술기획평가원시로타마코토.2012. 일본의빅데이터의현황과과제-사업전략을발굴하기위한조직체제와인재가키-, IT프론티어, 노무라종합연구소, p6-9 53

집필자 연구책임 임화진박사 전략연구 2014-15 빅데이터를이용한충남도정책키워드분석 글쓴이 임화진발행자 강현수 / 발행처 충남발전연구원인쇄 2014년 8월 31일 / 발행 2014년 8월 31일주소 충청남도공주시연수원길 73-26 (314-140) 전화 041-840-1123( 기획조정연구실 ) 041-840-1114( 대표 ) / 팩스 041-840-1129 ISBN 978-89-6124-262-2 03350 http://www.cdi.re.kr c 2014. 충남발전연구원 이책에실린내용은출처를명기하면자유로이인용할수있습니다. 무단전재하거나복사, 유통시키면법에저촉됩니다. 연구보고서의내용은본연구원의공식견해와반드시일치하는것은아닙니다.