연구보고서 2015-35 2015 년소셜빅데이터기반보건복지이슈동향분석 송태민 진달래
책임연구자 송태민한국보건사회연구원연구위원 주요저서 보건복지빅데이터효율적관리방안연구한국보건사회연구원, 2014( 공저 ) 빅데이터분석방법론한나래아카데미, 2013( 공저 ) 공동연구진 진달래한국보건사회연구원연구원 연구보고서 2015-35 2015 년소셜빅데이터기반보건복지이슈동향분석 발행일저자발행인발행처주소 전화홈페이지등록인쇄처정가 2015 년 12 월 31 일송태민김상호한국보건사회연구원 [30147] 세종특별자치시시청대로 370 세종국책연구단지사회정책동 (1 층 ~5 층 ) 대표전화 : 044)287-8000 http://www.kihasa.re.kr 1994 년 7 월 1 일 ( 제 8-142 호 ) 한디자인코퍼레이션 6,000 원 c 한국보건사회연구원 2015 ISBN 978-89-6827-296-7 93510
발간사 << 최근스마트폰, 스마트TV, RFID, 센서등의급속한보급과모바일인터넷과소셜미디어의확산으로데이터량이기하급수적으로증가하고데이터의생산, 유통, 소비체계에큰변화를주면서데이터가경제적자산이될수있는빅데이터시대를맞이하게되었다. 세계각국의정부와기업들은빅데이터가향후국가와기업의성패를가름할새로운경제적가치의원천이될것으로기대하고있으며, The Economist, Gartner, McKinsey 등은빅데이터를활용한시장변동예측과신사업발굴등경제적가치창출사례및효과를제시하고있다. 특히, 빅데이터는미래국가경쟁력에도큰영향을미칠것으로기대하여국가별로는안전을위협하는글로벌요인이나테러, 재난재해, 질병, 위기등에선제적으로대응하기위해우선적으로도입하고있다. 한국은최근정부3.0과창조경제의추진과실현을위하여현정부의주요정책과제를지원하기위하여다양한분야에빅데이터의활용가치가강조되고있다. 빅데이터는데이터의형식이다양하고, 방대할뿐만아니라그생성속도가매우빨라기존의데이터를처리하던방식이아닌새로운관리및분석방법을요구한다. 또한, 트위터, 페이스북등소셜미디어에남긴정치, 경제, 사회, 문화에대한메시지는그시대의감성과정서를파악할수있는원천으로등장함에따라, 대중매체에의해수립된정책의제는이제소셜미디어로부터파악할수있으며, 개인이주고받은수많은댓글과소셜로그정보는공공정책을위한공공재로서진화중에있다.
이와같이많은국가와기업에서는 SNS를통하여생산되는소셜빅데이터의활용과분석을통하여새로운경제적효과와일자리창출은물론사회적문제의해결을위하여적극적으로노력하고있다. 이에본연구는소셜빅데이터를기반으로우리나라보건복지주요이슈에대한동향을분석하기위한것으로 2015년의주요이슈로는메르스, 담배, 통일, 청소년음란물유통의 4개의주제에대해소셜빅데이터를수집하여동향분석과수요예측및위험예측모형을제시하였다. 이와같은연구는보건복지주요이슈를적시에분석하고수요를예측할수있다는점에서정책적 분석방법론적으로의의가있으며, 실제적으로내용을보다빠르게효과적으로파악하여사회조사가지닌한계를보완할수있는새로운조사방법으로서의소셜빅데이터가치를확인하였다는점에서조사방법론적의의를가진다고할수있다. 본연구에귀중한조언을아끼지않으신많은전문가분들과주요이슈에대한논문집필에참여해주신교수님들께감사드린다. 끝으로본보고서에수록된모든내용은우리연구원의공식적인견해는아니며어디까지나참여한연구진의의견임을밝힌다. 2015 년 12 월 한국보건사회연구원장 김상호
목차 Abstract 1 요약 3 제1장소셜빅데이터분석과활용방안 9 1. 서론 11 2. 빅데이터개요 12 3. 소셜빅데이터분석방법 15 4. 소셜빅데이터수집및분류방법 18 참고문헌 23 제2장소셜빅데이터분석기반메르스감정위험예측 25 1. 서론 27 2. 이론적배경 29 3. 연구방법 35 4. 분석결과 40 5. 분석결과요약 54 참고문헌 57 제3장소셜빅데이터를활용한담배위험예측 61 1. 서론 63 2. 연구방법 66 3. 연구결과 72
4. 결론 84 참고문헌 87 제4장소셜빅데이터를활용한통일인식동향분석및예측 91 1. 서론 93 2. 연구방법 95 3. 연구결과 101 4. 결론 118 참고문헌 125 제5장소셜빅데이터를활용한한국의섹스팅 (Sexting) 위험예측 127 1. 서론 129 2. 이론적배경 131 3. 연구방법 133 4. 분석방법 137 5. 연구결과 138 6. 결론및고찰 154 참고문헌 159
Korea Institute for Health and Social Affairs 표목차 표 1-1 빅데이터개인정보보호가이드라인 의주요내용 15 표 1-2 우울온톨로지분류에따른영역수준 20 표 2-1 메르스부정 ( 불안 ) 감정예측 43 표 2-2 메르스관련버즈현황 46 표 2-3 예방요인, 대처 / 치료요인, 증상요인에대한메르스감정예측 47 표 2-4 메르스의감정에영향을미치는요인 49 표 2-5 메르스관련증상요인의예측모형에대한이익도표 53 표 3-1 담배감정키워드연관성예측 74 표 3-2 담배관련버즈현황 76 표 3-3 담배관련연도별감정변화 77 표 3-4 정책요인에대한담배위험예측 78 표 3-5 담배의위험에영향을미치는정책및도구요인 79 표 3-6 정책요인의예측모형에대한이익도표 81 표 3-7 질병요인의예측모형에대한이익도표 83 표 4-1 통일인식의감정키워드연관성예 103 표 4-2 통일관련문서 ( 버즈 ) 현황 106 표 4-3 연도별통일관련국민인식 107 표 4-4 미국대사피습사건전후국민통일인식변화 107 표 4-5 통일관련안보 이슈의국가별버즈현황 108 표 4-6 통일관련안보 이슈의기관별버즈현황 109 표 4-7 안보와이슈요인에대한통일인식의연관성예측 111 표 4-8 주변국가 (4국) 의통일인식의연관성예측 112 표 4-9 통일인식에영향을미치는안보 이슈요인 114 표 4-10 통일인식관련안보 이슈요인의예측모형에대한이익도표 116 표 4-11 통일인식관련국가요인의예측모형에대한이익도표 ( 주변 4국 ) 118 표 5-1 섹스팅의위험감정키워드연관성예측 141
표 5-2 섹스팅관련버즈현황 143 표 5-3 유형과내용요인에대한섹스팅위험예측 145 표 5-4 섹스팅에영향을요인 147 표 5-5 도움요인의섹스팅위험예측모형에대한이익도표 150 표 5-6 내용요인의섹스팅위험예측모형에대한이익도표 151 표 5-7 유형요인의섹스팅위험예측모형에대한이익도표 153 그림목차 그림 1-1 빅데이터의특성과정부 3.0 추진전략 13 그림 1-2 소셜빅데이터분석절차및방법 ( 메르스버즈분석사례 ) 16 그림 1-3 빅데이터분석기반의위기청소년예측및적시대응기술개발연계사례 17 그림 1-4 청소년우울관리온톨로지 19 그림 1-5 메르스분류 ( 범주화, 유목화 ) 체계 21 그림 2-1 세과정사이에서의정보확산 34 그림 2-2 메르스관련문서 ( 버즈 ) 량의일별추이 41 그림 2-3 메르스에대한일자별감정 ( 상위 50개 ) 변화 42 그림 2-4 메르스감정의연관규칙에대한병렬좌표와그래프시각화 44 그림 2-5 지역별메르스위험 ( 불안 ) 감정 44 그림 2-6 메르스관련예방요인의예측모형 51 그림 2-7 메르스관련증상요인의예측모형 52 그림 3-1 담배관련시간별및요일별버즈현황 72 그림 3-2 연도별담배감정변화 73 그림 3-3 담배감정의연관규칙에대한병렬좌표시각화 75 그림 3-4 정책요인의예측모형 80 그림 3-5 질병요인의예측모형 83 그림 4-1 통일관련문서 ( 버즈 ) 량일별추이 102
Korea Institute for Health and Social Affairs 그림 4-2 통일연도별감정변화 102 그림 4-3 통일인식감정의연관규칙에대한병렬좌표시각화 104 그림 4-4 통일감정응집구조분석 110 그림 4-5 통일인식관련안보 이슈요인의예측모형 115 그림 4-6 통일인식관련주요주변국가예측모형 117 그림 5-1 섹스팅관련시간별및요일별버즈현황 139 그림 5-2 연도별섹스팅감정변화 140 그림 5-3 지역별섹스팅감정 ( 일반, 위험 ) 142 그림 5-4 섹스팅의내용 유형및폐해 도움간외부근접중심성 145 그림 5-5 도움요인의섹스팅위험예측모형 149 그림 5-6 내용요인의섹스팅위험예측모형 151 그림 5-7 유형요인의섹스팅위험예측모형 153
Abstract << Social big data trend analysis based on health and welfare issues in 2015 Big data consists of various forms of data in large volumes, which are rapidly created. Therefore, it requires a new management and analysis methodology. Moreover, as social media platforms emerge as the source of information about the feelings and sentiments of the current times with messages on politics, economics, society, and culture, policy agendas set up in public spheres can be identified from social media. Countless comments between individuals and society evolve as a log of information, which continues to evolve as an asset for public policy 1). As such, many nations and businesses actively strive for new economic effects, job creation, as well as solving social problems through the utilization and analysis of social big data created through social networking services (SNS). This study proposes study methodologies and utilization strategies of social big data that can create value and predict the future by gathering and analyzing social big data from various fields. 1) Song YJ (2012) Age of Big Data! The Evolution of SNS and Public Policy. National Information Society Agency.
요약 << 1. 연구의배경및목적 빅데이터는미래국가경쟁력에도큰영향을미칠것으로기대하여국가별로는안전을위협하는글로벌요인이나테러, 재난재해, 질병, 위기등에선제적으로대응하기위해우선적으로도입하고있다. 빅데이터는데이터의형식이다양하고, 방대할뿐만아니라그생성속도가매우빨라기존의데이터를처리하던방식이아닌새로운관리및분석방법을요구한다. 또한, 트위터, 페이스북등소셜미디어에남긴정치, 경제, 사회, 문화에대한메시지는그시대의감성과정서를파악할수있는원천으로등장함에따라, 대중매체에의해수립된정책의제는이제소셜미디어로부터파악할수있으며, 개인이주고받은수많은댓글과소셜로그정보는공공정책을위한공공재로서진화중에있다. 이와같이많은국가와기업에서는 SNS를통하여생산되는소셜빅데이터의활용과분석을통하여새로운경제적효과와일자리창출은물론사회적문제의해결을위하여적극적으로노력하고있다. 기존에실시하던횡단적조사나종단적조사등을대상으로한연구는정해진변인들에대한개인과집단의관계를보는데에는유용하나사이버상에서언급된개인별온라인문서에서논의된관련정보상호간의연관관계를밝히고원인을파악하는데는한계가있다. 이에반해소셜빅데이터의분석은훨씬방대한량의데이터를활용하여다양한참여자의생각과의견을확인할수있기때문에사회적문제의예측과현상에대한복잡한연관관계를보다정확하게밝혀낼수있다. 본연구에서는
4 2015 년소셜빅데이터기반보건복지이슈동향분석 다양한분야의소셜빅데이터를수집 분석하여가치를창출하고미래를예측할수있는소셜빅데이터연구방법과활용방안을제시하였다. 그리고 2015년의주요이슈 ( 메르스, 담배, 통일, 청소년음란물유통 ) 에대한소셜빅데이터를수집하여동향분석과수요예측및위험예측모형을제시하였다. 2. 주요연구결과 제1장 서론 에서는소셜빅데이터분석절차및분류방법에대해설명하였다. 소셜빅데이터의분석은해당주제와관련한문서를분석모델링을통해수집대상과수집범위를설정한후, 대상채널 ( 뉴스 블로그 카페 게시판 SNS 등 ) 에서크롤러등수집엔진 ( 로봇 ) 을이용하여수집한다. 이때불용어를지정하여수집의오류를방지하고관련연관키워드그룹을지정한다. 수집한비정형데이터를텍스트마이닝, 오피니언마이닝을통하여분류하고정제하는절차가필요하다. 정제된비정형데이터분석은버즈분석, 키워드분석, 감성분석, 계정분석등으로진행한다. 소셜빅데이터의수집및분류는해당토픽에대한이론적배경등을분석하여온톨로지를개발한후, 온톨로지의키워드를수집하여분류하는 Top-down 방법과해당토픽을웹크롤로수집한후범용사전이나사용자사전으로분류하는 Bottom-up 방법이있다. 제2장 소셜빅데이터기반메르스감정위험예측 에서는우리나라온라인뉴스사이트, 블로그, 카페, SNS, 게시판등에서수집한소셜빅데이터를바탕으로우리나라에서발생한메르스정보확산위험요인을예측하였다. 메르스관련버즈는 2015년 5월 28일급속히증가하여 5월 30 일감소하였다가 6월 1일이후메르스추가환자발생과사망자발생보
요약 5 도후, 급속히증가한것으로나타났다. 메르스에대한부정적감정 ( 불안 ) 의표현단어는 무시, 한심, 판단, 거부, 비난, 무능, 불구, 답답, 공포, 스트레스, 무책임, 비판, 실패, 괴담, 협박 키워드와강하게연결되어있는것으로나타나, 이는정부의초기대응미흡에대한국민의실망감과 SNS를통한메르스괴담의급속한전파로인한불안감이표출된것으로보인다. 제3장 소셜빅데이터를활용한담배위험예측 에서는우리나라온라인뉴스사이트, 블로그, 카페, SNS, 게시판등에서수집한소셜빅데이터를바탕으로우리나라국민의담배에대한위험예측모형과연관규칙을파악하였다. 담뱃값인상이후위험군은 5.6% 감소하고, 일반군은 6.1% 증가한것으로나타났다. 온라인버즈에서담뱃값인상, 금연관련법이동시에언급되면일반군이될확률이증가하며, 담뱃값인상만언급되어도위험군을감소시키는것으로나타났다. 제4장 소셜빅데이터를활용한통일인식동향분석및예측 에서는우리나라온라인뉴스사이트, 블로그, 카페, SNS, 게시판등에서수집한소셜빅데이터를바탕으로우리나라국민의통일의인식에대한동향을분석하고통일인식의예측모형과연관규칙을파악하였다. 통일의필요성에대한국민인식은통일대박감정을포함할경우찬성은 2011년 55.0%, 2012년 62.2%, 2013년 57.8%, 2014년 77.1%, 2015년 56.2% 로나타났다. 안보 이슈요인이통일인식에미치는영향은통일대박의영향력이가장큰것으로나타나온라인문서중, 통일대박이있을경우통일에대한찬성의인식이이전의 68.8% 에서 85.8% 로증가하였고, 특히통일대박이있고, 핵무기와휴전선이없는경우통일에대해찬성하는확률이가장높은것으로나타났다. 제5장 소셜빅데이터를활용한한국의섹스팅위험예측 에서는우리
6 2015 년소셜빅데이터기반보건복지이슈동향분석 나라온라인뉴스사이트, 블로그, 카페, SNS, 게시판등에서수집한소셜빅데이터를바탕으로우리나라섹스팅에대한위험요인을예측하였다. 우리나라섹스팅에대한긍정적감정 ( 위험 ) 을나타내는버즈는 38.3% 로나타났다. 섹스팅의영향은윤리의식, 대인관계, 성욕, 건강, 공부, 비용순으로위험한것으로나타났으며, 유통방식은수요보다공유의위험이더큰것으로나타났다. 3. 결론및시사점 소셜빅데이터는다양한분야에활용할수있다. 첫째, 조사를통한기존의정보수집체계의한계를보완할수있는새로운자료수집방법으로활용할수있다. 국민의통일에대한인식조사, 정부의금연정책 ( 가격정책, 비가격정책등 ) 실시이후흡연실태조사, 스마트폰및인터넷중독실태조사등다양한분야의조사에활용할수있다. 둘째, 보건복지정책수요를예측 ( 저출산정책수요예측등 ) 할수있다. 새정부출범이후건강보험보장성강화에대한국민의요구가커지고인구고령화와저출산이사회적문제로대두됨에따라대상자별 분야별로다양한보건복지정책이요구됨에따라오프라인보건복지욕구조사와더불어소셜미디어에남긴다양한정책의제를분석하여수요를파악해야한다. 셋째, 사회적위기상황에대한모니터링과예측으로위험에대한사전대응체계를구축할수있다. 따라서청소년의자살과사이버폭력대응체계구축, 질병에대한위험예측, 식품안전모니터링등에활용할수있다. 넷째, 새로운기술에대한동향을파악할수있다. 빅데이터, 사물인터넷, 인공지능등새로운기술에대한수요자와공급자가요구하는기술동향을파악할수있다. 끝으로정부와공공기관이보유 관리하
요약 7 고있는빅데이터는통합방안보다는각각의빅데이터의집단별특성을분석하여위험 ( 또는수요 ) 집단간연계를통한예측 ( 위험예측또는질병예측등 ) 서비스가제공되어야할것이다. 즉, 빅데이터분석을통한개인별맞춤형서비스는프라이버시를침해할수있기때문에위험 ( 또는수요 ) 집단별맞춤형서비스가제공되어야할것이다. 또한, 빅데이터를분석하여인과성을발견하고미래를예측하기위해서는정부차원의데이터사이언티스터양성을위한노력이필요할것으로본다. * 주요용어 : 소셜빅데이터, 보건복지, 데이터마이닝, 다변량분석, 시각화, R
제 1 장 소셜빅데이터분석과활용방안 1. 서론 2. 빅데이터개요 3. 소셜빅데이터분석방법 4. 소셜빅데이터수집및분류방법 참고문헌
1 소셜빅데이터분석과활용방안 << 1. 서론 최근스마트폰, 스마트TV, RFID, 센서등의급속한보급과모바일인터넷과소셜미디어의확산으로데이터량이기하급수적으로증가하고데이터의생산, 유통, 소비체계에큰변화를주면서데이터가경제적자산이될수있는빅데이터시대를맞이하게되었다 ( 송태민, 2012). 세계각국의정부와기업들은빅데이터가향후국가와기업의성패를가름할새로운경제적가치의원천이될것으로기대하고있으며, The Economist, Gartner, McKinsey 등은빅데이터를활용한시장변동예측과신사업발굴등경제적가치창출사례및효과를제시하고있다. 특히, 빅데이터는미래국가경쟁력에도큰영향을미칠것으로기대하여국가별로는안전을위협하는글로벌요인이나테러, 재난재해, 질병, 위기등에선제적으로대응하기위해우선적으로도입하고있다. 빅데이터는데이터의형식이다양하고, 방대할뿐만아니라그생성속도가매우빨라기존의데이터를처리하던방식이아닌새로운관리및분석방법을요구한다. 또한, 트위터, 페이스북등소셜미디어에남긴정치, 경제, 사회, 문화에대한메시지는그시대의감성과정서를파악할수있는원천으로등장함에따라, 대중매체에의해수립된정책의제는이제소셜미디어로부터파악할수있으며, 개인이주고받은수많은댓글과소셜로그정보는공공정책을위한공공재로서진화중에있다 ( 송태민, 2012). 이와같이많은국가와기업에서는 SNS를통하여생산되는소셜
12 2015 년소셜빅데이터기반보건복지이슈동향분석 빅데이터의활용과분석을통하여새로운경제적효과와일자리창출은물론사회적문제의해결을위하여적극적으로노력하고있다. 기존에실시하던횡단적조사나종단적조사등을대상으로한연구는정해진변인들에대한개인과집단의관계를보는데에는유용하나사이버상에서언급된개인별문서 ( 버즈 : buzz) 에서논의된관련정보상호간의연관관계를밝히고원인을파악하는데는한계가있다 ( 송주영, 송태민, 2014). 이에반해소셜빅데이터의분석은훨씬방대한량의데이터를활용하여다양한참여자의생각과의견을확인할수있기때문에사회적문제의예측과현상에대한복잡한연관관계를보다정확하게밝혀낼수있다. 본고는다양한분야의소셜빅데이터를수집 분석하여가치를창출하고미래를예측할수있는소셜빅데이터연구방법과활용방안을제시코자한다. 2. 빅데이터개요 가. 빅데이터정의 빅데이터 (Big Data) 는 Wikipedia(2015. 8. 5.) 에서 기존데이터베이스관리도구로데이터를수집 저장 관리 분석의역량을넘어서는대량의정형또는비정형데이터세트및이러한데이터로부터가치를추출하고결과를분석하는기술 로정의하고있다. Gartner(2012) 는더나은의사결정, 시사점발견및프로세스최적화를위해사용되는새로운형태의정보처리가필요한대용량, 초고속및다양성의특성을가진정보자산으로정의하고있으며, McKinsey(2011) 는일반적인데이터베이스소프트웨어도구가수집, 저장, 관리, 분석하기어려운대규모의데이터로
제 1 장소셜빅데이터분석과활용방안 13 정의하고있다. 이와같은정의를살펴볼때빅데이터란엄청나게많은데이터로양적인의미를벗어나데이터분석과활용을포괄하는개념으로사용되고있다 ( 송태민, 2012). 우리나라는정부3.0의효과적인추진과생애주기별맞춤형서비스및국민행복실현을위하여정부차원의빅데이터추진방안이마련되었다. 빅데이터의주요특성은일반적으로 3V(Volume, Variety, Velocity) 를기본으로 2V(Value, Veracity) 나 1C(Complexity) 의특성을추가하여설명하고있다 ( 그림 1-1 참조 ). 특히, 보건복지분야에서는국민의생명과직결되는정보를다루고있어빅데이터에있어가치 (Value) 와신뢰성 (Veracity) 은매우중요하다고할수있다. 그림 1-1 빅데이터의특성과정부 3.0 추진전략
14 2015 년소셜빅데이터기반보건복지이슈동향분석 나. 빅데이터개인정보보호방안 현재어느나라를막론하고빅데이터의활용에있어가장큰과제는개인의사생활비밀보호및개인정보보호이다 ( 송태민외, 2014). 개인정보보호에중점을두면빅데이터의활용을저해하게될우려가있다. 개인정보보호법의목적이 개인정보의수집 유출 오용 남용으로부터사생활의비밀등을보호함으로써국민의권리와이익을증진하고 로되어있지만개인정보와비개인정보를명확히구분하기가어렵고비즈니스에있어자동적으로수집되는데이터가비개인정보라고할지라도프라이버시를침해할가능성이있다. 특히소셜미디어에공개된개인정보는위변조와오남용이쉽고상업적이용을위한정보수집등에노출이될수있기때문에프라이버시침해등의문제가발생할가능성이매우높다. 방송통신위원회는 2013년 12월 18일 빅데이터개인정보보호토론회 와 2014년 3 월 19일 온라인개인정보보호세미나 를통해의견을수렴하고 2014년 12월 23일 빅데이터개인정보보호가이드라인 을발표하였다. 가이드라인의주요내용은 < 표 1-1> 과같이빅데이터수집시부터개인식별정보에대한철저한비식별화조치와개인의사상 신념, 정치적견해등민감정보에대한조합 분석등처리금지등에관한것이다. 빅데이터로부터개인을보호하기위해가장중요한것은특정개인을식별하지못하도록하는익명화와정보접근및정보처리에대한통제다. 그러나정보접근및정보처리에대한통제를강하게하면정보활용을활성화할수없기때문에빅데이터의 활용과보호의균형 에대한효과적인정책이우선적으로마련되어져야할것이다 ( 송태민, 2013).
제 1 장소셜빅데이터분석과활용방안 15 표 1-1 빅데이터개인정보보호가이드라인 의주요내용 구분 비식별화조치 공개를통한투명성확보 재식별시, 비식별화조치 민감정보의처리금지 기술적 관리적보호조치 내용 수집시부터개인식별정보에대한철저한비식별화조치 ( 제 3 조 제 4 조 제 5 조 제 10 조 ) 개인정보가포함된공개된정보및이용내역정보는비식별화조치를취한후수집 저장 조합 분석및제 3 자제공등가능 빅데이터처리사실 목적등의공개를통한투명성확보 ( 제 4 조 제 5 조 제 9 조 ) - 개인정보취급방침을통해비식별화조치후빅데이터처리사실 목적 수집출처및정보활용거부권행사방법등을이용자에게투명하게공개 ( 개인정보취급방침 ) 비식별화조치후빅데이터처리사실 목적등을이용자등에게공개하고 정보활용거부페이지링크 를제공하여이용자가거부권을행사할수있도록조치 ( 수집출처고지 ) 이용자이외의자로부터수집한개인정보처리시 수집 출처 목적, 개인정보처리정지요구권 을이용자에게고지 개인정보재식별시, 즉시파기및비식별화조치 ( 제 3 조 제 6 조 ) 빅데이터처리과정및생성정보에개인정보가재식별될경우, 즉시파기하거나추가적인비식별화조치토록함 민감정보및통신비밀의수집 이용 분석등처리금지 ( 제 7 조 제 8 조 ) 특정개인의사상 신념, 정치적견해등민감정보의생성을목적으로정보의수집 이용 저장 조합 분석등처리금지이메일, 문자메시지등통신내용의수집 이용 저장 조합 분석등처리금지 수집된정보의저장 관리시 기술적 관리적보호조치 시행 ( 제 3 조 제 2 항 ) 비식별화조치가취해진정보를저장 관리하고있는정보처리시스템에대한기술적 관리적보호조치적용 ( 보호조치 ) 침입차단시스템등접근통제장치설치, 접속기록에대한위 변조방지조치백신소프트웨어설치 운영등악성프로그램에의한침해방지조치 3. 소셜빅데이터분석방법 소셜빅데이터분석절차및방법은 그림 1-2 와같다. 첫째, 해당주
16 2015 년소셜빅데이터기반보건복지이슈동향분석 제와관련한문서 ( 메르스 ) 를분석모델링을통해수집대상과수집범위를설정한후, 대상채널 ( 뉴스 블로그 카페 게시판 SNS 등 ) 에서크롤러등수집엔진 ( 로봇 ) 을이용하여수집한다. 이때불용어 ( 메르스벤츠, 메르스데스벤츠 ) 를지정하여수집의오류를방지하고메르스관련연관키워드그룹 ( 메르스바이러스, 중동호흡기증후군, 메르스코로나바이러스, 매르스 ) 을지정한다. 둘째, 수집된메르스원데이터 (raw data) 는텍스트형태의비정형데이터로연구자가수집된원상태로분석하기에는어려움이있다. 따라서수집한비정형데이터를텍스트마이닝, 오피니언마이닝을통하여분류하고정제하는절차가필요하다. 정제된비정형데이터분석은버즈분석, 키워드분석, 감성분석, 계정분석등으로진행한다. 그림 1-2 소셜빅데이터분석절차및방법 ( 메르스버즈분석사례 ) 셋째, 비정형빅데이터를정형빅데이터로변환해야한다. 메르스관련주제분석사례를살펴보면, 메르스버즈각각의문서는 ID로코드화하여야하고, 버즈내에서발생하는키워드는모두코드화하여야한다. 넷째, 사회현상과연계하여분석하기위해서는정형화된빅데이터를오프라인
제 1 장소셜빅데이터분석과활용방안 17 통계 ( 조사 ) 자료와연계해야한다. 오프라인통계 ( 조사 ) 자료는대부분정부나공공기관에서유료또는무료로제공하기때문에, 연계대상자료와함께연계가능한식별자 ( 일별 월별 연별 지역별 ) 를확인한후오프라인자료를수집하여연계 (link) 할수있다. 다섯째, 오프라인통계 ( 조사 ) 자료와연계된정형화된빅데이터의분석은요인간의인과관계나시간별변화궤적을분석할수있는구조방정식모형이나일별 ( 월별 연별 ), 지역별사회현상과관련된요인과의관계를분석할수있는다층모형, 그리고수집된키워드의분류과정을통해새로운현상을발견할수있는데이터마이닝분석이나시각화를실시할수있다. 빅데이터연계방법 [big data linkage(matching)] 으로는정확매칭 (exect matching) 과통계적매칭 (statistical matching) 이있다. 정확매칭은고유식별정보가존재할때사용하며, 통계적매칭은고유식별정보가존재하지않기때문에유사한개체를찾아상호데이터를결합시킬때사용한다. 소셜빅데이터와공공빅데이터의연계는시간변수와지역변수등을고유식별정보로하여상호매칭하는정확매칭방법을활용할수있다 ( 그림 1-3 참조 ). 그림 1-3 빅데이터분석기반의위기청소년예측및적시대응기술개발연계사례
18 2015 년소셜빅데이터기반보건복지이슈동향분석 4. 소셜빅데이터수집및분류방법 소셜빅데이터의수집및분류는해당토픽에대한이론적배경등을분석하여온톨로지 (ontology) 를개발한후, 온톨로지의키워드를수집하여분류하는 Top-down 방법과해당토픽을웹크롤로수집한후범용사전이나사용자사전으로분류 ( 유목화또는범주화 ) 하는 Bottom-up 방법이있다. 가. Top-down 방법 2) 소셜미디어에서표현되는언어들은주로사람들이일상대화에서쓰이는구어체문장으로이루어진비정형데이터이기때문에 ( 노진석, 2012), 이를보다효과적으로수집및분석하기위한분석틀이필요하다. 분석틀을내용은관련주제가어떤개념영역들로구성되어있는지와각개념간관계에대한정의가필요하기때문에, 이를반영한온톨로지 (ontology) 가개발될필요가있다. 온톨로지 (ontology) 는관심주제의공유된개념 (shared concepts) 을형식화하고 (formalizing) 표현하기위한 (representing), 컴퓨터가해석가능한지식모델 (computer-interpretable knowledge model) 이다 (Kim HY 외, 2013). 수집되는소셜빅데이터자료는비정형적으로다양하게표현됨으로써온톨로지를구성하는개념을설명하는용어와그유의어를정의하여기술하여용어체계를마련하는것이필요하다. 본연구는온라인상의청소년우울주제 2) 본절의내용은 송태민외 (2015). 빅데이터분석기반의위기청소년예측및적시대응기술개발 의일환으로우울빅데이터수집을위해서울대학교간호대학박현애교수연구팀과공동으로수행되었으며, 정혜실 (2015). 청소년우울관련소셜빅데이터수집과분석을위한온톨로지개발및평가. 서울대학교대학원석사학위논문 발표예정인연구결과를참고하였음밝힌다.
제 1 장소셜빅데이터분석과활용방안 19 에대해수집된빅데이터자료를식별하고활용하기위한분석틀로서, 우울관리관련주제를분류하고, 우울관리온톨로지와용어체계를개발하는것이다. 청소년우울증을중심으로살펴본정신건강관리주제분류는위험요인, 증상및징후, 스크리닝, 진단, 치료및예방으로총 6개영역이도출되었고이들영역의관계를그림으로나타내면 그림 1-4 와같다. 그림 1-4 청소년우울관리온톨로지 온톨로지개발은우울관리주제를설명하는분류틀에해당하는용어에대하여, 대분류-중분류-소분류 의각영역수준별로용어를추출하여영역수준별로제시해야한다. 따라서 < 표 1-2> 와같이각용어별로인터넷검색과선행문헌검색등의방법을이용하여동의어와유사어를정의해야한다.
20 2015 년소셜빅데이터기반보건복지이슈동향분석 표 1-2 우울온톨로지분류에따른영역수준 대분류중분류소분류1 소분류2 소분류3 동의어 유의어수준위험요인대분류 ( 위험요인 ) 대상자특성요인 personal factor 대분류 ( 위험요인 )> 중분류 ( 대상자특성요인 ) 인구사회학적요인 대분류 ( 위험요인 )> 중분류 ( 대상자특성요인 )> 소분류 1( 인구사회학적요인 ) 인구학적특성 인구통계학적특성 대분류 ( 위험요인 )> 중분류 ( 대상자특성요인 )> 소분류 1( 인구사회학적요인 )> 소분류 2 ( 인구학적특성 ) 성별 성, gender 대분류 ( 위험요인 )> 중분류 ( 대상자특성요인 )> 소분류 1( 인구사회학적요인 )> 소분류 2 ( 인구학적특성 )> 소분류 3( 성별 ) 연령 나이, 발달단계, stage of puberty 대분류 ( 위험요인 )> 중분류 ( 대상자특성요인 )> 소분류 1( 인구사회학적요인 )> 소분류 2 ( 인구학적특성 )> 소분류 3( 연령 ) 재학여부 학교다님, 학교중퇴 대분류 ( 위험요인 )> 중분류 ( 대상자특성요인 )> 소분류 1( 인구사회학적요인 )> 소분류 2 ( 인구학적특성 )> 소분류 3( 재학여부 ) 이외분류를포함할수있음. 증상및징후 emotional change 대분류 ( 증상및징후 ) 감정변화대분류 ( 증상및징후 )> 중분류 ( 감정변화 ) 불안 우울 걱정, 공포, 불안정, 조마조마, 뒤숭숭 공허함, 외로움, 소외감, 침울, 고독 대분류 ( 증상및징후 )> 중분류 ( 감정변화 )> 소분류 1( 불안 ) 대분류 ( 증상및징후 )> 중분류 ( 감정변화 )> 소분류 1( 우울 ) 슬픔불행, 울음, 비통 대분류 ( 증상및징후 )> 중분류 ( 감정변화 )> 소분류 1( 슬픔 ) 나. Bottom-up 방법 소셜빅데이터를수집분류하기위해서는 21 세기세종계획 과같은범용사전이있지만대부분분석목적에맞게사용자가설계한사전을사용한다. 예를들면, 메르스정보확산위험예측을위하여소셜빅데이터를수집한다고하면, 웹크롤의수집조건으로메르스토픽 (topic) 은모든관련문서를수집하기위해 메르스 를사용하며, 토픽과같은의미로사
제1장 소셜 빅데이터 분석과 활용 방안 21 용되는 토픽 유사어로는 메르스 바이러스, 중동 호흡기 증후군, 메르스 코로나 바이러스, 매르스 용어를 사용해야 한다. 그리고, 불용어는 메르 스벤츠, 메르스데스벤츠 를 사용해야 한다. 수집 가능한 채널[(메르스 키 워드의 수집 가능채널은 105개의 온라인 뉴스사이트, 4개의 블로그, 2개 의 카페, 1개의 SNS(트위트), 8개의 게시판 등 총 120개의 온라인 채널] 에서 수집된 메르스 온라인 문서는 범용사전이나 사용자 사전을 이용하 여 그림 1-5 와 같이 유목화(범주화)한 후, 해당 키워드의 출현 유무를 확인하여 정형화 빅데이터로 변환해야 한다. 그림 1-5 메르스 분류(범주화, 유목화)체계 수집된 소셜 빅데이터의 분류 및 변환(정형 빅데이터 변환)이 완료된 후, 분류된 키워드에 대해 감성분석을 실시하여 요인을 추출(변수 축약)
22 2015 년소셜빅데이터기반보건복지이슈동향분석 해야한다. 감성분석은사용자가감성어사전을개발하여해당문서의감성을분석하는방법 3) 과요인분석과주제분석을통한감성분석방법이있다. 메르스정보확산위험을예측하기위해서는해당문서에대해 안심, 불안 를정의하는감성분석을실시해야한다. 따라서메르스감정키워드는온라인문서수집이후, 주제분석을통하여총 163개의긍정감정키워드 ( 다행, 해결, 행복, 든든, 완벽, 안정, 안전, 깨끗, 기대, 감동, 격려, 극복, 긍정, 기대감, 기쁨, 도움, 미소, 믿음, 따뜻, 선호, 성공, 소망, 소중, 희망등 ) 와 229개의부정감정키워드 ( 답답, 거짓말, 비상, 판단, 불안, 스트레스, 괴담, 냉소, 공포, 혼란, 엄벌, 공포증, 위험, 우려, 문제, 긴급, 부담, 악화, 난리, 비판, 무책임, 갈등, 감소, 갑갑, 강제등 ) 으로분류하고문서상의긍정과부정키워드를각각합산한후, 감성분석 (Opinion Mining) 을실시하여야한다. 긍정은메르스에대해안심하는감정이고, 부정은메르스에대해불안한감정이며, 보통은긍정과부정이동일한감정을나타낸다. 3) 우울관련감정은감성어사전을개발하여긍정 ( 스트레스받지않다, 우울증퇴치하다, 행복넘치다 등 ), 보통 ( 한국인우울하다, 청소년우울하다 등 ), 부정 ( 친구자살하다. 스트레스심각하다. 왕따심각하다 등 ) 으로구분하여감성분석을실시함
참고문헌 << 노진석 (2012). 빅데이터와소셜분석 : 빅데이터의바다에서 의미 를찾다. http: //www.imaso.co.kr/?doc=bbs/gnuboard.php&bo_table=article& wr_id=40725 송태민 (2012). 보건복지빅데이터효율적활용방안, 보건복지포럼, 통권제193 호, pp.68~76. 송영조 (2012). 빅데이터시대! SNS의진화와공공정책. 한국정보화진흥원송주영 송태민 (2014). 소셜빅데이터를활용한북한관련위협인식요인예측. 국제문제연구, 가을. pp.209~243. 송태민외 (2014). 보건복지빅데이터효율적관리방안연구. 한국보건사회연구원. 송태민 (2013. 9). 우리나라보건복지빅데이터동향및활용방안, 과학기술정책, 192, 과학기술정책연구원. Kim HY Park HA Min YH Jeon E(2013). Development of an obesity management ontology based on the nursing process for the mobiledevice domain. J Med Internet Res, 15(6), e130. doi: 10.2196/ jmir.2512 Gartner(2012)(www.gartner.com/newsroom/id/2124315, 2015. 8. 5. 인출 ). McKinsey Global Institute(2011). Big data: The next frontier for innovation, competition, and productivity, 2015. 8. 5. 인출
제 2 장 소셜빅데이터분석기반메르스감정위험예측 1. 서론 2. 이론적배경 3. 연구방법 4. 분석결과 5. 분석결과요약 참고문헌
2 소셜빅데이터분석기반메르스감정위험예측 4) << 1. 서론 보건복지부 중앙메르스관리대책본부 는 7월 4일이후 (30일째) 신규확진환자는없으며, 8월 4일현재총 186명의메르스확진환자가발생하여이중 36명은사망하고 12명은치료중인것으로보도하였다 ( 보건복지부 질병관리본부, 2015. 8. 4. 보도자료 ). 최초의메르스감염자는농작물재배관련일에종사하던 68세남성으로, 5월 4일카타르를경유하여인천공항에입국한뒤, 입국 7일후인 5월 11일발열및기침등의증상이발생하여여러병원을방문하던도중 5월 18일서울국립중앙의료원에입원하였고, 5월 19일에검체의뢰를통해 5월 20일에확진판정을받았다 ( 보건복지부 질병관리본부, 2015. 5. 20. 보도자료 ). 이후최초메르스감염자에게 2차적으로감염된확진환자 6명이추가적으로확인됨에따라 5월 26일메르스확진환자는 7명으로늘어났으며, 6월 2일최초메르스감염자남성과같은병동이던 57세여성과 71세남성이사망함에따라메르스확산방지를위한국가적보건역량을총동원키로하고, 5월 31일 민관합동대책반 을구성한데이어, 6월 2일메르스확산방지강화대책을발표하였다 ( 보건복지부 질병관리본부, 2015. 6. 2. 보도자료 ). 한국정부와세계보건기구 (WHO) 는금번한국메르스코로나바이러스 (MERS-CoV) 전개양상이사우디아라비아등을통해알려진전개와 4) 본연구의일부내용은해외학술지에게재하기위하여 송주영교수 ( 펜실베니아주립대학 ), 송태민박사 ( 한국보건사회연구원 ) 서동철교수 ( 이화여자대학교 ), 진달래연구원 ( 한국보건사회연구원 ), 김정선박사 (SK 텔레콤스마트인사이트 ) 에서공동수행한것임을밝힘.
28 2015 년소셜빅데이터기반보건복지이슈동향분석 다소간의차이를보이고있는데대한국제사회의우려를고려하여, 국제보건규칙 (International Health Regulation, IHR) 에의거한-WHO 합동평가단 (Joint Mission) 을구성하여그결과를발표하였다 (WHO, 2015). 첫째, 메르스는한국의대다수의료인들에게기대하지못했던낯선질병이었으며, 어떤병원에서는침실이많은다인용응급실에환자들을넘치게수용하기만했다는측면에서문제가발생되었다. 둘째, 의료쇼핑 이라고해서환자들이많은의료시설을이곳저곳다녀보는습관이있었고, 병원에입원한환자에게친구와가족구성원들이무분별하게문병을오는사태가질병을퍼트리는데에영향력을행사했을가능성이제기하였다. 셋째, WHO는보건시설로인한감염을막을수있도록보건시설위생유지를조언했고, 또한메르스초기증세가불분명해서메르스초기진단이어려운특성이있기때문에보건의료인력은환자의메르스감염여부와상관없이모든환자를진찰시에항상의료적표준주의지침을충분히숙고할것을당부하였다. 넷째, 현재지역감염의증거는없으며, 접촉자추적향상을위한광범위한노력, ( 잠복기간동안 ) 확진자및접촉자에대한적절한격리, 검역, 감시및여행제한을포함한메르스발병억제를위한지속적인공중보건조치로확진자발생이감소추세로접어든것으로보인다는결과를발표하였다. 2015년 7월 4일이후 3주이상신규확진환자가발생하지않지않자, 국무총리는 7월 28일메르스와관련하여 7월 27일로격리자가모두해제되는등여러상황을종합해볼때국민께서이제는안심해도좋다는것이의료계와정부의판단 이라며사실상메르스종식을선언하였다. 한편모바일인터넷과소셜미디어의확산으로데이터량이증가하여데이터의생산, 유통소비체계에큰변화가일어나면서데이터가경제적자산이될수있는빅데이터시대를맞이하게되었다. 세계각국의정부와기업들이빅데이터가공공과민간에미치는파급효과를전망함에따
제 2 장소셜빅데이터분석기반메르스감정위험예측 29 라 SNS를통해생산되는소셜빅데이터의활용과분석을통하여사회적문제의해결과정부의정책을효과적으로추진할수있을것으로예측하고있다. 빅데이터는미래국가경쟁력에도큰영향을미칠것으로예측하고국가별로는안전을위협하는글로벌요인이나테러, 재난재해, 질병, 위기등에선제적으로대응하기위해우선적으로도입하고있다. 소셜빅데이터의분석은사용자가남긴문서의의미를분석하는것으로자연어처리기술인주제분석 (Text Mining) 과감성분석기술인오피니언마이닝 (Opinion Mining) 을실시한후, 네트워크분석 (Network Analysis) 과통계분석 (Statistical Analysis) 을실시해야한다. 기존에실시하던횡단적조사나종단적조사등을대상으로한연구는정해진변인들에대한개인과집단의관계를보는데에는유용하나사이버상에서언급된개인별문서 ( 버즈 : buzz) 에서논의된관련정보상호간의연관관계를밝히고원인을파악하는데는한계가있다 ( 송주영, 송태민, 2014). 이에반해소셜빅데이터의분석은훨씬방대한량의데이터를활용하여다양한참여자의생각과의견을확인할수있기때문에사회적문제의예측과현상에대한복잡한연관관계를보다정확하게밝혀낼수있다. 본연구는우리나라온라인뉴스사이트, 블로그, 카페, SNS, 게시판등에서수집한소셜빅데이터를바탕으로우리나라에서발생한메르스정보확산위험요인을예측코자한다. 2. 이론적배경 가. 메르스관련이론적배경 메르스 (Middle East Respiratory Syndrome, MERS) 는 2012 년중 동지역의국가에살거나여행하는사람들에게서발견되는전염병으로
30 2015 년소셜빅데이터기반보건복지이슈동향분석 (WHO, 2013), 신종코로나바이러스가전염병의원인이라고규정되었기때문에국제위원회 (the International Committee on Taxonomy of Viruses) 에서 중동지역호흡기증후군-코로나바이러스 (MERS-CoV) 이라는명칭으로공식적으로명명하였다 (Groot, R.J. 외, 2013). 메르스를최초로발견한사람은이집트의질병학자알리모하메드자키 (Ali Mohamed zaki) 로서, 메르스를일으키는코로나바이러스는 HKU4와 HKU5와같은박쥐에게서자생하는코로나바이러스가다른동물에게도퍼지게되면서나타나게된것으로파악하였다 (Zaki, A.M. 외 2012). 이후박쥐의코로나바이러스는중동지역의단봉낙타에게옮겨졌고, 낙타가사람에게메르스바이러스를옮기는주된전파수단이되었다 (Alagaili, A.N. 외, 2014). 메르스는사람과사람의접촉으로감염되는경우도존재하는데, 이경우에는메르스감염환자와의가까운접촉또는비말접촉으로주로감염되며이러한감염은병원과같은보건시설에서자주일어난것으로보고하고있다 (Assiri, A. 외, 2013). 메르스의전파경로는 2012 년 4월부터사우디아라비아에서주로발생하다가, 2012년 9월에중동걸프지역에서영국런던으로메르스감염환자가이동하면서영국내에도메르스감염이일어났다 (Bermingham, A. 외 2012). 2013년의경우사우디아라비아에서레바논, 요르단, 아랍에미레이트연합등에전파되었고, 2014년에는터키, 카타르, 오스트리아에도메르스가전파가이루어져메르스감염환자가나타났다. 2012년 4월부터 2015년 7월 21일까지국내외메르스감염사례는 1,392명, 사망사례는 538명으로보고하고있다 (European Centre for Disease Prevention and Control, 2015a). 메르스바이러스가사우디아라비아를비롯한여러국가에서확산됨에따라 WHO에서는감염예방을위한지침과메르스의전염경로, 메르스증상판별법및메르스환자에대한치료법등을담은매뉴얼을 2013년 7
제 2 장소셜빅데이터분석기반메르스감정위험예측 31 월에발간하였다 (WHO, 2013). 메르스증상으로는고열, 기침, 호흡곤란등의증상이있으며, 어떤사람들의경우설사와메스꺼움, 구토와같은위장관련증상을경험하기도한다 (European Centre for Disease Prevention and Control, 2015b). 폐렴이나신부전증이있는사람의경우메르스에전염되었을때조금더심각한합병증을겪을수있으며, 공존증 (Comorbidities, 1차적질환을포함해서하나이상의질환이몸안에존재하는의학적상황 ) 을지닌사람들의경우메르스감염에더취약하거나증상이심각해지는경향이있다. 단봉낙타에게서만사례수의 90% 이상이넘는 280마리에서메르스바이러스양성반응이나타나낙타가주요한전염원인으로밝혀짐에 (Hemida, M.G. 외 2013) 따라, 최근에는아라비아사막지역을다녀왔거나아라비아지역여행자와가까운접촉을한사람, 그리고낙타와근거리에서접촉하거나멸균되지않은낙타유또는낙타고기를섭취한사람을중심으로메르스가전염되고있다고보고되고있다 (European Centre for Disease Prevention and Control, 2015a). 메르스를예방할수있는예방백신은아직까진없으며, 미국국립보건원에서예방백신으로기능할만한것을개발중에있다. 예방백신대신메르스감염을예방하는방법으로는 20초동안손을비누로깨끗하게씻고, 재채기를할시에티슈로코와입을가리고재치기를하는것이있다. 또한, 다른사람과컵을같이쓰는것을피하고, 문의손잡이나살림도구를깨끗하게소독하는방법등이있다 (European Centre for Disease Prevention and Control, 2015c). 나. SNS 상전염병확산이론 최근 SNS 환경의규모와영향력이점차증대됨에따라 (Jong-Hwan
32 2015 년소셜빅데이터기반보건복지이슈동향분석 Kong, 2014), 개인의커뮤니케이션수단으로 SNS는긴급상황과위기대응에서결정적인요소로진화하고있다 (Ryu, Hyeon Suk, 2013). 전세계 SNS 사용자가 2013년현재 17억명으로 2017년에는 25억명이 SNS를이용할것으로전망하고있다 (emarkerter, 2013). SNS는 2008 년미국대통령대선과 2010년 아랍의봄 민주화운동등의긍정적인영향력 (Adrien Guille 외, 2014) 이있는반면, 광우병사태, 사스 (SARS), 조류독감등사람들의관심을집중적으로받는사안은미디어의반복된조명으로사람들의공포심을자극하게되고, 정부혹은관련조직에대한불신등과겹쳐위험이확산될수있다 (Kim, Young Wook, 2013). 정보확산 (Information Diffusion) 은사회구성원들사이에서시간의흐름에따라특정채널을통해커뮤니케이션되는과정으로 (Rogers Everett M., 1983) SNS상의정보확산능력이점차커지면서이에대한역기능또한증가하고있다 (Jong-Hwan Kong, 2014). 신종플루, 조류독감, 중증급성호흡기증후군과같은감염성이강한질환의발생은전세계적으로질병에대한두려움을키울뿐아니라 (Liang Mao, 2014), 이용자의접근성이높고이동성이강한 SNS는이러한질병에대한유언비어의확산채널역할을한다 (Hong, Ju-hyeon, Yun, Hye-jin 2014). 온라인공간은다양한정보를소비하는곳일뿐만아니라새로운정보를확산시키고생산하고더나아가현실세계에서직접적인행동을이끄는원천이되고있으며 (Park, Min-Gyeong, Lee, Gun-Ho, 2011) 이렇게형성된특정정보는낙인의물결효과를거쳐서낙인화 (Stigmatization) 의충격을양산하고있다. 낙인화는위험의사회확산에따라형성이되며, 위험과관련된특정사람, 상품, 장소, 기술등에붙여지는부정적인이미지, 감정적인반응, 사회행동차원의효과를의미한다. 위험의확산에따른낙인화과정은특정대상에서위험사안이발생, 정보확산, 공중
제 2 장소셜빅데이터분석기반메르스감정위험예측 33 인식과표식화과정, 특정대상의정체성형성, 낙인의물결효과, 낙인화영향과충격의 6가지로단계로이어진다 (Kim, Young Wook. 2014). 확산되는루머가자극적일수록이용자들이활발하게댓글을올리면서상호작용을할뿐아니라국민들의불안감을유발하고, 정부정책에대한불신을초래하는등개인적및사회적으로손실이크게다가온다 (Hong, Ju-hyeon, 2014). SNS를통한정보의확산연구는데이터분석을통하여사회문제에대한궁극적인예측결과를형성할수있을뿐만아니라더큰이해관계를얻을수있다 (Dinyakant Agrawal, 2011). 질병의확산과같은정보확산의과정은네트워크를통하여발생하며 (Mostafa Salehj 외 2015), 사회확산 (Social Amplification) 은질병과같은위험정보가인터넷등의채널을통해집중되었다가빠르게증폭됨으로써사회적인충격을일으키는경로와과정을추적하는것으로, 일반적인전염병은질병전파, 질병에관한정보의흐름, 질병에대한예방행동수칙들을확산한다 (Liang Mao, 2014). 그림 2-1 과같이빨간점선안의감염상태에따른프로세스는 미보균자 (Susceptible) 인개인의경우감염인자가있는이웃과의접촉했을경우감염성질환에감염될수있수있지만감염인자가신체내부에서방출되지않은 잠복 (Latent) 상태로있다. 질병인자가신체내부에있을때에는다른사람에게전파되지않으며, 잠복기의다음단계는 전염 (Infectious) 상태로한개인이다른사람에게감염성질환을전파할수있고확산경로는늘어난다. 감염기간동안 증상 (Symptomatic) 또는 무증상 (Asymptomatic) 상태를가질수있고, 감염관련정보들은각각대중매체를통하여전파, 주변을통한입소문전파, 소셜네트워크의대인관계에의하여퍼져나가며감염기간이지나면 회복 (Recovered) 단
34 2015 년소셜빅데이터기반보건복지이슈동향분석 계를거치게되며이때에는감염에면역성이생긴것으로간주한다. 그림 2-1 세과정사이에서의정보확산 주 : Liang Mao (2014). Modeling Triple-diffusions of infractions disease, information, and preventive behaviors through a metropolitan social networks: an agent- based simulation. Applied Geography, 50, pp.31~49. 그림 2-1 의파란색점선안의정보확산프로세스는질병이처음발병했을때에는개개인은인식하지못하지만 (Unaware) 이때입소문과대중매체를통하여정보를습득하게된다. 전자 (uninformed) 의경우는로컬네트워크를통하여정보가순환시켜지지만, 후자 (informed) 의경우는전세계적으로정보가확산될뿐만아니라예방차원에서의의사결정행동을불러일으킨다. 그림 2-1 과같이녹색점선안에프로세스는예방행동이확산되는과정으로자신의개인적인특성과질병의확산과정에서증상 (Symptomatic) 을통하여 감염위험 으로인지된정보는 SNS의대인관계의한영향력에따라서정보를수용하는데영향을미치고, 질병의확산은개인의인지된위험과자극을통하여예방행동을채택할수있도록하며, 예방행동의채택을저해하는질병확산은사람과질
제 2 장소셜빅데이터분석기반메르스감정위험예측 35 병시스템간의부정적인연결고리를형성할수있다 (Liang Mao, 2014). 3. 연구방법 가. 연구대상 5) 및분석방법 본연구는 105개의온라인뉴스사이트, 8개의게시판, 1개의 SNS( 트위터 ), 4개의블로그등총 120개의온라인채널을통해수집가능한텍스트기반의웹문서 ( 버즈 ) 를소셜빅데이터로정의하였다. 메르스토픽 (topic) 은모든관련문서를수집하기위해 메르스 를사용하였으며, 토픽과같은의미로사용되는토픽유사어로는 메르스바이러스, 중동호흡기증후군, 메르스코로나바이러스, 매르스 용어를사용하였고, 불용어는 메르스벤츠, 메르스데스벤츠 로하였다. 소셜빅데이터의수집은우리나라에메르스의발생이처음으로알려진시점인 2015년 5월 19일부터 6월 2일동안해당채널에서매시간단위로수집하였으며 6), 수집된총 666,510건 7) 의텍스트 (Text) 문서를본연구의분석에포함하였다. 메르스위험을설명하는가장효율적인예측모형을구축하기위해데이터마이닝의연관규칙과의사결정나무분석, 그리고시각화분석을사용하였다. 연관규칙의분석알고리즘은선험적규칙 (apriori principle) 을사용하였고, 의사결정나무형성을위한분석알고리즘은훈련표본과검정표본의정분류율이높게나타난 Exhaustive CHAID(Chi-squared 5) 본고의연구대상은 1 부 1 장의 소셜빅데이터분석및활용방안 의분석사례의대상과달리 5 월 19 일 ~6 월 2 일 (15 일간 ) 온라인문서를대상으로하였다. 6) 본연구를위한소셜빅데이터의수집및토픽분류는 ( 주 )SK 텔레콤스마트인사이트 에서수행함. 7) 블로그 5,056 건 (0.8%), 카페 7,133 건 (1.1%), SNS 618,471 건 (92.8%), 게시판 12,693 건 (1.9%), 뉴스 23,157 건 (3.5%).
36 2015 년소셜빅데이터기반보건복지이슈동향분석 Automatic Interaction Detection) 알고리즘을사용하였다. 기술분석, 다중응답분석, 로지스틱회귀분석, 의사결정나무분석은 SPSS 22.0 을사 용하였고, 연관분석과시각화는 R version 3.1.3 을사용하였다. 나. 연구도구 메르스관련하여수집 분류된문서는주제분석 (text mining) 과정을 거쳐다음과같이정형화데이터로코드화하여사용하였다. 1) 메르스관련감정 메르스감정키워드는온라인문서수집이후, 주제분석을통하여총 163개의긍정감정키워드 ( 다행, 해결, 행복, 든든, 완벽, 안정, 안전, 깨끗, 기대, 감동, 격려, 극복, 긍정, 기대감, 기쁨, 도움, 미소, 믿음, 따뜻, 선호, 성공, 소망, 소중, 희망등 ) 와 229개의부정감정키워드 ( 답답, 거짓말, 비상, 판단, 불안, 스트레스, 괴담, 냉소, 공포, 혼란, 엄벌, 공포증, 위험, 우려, 문제, 긴급, 부담, 악화, 난리, 비판, 무책임, 갈등, 감소, 갑갑, 강제등 ) 으로분류하고문서상의긍정과부정키워드를각각합산한후, 감성분석 (Opinion Mining) 을실시하였다. 긍정은메르스에대해안심하는감정이고, 부정은메르스에대해불안한감정이며, 보통은긍정과부정이동일한감정을나타낸다. 2) 메르스감염대상 메르스감염대상은주제분석과정을거쳐 일반인 ( 국민, 국민들, 사람,
제 2 장소셜빅데이터분석기반메르스감정위험예측 37 사람들, 성인, 시민등 ), 남성 ( 남편, 신랑, 아빠, 오빠, 아버지, 기러기아빠, 계부등 ), 여성 ( 부인, 아내, 어머니, 언니, 엄마등 ), 노인 ( 노약자, 노인, 할머니, 할아버지, 노인들, 조부모, 조부등 ), 아이학생 ( 대딩, 대학생, 아기, 아들, 아이, 아이들, 애들, 어린이등 ), 가족 ( 가족들, 가족, 부모, 패밀리, 부부등 ), 싱글 ( 개인, 본인, 나 ), 외국인 ( 외국인, 미군병사, 중국인, 미국인, 중동인등 ), 여행객 ( 여행객들, 여행객, 관광객등 ), 증상자 ( 보균자, 증상자, 첫감염자, 감염환자, 메르스환자등 ), 의료계 ( 의료진들, 의료진, 교수, 간호사, 의사등 ), 군인 ( 파병, 장병, 파병자, 사병, 병사 ), 직장인 ( 직원, 업주, 해외건설근로자, 건설근로자등 ) 의 13개요인으로대상요인이있는경우는 1, 없는경우는 0 으로코드화하였다. 3) 메르스관련국가 메르스관련국가는주제분석과정을거쳐 아시아 ( 중국, 홍콩, 대만, 대한민국, 한국, 아시아등 ), 중동 ( 바레인, 이라크, 이란, 사우디아라비아, 중동국가, 레바논등 ), 아프리카 ( 수단, Sudan, 지부티, Djibouti, 서아프리카, 기니등 ), 유럽 ( 스페인, Spain, 영국, UnitedKingdom, 프랑스, 독일등 ), 미국 ( 미국, 뉴욕, 하와이등 ) 의 5개요인으로국가요인이있는경우는 1, 없는경우는 0 으로코드화하였다. 4) 메르스관련기관 메르스관련기관은주제분석과정을거쳐 정부 ( 감염병리과장, 복지장 관, 보건장관, 보건복지위원장, 국무총리, 장관등 ), 민간기관 ( 영양사협회, 역사학연구회, 국경없는의사회등 ), 정당 ( 새정치민주연합, 새누리당등 ),
38 2015 년소셜빅데이터기반보건복지이슈동향분석 국제기구 ( 세계보건기구, WHO, CDC, 미국보건당국, 유럽질병통제청등 ), 중국국가기관 ( 중국보건당국등 ), 병원 ( 전남대병원, 국가격리병원, 국가지정격리치료병원, 고대구로병원, 서울대학교병원, 서울대병원등 ), 항공사 ( 이스타항공, 도하공항, 김해공항, 제주공항, 홍콩공항, 인천국제공항, 인천공항등 ), 학교 ( 대학교, 고등학교, 초등학교, 제주대학교 ) 의 8개요인으로기관요인이있는경우는 1, 없는경우는 0 으로코드화하였다. 5) 메르스감염경로 메르스감염경로는주제분석과정을거쳐 1차감염, 2차감염, 3차감염, 감염경로, 감염원 ), 낙타 ( 낙타, 낙타시장, 낙타접촉, 낙타체험, 낙타체험프로그램, 낙타타기, 낙타고기, 낙타요리, 생낙타유 ), 공기 ( 공기, 공기감염, 공기전염, 공기호흡, 호흡기감염 ), 기타동물 ( 당나귀, 염소, 동물, 동물들, 가금류, 박쥐 ), 접촉 ( 밀접, 접촉, 밀접접촉, 재채기, 인체감염, 비말감염 ) 의 5개요인으로감염경로요인이있는경우는 1, 없는경우는 0 으로코드화하였다. 6) 메르스관련바이러스 메르스관련바이러스는주제분석과정을거쳐 코로나바이러스 ( 베타코로나바이러스, 베타코로나, 메르스코로나, 매르스코로나바이러스, 코로나바이러스, 코로나바이러스과, Coronavirus), 사스 ( 사스, SARS, SARScoronavirus, 중증급성호흡기증후군, 중증급성호흡기질환, 중동호흡기곤란, 급성호흡곤란증후군, 다기관부전증 ), 신종플루 (H1N1, 신종인플루엔자, 신종플루 ), 조류인플루엔자 ( 조류독감, 조류인플루엔자, avi-
제 2 장소셜빅데이터분석기반메르스감정위험예측 39 aninfluenza), 에볼라 (ebola, ebolahemorrhagicfever, 에볼라, 에볼라바이러스, 에볼라출혈열 ), 기타바이러스 ( 바이러스, 신종감염병, 신종바이러스, 전염병, 감염병, 병균, 중증열성혈소판감소증후군, 인수공동전염병, 생탄저균, Lassafever, 라사열 ) 의 7개요인으로바이러스요인이있는경우는 1, 없는경우는 0 으로코드화하였다. 7) 메르스관련증상 메르스관련증상은주제분석과정을거쳐 전파 ( 전염, 전염력, 전염성, 전파력, 발병, 발생, 감염, 감염력, 감염율, 확산 ), 의심증상 ( 양성, 메르스감염, 음성, 의심증상, 의심증세, 잠복기간, 잠복기, 최대잠복기 ), 열 ( 오한, 38도, 발열, 고열, 고열증세, 미열, 미열증세 ), 호흡기 ( 숨가뿜, 숨가쁨, 호흡곤란, 호흡곤란증세, 호흡기, 호흡기이상, 호흡기증상, 감기, 목감기, 인후통, 가래 ), 소화기증상 ( 구토, 설사, 식욕부진, 위장장애, 복통 ), 신장질환 ( 급성신부전, 신부전증세, 급성신부전증, 신장기능, 심낭액저류, 콩팥내종양, 콩팥종양, 심부전 ), 사망 ( 사망, 취사율, 치사율, 목숨, 생명 ), 기타증상 ( 혼수상태, 사구체신염, 폐렴, 폐렴증세, 폐감염, 합볍증, 혈소판감소, 복막염, 패혈증, 췌장염, 두통, 섬망, 흉통, 혈액, 혈전증, 죽상경화증, 간질, 감각이상, 결석, 경련, 과다출혈, 근육통, 수지진전, 중증질환 ) 의 8개요인으로증상요인이있는경우는 1, 없는경우는 0 으로코드화하였다. 8) 메르스관련대처 메르스관련대처는주제분석과정을거쳐 초기대응 ( 신고, 초기, 초기 대응, 초기발견, 진단, 초기증상, 병원진찰, 진료, 검사결과, 발견 ), 치료
40 2015 년소셜빅데이터기반보건복지이슈동향분석 (1차치료, 2차치료, 약물, 엑스레이, 항체검사, 치료, 집중치료, 인공호흡기, 치료백신, 치료약, 치료제, 해결방법, 해열제, 백신, ZMapp, 브린시도피어, 지맵, TKM에볼라, 파비피라비르, 입원, 산소공급 ), 격리 ( 확진, 가택격리, 격리, 격리대상, 격리조치, 격리종료, 자가격리, 자택격리 ), 감염가능검사 ( 검사, 격리검사, 발열감시, 발열감지, 발열검사, 양성반응, 양성판정, 유전자검사, 음성반응, 음성판정, 채혈, 판정, 감염가능성, 감염여부, 감염증세, 전파가능성 ), 정북대응 ( 위급상황, 위기대응, 특별검역, 폐쇄, 지원, 검역절차, 검역체계, 교육비, 국가지정입원치료, 긴급복지지원제도, 긴급비상회의, 긴급현안, 대응단계, 대응책, 대응현황, 대처상황, 발표, 방역, 방역체계, 역학조사, 종합대응방안, 종합대책, 초강경대책 ) 의 5개요인으로대처요인이있는경우는 1, 없는경우는 0 으로코드화하였다. 9) 메르스관련예방 메르스관련예방은주제분석과정을거쳐 예방수칙 ( 감염예방, 감염예방수칙, 예방, 예방법, 예방수칙 ), 외출 ( 쇼핑, 야외활동, 소풍, 나들이 ), 위생 ( 개인위생, 비누, 소독, 손세정제, 손소독젤, 손씻기, 위생, 청결 ), 면역강화 ( 면역력, 항바이러스, 항체, 건강관리, 유산균 ), 마스크 ( 마스크, 손수건, 입막음, 티슈 ) 의 5개요인으로예방요인이있는경우는 1, 없는경우는 0 으로코드화하였다. 4. 분석결과 그림 2-2 와같이메르스와관련된버즈는 2015 년 5 월 28 일 내국
제 2 장소셜빅데이터분석기반메르스감정위험예측 41 인메르스의심자 1명중국으로출국 보도 (2015. 5. 28. 보도자료 ) 후급속히증가하여 5월 30일 유언비어관련당부사항 과 5월 31일 문형표장관, 메르스확산방지위해민관합동총력대응선언 보도이후감소하였다가, 6월 1일이후메르스추가환자발생과사망자발생보도후급속히증가하였다. 그림 2-2 메르스관련문서 ( 버즈 ) 량의일별추이 그림 2-3 과같이메르스에대한단계별 8) 긍정적인감정 ( 안심 ) 표현단어는경계단계 (3단계) 까지 가능성, 안전, 해결 키워드에집중되었으며, 심각1단계 (4단계) 이후, 다행, 가능성, 기대, 해결 키워드에집중된것으로나타났다. 메르스에대한부정적인감정 ( 불안 ) 표현단어는경계단계까지 의심, 우려, 문제 키워드에집중되었으며, 심각1단계 (4단계) 이후, 괴담, 의심, 불안, 실패 키워드에집중된것으로나타났다. 8) 메르스가국내에알려진 5 월 19 일 ~25 일을관심단계, 내국인메르스환자중국출국이알려진 5 월 26 일 ~28 일을주의단계, 메르스확진환자추가발생과메르스괴담이급속히전파된 5 월 29 일 30 일을경계단계, 메르스확산방지를위한민관합동총력대응을선언한 5 월 31 일을심각 1 단계, 메르스추가환자와사망자가발생한 6 월 1 일 2 일을심각 2 단계의 5 단계로구분함
42 2015 년소셜빅데이터기반보건복지이슈동향분석 그림 2-3 메르스에대한일자별감정 ( 상위 50 개 ) 변화 5 월 19~25 일 5 월 26~28 일 5 월 29~30 일 5 월 31 일 6 월 1~2 일 5 월 19~25 일 5 월 26~28 일 5 월 29~30 일 5 월 31 일 6 월 1~2 일
제 2 장소셜빅데이터분석기반메르스감정위험예측 43 < 표 2-1> 과같이메르스부정감정의연관성예측에서가장신뢰도가높은연관규칙으로는 { 거부, 비판, 무시 } => { 한심 } 이며네변인의연관성은지지도 0.003, 신뢰도는 0.985, 향상도는 122.31로나타나, 온라인문서 ( 버즈 ) 에서 거부, 비판, 무시 가언급되면정부의대처방안에대해한심하다는부정적감정으로생각할확률이 98.5% 이며, 거부, 비판, 무시 가언급되지않은버즈보다메르스에대해한심하다는부정적감정일확률이약 122.3배높아지는것으로나타났다. 그림 2-4 와같이메르스에대한부정적표현단어는 무시, 한심, 판단, 거부, 비난, 무능, 불구, 답답, 공포, 스트레스, 무책임, 비판, 실패, 괴담, 협박 키워드와강하게연결되어있는것으로나타났다. 표 2-1 메르스부정 ( 불안 ) 감정예측 순위 규칙 지지도 신뢰도 향상도 1 { 거부, 판단, 무시 } => { 한심 } 0.002811300 0.9852632 122.31002 2 { 거부, 판단, 한심 } => { 무시 } 0.002811300 0.9936306 112.83129 3 { 거부, 한심 } => { 무시 } 0.002811300 0.9811321 111.41203 4 { 공포, 답답 } => { 스트레스 } 0.006109172 0.9835590 92.40071 5 { 공포, 스트레스 } => { 답답 } 0.006109172 0.9960823 88.95859 6 { 거부, 무시, 한심 } => { 판단 } 0.002811300 1.0000000 60.31558 7 { 무시, 한심 } => { 판단 } 0.002811300 0.9957447 60.05892 8 { 거부, 한심 } => { 판단 } 0.002829322 0.9874214 59.55689 9 { 무시, 실패, 무책임 } => { 비판 } 0.001129326 0.9947090 57.08039 10 { 냉소 } => { 잘못 } 0.009479128 0.9825654 44.08858 11 { 거부, 무능, 불구 } => { 비난 } 0.017228226 1.0000000 38.12022 12 { 무능, 불구 } => { 비난 } 0.017228226 0.9989551 38.08039 13 { 거부, 무능 } => { 비난 } 0.017246247 0.9954924 37.94839 14 { 거부, 불구 } => { 비난 } 0.017288296 0.9941278 37.89637 15 { 무능, 비판, 무책임 } => { 실패 } 0.001129326 0.9842932 30.41698 16 { 거부, 무능, 비난 } => { 불구 } 0.017228226 0.9989551 24.97328 17 { 거부, 무능 } => { 불구 } 0.017228226 0.9944521 24.86071 18 { 무능, 비난 } => { 불구 } 0.017228226 0.9927310 24.81768 19 { 거부, 비난 } => { 불구 } 0.017288296 0.9862920 24.65671 20 { 거부, 불구, 비난 } => { 무능 } 0.017228226 0.9965254 20.43012
44 2015 년소셜빅데이터기반보건복지이슈동향분석 그림 2-4 메르스감정의연관규칙에대한병렬좌표와그래프시각화 그림 2-5 와같이지역별메르스에대한부정적 ( 불안 ) 감정 9) 은심각1 단계 (4단계) 까지서울, 경기, 충남, 부산등의순으로높은것으로나타났고, 심각2단계 (5단계) 부터는경기, 대전, 서울, 강원등의순으로높은것으로나타났다. 그림 2-5 지역별메르스위험 ( 불안 ) 감정 9) 총버즈 666,510 건중지역을식별할수있는버즈 76,316 건 (11.45%) 에대한지역별메르스에대한부정적 ( 불안 ) 감정의빈도를나타냄
제 2 장소셜빅데이터분석기반메르스감정위험예측 45 < 표 2-2> 와같이메르스와관련하여긍정적인감정 ( 안심 ) 을나타내는온라인문서 ( 버즈 ) 는 22.3%, 보통의감정을나타내는버즈는 6.5%, 부정적인감정 ( 불안 ) 은 71.2% 로나타났다. 메르스관련국가는아시아 (71.1%), 아메리카 (16.5%), 중동 (10.1%) 등의순으로나타났다. 메르스관련기관은정부 (68.9%), 병원 (23.9%), 학교 (1.8%), 정당 (1.8%) 등의순으로나타났다. 메르스관련감염은접촉 (35.3%), 낙타 (34.6%), 감염경로 (14.4%) 등의순으로나타났다. 메르스관련증상으로는전파 (49.7%), 사망 (21.0%), 의심증상 (13.6%) 등의순으로나타났다. 메르스관련대처 / 치료로는정부대응 (31.6%), 격리 (28.9%), 감염가능검사 (18.5%) 등의순으로나타났다. 메르스관련예방으로는예방수칙 (37.4%), 마스
46 2015 년소셜빅데이터기반보건복지이슈동향분석 크 (35.4%), 위생 (20.3%) 등의순으로나타났다. 메르스관련대상으로는증상자 (52.1%), 일반인 (21.4%), 의료인 (8.6%) 등의순으로나타났다. 메르스관련바이러스로는기타바이러스 (37.6%), 사스 (31.3%), 신종플루 (12.6%) 등의순으로나타났다. 표 2-2 메르스관련버즈현황 구분 항목 N(%) 구분 항목 N(%) 긍정 ( 안심 ) 51,998(22.3) 초기대응 37,147(13.6) 감정국가기관감염증상 보통 15,176( 6.5) 치료 20,295( 7.4) 부정 ( 불안 ) 166,471(71.2) 격리 78,985(28.9) 대처 / 치료계 233,645 감염가능검사 50,472(18.5) 아시아 83,970(71.1) 정부대응 86,289(31.6) 중동 11,945(10.1) 계 273,188 아프리카 840( 0.7) 예방수칙 28.8(37.4) 유럽 1,967( 1.7) 외출자제 501( 0.7) 아메리카 19,450(16.5) 위생 15,606(20.3) 예방계 118,172 면약강화 11,306(14.7) 정부 172,872(68.9) 마스크 27,164(35.4) 민간기관 479( 0.2) 계 76,691 정당 4,531( 1.8) 일반인 88,928(21.4) 국제기구 3,934( 1.6) 남성 6,902( 1.7) 중국국가기관 1,073( 0.4) 여성 4,638( 1.1) 병원 59,897(23.9) 노인 1,440( 0.3) 공항 3,625( 1.4) 아이학생 12,305( 3.0) 학교 4,622( 1.8) 가족 15,894( 3.8) 계 251,033 싱글 13,669( 3.3) 대상감염경로 13,137(14.4) 외국인 1,962( 0.5) 낙타 31,436(34.6) 여행객 3,425( 0.8) 공기 10,863(11.9) 증상자 216,660(52.1) 기타동물 3,394( 3.7) 의료인 35,666( 8.6) 접촉 32,119(35.3) 군인 844( 0.2) 계 90,949 직장인 13,895( 3.3) 전파 119,859(49.7) 계 416,228 의심증상 32,753(13.6) 코로나바이러스 2,126( 3.0) 열 12,133( 5.0) 사스 21,955(31.3) 호흡기증상 18,795( 7.8) 신종플루 8,849(12.6) 소화기증상 1,848( 0.8) 바이러스 조류인플루엔자 2,526( 3.6) 신장질환 1,429( 0.6) 에볼라 8,307(11.8) 사망 50,716(21.0) 기타바이러스 26,347(37.6) 기타증상 3,576( 1.5) 계 70,110 계 241,109
제 2 장소셜빅데이터분석기반메르스감정위험예측 47 < 표 2-3> 과같이예방요인에대한메르스감정의연관성예측에서가장신뢰도가높은연관규칙으로는 { 위생, 면역강화 }=>{ 안심 } 이며세변인의연관성은지지도 0.003, 신뢰도는 0.882, 향상도는 11.298로나타나, 온라인문서 ( 버즈 ) 에서위생, 면역강화가언급되면메르스를긍정적 ( 안심 ) 으로생각할확률이 88.2% 이며, 위생, 면역강화가언급되지않은버즈보다메르스에대한감정이긍정적일확률이 11.3배높아지는것으로나타났다. 대처 / 치료요인에대한메르스감정의연관성예측에서가장신뢰도가높은연관규칙으로는 { 초기대응, 격리, 감염검사 }=>{ 불안 } 이며네변인의연관성은지지도 0.02, 신뢰도는 0.904, 향상도는 3.619로나타나, 온라인문서 ( 버즈 ) 에서초기대응, 격리, 감염검사가언급되면메르스를부정적 ( 불안 ) 으로생각할확률이 90.4% 이며, 초기대응, 격리, 감염검사가언급되지않은버즈보다메르스에대한감정이부정적일확률이 3.6배높아지는것으로나타났다. 증상요인에대한메르스감정의연관성예측에서가장신뢰도가높은연관규칙으로는 { 전파, 열, 사망 }=>{ 불안 } 이며세변인의연관성은지지도 0.002, 신뢰도는 0.5676, 향상도는 2.273로나타나, 온라인문서 ( 버즈 ) 에서전파, 열, 사망이언급되면메르스를부정적 ( 불안 ) 으로생각할확률이 56.8% 이며, 전파, 열, 사망이언급되지않은버즈보다메르스에대한감정이부정적일확률이 2.27배높아지는것으로나타났다. 표 2-3 예방요인, 대처 / 치료요인, 증상요인에대한메르스감정예측 구분규칙지지도신뢰도향상도 예방요인 { 위생, 면역강화 } => { 안심 } 0.002955695 0.88143177 11.2981862 { 위생 } => { 안심 } 0.007423745 0.31705754 4.0640414 { 면역강화 } => { 안심 } 0.003318780 0.19564833 2.5078189 { 위생, 마스크 } => { 안심 } 0.001947458 0.15676329 2.0093907 { 예방수칙, 위생, 마스크 } => { 불안 } 0.001756913 0.35345608 1.4151535 { 예방수칙, 위생 } => { 불안 } 0.002049482 0.34460141 1.3797015 { 예방수칙 } => { 안심 } 0.003357789 0.10120286 1.2972175
48 2015 년소셜빅데이터기반보건복지이슈동향분석 구분 규칙 지지도 신뢰도 향상도 { 마스크 => { 안심 } 0.003230259 0.07925931 1.0159453 {} => { 안심 } 0.078015334 0.07801533 1.0000000 {} => { 불안 } 0.249765195 0.24976519 1.0000000 { 예방수칙, 마스크 } => { 불안 } 0.002074988 0.23742489 0.9505924 { 예방수칙 } => { 불안 } 0.005713343 0.17219861 0.6894420 { 위생, 마스크 } => { 불안 } 0.002106495 0.16956522 0.6788985 { 면역강화 } => { 불안 } 0.002604612 0.15354679 0.6147646 { 마스크 } => { 불안 } 0.005434277 0.13333824 0.5338544 { 위생 } => { 불안 } 0.003053218 0.13039856 0.5220846 대처 / 치료요인 증상요인 { 초기대응, 격리, 감염검사 } => { 불안 } 0.015567658 0.9041478 3.619991 { 초기대응, 격리 } => { 불안 } 0.018457337 0.8382393 3.356109 { 감염검사, 정부대응 } => { 불안 } 0.013081574 0.8202258 3.283987 { 초기대응, 감염검사 } => { 불안 } 0.015969753 0.7587141 3.037709 { 초기대응, 격리, 정부대응 } => { 불안 } 0.004430541 0.7129406 2.854443 { 초기대응, 정부대응 } => { 불안 } 0.008370467 0.7023795 2.812159 { 초기대응, 격리, 감염검사, 정부대응 } => { 불안 } 0.002298540 0.6913357 2.767943 { 초기대응, 치료, 격리, 감염검사, 정부대응 } => { 불안 } 0.001354818 0.6866920 2.749350 { 초기대응, 치료, 감염검사, 정부대응 } => { 불안 } 0.001422334 0.6742532 2.699548 { 치료, 격리, 감염검사, 정부대응 } => { 불안 } 0.001923452 0.6719078 2.690158 { 초기대응, 치료, 격리, 감염검사 } => { 불안 } 0.001578371 0.6666667 2.669174 { 초기대응, 감염검사, 정부대응 } => { 불안 } 0.002445575 0.6631408 2.655057 { 치료, 감염검사, 정부대응 } => { 불안 } 0.002040480 0.6605148 2.644543 { 초기대응, 치료, 격리, 정부대응 } => { 불안 } 0.001750911 0.6570946 2.630849 { 초기대응, 치료, 감염검사 } => { 불안 } 0.001663891 0.6531213 2.614941 { 치료, 격리, 정부대응 } => { 불안 } 0.002651123 0.6453616 2.583873 { 전파, 호흡기증상, 사망 } => { 안전 } 0.001930954 0.4030692 5.166538 { 전파, 열, 사망 } => { 불안 } 0.002082489 0.5676892 2.272891 { 전파, 열, 호흡기증상, 사망 } => { 불안 } 0.001771916 0.5472660 2.191122 { 전파, 의심증상, 열, 사망 } => { 불안 } 0.001543863 0.5455992 2.184448 { 전파, 의심증상, 호흡기증상, 사망 } => { 불안 } 0.001518357 0.5403097 2.163270 { 전파, 열 } => { 불안 } 0.004037449 0.5391705 2.158710 { 전파, 의심증상, 열 } => { 불안 } 0.002715638 0.5375705 2.152304 { 전파, 열, 호흡기증상 } => { 불안 } 0.002600111 0.5333949 2.135585 { 전파, 의심증상, 열, 호흡기증상, 사망 } => { 불안 } 0.001360820 0.5307197 2.124875 { 전파, 의심증상, 호흡기증상 } => { 불안 } 0.002070487 0.5257143 2.104834 { 전파, 기타증상 } => { 불안 } 0.001330813 0.5153980 2.063530 { 전파, 의심증상, 열, 호흡기증상 } => { 불안 } 0.001756913 0.5113537 2.047338 { 전파, 열, 기타증상 } => { 불안 } 0.001053248 0.5090645 2.038172 { 전파, 의심증상, 사망 } => { 불안 } 0.002187514 0.4753831 1.903320 { 전파, 호흡기증상 } => { 불안 } 0.003501823 0.4589971 1.837714 { 전파, 의심증상 } => { 불안 } 0.008245938 0.4570478 1.829910 { 의심증상, 열 } => { 불안 } 0.003776387 0.4384254 1.755350 { 전파, 호흡기증상, 사망 } => { 불안 } 0.002055483 0.4290636 1.717868
제 2 장소셜빅데이터분석기반메르스감정위험예측 49 메르스의감정에영향을미치는요인은다음과같다. < 표 2-4> 와같이메르스와관련한예방수칙, 위생, 면역강화는정적의영향을미치는것으로나타나예방수칙, 위생, 면역강화와관련한예방요인이온라인상에많이언급될수록메르스에대한부정적인감정 ( 불안 ) 이감소하는것으로나타났으나, 마스크와외출자제는부적인영향을미치는것으로나타나부정적인감정 ( 불안 ) 을증가시키는것으로나타났다. 메르스와관련한치료와정부대응은정적의영향을미치는것으로나타나치료와정부대응과관련한대처요인이온라상에많이언급될수록메르스에대한부정적인감정 ( 불안 ) 이감소하는것으로나타났으나, 초기대응, 격리, 감염가능검사는부적인영향을미치는것으로나타나부정적인감정 ( 불안 ) 을증가시키는것으로나타났다. 메르스와관련한호흡기증상, 신장질환, 기타질환은정적의영향을미치는것으로나타나호흡기증상, 신장질환과관련한증상요인이온라인상에많이언급될수록메르스에대한부정적인감정 ( 불안 ) 이감소하는것으로나타났으나, 전파, 의심증상, 열, 사망은부적인영향을미치는것으로나타나부정적인감정 ( 불안 ) 을증가시키는것으로나타났다. 메르스와관련한채널요인은 SNS만부적인영향을미치는것으로나타나 SNS로확산되는온라인문서가부정적인감정 ( 불안 ) 을증가시키는것으로나타났다. 표 2-4 메르스의감정에영향을미치는요인 1) 예방 변수 긍정보통 b S.E. OR P b S.E. OR P 예방수칙.082.032 1.086.011 -.327.058.721.000 외출자제 -.514.152.598.001.443.187 1.557.018 위생 2.273.035 9.707 0.000 1.292.057 3.640.000 면역강화.387.040 1.472.000 -.619.092.538.000 마스크 -.599.039.549.000.473.050 1.605.000
50 2015 년소셜빅데이터기반보건복지이슈동향분석 대처 / 치료 증상 채널 변수 긍정보통 b S.E. OR P b S.E. OR P 초기대응 -1.407.030.245 0.000 -.368.032.692.000 치료 1.566.030 4.786 0.000 1.007.044 2.736.000 격리 -1.192.020.304 0.000 -.772.028.462.000 감염가능검사 -1.583.027.205 0.000.349.024 1.418.000 정부대응.682.012 1.978 0.000.040.022 1.040.070 전파 -.481.015.618.000 -.261.023.770.000 의심증상 -.410.027.664.000 -.429.043.651.000 열 -.195.043.823.000.352.058 1.422.000 호흡기증상 1.936.029 6.929 0.000 1.581.042 4.859.000 소화기증상.115.121 1.122.340 -.347.176.707.048 신장질환.267.078 1.307.001.192.101 1.211.057 사망 -.550.027.577.000 -.298.041.742.000 기타질환.244.068 1.276.000.379.087 1.461.000 블로그.597.047 1.817.000.863.067 2.370.000 카폐.623.052 1.865.000.446.090 1.561.000 SNS -.227.018.797.000 -.614.026.541.000 게시판.210.040 1.234.000.263.065 1.301.000 뉴스.047.024 1.048.052.624.032 1.867.000 주 : 1) 기본범주 : 부정, Standardized coefficients, Standard error, Adjusted odds ratio 그림 2-6 과같이메르스관련예방요인이메르스의감정예측모형에미치는영향은 Hand_Claner 의영향력이가장큰것으로나타났다. Hand_Claner 가있을경우메르스의부정 ( 불안감정 ) 은이전의 76.3% 에서 28.9% 로크게감소한반면, 긍정 ( 안심감정 ) 은이전의 23.7% 에서 71.1% 로증가하였다. Hand_Claner 가있고 Hand_Care 가없는경우메르스의부정은이전의 28.9% 에서 13.3% 로증가한반면, 긍정적감정은이전의 71.1% 에서 86.7% 로감소하였다. Hand_Claner 가없을경우메르스의부정 ( 불안감정 ) 은이전의 76.3% 에서 77.9% 로증가한반면, 긍정 ( 안심감정 ) 은이전의 23.7% 에서 22.1% 로감소하였다. Hand_Claner 가없고 Hand_Care 가없는경우메르스의부정은이
제 2 장소셜빅데이터분석기반메르스감정위험예측 51 전의 77.9% 에서 78.2% 로증가한반면, 긍정적감정은이전의 22.1% 에 서 21.8% 로감소하였다. 그림 2-6 메르스관련예방요인의예측모형 그림 2-7 과같이메르스관련증상요인이메르스의감정예측모형에미치는영향은 호흡기증상 의영향력이가장큰것으로나타났다. 호흡기증상 이있을경우메르스의부정 ( 불안감정 ) 은이전의 71.2% 에서 37.6% 로크게감소 10) 한반면, 보통감정은이전의 6.5% 에서 13.7%, 긍정 ( 안심감정 ) 은이전의 22.3% 에서 48.6% 로증가하였다. 호흡기증상 이있고 열 이있는경우메르스의부정은이전의 37.6% 에서 58.9% 10) 호흡기증상 이있을경우부정 ( 불안 ) 의감정이감소한것은 호흡기증상 보다는 발열 에대한불안한감정이많이전파되어평소에 호흡기증상 만있는사람은안심을하지만 열 이발생할경우불안한감정을증가시키는것으로판단된다.
52 2015 년소셜빅데이터기반보건복지이슈동향분석 로증가한반면, 긍정적감정은이전의 48.6% 에서 27.3% 로증가하였다. 호흡기증상 이없을경우메르스의부정 ( 불안감정 ) 은이전의 71.2% 에서 72.6% 로증가한반면, 긍정 ( 안심감정 ) 은이전의 22.3% 에서 21.2% 로감소하였다. 호흡기증상 이없고 전파 가있는경우메르스의부정은이전의 72.6% 에서 79.3% 로증가한반면, 긍정적감정은이전의 21.2% 에서 15.0% 로감소하였다. 호흡기증상 이없고 전파 가없고 의심증상 이있는경우경우메르스의부정은이전의 71.0% 에서 91.3% 으로증가한반면, 긍정적감정은이전의 22.6% 에서 6.2% 로크게감소하였다. 그림 2-7 메르스관련증상요인의예측모형 표 2-5> 의메르스의증상요인의예측모형에대한이익도표와같이메르스의긍정감정에가장영향력이높은경우는 호흡기증상 이있고 열 이없고 의심증상 이없는조합으로나타났다. 즉, 12번노드의지수 (index) 가 286.3% 로뿌리마디와비교했을때 12번노드의조건을가진
제 2 장소셜빅데이터분석기반메르스감정위험예측 53 집단이메르스를긍정적으로느끼는확률이 2.86배로나타남. 메르스부정적인감정에가장영향력이높은경우는 호흡기증상 이없고 전파 가없고 의심증상 이있는조합으로나타났다. 즉, 9번노드의지수가 128.1% 로뿌리마디와비교했을때 9번노드의조건을가진집단이메르스에대한부정적인확률이 1.28배로나타났다. 표 2-5 메르스관련증상요인의예측모형에대한이익도표 구분안심보통불안 노드 이익지수누적지수노드 (n) 노드 (%) 이익 (%) 지수 (%) 노드 (n) 노드 (%) 이익 (%) 지수 (%) 12 5309 2.3 6.5 286.3 5309 2.3 6.5 286.3 14 1105.5.7 157.0 6414 2.7 7.2 264.0 7 5930 2.5 2.7 107.5 12344 5.3 10.0 188.8 13 2153.9 1.0 105.4 14497 6.2 10.9 176.5 10 176816 75.7 78.8 104.2 191313 81.9 89.8 109.6 11 387.2.2 94.0 191700 82.0 89.9 109.6 8 36152 15.5 9.4 60.7 227852 97.5 99.3 101.8 9 5793 2.5.7 27.8 233645 100.0 100.0 100.0 14 1105.5 1.2 259.1 1105.5 1.2 259.1 11 387.2.4 214.8 1492.6 1.6 247.7 12 5309 2.3 4.8 211.7 6801 2.9 6.4 219.6 13 2153.9 1.7 186.6 8954 3.8 8.1 211.7 7 5930 2.5 2.6 102.6 14884 6.4 10.7 168.2 10 176816 75.7 75.1 99.2 191700 82.0 85.8 104.6 8 36152 15.5 13.2 85.5 227852 97.5 99.0 101.6 9 5793 2.5 1.0 38.8 233645 100.0 100.0 100.0 9 5793 2.5 3.2 128.1 5793 2.5 3.2 128.1 8 36152 15.5 17.6 113.6 41945 18.0 20.8 115.6 10 176816 75.7 74.7 98.8 218761 93.6 95.5 102.0 7 5930 2.5 2.5 97.4 224691 96.2 98.0 101.9 11 387.2.2 91.4 225078 96.3 98.1 101.9 13 2153.9.8 90.4 227231 97.3 99.0 101.8 14 1105.5.3 67.7 228336 97.7 99.3 101.6 12 5309 2.3.7 31.6 233645 100.0 100.0 100.0
54 2015 년소셜빅데이터기반보건복지이슈동향분석 5. 분석결과요약 메르스관련버즈는 2015년 5월 28일급속히증가하여 5월 30일감소하였다가 6월 1일이후메르스추가환자발생과사망자발생보도후, 급속히증가한것으로나타났다. 메르스에대한부정적감정 ( 불안 ) 의표현단어는 무시, 한심, 판단, 거부, 비난, 무능, 불구, 답답, 공포, 스트레스, 무책임, 비판, 실패, 괴담, 협박 키워드와강하게연결되어있는것으로나타나, 이는정부의초기대응미흡에대한국민의실망감과 SNS를통한메르스괴담의급속한전파로인한불안감이표출된것으로보인다. 메르스와관련하여긍정적인감정 ( 안심 ) 을나타내는온라인문서 ( 버즈 ) 는 22.3%, 부정적인감정 ( 불안 ) 은 71.2% 로나타나, 메르스에대한부정적감정이약 3.2배높은것으로나타났다. 메르스사태에서는온라인문서중트위터등 SNS를통해정보가많이유통된것으로나타났다. 메르스를키워드로추출한데이터중 SNS가차지하는비율이 92.8%(61만8471건 ) 로나타나, 담뱃값논란당시 SNS 비율 (52.9%) 보다높은비율로나타났다. 또한, SNS 게시물들은메르스에대한불안을심화시킨것으로나타났다. 블로그, 카페등을통해메르스정보를접한사람은안심등긍정적인마음이약 1.8배증가했지만, SNS 를통해메르스정보를접한사람은메르스에대해안심하는비율이 20% 가량감소한것으로나타났다 11). 온라인문서 ( 버즈 ) 에서 { 위생, 면역강화 } 가동시에언급되면메르스를긍정적으로생각할감정 ( 안심 ) 이증가하며, { 초기대응, 격리, 감염검사 } 가동시에언급되면메르스를부정적으로생각하는감정 ( 불안 ) 이증가하고, 11) 동아일보 (2015. 6. 11.) 기침환자는차분한데.. 건강한사람이더불안에떨어 http:// news.donga.com/3/all/20150611/71758969/1.
제 2 장소셜빅데이터분석기반메르스감정위험예측 55 { 전파, 열, 사망 } 이동시에언급되면메르스를부정적으로생각하는감정 ( 불안 ) 이증가하는것으로나타났다. 온라인상에 마스크, 외출자제, 초기대응, 격리, 감염검사, 전파, 의심증상, 열, 사망 이언급되면메르스를부정적으로생각하는감정 ( 불안 ) 이증가하는것으로나타났다. SNS상에서확산되는메르스관련온라인문서는메르스를부정적으로생각하는감정 ( 불안 ) 을증가시키는것으로나타났다. 메르스에긍정적인감정에가장영향력이높은경우는 호흡기증상 이있고 열 이없고, 의심증상이없는조합으로나타났으며, 부정적인감정에가장영향력이높은경우는 호흡기증상 이없고, 전파 가없고 의심증상 이있는조합으로나타났다.
참고문헌 << 송주영, 송태민 (2014). 소셜빅데이터를활용한북한관련위협인식요인예측. 국제문제연구, 가을. pp.209~243. Adrien Guille, Hakim Hacid, C. Favre, Djamel Abdlkader Zighed(2013). Information Diffusion in Online Social Networks: A Survey. Association for Computing Machinery, 42(2). pp.17~28 Alagaili, A.N., Briese, T., Mishra, N., Kapoor, V., Sameroff, S.C., de Wit, E., Munster V.J., Hensley, L.E., Zalmout, I.S., Kapoor, A., Epstein, J.H., Karesh, W.B., Daszak, P., Mohammed, O.B., Lipkin, W.I.(2014). Middle East Respiratory Syndrome Coronavirus Infection in Dromedary Camels in Saudi Arabia., mbio, 5(2); e000884~14. Assiri, A., McGeer, A., Peri, T.M., Price, C.S., Rabeeah A.A., Cummings, D.A., Alabdullatif, Z.N., Assad, M., Almulhim, A., Makhdoom, H., Madani, H., Alhakeem, R., Al-Tawfig, J.A., Cotten, M., Watson, S.J., Kellam, P., Zumla, A., Memish, Z.A.(2013). Hospital Outbreak of Middle East Respiratory Syndrome Coronavirus, The New England Journal of Medicine, 369(5), pp.407~416. Bermingham, A., Chand, M.A., Brown, C.S., Asrons, E., Tong, C., Langrish, C., Hoschler, K., Brown, K., Galiano, M., Myers, R., Pebody, R.G., Green, H.K., Boddington N.L., Gopal, R., Price, N., Newsholme, W., Drosten, C., Fouchier, R.A., Zambon, M.(2012). Severe Respiratory Illness Caused by a Novel Coronavirus, in a Patient Transferred to the United Kingdom form the Middle East, Euro Surveillance, 17(4), pp.1~5. Centers for Disease Control and Prevention(2015b). Middle East
58 2015 년소셜빅데이터기반보건복지이슈동향분석 Respiratory Syndrome(MERS): Symptoms & Complications. Http://www.cdc.gov/coronavirus/mers/about/symptoms. html. Centers for Disease Control and Prevention(2015a). People Who May Be at Increased Risk for MERS. Http://www.cdc.gov/coronavirus/mers/risk.html. Centers for Disease Control and Prevention(2015c). Middle East Respiratory Syndrome(MERS): Prevention & Treatment. Http://www.cdc.gov/coronavirus/mers/about/prevention.html Dinyakant Agrawal, Caren Budak, Amr El Abbadi(2011). Information diffusion in Social Networks: Observing and influencing Societal Interests. in Proceeding of International Conference on Very Large Data Bases. pp.1~5. European Centre for Disease Prevention and Control(2015a), Epidemiological Update: Middle East Respiratory Syndrome Coronavirus(MERS-CoV). emarkerter(2013). Social Networking Reaches Nearly One in Four Around the World: By 2014, the Ranking of Regions by Social Networkd Users will Reflect Regional Shares of the Global Population. 2013/06/18 [ 검색일 : 2015.06.04., http://emarketer. com/article/social-networking-reaches-nearly-one-four- Around-World/1009976] Groot, R.J., Baker, S.C., Baric, R.S., Brown, C.S., Drosten, C., Enjuances, L., Fouchier, R.A., Galiano, M., Gorbalenya, A.E., Memish, Z., Perlman, S., Poon, L.L., Snijer, E.J., Stephens, G.M., Woo, P.C., Zaki, A.M., Zambon, M., Ziebuhr, J.(2013). Middle East Respiratory Syndrome Coronavirus(MERS-CoV); Announcement of the Coronavirus Study Group, Journal of Virology, 87(14), pp.7790~779.
제 2 장소셜빅데이터분석기반메르스감정위험예측 59 Hemida, M.G., Perera, R.A., Wang, P., Alhammadi, M.A., Siu, L.Y., Li, M., Poon, L.L., Saif, L., Alnaeem, A., Peiris, M.(2013). Middle East Respiratory Syndrome(MERS) Coronavirus Seroprevalence in Domestic Livestock in Saudi Arabia, 2010 to 2013, Euro Surveillance, 18(50), pp.1~7. Hong, Ju-hyeon, Yun, Hye-jin(2014). The Diffusion of Rumor Via Twitter: The diffusion and the user interactivity in the KOREA U.S. FTA Case, Korean Association for Communication and Information Studies 66. pp.59~84. Hong, Ju-hyeon(2014). A Crisis of Confidence and the Media: Newspapaer and Broadcast 10, pp.15~20. Jong-Hwan Kong, Ik-Kun Kim, Myung-Mook Han (2014). Propagation Models for Structural Parameters in Online Social Networks, Journal of Internet Computing and Services 15(1) pp.125~134 Kim, Young Wook (2014). Risk Communication. Communicationbooks Liang Mao (2014). Modeling Triple-diffusions of Infectionus Disease, Information, and Preventive Behaviors through a Metropolitan Social Networks: ans Agent-based Simulation. Applied Geography. 50, pp.31~39. Mostafa Salehj, Payam Siyari, Matteo Magnani, Danilo Montesi(2015). Multidimensional Epidemic Thresholds in Diffusion Process over Interdependent Networks. Multiplex Networks: Structure, Dynamics and Application. 72. pp.59~67. Park, Min-Gyeong, Lee, Gun-Ho (2011). Analysis of Online Opinion Leader s Discourse Patterns: Regarding Opinion aobut Sejong City posted on Agora, the discussion borad of the Portal Daum. Korean Association for Communication and Information Studies, 48(1), pp.114~149.
60 2015 년소셜빅데이터기반보건복지이슈동향분석 Ryu, Hyeon Suk (2013). A Study on Risk Perception and Communication via Social Media. The Korea Institute of Public Administration. Research Report 25(3). Rogers Everett M. (1983). Diffusion of Innovations, Third Edition. The American Center Library. p.5. WHO(2013). Middle East Respiratory Syndrome Coronavirus Joint Kingdom of Saudi Arabia/WHO mission. Media Centre News Releases. 2013-06-10. WHO(2013). WHO Guidelines for Investigation of Cases of Human Infection with Middle East Respiratory Syndrome Coronavirus (MERS-CoV). WHO(2015). Recommends Continuation of Strong Disease Control Measures to bring MERS-CoV Outbreak in Republic of Korea to an end, Media Centre, 2015-06-23. Zaki, A.M., Boheemen, S.V., Bestebrober, T.M., Osterhaus, A.D., Fouchier R.A(2012). Isolation of a Novel Coronavirus from a Man with Pneumonia in Saudi Arabia, The New England Journal of Medicine, 367(19), pp.1814~1820.
제 3 장 소셜빅데이터를활용한담배위험예측 1. 서론 2. 연구방법 3. 연구결과 4. 결론 참고문헌
3 소셜빅데이터를활용한담배위험예측 12) << 1. 서론 우리나라 19세이상성인남성흡연율은 1998년 66.3% 에서 2005년 51.6%, 2013년 42.1% 로감소추세이지만 (Ministry of Health and Welfare, 2014), 2012년 15세이상남성흡연율은 OECD 평균 24.9% 보다높은 37.6% 로세계에서가장높은위치를차지하고있다 (OECD Health Data, 2014). 이와같이우리나라남성흡연율이 OECD 회원국중최고수준에달하는상황에서현정부는 2015년 1월 1일부터담뱃값을 2,000원인상하는등범정부차원의금연종합대책을발표하였다 (Ministry of Health and Welfare, 2014 Press release). 전세계적으로흡연으로인해매년 600만명이사망하고있으며 (WHO, 2008), 전체암사망의 30.5%, 호흡기질환사망의 19.8%, 심혈관질환사망의 11.4% 가흡연으로인해사망한것으로예측되었다 (Zheng 등, 2014). 우리나라는 1985년 24,338명, 2003년 46,207명, 2012년 58,155명이흡연으로인한사망자수로보고되었고 (Jung 등, 2013), 2012년기준흡연에의한건강보험진료비는 1조 8,466억원으로추정하고있다 (Ji 등, 2014). 담배연기는사람에게치명적인화학물질 7,000개이상을함유하고있으며, 이로인해폐암을비롯한각종암과심혈관질환, 호흡기질환, 만성 12) 본연구는 송태민 (KIHASA), 송주영 (PSU, 교신저자 ), 천미경 (KIHASA). 소셜빅데이터를활용한담배위험예측. 한국데이터정보과학회지. 2015, 제 26 권 5 호 에게재된논문임을밝힌다.
64 2015 년소셜빅데이터기반보건복지이슈동향분석 질환등다양한질병과관련있는것으로알려져있다 (Carter 등, 2015; CDC, 2010; Thun 등, 2013). 우리나라는 1995년국민건강증진법이제정됨에따라본격적으로담배판매, 광고, 금연구역확대등을추진하였고, 청소년보호법, 학교보건법등에서도청소년흡연과관련하여제도적으로규제하고있다. 또한 2005년 WHO 담배규제기본협약 (FCTC) 비준이후다양한흡연예방및담배규제정책을시행하고있다 (Kang과 Lee, 2011). 담배규제정책들은선진국과개발도상국의차이가있을지라도실제사례를통해효과가입증되었다. 미국은지속적으로담뱃값이인상됨에따라담배소비량이줄어들었고 (Campaign for Tobacco-Free Kids, 2013), 터키도 2008년에비해 2012년담뱃값이 42.1% 증가했을때흡연율은 14.6% 감소하였다 (CDC, 2014). 우리나라는 2004년 12월 2,000원에서 500원인상된후 10년동안추가적인인상이이루어지지않아흡연율의상승과하락을반복하여담뱃값인상에대한금연효과는크지않은것으로나타났다 (Ministry of Health and Welfare, 2014). 담뱃갑경고그림은 2000년 12월캐나다에서제일먼저시작되었고, 흡연자의 63% 는담뱃갑경고그림을통해적어도 1번이상의금연효과를경험했으며 (Hammond 등, 2004), 세계여러나라에서도법안으로정하여시행되고있다. 우리나라는담뱃갑경고그림을의무화하는국민건강증진법개정안이 사실적근거를바탕으로지나치게혐오감을주지않는다 는조건하에통과되어 2016년 12월부터는담뱃갑에경고그림이의무적으로표기된다. 최근 2015년 1월 1일담뱃값인상으로건강증진부담금비중을확대 (14.2% 18.7%) 하였으며, 추가확보된재원을금연성공률이가장높은약물 상담치료에지원하고학교, 군부대, 사업장등에대한금연지원을대폭확대하는한편, 금연광고와금연캠페인을연중실시하고보건소금
제 3 장소셜빅데이터를활용한담배위험예측 65 연클리닉, 금연상담전화, 온라인상담등 1:1 맞춤형금연상담서비스도대폭강화할계획이다 (Ministry of Health and Welfare, 2014 Press release). 한편모바일인터넷과소셜미디어의확산으로데이터양이증가하여데이터의생산, 유통소비체계에큰변화가일어나면서데이터가경제적자산이될수있는빅데이터시대를맞이하게되었다. 세계각국의기업들이빅데이터가공공과민간에미치는파급효과를전망함에따라 SNS를통해생산되는소셜빅데이터의활용과분석을통하여사회적문제의해결과정부의정책을효과적으로추진할수있을것으로예측하고있다. 또한 SNS의역할은기업에서마케팅측면뿐만아니라학자들간의학문연구에서도갈수록중요해지고있으며, 이러한공동의협력은집단창의성 (swarm creativity) 을통해혁신을가져올수있을뿐만아니라성공의가능성도더욱커지게하는결과를가져온다 (Chun, 2015). 우리나라는정부 3.0과창조경제의추진과실현을위하여다양한분야에빅데이터의효율적활용을적극적으로모색하고있다. 정부 3.0은공공부문의데이터공개를통해행정의효율성을높이고, 국민의참여를활성화시키며경제활성화등의파급효과를기대하고있으며, 정부의데이터공개정책은정보화시대에소통과공유, 협업전략이무엇보다중요하다는것을의미한다 (Hong, 2014). 소셜빅데이터의분석은사용자가남긴온라인문서의의미를분석하는것으로자연어처리기술인주제분석 (Text mining) 과감성분석기술인오피니언마이닝 (Opinion mining) 을실시한후, 네트워크분석 (Network analysis) 과통계분석 (Statistics analysis) 을실시해야한다. 기존에실시하던횡단적조사나종단적조사등을대상으로한연구는정해진변인들에대한개인과집단의관계를보는데에는유용하나, 사이버
66 2015 년소셜빅데이터기반보건복지이슈동향분석 상에서언급된개인별문서 ( 버즈 : buzz) 에논의된관련정보상호간의연관관계를밝히고원인을파악하기에는한계가있다 (Song 등, 2013). 소셜빅데이터의분석은훨씬방대한양의데이터를활용하여다양한참여자의생각과의견을확인할수있기때문에기존의오프라인조사와함께활용하면사회적문제의예측을보다정확히할수있다. 본연구는우리나라온라인뉴스사이트, 블로그, 카페, SNS, 게시판등에서수집한소셜빅데이터를바탕으로우리나라국민의담배에대한위험예측모형과연관규칙을파악한다. 2. 연구방법 가. 연구대상 본연구는국내의 SNS, 온라인뉴스사이트등인터넷을통해수집된소셜빅데이터를대상으로하였다. 본분석에서는 200개의온라인뉴스사이트, 10개의게시판, 1개의 SNS ( 트위터 ), 4개의블로그등총 217개의온라인채널을통해수집가능한텍스트기반의웹문서 ( 버즈 ) 를소셜빅데이터로정의하였다. 담배관련토픽 (topic) 13) 의수집은 2011~ 2015년의 1/4분기기간동안 ( 각연도의 1~3월, 총 15개월간 ) 해당채널에서요일, 주말, 휴일을고려하지않고매시간단위로수집하였으며, 수집된총 1,091,958건 (2011년: 94,412건, 2012년 : 229,322건, 2013년 : 286,067건, 2014년 : 181,713건, 2015년 : 300,444건 ) 의텍스트 (Text) 문서를본연구의분석에포함시켰다. 담배토픽은모든관련 13) 토픽은소셜분석및모니터링의 대상이되는주제어 를의미하며, 문서내에관련토픽이포함된문서를수집함.
제 3 장소셜빅데이터를활용한담배위험예측 67 문서를수집하기위해 담배 를사용하였으며, 토픽과같은의미로사용되는토픽유사어로는 흡연, 담뱃값, 담배피, 담배추천, 담배가격, 훈녀생정담배, 중딩담배, 고딩담배, 중고딩담배, 청소년담배 용어를사용하였다. 본연구를위한소셜빅데이터의수집 14) 은크롤러 (Crawler) 를사용하였고, 이후주제분석을통해분류된명사형어휘를유목화 (categorization) 하여분석요인으로설정하였다. 나. 연구도구 담배와관련하여수집된문서는주제분석 15) 의과정을거쳐다음과같 이정형화데이터로코드화하여사용하였다. 1) 담배관련감정 본연구의담배감정키워드는문서수집이후, 주제분석을통하여총 66개 ( 걱정, 고민, 고생, 고통, 깔끔, 다짐, 대단, 두려움, 만족, 믿음, 부담, 불가능, 불리, 불만, 불안, 불편함, 사랑, 스트레스, 실패, 어려움, 여유, 염려, 욕구, 위험, 유혹, 응원, 의지, 의지력, 자신감, 재미, 조심, 즐거움, 짜증, 창피, 최고, 최선, 충격, 치유, 편안, 포기, 피곤, 필요, 행복, 호기심, 파이팅, 활력, 후회, 희망, 힐링, 힘들다, 성공, 도움, 문제, 추천, 관심, 도전, 결심, 잘못, 혐오, 심각, 논란, 불편, 고발, 이해, 지적, 끔찍 ) 키워드로분류하였다. 본연구에서는 66개의담배감정키워드 ( 변수 ) 가가 14) 본연구를위한소셜빅데이터의수집및토픽분류는 ( 주 )SK 텔레콤스마트인사이트 에서수행함. 15) 주제분석에사용되는사전은 21 세기세종계획 과같은범용사전도있지만대부분분석의목적에맞게사용자가설계한사전을사용하게된다. 본연구의담배관련주제분석은 ( 주 )SK 텔레콤스마트인사이트 에서관련문서수집후원시자료 (raw data) 에서나타난상위 2,000 개의키워드들을대상으로유목화를하여사용자사전을구축하였음.
68 2015 년소셜빅데이터기반보건복지이슈동향분석 지는담배감정정도를판단하기위해요인분석을통하여 12개의요인 (44개변수 ) 으로축약을실시한후, 감성분석을실시하였다. 일반적으로감성분석은긍정과부정의감성어사전으로분석해야하나, 본연구에서는요인분석의결과로분류된주제어의의미를파악하여감성분석을실시하였다. 요인분석에서결정된 12개의요인에대한주제어의의미를파악하여 일반군, 잠재군, 위험군 으로감성분석을실시하였다. 따라서본연구에서일반군은 23개변수 ( 스트레스, 위험, 문제, 조심, 성공, 실패, 결심, 의지, 욕구, 논란, 지적, 부담, 불만, 염려, 걱정, 짜증, 창피, 불안, 끔찍, 충격, 불편, 파이팅, 응원 ), 위험군은 16개변수 ( 믿음, 사랑, 희망, 행복, 최선, 추천, 깔끔, 만족, 고민, 최고, 즐거움, 여유, 대단, 피곤, 힐링, 치유 ) 로분류하였다. 그리고일반군과위험군의감정을동일한횟수로표현한문서는잠재군으로분류하였다. 일반군은담배를혐오적으로생각하는감정이고, 위험군은담배를애호적으로생각하는감정이며, 잠재군은담배를보통으로생각하는감정을나타낸다. 2) 담배와관련된정책 담배와관련된정책의정의는주제분석과정을거쳐 담뱃값인상, FCTC ( 담배규제기본협약등 ), 금연관련법 ( 국민건강증진법, 학교보건법등 ), 흡연규제 ( 금연구역, 벌금부과등 ), 금연광고 ( 공익광고, 금연캠페인등 ), 금연사업 ( 금연상담전화, 금연클리닉등 ) 6개정책으로정책이있는경우는 1, 없는경우는 0 으로코드화하였다. 3) 담배와관련된질환 담배와관련된질환의정의는주제분석을거쳐 가래, 간암, 감기, 동
제 3 장소셜빅데이터를활용한담배위험예측 69 맥경화, 고혈압, 구토, 뇌혈관질환, 당뇨병, 대장암, 두통, 마비, 만성질환, 발기부전, 불면증, 사망, 식도암, 심혈관질환, 염증, 우울증, 위암, 유방암, 폐암, 치매, 후두암, 구강암 의 25개로질환이있는경우는 1, 없는경우는 0 으로코드화하였다. 4) 담배에대한금연도구 담배에대한금연도구의정의는주제분석과정을거쳐 금연껌 ( 금연껌, 니코틴로렌즈, 니코틴껌, 니코틴엘로젠즈, 사탕, 트로키 ), 금연약 ( 금연약, 약물, 니코엔, 니코스텝, 챔픽스, 니코피온, 니코그린, 니코레스, 부프로피온, 흡연욕구저하제, 챔픽스정, 바레니클린, 웰부트린 ), 전자담배 ( 전자담배, 스모키전자담배, 애니스틱, 라스트스틱 ), 금연패치 ( 니코레트, 니코틴패치, 패치, 금연패치, 니코틴보조제, 금연보조제, 보조제, 금연침 ), 보조제 ( 물담배, 파이프담배, 리엔파이프, 롤링토바코, 금연파이프, 금연초, 건향초 ) 의 5개금연도구가있는경우는 1, 없는경우는 0 으로코드화하였다. 5) 담배에대한치료 담배에대한치료의정의는주제분석과정을거쳐 금연클리닉, 금연 상담전화, 병원, 금연교실 의 4 개로해당치료가있는경우는 1, 없는경 우는 0 으로코드화하였다. 6) 담배와관련된폐해 담배와관련된폐해의정의는주제분석을거쳐 간접흡연, 알코올, 중
70 2015 년소셜빅데이터기반보건복지이슈동향분석 독, 기억력, 담배꽁초, 도박마약, 이혼, 정신건강, 폭력 의 9 개폐해로해 당폐해가있는경우는 1, 없는경우는 0 으로코드화하였다. 7) 담배에대한유해물질 담배에대한유해물질의정의는주제분석과정을거쳐 니코틴, 발암 물질, 유해물질, 일산화탄소, 타르, 화학물질, 노폐물 의 7 개유해물질로 해당유해물질이있는경우는 1, 없는경우는 0 으로코드화하였다. 8) 담배에대한장소 담배에대한장소의정의는주제분석과정을거쳐 PC 방, 가정, 금연 건물, 아파트, 공공장소, 흡연구역, 직장, 술집, 식당, 학교 의 10 개장소 로해당장소가있는경우는 1, 없는경우는 0 으로코드화하였다. 9) 담배에대한관련기관 담배에대한관련기관의정의는주제분석과정을거쳐 청와대, 국회, 보건복지부, 여성가족부, 기획재정부, 지방자치단체, 공공기관, 세계보건기구, 금연단체 ( 한국금연운동협의회, 한국건강관리협회, 한국보건의료연구원등 ), 담배회사 의 10개기관으로해당기관이있는경우는 1, 없는경우는 0 으로코드화하였다. 다. 분석방법 본연구에서우리나라담배의위험을설명하는가장효율적인예측모
제 3 장소셜빅데이터를활용한담배위험예측 71 형을구축하기위해특별한통계적가정이필요하지않은데이터마이닝의연관분석 (association analysis) 과의사결정나무 (decision tree) 방법을사용하였다. 소셜빅데이터분석에서연관분석은하나의온라인문서 (transaction) 에포함된둘이상의단어들에대한상호관련성을발견하는것으로동시에발생한어떤단어들의집합에대해조건과연관규칙을찾는분석방법이다. 전체문서에서연관규칙의평가측도는지지도 (support), 신뢰도 (confidence), 향상도 (lift) 로나타낼수있다. 지지도는자주발생하지않는규칙을제거하는데이용되며신뢰도는단어들의연관성정도를파악하는데이용할수있다. 향상도는연관규칙 (X Y) 에서단어 X가없을때보다있을때단어 Y가발생할비율을나타낸다. 연관분석과정은연구자가지정한최소지지도를만족시키는빈발항목집합 (frequent itemset) 을생성한후, 이들에대해최저신뢰도기준을마련하고향상도가 1인이상인것을규칙으로채택한다 (Park, 2010). 본연구의연관분석은선험적규칙 (apriori principle) 알고리즘을사용하였으며, 담배감정에사용된연관분석의측도는지지도 0.001, 신뢰도 0.01을기준으로시뮬레이션하였다. 본연구의의사결정나무형성을위한분석알고리즘은 CHAID (Chi-squared Automatic Interaction Detection) 를사용하였다. 정지규칙 (stopping rule) 으로관찰치가충분하여상위노드 ( 부모마디 ) 의최소케이스수는 100으로하위노드 ( 자식마디 ) 의최소케이스수는 50으로설정하였고, 나무깊이는 3수준으로정하였다. 본연구의기술분석, 다중응답분석, 의사결정나무분석은 SPSS v. 22.0을사용하였고, 연관분석과시각화는 R version 3.1.3을사용하였다.
72 2015 년소셜빅데이터기반보건복지이슈동향분석 3. 연구결과 가. 담배관련문서 ( 버즈 ) 현황 담배와관련된버즈는년도별로비슷하게 8시부터증가하여 11시이후감소하며, 다시 12시이후증가하여 17시이후감소하고, 20시이후증가하여 23시이후급감하는추세를보이고있는것으로나타났다. 담배와관련된버즈는평일에는수요일, 목요일, 화요일, 월요일, 금요일순으로높은추이를보이는반면, 주말에는감소하는것으로나타났다. 그림 3-1 담배관련시간별및요일별버즈현황 그림 3-2 와같이연도별담배에대해긍정적인감정 ( 위험 ) 변화는 2011년대비평균 1.8배씩증가하였으며, 위험감정의표현단어는추천, 사랑, 최고, 행복, 고민등의순으로집중된것으로나타났다. 담배에대해부정적인감정 ( 일반 ) 변화는 2011년대비평균 1.54배씩하였으며, 일반감정의표현단어는문제, 스트레스, 걱정, 위험, 부담등의순으로
제 3 장소셜빅데이터를활용한담배위험예측 73 집중된것으로나타났다. 그림 3-2 과같이연도별담배와관련한질병의문서는심혈관질환, 폐암, 사망, 감기, 고혈압, 당뇨병등의순으로집중된것으로나타났다. 담배와관련한정책의문서는담배값인상, 흡연규제, 금연관련법, 금연상ㅂ, 금연광고, FCTC 순으로언급된것으로나타났다. 담배와관련한금연도구의문서는전자담배, 금연패치, 금연약, 금연껌, 금연보조제순으로언급된것으로나타났다. 그림 3-2 와같이지역별담배에대한감정은위험은서울, 경기, 부산, 제주, 인천등의순으로높은것으로나타났고, 잠재는서울, 경기, 부산, 인천, 제주등의순으로높은것으로나타났다. 그림 3-2 연도별담배감정변화 2011 년 2012 년 2013 년 2014 년 2015 년
74 2015 년소셜빅데이터기반보건복지이슈동향분석 2011 년 2012 년 2013 년 2014 년 2015 년 < 표 3-1> 과같이담배에대한감정키워드의연관성예측에서위험감정의경우행복, 추천, 고민, 최고, 대단, 피곤, 깔끔, 여유의감정에위험감정이강하게연결되어있는것으로나타났으며, 일반감정의경우스트레스, 문제, 조심, 지적, 위험의감정에일반감정이강하게연결되어있는것으로나타났다. 표 3-1 담배감정키워드연관성예측규칙 지지도 신뢰도 향상도 { 행복, 추천, 고민, 최고, 대단, 피곤 }=>{ 깔끔 } 0.001110136 0.9722222 16.394312 { 고민, 즐거움, 대단, 피곤 }=>{ 여유 } 0.001416745 0.9852941 16.221423 { 행복, 추천, 깔끔고민, 최고, 피곤 }=>{ 대단 } 0.001110136 0.9905660 14.277767 { 행복, 추천, 깔끔, 고민, 피곤 }=>{ 대단 } 0.001120709 0.9724771 14.017037 위험 { 행복, 추천, 깔끔, 최고, 대단 }=>{ 고민 } 0.001152427 0.9909091 7.064914 { 행복, 추천, 깔끔, 대단, 피곤 }=>{ 고민 } 0.001120709 0.9906542 7.063097 { 추천, 깔끔, 최고, 대단, 피곤 }=>{ 고민 } 0.001120709 0.9906542 7.063097 { 행복, 추천, 깔끔, 최고, 대단, 피곤 }=>{ 고민 } 0.001110136 0.9905660 7.062469 { 행복, 깔끔, 최고, 대단, 피곤 }=>{ 고민 } 0.001131282 0.9816514 6.998909 { 행복, 깔끔, 대단, 피곤 }=>{ 고민 } 0.001163000 0.9734513 6.940445
제 3 장소셜빅데이터를활용한담배위험예측 75 일반 규칙 지지도 신뢰도 향상도 { 스트레스, 문제, 조심, 지적 }=>{ 위험 } 0.001163219 0.9080460 7.419833 { 실패, 결심, 욕구 }=>{ 성공 } 0.001413532 0.7804878 7.227547 { 스트레스, 실패, 결심 }=>{ 성공 } 0.001516602 0.7518248 6.962119 { 스트레스, 조심, 지적 }=>{ 위험 } 0.001214754 0.7894737 6.450954 { 스트레스, 위험, 조심, 지적 }=>{ 문제 } 0.001163219 0.9575758 3.553563 { 위험, 조심, 지적 }=>{ 문제 } 0.001641758 0.9330544 3.462564 { 스트레스, 위험, 지적 }=>{ 문제 } 0.002061400 0.8562691 3.177614 { 위험, 의지, 지적 }=>{ 문제 } 0.001119046 0.8491620 3.151240 { 위험, 지적, 걱정 }=>{ 문제 } 0.001523964 0.8448980 3.135416 { 성공, 지적, 걱정 }=>{ 문제 } 0.001096959 0.8370787 3.106398 그림 3-3 담배감정의연관규칙에대한병렬좌표시각화 위험 일반 < 표 3-2> 와같이담배와관련하여긍정적감정 ( 위험군 ) 을나타내는온라인문서 ( 버즈 ) 는 32.8%, 보통의감정 ( 잠재군 ) 을나타내는버즈는 8.6%, 부정의감정 ( 일반군 ) 은 58.6% 로나타났다. 담배와관련한정책은담배값인상 (50.0%), 흡연규제 (23.9%), 금연사업 (9.3%) 등의순으로나타났다. 담배와관련한도움 치료는병원 (71.7%), 금연클리닉 (25.6%), 금연교실 (1.8%), 금연상담전화 (0.9%) 의순으로나타났다. 담배와관련한폐해로는간접흡연 (48.6%), 담배꽁초 (16.2%), 알코올 (8.9%), 중독 (7.3%) 등의
76 2015 년소셜빅데이터기반보건복지이슈동향분석 순으로나타났다. 담배와관련한유해물질로는니코틴 (48.6%), 발암물질 (14.3%), 타르 (11.9%), 유해물질 (8.0%) 등의순으로나타났다. 담배와관련한채널로는 SNS(52.9%), 카폐 (24.6%), 블로그 (13.5%) 등의순으로나타났다. 담배와관련한금연도구로는전자담배 (50.0%), 금연보조제 (33.1%), 금연패치 (6.0%) 등의순으로나타났다. 담배와관련한장소로는공공장소 (19.9%), 식당 (15.5%), 학교 (15.4%) 등의순으로나타났다. 담배와관련한기관으로는청와대 (48.6%), 보건복지부 (11.9%), 국회 (8.9%) 등의순으로나타났다. < 표 3-3> 과같이담배와관련한연도별긍정적감정 ( 위험 ) 을나타내는버즈는청소년의경우 2011년 (30.9%), 2012 년 (29.2%), 2013년 (27.2%), 2014년 (26.8%), 2015년 (25.3%) 로나타났으며, 성인의경우 2011년 (39.9%), 2012년 (36.4%), 2013년 (34.0%), 2014년 (36.2%), 2015년 (29.1%) 로나타났다. 따라서 2015년담배값인상은청소년보다성인에게더많은영향을미친것으로나타났다. 표 3-2 담배관련버즈현황구분항목 N(%) 구분항목 N(%) 일반 110,401(58.6) 블로그 147,235(13.5) 감정정책도움 잠재 16,206( 8.6) 카폐 268,463(24.6) 위험 61,660(32.8) SNS 577,125(52.9) 채널계 188,267 게시판 53,243( 4.9) 담배값인상 58,267(50.0) 뉴스 45,892( 4.2) FCTC 454( 0.4) 계 1,091,958 금연관련법 13,528(11.6) 금연껌 4,260( 7.5) 흡연규제 27,828(23.9) 금연약 4,778( 8.4) 금연광고 5,626( 4.8) 전자담배 38,600(68.1) 도구금연사업 10,887( 9.3) 금연패치 5,200( 9.2) 계 116,590 금연보조제 3,819( 6.7) 금연클리닉 10,015(25.6) 계 56,657 금연상담전화 360( 0.9) PC방 3,932( 2.1) 병원 28,062(71.7) 가정 12,414( 6.7) 장소금연교실 694( 1.8) 금연건물 1,609( 0.9) 계 39,131 아파트 14,915( 8.1)
제 3 장소셜빅데이터를활용한담배위험예측 77 구분항목 N(%) 구분항목 N(%) 폐해 유해물질 간접흡연 88,855(48.6) 공공장소 34,775(18.9) 알코올 16,217( 8.9) 흡연구역 14,029( 7.6) 중독 13,333( 7.3) 직장 19,666(10.7) 기억력 12,396( 6.8) 술집 26,000(14.1) 담배꽁초 29,651(16.2) 식당 28,659(15.5) 도박마약 8,469( 4.6) 학교 28,314(15.4) 이혼 3,333( 1.8) 계 184,313 정신건강 3,907( 2.1) 청와대 32,311(48.6) 폭력 6,611( 3.6) 국회 5,803( 8.7) 계 182,772 보건복지부 7,894(11.9) 니코틴 18,496(48.6) 여성가족부 1,502( 2.3) 발암물질 5,651(14.3) 기획재정부 2,971( 4.5) 유해물질 3,142( 8.0) 기관 지방자치단체 4,963( 7.5) 일산화탄소 2,894( 7.3) 공공기관 4,021( 6.1) 타르 4,707(11.9) 세계보건기구 2,227( 3.4) 화학물질 1,875( 4.7) 금연단체 1,079( 1.6) 노폐물 2,745( 6.9) 담배회사 3,673( 5.5) 계 39,510 계 66,444 표 3-3 담배관련연도별감정변화 연도 2011 2012 2013 2014 2015 계 청소년성인전체위험잠재일반계위험잠재일반계위험잠재일반계 2,283 (30.9) 2,767 (29.2) 2,478 (27.9) 2,145 (26.8) 2,160 (25.3) 11,833 (28.0) 1,017 (13.8) 1,174 (12.4) 1,178 (13.3) 1,050 (13.1) 1,068 (12.5) 5,487 (13.0) 4,085 (55.3) 5,542 (58.4) 5,228 (58.8) 4,799 (60.0) 5,324 (62.3) 24,978 (59.1) 7,385 6,873 (39.9) 9,483 10,537 (36.4) 8,884 11,037 (34.0) 7,994 9,106 (36.2) 8,552 12,274 (29.1) 42,298 49,827 (34.1) 1,747 (10.2) 1,938 ( 6.7) 1,956 ( 6.0) 1,906 ( 7.6) 3,172 ( 7.5) 10,719 ( 7.3) 8,589 (49.9) 16,508 (57.0) 19,432 (59.9) 14,125 (56.2) 26,769 (63.4) 85,423 (58.5) 17,209 9,156 (37.2) 28,983 13,304 (34.6) 32,425 13,515 (32.7) 25,137 11,251 (34.0) 42,215 14,434 (28.4) 145,969 61,660 (32.8) 2,764 (11.2) 3,112 ( 8.1) 3,134 ( 7.6) 2,956 ( 8.9) 4,240 ( 8.4) 16,206 ( 8.6) 12,674 (51.5) 22,050 (57.3) 24,660 (59.7) 18,924 (57.1) 32,093 (63.2) 110,401 (58.6) 24,594 38,466 41,309 33,131 50,767 188.267 나. 담배위험관련연관성분석 < 표 3-4> 와같이정책요인에대한담배위험에연관성예측에서가장
78 2015 년소셜빅데이터기반보건복지이슈동향분석 신뢰도가높은연관규칙으로는 { 담배값인상, 금연관련법 } => { 일반 } 이며세변인의연관성은지지도 0.002, 신뢰도는 0.539, 향상도는 5.338로나타났다. 이는온라인문서에서담배값인상, 금연관련법이언급되면담배를부정적 ( 일반 ) 으로생각할확률이 53.9% 이며, 담배값인상, 금연관련법이언급되지않은문서보다담배에대한감정이일반일확률이 5.34배높아지는것을나타낸다. 특히, { 담배값인상 } => { 위험 } 두변인의연관성은지지도 0.002, 신뢰도는 0.04, 향상도는 0.72로나타나담배값인상은담배에대한긍정적 ( 위험 ) 감정에감소시키는것으로나타났다. 반면, { 담배값인상 } => { 잠재 } 두변인의연관성은지지도 0.001, 신뢰도는 0.02, 향상도는 1.49로나타나담배값인상은담배에대한보통 ( 잠재 ) 감정을증가시키는것으로나타났다. 표 3-4 정책요인에대한담배위험예측 규칙 지지도 신뢰도 향상도 { 담배값인상, 금연관련법 } => { 일반 } 0.001776625 0.53978854 5.3389590 { 담배값인상, 흡연규제 } => { 일반 } 0.001778457 0.49465104 4.8925115 { 금연사업 } => { 일반 } 0.004685162 0.46991825 4.6478836 { 금연관련법, 흡연규제 } => { 일반 } 0.001862709 0.46395985 4.5889500 { 금연관련법 } => { 일반 } 0.005130234 0.41410408 4.0958349 { 금연광고 } => { 일반 } 0.001716183 0.33309634 3.2946007 { 흡연규제 } => { 일반 } 0.007551572 0.29632025 2.9308545 { 담배값인상 } => { 일반 } 0.010004048 0.18748176 1.8543511 { 금연사업 } => { 위험 } 0.001788530 0.17938826 3.1768480 {} => { 일반 } 0.101103705 0.10110371 1.0000000 { 흡연규제 } => { 위험 } 0.001625520 0.06378468 1.1295846 {} => { 위험 } 0.056467373 0.05646737 1.0000000 { 담배값인상 } => { 위험 } 0.002182318 0.04089794 0.7242755 { 담배값인상 } => { 잠재 } 0.001182280 0.02215662 1.4929102 {} => { 잠재 } 0.014841230 0.01484123 1.0000000
제 3 장소셜빅데이터를활용한담배위험예측 79 다. 담배의위험에영향을미치는요인 < 표 3-5> 와같이금연과관련한모든정책요인은담배의위험에부적인영향을미치는것으로나타나, FCTC, 담배값인상, 금연관련법, 흡연규제, 금연광고, 금연사업과관련한정책이온라인상에많이언급될수록담배에대한긍정적감정 ( 위험 ) 은감소하는것으로나타났다. 금연과관련한도구요인의영향은금연약, 금연패치, 금연껌은부적인영향을미치는것으로나타나, 금연약, 금연패치, 금연껌과관련한금연도구가온라인상에많이언급될수록담배에대한긍정적감정 ( 위험 ) 은감소하는것으로나타났으나, 전자담배와금연보조제는정적인영향을미치는것으로나타나전자담배와금연보조제와관련한금연도구가많이언급될수록담배에대한긍정적감정 ( 위험 ) 은증가하는것으로나타났다. 표 3-5 담배의위험에영향을미치는정책및도구요인 1) 변수 위험 잠재 b S.E. OR P b S.E. OR P 담배값인상 -.854.024.426.000 -.207.031.813.000 FCTC -1.328.269.265.000 -.451.215.637.036 정책 금연관련법 -.845.037.430.000 -.153.044.858.001 흡연규제 -.742.027.476.000 -.191.036.826.000 금연광고 -.275.049.760.000.076.065 1.079.240 금연사업 -.242.028.785.000.410.035 1.507.000 금연껌 -.357.051.700.000.068.069 1.071.324 금연약 -1.556.060.211.000 -.176.058.839.003 도구 전자담배.206.019 1.229.000.155.032 1.167.000 금연패치 -1.091.051.336.000 -.414.065.661.000 금연보조제.374.060 1.454.000.688.081 1.990.000 주 : 1) 기본범주 : 일반, Standardized coefficients, Standard error, Adjusted odds ratio
80 2015 년소셜빅데이터기반보건복지이슈동향분석 라. 담배관련위험예측모형 본연구에서는담배관련위험을예측하기위하여담배와관련한정책 요인과금연도구요인에대해데이터마이닝분석을실시하였다. 담배관련 정책요인이담배의위험예측모형에미치는영향은 그림 3-4 와같다. 그림 3-4 정책요인의예측모형 나무구조의최상위에있는네모는루트노드로서, 예측변수 ( 독립변수 ) 가투입되지않은종속변수 ( 위험, 잠재, 일반 ) 의빈도를나타낸다. 루트노드에서담배의위험은 32.8%(61,660건 ), 잠재는 8.5%(16,206건 ), 일반은 58.6%(110,401건 ) 으로나타났다. 루트노드의하단의가장상위에위치하는요인은담배의위험예측에가장영향력이높은 ( 관련성이깊은 ) 정책요인으로 담배값인상요인 의영향력이가장큰것으로나타났다. 담배값인상요인 이있을경우담배의위험은이전의 32.8% 에서 16.3% 로
제 3 장소셜빅데이터를활용한담배위험예측 81 크게감소한반면, 잠재는이전의 8.5% 에서 8.8%, 일반은이전의 58.6% 에서 74.8% 로증가하였다. 담배값인상요인 이있고 금연관련법요인 이있는경우담배의위험은이전의 16.3% 에서 6.0%, 잠재는이전의 8.8% 에서 8.0% 로감소한반면, 일반은이전의 74.8% 에서 88.0% 로증가하였다. < 표 3-6> 의담배와관련한정책요인의위험예측모형에대한이익도표와같이담배의위험에가장영향력이높은경우는 담배값인상요인 이없고 흡연규제요인 이없으며 금연관련법요인 이없는조합으로나타났다. 즉, 8번노드의지수 (index) 가 108.1% 로뿌리마디와비교했을때 8 번노드의조건을가진집단이담배에대한위험이높을확률이 1.08배로나타났다. 담배의잠재에가장영향력이높은경우는 담배값인상요인 이있고 금연관련법요인 이없으며 금연사업요인 이있는조합으로나타났다. 즉, 14번노드의지수 (index) 가 168.0% 로뿌리마디와비교했을때 14번노드의조건을가진집단이담배에대한보통의감정 ( 잠재 ) 이높을확률이 1.68배로나타났다. 담배의일반에가장영향력이높은경우는 담배값인상요인 이있고 금연관련법요인 이있으며 FCTC요인 이있는조합으로나타났다. 즉, 12번노드의지수 (index) 가 163.0% 로뿌리마디와비교했을때 12번노드의조건을가진집단이담배에대한부정의감정 ( 일반 ) 이높을확률이 1.63배로나타났다. 표 3-6 정책요인의예측모형에대한이익도표 구분 위험 노드 이익지수누적지수노드 (n) 노드 (%) 이익 (%) 지수 (%) 노드 (n) 노드 (%) 이익 (%) 지수 (%) 8 161765 85.9 92.9 108.1 161765 85.9 92.9 108.1 13 11699 6.2 3.5 56.2 173464 92.1 96.3 104.6 9 8518 4.5 2.5 54.7 181982 96.7 98.8 102.2 7 3312 1.8.8 45.5 185294 98.4 99.6 101.2 14 643.3.1 43.7 185937 98.8 99.8 101.0 11 2143 1.1.2 19.2 188080 99.9 100.0 100.1 10 74.0.0 16.5 188154 99.9 100.0 100.1 12 113.1.0 2.7 188267 100.0 100.0 100.0
82 2015 년소셜빅데이터기반보건복지이슈동향분석 구분 잠재 일반 노드 이익지수누적지수노드 (n) 노드 (%) 이익 (%) 지수 (%) 노드 (n) 노드 (%) 이익 (%) 지수 (%) 14 643.3.6 168.0 643.3.6 168.0 10 74.0.0 125.6 717.4.6 163.6 7 3312 1.8 2.1 121.0 4029 2.1 2.8 128.6 9 8518 4.5 4.6 102.4 12547 6.7 7.4 110.8 13 11699 6.2 6.3 101.1 24246 12.9 13.7 106.1 8 161765 85.9 85.2 99.2 186011 98.8 98.9 100.1 11 2143 1.1 1.1 95.4 188154 99.9 100.0 100.0 12 113.1.0 41.1 188267 100.0 100.0 100.0 12 113.1.1 163.0 113.1.1 163.0 11 2143 1.1 1.7 145.8 2256 1.2 1.8 146.6 10 74.0.1 142.9 2330 1.2 1.8 146.5 7 3312 1.8 2.2 127.3 5642 3.0 4.1 135.3 9 8518 4.5 5.7 125.0 14160 7.5 9.7 129.1 13 11699 6.2 7.7 124.3 25859 13.7 17.4 126.9 14 643.3.4 121.5 26502 14.1 17.8 126.8 8 161765 85.9 82.2 95.6 188267 100.0 100.0 100.0 담배의위험예측에가장영향력이높은질병요인으로 폐암 의영향력이가장큰것으로나타났다. 폐암 이있을경우담배의위험은이전의 32.8% 에서 14.6% 로크게감소한반면, 잠재는이전의 8.6% 에서 12.3%, 일반은이전의 58.6% 에서 73.1% 로증가하였다. 폐암 이있고 후두암 이있는경우담배의위험은이전의 14.6% 에서 7.6%, 잠재는이전의 12.3% 에서 6.5% 로감소한반면, 일반은이전의 73.1% 에서 85.8% 로증가하였다. < 표 3-7> 의담배와관련한질병요인의위험예측모형에대한이익도표와같이담배의위험에가장영향력이높은경우는 폐암 이없고 심혈관질환 이없으며 고혈압 이없는조합으로나타났다. 즉, 11번노드의지수 (index) 가 104.6% 로뿌리마디와비교했을때 11번노드의조건을가진집단이담배에대한위험이높을확률이 1.05배로나타났다. 담배의잠재에가장영향력이높은경우는 폐암 이없고 심혈관질환 이있으며 간암 이있는조합으로나타났다. 즉, 14번노드의지수가 485.7% 로뿌리마디와비교했을때 14번노드의조건을가진집단이담
제 3 장소셜빅데이터를활용한담배위험예측 83 배에대한부정의감정 ( 일반 ) 이높을확률이 4.86배로나타났다. 담배의일반에가장영향력이높은경우는 폐암 이있고 후두암 이있으며 심혈관질환 이있는조합으로나타났다. 즉, 8번노드의지수가 155.0% 로뿌리마디와비교했을때 8번노드의조건을가진집단이담배에대한부정의감정 ( 일반 ) 이높을확률이 1.55배로나타났다. 그림 3-5 질병요인의예측모형 표 3-7 질병요인의예측모형에대한이익도표 구분 위험 노드 이익지수누적지수노드 (n) 노드 (%) 이익 (%) 지수 (%) 노드 (n) 노드 (%) 이익 (%) 지수 (%) 11 168916 89.7 93.9 104.6 168916 89.7 93.9 104.6 12 1741.9.8 89.4 170657 90.6 94.7 104.5 13 8694 4.6 3.2 68.8 179351 95.3 97.9 102.8 10 6256 3.3 1.7 51.5 185607 98.6 99.6 101.0 14 177.1.0 34.5 185784 98.7 99.6 101.0 7 502.3.1 31.6 186286 98.9 99.7 100.8 9 1607.9.2 29.3 187893 99.8 100.0 100.2 8 374.2.0 12.2 188267 100.0 100.0 100.0
84 2015 년소셜빅데이터기반보건복지이슈동향분석 구분 잠재 일반 노드 이익지수누적지수노드 (n) 노드 (%) 이익 (%) 지수 (%) 노드 (n) 노드 (%) 이익 (%) 지수 (%) 14 177.1.5 485.7 177.1.5 485.7 9 1607.9 1.7 200.2 1784.9 2.2 228.6 12 1741.9 1.8 190.2 3525 1.9 3.9 209.6 13 8694 4.6 6.7 144.7 12219 6.5 10.6 163.4 10 6256 3.3 4.6 137.2 18475 9.8 15.2 154.6 11 168916 89.7 84.5 94.2 187391 99.5 99.6 100.1 7 502.3.2 87.9 187893 99.8 99.9 100.1 8 374.2.1 59.0 188267 100.0 100.0 100.0 8 374.2.3 155.0 374.2.3 155.0 7 502.3.4 140.0 876.5.7 146.4 9 1607.9 1.1 124.8 2483 1.3 1.7 132.4 10 6256 3.3 4.0 121.6 8739 4.6 5.8 124.7 13 8694 4.6 5.1 110.8 17433 9.3 10.9 117.8 11 168916 89.7 88.2 98.3 186349 99.0 99.1 100.1 12 1741.9.9 92.7 188090 99.9 99.9 100.0 14 177.1.1 80.0 188267 100.0 100.0 100.0 4. 결론 본연구는국내의온라인뉴스사이트, 블로그, 카페, SNS, 게시판등인터넷을통해수집된소셜빅데이터를주제분석과감성분석기술로분류하고데이터마이닝의연관성분석과의사결정나무분석방법을적용하여분석함으로써우리나라국민의담배에대한위험요인을예측하고자하였다. 본연구의주요분석결과는다음과같다. 첫째, 담배관련버즈는매일 8시부터증가하여 11시이후감소하며, 20시이후증가하여 23시이후급감하고, 요일별로수요일, 목요일, 화요일, 월요일, 금요일순으로높은추이를보이는반면, 주말에는감소하는것으로나타났다. 둘째, 담뱃값인상이후위험군은 5.6% 감소하고, 일반군은 6.1% 증가한것으로나타났다. 셋째, 버즈에서담뱃값인상, 금연관련법이동시에언급되면일반군이될확률이증가하며, 담뱃값인상만언급되어도위험군을감소시키는것으로나타났다. 넷째, FCTC, 담뱃값인상, 금연관련법, 흡연규
제 3 장소셜빅데이터를활용한담배위험예측 85 제, 금연광고, 금연사업과관련된정책이온라인상에많이언급될수록위험군이감소하는것으로나타났다. 금연약, 금연패치, 금연껌과같은도구가온라인상에많이언급될수록위험군은감소하는것으로나타났으나, 전자담배와보조제는위험군을증가시키는것으로나타났다. 다섯째, 담배위험예측모형에서온라인상에 담뱃값인상 이언급될경우일반군이 58.6% 에서 74.8% 로증가하며, 폐암 이언급될경우 73.1% 로증가한것으로나타났다. 끝으로금연정책의효과에대한대국민조사와더불어소셜미디어에서수집된빅데이터의활용과분석을병행할경우, 정부의금연정책에대한예측및평가의신뢰성이더욱제고될것으로예상되며, 또한국민들이금연에적극적으로동참할수있도록소셜빅데이터분석을통하여담배를애호적으로생각하는위험군을감소시킬수있는 SNS 홍보가강화되어야할것이다.
참고문헌 << Campaign for Tobacco-Free Kids. (2013). Increasing the Federal Tobacco Tax Reduces Tobacco Use, Washington DC. Carter, B. D., Abnet, C. C., Feskanich, D., Freedman, N. D., Hartge, P., Lewis, C. E., Ockene, J. K., Prentice, R. L., Speizer, F. E., Thun, M. J. and Jacobs, E. J. (2015). Smoking and mmrtality : Beyond Established Causes. N Engl J Med. 372, 631-640. Center for Disease Control and Prevention. (2010). How Tobacco Smoke Cause Disease: the Biology and Behavioral Basis for Smoking Attributable Disease: a Report of the Surgeon General. GA: US Department of Health and Human Services, Atlanta. Centers for Disease Control and Prevention. (2014). Cigarette Prices and Smoking Prevalence after a Tobacco Tax Increase-Turkey, 2008 and 2012. MMWR Morb Mortal Wkly Rep. 63, 457-461. Chun, H. (2015). The Comparison of Coauthor Networks of Two Statistical Journals of the Korean Statistical Society Using Social Network Analysis. Journal of the Korean Data & Information Science Society 26, 335-346. Hammond, D., Fong, G. T., McDonald, P. W., Brown, K. S. and Cameron, R. (2004). Graphic Canadian Cigarette Warning Labels and Adverse Outcomes. American Journal of Public Health, 94, 1442~1445. Hong, Y. (2014). A Study on the Invigorating Strategies for Open Government Data. Journal of the Korean Data & Information Science Society, 25, 769~777. Ji, S., Jung, K., Jeon, C., Kim, H., Yun, Y. and Kim, I. (2014). Smoking Attributable Risk and Medical Care Cost in 2012 in Korea.
88 2015 년소셜빅데이터기반보건복지이슈동향분석 Journal of Health Informatics and Statistics, 39, 25~41. Jung, K., Yun, Y., Baek, S., Jee, S. and Kim, I. (2013). Smoking-attributable Mortality Among Korean Adults, 2012. Journal of Health Informatics and Statistics, 38, 36~48. Kang, E. and Lee, J. (2011) Factor Related to Willingness-to-quit Smoking Cigarette Price Among Korean Adults. Korean Journal of Health Education and Promotion, 28, 125~137. Ministry of Health and Welfare. (2014). Korea Health Statistics 2013: Korea National Health and Nutrition Examination Survey Ⅵ, Ministry of Health and Welfare. Korea. Ministry of Health and Welfare. (2014) Press Release. Governmentwide, No smoking comprehensive plan Retrieved September 11, 2014. Organization for Economic Cooperation and Development. (2014). Health Data, 2014 Paris, OECD. Park, H. C. (2010). Standardization for Basic Association Measures in Association Rule Mining. Journal of the Korean Data & Information Science Society, 21, 891~899. Song, T. M., Song, J., An, J. Y. and Jin, D. (2013). Multivariate Analysis of Factors for Search on Suicide Using Social Big Data. Korean Journal of Health Education and Promotion, 30,59~73. Thun, M. J., Carter, B. D., Feskanich, D., Freedman, N. D., Prentice, R., Lopez, A. D., Hartge, P. and Gapstur, S. M. (2013). 50-year Trends in Smoking-related Mortality in the United States. New England Journal of Medicine, 368, 351 364. World Health Organization. (2008). Report on the Global Tobacco Epidemic The MPOWER Package, World Health Organization, Geneva.
제 3 장소셜빅데이터를활용한담배위험예측 89 Zheng, W., McLerran, D. F., Rolland, B. A., Fu, Z., Boffetta, P., He, J., Gupta, P. C., Ramadas, K., Tsugane, S., Irie, F., Tamakoshi, A., Gao, Y. T., Koh, W. P., Shu, X. O., Ozasa, K., Nishino, Y., Tsuji, I., Tanaka, H., Chen, C. J., Yuan, J. M., Ahn, Y. O., Yoo, K. Y., Ahsan, H., Pan, W. H., Qiao, Y. L., Gu, D., Pednekar, M. S., Sauvaget, C., Sawada, N., Sairenchi, T., Yang, G., Wang, R., Xiang, Y. B., Ohishi, W., Kakizaki, M., Watanabe, T., Oze, I., You, S. L., Sugawara, Y., Butler, L. M., Kim, D. H., Park, S. K., Parvez, F., Chuang, S. Y., Fan, J. H., Shen, C. Y., Chen, Y., Grant, E. J., Lee, J. E., Sinha, R., Matsuo, K., Thornquist, M., Inoue, M., Feng, Z., Kang, D. and Potter, J. D. (2014). Burden of Total and Cause-specific Mortality Related to Tobacco Smoking Among Adults Aged 45 Years in Asia: a Pooled Analysis of 21 Cohorts. PLoS Med, 11, e1001631.
제 4 장 소셜빅데이터를활용한통일인식동향분석및예측 1. 서론 2. 연구방법 3. 연구결과 4. 결론 참고문헌
4 소셜빅데이터를활용한통일인식동향분석및예측 16) << 1. 서론 현정부는 2013년출범이후튼튼한안보를바탕으로남북한신뢰를형성함으로써남북관계를발전시키고한반도에평화를정착시키며통일기반을구축하려는한반도신뢰프로세스 ( 통일교육원, 2013: p.3) 를통한남북관계정상화를주요국정과제로설정한데이어, 2014년신년기자회견에서박근혜대통령이발언한 통일은대박이다 라는한마디로평화통일의기반구축에적극적으로나설것임을선언하였다. 과거통일논의는통일비용과대북정책을중심으로이루어지면서통일의부정적측면이부각되었으나, 통일대박론은편익중심의통일논의를선언한것으로 ( 통일연구원, 2014: p.7), 통일이되면천문학적인통일비용과사회적혼란이야기될것이라는부정적인식을극복하고통일을기회와희망으로보는긍정적통일담론을확산시키기위한것이다. 통일대박론은통일논의의위축에서벗어나통일문제에대한국민적합의를이루는계기가되었다는긍정적주장 ( 김창수, 2014: p.120.) 과함께현정부는통일대박론을시작으로대통령직속으로통일준비위원회 17) 를출범하여통일준비에박차를가하게되었다. 한반도통일은남북한의문제이자동북아주변 16) 본연구의일부내용은 The 11th International Conference on Multimedia Information Technology and Applications (MITA 2015). Predicting Koreans Perceptions About Reunification Using Social Big Data. Tae Min Song, Juyoung Song( 교신저자 ), Dal Lae Jin 와 송태민 (2015). 소셜빅데이터를활용한통일인식동향분석및예측. 북한경제리뷰. KDI 에발표된논문임을밝힌다. 17) 대통령을위원장으로하여총 50 명의위원으로구성된통일준비위원회출범 ( 위원장, 민간위원 30 명, 국회의원 2 명, 정부위원 11 명, 국책연구기관장 6 명으로구성 )
94 2015 년소셜빅데이터기반보건복지이슈동향분석 국의미래를좌우할국제적사안으로 ( 김규륜, 2013), 한반도평화체제와본격적인통일과정에서국제사회의지지는필수불가결한요소이며 ( 차문석, 2013) 국내차원에서는통일에대한국민적공감대형성과통일을맞이할수있는역량구축이필요하다. 따라서통일을위해서국제차원의한반도통일에대한국제적공감대형성과미 중 일 러주변 4국의협조와 ( 이규창, 2014) 남북간의신뢰구축이필요할것이다. 평화로운통일한국을실현하기위해서는주변국들의반응과함께우리국민들의통일에대한인식과태도를분석하는것이필요하다. 통일연구원은 2012년 7월 19세이상성인남녀 1,000명대상의전화조사결과 63.1% 가통일의필요성에공감한다고응답하였다 ( 김규륜 김형기, 2012: p.14). 서울대통일평화연구원은 2007년부터매년 7월부터 8월사이정기적으로전국의성인 1,200명을대상으로면대면설문조사를실시하여통일이필요하다는인식은 2014년 55.8% 로나타났다. 아산정책연구원은 2014년 3월만 19세이상성인남녀 1,000명을대상으로통일인식여론조사를실시한결과 80.5% 가통일이필요하다고보고있다 18). 이와같이그동안우리사회는대북정책의주요한기초자료로사용하기위하여통일 북한관련연구소나대학과정부산하기관등에서일반국민들을대상으로통일의식조사를정기적으로시행해왔다 ( 강동완 박정란, 2014:p 2.). 한편, 모바일인터넷과소셜미디어의확산으로데이터량이증가하여데이터의생산, 유통소비체계에큰변화가일어나면서데이터가경제적자산이될수있는빅데이터시대가도래되었다. 많은국가에서는빅데이터가공공과민간에미치는파급효과를전망함에따라빅데이터의활용은정부의정책을효과적으로추진하기위한새로운성장동력이될것으로예측하고있다 ( 김정선외, 2014). 세계각국의정부와기업들은 SNS 18) 아산정책연구원 2014 년 4 월 8 일보도자료.
제 4 장소셜빅데이터를활용한통일인식동향분석및예측 95 를통해생산되는소셜빅데이터의활용과분석을통하여사회적문제의해결은물론새로운경제적효과와일자리창출을위하여적극적으로노력하고있으며, 우리나라는정부 3.0과창조경제의추진과실현을위하여다양한분야에빅데이터의효율적활용을적극적으로모색하고있다. 소셜빅데이터의분석은사용자가남긴문서의의미를분석하는것으로자연어처리기술인주제분석 (text mining) 과감성분석기술인오피니언마이닝 (opinion mining) 을실시한후, 네트워크분석 (network analysis) 과통계분석 (statistical analysis) 을실시해야한다. 우리국민의통일에대한다양한인식을살펴보기위하여그동안실시하던설문조사는정해진변인에대한개인과집단의관계를보는데는유용하나, 사이버상에언급된개인별담론 (buzz) 가사회적현상들과얼마나어떻게연관되어있는지밝히고원인을파악하는데는한계가있다 ( 송주영 송태민, 2014). 이에반해소셜빅데이터의분석은활씬방대한량의데이터를활용하여다양한참여자의생각과의견을확인할수있기때문에기존의오프라인조사와함께활용하면통일인식의예측을보다정확하게할수있다. 본연구는우리나라온라인뉴스사이트, 블로그, 카페, SNS, 게시판등에서수집한소셜빅데이터를바탕으로우리나라국민의통일의인식에대한동향을분석하고통일인식의예측모형과연관규칙을파악한다. 2. 연구방법 가. 연구대상 본연구는국내의온라인뉴스사이트, 블로그, 카페, 소셜네트워크서 비스, 게시판등인터넷을통해수집된소셜빅데이터를대상으로하였 다. 본분석에서는 160 개의온라인뉴스사이트, 4 개의블로그 ( 네이버, 네
96 2015 년소셜빅데이터기반보건복지이슈동향분석 이트, 다음, 티스토리 ), 2개의카페 ( 네이버, 다음 ), 1개의 SNS( 트위터 ), 9 개의게시판 ( 네이버지식인, 네이트지식, 네이트톡, 다음지식인, 다음아고라, SLR클럽등 ) 등총 176개의온라인채널을통해수집가능한텍스트기반의온라인문서 ( 버즈 ) 를소셜빅데이터로정의하였다. 통일관련토픽 (topic) 19) 의수집은 2011년 ~ 2015년의매년 1/4분기 (1월 3월 ) 기간동안 ( 총 15개월 ) 20) 해당채널에서요일, 주말, 휴일을고려하지않고매시간단위로수집하였으며, 수집된총 411,135건 (2011년: 10,211건, 2012년 : 53,884건, 2013년 : 83,268건, 2014년 : 166,952건, 2015년 : 96,820건 ) 의텍스트 (Text) 문서 21) 를본연구의분석에포함시켰다. 통일토픽은모든관련문서를수집하기위해 통일 을사용하였으며, 토픽과같은의미로사용되는토픽유사어로는 남북통일, 한반도통일 용어를사용하였다. 그리고불용어는 통일신라, 통일교등 을사용하였다. 본연구를위한소셜빅데이터의수집 22) 은크롤러 (Crawler) 를사용하였고, 이후주제분석을통해분류된명사형어휘를유목화 (categorization) 하여분석요인으로설정하였다. 나. 연구도구 통일과관련하여수집된문서는주제분석 23) 의과정을거쳐다음과같 19) 토픽은소셜분석및모니터링의 대상이되는주제어 를의미하며, 문서내에관련토픽이포함된문서를수집함. 20) 본연구의연구대상은 2014 년 1 월 2 일통일대박발언이후, 통일담론이확산됨에따라연도별통일인식비교를위해 1/4 분기를분석시기로결정함. 21) 수집된문서는 SNS(82.3%, 338,501 건 ), 뉴스 (6.0%, 24,693 건 ), 블로그 (5.4%, 22,220 건 ), 카폐 (4.8%, 19,785 건 ), 게시판 (1.4%, 5,939 건 ) 의순으로나타남. 22) 본연구를위한소셜빅데이터의수집및토픽분류는 ( 주 )SK 텔레콤스마트인사이트 에서수행함. 23) 주제분석에사용되는사전은 21 세기세종계획 과같은범용사전도있지만대부분분석의목적에맞게사용자가설계한사전을사용하게된다. 본연구의통일관련주제분석
제 4 장소셜빅데이터를활용한통일인식동향분석및예측 97 이정형화데이터로코드화하여사용하였다. 1) 통일관련감정 본연구의통일감정키워드는문서수집이후, 주제분석을통하여총 56개 ( 대박, 문제, 평화, 필요, 통일대박, 애국심, 중요, 노력, 반대, 쪽박, 관심, 희망, 신뢰, 우려, 불가능, 잘못, 사랑, 성공, 부정, 최고, 재앙, 위협, 행복, 공감, 빨갱이, 평화적, 천박, 위험, 염원, 포기, 비난, 고통, 강력, 걱정, 갈등, 분열, 혼란, 위대, 환영, 경박, 압박, 비아냥, 조롱, 든든, 불신, 환장, 친절, 한심, 다행, 응원, 긴장, 아픔, 천박한, 소중, 부담, 충격 ) 키워드로분류하였다. 본연구에서는 56개의통일감정키워드 ( 변수 ) 가가지는통일인식의정도를판단하기위해 2차요인분석을통하여 14 개의요인 (38개변수 ) 으로축약을실시한후, 감성분석을실시하였다. 요인분석에서결정된 2개의요인에대한주제어의의미를파악하여 찬성, 보통, 반대 로감성분석을실시하였다. 일반적으로감성분석은긍정과부정의감성어사전으로분석해야하나, 본연구에서는요인분석의결과로분류된주제어의의미를파악하여감성분석을실시하였다. 따라서본연구에서찬성 (13개: 관심, 필요, 중요, 노력, 신뢰, 평화 ( 평화적 ), 든든, 다행, 공감, 행복, 사랑, 위대, 대박 ), 반대 (18개: 쪽박, 천박, 경박, 빨갱이, 환장, 친절, 한심, 문제, 위협, 압박, 포기, 재앙, 혼란, 분열, 갈등, 아픔, 고통, 불신 ) 로분류하였다. 그리고찬성과반대의감정을동일한횟수로표현한문서는보통의감정으로분류하였다. 은 SKT 에서관련문서수집후원시자료 (raw data) 에서나타난상위 2,000 개의키워드들을대상으로유목화를하여사용자사전을구축하였다.
98 2015 년소셜빅데이터기반보건복지이슈동향분석 2) 통일에대한정책 통일에대한정책의정의는주제분석의과정을거쳐 진보, 보수, 공산주의, 사회주의, 대북정책 ( 대북정책, 정책, 통일정책 ), 창조경제 ( 창조경제, 박근혜정권 ), 민주주의 ( 민주정부, 민주주의 ), 햇볕정책 의 8개정책으로정책이있는경우는 1, 없는경우는 0 으로코드화하였다. 3) 통일에대한안보 통일에대한안보의정의는주제분석과정을거쳐 핵무기 ( 미사일, 핵무기, 도발, 전쟁 ), 정상회담 ( 회담, 정상회담, 비핵화 ), 휴전선 ( 휴전선, DMZ, 판문점 ), 남북공동선언 (104선언, 남북공동선언 ), 간첩 ( 고정간첩, 간첩 ) 의 5개안보로안보가있는경우는 1, 없는경우는 0 으로코드화하였다. 4) 통일에대한이슈 통일에대한이슈의정의는주제분석을거쳐 천안함 ( 연평도, 천암함 ), 민영화 ( 민영화, 특검 ), 이산가족상봉 ( 이산가족상봉, 이산가족 ), 선거 ( 대선, 부정선거, 지방선거, 선거 ), 통일대박 ( 통일대박론, 대박, 대박론 ) 의 5 개이슈로이슈가있는경우는 1, 없는경우는 0 으로코드화하였다. 5) 통일에대한주변국가 통일에대한주변국가의정의는주제분석과정을거쳐 중국, 독일 ( 독 일, 동독, 서독 ), 일본, 미국, 러시아 ( 소련, 러시아 ), 유럽 ( 유럽, 영국, 스위
제 4 장소셜빅데이터를활용한통일인식동향분석및예측 99 스, 네덜란드 ) 의 6 개로해당국가가있는경우는 1, 없는경우는 0 으 로코드화하였다. 6) 통일에대한관련기관 통일에대한관련기관의정의는요인분석과주제분석의과정을거쳐 범민련 ( 범청학련, 범민련, 조국통일범민족연합, 한총련 ), 시민단체 ( 실천연대, 시민단체, 전교조 ), 정부 ( 외교부, 국방부, 통일부, 정부, 법무부, 국가보훈처, 해수부 ), 청와대 ( 청와대, 박근혜정부 ), 국정원, 통일준비위원회 ( 통일준비위원회, 통일준비위 ), 조국통일평화위원회, 자유통일포럼, 국회 ( 국회, 외교통일위원회 ) 의 9개관련기관으로해당관련기관이있는경우는 1, 없는경우는 0 으로코드화하였다. 7) 통일에대한정당 통일에대한정당의정의는주제분석의과정을거쳐 새정치민주연합 ( 민주당, 새정치, 새천년민주, 새정치민주연합 ), 새누리당 ( 새누리, 보수당, 새누리당 ), 통합진보당 ( 통진당, 통합진보당 ), 자유선진당, 노동당 의 5개정당으로해당정당이있는경우는 1, 없는경우는 0 으로코드화하였다. 8) 통일에대한통일방식 통일에대한통일방식의정의는주제분석의과정을거쳐 흡수통일 ( 흡 수, 흡수통일 ), 자유통일 ( 자유통일, 자유북진통일, 북진통일 ), 평화통일, 선진통일, 공존통일 의 5 개통일방식으로해당통일방식이있는경우는
100 2015 년소셜빅데이터기반보건복지이슈동향분석 1, 없는경우는 0 으로코드화하였다. 다. 분석방법 본연구에서는대국민통일인식을설명하는가장효율적인예측모형을구축하기위해특별한통계적가정이필요하지않은데이터마이닝 (data mining) 의연관분석 (association analysis) 과의사결정나무 (decision tree) 방법을사용하였다. 소셜빅데이터분석에서연관분석은하나의온라인문서 (transaction) 에포함된둘이상의단어들에대한상호관련성을발견하는것으로동시에발생한어떤단어들의집합에대해조건과연관규칙을찾는분석방법이다. 전체문서에서연관규칙의평가측도는지지도 (support), 신뢰도 (confidence), 향상도 (lift) 로나타낼수있다. 연관분석과정은연구자가지정한최소지지도를만족시키는빈발항목집합 (frequent item set) 을생성한후, 이들에대해최저신뢰도기준을마련하고향상도가 1인이상인것을규칙으로채택한다 ( 박희창, 2010). 본연구의연관분석은선험적규칙 (apriori principle) 24) 알고리즘을사용하였다. 본연구의통일감정에사용된연관분석의측도는지지도 0.001, 신뢰도 0.15를기준으로시뮬레이션하였다. 데이터마이닝의의사결정나무분석은방대한자료속에서종속변인을가장잘설명하는예측모형을자동적으로산출해줌으로써각기다른속성을가진통일인식에대한요인을쉽게파악할수있다. 본연구의의사결정나무형성을위한분석알고리즘은 CHAID(Chi-squared Automatic Interaction Detection) 를사용하였다. CHAID(Kass, 1980) 는이산형인종속변수의분리기준으로 24) 한항목집합이빈발하다면이항목집합의모든부분집합은역시빈발항목집합이며, 한항목집합이비빈발하다면이항목집합을포함하는모든집합은비빈발항목집합이다 ( 이정진, 2011, p123).
제 4 장소셜빅데이터를활용한통일인식동향분석및예측 101 카이제곱 ( -검정) 을사용하며, 모든가능한조합을탐색하여최적분리를찾는다. 정지규칙 (stopping rule) 으로관찰치가충분하여상위노드 ( 부모마디 ) 의최소케이스수는 100으로하위노드 ( 자식마디 ) 의최소케이스수는 50으로설정하였고, 나무깊이는 3수준으로정하였다. 본연구의기술분석, 다중응답분석, 로지스틱회귀분석, 의사결정나무분석은 SPSS v. 22.0을사용하였고, 연관분석과시각화분석은 R version 3.1.3, 소셜네트워크분석은 NetMiner 25) 를사용하였다. 3. 연구결과 가. 통일관련문서 ( 버즈 ) 현황 통일과관련된이슈발생시에커뮤니케이션이급증하는양상을보이고있으며, 특히 2014년첫신년기자회견에서언급된박근혜대통령의통일대박론 ( 통일은대박이다 ) 강조이후문서량이급증한것으로나타났다 ( 그림 4-1 참조 ). 그림 4-2 와같이연도별통일찬성의감정변화는대박을제외하고 2011년대비평균 2.23배증가 ( 평화 2.42배, 필요 1.68배, 중요 1.54배, 노력 1.95배, 관심 1.75배등 ) 하였으며, 찬성감정의표현단어는평화, 필요, 중요, 노력, 관심등의순으로집중된것으로나타났다. 특히대박은 2011년 56건에서 2014년 47,480건 26) 으로크게증가한것으로나타났다. 연도별통일반대의감정변화는쪽박, 천박, 경박을제외하고 2011 년대비평균 3.25배증가 ( 문제 1.71배, 위협 1.64배, 갈등 1.56배, 포기 25) NetMiner v4.2.0.140122 Seoul: Cyram Inc. 26) 그림 4-2 의통일찬성인식에서 대박 은 15,000 건으로표기함.
102 2015 년소셜빅데이터기반보건복지이슈동향분석 1.58 배, 분열 2.29 배등 ) 하였으며, 반대감정의표현단어는문제, 위협, 갈등, 포기, 분열등의순으로집중된것으로나타났다. 특히, 쪽박, 천박, 경박은 2011 년 30 건에서 2014 년 5,254 건으로증가한것으로나타났다. 그림 4-1 통일관련문서 ( 버즈 ) 량일별추이 16000 '14.01.06. 박근혜 14000 대통령,' 통일은대박이다 ' 12000 10000 '15.01.02. 박근헤대통령 '14.01.28. ' 통일헌법준비시작한새누리당 ' '13.02.03. 부터 ' 현정부통일프로세스준비 ' '13.03.10. ' 류길재장관, 남북관계는기본적으로신뢰가쌓여야 ' 8000 6000 광복, 분단 70주년. 한반도통일시대열어갈것 '13.01.22. ' 박당선인, 남북대화창열겠다 ' '12.01.24. 부터통일담론확산 ' 급진적통일땐북한주민들남하가능등 ' '14.02.05. ' 김한길, 점진적통일을위한준비위원회구성 ' '15.03.05. 주한미국리퍼트대사피습사건 '14.02.26. 통일연구원, '2013년통일시 '15.03.11. 정부 20년간통일비용 3400조원, 편익흡수통일준비팀만들어 6400조원발생 ' '13.03.20. ' 건설업계대박통일준비 ' 2011년 2012년 2013년 2014년 2015년 4000 2000 '15.01.19. 4개부처통일준비업무보고 '15.02.16. 정부통일된한반도준비집중 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 85 87 89 그림 4-2 통일연도별감정변화 2011 년 2012 년 2013 년 2014 년 2015 년
제 4 장소셜빅데이터를활용한통일인식동향분석및예측 103 2011 년 2012 년 2013 년 2014 년 2015 년 < 표 4-1> 과 그림 4-3 과같이통일인식에대한감정키워드의연관성예측에서찬성감정의경우중요, 노력, 필요의감정에찬성감정이강하게연결되어있는것으로나타났으며, 반대감정의경우갈등, 위협, 문제, 포기, 분열의감정에반대감정이강하게연결되어있는것으로나타났다. 표 4-1 통일인식의감정키워드연관성예 찬성 규칙 지지도 신뢰도 향상도 { 관심, 필요, 노력, 평화 }=>{ 중요 } 0.001160194 0.7249240 23.89320 { 필요, 중요, 신뢰, 평화 }=>{ 노력 } 0.001048310 0.6819620 23.28162 { 필요, 노력, 신뢰, 평화 }=>{ 중요 } 0.001048310 0.6962843 22.94925 { 중요, 평화, 행복 }=>{ 노력 } 0.001038581 0.6651090 22.70627 { 관심, 필요, 중요, 평화 }=>{ 노력 } 0.001160194 0.6615811 22.58583 { 필요, 노력, 신뢰 }=>{ 중요 } 0.001588274 0.6642930 21.89483 { 관심, 필요, 노력 }=>{ 중요 } 0.002094187 0.6628176 21.84620 { 관심, 중요, 노력, 평화 }=>{ 필요 } 0.001160194 0.7781403 16.78769 { 관심, 중요, 노력 }=>{ 필요 } 0.002094187 0.7506539 16.19470
104 2015 년소셜빅데이터기반보건복지이슈동향분석 규칙 지지도 신뢰도 향상도 { 관심, 중요, 평화 }=>{ 필요 } 0.001753669 0.6986434 15.07262 반대 { 경박 }=>{ 천박 } 0.001041013 0.5638999 163.729283 { 천박 }=>{ 경박 } 0.001041013 0.3022599 163.729283 { 분열 }=>{ 갈등 } 0.003877044 0.3904949 27.637678 { 문제, 분열 }=>{ 갈등 } 0.001145601 0.3732171 26.414828 { 문제, 압박 }=>{ 위협 } 0.001087226 0.3284350 20.269003 { 문제, 포기 }=>{ 위협 } 0.001578545 0.3042663 18.777459 { 포기, 갈등 }=>{ 문제 } 0.001028852 0.7050000 12.094817 { 위협, 압박 }=>{ 문제 } 0.001087226 0.6908810 11.852595 { 위협, 포기 }=>{ 문제 } 0.001578545 0.6781609 11.634372 { 위협, 갈등 }=>{ 문제 } 0.001493416 0.6623517 11.363152 그림 4-3 통일인식감정의연관규칙에대한병렬좌표시각화 찬성 반대 < 표 4-2> 와같이통일과관련하여통일대박감정을포함하는경우통일을찬성하는문서는 68.8%, 중립의문서는 10.2%, 반대하는문서는 21.0% 로나타났다. 통일관련정책의문서는대북정책 (37.7%), 민주주의 (18.6%), 보수 (11.2%), 진보 (10.3%) 등의순으로나타났다. 통일관련안보의문서는핵무기 (52.7%), 정상회담 (22.0%), 휴전선 (12.3%) 등의순
제 4 장소셜빅데이터를활용한통일인식동향분석및예측 105 으로나타났다. 통일관련이슈의문서는통일대박 (62.2%), 선거 (11.2%), 천안함 (7.3%), 이산가족상봉 (6.8%) 등의순으로나타났다. 통일관련국가의문서는중국 (24.6%), 미국 (23.6%), 일본 (16.7%) 등의순으로나타났다. 통일관련기관의문서는정부 (46.1%), 국회 (11.6%), 청와대 (11.3%), 국정원 (7.1%) 등의순으로나타났다. 통일관련정당의문서는새누리당 (43.5%), 새정치민주연합 (35.3%), 통합진보당 (13.2%) 등의순으로나타났다. 통일방식관련문서는평화통일 (44.5%), 자유통일 (28.2%), 흡수통일 (25.7%) 등의순으로나타났다. 나. 통일관련국민인식 < 표 4-3> 과같이통일의필요성에대한국민의통일인식은조사기관별로차이를보이고있으나, 2011년부터 2014년까지통일대박을제거한소셜빅데이터의분석결과는서울대통일평화연구원의여론조사결과와비슷한추이를보이는것으로나타났다. 통일대박을포함한연도별통일관련찬성인식은 2011년 55.0%, 2012년 62.2%, 2013년 57.8%, 2014년 77.1%, 2015년 59.8% 로나타났다. 특히, 아산정책연구원의 2014년통일인식여론조사에서 80.5%( 통일은가능한빨리되어야 + 점진적으로이루어져야 ) 가통일이필요하다고보고있어, 통일대박을포함한소셜빅데이터분석결과 (77.1%) 와비슷한것으로나타났다. < 표 4-4> 와같이리퍼트미국대사피습사건 (2015년 3월 5일 ) 전의통일에대한찬성은 55.0% 에서피습후 1주일간 27) 50.9% 로낮아졌다가일주일후부터 61.9% 로상승한것으로나타났다. 27) URL 을통해확산되는온라은문서 ( 자살등 ) 약 3 주정도의생명주기를가지며, 발생후첫주에급속히전파되는경향을보인다 (National INformation Society Agency, 2012).
106 2015 년소셜빅데이터기반보건복지이슈동향분석 표 4-2 통일관련문서 ( 버즈 ) 현황 구분항목 N(%) 구분항목 N(%) 연도 채널 정책 안보 이슈 2011 년 10,211( 2.5) 2012년 53,884(13.1) 2013년 83,268(20.3) 2014년 166,952(40.6) 2015년 96,820(23.5) 계 411,135 감정 [ 통일대박포함 ] 찬성 중립 반대 52,562(58.0) [90,993(68.8)] 8,817( 9.7) [13,496(10.2)] 29,287(32.3) [27,692(21.0)] 카페 19,785( 4.8) 90,999 계 SNS 338,501(82.3) [132,181] 블로그 22,220( 5.4) 중국 21,270(24.6) 게시판 5,939( 1.4) 독일 13,049(15.1) 뉴스 24,693( 6.0) 미국 20,474(23.6) 계 411,138 국가 일본 14,492(16.7) 진보 4,504(10.3) 러시아 10,040(11.6) 보수 4,925(11.2) 유럽 7,250( 8.4) 공산주의 2,472( 5.6) 계 86,575 사회주의 2.475( 5.6) 범민련 3,673( 4.2) 대북정책 16,535(37.7) 시민단체 6,402( 7.3) 창조경제 2,760( 6.3) 정부 40,174(46.1) 민주주의 8,128(18.6) 청와대 9,859(11.3) 햇볕정책 2,007( 4.6) 국정원 6,203( 7.1) 기관계 43,806 통일준비위원회 5,521( 6.3) 핵무기 22,126(52,7) 조국평화통일위원회 2,148( 2.5) 정상회담 9,249(22.0) 자유통일포럼 3,082( 3.5) 휴전선 5,177(12.3) 국회 10,161(11.6) 남북공동선언 2,547( 6.1) 계 87,223 간첩 2,882( 6.9) 새정치민주연합 9,308(35.3) 계 41,981 새누리 11,487(43.5) 천안함 6,444( 7.3) 통합진보당 3,473(13.2) 정당민영화 1,873( 2.1) 자유선진당 187( 0.7) 자유통일 13,927(28.2) 노동당 1,933( 7.3) 이산가족상봉 6,050( 6.8) 계 26,388 평화통일 21,940(44.5) 흡수통일 12,688(25.7) 선거 9,978(11.2) 선진통일 236( 0.5) 계 88,705 통일대박 55,176(62.2) 통일방식공존통일 540( 1.1) 통일비용 9,184(10.4) 계 49,331
제 4 장소셜빅데이터를활용한통일인식동향분석및예측 107 표 4-3 연도별통일관련국민인식 연도 통일대박제거 소셜 1) 통일대박포함 찬성중립반대 서울대 2) KBS 3) 통일대박제거 소셜 1) 통일대박포함 서울대 2) KBS 3) 통일대박제거 소셜 1) 통일대박포함 서울대 2) KBS 3) 2011 55.0 55.0 53.7 74.4 18.3 18.3 25.0 19.9 26.7 26.6 21.3 5.7 2012 62.0 62.2 57.0 68.4 10.7 10.7 21.6 24.6 27.3 27.1 21.4 7.0 2013 57.7 57.8 54.8 69.1 8.7 8.7 21.5 21.2 33.6 33.6 23.7 9.7 2014 58.2 77.1 55.8-9.0 10.3 22.5-32.7 12.6 21.7-2015 56.2 59.8 8.3 8.5 35.5 31.7 주 : 1) 본연구의소셜빅데이터의감성분석결과 2) 서울대학교통일평화연구원의매년 7 월부터 8 월사이 (3 주간 ) 1,200 명대상대면조사결과 3) KBS 방송문화연구소 (2013). 2013 년국민통일의식조사 표 4-4 미국대사피습사건전후국민통일인식변화 ( 단위 : N, %) 찬성 중립 반대 계 2015. 1. 1. ~ 3. 4. 7,291(55.0) 1,081(8.1) 4,892(36.9) 13,264 2015. 3. 5. ~ 3. 12. 892(50.9) 141(8.0) 720(41.1) 1,753 2015. 3. 13. ~ 3. 31. 2,739(61.9) 396(8.9) 1,293(29.2) 4,428 계 10,922(56.2) 1,618(8.3) 6,905(35.5) 19,445 다. 통일관련안보 이슈의동향 < 표 4-5> 와같이통일관련안보 이슈에대한주변국가의문서는미국, 중국, 일본, 러시아등대부분의국가에서핵무기, 정상회담, 천안함, 통 일대박등의순으로문서가많이언급된것으로나타났다.
108 2015 년소셜빅데이터기반보건복지이슈동향분석 표 4-5 통일관련안보 이슈의국가별버즈현황 속성핵무기정상회담휴전선 중국 독일 미국 일본 러시아 유럽 계 5973 (36.6) 2421 (25.0) 7103 (40.0) 4579 (39.7) 3354 (37.1) 2355 (32.6) 25785 (36.0) 3395 (20.8) 1869 (19.3) 3597 (20.2) 2134 (18.5) 1814 (20.1) 1476 (20.4) 14285 (20.0) 1222 (7.5) 961 (9.9) 1277 (7.2) 931 (8.1) 868 (9.6) 659 (9.1) 5918 (8.3) 남북공동선언 164 (1.0) 62 (0.6) 209 (1.2) 129 (1.1) 99 (1.1) 70 (1.0) 733 (1.0) ( 단위 : N, %) 천안함통일대박통일비용합계 1651 (10.1) 590 ( 6.1) 1953 (11.0) 975 ( 8.4) 705 ( 7.8) 486 ( 6.7) 6360 ( 8.9) 2160 (13.2) 2214 (22.9) 1896 (10.7) 1420 (12.3) 1213 (13.4) 1350 (18.7) 10253 (14.3) 1759 (10.8) 1551 (16.0) 1728 ( 9.7) 1377 (11.9) 992 (11.0) 832 (11.5) 8239 (11.5) 16324 ( 22.8) 9668 ( 13.5) 17763 ( 24.8) 11545 ( 16.1) 9045 ( 12.6) 7228 ( 10.1) 71573 (100.0) 통일과관련한기관별안보 이슈에대한버즈는 < 표 4-6> 와같이나타났다. 청와대는통일대박 (28.2%), 핵무기 (23.9%), 정상회담 (23.6%) 등의순으로나타났고, 정부는핵무기 (28.1%), 정상회담 (20.5%), 통일대박 (19.6%) 등의순으로나타났고, 국회는핵무기 (30.9%), 정상회담 (22.2%), 통일대박 (14.1%) 등의순으로나타났고, 국정원은통일대박 (35.9%), 핵무기 (27.1%), 정상회담 (13.2%) 등의순으로나타났고, 시민단체는남북공동선언 (50.7%), 핵무기 (20.6%), 통일대박 (10.6%) 등의순으로나타났다.
제 4 장소셜빅데이터를활용한통일인식동향분석및예측 109 표 4-6 통일관련안보 이슈의기관별버즈현황 ( 단위 : N, %) 속성핵무기정상회담휴전선 범민련 시민단체 정부 청와대 국정원 통일준비위원회조국평화통일위원회자유통일포럼 국회 계 131 ( 8.6) 506 (20.6) 7435 (28.1) 2022 (23.9) 485 (27.1) 370 (15.0) 445 (32.7) 6 ( 2.4) 1422 (30.9) 12822 (26.0) 39 ( 2.6) 106 ( 4.3) 5418 (20.5) 1999 (23.6) 236 (13.2) 491 (19.9) 329 (24.2) 0 ( 0.0) 1023 (22.2) 9641 (19.5) 20 ( 1.3) 52 ( 2.1) 2162 ( 8.2) 581 ( 6.9) 81 ( 4.5) 197 ( 8.0) 282 (20.8) 1 (.4) 355 ( 7.7) 3731 ( 7.6) 남북공동선언 1258 (82.8) 1244 (50.7) 368 ( 1.4) 78 (.9) 44 ( 2.5) 24 ( 1.0) 10 (.7) 0 ( 0.0) 96 ( 2.1) 3122 ( 6.3) 천안함통일대박통일비용합계 46 ( 3.0) 173 (7.0) 3036 (11.5) 752 ( 8.9) 191 (10.7) 106 ( 4.3) 255 (18.8) 116 ( 6.0) 538 ( 1.7) 5213 (10.6) 15 ( 1.0) 261 (10.6) 5191 (19.6) 2392 (28.2) 642 (35.9) 1044 (42.4) 22 ( 1.6) 128 (50.8) 650 (14.1) 10345 (20.9) 11 (.7) 112 ( 4.6) 2861 (10.8) 652 ( 7.7) 110 ( 6.1) 231 ( 9.4) 16 ( 1.2) 1 (.4) 515 (11.2) 4509 ( 9.1) 1520 ( 3.1) 2454 ( 5.0) 26471 (53.6) 8476 (17.2) 1789 ( 3.6) 2463 ( 5.0) 1359 ( 2.8) 252 (.5) 4599 ( 9.3) 49383 (100.0) 라. 통일관련소셜네트워크분석 그림 4-4 와같이주변국가와안보 이슈간의외부근접중심성 (out closeness Centrality) 28) 을살펴보면핵무기와천안함은미국, 중국, 일 본, 러시아순으로밀접하게연결되어있는것으로나타났으며, 정상회담 28) 근접중심성 (Closeness Centrality) 은평균적으로다른노드들과의거리가짧은노드의중심성이높은경우로, 근접중심성이높은노드는확률적으로가장빨리다른노드에영향을주거나받을수있다.
110 2015 년소셜빅데이터기반보건복지이슈동향분석 은미국, 중국, 일본, 독일의순으로밀접하게연결된것으로나타났다. 정당과안보 이슈간의외부근접중심성을살펴보면통일대박은새누리당, 새정치민주연합등의순으로밀접하게연결되어있고, 천안함은새정치민주연합, 새누리당등의순으로밀접하게연결되어있는것으로나타났다. 그림 4-4 통일감정응집구조분석 마. 통일관련인식에대한연관성분석 < 표 4-7> 과같이안보와이슈에대한통일인식의연관성예측에서가장신뢰도가높은연관규칙으로는 { 정상회담, 선거 } => { 찬성 } 이며세변인의연관성은지지도 0.001, 신뢰도는 0.54, 향상도는 4.22로나타났다. 이는온라인문서에서정상회담과선거가언급되면통일에찬성할확률이 53.9% 이며, 정상회담과선거가언급되지않은문서보다통일에대한찬성의확률이 4.22배높아지는것을나타낸다. 특히, { 정상회담, 통일대박 } => { 찬성 } 세변인의연관성은지지도 0.001, 신뢰도 0.47, 향상도는 3.71로정상회담과통일대박이언급되지않은문서보다통일에대한찬성의확률이 3.71배높아지는것으로나타났다. { 핵무기, 휴전선 } =>
제 4 장소셜빅데이터를활용한통일인식동향분석및예측 111 { 반대 } 세변인의연관성은지지도 0.001, 신뢰도는 0.31, 향상도는 4.34 로나타났다. 이는온라인문서에서핵무기와휴전선이언급되면통일에반대할확률이 30.9% 이며, 핵무기와휴전선이언급되지않은문서보다통일에대한반대의확률이 4.34배높아지는것을나타낸다. 표 4-7 안보와이슈요인에대한통일인식의연관성예측 규칙 지지도 신뢰도 향상도 { 정상회담, 선거 } => { 찬성 } 0.001366938 0.5393474 4.218755 { 정상회담, 휴전선 } => { 찬성 } 0.001357209 0.5224719 4.086756 { 핵무기, 선거 } => { 찬성 } 0.002045542 0.4973389 3.890166 { 정상회담, 천안함 } => { 찬성 } 0.001814476 0.4946950 3.869485 { 핵무기, 정상회담, 천안함 } => { 찬성 } 0.001216137 0.4935834 3.860791 { 핵무기, 정상회담 } => { 찬성 } 0.004181078 0.4926913 3.853813 { 핵무기, 휴전선 } => { 찬성 } 0.001770695 0.4840426 3.786163 { 정상회담, 통일대박 } => { 찬성 } 0.001804747 0.4747281 3.713305 { 핵무기, 통일비용 } => { 찬성 } 0.001442338 0.4640063 3.629440 { 핵무기, 천안함 } => { 찬성 } 0.002887108 0.4475867 3.501007 { 정상회담 } => { 찬성 } 0.009631802 0.4281544 3.349008 { 핵무기, 통일대박 } => { 찬성 } 0.001707456 0.4156306 3.251047 { 휴전선 } => { 찬성 } 0.005034806 0.3998455 3.127576 { 천안함 } => { 찬성 } 0.005153987 0.3288330 2.572120 { 핵무기 } => { 찬성 } 0.016687827 0.3100877 2.425494 { 핵무기, 휴전선 } => { 반대 } 0.001131007 0.3091755 4.340281 { 통일비용, 통일대박 } => { 찬성 } 0.002356873 0.3074239 2.404658 { 핵무기, 천안함 } => { 반대 } 0.001848528 0.2865762 4.023026 { 선거 } => { 찬성 } 0.006929547 0.2855282 2.233391 { 핵무기, 정상회담 } => { 반대 } 0.002400654 0.2828891 3.971265 { 통일비용 } => { 찬성 } 0.006287427 0.2814678 2.201630 { 정상회담, 천안함 } => { 반대 } 0.001014258 0.2765252 3.881928 { 핵무기, 선거 } => { 반대 } 0.001048310 0.2548788 3.578050 { 정상회담 } => { 반대 } 0.004424305 0.1966699 2.760900 { 핵무기 } => { 반대 } 0.010487963 0.1948838 2.735827 { 천안함 } => { 반대 } 0.002984399 0.1904097 2.673017 { 남북공동선언 } => { 찬성 } 0.001140736 0.1841382 1.440322 { 휴전선 } => { 반대 } 0.002242556 0.1780954 2.500147
112 2015 년소셜빅데이터기반보건복지이슈동향분석 < 표 4-8> 과같이주요주변국가대한통일인식의연관성예측에서가장신뢰도가높은연관규칙으로는 { 중국, 미국, 일본, 러시아 } => { 찬성 } 이며다섯변인의연관성은지지도 0.002, 신뢰도는 0.17, 향상도는 3.74 로나타났다. 이는온라인문서에서중국, 미국, 일본, 러시아가언급되면통일에찬성할확률이 47.8% 이며, 중국, 미국, 일본, 러시아가언급되지않은문서보다통일에대한찬성의확률이 3.74배높아지는것을나타낸다. 특히, { 중국, 미국, 일본 } => { 중립 } 네변인의연관성은지지도 0.001, 신뢰도 0.47, 향상도는 7.72로중국, 미국, 일본이언급되지않은문서보다통일에대한중립의확률이 7.72배높아지는것으로나타났다 29). { 중국, 미국, 러시아 } => { 반대 } 네변인의연관성은지지도 0.003, 신뢰도는 0.27, 향상도는 3.78로나타났다 30). 이는온라인문서에서중국, 미국, 러시아가언급되면통일에반대할확률이 26.9% 이며, 중국, 미국, 러시아가언급되지않은문서보다통일에대한반대의확률이 3.78배높아지는것을나타낸다. 표 4-8 주변국가 (4국) 의통일인식의연관성예측 규칙 지지도 신뢰도 향상도 { 중국, 미국, 일본, 러시아 }=>{ 찬성 } 0.00341248 0.477861 3.737811 { 미국, 일본, 러시아 }=>{ 찬성 } 0.003682462 0.473125 3.700766 { 중국, 일본, 러시아 }=>{ 찬성 } 0.003967038 0.4678715 3.659673 { 중국, 미국, 러시아 }=>{ 찬성 } 0.004480248 0.4622334 3.615572 { 중국, 미국, 일본 }=>{ 찬성 } 0.005548016 0.4519517 3.535149 { 중국, 일본 }=>{ 찬성 } 0.007627609 0.4394619 3.437454 29) { 중국, 미국, 일본 } => { 찬성 } 의향상도는 3.53, { 중국, 미국, 일본 } => { 반대 } 의향상도는 3.41, { 중국, 미국, 일본 } => { 중립 } 의향상도는 7.72 로나타나, 중국, 미국, 일본의 3 국이문서에서언급될경우, 중립의확률이더높은것으로나타났다. 30) { 중국, 미국, 러시아 } => { 찬성 } 의향상도는 3.62, { 중국, 미국, 일본 } => { 반대 } 의향상도는 3.79 로나타나중국, 미국, 러시아의 3 국이언급될경우, 찬성의문서보다반대의문서가조금더많은것으로나타났다.
제 4 장소셜빅데이터를활용한통일인식동향분석및예측 113 규칙 지지도 신뢰도 향상도 { 중국, 미국 }=>{ 찬성 } 0.009320471 0.426631 3.337092 { 미국, 러시아 }=>{ 찬성 } 0.005336408 0.4263506 3.334898 { 중국, 러시아 }=>{ 찬성 } 0.006036902 0.4239112 3.315817 { 미국, 일본 }=>{ 찬성 } 0.007017109 0.4108516 3.213666 { 일본, 러시아 }=>{ 찬성 } 0.004426737 0.4031008 3.153039 { 러시아 }=>{ 찬성 } 0.008342698 0.3416335 2.672244 { 일본 }=>{ 찬성 } 0.011942462 0.3388076 2.650141 { 중국 }=>{ 찬성 } 0.017298328 0.3343677 2.615411 { 미국 }=>{ 찬성 } 0.016571078 0.3327635 2.602864 { 중국, 미국, 러시아 }=>{ 반대 } 0.002607397 0.2690088 3.77641 { 미국, 일본, 러시아 }=>{ 반대 } 0.002016355 0.2590625 3.636782 { 미국, 러시아 }=>{ 반대 } 0.00316682 0.253012 3.551844 { 중국, 미국 }=>{ 반대 } 0.005399647 0.247161 3.469706 { 미국, 일본 }=>{ 반대 } 0.004190807 0.2453717 3.444587 { 중국, 일본, 러시아 }=>{ 반대 } 0.002065 0.2435456 3.418952 { 중국, 미국, 일본 }=>{ 반대 } 0.002979535 0.2427184 3.40734 { 중국, 러시아 }=>{ 반대 } 0.003417344 0.2399658 3.368699 { 중국, 일본 }=>{ 반대 } 0.003830831 0.2207119 3.098407 { 일본, 러시아 }=>{ 반대 } 0.002344712 0.2135105 2.997312 { 미국 }=>{ 반대 } 0.009619641 0.1931718 2.711793 { 중국 }=>{ 반대 } 0.009665854 0.1868359 2.622848 { 러시아 }=>{ 반대 } 0.004387821 0.1796813 2.522409 { 일본 }=>{ 반대 } 0.006263104 0.1776842 2.494374 { 중국, 미국, 일본 }=>{ 중립 } 0.002033381 0.165643 7.723955 { 중국, 미국 }=>{ 중립 } 0.003431938 0.157092 7.325221 { 중국, 일본 }=>{ 중립 } 0.002629287 0.1514854 7.063788 바. 통일인식에영향을미치는안보 이슈요인 < 표 4-9> 와같이통일대박, 남북공동선언, 휴전선, 정상회담순으로통 일의찬성에정적 (+) 영향을주는것으로나타났으나, 간첩, 핵무기, 통일비 용, 천안함순으로통일의찬성에부적 (-) 인영향을주는것으로나타났다.
114 2015 년소셜빅데이터기반보건복지이슈동향분석 표 4-9 통일인식에영향을미치는안보 이슈요인 1) 변수 찬성 중립 b S.E. OR P b S.E. OR P 핵무기 -.230.023.795.000.407.032 1.502.000 정상회담.158.032 1.171.000.601.042 1.823.000 휴전선.159.043 1.173.000.235.060 1.265.000 남북공동선언.814.105 2.257.000.194.156 1.214.214 간첩 -.525.081.592.000 -.515.128.597.000 천안함 -.051.040.951.200.198.053 1.219.000 선거.076.034 1.079.025.332.046 1.393.000 통일비용 -.099.036.906.006 -.127.051.880.012 통일대박 2.803.027 16.489 0.000 2.725.032 15.258 0.000 주 : 1) 기본범주 : 반대, Standardized coefficients, Standard error, Adjusted odds ratio 사. 통일인식에관련예측모형 그림 4-5 과같이통일의안보 이슈요인이통일인식에미치는영향은 통일대박 의영향력이가장큰것으로나타났다. 통일대박 이있을경우통일에대한찬성의인식이이전의 68.8% 에서 85.8% 로증가한반면, 반대의인식은이전의 21.0% 에서 2.9% 로감소하였다. 통일대박 이있고 핵무기 가있는경우통일에대한찬성의인식은이전의 85.8% 에서 77.0% 로감소한반면, 반대의인식은이전의 2.8% 에서 10.0% 로크게증가하는것으로나타났다. < 표 4-10> 의통일인식의안보 이슈요인의예측모형에대한이익도표와같이통일의찬성에가장영향력이높은경우는 통일대박 이있고 핵무기 가없고 휴전선 이없는조합으로나타났다. 즉, 11번노드의지수 (index) 가 125.2% 로뿌리마디와비교했을때 11번노드의조건을가진집단이통일을찬성하는확률이 1.25배로
제 4 장소셜빅데이터를활용한통일인식동향분석및예측 115 나타났다. 통일의반대에가장영향력이높은경우는 통일대박 이없고 핵무기 가있고 정상회담 이없는조합으로나타났다. 즉, 9번노드의지수가 161.1% 로뿌리마디와비교했을때 9번노드의조건을가진집단이통일을반대하는확률이 1.61배로나타났다. 그림 4-5 통일인식관련안보 이슈요인의예측모형
116 2015 년소셜빅데이터기반보건복지이슈동향분석 표 4-10 통일인식관련안보 이슈요인의예측모형에대한이익도표 구분찬성보통반대 노드 이익지수 누적지수 노드 (n) 노드 (%) 이익 (%) 지수 (%) 노드 (n) 노드 (%) 이익 (%) 지수 (%) 11 49931 37.8 47.3 125.2 49931 37.8 47.3 125.2 13 1156.9 1.0 116.4 51087 38.6 48.3 125.0 12 438.3.4 107.5 51525 39.0 48.7 124.8 14 490.4.4 101.1 52015 39.4 49.0 124.6 7 64904 49.1 42.3 86.1 116919 88.5 91.3 103.2 8 3032 2.3 2.0 85.3 119951 90.7 93.2 102.8 9 9356 7.1 5.2 73.1 129307 97.8 98.4 100.6 10 2874 2.2 1.6 72.5 132181 100.0 100.0 100.0 10 2874 2.2 4.3 198.0 2874 2.2 4.3 198.0 8 3032 2.3 4.1 179.3 5906 4.5 8.4 188.4 9 9356 7.1 11.0 156.0 15262 11.5 19.5 168.5 14 490.4.5 147.9 15752 11.9 20.0 167.9 13 1156.9 1.0 118.6 16908 12.8 21.0 164.5 12 438.3.4 111.8 17346 13.1 21.4 163.2 11 49931 37.8 41.7 110.3 67277 50.9 63.1 123.9 7 64904 49.1 36.9 75.2 132181 100.0 100.0 100.0 9 9356 7.1 11.4 161.0 9356 7.1 11.4 161.0 7 64904 49.1 77.5 157.9 74260 56.2 88.9 158.3 10 2874 2.2 3.1 142.5 77134 58.4 92.0 157.7 8 3032 2.3 2.5 109.7 80166 60.6 94.6 155.9 14 490.4.3 73.1 80656 61.0 94.8 155.4 12 438.3.2 69.7 81094 61.4 95.1 154.9 13 1156.9.3 37.2 82250 62.2 95.4 153.3 11 49931 37.8 4.6 12.2 132181 100.0 100.0 100.0 그림 4-6 와같이주변 4개국이통일인식에미치는영향은 미국 이가장높은것으로나타났다. 미국 이있을경우통일에대한찬성의인식이이전의 68.8% 에서 55.0% 감소한반면, 반대의인식은이전의 21.0% 에서 28.3% 로증가하였다. 미국 이있고 중국 이있는경우통일에대한찬성의인식은이전의 55.0% 에서 53.2% 로감소한반면, 중립의인식은이전의 16.0% 에서 18.5% 로증가하는것으로나타났다. < 표 4-11> 의통일인식의주변 4개국요인의예측모형에대한이익도표와같이통일
제 4 장소셜빅데이터를활용한통일인식동향분석및예측 117 의찬성에가장영향력이높은경우는 미국 이없고 중국 이없고 일본 이없는조합으로나타났다. 즉, 7번노드의지수가 103.5% 로뿌리마디와비교했을때 7번노드의조건을가진집단이통일을찬성하는확률이 1.04배로나타났다. 통일의반대에가장영향력이높은경우는 미국 이있고 중국 이없고 일본 이있는조합으로나타났다. 즉, 12번노드의지수가 170.6% 로뿌리마디와비교했을때 12번노드의조건을가진집단이통일을반대하는확률이 1.71배로나타났다. 통일의중립에가장영향력이높은경우는 미국 이있고 중국 이있고 일본 이있는조합으로나타났다. 즉, 14번노드의지수가 181.4% 로뿌리마디와비교했을때 14 번노드의조건을가진집단이통일을반대하는확률이 1.8배로나타났다. 그림 4-6 통일인식관련주요주변국가예측모형
118 2015 년소셜빅데이터기반보건복지이슈동향분석 표 4-11 통일인식관련국가요인의예측모형에대한이익도표 ( 주변 4 국 ) 구분찬성보통반대 노드 이익지수누적지수노드 (n) 노드 (%) 이익 (%) 지수 (%) 노드 (n) 노드 (%) 이익 (%) 지수 (%) 7 110242 83.4 86.3 103.5 110242 83.4 86.3 103.5 10 1530 1.2 1.1 91.1 111772 84.6 87.3 103.3 8 2069 1.6 1.4 90.6 113841 86.1 88.8 103.1 11 4549 3.4 3.0 87.1 118390 89.6 91.8 102.4 9 4857 3.7 3.1 84.1 123247 93.2 94.8 101.7 14 4401 3.3 2.6 79.4 127648 96.6 97.5 100.9 13 3168 2.4 1.8 74.5 130816 99.0 99.3 100.3 12 1365 1.0.7 70.7 132181 100.0 100.0 100.0 14 4401 3.3 6.0 181.4 4401 3.3 6.0 181.4 13 3168 2.4 4.3 180.9 7569 5.7 10.4 181.2 10 1530 1.2 1.9 161.3 9099 6.9 12.2 177.8 12 1365 1.0 1.6 152.8 10464 7.9 13.8 174.6 9 4857 3.7 5.5 149.2 15321 11.6 19.3 166.5 8 2069 1.6 2.2 138.2 17390 13.2 21.5 163.2 11 4549 3.4 4.6 135.0 21939 16.6 26.1 157.3 7 110242 83.4 73.9 88.6 132181 100.0 100.0 100.0 12 1365 1.0 1.8 170.6 1365 1.0 1.8 170.6 13 3168 2.4 3.5 144.5 4533 3.4 5.2 152.4 9 4857 3.7 4.7 128.2 9390 7.1 9.9 139.8 14 4401 3.3 4.3 128.1 13791 10.4 14.2 136.1 11 4549 3.4 4.3 125.3 18340 13.9 18.5 133.4 8 2069 1.6 1.8 112.4 20409 15.4 20.3 131.3 10 1530 1.2 1.1 99.2 21939 16.6 21.4 129.0 7 110242 83.4 78.6 94.2 132181 100.0 100.0 100.0 4. 결론 본연구는국내의온라인뉴스사이트, 블로그, 카페, SNS, 게시판등인터넷을통해수집된소셜빅데이터를주제분석과감성분석기술로분류하고네트워크분석과데이터마이닝의연관성분석과의사결정나무분석기법을적용하여분석함으로써우리나라국민의통일인식에대한동향을분석하고통일인식의연관규칙과예측모형을개발하고자하였다.
제 4 장소셜빅데이터를활용한통일인식동향분석및예측 119 본연구의결과를요약하면다음과같다. 첫째, 통일과관련된이슈발생시에온라인상에통일관련문서가급증하는양상을보이고있으며, 연도별통일찬성의감정변화는 2011년대비평균 2.23배증가하였으며, 찬성감정의표현단어는평화, 필요, 중요, 노력, 관심등의순으로집중된것으로나타났다. 통일반대의감정변화는 2011년대비평균 3.25 배증가하였으며, 반대감정의표현단어는문제, 위협, 갈등, 포기, 분열등의순으로집중된것으로나타났다. 둘째, 안보와관련된문서는핵무기, 정상회담, 휴전선, 남북공동선언, 간첩순으로나타났으며, 이슈와관련한문서는통일대박, 선거, 통일비용, 천안함, 이산가족상봉, 민영화순으로나타났다. 그리고통일방식과관련한문서는평화통일, 자유통일, 흡수통일등의순으로나타났다. 셋째, 통일의필요성에대한국민인식은통일대박감정을포함할경우찬성은 2011년 55.0%, 2012년 62.2%, 2013년 57.8%, 2014년 77.1%, 2015년 56.2% 로나타났다. 넷째, 통일관련네트워크분석에서안보 이슈간의외부근접중심성은핵무기와천안함은미국, 중국, 러시아순으로밀접하게연결되어있으며, 천안함은새정치민주연합, 새누리당등의순으로밀접하게연결되어있는것으로나타났다. 다섯째, 안보와이슈에대한통일인식의연관성예측에서 { 정상회담, 선거 } => { 찬성 } 의신뢰도가 0.54로온라인문서중정상회담과선거가동시에언급되면언급되지않는문서보다통일에대한찬성의확률이 4.22 배가높아지는것으로나타났다. { 핵무기, 휴전선 } => { 반대 } 의신뢰도는 0.31로온라인문서중핵무기와휴전선이동시에언급되면언급되지않은문서보다통일에대해반대할확률이 4.34배높아지는것으로나타났다. 주변국가의통일인식의연관성예측에서 { 중국, 미국, 일본, 러시아 }
120 2015 년소셜빅데이터기반보건복지이슈동향분석 => { 찬성 } 의신뢰도가 0.17로온라인문서에서중국, 미국, 일본, 러시아가동시에언급되면언급되지않은문서보다통일에대한찬성의확률이 3.74배높아지며, { 중국, 미국, 일본 } => { 중립 } 은신뢰도가 0.47로온라인문서에서중국, 미국, 일본이동시에언급되면통일에대한중립의확률이 7.72배높아지는것으로나타났다. 그리고, { 중국, 미국, 러시아 } => { 반대 } 의신뢰도는 0.27로온라인문서에서중국, 미국, 러시아가동시에언급되면통일에대한반대의확률이 3.78배높아지는것으로나타났다. 여섯째, 통일인식에영향을미치는안보 이슈요인에대한다중로지스틱회귀분석결과통일대박, 남북공동선언, 휴전선, 정상회담순으로통일의찬성에정적 (+) 영향을미치는것으로나타났으나, 간첩, 핵무기, 통일비용, 천안함순으로통일의찬성에부적 (-) 인영향을주는것으로나타났다. 마지막으로안보 이슈요인이통일인식에미치는영향은통일대박의영향력이가장큰것으로나타나온라인문서중, 통일대박이있을경우통일에대한찬성의인식이이전의 68.8% 에서 85.8% 로증가하였고, 특히통일대박이있고, 핵무기와휴전선이없는경우통일에대해찬성하는확률이가장높은것으로나타났다. 주변 4개국이통일인식에미치는영향은미국이가장높은것으로나타나, 온라인문서중미국이없고, 중국이없고, 일본이없는조합이통일에대해찬성할확률이가장높은반면, 미국이있고, 중국이없고, 일본이있는조합이통일에대해반대할확률이가장높은것으로나타났다. 본연구를근거로우리나라의통일관련인식에대한예측과관련하여다음과같은정책적함의를도출할수있다. 첫째, 통일과관련된이슈발생시에온라인상에통일관련커뮤니케이션이급증하며, 2014년첫신년기자회견에서언급된통일대박론강조
제 4 장소셜빅데이터를활용한통일인식동향분석및예측 121 이후온라인문서량이급증한것으로나타났다. 이는통일이되면천문학적인통일비용과사회적혼란이야기될것이라는부정적인식을극복하고통일을기대와희망으로보는긍정적담론이확산된이유로보고있으며, 통일대박론이통일문제에대한국민적합의를이루는계기가되었다는긍정적주장 ( 김창수, 2014) 을지지하는것으로나타났다. 둘째, 통일관련국민인식은소셜빅데이터의분석결과와정기적인여론조사결과와비슷한추이를보이는것으로나타났다. 이는본연구에서제시한통일관련감정키워드의감성분석방법으로통일의필요성에대한인식을찬성, 보통, 반대로분류하는것에대한타당성이어느정도확보된것으로볼수있다. 셋째, 리퍼트대사피습사건후의통일에대한인식이발생후 1주일정도영향을받는것으로나타나, SNS를통해확산되는부정적이슈 ( 질병, 자살, 테러등 ) 는발생후첫주에급속히전파되는경향을보이고있다는연구 31) 를지지하는것으로나타났다. 넷째, 정상회담과선거가동시에언급된온라인문서의경우통일에대한찬성의확률이높은것은정상회담과선거가통일에대한긍정적담론을확산시키며, 핵무기와휴전선이동시에언급된온라인문서의경우통일에대한반대의확률이높은것은핵무기와휴전선에대한북한의위협이고조될때, 통일에대한부정적인담론이확산되기때문인것으로본다. 다섯째, 중국, 미국, 일본, 러시아가동시에언급된온라인문서의경우통일에대한찬성의확률이높은것은북한의핵문제를해결하고, 한반도의비핵화를실현하기위해한국 북한 미국 중국 러시아 일본이참석하는 6자회담이언급될경우통일에대한국민의인식이긍정적감정으로나타나는것으로보인다. 이는한반도통일은남북한의문제이자동북 31) National INformation Society Agency(2012)
122 2015 년소셜빅데이터기반보건복지이슈동향분석 아주변국의미래를좌우하며 ( 김규륜, 2013), 한반도평화체제와통일과정에국제사회의지지가필수불가결함을보여주는것이다 ( 차문석, 2013). 여섯째, 간첩, 핵무기, 통일비용, 천안함요인은통일을반대할확률이높은것은북한의위협과같은통일에대한부정적요소의문서가언급될때통일에대한반대의담론이확산되는것으로나타났다. 특히통일비용에대한부정적인식은 1990년대후반 IMF 구제금융사태와독일통일의후유증이우리사회에알려지면서급속히확산되었으며, 통일비용을통해실제로얻어질수있는이득은계산하지않고투입된비용만계산하여천문학적수치만제시함으로써통일에대한두려움이증가한것으로보고있다 ( 김규륜 김형기, 2012). 마지막으로통일의반대에가장영향력이높은경우는통일대박이없고, 핵무기가있고, 정상회담이없는문서들로나타났으며, 통일대박이없고, 핵무기가있더라도정상회담이있는문서들은통일의인식이보통으로나타나남북정상회담의이슈가통일을긍정적으로작용하는핵심요인으로보여진다. 본연구는개개인의특성을가지고분석한것이아니고그구성원이속한전체집단의자료를대상으로분석하였기때문에이를개인에게적용하였을경우생태학적오류 (ecological fallacy) 가발생할수있다 (Song et al., 2014). 또한, 본연구에서감성분석결과정의된통일인식은온라인문서내에서발생된감정단어의빈도로정의되었기때문에기존의조사등을통한통일인식의조작적정의와다를수있으며, 2011년 ~2015 년기간의 1/4분기 (15개월간) 의제한된소셜빅데이터를분석함으로써전체적인통일관련인식의예측에한계가있을수있다. 그럼에도불구하고본연구는소셜빅데이터에서통일관련주요이슈에대한실제적인내
제 4 장소셜빅데이터를활용한통일인식동향분석및예측 123 용을빠르게효과적으로파악함으로써기존의통일관련인식의정보수집체계의한계를보완할수있는새로운분석방법을제시하였다는점에서정책적 분석방법론적의의를가진다고할수있다 ( 송주영 송태민, 2014). 끝으로통일에대한찬반, 통일방법등에대한국민의통일의식조사와더불어소셜미디어에서수집된빅데이터의활용과분석을할경우, 통일인식의예측은더욱신뢰성이있을것으로본다.
참고문헌 << 강동완, 박정란 (2014). 북한주민의통일의식조사연구 : 북한주민 100명면접조사를중심으로. 통일정책연구제23권 2호, p 2. 김규륜 (2013). 한반도통일의미래와주변 4국의기대, 통일연구원, 2013.12. pp.1~215. 김규륜, 김형기 (2012). 통일재원마련및통일의지결집관련국민의의식, 통일연구원정책연구시리즈, 12-01. p. 14 김정선, 권은주, 송태민 (2014). 분석지의확장을위한소셜빅데이터활용연구- 국내 빅데이터 수요공급예측-. 지식경영연구, 15(3), pp.173~192. 김창수 (2014). 통일대박론과통일준비위원회-의의, 한계, 방향, 북한연구학회춘계학술발표논문집, p. 120. 박희창 (2010). 연관규칙마이닝에서의평가기준표준화방안. 한국데이터정보과학회지, 제 21권, 제5호, pp. 891-899. 송주영, 송태민 (2014). 소셜빅데이터를활용한북한관련위협인식요인예측. 국제문제연구, 가을. pp. 209-243. 이규창 (2014). 통일기반조성과법제준비, 북한연구학회춘계학술발표논문집, pp.15-34. 이정진 (2011). R, SAS, MS-SQL을활용한데이터마이닝. 자유아카데미. 차문석 (2013). 한반도평화통일동북아냉전적대립해소, 통일한국제358호, pp.11-13. 통일연구원 (2014). 드레스덴구상과행복한통일, 제 1차 KINU 통일포럼, p.7 통일교육원 (2013). 통일문제이해. p 93. Kass, G.(1980). An exploratory technique for investigating large quantities of categorical data. Applied Statistics, Vol. 292, pp.119~127. National Information Society Agency(2012). Implications for Suicide Prevention Policy of Youth Described in the Social Analysis.
126 2015 년소셜빅데이터기반보건복지이슈동향분석 Seoul, Korea: Author. Song TM, Song J, An JY, Hayman LL, Woo JM(2014). Psychological and Social Factors Affecting Internet Searches on Suicide in Korea: A Big Data Analysis of Google Search Trends, Yonsei Med Journal, Vol. 55, No. 1, pp.254~263.
제 5 장 소셜빅데이터를활용한한국의섹스팅 (Sexting) 위험예측 1. 서론 2. 이론적배경 3. 연구방법 4. 분석방법 5. 연구결과 6. 결론및고찰 참고문헌
5 소셜빅데이터를활용한한국의섹스팅 (Sexting) 위험예측 32) << 1. 서론 2014년현재 10대청소년의 99.7% 가스마트폰을보유하고있고 ( 한국인터넷진흥원, 2014), 10대청소년의 95.2% 가인터넷을사용하며고등학생의 78.1% 가 SNS를이용 ( 미래창조과학부 한국인터넷진흥원, 2014) 하는것으로나타나, 스마트폰을이용한인터넷사용은청소년의필수적인수단이되고있다. 이와같이청소년의일생생활에서의인터넷및스마트폰이용이증가함에따라긍정적인효과와더불어인터넷중독등역기능의문제가제기되고있다. 2014년청소년의스마트폰중독은 29.2% 로성인의스마트폰중독률 11.3% 의약 2.6배에달하는것으로나타나고있으며 ( 미래창조과학부 한국정보화진흥원, 2014), 2014년현재중 고등학생의 52.6% 가스마트폰을통하여음란물 ( 섹스팅 ) 을이용한것으로 ( 여성가족부, 2014년청소년유해환경접촉실태조사 ) 나타나고있고, 일부청소년들은자신의성행동장면을촬영하여실시간인터넷방송서비스 (UCC 방송등 ) 나웹하드등파일공유사이트를통해게시하는등의비행이자행되고있어정부차원의청소년에대한음란물차단대책이요구되고있다. 섹스팅 (Sexting) 은성 (sex) 과문자메시지보내기 (texting) 의합성어로만 18세미만의청소년들이자신의핸드폰상이나인터넷상에서만난불 32) 본연구는해외학술지에게재하기위하여 송주영교수 (PSU), 송태민박사 (KIHASA)' 가작성한논문임을밝힌다.
130 2015 년소셜빅데이터기반보건복지이슈동향분석 특정한이성에게자신의특정한신체부위를노출시킨그림파일을주고받는것을의미한다 (Walker et al, 2011, p.8; Lounsbury et al.,2009, p1). 섹스팅의문제점으로는청소년의신체노출사진을핸드폰에가지고있을경우아동포르노그래피로법적인제제를당할수있으며섹스팅상대에게정서적 신체적상처를입힐수있다는것이다 (Chalfen, 2009, p.263). 청소년기에음란물에대한경험은성에대한잘못된현실인식을갖게하며지속적인호기심으로인해더욱음란물에집착하게만들가능성이있다 ( 주지혁 김형일, 2010, p.18). 이와같이섹스팅문제의심각성에도불구하고국내에서는섹스팅에대한과학적연구가부족한실정에있다. 한편모바일인터넷과소셜미디어의확산으로데이터량이기하급수적으로증가하여데이터의생산, 유통소비체계에큰변화가일어나면서데이터가경제적자산이될수있는빅데이터시대가도래되었다. 세계각국의정부와기업들은빅데이터가공공과민간에미치는파급효과를전망함에따라 SNS를통해생산되는소셜빅데이터의활용과분석을통하여사회적문제의해결과정부의정책을효과적으로추진할수있을것으로예측하고있다. 우리나라는정부 3.0과창조경제의추진과실현을위하여다양한분야에빅데이터를효율적활용을적극적으로모색하고있다. 기존에실시하던횡단적조사나종단적조사등을대상으로한연구는정해진변인들에대한개인과집단의관계를보는데는유용하나, 사이버상에서언급된개인별담론 (buzz) 에서논의된관련정보간의연관관계를밝히고원인을파악하는데는한계가있다 (song et al., 2014). 이에반해소셜빅데이터분석은훨씬방대한량의데이터를활용하여다양한참여자의생각과의견을확인할수있기때문에사회적문제의예측을보다정확하게할수가있다. 본연구는우리나라온라인뉴스사이
제 5 장소셜빅데이터를활용한한국의섹스팅 (Sexting) 위험예측 131 트, 블로그, 카페, SNS, 게시판등에서수집한소셜빅데이터를바탕으로 우리나라섹스팅에대한위험요인을예측하고자한다. 2. 이론적배경 청소년시기는일반적으로성적인호기심이높은시기이며, 성에대한사실과환상의구분에취약함으로써온라인의성 ( 性 ) 콘텐츠에노출되기쉬운시기이다 ( 신선미, 2013. p276). 음란물은인간의성적행위를노골적으로묘사하여음탕하고난잡한느낌을주는사진이나잡지, 영상물등을통틀어이르는말로주로상업적목적으로성기와성행위만을강조해서보여줌으로써그것을읽거나보는사람을성적으로흥분하게만드는글, 사진, 만화, 잡지등을말한다 ( 김문녕, 2012, p52). 특히, 한국에서의 " 아동 청소년이용음란물 " 은아동 청소년또는아동 청소년으로명백하게인식될수있는사람이나표현물이등장하여 성교행위, 구강 항문등신체의일부나도구를이용한유사성교행위, 신체의전부또는일부를접촉 노출하는행위로서일반인의성적수치심이나혐오감을일으키는행위, 자위행위 중어느하나에해당하는행위를하거나그밖의성적행위를하는내용을표현하는것으로서필름 비디오물 게임물또는컴퓨터나그밖의통신매체를통한화상 영상등의형태로된것을말한다 ( 아동ㆍ청소년의성보호에관한법률, 제2조 5호 ) 33). 미국의경우, 미국연방법인 PROTECT법에서아동포르노그라피의개념을 성적으로노골적인행위 (Sexual explict conduct) 에관여하고있는미성년자를묘사한영상 으로정하고있으며, 여기서성적으로노골적인행위라함은 동성또는이성간에생식을이용한성교행위, 구강및항문과생식기를이용한 33) http://www.law.go.kr/lsinfop.do?lsiseq=150720&efyd=20140929#0000. 2015. 6. 16 검색
132 2015 년소셜빅데이터기반보건복지이슈동향분석 유사성교행위, 수간, 자위, 가학적또는피가학적인학대행위, 특정인의생식기혹은음부의외설적인전시행위 이라고구체적으로명시되어있다 (U.S. Department of state, 2003). 일본에서는아동포르노그라피의개념을 아동매춘, 아동포르노에관련된행위등에대한처벌등법률제 2조의 3 과 도쿄도청소년보호조례개정안제 3장 7조 2항 에서는 18 세미만으로표현되고있다고인식되는청소년에대해서성적인감정을자극하거나, 아동을상대로한성교, 아동을상대로한성교유사행위, 아동에의한성교, 아동에의한성교유사행위가포함되는것으로규정하고있다 ( 東京都議会, 2010). 현대사회에서음란물이문제가된사회적배경으로는그동안미디어소비의주체가기성세대였던반면에청소년들에게도다양한미디어를소비할수있는선택권이주어져서인터넷음란물접촉과도같은문제행동이가능해진것이다 (Gruber & Thau, 2003, p.441~443). 한편, 섹스팅 (sexting) 이란 sex 와 texting 의합성어로만 18세미만의청소년들이자신의핸드폰상이나인터넷상에서만난불특정한이성에게핸드폰의카메라와같은디지털장비를사용하여찍은성적인이미지를다른핸드폰과같은장비혹은인터넷에전송하는행위를의미한다 (Lounsbury et al.,2009, p1; Walker et al, 2011, p.8). 섹스팅은 Macquarie 온라인사전 34) 에 2010년에처음으로등재된이후연구자들에의해쓰여지고있고 (Walker et al, 2011, p.8), 연구자들사이에도청소년들끼리신체노출사진을교환하는활동에대해서 나체또는반나체사진교환 이라는애매한용어대신섹스팅이라는용어를사용하기로합의가되었으며성적인의미가담긴 SMS 문자를주고받는활동은제외하고사진을교환하는행위만을부르는용어로의미가정해 34) https://www.macquariedictionary.com.au
제 5 장소셜빅데이터를활용한한국의섹스팅 (Sexting) 위험예측 133 지고있다 (Lounsbury et al, 2010, p.2). 3. 연구방법 가. 연구대상 본연구는국내의 SNS, 온라인뉴스사이트등인터넷을통해수집된소셜빅데이터를대상으로하였다. 본분석에서는 146개의온라인뉴스사이트, 9개의게시판, 1개의 SNS( 트위터 ) 등총 156개의온라인채널을통해수집가능한텍스트기반의웹문서 ( 버즈 ) 를소셜빅데이터로정의하였다. 섹스팅관련토픽 (topic) 35) 의수집은 2011. 1. 1 ~ 2015. 3. 31(4년 3개월간 ) 해당채널에서요일, 주말, 휴일을고려하지않고매시간단위로수집하였으며, 수집된총 65,611건중청소년추정문서 13,774건 (2011년: 1,086건, 2012년 : 5,352건, 2013년 : 3983건, 2014 년 : 2,319건, 2015년 :1,034건) 의텍스트 (Text) 문서를본연구의분석에포함시켰다. 섹스팅토픽은모든관련문서를수집하기위해 섹스팅 을사용하였으며, 토픽과같은의미로사용되는토픽유사어로는 음란물유통, 성인물유통, sexting, 음란유통, 음란유포, 음란물업로드, 음란물다운, 음란공유, 음란채팅, 포르노유통, 포르노유포, 야동유통, 야동유포, 야동업로드, 야동다운 용어를사용하였다. 본연구를위한소셜빅데이터의수집 36) 은크롤러 (Crawler) 를사용하였고, 이후주제분석을통해분류된명사형어휘를유목화 (categorization) 하여분석요인으 35) 토픽은소셜분석및모니터링의 대상이되는주제어 를의미하며, 문서내에관련토픽이포함된문서를수집함. 36) 본연구를위한소셜빅데이터의수집및토픽분류는 ( 주 )SK 텔레콤스마트인사이트 에서수행함.
134 2015 년소셜빅데이터기반보건복지이슈동향분석 로설정하였다. 나. 연구도구 섹스팅과관련하여수집된문서는주제분석 37) 의과정을거쳐다음과 같이정형화데이터로코드화하여사용하였다. 1) 섹스팅관련감정 본연구의섹스팅감정키워드는문서수집이후, 주제분석을통하여총 106개 ( 중독, 갈등, 강제, 걱정, 고민, 고생, 고통, 골치, 공감, 공포, 긍정, 기쁨, 논란, 눈물, 단절, 따뜻, 문제, 반대, 반대, 서명, 불안, 불편, 비난, 사회악, 상처, 서명, 스트레스, 실패, 심각, 악영향, 어려움, 우려, 우울증, 인정, 자유, 잘못, 재미, 중독성, 즐거움, 집착, 최고, 최악, 포기, 피로, 한숨, 한심, 행복, 호기심, 후회, 흥미, 희망, 긴급, 엄중, 비방, 강화, 흥분, 충격, 기대, 요구, 강경, 모욕, 중요, 집중, 협박, 검토, 해결, 부담, 위험, 비판, 장난, 적나라, 야한, 비하한, 자극적인, 곤혹, 막장, 유혹, 침해, 욕설, 자극, 쓰레기, 은밀, 기대감, 거짓, 혼란, 힘들다, 부적절, 현혹, 호소, 선처, 조롱, 불쌍, 위협한, 수치심, 잔인, 잔혹, 왜곡, 방탕, 배신감, 악마, 빡친다, 퇴치, 혐오감, 퇴폐적, 마음고생, 충격적인, 복수 ) 키워드로분류하였다. 본연구에서는 106개의음란물유통감정키워드 ( 변수 ) 가가지는음란물유통감정정도를판단하기위해 2차요인분석을통하여 11 개의요인 (67개변수 ) 으로축약을실시한후, 감성분석을실시하였다. 일 37) 주제분석에사용되는사전은 21 세기세종계획 과같은범용사전도있지만대부분분석의목적에맞게사용자가설계한사전을사용하게된다. 본연구의섹스팅관련주제분석은 SKT 에서관련문서수집후원시자료 (raw data) 에서나타난상위 2,000 개의키워드들을대상으로유목화를하여사용자사전을구축하였다.
제 5 장소셜빅데이터를활용한한국의섹스팅 (Sexting) 위험예측 135 반적으로감성분석은긍정과부정의감성어사전으로분석해야하나, 본연구에서는요인분석의결과로분류된주제어의의미를파악하여감성분석을실시하였다. 요인분석에서결정된 11개의요인에대한주제어의의미를파악하여 일반군, 위험군 으로감성분석을실시하였다. 따라서본연구에서는일반군 (27개: 강경, 고통, 상처, 수치심, 비방, 엄중, 마음고생, 한숨, 골치, 불편, 퇴치, 피로, 조롱, 악영향, 최악, 쓰레기, 단절, 한심, 서명, 비하한, 모욕, 거짓, 배신감, 사회악, 혼란, 불쌍, 장난 ), 위험군 (28개: 잔혹, 잔인, 공포, 고생, 최고, 중요, 자유, 위험, 요구, 인정, 자극, 침해, 기대, 해결, 긍정, 충격, 적나라, 중독성, 중독, 방탕, 퇴폐적, 유혹, 은밀, 혐오감, 집착, 야한, 흥분, 흥미 ) 으로분류하였다. 그리고일반군과위험군의감정을동일한횟수로표현한문서는잠재군으로분류하였다. 그리고, 최종위험군과잠재군은 위험 으로일반군과감정을나타내지않은문서는 일반 으로분류하였다. 위험군은섹스팅을긍정적으로생각하는감정이고, 일반군은섹스팅을부정적으로생각하는감정을나타낸다. 2) 섹스팅에대한제도 섹스팅에대한제도정의는요인분석과주제분석과정을거쳐 가중처 벌, 정보통신망법, 벌금, 아동청소년보호법 의 4 개제도로제도가있는 경우는 1, 없는경우는 0 으로코드화하였다. 3) 섹스팅에대한기관 섹스팅에대한기관정의는주제분석과정을거쳐 방송통신위원회, 경찰청, 국회, 청와대, 정부, 사법기관, 시민단체, 국제기구 의 8 개기관 으로기관이있는경우는 1, 없는경우는 0 으로코드화하였다.
136 2015 년소셜빅데이터기반보건복지이슈동향분석 4) 섹스팅에대한폐해 섹스팅에대한폐해의정의는요인분석과주제분석과정을거쳐 명예 훼손, 성범죄, 사기, 음주, 사회문제 의 5 개폐해로폐해가있는경우는 1, 없는경우는 0 으로코드화하였다. 5) 섹스팅에대한영향 섹스팅에대한영향의정의는주제분석과정을거쳐 공부, 건강, 대인 관계, 비용, 윤리의식, 성욕 의 6 개로해당영향이있는경우는 1, 없는 경우는 0 으로코드화하였다. 6) 섹스팅에대한도움 섹스팅에대한도움의정의는요인분석과주제분석과정을거쳐 예방 교육, 전문가상담, 건전생활유도, 통제, 사랑 의 5 개도움으로해당도움 이있는경우는 1, 없는경우는 0 으로코드화하였다. 7) 섹스팅에대한유형 섹스팅에대한유형의정의는주제분석과요인분석과정을거쳐 성인 음란물, 유해광고, 스미싱 38), 아동음란물 의 4 개유형으로해당유형이 있는경우는 1, 없는경우는 0 으로코드화하였다. 38) 스미싱은문자메시지 (SMS) 와피싱 (Phishing) 의합성어로휴대전화문자메시지를통해발송되는피싱공격을의미한다.
제 5 장소셜빅데이터를활용한한국의섹스팅 (Sexting) 위험예측 137 8) 섹스팅에대한내용 섹스팅에대한내용의정의는요인분석과주제분석과정을거쳐 누 드, 성행위, 원조교재, 문란행위, 폭력 의 5 개내용으로해당내용이있는 경우는 1, 없는경우는 0 으로코드화하였다. 9) 섹스팅에대한유통방식 섹스팅에대한유통방식의정의는주제분석과정을거쳐 수요, 공급, 공유 의 3 개유통방식으로해당내용이있는경우는 1, 없는경우는 0 으로코드화하였다. 10) 섹스팅에대한채널 섹스팅에대한채널의정의는요인분석과주제분석과정을거쳐 SNS, 온라인커뮤니티, 파일공유채널 의 3 개채널로해당내용이있는경 우는 1, 없는경우는 0 으로코드화하였다. 4. 분석방법 본연구에서는우리나라의섹스팅의위험을설명하는가장효율적인예측모형을구축하기위해특별한통계적가정이필요하지않은데이터마이닝 (data mining) 의연관분석 (Association analysis) 과의사결정나무 (decision tree) 방법을사용하였다. 소셜빅데이터분석에서연관분석은하나의온라인문서 (transaction) 에포함된둘이상의단어들에대한상호관련성을발견하는것으로동시에발생한어떤단어들의집합에
138 2015 년소셜빅데이터기반보건복지이슈동향분석 대해조건과연관규칙을찾는분석방법이다. 본연구의연관분석은선험적규칙 (apriori principle) 알고리즘을사용하였다. 본연구의섹스팅의위험예측에사용된연관분석의측도는지지도 0.02, 신뢰도 0.2를기준으로시뮬레이션하였다. 데이터마이닝의의사결정나무분석은방대한자료속에서종속변인을가장잘설명하는예측모형을자동적으로산출해줌으로써각기다른속성을가진섹스팅에대한요인을쉽게파악할수있다. 본연구의의사결정나무형성을위한분석알고리즘은 CHAID (Chi-squared Automatic Interaction Detection) 를사용하였다. CHAID(Kass, 1980) 는이산형인종속변수의분리기준으로카이제곱 ( -검정) 을사용하며, 모든가능한조합을탐색하여최적분리를찾는다. 정지규칙 (stopping rule) 으로관찰치가충분하여상위노드 ( 부모마디 ) 의최소케이스수는 100으로하위노드 ( 자식마디 ) 의최소케이스수는 50으로설정하였고, 나무깊이는 3수준으로정하였다. 본연구의기술분석, 다중응답분석, 의사결정나무분석은 SPSS v. 22.0을사용하였고, 연관분석과시각화는 R version 3.1.3, 소셜네트워크분석은 NetMiner 39) 를사용하였다. 5. 연구결과 가. 섹스팅관련문서 ( 버즈 ) 현황 섹스팅과관련된버즈는년도별로다르지만 10 시부터증가하여 11 시 이후급감하며, 다시 13 시이후증가하여 15 시이후감소하고, 23 시이 후증가하여 3 시이후급감하는패턴을보이고있는것으로나타났다. 섹 39) NetMiner v4.2.0.140122 Seoul: Cyram Inc.
제 5 장소셜빅데이터를활용한한국의섹스팅 (Sexting) 위험예측 139 스팅과관련된버즈는목요일과수요일에가장높은추이를보이는반면, 주말에는감소하는것으로나타났다. 그림 5-1 섹스팅관련시간별및요일별버즈현황 그림 5-2 와같이연도별섹스팅에대해긍정적인감정 ( 위험 ) 변화는 2011년대비평균 4.6배씩증가하였으며, 위험감정의표현단어는요구, 충격, 인정, 자유, 중요, 침해등의순으로집중된것으로나타났다. 섹스팅에대해부정적인감정 ( 일반 ) 변화는 2011년대비평균 2.5배씩하였으며, 일반감정의표현단어는수치심, 상처, 고통, 모욕, 악영향, 장난등의순으로집중된것으로나타났다.
140 2015 년소셜빅데이터기반보건복지이슈동향분석 그림 5-2 연도별섹스팅감정변화 2011 년 2012 년 2013 년 2014 년 2015 년 2011 년 2012 년 2013 년 2014 년 2015 년
제 5 장소셜빅데이터를활용한한국의섹스팅 (Sexting) 위험예측 141 < 표 5-1> 과같이섹스팅에대한위험감정키워드의연관성예측에서 { 집착, 야한, 흥분 } => { 혐오감 } 네변인의연관성은지지도 0.001, 신뢰도는 0.933, 향상도는 132.53으로나타났다. 이는온라인문서에서집착, 야한, 흥분이언급되면협오감감정이나타날확률이 93.3% 이며, 집착, 야한, 흥분이언급되지않은문서보다혐오감감정을나타낼확률이 132.5배높아지는것을나타낸다. 따라서, 섹스팅의위험감정은혐오감, 집착, 자극, 야한, 자유, 요구에강하게연결되어있는것으로나타났다. 표 5-1 섹스팅의위험감정키워드연관성예측지지도 신뢰도 향상도 { 집착, 야한, 흥분 } => { 혐오감 } 0.001016408 0.9333333 132.533333 { 혐오감, 야한, 흥분 } => { 집착 } 0.001016408 1.0000000 112.901639 { 중독, 혐오감, 야한 } => { 집착 } 0.001161609 0.8888889 100.357013 { 혐오감, 흥분 } => { 집착 } 0.001016408 0.8235294 92.977821 { 중독, 혐오감 } => { 집착 } 0.001234209 0.8095238 91.396565 { 자유, 침해, 흥분 } => { 자극 } 0.001089008 0.8823529 52.841432 { 침해, 흥분 } => { 자극 } 0.001234209 0.8500000 50.903913 { 혐오감, 집착, 흥분 } => { 야한 } 0.001016408 1.0000000 41.363363 { 중독, 혐오감, 집착 } => { 야한 } 0.001161609 0.9411765 38.930224 { 혐오감, 집착 } => { 야한 } 0.001597212 0.9166667 37.916416 { 중독, 혐오감 } => { 야한 } 0.001306810 0.8571429 35.454311 { 혐오감, 흥분 } => { 야한 } 0.001016408 0.8235294 34.063946 { 위험, 인정, 침해 } => { 자유 } 0.001016408 0.9333333 19.808526 { 중요, 위험, 요구, 충격 } => { 자유 } 0.001524612 0.9130435 19.377906 { 자극, 침해, 흥분 } => { 자유 } 0.001089008 0.8823529 18.726548 { 침해, 흥분 } => { 자유 } 0.001234209 0.8500000 18.039908 { 자유, 위험, 요구, 충격 } => { 중요 } 0.001524612 0.8076923 17.519927 { 최고, 요구, 침해 } => { 자유 } 0.001016408 0.8235294 17.478111 { 위험, 인정, 침해 } => { 요구 } 0.001016408 0.9333333 9.124012 { 중요, 자유, 위험, 충격 } => { 요구 } 0.001524612 0.9130435 8.925664
142 2015 년소셜빅데이터기반보건복지이슈동향분석 그림 5-3 과같이지역별섹스팅에대한감정은일반은서울, 경기, 대전, 부산, 경남등의순으로높은것으로나타났고, 위험은서울, 경기, 부산, 대전, 전남등의순으로높은것으로나타났다. 그림 5-3 지역별섹스팅감정 ( 일반, 위험 ) < 표 5-2> 와같이섹스팅과관련하여긍정적감정 ( 위험 ) 을나타내는버즈는 38.3%(2011년 : 51.7%, 2012년 32.4%, 2013년 36.1%, 2014년 46.3%, 2015년 45.5%) 로나타났다. 섹스팅과관련폐해는성범죄 (71.2%), 명예훼손 (9.5%), 사기 (7.6%) 등의순으로나타났다. 섹스팅과
제 5 장소셜빅데이터를활용한한국의섹스팅 (Sexting) 위험예측 143 관련유형은성인음란물 (71.3%), 아동음란물 (16.1%), 유해광고 (3.8%), 스미싱 (3.8%) 순으로나타났다. 섹스팅과관련내용으로는성행위 (52.7%), 누드 (25.3%), 폭력 (12.0%) 등의순으로나타났다. 섹스팅과관련도움으로는전문가상담 (33.8%), 통제 (29.2%), 예방교육 (17.7%) 등의순으로나타났다. 섹스팅과관련유통으로는공급 (58.2%), 수요 (22.8%), 공유 (19.0%) 의순으로나타났다. 섹스팅과관련영향으로는공부 (61.7%), 건강 (15.8%), 성욕 (8.1%) 등의순으로나타났다. 섹스팅과관련제도로는정보통신망법 (61.2%), 가중처벌 (13.6%), 벌금 (13.3%), 아동청소년보호법 (11.9%) 순으로나타났다. 섹스팅과관련기관은경찰청 (49.6%), 방송통신위원회 (15.0%), 정부 (13.0%), 국회 (9.2%) 등의순으로나타났다. 섹스팅과관련채널은 SNS(56.1%), 파일공유채널 (33.3%), 온라인커뮤니티 (10.6%) 순으로나타났다. 표 5-2 섹스팅관련버즈현황 구분 항목 N(%) 구분 항목 N(%) 위험 5,277(38.3) 명예훼손 657(9.5) 감정 일반 8,497(61.7) 성범죄 4,931(71.2) 계 13,774 사기 529(7.6) 폐해 SNS 5,820(56.1) 음주 417(6.0) 채널유형내용 온라인커뮤니티 1,094(10.6) 사회문제 393(5.7) 파일공유채널 3,454(33.3) 계 6,927 계 10,368 공부 1,432(61.7) 성인음란물 7,440(71.3) 건강 367(15.8) 유해광고 919(3.8) 대인관계 77(3.3) 스미싱 398(3.8) 영향 비용 133(5.7) 아동음란물 1,676(16.1) 윤리의식 123(5.3) 계 10,433 성욕 188(8.1) 누드 1,893(25.3) 계 2,320 성행위 3,943(52.7) 가중처벌 2,105(13.6) 원조교재 94(1.3) 정보통신망법 9,455(61.2) 문란행위 659(8.8) 제도 벌금 2,060(13.3) 폭력 897(12.0) 아동청년보호법 1,838(11.9) 계 7,486 계 15,458
144 2015 년소셜빅데이터기반보건복지이슈동향분석 구분 항목 N(%) 구분 항목 N(%) 예방교육 2,044(17.7) 방송통신위원회 1,642(15.0) 전문가상담 3,916(33.8) 경찰청 5,442(49.6) 도움 건전생활유도 708(6.1) 국회 1,006(9.2) 통제 3,382(29.2) 청와대 528(4.8) 사랑 1,530(13.2) 기관 정부 1,427(13.0) 계 11,580 사법기관 590(5.4) 수요 2,681(22.8) 시민단체 244(2.2) 유통 공급 6,829(58.2) 국제기구 82(0.7) 공유 2,232(19.0) 계 10,964 계 11,742 나. 섹스팅관련소셜네트워크분석 근접중심성은평균적으로다른노드들과의거리가짧은노드의중심성이높은경우로, 근접중심성이높은노드는확률적으로가장빨리다른노드에영향을주거나받을수있다. 따라서 그림 5-4 의음란물유통의내용 유형간의외부근접중심성 (out closeness Centrality) 을살펴보면성인음란물은성행위, 누드, 폭력, 문란행위에밀접하게연결되어있으며, 아동음란물은성행위, 누드, 폭력과접하게연결되어있는것으로나타났다. 그리고스미싱은성행위와밀접하게연결되어있는것으로나타났다. 음란물유통의폐해 도움간의외부근접중심성을살펴보면성범죄는전문가상담, 통제, 예방교육과밀접하게연결되어있으며, 명예훼손은통제, 전문가상담과밀접하게연결되어있는것으로나타났다. < 표 5-3> 과같이섹스팅위험에대한연관성예측에서가장신뢰도가높은연관규칙으로는 { 문란행위, 성인음란물 } => { 위험 } 이며세변인의연관성은지지도 0.031, 신뢰도는 0.765, 향상도는 1.996으로나타났다. 이는온라인문서에서문란행위, 성인음란물이언급되면섹스팅을긍적적 ( 위험 ) 으로생각할확률이 76.5% 이며, 문란행위, 성인음란물이언급되
제 5 장소셜빅데이터를활용한한국의섹스팅 (Sexting) 위험예측 145 지않은문서보다섹스팅이위험한확률이 1.996배높아지는것을나타낸다. 특히, { 아동음란물 } => { 일반 } 두변인의연관성은지지도 0.074, 신뢰도는 0.609, 향상도는 0.987로나타났다. 이는온라인문서에서아동음란물이언급되면섹스팅이부정적 ( 일반 ) 인확률이 60.9% 이며, 아동음란물이언급되지않은문서보다섹스팅이부정적확률이 0.98배로낮아지는것을나타낸다. 그림 5-4 섹스팅의내용 유형및폐해 도움간외부근접중심성 표 5-3 유형과내용요인에대한섹스팅위험예측 규칙 지지도 신뢰도 향상도 { 문란행위, 성인음란물 } => { 위험 } 0.03092784 0.7648115 1.9963073 { 성행위, 폭력 } => { 위험 } 0.02279657 0.7511962 1.9607686 { 문란행위 } => { 위험 } 0.03455786 0.7223065 1.8853610 { 누드, 성행위, 성인음란물 } => { 위험 } 0.04450414 0.7078522 1.8476324 { 누드, 성행위 } => { 위험 } 0.05227240 0.6792453 1.7729628 { 폭력, 성인음란물 } => { 위험 } 0.03071003 0.6438356 1.6805366 { 누드, 성인음란물 } => { 위험 } 0.06780892 0.6401645 1.6709543 { 성행위, 성인음란물 } => { 위험 } 0.13329461 0.6232179 1.6267204 {} => { 일반 } 0.61688689 0.6168869 1.0000000 { 아동음란물 } => { 일반 } 0.07412516 0.6091885 0.9875207 { 성인음란물, 유해광고 } => { 위험 } 0.02686220 0.6055646 1.5806419