<BFACB1B85F D333528BCDBC5C2B9CE295F32C2F7C8AEC0CEBFEB5F E687770>

Similar documents
보건 복지 Issue & Focus 한반도통일은남북한의문이자동북아주변국의미래를좌우할국적사안으로 5), 한반도평화체와본격적인통일과정에서국사회의지지는필수불가결한요소이며 6) 국내차원에서는통일에대한국민적공감대형성과통일을맞이할수있는역량구축이필요함 통일을위해서국차원에서는한반도통



Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A S

장애인건강관리사업

<B3EDB4DC28B1E8BCAEC7F6292E687770>

년소셜빅데이터를활용한통일인식동향분석 통일에대한한국인의전반적인관심도는 2010년 52.6% 에서 2014년 82.6% 로증가하였으나 20대의무관심은다른세대에비해높은상태로지속됨. 3) 최근의남북관계는모든세대의통일인식에강하게영향을미치고있으나신자유주의통일세대 (

동아시아국가들의실질환율, 순수출및 경제성장간의상호관계비교연구 : 시계열및패널자료인과관계분석

<B4E3B9E8B0A1B0DD DB9E8C6F7C0DAB7E12E687770>

1048 Tae Min Song Juyoung Song Mi Kyung Cheon 등, 2015; CDC, 2010; Thun 등, 2013). 우리나라는 1995년국민건강증진법이제정됨에따라본격적으로담배판매, 광고, 금연구역확대등을추진하였고, 청소년보호법, 학교보건법등

C O N T E N T S 목 차 요약 / 3 Ⅰ. 브라질소비시장동향및특성 경제현황 2. 소비시장의특성 Ⅱ. 브라질소비시장히트상품분석 최근히트상품 년소비시장, 이런상품을주목하라! Ⅲ. 우리기업의 4P 진출전략

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

278 경찰학연구제 12 권제 3 호 ( 통권제 31 호 )

KDI정책포럼제221호 ( ) ( ) 내용문의 : 이재준 ( ) 구독문의 : 발간자료담당자 ( ) 본정책포럼의내용은 KDI 홈페이지를 통해서도보실수있습니다. 우리나라경

2013 년 10 월관광객입출국 / 관광수입 지출분석

2002report hwp

[ 목차 ]

노인정신의학회보14-1호



Jkafm093.hwp

한국성인에서초기황반변성질환과 연관된위험요인연구


歯1.PDF

<C1A4C3A5C0DAB7E15F D303128BCDBC5C2B9CE295FC3D6C1BEC0CEBCE2BFEB C3D6C1BE2DC6EDC1FD2E687770>

중동호흡기증후군 대응 지침(제3-2판)_최종_다시.hwp

<B3EDB9AEC0DBBCBAB9FD2E687770>

목 차 Ⅰ. 감염병현황과기본전략 1 1. 기본계획수립배경 2 2. 감염병발생현황 3 3. 정책환경및문제점 4 4. 정책추진방향 6 5. 비전과목표, 주요과제 성과지표 15 Ⅱ. 감염병별맞춤형대응 수인성 식품매개및접촉전파감염병 예방접종대상

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

2013 년 11 월관광객입출국 / 관광수입 지출분석

구분신고및보고사례조사및유행역학조사감염경로전파기간 하게접촉한사람 - 발열과호흡기증상 [ 기침, 호흡곤란 (Shortness of Breath) 등 ] 이있으면서, 증상이나타나기전 14일이내에중동지역의료기관에직원, 환자, 방문자로있었던사람 - 발열또는호흡기증상 [ 기침,

2 인구절벽에대비한해외정책및사례연구

조사연구 aim of this study is to find main cause of the forecasting error and bias of telephone survey. We use the telephone survey paradata released by N

서론 34 2

<352E20BCD2BCC820BAF2B5A5C0CCC5CD20B1E2B9DD20C0FAC3E2BBEA20C1A4C3A520BCF6BFE4BAD0BCAE28BCDBC5C2B9CE29202D20BCF6C1A432C2F72E687770>

04 특집

Supplementary Infection & Chemotherapy 중동호흡기증후군코로나바이러스검사실진단지침 대한진단검사의학회 메르스에대한기본설명 1. 한글명 2. 영문명 Detection of Middle East Respiratory Syndrome Coronav

???德嶠짚

01정책백서목차(1~18)

맘톡광고소개서


DBPIA-NURIMEDIA

CC hwp

보건사회연구-25일수정

A 한국노동연구원 한국보건사회연구원 1998 년 한국사회과학자료원 2008년 2008년

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

<BBE7C8B8C0FBC0C7BBE7BCD2C5EBBFACB1B820C3D6C1BEBAB8B0EDBCAD2E687770>


<C3D6C1BEBAB8B0EDBCAD5FB4E3B9E8B0A1B0DDC0CEBBF3B0FA20C0E7BFF8C8B0BFEBB9E6BEC82E687770>

2002report hwp

C O N T E N T S 1. FDI NEWS 2. GOVERNMENT POLICIES 3. ECONOMY & BUSINESS 4. FDI STATISTICS 5. FDI FOCUS

보건 복지 Issue & Focus 보건복지부 3.0의 소통하는투명한보건복지 는빅데이터의이용활성화를위해공공데이터를적극개방함으로써활용가능한자료가복잡하고 (Complexity), 양이매우방대해짐 (Volume) 보건복지부 3.0의 일잘하는유능한보건복지 는빅데이터를활용한과학

정책동향 10 권 5 호 2016 있으며, 인플루엔자, 기생충감염증, 수족구병, 성매개감염병, 다제내성균등의법정감염병은표본감시에해당된다. 자료수집방식에따라서는감염병을발견한보건의료종사자가감시체계운영기관에신고하는형태의수동적감시체계와감시체계운영자가감시대상지역에직접나가상세한자

ìœ€íŁ´IP( _0219).xlsx

01 01NEAR


C O N T E N T S 1. FDI NEWS 2. GOVERNMENT POLICIES 3. ECONOMY & BUSINESS 4. FDI STATISTICS 5. FDI FOCUS

경상북도와시 군간인사교류활성화방안

¨è ¿¬Â÷º¸°í¼Ł³»Áö-1 PDF


CC hwp

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

조사연구 sampling error of polling sites and the additional error which comes from non-response, early voting and second stage sampling error of voters in

에너지경제연구제 16 권제 1 호 Korean Energy Economic Review Volume 16, Number 1, March 2017 : pp. 35~55 학술 전력시장가격에대한역사적요인분해 * 35


ISSN 제 3 호 치안정책연구 The Journal of Police Policies ( 제29권제3호 ) 치안정책연구소 POLICE SCIENCE INSTITUTE

성능 감성 감성요구곡선 평균사용자가만족하는수준 성능요구곡선 성능보다감성가치에대한니즈가증대 시간 - 1 -

<5B31362E30332E31315D20C5EBC7D5B0C7B0ADC1F5C1F8BBE7BEF720BEC8B3BB2DB1DDBFAC2E687770>

<3034C1DFB5BFC0C7B7E1B1E2B1E2BDC3C0E5B5BFC7E22E687770>


30이지은.hwp

#Ȳ¿ë¼®

IDP www idp or kr IDP 정책연구 한국경제의구조적문제와개혁방향 민주정책연구원 The Institute for Democracy and Policies

조사연구 whether this expansive monitoring system might basically achieve the improvement in statistical quality capturing problems in survey research. Ba



Untitled-1

ad hwp

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

시황전망

뉴스평가지수의개발과적용

보건분야 - 보고서연구원 직업성천식감시체계구축 운용 The surveillance to detect the occupational asthma in Korea 2011 년사업결과보고서 Occupational Safety and Health Research

해외유학생보험3단팜플렛1104

27 2, 1-16, * **,,,,. KS,,,., PC,.,,.,,. :,,, : 2009/08/12 : 2009/09/03 : 2009/09/30 * ** ( :

09오충원(613~623)

Special Theme TV SNS 2015 Spring vol

지난 2009년 11월 애플의 아이폰 출시로 대중화에 접어든 국내 스마트폰의 역사는 4년 만에 ‘1인 1스마트폰 시대’를 눈앞에 두면서 모바일 최강국의 꿈을 실현해 가고 있다

프랑스 (Loi n du 6 janvier 1978 relative a l'informatique, aux fichiers et aux libertes L'Assemblee nationale et le Senat ont adopte) 독일 (Bundesdat

Output file

Ⅰ. 인플루엔자의사환자발생현황 1. 주간표본감시결과 2012 년도제 16 주인플루엔자의사환자분율 은외래환자 1,000 명당 8.7 명으로지난주 (13.8) 보다감소하였으며 A/H1N1pdm09 인플루엔자대유행기를제외한지난 3 년같은주평균인플루엔자의사환자분율 (4.6/1

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

이발간물은국방부산하공익재단법인한국군사문제연구원에서 매월개최되는국방 군사정책포럼에서의논의를참고로작성되었습니다. 일시 장소주관발표토론간사참관 한국군사문제연구원오창환한국군사문제연구원장허남성박사 KIMA 전문연구위원, 국방대명예교수김충남박사 KIMA객원연

학술원논문집 ( 자연과학편 ) 제 50 집 2 호 (2011) 콩의식품적의의및생산수급과식용콩의자급향상 李弘䄷 * 李英豪 ** 李錫河 *** * Significance of Soybean as Food and Strategies for Self Suffici

USC HIPAA AUTHORIZATION FOR

들어가는말 중동호흡기증후군 (Middle East respiratory syndrome, MERS; 이하메르스 ) 은 2012년 4월사우디아라비아에서처음보고후 2017년 12월 31일까지전세계적으로 27개국에서 2,127 명이확진되고 757명이사망하여치사율 35.6%

PowerPoint Presentation

빅데이터_DAY key

에너지경제연구 제13권 제1호

PHI Report 시민건강이슈 Ⅱ 모두가건강한사회를만들어가는시민건강증진연구소 People's Health Institute

C O N T E N T S 1. FDI NEWS 2. GOVERNMENT POLICIES 中, ( ) ( 对外投资备案 ( 核准 ) 报告暂行办法 ) 3. ECONOMY & BUSINESS 美, (Fact Sheet) 4. FDI STATISTICS 5. FDI FOCU

Transcription:

연구보고서 2015-35 2015 년소셜빅데이터기반보건복지이슈동향분석 송태민 진달래

책임연구자 송태민한국보건사회연구원연구위원 주요저서 보건복지빅데이터효율적관리방안연구한국보건사회연구원, 2014( 공저 ) 빅데이터분석방법론한나래아카데미, 2013( 공저 ) 공동연구진 진달래한국보건사회연구원연구원 연구보고서 2015-35 2015 년소셜빅데이터기반보건복지이슈동향분석 발행일저자발행인발행처주소 전화홈페이지등록인쇄처정가 2015 년 12 월 31 일송태민김상호한국보건사회연구원 [30147] 세종특별자치시시청대로 370 세종국책연구단지사회정책동 (1 층 ~5 층 ) 대표전화 : 044)287-8000 http://www.kihasa.re.kr 1994 년 7 월 1 일 ( 제 8-142 호 ) 한디자인코퍼레이션 6,000 원 c 한국보건사회연구원 2015 ISBN 978-89-6827-296-7 93510

발간사 << 최근스마트폰, 스마트TV, RFID, 센서등의급속한보급과모바일인터넷과소셜미디어의확산으로데이터량이기하급수적으로증가하고데이터의생산, 유통, 소비체계에큰변화를주면서데이터가경제적자산이될수있는빅데이터시대를맞이하게되었다. 세계각국의정부와기업들은빅데이터가향후국가와기업의성패를가름할새로운경제적가치의원천이될것으로기대하고있으며, The Economist, Gartner, McKinsey 등은빅데이터를활용한시장변동예측과신사업발굴등경제적가치창출사례및효과를제시하고있다. 특히, 빅데이터는미래국가경쟁력에도큰영향을미칠것으로기대하여국가별로는안전을위협하는글로벌요인이나테러, 재난재해, 질병, 위기등에선제적으로대응하기위해우선적으로도입하고있다. 한국은최근정부3.0과창조경제의추진과실현을위하여현정부의주요정책과제를지원하기위하여다양한분야에빅데이터의활용가치가강조되고있다. 빅데이터는데이터의형식이다양하고, 방대할뿐만아니라그생성속도가매우빨라기존의데이터를처리하던방식이아닌새로운관리및분석방법을요구한다. 또한, 트위터, 페이스북등소셜미디어에남긴정치, 경제, 사회, 문화에대한메시지는그시대의감성과정서를파악할수있는원천으로등장함에따라, 대중매체에의해수립된정책의제는이제소셜미디어로부터파악할수있으며, 개인이주고받은수많은댓글과소셜로그정보는공공정책을위한공공재로서진화중에있다.

이와같이많은국가와기업에서는 SNS를통하여생산되는소셜빅데이터의활용과분석을통하여새로운경제적효과와일자리창출은물론사회적문제의해결을위하여적극적으로노력하고있다. 이에본연구는소셜빅데이터를기반으로우리나라보건복지주요이슈에대한동향을분석하기위한것으로 2015년의주요이슈로는메르스, 담배, 통일, 청소년음란물유통의 4개의주제에대해소셜빅데이터를수집하여동향분석과수요예측및위험예측모형을제시하였다. 이와같은연구는보건복지주요이슈를적시에분석하고수요를예측할수있다는점에서정책적 분석방법론적으로의의가있으며, 실제적으로내용을보다빠르게효과적으로파악하여사회조사가지닌한계를보완할수있는새로운조사방법으로서의소셜빅데이터가치를확인하였다는점에서조사방법론적의의를가진다고할수있다. 본연구에귀중한조언을아끼지않으신많은전문가분들과주요이슈에대한논문집필에참여해주신교수님들께감사드린다. 끝으로본보고서에수록된모든내용은우리연구원의공식적인견해는아니며어디까지나참여한연구진의의견임을밝힌다. 2015 년 12 월 한국보건사회연구원장 김상호

목차 Abstract 1 요약 3 제1장소셜빅데이터분석과활용방안 9 1. 서론 11 2. 빅데이터개요 12 3. 소셜빅데이터분석방법 15 4. 소셜빅데이터수집및분류방법 18 참고문헌 23 제2장소셜빅데이터분석기반메르스감정위험예측 25 1. 서론 27 2. 이론적배경 29 3. 연구방법 35 4. 분석결과 40 5. 분석결과요약 54 참고문헌 57 제3장소셜빅데이터를활용한담배위험예측 61 1. 서론 63 2. 연구방법 66 3. 연구결과 72

4. 결론 84 참고문헌 87 제4장소셜빅데이터를활용한통일인식동향분석및예측 91 1. 서론 93 2. 연구방법 95 3. 연구결과 101 4. 결론 118 참고문헌 125 제5장소셜빅데이터를활용한한국의섹스팅 (Sexting) 위험예측 127 1. 서론 129 2. 이론적배경 131 3. 연구방법 133 4. 분석방법 137 5. 연구결과 138 6. 결론및고찰 154 참고문헌 159

Korea Institute for Health and Social Affairs 표목차 표 1-1 빅데이터개인정보보호가이드라인 의주요내용 15 표 1-2 우울온톨로지분류에따른영역수준 20 표 2-1 메르스부정 ( 불안 ) 감정예측 43 표 2-2 메르스관련버즈현황 46 표 2-3 예방요인, 대처 / 치료요인, 증상요인에대한메르스감정예측 47 표 2-4 메르스의감정에영향을미치는요인 49 표 2-5 메르스관련증상요인의예측모형에대한이익도표 53 표 3-1 담배감정키워드연관성예측 74 표 3-2 담배관련버즈현황 76 표 3-3 담배관련연도별감정변화 77 표 3-4 정책요인에대한담배위험예측 78 표 3-5 담배의위험에영향을미치는정책및도구요인 79 표 3-6 정책요인의예측모형에대한이익도표 81 표 3-7 질병요인의예측모형에대한이익도표 83 표 4-1 통일인식의감정키워드연관성예 103 표 4-2 통일관련문서 ( 버즈 ) 현황 106 표 4-3 연도별통일관련국민인식 107 표 4-4 미국대사피습사건전후국민통일인식변화 107 표 4-5 통일관련안보 이슈의국가별버즈현황 108 표 4-6 통일관련안보 이슈의기관별버즈현황 109 표 4-7 안보와이슈요인에대한통일인식의연관성예측 111 표 4-8 주변국가 (4국) 의통일인식의연관성예측 112 표 4-9 통일인식에영향을미치는안보 이슈요인 114 표 4-10 통일인식관련안보 이슈요인의예측모형에대한이익도표 116 표 4-11 통일인식관련국가요인의예측모형에대한이익도표 ( 주변 4국 ) 118 표 5-1 섹스팅의위험감정키워드연관성예측 141

표 5-2 섹스팅관련버즈현황 143 표 5-3 유형과내용요인에대한섹스팅위험예측 145 표 5-4 섹스팅에영향을요인 147 표 5-5 도움요인의섹스팅위험예측모형에대한이익도표 150 표 5-6 내용요인의섹스팅위험예측모형에대한이익도표 151 표 5-7 유형요인의섹스팅위험예측모형에대한이익도표 153 그림목차 그림 1-1 빅데이터의특성과정부 3.0 추진전략 13 그림 1-2 소셜빅데이터분석절차및방법 ( 메르스버즈분석사례 ) 16 그림 1-3 빅데이터분석기반의위기청소년예측및적시대응기술개발연계사례 17 그림 1-4 청소년우울관리온톨로지 19 그림 1-5 메르스분류 ( 범주화, 유목화 ) 체계 21 그림 2-1 세과정사이에서의정보확산 34 그림 2-2 메르스관련문서 ( 버즈 ) 량의일별추이 41 그림 2-3 메르스에대한일자별감정 ( 상위 50개 ) 변화 42 그림 2-4 메르스감정의연관규칙에대한병렬좌표와그래프시각화 44 그림 2-5 지역별메르스위험 ( 불안 ) 감정 44 그림 2-6 메르스관련예방요인의예측모형 51 그림 2-7 메르스관련증상요인의예측모형 52 그림 3-1 담배관련시간별및요일별버즈현황 72 그림 3-2 연도별담배감정변화 73 그림 3-3 담배감정의연관규칙에대한병렬좌표시각화 75 그림 3-4 정책요인의예측모형 80 그림 3-5 질병요인의예측모형 83 그림 4-1 통일관련문서 ( 버즈 ) 량일별추이 102

Korea Institute for Health and Social Affairs 그림 4-2 통일연도별감정변화 102 그림 4-3 통일인식감정의연관규칙에대한병렬좌표시각화 104 그림 4-4 통일감정응집구조분석 110 그림 4-5 통일인식관련안보 이슈요인의예측모형 115 그림 4-6 통일인식관련주요주변국가예측모형 117 그림 5-1 섹스팅관련시간별및요일별버즈현황 139 그림 5-2 연도별섹스팅감정변화 140 그림 5-3 지역별섹스팅감정 ( 일반, 위험 ) 142 그림 5-4 섹스팅의내용 유형및폐해 도움간외부근접중심성 145 그림 5-5 도움요인의섹스팅위험예측모형 149 그림 5-6 내용요인의섹스팅위험예측모형 151 그림 5-7 유형요인의섹스팅위험예측모형 153

Abstract << Social big data trend analysis based on health and welfare issues in 2015 Big data consists of various forms of data in large volumes, which are rapidly created. Therefore, it requires a new management and analysis methodology. Moreover, as social media platforms emerge as the source of information about the feelings and sentiments of the current times with messages on politics, economics, society, and culture, policy agendas set up in public spheres can be identified from social media. Countless comments between individuals and society evolve as a log of information, which continues to evolve as an asset for public policy 1). As such, many nations and businesses actively strive for new economic effects, job creation, as well as solving social problems through the utilization and analysis of social big data created through social networking services (SNS). This study proposes study methodologies and utilization strategies of social big data that can create value and predict the future by gathering and analyzing social big data from various fields. 1) Song YJ (2012) Age of Big Data! The Evolution of SNS and Public Policy. National Information Society Agency.

요약 << 1. 연구의배경및목적 빅데이터는미래국가경쟁력에도큰영향을미칠것으로기대하여국가별로는안전을위협하는글로벌요인이나테러, 재난재해, 질병, 위기등에선제적으로대응하기위해우선적으로도입하고있다. 빅데이터는데이터의형식이다양하고, 방대할뿐만아니라그생성속도가매우빨라기존의데이터를처리하던방식이아닌새로운관리및분석방법을요구한다. 또한, 트위터, 페이스북등소셜미디어에남긴정치, 경제, 사회, 문화에대한메시지는그시대의감성과정서를파악할수있는원천으로등장함에따라, 대중매체에의해수립된정책의제는이제소셜미디어로부터파악할수있으며, 개인이주고받은수많은댓글과소셜로그정보는공공정책을위한공공재로서진화중에있다. 이와같이많은국가와기업에서는 SNS를통하여생산되는소셜빅데이터의활용과분석을통하여새로운경제적효과와일자리창출은물론사회적문제의해결을위하여적극적으로노력하고있다. 기존에실시하던횡단적조사나종단적조사등을대상으로한연구는정해진변인들에대한개인과집단의관계를보는데에는유용하나사이버상에서언급된개인별온라인문서에서논의된관련정보상호간의연관관계를밝히고원인을파악하는데는한계가있다. 이에반해소셜빅데이터의분석은훨씬방대한량의데이터를활용하여다양한참여자의생각과의견을확인할수있기때문에사회적문제의예측과현상에대한복잡한연관관계를보다정확하게밝혀낼수있다. 본연구에서는

4 2015 년소셜빅데이터기반보건복지이슈동향분석 다양한분야의소셜빅데이터를수집 분석하여가치를창출하고미래를예측할수있는소셜빅데이터연구방법과활용방안을제시하였다. 그리고 2015년의주요이슈 ( 메르스, 담배, 통일, 청소년음란물유통 ) 에대한소셜빅데이터를수집하여동향분석과수요예측및위험예측모형을제시하였다. 2. 주요연구결과 제1장 서론 에서는소셜빅데이터분석절차및분류방법에대해설명하였다. 소셜빅데이터의분석은해당주제와관련한문서를분석모델링을통해수집대상과수집범위를설정한후, 대상채널 ( 뉴스 블로그 카페 게시판 SNS 등 ) 에서크롤러등수집엔진 ( 로봇 ) 을이용하여수집한다. 이때불용어를지정하여수집의오류를방지하고관련연관키워드그룹을지정한다. 수집한비정형데이터를텍스트마이닝, 오피니언마이닝을통하여분류하고정제하는절차가필요하다. 정제된비정형데이터분석은버즈분석, 키워드분석, 감성분석, 계정분석등으로진행한다. 소셜빅데이터의수집및분류는해당토픽에대한이론적배경등을분석하여온톨로지를개발한후, 온톨로지의키워드를수집하여분류하는 Top-down 방법과해당토픽을웹크롤로수집한후범용사전이나사용자사전으로분류하는 Bottom-up 방법이있다. 제2장 소셜빅데이터기반메르스감정위험예측 에서는우리나라온라인뉴스사이트, 블로그, 카페, SNS, 게시판등에서수집한소셜빅데이터를바탕으로우리나라에서발생한메르스정보확산위험요인을예측하였다. 메르스관련버즈는 2015년 5월 28일급속히증가하여 5월 30 일감소하였다가 6월 1일이후메르스추가환자발생과사망자발생보

요약 5 도후, 급속히증가한것으로나타났다. 메르스에대한부정적감정 ( 불안 ) 의표현단어는 무시, 한심, 판단, 거부, 비난, 무능, 불구, 답답, 공포, 스트레스, 무책임, 비판, 실패, 괴담, 협박 키워드와강하게연결되어있는것으로나타나, 이는정부의초기대응미흡에대한국민의실망감과 SNS를통한메르스괴담의급속한전파로인한불안감이표출된것으로보인다. 제3장 소셜빅데이터를활용한담배위험예측 에서는우리나라온라인뉴스사이트, 블로그, 카페, SNS, 게시판등에서수집한소셜빅데이터를바탕으로우리나라국민의담배에대한위험예측모형과연관규칙을파악하였다. 담뱃값인상이후위험군은 5.6% 감소하고, 일반군은 6.1% 증가한것으로나타났다. 온라인버즈에서담뱃값인상, 금연관련법이동시에언급되면일반군이될확률이증가하며, 담뱃값인상만언급되어도위험군을감소시키는것으로나타났다. 제4장 소셜빅데이터를활용한통일인식동향분석및예측 에서는우리나라온라인뉴스사이트, 블로그, 카페, SNS, 게시판등에서수집한소셜빅데이터를바탕으로우리나라국민의통일의인식에대한동향을분석하고통일인식의예측모형과연관규칙을파악하였다. 통일의필요성에대한국민인식은통일대박감정을포함할경우찬성은 2011년 55.0%, 2012년 62.2%, 2013년 57.8%, 2014년 77.1%, 2015년 56.2% 로나타났다. 안보 이슈요인이통일인식에미치는영향은통일대박의영향력이가장큰것으로나타나온라인문서중, 통일대박이있을경우통일에대한찬성의인식이이전의 68.8% 에서 85.8% 로증가하였고, 특히통일대박이있고, 핵무기와휴전선이없는경우통일에대해찬성하는확률이가장높은것으로나타났다. 제5장 소셜빅데이터를활용한한국의섹스팅위험예측 에서는우리

6 2015 년소셜빅데이터기반보건복지이슈동향분석 나라온라인뉴스사이트, 블로그, 카페, SNS, 게시판등에서수집한소셜빅데이터를바탕으로우리나라섹스팅에대한위험요인을예측하였다. 우리나라섹스팅에대한긍정적감정 ( 위험 ) 을나타내는버즈는 38.3% 로나타났다. 섹스팅의영향은윤리의식, 대인관계, 성욕, 건강, 공부, 비용순으로위험한것으로나타났으며, 유통방식은수요보다공유의위험이더큰것으로나타났다. 3. 결론및시사점 소셜빅데이터는다양한분야에활용할수있다. 첫째, 조사를통한기존의정보수집체계의한계를보완할수있는새로운자료수집방법으로활용할수있다. 국민의통일에대한인식조사, 정부의금연정책 ( 가격정책, 비가격정책등 ) 실시이후흡연실태조사, 스마트폰및인터넷중독실태조사등다양한분야의조사에활용할수있다. 둘째, 보건복지정책수요를예측 ( 저출산정책수요예측등 ) 할수있다. 새정부출범이후건강보험보장성강화에대한국민의요구가커지고인구고령화와저출산이사회적문제로대두됨에따라대상자별 분야별로다양한보건복지정책이요구됨에따라오프라인보건복지욕구조사와더불어소셜미디어에남긴다양한정책의제를분석하여수요를파악해야한다. 셋째, 사회적위기상황에대한모니터링과예측으로위험에대한사전대응체계를구축할수있다. 따라서청소년의자살과사이버폭력대응체계구축, 질병에대한위험예측, 식품안전모니터링등에활용할수있다. 넷째, 새로운기술에대한동향을파악할수있다. 빅데이터, 사물인터넷, 인공지능등새로운기술에대한수요자와공급자가요구하는기술동향을파악할수있다. 끝으로정부와공공기관이보유 관리하

요약 7 고있는빅데이터는통합방안보다는각각의빅데이터의집단별특성을분석하여위험 ( 또는수요 ) 집단간연계를통한예측 ( 위험예측또는질병예측등 ) 서비스가제공되어야할것이다. 즉, 빅데이터분석을통한개인별맞춤형서비스는프라이버시를침해할수있기때문에위험 ( 또는수요 ) 집단별맞춤형서비스가제공되어야할것이다. 또한, 빅데이터를분석하여인과성을발견하고미래를예측하기위해서는정부차원의데이터사이언티스터양성을위한노력이필요할것으로본다. * 주요용어 : 소셜빅데이터, 보건복지, 데이터마이닝, 다변량분석, 시각화, R

제 1 장 소셜빅데이터분석과활용방안 1. 서론 2. 빅데이터개요 3. 소셜빅데이터분석방법 4. 소셜빅데이터수집및분류방법 참고문헌

1 소셜빅데이터분석과활용방안 << 1. 서론 최근스마트폰, 스마트TV, RFID, 센서등의급속한보급과모바일인터넷과소셜미디어의확산으로데이터량이기하급수적으로증가하고데이터의생산, 유통, 소비체계에큰변화를주면서데이터가경제적자산이될수있는빅데이터시대를맞이하게되었다 ( 송태민, 2012). 세계각국의정부와기업들은빅데이터가향후국가와기업의성패를가름할새로운경제적가치의원천이될것으로기대하고있으며, The Economist, Gartner, McKinsey 등은빅데이터를활용한시장변동예측과신사업발굴등경제적가치창출사례및효과를제시하고있다. 특히, 빅데이터는미래국가경쟁력에도큰영향을미칠것으로기대하여국가별로는안전을위협하는글로벌요인이나테러, 재난재해, 질병, 위기등에선제적으로대응하기위해우선적으로도입하고있다. 빅데이터는데이터의형식이다양하고, 방대할뿐만아니라그생성속도가매우빨라기존의데이터를처리하던방식이아닌새로운관리및분석방법을요구한다. 또한, 트위터, 페이스북등소셜미디어에남긴정치, 경제, 사회, 문화에대한메시지는그시대의감성과정서를파악할수있는원천으로등장함에따라, 대중매체에의해수립된정책의제는이제소셜미디어로부터파악할수있으며, 개인이주고받은수많은댓글과소셜로그정보는공공정책을위한공공재로서진화중에있다 ( 송태민, 2012). 이와같이많은국가와기업에서는 SNS를통하여생산되는소셜

12 2015 년소셜빅데이터기반보건복지이슈동향분석 빅데이터의활용과분석을통하여새로운경제적효과와일자리창출은물론사회적문제의해결을위하여적극적으로노력하고있다. 기존에실시하던횡단적조사나종단적조사등을대상으로한연구는정해진변인들에대한개인과집단의관계를보는데에는유용하나사이버상에서언급된개인별문서 ( 버즈 : buzz) 에서논의된관련정보상호간의연관관계를밝히고원인을파악하는데는한계가있다 ( 송주영, 송태민, 2014). 이에반해소셜빅데이터의분석은훨씬방대한량의데이터를활용하여다양한참여자의생각과의견을확인할수있기때문에사회적문제의예측과현상에대한복잡한연관관계를보다정확하게밝혀낼수있다. 본고는다양한분야의소셜빅데이터를수집 분석하여가치를창출하고미래를예측할수있는소셜빅데이터연구방법과활용방안을제시코자한다. 2. 빅데이터개요 가. 빅데이터정의 빅데이터 (Big Data) 는 Wikipedia(2015. 8. 5.) 에서 기존데이터베이스관리도구로데이터를수집 저장 관리 분석의역량을넘어서는대량의정형또는비정형데이터세트및이러한데이터로부터가치를추출하고결과를분석하는기술 로정의하고있다. Gartner(2012) 는더나은의사결정, 시사점발견및프로세스최적화를위해사용되는새로운형태의정보처리가필요한대용량, 초고속및다양성의특성을가진정보자산으로정의하고있으며, McKinsey(2011) 는일반적인데이터베이스소프트웨어도구가수집, 저장, 관리, 분석하기어려운대규모의데이터로

제 1 장소셜빅데이터분석과활용방안 13 정의하고있다. 이와같은정의를살펴볼때빅데이터란엄청나게많은데이터로양적인의미를벗어나데이터분석과활용을포괄하는개념으로사용되고있다 ( 송태민, 2012). 우리나라는정부3.0의효과적인추진과생애주기별맞춤형서비스및국민행복실현을위하여정부차원의빅데이터추진방안이마련되었다. 빅데이터의주요특성은일반적으로 3V(Volume, Variety, Velocity) 를기본으로 2V(Value, Veracity) 나 1C(Complexity) 의특성을추가하여설명하고있다 ( 그림 1-1 참조 ). 특히, 보건복지분야에서는국민의생명과직결되는정보를다루고있어빅데이터에있어가치 (Value) 와신뢰성 (Veracity) 은매우중요하다고할수있다. 그림 1-1 빅데이터의특성과정부 3.0 추진전략

14 2015 년소셜빅데이터기반보건복지이슈동향분석 나. 빅데이터개인정보보호방안 현재어느나라를막론하고빅데이터의활용에있어가장큰과제는개인의사생활비밀보호및개인정보보호이다 ( 송태민외, 2014). 개인정보보호에중점을두면빅데이터의활용을저해하게될우려가있다. 개인정보보호법의목적이 개인정보의수집 유출 오용 남용으로부터사생활의비밀등을보호함으로써국민의권리와이익을증진하고 로되어있지만개인정보와비개인정보를명확히구분하기가어렵고비즈니스에있어자동적으로수집되는데이터가비개인정보라고할지라도프라이버시를침해할가능성이있다. 특히소셜미디어에공개된개인정보는위변조와오남용이쉽고상업적이용을위한정보수집등에노출이될수있기때문에프라이버시침해등의문제가발생할가능성이매우높다. 방송통신위원회는 2013년 12월 18일 빅데이터개인정보보호토론회 와 2014년 3 월 19일 온라인개인정보보호세미나 를통해의견을수렴하고 2014년 12월 23일 빅데이터개인정보보호가이드라인 을발표하였다. 가이드라인의주요내용은 < 표 1-1> 과같이빅데이터수집시부터개인식별정보에대한철저한비식별화조치와개인의사상 신념, 정치적견해등민감정보에대한조합 분석등처리금지등에관한것이다. 빅데이터로부터개인을보호하기위해가장중요한것은특정개인을식별하지못하도록하는익명화와정보접근및정보처리에대한통제다. 그러나정보접근및정보처리에대한통제를강하게하면정보활용을활성화할수없기때문에빅데이터의 활용과보호의균형 에대한효과적인정책이우선적으로마련되어져야할것이다 ( 송태민, 2013).

제 1 장소셜빅데이터분석과활용방안 15 표 1-1 빅데이터개인정보보호가이드라인 의주요내용 구분 비식별화조치 공개를통한투명성확보 재식별시, 비식별화조치 민감정보의처리금지 기술적 관리적보호조치 내용 수집시부터개인식별정보에대한철저한비식별화조치 ( 제 3 조 제 4 조 제 5 조 제 10 조 ) 개인정보가포함된공개된정보및이용내역정보는비식별화조치를취한후수집 저장 조합 분석및제 3 자제공등가능 빅데이터처리사실 목적등의공개를통한투명성확보 ( 제 4 조 제 5 조 제 9 조 ) - 개인정보취급방침을통해비식별화조치후빅데이터처리사실 목적 수집출처및정보활용거부권행사방법등을이용자에게투명하게공개 ( 개인정보취급방침 ) 비식별화조치후빅데이터처리사실 목적등을이용자등에게공개하고 정보활용거부페이지링크 를제공하여이용자가거부권을행사할수있도록조치 ( 수집출처고지 ) 이용자이외의자로부터수집한개인정보처리시 수집 출처 목적, 개인정보처리정지요구권 을이용자에게고지 개인정보재식별시, 즉시파기및비식별화조치 ( 제 3 조 제 6 조 ) 빅데이터처리과정및생성정보에개인정보가재식별될경우, 즉시파기하거나추가적인비식별화조치토록함 민감정보및통신비밀의수집 이용 분석등처리금지 ( 제 7 조 제 8 조 ) 특정개인의사상 신념, 정치적견해등민감정보의생성을목적으로정보의수집 이용 저장 조합 분석등처리금지이메일, 문자메시지등통신내용의수집 이용 저장 조합 분석등처리금지 수집된정보의저장 관리시 기술적 관리적보호조치 시행 ( 제 3 조 제 2 항 ) 비식별화조치가취해진정보를저장 관리하고있는정보처리시스템에대한기술적 관리적보호조치적용 ( 보호조치 ) 침입차단시스템등접근통제장치설치, 접속기록에대한위 변조방지조치백신소프트웨어설치 운영등악성프로그램에의한침해방지조치 3. 소셜빅데이터분석방법 소셜빅데이터분석절차및방법은 그림 1-2 와같다. 첫째, 해당주

16 2015 년소셜빅데이터기반보건복지이슈동향분석 제와관련한문서 ( 메르스 ) 를분석모델링을통해수집대상과수집범위를설정한후, 대상채널 ( 뉴스 블로그 카페 게시판 SNS 등 ) 에서크롤러등수집엔진 ( 로봇 ) 을이용하여수집한다. 이때불용어 ( 메르스벤츠, 메르스데스벤츠 ) 를지정하여수집의오류를방지하고메르스관련연관키워드그룹 ( 메르스바이러스, 중동호흡기증후군, 메르스코로나바이러스, 매르스 ) 을지정한다. 둘째, 수집된메르스원데이터 (raw data) 는텍스트형태의비정형데이터로연구자가수집된원상태로분석하기에는어려움이있다. 따라서수집한비정형데이터를텍스트마이닝, 오피니언마이닝을통하여분류하고정제하는절차가필요하다. 정제된비정형데이터분석은버즈분석, 키워드분석, 감성분석, 계정분석등으로진행한다. 그림 1-2 소셜빅데이터분석절차및방법 ( 메르스버즈분석사례 ) 셋째, 비정형빅데이터를정형빅데이터로변환해야한다. 메르스관련주제분석사례를살펴보면, 메르스버즈각각의문서는 ID로코드화하여야하고, 버즈내에서발생하는키워드는모두코드화하여야한다. 넷째, 사회현상과연계하여분석하기위해서는정형화된빅데이터를오프라인

제 1 장소셜빅데이터분석과활용방안 17 통계 ( 조사 ) 자료와연계해야한다. 오프라인통계 ( 조사 ) 자료는대부분정부나공공기관에서유료또는무료로제공하기때문에, 연계대상자료와함께연계가능한식별자 ( 일별 월별 연별 지역별 ) 를확인한후오프라인자료를수집하여연계 (link) 할수있다. 다섯째, 오프라인통계 ( 조사 ) 자료와연계된정형화된빅데이터의분석은요인간의인과관계나시간별변화궤적을분석할수있는구조방정식모형이나일별 ( 월별 연별 ), 지역별사회현상과관련된요인과의관계를분석할수있는다층모형, 그리고수집된키워드의분류과정을통해새로운현상을발견할수있는데이터마이닝분석이나시각화를실시할수있다. 빅데이터연계방법 [big data linkage(matching)] 으로는정확매칭 (exect matching) 과통계적매칭 (statistical matching) 이있다. 정확매칭은고유식별정보가존재할때사용하며, 통계적매칭은고유식별정보가존재하지않기때문에유사한개체를찾아상호데이터를결합시킬때사용한다. 소셜빅데이터와공공빅데이터의연계는시간변수와지역변수등을고유식별정보로하여상호매칭하는정확매칭방법을활용할수있다 ( 그림 1-3 참조 ). 그림 1-3 빅데이터분석기반의위기청소년예측및적시대응기술개발연계사례

18 2015 년소셜빅데이터기반보건복지이슈동향분석 4. 소셜빅데이터수집및분류방법 소셜빅데이터의수집및분류는해당토픽에대한이론적배경등을분석하여온톨로지 (ontology) 를개발한후, 온톨로지의키워드를수집하여분류하는 Top-down 방법과해당토픽을웹크롤로수집한후범용사전이나사용자사전으로분류 ( 유목화또는범주화 ) 하는 Bottom-up 방법이있다. 가. Top-down 방법 2) 소셜미디어에서표현되는언어들은주로사람들이일상대화에서쓰이는구어체문장으로이루어진비정형데이터이기때문에 ( 노진석, 2012), 이를보다효과적으로수집및분석하기위한분석틀이필요하다. 분석틀을내용은관련주제가어떤개념영역들로구성되어있는지와각개념간관계에대한정의가필요하기때문에, 이를반영한온톨로지 (ontology) 가개발될필요가있다. 온톨로지 (ontology) 는관심주제의공유된개념 (shared concepts) 을형식화하고 (formalizing) 표현하기위한 (representing), 컴퓨터가해석가능한지식모델 (computer-interpretable knowledge model) 이다 (Kim HY 외, 2013). 수집되는소셜빅데이터자료는비정형적으로다양하게표현됨으로써온톨로지를구성하는개념을설명하는용어와그유의어를정의하여기술하여용어체계를마련하는것이필요하다. 본연구는온라인상의청소년우울주제 2) 본절의내용은 송태민외 (2015). 빅데이터분석기반의위기청소년예측및적시대응기술개발 의일환으로우울빅데이터수집을위해서울대학교간호대학박현애교수연구팀과공동으로수행되었으며, 정혜실 (2015). 청소년우울관련소셜빅데이터수집과분석을위한온톨로지개발및평가. 서울대학교대학원석사학위논문 발표예정인연구결과를참고하였음밝힌다.

제 1 장소셜빅데이터분석과활용방안 19 에대해수집된빅데이터자료를식별하고활용하기위한분석틀로서, 우울관리관련주제를분류하고, 우울관리온톨로지와용어체계를개발하는것이다. 청소년우울증을중심으로살펴본정신건강관리주제분류는위험요인, 증상및징후, 스크리닝, 진단, 치료및예방으로총 6개영역이도출되었고이들영역의관계를그림으로나타내면 그림 1-4 와같다. 그림 1-4 청소년우울관리온톨로지 온톨로지개발은우울관리주제를설명하는분류틀에해당하는용어에대하여, 대분류-중분류-소분류 의각영역수준별로용어를추출하여영역수준별로제시해야한다. 따라서 < 표 1-2> 와같이각용어별로인터넷검색과선행문헌검색등의방법을이용하여동의어와유사어를정의해야한다.

20 2015 년소셜빅데이터기반보건복지이슈동향분석 표 1-2 우울온톨로지분류에따른영역수준 대분류중분류소분류1 소분류2 소분류3 동의어 유의어수준위험요인대분류 ( 위험요인 ) 대상자특성요인 personal factor 대분류 ( 위험요인 )> 중분류 ( 대상자특성요인 ) 인구사회학적요인 대분류 ( 위험요인 )> 중분류 ( 대상자특성요인 )> 소분류 1( 인구사회학적요인 ) 인구학적특성 인구통계학적특성 대분류 ( 위험요인 )> 중분류 ( 대상자특성요인 )> 소분류 1( 인구사회학적요인 )> 소분류 2 ( 인구학적특성 ) 성별 성, gender 대분류 ( 위험요인 )> 중분류 ( 대상자특성요인 )> 소분류 1( 인구사회학적요인 )> 소분류 2 ( 인구학적특성 )> 소분류 3( 성별 ) 연령 나이, 발달단계, stage of puberty 대분류 ( 위험요인 )> 중분류 ( 대상자특성요인 )> 소분류 1( 인구사회학적요인 )> 소분류 2 ( 인구학적특성 )> 소분류 3( 연령 ) 재학여부 학교다님, 학교중퇴 대분류 ( 위험요인 )> 중분류 ( 대상자특성요인 )> 소분류 1( 인구사회학적요인 )> 소분류 2 ( 인구학적특성 )> 소분류 3( 재학여부 ) 이외분류를포함할수있음. 증상및징후 emotional change 대분류 ( 증상및징후 ) 감정변화대분류 ( 증상및징후 )> 중분류 ( 감정변화 ) 불안 우울 걱정, 공포, 불안정, 조마조마, 뒤숭숭 공허함, 외로움, 소외감, 침울, 고독 대분류 ( 증상및징후 )> 중분류 ( 감정변화 )> 소분류 1( 불안 ) 대분류 ( 증상및징후 )> 중분류 ( 감정변화 )> 소분류 1( 우울 ) 슬픔불행, 울음, 비통 대분류 ( 증상및징후 )> 중분류 ( 감정변화 )> 소분류 1( 슬픔 ) 나. Bottom-up 방법 소셜빅데이터를수집분류하기위해서는 21 세기세종계획 과같은범용사전이있지만대부분분석목적에맞게사용자가설계한사전을사용한다. 예를들면, 메르스정보확산위험예측을위하여소셜빅데이터를수집한다고하면, 웹크롤의수집조건으로메르스토픽 (topic) 은모든관련문서를수집하기위해 메르스 를사용하며, 토픽과같은의미로사

제1장 소셜 빅데이터 분석과 활용 방안 21 용되는 토픽 유사어로는 메르스 바이러스, 중동 호흡기 증후군, 메르스 코로나 바이러스, 매르스 용어를 사용해야 한다. 그리고, 불용어는 메르 스벤츠, 메르스데스벤츠 를 사용해야 한다. 수집 가능한 채널[(메르스 키 워드의 수집 가능채널은 105개의 온라인 뉴스사이트, 4개의 블로그, 2개 의 카페, 1개의 SNS(트위트), 8개의 게시판 등 총 120개의 온라인 채널] 에서 수집된 메르스 온라인 문서는 범용사전이나 사용자 사전을 이용하 여 그림 1-5 와 같이 유목화(범주화)한 후, 해당 키워드의 출현 유무를 확인하여 정형화 빅데이터로 변환해야 한다. 그림 1-5 메르스 분류(범주화, 유목화)체계 수집된 소셜 빅데이터의 분류 및 변환(정형 빅데이터 변환)이 완료된 후, 분류된 키워드에 대해 감성분석을 실시하여 요인을 추출(변수 축약)

22 2015 년소셜빅데이터기반보건복지이슈동향분석 해야한다. 감성분석은사용자가감성어사전을개발하여해당문서의감성을분석하는방법 3) 과요인분석과주제분석을통한감성분석방법이있다. 메르스정보확산위험을예측하기위해서는해당문서에대해 안심, 불안 를정의하는감성분석을실시해야한다. 따라서메르스감정키워드는온라인문서수집이후, 주제분석을통하여총 163개의긍정감정키워드 ( 다행, 해결, 행복, 든든, 완벽, 안정, 안전, 깨끗, 기대, 감동, 격려, 극복, 긍정, 기대감, 기쁨, 도움, 미소, 믿음, 따뜻, 선호, 성공, 소망, 소중, 희망등 ) 와 229개의부정감정키워드 ( 답답, 거짓말, 비상, 판단, 불안, 스트레스, 괴담, 냉소, 공포, 혼란, 엄벌, 공포증, 위험, 우려, 문제, 긴급, 부담, 악화, 난리, 비판, 무책임, 갈등, 감소, 갑갑, 강제등 ) 으로분류하고문서상의긍정과부정키워드를각각합산한후, 감성분석 (Opinion Mining) 을실시하여야한다. 긍정은메르스에대해안심하는감정이고, 부정은메르스에대해불안한감정이며, 보통은긍정과부정이동일한감정을나타낸다. 3) 우울관련감정은감성어사전을개발하여긍정 ( 스트레스받지않다, 우울증퇴치하다, 행복넘치다 등 ), 보통 ( 한국인우울하다, 청소년우울하다 등 ), 부정 ( 친구자살하다. 스트레스심각하다. 왕따심각하다 등 ) 으로구분하여감성분석을실시함

참고문헌 << 노진석 (2012). 빅데이터와소셜분석 : 빅데이터의바다에서 의미 를찾다. http: //www.imaso.co.kr/?doc=bbs/gnuboard.php&bo_table=article& wr_id=40725 송태민 (2012). 보건복지빅데이터효율적활용방안, 보건복지포럼, 통권제193 호, pp.68~76. 송영조 (2012). 빅데이터시대! SNS의진화와공공정책. 한국정보화진흥원송주영 송태민 (2014). 소셜빅데이터를활용한북한관련위협인식요인예측. 국제문제연구, 가을. pp.209~243. 송태민외 (2014). 보건복지빅데이터효율적관리방안연구. 한국보건사회연구원. 송태민 (2013. 9). 우리나라보건복지빅데이터동향및활용방안, 과학기술정책, 192, 과학기술정책연구원. Kim HY Park HA Min YH Jeon E(2013). Development of an obesity management ontology based on the nursing process for the mobiledevice domain. J Med Internet Res, 15(6), e130. doi: 10.2196/ jmir.2512 Gartner(2012)(www.gartner.com/newsroom/id/2124315, 2015. 8. 5. 인출 ). McKinsey Global Institute(2011). Big data: The next frontier for innovation, competition, and productivity, 2015. 8. 5. 인출

제 2 장 소셜빅데이터분석기반메르스감정위험예측 1. 서론 2. 이론적배경 3. 연구방법 4. 분석결과 5. 분석결과요약 참고문헌

2 소셜빅데이터분석기반메르스감정위험예측 4) << 1. 서론 보건복지부 중앙메르스관리대책본부 는 7월 4일이후 (30일째) 신규확진환자는없으며, 8월 4일현재총 186명의메르스확진환자가발생하여이중 36명은사망하고 12명은치료중인것으로보도하였다 ( 보건복지부 질병관리본부, 2015. 8. 4. 보도자료 ). 최초의메르스감염자는농작물재배관련일에종사하던 68세남성으로, 5월 4일카타르를경유하여인천공항에입국한뒤, 입국 7일후인 5월 11일발열및기침등의증상이발생하여여러병원을방문하던도중 5월 18일서울국립중앙의료원에입원하였고, 5월 19일에검체의뢰를통해 5월 20일에확진판정을받았다 ( 보건복지부 질병관리본부, 2015. 5. 20. 보도자료 ). 이후최초메르스감염자에게 2차적으로감염된확진환자 6명이추가적으로확인됨에따라 5월 26일메르스확진환자는 7명으로늘어났으며, 6월 2일최초메르스감염자남성과같은병동이던 57세여성과 71세남성이사망함에따라메르스확산방지를위한국가적보건역량을총동원키로하고, 5월 31일 민관합동대책반 을구성한데이어, 6월 2일메르스확산방지강화대책을발표하였다 ( 보건복지부 질병관리본부, 2015. 6. 2. 보도자료 ). 한국정부와세계보건기구 (WHO) 는금번한국메르스코로나바이러스 (MERS-CoV) 전개양상이사우디아라비아등을통해알려진전개와 4) 본연구의일부내용은해외학술지에게재하기위하여 송주영교수 ( 펜실베니아주립대학 ), 송태민박사 ( 한국보건사회연구원 ) 서동철교수 ( 이화여자대학교 ), 진달래연구원 ( 한국보건사회연구원 ), 김정선박사 (SK 텔레콤스마트인사이트 ) 에서공동수행한것임을밝힘.

28 2015 년소셜빅데이터기반보건복지이슈동향분석 다소간의차이를보이고있는데대한국제사회의우려를고려하여, 국제보건규칙 (International Health Regulation, IHR) 에의거한-WHO 합동평가단 (Joint Mission) 을구성하여그결과를발표하였다 (WHO, 2015). 첫째, 메르스는한국의대다수의료인들에게기대하지못했던낯선질병이었으며, 어떤병원에서는침실이많은다인용응급실에환자들을넘치게수용하기만했다는측면에서문제가발생되었다. 둘째, 의료쇼핑 이라고해서환자들이많은의료시설을이곳저곳다녀보는습관이있었고, 병원에입원한환자에게친구와가족구성원들이무분별하게문병을오는사태가질병을퍼트리는데에영향력을행사했을가능성이제기하였다. 셋째, WHO는보건시설로인한감염을막을수있도록보건시설위생유지를조언했고, 또한메르스초기증세가불분명해서메르스초기진단이어려운특성이있기때문에보건의료인력은환자의메르스감염여부와상관없이모든환자를진찰시에항상의료적표준주의지침을충분히숙고할것을당부하였다. 넷째, 현재지역감염의증거는없으며, 접촉자추적향상을위한광범위한노력, ( 잠복기간동안 ) 확진자및접촉자에대한적절한격리, 검역, 감시및여행제한을포함한메르스발병억제를위한지속적인공중보건조치로확진자발생이감소추세로접어든것으로보인다는결과를발표하였다. 2015년 7월 4일이후 3주이상신규확진환자가발생하지않지않자, 국무총리는 7월 28일메르스와관련하여 7월 27일로격리자가모두해제되는등여러상황을종합해볼때국민께서이제는안심해도좋다는것이의료계와정부의판단 이라며사실상메르스종식을선언하였다. 한편모바일인터넷과소셜미디어의확산으로데이터량이증가하여데이터의생산, 유통소비체계에큰변화가일어나면서데이터가경제적자산이될수있는빅데이터시대를맞이하게되었다. 세계각국의정부와기업들이빅데이터가공공과민간에미치는파급효과를전망함에따

제 2 장소셜빅데이터분석기반메르스감정위험예측 29 라 SNS를통해생산되는소셜빅데이터의활용과분석을통하여사회적문제의해결과정부의정책을효과적으로추진할수있을것으로예측하고있다. 빅데이터는미래국가경쟁력에도큰영향을미칠것으로예측하고국가별로는안전을위협하는글로벌요인이나테러, 재난재해, 질병, 위기등에선제적으로대응하기위해우선적으로도입하고있다. 소셜빅데이터의분석은사용자가남긴문서의의미를분석하는것으로자연어처리기술인주제분석 (Text Mining) 과감성분석기술인오피니언마이닝 (Opinion Mining) 을실시한후, 네트워크분석 (Network Analysis) 과통계분석 (Statistical Analysis) 을실시해야한다. 기존에실시하던횡단적조사나종단적조사등을대상으로한연구는정해진변인들에대한개인과집단의관계를보는데에는유용하나사이버상에서언급된개인별문서 ( 버즈 : buzz) 에서논의된관련정보상호간의연관관계를밝히고원인을파악하는데는한계가있다 ( 송주영, 송태민, 2014). 이에반해소셜빅데이터의분석은훨씬방대한량의데이터를활용하여다양한참여자의생각과의견을확인할수있기때문에사회적문제의예측과현상에대한복잡한연관관계를보다정확하게밝혀낼수있다. 본연구는우리나라온라인뉴스사이트, 블로그, 카페, SNS, 게시판등에서수집한소셜빅데이터를바탕으로우리나라에서발생한메르스정보확산위험요인을예측코자한다. 2. 이론적배경 가. 메르스관련이론적배경 메르스 (Middle East Respiratory Syndrome, MERS) 는 2012 년중 동지역의국가에살거나여행하는사람들에게서발견되는전염병으로

30 2015 년소셜빅데이터기반보건복지이슈동향분석 (WHO, 2013), 신종코로나바이러스가전염병의원인이라고규정되었기때문에국제위원회 (the International Committee on Taxonomy of Viruses) 에서 중동지역호흡기증후군-코로나바이러스 (MERS-CoV) 이라는명칭으로공식적으로명명하였다 (Groot, R.J. 외, 2013). 메르스를최초로발견한사람은이집트의질병학자알리모하메드자키 (Ali Mohamed zaki) 로서, 메르스를일으키는코로나바이러스는 HKU4와 HKU5와같은박쥐에게서자생하는코로나바이러스가다른동물에게도퍼지게되면서나타나게된것으로파악하였다 (Zaki, A.M. 외 2012). 이후박쥐의코로나바이러스는중동지역의단봉낙타에게옮겨졌고, 낙타가사람에게메르스바이러스를옮기는주된전파수단이되었다 (Alagaili, A.N. 외, 2014). 메르스는사람과사람의접촉으로감염되는경우도존재하는데, 이경우에는메르스감염환자와의가까운접촉또는비말접촉으로주로감염되며이러한감염은병원과같은보건시설에서자주일어난것으로보고하고있다 (Assiri, A. 외, 2013). 메르스의전파경로는 2012 년 4월부터사우디아라비아에서주로발생하다가, 2012년 9월에중동걸프지역에서영국런던으로메르스감염환자가이동하면서영국내에도메르스감염이일어났다 (Bermingham, A. 외 2012). 2013년의경우사우디아라비아에서레바논, 요르단, 아랍에미레이트연합등에전파되었고, 2014년에는터키, 카타르, 오스트리아에도메르스가전파가이루어져메르스감염환자가나타났다. 2012년 4월부터 2015년 7월 21일까지국내외메르스감염사례는 1,392명, 사망사례는 538명으로보고하고있다 (European Centre for Disease Prevention and Control, 2015a). 메르스바이러스가사우디아라비아를비롯한여러국가에서확산됨에따라 WHO에서는감염예방을위한지침과메르스의전염경로, 메르스증상판별법및메르스환자에대한치료법등을담은매뉴얼을 2013년 7

제 2 장소셜빅데이터분석기반메르스감정위험예측 31 월에발간하였다 (WHO, 2013). 메르스증상으로는고열, 기침, 호흡곤란등의증상이있으며, 어떤사람들의경우설사와메스꺼움, 구토와같은위장관련증상을경험하기도한다 (European Centre for Disease Prevention and Control, 2015b). 폐렴이나신부전증이있는사람의경우메르스에전염되었을때조금더심각한합병증을겪을수있으며, 공존증 (Comorbidities, 1차적질환을포함해서하나이상의질환이몸안에존재하는의학적상황 ) 을지닌사람들의경우메르스감염에더취약하거나증상이심각해지는경향이있다. 단봉낙타에게서만사례수의 90% 이상이넘는 280마리에서메르스바이러스양성반응이나타나낙타가주요한전염원인으로밝혀짐에 (Hemida, M.G. 외 2013) 따라, 최근에는아라비아사막지역을다녀왔거나아라비아지역여행자와가까운접촉을한사람, 그리고낙타와근거리에서접촉하거나멸균되지않은낙타유또는낙타고기를섭취한사람을중심으로메르스가전염되고있다고보고되고있다 (European Centre for Disease Prevention and Control, 2015a). 메르스를예방할수있는예방백신은아직까진없으며, 미국국립보건원에서예방백신으로기능할만한것을개발중에있다. 예방백신대신메르스감염을예방하는방법으로는 20초동안손을비누로깨끗하게씻고, 재채기를할시에티슈로코와입을가리고재치기를하는것이있다. 또한, 다른사람과컵을같이쓰는것을피하고, 문의손잡이나살림도구를깨끗하게소독하는방법등이있다 (European Centre for Disease Prevention and Control, 2015c). 나. SNS 상전염병확산이론 최근 SNS 환경의규모와영향력이점차증대됨에따라 (Jong-Hwan

32 2015 년소셜빅데이터기반보건복지이슈동향분석 Kong, 2014), 개인의커뮤니케이션수단으로 SNS는긴급상황과위기대응에서결정적인요소로진화하고있다 (Ryu, Hyeon Suk, 2013). 전세계 SNS 사용자가 2013년현재 17억명으로 2017년에는 25억명이 SNS를이용할것으로전망하고있다 (emarkerter, 2013). SNS는 2008 년미국대통령대선과 2010년 아랍의봄 민주화운동등의긍정적인영향력 (Adrien Guille 외, 2014) 이있는반면, 광우병사태, 사스 (SARS), 조류독감등사람들의관심을집중적으로받는사안은미디어의반복된조명으로사람들의공포심을자극하게되고, 정부혹은관련조직에대한불신등과겹쳐위험이확산될수있다 (Kim, Young Wook, 2013). 정보확산 (Information Diffusion) 은사회구성원들사이에서시간의흐름에따라특정채널을통해커뮤니케이션되는과정으로 (Rogers Everett M., 1983) SNS상의정보확산능력이점차커지면서이에대한역기능또한증가하고있다 (Jong-Hwan Kong, 2014). 신종플루, 조류독감, 중증급성호흡기증후군과같은감염성이강한질환의발생은전세계적으로질병에대한두려움을키울뿐아니라 (Liang Mao, 2014), 이용자의접근성이높고이동성이강한 SNS는이러한질병에대한유언비어의확산채널역할을한다 (Hong, Ju-hyeon, Yun, Hye-jin 2014). 온라인공간은다양한정보를소비하는곳일뿐만아니라새로운정보를확산시키고생산하고더나아가현실세계에서직접적인행동을이끄는원천이되고있으며 (Park, Min-Gyeong, Lee, Gun-Ho, 2011) 이렇게형성된특정정보는낙인의물결효과를거쳐서낙인화 (Stigmatization) 의충격을양산하고있다. 낙인화는위험의사회확산에따라형성이되며, 위험과관련된특정사람, 상품, 장소, 기술등에붙여지는부정적인이미지, 감정적인반응, 사회행동차원의효과를의미한다. 위험의확산에따른낙인화과정은특정대상에서위험사안이발생, 정보확산, 공중

제 2 장소셜빅데이터분석기반메르스감정위험예측 33 인식과표식화과정, 특정대상의정체성형성, 낙인의물결효과, 낙인화영향과충격의 6가지로단계로이어진다 (Kim, Young Wook. 2014). 확산되는루머가자극적일수록이용자들이활발하게댓글을올리면서상호작용을할뿐아니라국민들의불안감을유발하고, 정부정책에대한불신을초래하는등개인적및사회적으로손실이크게다가온다 (Hong, Ju-hyeon, 2014). SNS를통한정보의확산연구는데이터분석을통하여사회문제에대한궁극적인예측결과를형성할수있을뿐만아니라더큰이해관계를얻을수있다 (Dinyakant Agrawal, 2011). 질병의확산과같은정보확산의과정은네트워크를통하여발생하며 (Mostafa Salehj 외 2015), 사회확산 (Social Amplification) 은질병과같은위험정보가인터넷등의채널을통해집중되었다가빠르게증폭됨으로써사회적인충격을일으키는경로와과정을추적하는것으로, 일반적인전염병은질병전파, 질병에관한정보의흐름, 질병에대한예방행동수칙들을확산한다 (Liang Mao, 2014). 그림 2-1 과같이빨간점선안의감염상태에따른프로세스는 미보균자 (Susceptible) 인개인의경우감염인자가있는이웃과의접촉했을경우감염성질환에감염될수있수있지만감염인자가신체내부에서방출되지않은 잠복 (Latent) 상태로있다. 질병인자가신체내부에있을때에는다른사람에게전파되지않으며, 잠복기의다음단계는 전염 (Infectious) 상태로한개인이다른사람에게감염성질환을전파할수있고확산경로는늘어난다. 감염기간동안 증상 (Symptomatic) 또는 무증상 (Asymptomatic) 상태를가질수있고, 감염관련정보들은각각대중매체를통하여전파, 주변을통한입소문전파, 소셜네트워크의대인관계에의하여퍼져나가며감염기간이지나면 회복 (Recovered) 단

34 2015 년소셜빅데이터기반보건복지이슈동향분석 계를거치게되며이때에는감염에면역성이생긴것으로간주한다. 그림 2-1 세과정사이에서의정보확산 주 : Liang Mao (2014). Modeling Triple-diffusions of infractions disease, information, and preventive behaviors through a metropolitan social networks: an agent- based simulation. Applied Geography, 50, pp.31~49. 그림 2-1 의파란색점선안의정보확산프로세스는질병이처음발병했을때에는개개인은인식하지못하지만 (Unaware) 이때입소문과대중매체를통하여정보를습득하게된다. 전자 (uninformed) 의경우는로컬네트워크를통하여정보가순환시켜지지만, 후자 (informed) 의경우는전세계적으로정보가확산될뿐만아니라예방차원에서의의사결정행동을불러일으킨다. 그림 2-1 과같이녹색점선안에프로세스는예방행동이확산되는과정으로자신의개인적인특성과질병의확산과정에서증상 (Symptomatic) 을통하여 감염위험 으로인지된정보는 SNS의대인관계의한영향력에따라서정보를수용하는데영향을미치고, 질병의확산은개인의인지된위험과자극을통하여예방행동을채택할수있도록하며, 예방행동의채택을저해하는질병확산은사람과질

제 2 장소셜빅데이터분석기반메르스감정위험예측 35 병시스템간의부정적인연결고리를형성할수있다 (Liang Mao, 2014). 3. 연구방법 가. 연구대상 5) 및분석방법 본연구는 105개의온라인뉴스사이트, 8개의게시판, 1개의 SNS( 트위터 ), 4개의블로그등총 120개의온라인채널을통해수집가능한텍스트기반의웹문서 ( 버즈 ) 를소셜빅데이터로정의하였다. 메르스토픽 (topic) 은모든관련문서를수집하기위해 메르스 를사용하였으며, 토픽과같은의미로사용되는토픽유사어로는 메르스바이러스, 중동호흡기증후군, 메르스코로나바이러스, 매르스 용어를사용하였고, 불용어는 메르스벤츠, 메르스데스벤츠 로하였다. 소셜빅데이터의수집은우리나라에메르스의발생이처음으로알려진시점인 2015년 5월 19일부터 6월 2일동안해당채널에서매시간단위로수집하였으며 6), 수집된총 666,510건 7) 의텍스트 (Text) 문서를본연구의분석에포함하였다. 메르스위험을설명하는가장효율적인예측모형을구축하기위해데이터마이닝의연관규칙과의사결정나무분석, 그리고시각화분석을사용하였다. 연관규칙의분석알고리즘은선험적규칙 (apriori principle) 을사용하였고, 의사결정나무형성을위한분석알고리즘은훈련표본과검정표본의정분류율이높게나타난 Exhaustive CHAID(Chi-squared 5) 본고의연구대상은 1 부 1 장의 소셜빅데이터분석및활용방안 의분석사례의대상과달리 5 월 19 일 ~6 월 2 일 (15 일간 ) 온라인문서를대상으로하였다. 6) 본연구를위한소셜빅데이터의수집및토픽분류는 ( 주 )SK 텔레콤스마트인사이트 에서수행함. 7) 블로그 5,056 건 (0.8%), 카페 7,133 건 (1.1%), SNS 618,471 건 (92.8%), 게시판 12,693 건 (1.9%), 뉴스 23,157 건 (3.5%).

36 2015 년소셜빅데이터기반보건복지이슈동향분석 Automatic Interaction Detection) 알고리즘을사용하였다. 기술분석, 다중응답분석, 로지스틱회귀분석, 의사결정나무분석은 SPSS 22.0 을사 용하였고, 연관분석과시각화는 R version 3.1.3 을사용하였다. 나. 연구도구 메르스관련하여수집 분류된문서는주제분석 (text mining) 과정을 거쳐다음과같이정형화데이터로코드화하여사용하였다. 1) 메르스관련감정 메르스감정키워드는온라인문서수집이후, 주제분석을통하여총 163개의긍정감정키워드 ( 다행, 해결, 행복, 든든, 완벽, 안정, 안전, 깨끗, 기대, 감동, 격려, 극복, 긍정, 기대감, 기쁨, 도움, 미소, 믿음, 따뜻, 선호, 성공, 소망, 소중, 희망등 ) 와 229개의부정감정키워드 ( 답답, 거짓말, 비상, 판단, 불안, 스트레스, 괴담, 냉소, 공포, 혼란, 엄벌, 공포증, 위험, 우려, 문제, 긴급, 부담, 악화, 난리, 비판, 무책임, 갈등, 감소, 갑갑, 강제등 ) 으로분류하고문서상의긍정과부정키워드를각각합산한후, 감성분석 (Opinion Mining) 을실시하였다. 긍정은메르스에대해안심하는감정이고, 부정은메르스에대해불안한감정이며, 보통은긍정과부정이동일한감정을나타낸다. 2) 메르스감염대상 메르스감염대상은주제분석과정을거쳐 일반인 ( 국민, 국민들, 사람,

제 2 장소셜빅데이터분석기반메르스감정위험예측 37 사람들, 성인, 시민등 ), 남성 ( 남편, 신랑, 아빠, 오빠, 아버지, 기러기아빠, 계부등 ), 여성 ( 부인, 아내, 어머니, 언니, 엄마등 ), 노인 ( 노약자, 노인, 할머니, 할아버지, 노인들, 조부모, 조부등 ), 아이학생 ( 대딩, 대학생, 아기, 아들, 아이, 아이들, 애들, 어린이등 ), 가족 ( 가족들, 가족, 부모, 패밀리, 부부등 ), 싱글 ( 개인, 본인, 나 ), 외국인 ( 외국인, 미군병사, 중국인, 미국인, 중동인등 ), 여행객 ( 여행객들, 여행객, 관광객등 ), 증상자 ( 보균자, 증상자, 첫감염자, 감염환자, 메르스환자등 ), 의료계 ( 의료진들, 의료진, 교수, 간호사, 의사등 ), 군인 ( 파병, 장병, 파병자, 사병, 병사 ), 직장인 ( 직원, 업주, 해외건설근로자, 건설근로자등 ) 의 13개요인으로대상요인이있는경우는 1, 없는경우는 0 으로코드화하였다. 3) 메르스관련국가 메르스관련국가는주제분석과정을거쳐 아시아 ( 중국, 홍콩, 대만, 대한민국, 한국, 아시아등 ), 중동 ( 바레인, 이라크, 이란, 사우디아라비아, 중동국가, 레바논등 ), 아프리카 ( 수단, Sudan, 지부티, Djibouti, 서아프리카, 기니등 ), 유럽 ( 스페인, Spain, 영국, UnitedKingdom, 프랑스, 독일등 ), 미국 ( 미국, 뉴욕, 하와이등 ) 의 5개요인으로국가요인이있는경우는 1, 없는경우는 0 으로코드화하였다. 4) 메르스관련기관 메르스관련기관은주제분석과정을거쳐 정부 ( 감염병리과장, 복지장 관, 보건장관, 보건복지위원장, 국무총리, 장관등 ), 민간기관 ( 영양사협회, 역사학연구회, 국경없는의사회등 ), 정당 ( 새정치민주연합, 새누리당등 ),

38 2015 년소셜빅데이터기반보건복지이슈동향분석 국제기구 ( 세계보건기구, WHO, CDC, 미국보건당국, 유럽질병통제청등 ), 중국국가기관 ( 중국보건당국등 ), 병원 ( 전남대병원, 국가격리병원, 국가지정격리치료병원, 고대구로병원, 서울대학교병원, 서울대병원등 ), 항공사 ( 이스타항공, 도하공항, 김해공항, 제주공항, 홍콩공항, 인천국제공항, 인천공항등 ), 학교 ( 대학교, 고등학교, 초등학교, 제주대학교 ) 의 8개요인으로기관요인이있는경우는 1, 없는경우는 0 으로코드화하였다. 5) 메르스감염경로 메르스감염경로는주제분석과정을거쳐 1차감염, 2차감염, 3차감염, 감염경로, 감염원 ), 낙타 ( 낙타, 낙타시장, 낙타접촉, 낙타체험, 낙타체험프로그램, 낙타타기, 낙타고기, 낙타요리, 생낙타유 ), 공기 ( 공기, 공기감염, 공기전염, 공기호흡, 호흡기감염 ), 기타동물 ( 당나귀, 염소, 동물, 동물들, 가금류, 박쥐 ), 접촉 ( 밀접, 접촉, 밀접접촉, 재채기, 인체감염, 비말감염 ) 의 5개요인으로감염경로요인이있는경우는 1, 없는경우는 0 으로코드화하였다. 6) 메르스관련바이러스 메르스관련바이러스는주제분석과정을거쳐 코로나바이러스 ( 베타코로나바이러스, 베타코로나, 메르스코로나, 매르스코로나바이러스, 코로나바이러스, 코로나바이러스과, Coronavirus), 사스 ( 사스, SARS, SARScoronavirus, 중증급성호흡기증후군, 중증급성호흡기질환, 중동호흡기곤란, 급성호흡곤란증후군, 다기관부전증 ), 신종플루 (H1N1, 신종인플루엔자, 신종플루 ), 조류인플루엔자 ( 조류독감, 조류인플루엔자, avi-

제 2 장소셜빅데이터분석기반메르스감정위험예측 39 aninfluenza), 에볼라 (ebola, ebolahemorrhagicfever, 에볼라, 에볼라바이러스, 에볼라출혈열 ), 기타바이러스 ( 바이러스, 신종감염병, 신종바이러스, 전염병, 감염병, 병균, 중증열성혈소판감소증후군, 인수공동전염병, 생탄저균, Lassafever, 라사열 ) 의 7개요인으로바이러스요인이있는경우는 1, 없는경우는 0 으로코드화하였다. 7) 메르스관련증상 메르스관련증상은주제분석과정을거쳐 전파 ( 전염, 전염력, 전염성, 전파력, 발병, 발생, 감염, 감염력, 감염율, 확산 ), 의심증상 ( 양성, 메르스감염, 음성, 의심증상, 의심증세, 잠복기간, 잠복기, 최대잠복기 ), 열 ( 오한, 38도, 발열, 고열, 고열증세, 미열, 미열증세 ), 호흡기 ( 숨가뿜, 숨가쁨, 호흡곤란, 호흡곤란증세, 호흡기, 호흡기이상, 호흡기증상, 감기, 목감기, 인후통, 가래 ), 소화기증상 ( 구토, 설사, 식욕부진, 위장장애, 복통 ), 신장질환 ( 급성신부전, 신부전증세, 급성신부전증, 신장기능, 심낭액저류, 콩팥내종양, 콩팥종양, 심부전 ), 사망 ( 사망, 취사율, 치사율, 목숨, 생명 ), 기타증상 ( 혼수상태, 사구체신염, 폐렴, 폐렴증세, 폐감염, 합볍증, 혈소판감소, 복막염, 패혈증, 췌장염, 두통, 섬망, 흉통, 혈액, 혈전증, 죽상경화증, 간질, 감각이상, 결석, 경련, 과다출혈, 근육통, 수지진전, 중증질환 ) 의 8개요인으로증상요인이있는경우는 1, 없는경우는 0 으로코드화하였다. 8) 메르스관련대처 메르스관련대처는주제분석과정을거쳐 초기대응 ( 신고, 초기, 초기 대응, 초기발견, 진단, 초기증상, 병원진찰, 진료, 검사결과, 발견 ), 치료

40 2015 년소셜빅데이터기반보건복지이슈동향분석 (1차치료, 2차치료, 약물, 엑스레이, 항체검사, 치료, 집중치료, 인공호흡기, 치료백신, 치료약, 치료제, 해결방법, 해열제, 백신, ZMapp, 브린시도피어, 지맵, TKM에볼라, 파비피라비르, 입원, 산소공급 ), 격리 ( 확진, 가택격리, 격리, 격리대상, 격리조치, 격리종료, 자가격리, 자택격리 ), 감염가능검사 ( 검사, 격리검사, 발열감시, 발열감지, 발열검사, 양성반응, 양성판정, 유전자검사, 음성반응, 음성판정, 채혈, 판정, 감염가능성, 감염여부, 감염증세, 전파가능성 ), 정북대응 ( 위급상황, 위기대응, 특별검역, 폐쇄, 지원, 검역절차, 검역체계, 교육비, 국가지정입원치료, 긴급복지지원제도, 긴급비상회의, 긴급현안, 대응단계, 대응책, 대응현황, 대처상황, 발표, 방역, 방역체계, 역학조사, 종합대응방안, 종합대책, 초강경대책 ) 의 5개요인으로대처요인이있는경우는 1, 없는경우는 0 으로코드화하였다. 9) 메르스관련예방 메르스관련예방은주제분석과정을거쳐 예방수칙 ( 감염예방, 감염예방수칙, 예방, 예방법, 예방수칙 ), 외출 ( 쇼핑, 야외활동, 소풍, 나들이 ), 위생 ( 개인위생, 비누, 소독, 손세정제, 손소독젤, 손씻기, 위생, 청결 ), 면역강화 ( 면역력, 항바이러스, 항체, 건강관리, 유산균 ), 마스크 ( 마스크, 손수건, 입막음, 티슈 ) 의 5개요인으로예방요인이있는경우는 1, 없는경우는 0 으로코드화하였다. 4. 분석결과 그림 2-2 와같이메르스와관련된버즈는 2015 년 5 월 28 일 내국

제 2 장소셜빅데이터분석기반메르스감정위험예측 41 인메르스의심자 1명중국으로출국 보도 (2015. 5. 28. 보도자료 ) 후급속히증가하여 5월 30일 유언비어관련당부사항 과 5월 31일 문형표장관, 메르스확산방지위해민관합동총력대응선언 보도이후감소하였다가, 6월 1일이후메르스추가환자발생과사망자발생보도후급속히증가하였다. 그림 2-2 메르스관련문서 ( 버즈 ) 량의일별추이 그림 2-3 과같이메르스에대한단계별 8) 긍정적인감정 ( 안심 ) 표현단어는경계단계 (3단계) 까지 가능성, 안전, 해결 키워드에집중되었으며, 심각1단계 (4단계) 이후, 다행, 가능성, 기대, 해결 키워드에집중된것으로나타났다. 메르스에대한부정적인감정 ( 불안 ) 표현단어는경계단계까지 의심, 우려, 문제 키워드에집중되었으며, 심각1단계 (4단계) 이후, 괴담, 의심, 불안, 실패 키워드에집중된것으로나타났다. 8) 메르스가국내에알려진 5 월 19 일 ~25 일을관심단계, 내국인메르스환자중국출국이알려진 5 월 26 일 ~28 일을주의단계, 메르스확진환자추가발생과메르스괴담이급속히전파된 5 월 29 일 30 일을경계단계, 메르스확산방지를위한민관합동총력대응을선언한 5 월 31 일을심각 1 단계, 메르스추가환자와사망자가발생한 6 월 1 일 2 일을심각 2 단계의 5 단계로구분함

42 2015 년소셜빅데이터기반보건복지이슈동향분석 그림 2-3 메르스에대한일자별감정 ( 상위 50 개 ) 변화 5 월 19~25 일 5 월 26~28 일 5 월 29~30 일 5 월 31 일 6 월 1~2 일 5 월 19~25 일 5 월 26~28 일 5 월 29~30 일 5 월 31 일 6 월 1~2 일

제 2 장소셜빅데이터분석기반메르스감정위험예측 43 < 표 2-1> 과같이메르스부정감정의연관성예측에서가장신뢰도가높은연관규칙으로는 { 거부, 비판, 무시 } => { 한심 } 이며네변인의연관성은지지도 0.003, 신뢰도는 0.985, 향상도는 122.31로나타나, 온라인문서 ( 버즈 ) 에서 거부, 비판, 무시 가언급되면정부의대처방안에대해한심하다는부정적감정으로생각할확률이 98.5% 이며, 거부, 비판, 무시 가언급되지않은버즈보다메르스에대해한심하다는부정적감정일확률이약 122.3배높아지는것으로나타났다. 그림 2-4 와같이메르스에대한부정적표현단어는 무시, 한심, 판단, 거부, 비난, 무능, 불구, 답답, 공포, 스트레스, 무책임, 비판, 실패, 괴담, 협박 키워드와강하게연결되어있는것으로나타났다. 표 2-1 메르스부정 ( 불안 ) 감정예측 순위 규칙 지지도 신뢰도 향상도 1 { 거부, 판단, 무시 } => { 한심 } 0.002811300 0.9852632 122.31002 2 { 거부, 판단, 한심 } => { 무시 } 0.002811300 0.9936306 112.83129 3 { 거부, 한심 } => { 무시 } 0.002811300 0.9811321 111.41203 4 { 공포, 답답 } => { 스트레스 } 0.006109172 0.9835590 92.40071 5 { 공포, 스트레스 } => { 답답 } 0.006109172 0.9960823 88.95859 6 { 거부, 무시, 한심 } => { 판단 } 0.002811300 1.0000000 60.31558 7 { 무시, 한심 } => { 판단 } 0.002811300 0.9957447 60.05892 8 { 거부, 한심 } => { 판단 } 0.002829322 0.9874214 59.55689 9 { 무시, 실패, 무책임 } => { 비판 } 0.001129326 0.9947090 57.08039 10 { 냉소 } => { 잘못 } 0.009479128 0.9825654 44.08858 11 { 거부, 무능, 불구 } => { 비난 } 0.017228226 1.0000000 38.12022 12 { 무능, 불구 } => { 비난 } 0.017228226 0.9989551 38.08039 13 { 거부, 무능 } => { 비난 } 0.017246247 0.9954924 37.94839 14 { 거부, 불구 } => { 비난 } 0.017288296 0.9941278 37.89637 15 { 무능, 비판, 무책임 } => { 실패 } 0.001129326 0.9842932 30.41698 16 { 거부, 무능, 비난 } => { 불구 } 0.017228226 0.9989551 24.97328 17 { 거부, 무능 } => { 불구 } 0.017228226 0.9944521 24.86071 18 { 무능, 비난 } => { 불구 } 0.017228226 0.9927310 24.81768 19 { 거부, 비난 } => { 불구 } 0.017288296 0.9862920 24.65671 20 { 거부, 불구, 비난 } => { 무능 } 0.017228226 0.9965254 20.43012

44 2015 년소셜빅데이터기반보건복지이슈동향분석 그림 2-4 메르스감정의연관규칙에대한병렬좌표와그래프시각화 그림 2-5 와같이지역별메르스에대한부정적 ( 불안 ) 감정 9) 은심각1 단계 (4단계) 까지서울, 경기, 충남, 부산등의순으로높은것으로나타났고, 심각2단계 (5단계) 부터는경기, 대전, 서울, 강원등의순으로높은것으로나타났다. 그림 2-5 지역별메르스위험 ( 불안 ) 감정 9) 총버즈 666,510 건중지역을식별할수있는버즈 76,316 건 (11.45%) 에대한지역별메르스에대한부정적 ( 불안 ) 감정의빈도를나타냄

제 2 장소셜빅데이터분석기반메르스감정위험예측 45 < 표 2-2> 와같이메르스와관련하여긍정적인감정 ( 안심 ) 을나타내는온라인문서 ( 버즈 ) 는 22.3%, 보통의감정을나타내는버즈는 6.5%, 부정적인감정 ( 불안 ) 은 71.2% 로나타났다. 메르스관련국가는아시아 (71.1%), 아메리카 (16.5%), 중동 (10.1%) 등의순으로나타났다. 메르스관련기관은정부 (68.9%), 병원 (23.9%), 학교 (1.8%), 정당 (1.8%) 등의순으로나타났다. 메르스관련감염은접촉 (35.3%), 낙타 (34.6%), 감염경로 (14.4%) 등의순으로나타났다. 메르스관련증상으로는전파 (49.7%), 사망 (21.0%), 의심증상 (13.6%) 등의순으로나타났다. 메르스관련대처 / 치료로는정부대응 (31.6%), 격리 (28.9%), 감염가능검사 (18.5%) 등의순으로나타났다. 메르스관련예방으로는예방수칙 (37.4%), 마스

46 2015 년소셜빅데이터기반보건복지이슈동향분석 크 (35.4%), 위생 (20.3%) 등의순으로나타났다. 메르스관련대상으로는증상자 (52.1%), 일반인 (21.4%), 의료인 (8.6%) 등의순으로나타났다. 메르스관련바이러스로는기타바이러스 (37.6%), 사스 (31.3%), 신종플루 (12.6%) 등의순으로나타났다. 표 2-2 메르스관련버즈현황 구분 항목 N(%) 구분 항목 N(%) 긍정 ( 안심 ) 51,998(22.3) 초기대응 37,147(13.6) 감정국가기관감염증상 보통 15,176( 6.5) 치료 20,295( 7.4) 부정 ( 불안 ) 166,471(71.2) 격리 78,985(28.9) 대처 / 치료계 233,645 감염가능검사 50,472(18.5) 아시아 83,970(71.1) 정부대응 86,289(31.6) 중동 11,945(10.1) 계 273,188 아프리카 840( 0.7) 예방수칙 28.8(37.4) 유럽 1,967( 1.7) 외출자제 501( 0.7) 아메리카 19,450(16.5) 위생 15,606(20.3) 예방계 118,172 면약강화 11,306(14.7) 정부 172,872(68.9) 마스크 27,164(35.4) 민간기관 479( 0.2) 계 76,691 정당 4,531( 1.8) 일반인 88,928(21.4) 국제기구 3,934( 1.6) 남성 6,902( 1.7) 중국국가기관 1,073( 0.4) 여성 4,638( 1.1) 병원 59,897(23.9) 노인 1,440( 0.3) 공항 3,625( 1.4) 아이학생 12,305( 3.0) 학교 4,622( 1.8) 가족 15,894( 3.8) 계 251,033 싱글 13,669( 3.3) 대상감염경로 13,137(14.4) 외국인 1,962( 0.5) 낙타 31,436(34.6) 여행객 3,425( 0.8) 공기 10,863(11.9) 증상자 216,660(52.1) 기타동물 3,394( 3.7) 의료인 35,666( 8.6) 접촉 32,119(35.3) 군인 844( 0.2) 계 90,949 직장인 13,895( 3.3) 전파 119,859(49.7) 계 416,228 의심증상 32,753(13.6) 코로나바이러스 2,126( 3.0) 열 12,133( 5.0) 사스 21,955(31.3) 호흡기증상 18,795( 7.8) 신종플루 8,849(12.6) 소화기증상 1,848( 0.8) 바이러스 조류인플루엔자 2,526( 3.6) 신장질환 1,429( 0.6) 에볼라 8,307(11.8) 사망 50,716(21.0) 기타바이러스 26,347(37.6) 기타증상 3,576( 1.5) 계 70,110 계 241,109

제 2 장소셜빅데이터분석기반메르스감정위험예측 47 < 표 2-3> 과같이예방요인에대한메르스감정의연관성예측에서가장신뢰도가높은연관규칙으로는 { 위생, 면역강화 }=>{ 안심 } 이며세변인의연관성은지지도 0.003, 신뢰도는 0.882, 향상도는 11.298로나타나, 온라인문서 ( 버즈 ) 에서위생, 면역강화가언급되면메르스를긍정적 ( 안심 ) 으로생각할확률이 88.2% 이며, 위생, 면역강화가언급되지않은버즈보다메르스에대한감정이긍정적일확률이 11.3배높아지는것으로나타났다. 대처 / 치료요인에대한메르스감정의연관성예측에서가장신뢰도가높은연관규칙으로는 { 초기대응, 격리, 감염검사 }=>{ 불안 } 이며네변인의연관성은지지도 0.02, 신뢰도는 0.904, 향상도는 3.619로나타나, 온라인문서 ( 버즈 ) 에서초기대응, 격리, 감염검사가언급되면메르스를부정적 ( 불안 ) 으로생각할확률이 90.4% 이며, 초기대응, 격리, 감염검사가언급되지않은버즈보다메르스에대한감정이부정적일확률이 3.6배높아지는것으로나타났다. 증상요인에대한메르스감정의연관성예측에서가장신뢰도가높은연관규칙으로는 { 전파, 열, 사망 }=>{ 불안 } 이며세변인의연관성은지지도 0.002, 신뢰도는 0.5676, 향상도는 2.273로나타나, 온라인문서 ( 버즈 ) 에서전파, 열, 사망이언급되면메르스를부정적 ( 불안 ) 으로생각할확률이 56.8% 이며, 전파, 열, 사망이언급되지않은버즈보다메르스에대한감정이부정적일확률이 2.27배높아지는것으로나타났다. 표 2-3 예방요인, 대처 / 치료요인, 증상요인에대한메르스감정예측 구분규칙지지도신뢰도향상도 예방요인 { 위생, 면역강화 } => { 안심 } 0.002955695 0.88143177 11.2981862 { 위생 } => { 안심 } 0.007423745 0.31705754 4.0640414 { 면역강화 } => { 안심 } 0.003318780 0.19564833 2.5078189 { 위생, 마스크 } => { 안심 } 0.001947458 0.15676329 2.0093907 { 예방수칙, 위생, 마스크 } => { 불안 } 0.001756913 0.35345608 1.4151535 { 예방수칙, 위생 } => { 불안 } 0.002049482 0.34460141 1.3797015 { 예방수칙 } => { 안심 } 0.003357789 0.10120286 1.2972175

48 2015 년소셜빅데이터기반보건복지이슈동향분석 구분 규칙 지지도 신뢰도 향상도 { 마스크 => { 안심 } 0.003230259 0.07925931 1.0159453 {} => { 안심 } 0.078015334 0.07801533 1.0000000 {} => { 불안 } 0.249765195 0.24976519 1.0000000 { 예방수칙, 마스크 } => { 불안 } 0.002074988 0.23742489 0.9505924 { 예방수칙 } => { 불안 } 0.005713343 0.17219861 0.6894420 { 위생, 마스크 } => { 불안 } 0.002106495 0.16956522 0.6788985 { 면역강화 } => { 불안 } 0.002604612 0.15354679 0.6147646 { 마스크 } => { 불안 } 0.005434277 0.13333824 0.5338544 { 위생 } => { 불안 } 0.003053218 0.13039856 0.5220846 대처 / 치료요인 증상요인 { 초기대응, 격리, 감염검사 } => { 불안 } 0.015567658 0.9041478 3.619991 { 초기대응, 격리 } => { 불안 } 0.018457337 0.8382393 3.356109 { 감염검사, 정부대응 } => { 불안 } 0.013081574 0.8202258 3.283987 { 초기대응, 감염검사 } => { 불안 } 0.015969753 0.7587141 3.037709 { 초기대응, 격리, 정부대응 } => { 불안 } 0.004430541 0.7129406 2.854443 { 초기대응, 정부대응 } => { 불안 } 0.008370467 0.7023795 2.812159 { 초기대응, 격리, 감염검사, 정부대응 } => { 불안 } 0.002298540 0.6913357 2.767943 { 초기대응, 치료, 격리, 감염검사, 정부대응 } => { 불안 } 0.001354818 0.6866920 2.749350 { 초기대응, 치료, 감염검사, 정부대응 } => { 불안 } 0.001422334 0.6742532 2.699548 { 치료, 격리, 감염검사, 정부대응 } => { 불안 } 0.001923452 0.6719078 2.690158 { 초기대응, 치료, 격리, 감염검사 } => { 불안 } 0.001578371 0.6666667 2.669174 { 초기대응, 감염검사, 정부대응 } => { 불안 } 0.002445575 0.6631408 2.655057 { 치료, 감염검사, 정부대응 } => { 불안 } 0.002040480 0.6605148 2.644543 { 초기대응, 치료, 격리, 정부대응 } => { 불안 } 0.001750911 0.6570946 2.630849 { 초기대응, 치료, 감염검사 } => { 불안 } 0.001663891 0.6531213 2.614941 { 치료, 격리, 정부대응 } => { 불안 } 0.002651123 0.6453616 2.583873 { 전파, 호흡기증상, 사망 } => { 안전 } 0.001930954 0.4030692 5.166538 { 전파, 열, 사망 } => { 불안 } 0.002082489 0.5676892 2.272891 { 전파, 열, 호흡기증상, 사망 } => { 불안 } 0.001771916 0.5472660 2.191122 { 전파, 의심증상, 열, 사망 } => { 불안 } 0.001543863 0.5455992 2.184448 { 전파, 의심증상, 호흡기증상, 사망 } => { 불안 } 0.001518357 0.5403097 2.163270 { 전파, 열 } => { 불안 } 0.004037449 0.5391705 2.158710 { 전파, 의심증상, 열 } => { 불안 } 0.002715638 0.5375705 2.152304 { 전파, 열, 호흡기증상 } => { 불안 } 0.002600111 0.5333949 2.135585 { 전파, 의심증상, 열, 호흡기증상, 사망 } => { 불안 } 0.001360820 0.5307197 2.124875 { 전파, 의심증상, 호흡기증상 } => { 불안 } 0.002070487 0.5257143 2.104834 { 전파, 기타증상 } => { 불안 } 0.001330813 0.5153980 2.063530 { 전파, 의심증상, 열, 호흡기증상 } => { 불안 } 0.001756913 0.5113537 2.047338 { 전파, 열, 기타증상 } => { 불안 } 0.001053248 0.5090645 2.038172 { 전파, 의심증상, 사망 } => { 불안 } 0.002187514 0.4753831 1.903320 { 전파, 호흡기증상 } => { 불안 } 0.003501823 0.4589971 1.837714 { 전파, 의심증상 } => { 불안 } 0.008245938 0.4570478 1.829910 { 의심증상, 열 } => { 불안 } 0.003776387 0.4384254 1.755350 { 전파, 호흡기증상, 사망 } => { 불안 } 0.002055483 0.4290636 1.717868

제 2 장소셜빅데이터분석기반메르스감정위험예측 49 메르스의감정에영향을미치는요인은다음과같다. < 표 2-4> 와같이메르스와관련한예방수칙, 위생, 면역강화는정적의영향을미치는것으로나타나예방수칙, 위생, 면역강화와관련한예방요인이온라인상에많이언급될수록메르스에대한부정적인감정 ( 불안 ) 이감소하는것으로나타났으나, 마스크와외출자제는부적인영향을미치는것으로나타나부정적인감정 ( 불안 ) 을증가시키는것으로나타났다. 메르스와관련한치료와정부대응은정적의영향을미치는것으로나타나치료와정부대응과관련한대처요인이온라상에많이언급될수록메르스에대한부정적인감정 ( 불안 ) 이감소하는것으로나타났으나, 초기대응, 격리, 감염가능검사는부적인영향을미치는것으로나타나부정적인감정 ( 불안 ) 을증가시키는것으로나타났다. 메르스와관련한호흡기증상, 신장질환, 기타질환은정적의영향을미치는것으로나타나호흡기증상, 신장질환과관련한증상요인이온라인상에많이언급될수록메르스에대한부정적인감정 ( 불안 ) 이감소하는것으로나타났으나, 전파, 의심증상, 열, 사망은부적인영향을미치는것으로나타나부정적인감정 ( 불안 ) 을증가시키는것으로나타났다. 메르스와관련한채널요인은 SNS만부적인영향을미치는것으로나타나 SNS로확산되는온라인문서가부정적인감정 ( 불안 ) 을증가시키는것으로나타났다. 표 2-4 메르스의감정에영향을미치는요인 1) 예방 변수 긍정보통 b S.E. OR P b S.E. OR P 예방수칙.082.032 1.086.011 -.327.058.721.000 외출자제 -.514.152.598.001.443.187 1.557.018 위생 2.273.035 9.707 0.000 1.292.057 3.640.000 면역강화.387.040 1.472.000 -.619.092.538.000 마스크 -.599.039.549.000.473.050 1.605.000

50 2015 년소셜빅데이터기반보건복지이슈동향분석 대처 / 치료 증상 채널 변수 긍정보통 b S.E. OR P b S.E. OR P 초기대응 -1.407.030.245 0.000 -.368.032.692.000 치료 1.566.030 4.786 0.000 1.007.044 2.736.000 격리 -1.192.020.304 0.000 -.772.028.462.000 감염가능검사 -1.583.027.205 0.000.349.024 1.418.000 정부대응.682.012 1.978 0.000.040.022 1.040.070 전파 -.481.015.618.000 -.261.023.770.000 의심증상 -.410.027.664.000 -.429.043.651.000 열 -.195.043.823.000.352.058 1.422.000 호흡기증상 1.936.029 6.929 0.000 1.581.042 4.859.000 소화기증상.115.121 1.122.340 -.347.176.707.048 신장질환.267.078 1.307.001.192.101 1.211.057 사망 -.550.027.577.000 -.298.041.742.000 기타질환.244.068 1.276.000.379.087 1.461.000 블로그.597.047 1.817.000.863.067 2.370.000 카폐.623.052 1.865.000.446.090 1.561.000 SNS -.227.018.797.000 -.614.026.541.000 게시판.210.040 1.234.000.263.065 1.301.000 뉴스.047.024 1.048.052.624.032 1.867.000 주 : 1) 기본범주 : 부정, Standardized coefficients, Standard error, Adjusted odds ratio 그림 2-6 과같이메르스관련예방요인이메르스의감정예측모형에미치는영향은 Hand_Claner 의영향력이가장큰것으로나타났다. Hand_Claner 가있을경우메르스의부정 ( 불안감정 ) 은이전의 76.3% 에서 28.9% 로크게감소한반면, 긍정 ( 안심감정 ) 은이전의 23.7% 에서 71.1% 로증가하였다. Hand_Claner 가있고 Hand_Care 가없는경우메르스의부정은이전의 28.9% 에서 13.3% 로증가한반면, 긍정적감정은이전의 71.1% 에서 86.7% 로감소하였다. Hand_Claner 가없을경우메르스의부정 ( 불안감정 ) 은이전의 76.3% 에서 77.9% 로증가한반면, 긍정 ( 안심감정 ) 은이전의 23.7% 에서 22.1% 로감소하였다. Hand_Claner 가없고 Hand_Care 가없는경우메르스의부정은이

제 2 장소셜빅데이터분석기반메르스감정위험예측 51 전의 77.9% 에서 78.2% 로증가한반면, 긍정적감정은이전의 22.1% 에 서 21.8% 로감소하였다. 그림 2-6 메르스관련예방요인의예측모형 그림 2-7 과같이메르스관련증상요인이메르스의감정예측모형에미치는영향은 호흡기증상 의영향력이가장큰것으로나타났다. 호흡기증상 이있을경우메르스의부정 ( 불안감정 ) 은이전의 71.2% 에서 37.6% 로크게감소 10) 한반면, 보통감정은이전의 6.5% 에서 13.7%, 긍정 ( 안심감정 ) 은이전의 22.3% 에서 48.6% 로증가하였다. 호흡기증상 이있고 열 이있는경우메르스의부정은이전의 37.6% 에서 58.9% 10) 호흡기증상 이있을경우부정 ( 불안 ) 의감정이감소한것은 호흡기증상 보다는 발열 에대한불안한감정이많이전파되어평소에 호흡기증상 만있는사람은안심을하지만 열 이발생할경우불안한감정을증가시키는것으로판단된다.

52 2015 년소셜빅데이터기반보건복지이슈동향분석 로증가한반면, 긍정적감정은이전의 48.6% 에서 27.3% 로증가하였다. 호흡기증상 이없을경우메르스의부정 ( 불안감정 ) 은이전의 71.2% 에서 72.6% 로증가한반면, 긍정 ( 안심감정 ) 은이전의 22.3% 에서 21.2% 로감소하였다. 호흡기증상 이없고 전파 가있는경우메르스의부정은이전의 72.6% 에서 79.3% 로증가한반면, 긍정적감정은이전의 21.2% 에서 15.0% 로감소하였다. 호흡기증상 이없고 전파 가없고 의심증상 이있는경우경우메르스의부정은이전의 71.0% 에서 91.3% 으로증가한반면, 긍정적감정은이전의 22.6% 에서 6.2% 로크게감소하였다. 그림 2-7 메르스관련증상요인의예측모형 표 2-5> 의메르스의증상요인의예측모형에대한이익도표와같이메르스의긍정감정에가장영향력이높은경우는 호흡기증상 이있고 열 이없고 의심증상 이없는조합으로나타났다. 즉, 12번노드의지수 (index) 가 286.3% 로뿌리마디와비교했을때 12번노드의조건을가진

제 2 장소셜빅데이터분석기반메르스감정위험예측 53 집단이메르스를긍정적으로느끼는확률이 2.86배로나타남. 메르스부정적인감정에가장영향력이높은경우는 호흡기증상 이없고 전파 가없고 의심증상 이있는조합으로나타났다. 즉, 9번노드의지수가 128.1% 로뿌리마디와비교했을때 9번노드의조건을가진집단이메르스에대한부정적인확률이 1.28배로나타났다. 표 2-5 메르스관련증상요인의예측모형에대한이익도표 구분안심보통불안 노드 이익지수누적지수노드 (n) 노드 (%) 이익 (%) 지수 (%) 노드 (n) 노드 (%) 이익 (%) 지수 (%) 12 5309 2.3 6.5 286.3 5309 2.3 6.5 286.3 14 1105.5.7 157.0 6414 2.7 7.2 264.0 7 5930 2.5 2.7 107.5 12344 5.3 10.0 188.8 13 2153.9 1.0 105.4 14497 6.2 10.9 176.5 10 176816 75.7 78.8 104.2 191313 81.9 89.8 109.6 11 387.2.2 94.0 191700 82.0 89.9 109.6 8 36152 15.5 9.4 60.7 227852 97.5 99.3 101.8 9 5793 2.5.7 27.8 233645 100.0 100.0 100.0 14 1105.5 1.2 259.1 1105.5 1.2 259.1 11 387.2.4 214.8 1492.6 1.6 247.7 12 5309 2.3 4.8 211.7 6801 2.9 6.4 219.6 13 2153.9 1.7 186.6 8954 3.8 8.1 211.7 7 5930 2.5 2.6 102.6 14884 6.4 10.7 168.2 10 176816 75.7 75.1 99.2 191700 82.0 85.8 104.6 8 36152 15.5 13.2 85.5 227852 97.5 99.0 101.6 9 5793 2.5 1.0 38.8 233645 100.0 100.0 100.0 9 5793 2.5 3.2 128.1 5793 2.5 3.2 128.1 8 36152 15.5 17.6 113.6 41945 18.0 20.8 115.6 10 176816 75.7 74.7 98.8 218761 93.6 95.5 102.0 7 5930 2.5 2.5 97.4 224691 96.2 98.0 101.9 11 387.2.2 91.4 225078 96.3 98.1 101.9 13 2153.9.8 90.4 227231 97.3 99.0 101.8 14 1105.5.3 67.7 228336 97.7 99.3 101.6 12 5309 2.3.7 31.6 233645 100.0 100.0 100.0

54 2015 년소셜빅데이터기반보건복지이슈동향분석 5. 분석결과요약 메르스관련버즈는 2015년 5월 28일급속히증가하여 5월 30일감소하였다가 6월 1일이후메르스추가환자발생과사망자발생보도후, 급속히증가한것으로나타났다. 메르스에대한부정적감정 ( 불안 ) 의표현단어는 무시, 한심, 판단, 거부, 비난, 무능, 불구, 답답, 공포, 스트레스, 무책임, 비판, 실패, 괴담, 협박 키워드와강하게연결되어있는것으로나타나, 이는정부의초기대응미흡에대한국민의실망감과 SNS를통한메르스괴담의급속한전파로인한불안감이표출된것으로보인다. 메르스와관련하여긍정적인감정 ( 안심 ) 을나타내는온라인문서 ( 버즈 ) 는 22.3%, 부정적인감정 ( 불안 ) 은 71.2% 로나타나, 메르스에대한부정적감정이약 3.2배높은것으로나타났다. 메르스사태에서는온라인문서중트위터등 SNS를통해정보가많이유통된것으로나타났다. 메르스를키워드로추출한데이터중 SNS가차지하는비율이 92.8%(61만8471건 ) 로나타나, 담뱃값논란당시 SNS 비율 (52.9%) 보다높은비율로나타났다. 또한, SNS 게시물들은메르스에대한불안을심화시킨것으로나타났다. 블로그, 카페등을통해메르스정보를접한사람은안심등긍정적인마음이약 1.8배증가했지만, SNS 를통해메르스정보를접한사람은메르스에대해안심하는비율이 20% 가량감소한것으로나타났다 11). 온라인문서 ( 버즈 ) 에서 { 위생, 면역강화 } 가동시에언급되면메르스를긍정적으로생각할감정 ( 안심 ) 이증가하며, { 초기대응, 격리, 감염검사 } 가동시에언급되면메르스를부정적으로생각하는감정 ( 불안 ) 이증가하고, 11) 동아일보 (2015. 6. 11.) 기침환자는차분한데.. 건강한사람이더불안에떨어 http:// news.donga.com/3/all/20150611/71758969/1.

제 2 장소셜빅데이터분석기반메르스감정위험예측 55 { 전파, 열, 사망 } 이동시에언급되면메르스를부정적으로생각하는감정 ( 불안 ) 이증가하는것으로나타났다. 온라인상에 마스크, 외출자제, 초기대응, 격리, 감염검사, 전파, 의심증상, 열, 사망 이언급되면메르스를부정적으로생각하는감정 ( 불안 ) 이증가하는것으로나타났다. SNS상에서확산되는메르스관련온라인문서는메르스를부정적으로생각하는감정 ( 불안 ) 을증가시키는것으로나타났다. 메르스에긍정적인감정에가장영향력이높은경우는 호흡기증상 이있고 열 이없고, 의심증상이없는조합으로나타났으며, 부정적인감정에가장영향력이높은경우는 호흡기증상 이없고, 전파 가없고 의심증상 이있는조합으로나타났다.

참고문헌 << 송주영, 송태민 (2014). 소셜빅데이터를활용한북한관련위협인식요인예측. 국제문제연구, 가을. pp.209~243. Adrien Guille, Hakim Hacid, C. Favre, Djamel Abdlkader Zighed(2013). Information Diffusion in Online Social Networks: A Survey. Association for Computing Machinery, 42(2). pp.17~28 Alagaili, A.N., Briese, T., Mishra, N., Kapoor, V., Sameroff, S.C., de Wit, E., Munster V.J., Hensley, L.E., Zalmout, I.S., Kapoor, A., Epstein, J.H., Karesh, W.B., Daszak, P., Mohammed, O.B., Lipkin, W.I.(2014). Middle East Respiratory Syndrome Coronavirus Infection in Dromedary Camels in Saudi Arabia., mbio, 5(2); e000884~14. Assiri, A., McGeer, A., Peri, T.M., Price, C.S., Rabeeah A.A., Cummings, D.A., Alabdullatif, Z.N., Assad, M., Almulhim, A., Makhdoom, H., Madani, H., Alhakeem, R., Al-Tawfig, J.A., Cotten, M., Watson, S.J., Kellam, P., Zumla, A., Memish, Z.A.(2013). Hospital Outbreak of Middle East Respiratory Syndrome Coronavirus, The New England Journal of Medicine, 369(5), pp.407~416. Bermingham, A., Chand, M.A., Brown, C.S., Asrons, E., Tong, C., Langrish, C., Hoschler, K., Brown, K., Galiano, M., Myers, R., Pebody, R.G., Green, H.K., Boddington N.L., Gopal, R., Price, N., Newsholme, W., Drosten, C., Fouchier, R.A., Zambon, M.(2012). Severe Respiratory Illness Caused by a Novel Coronavirus, in a Patient Transferred to the United Kingdom form the Middle East, Euro Surveillance, 17(4), pp.1~5. Centers for Disease Control and Prevention(2015b). Middle East

58 2015 년소셜빅데이터기반보건복지이슈동향분석 Respiratory Syndrome(MERS): Symptoms & Complications. Http://www.cdc.gov/coronavirus/mers/about/symptoms. html. Centers for Disease Control and Prevention(2015a). People Who May Be at Increased Risk for MERS. Http://www.cdc.gov/coronavirus/mers/risk.html. Centers for Disease Control and Prevention(2015c). Middle East Respiratory Syndrome(MERS): Prevention & Treatment. Http://www.cdc.gov/coronavirus/mers/about/prevention.html Dinyakant Agrawal, Caren Budak, Amr El Abbadi(2011). Information diffusion in Social Networks: Observing and influencing Societal Interests. in Proceeding of International Conference on Very Large Data Bases. pp.1~5. European Centre for Disease Prevention and Control(2015a), Epidemiological Update: Middle East Respiratory Syndrome Coronavirus(MERS-CoV). emarkerter(2013). Social Networking Reaches Nearly One in Four Around the World: By 2014, the Ranking of Regions by Social Networkd Users will Reflect Regional Shares of the Global Population. 2013/06/18 [ 검색일 : 2015.06.04., http://emarketer. com/article/social-networking-reaches-nearly-one-four- Around-World/1009976] Groot, R.J., Baker, S.C., Baric, R.S., Brown, C.S., Drosten, C., Enjuances, L., Fouchier, R.A., Galiano, M., Gorbalenya, A.E., Memish, Z., Perlman, S., Poon, L.L., Snijer, E.J., Stephens, G.M., Woo, P.C., Zaki, A.M., Zambon, M., Ziebuhr, J.(2013). Middle East Respiratory Syndrome Coronavirus(MERS-CoV); Announcement of the Coronavirus Study Group, Journal of Virology, 87(14), pp.7790~779.

제 2 장소셜빅데이터분석기반메르스감정위험예측 59 Hemida, M.G., Perera, R.A., Wang, P., Alhammadi, M.A., Siu, L.Y., Li, M., Poon, L.L., Saif, L., Alnaeem, A., Peiris, M.(2013). Middle East Respiratory Syndrome(MERS) Coronavirus Seroprevalence in Domestic Livestock in Saudi Arabia, 2010 to 2013, Euro Surveillance, 18(50), pp.1~7. Hong, Ju-hyeon, Yun, Hye-jin(2014). The Diffusion of Rumor Via Twitter: The diffusion and the user interactivity in the KOREA U.S. FTA Case, Korean Association for Communication and Information Studies 66. pp.59~84. Hong, Ju-hyeon(2014). A Crisis of Confidence and the Media: Newspapaer and Broadcast 10, pp.15~20. Jong-Hwan Kong, Ik-Kun Kim, Myung-Mook Han (2014). Propagation Models for Structural Parameters in Online Social Networks, Journal of Internet Computing and Services 15(1) pp.125~134 Kim, Young Wook (2014). Risk Communication. Communicationbooks Liang Mao (2014). Modeling Triple-diffusions of Infectionus Disease, Information, and Preventive Behaviors through a Metropolitan Social Networks: ans Agent-based Simulation. Applied Geography. 50, pp.31~39. Mostafa Salehj, Payam Siyari, Matteo Magnani, Danilo Montesi(2015). Multidimensional Epidemic Thresholds in Diffusion Process over Interdependent Networks. Multiplex Networks: Structure, Dynamics and Application. 72. pp.59~67. Park, Min-Gyeong, Lee, Gun-Ho (2011). Analysis of Online Opinion Leader s Discourse Patterns: Regarding Opinion aobut Sejong City posted on Agora, the discussion borad of the Portal Daum. Korean Association for Communication and Information Studies, 48(1), pp.114~149.

60 2015 년소셜빅데이터기반보건복지이슈동향분석 Ryu, Hyeon Suk (2013). A Study on Risk Perception and Communication via Social Media. The Korea Institute of Public Administration. Research Report 25(3). Rogers Everett M. (1983). Diffusion of Innovations, Third Edition. The American Center Library. p.5. WHO(2013). Middle East Respiratory Syndrome Coronavirus Joint Kingdom of Saudi Arabia/WHO mission. Media Centre News Releases. 2013-06-10. WHO(2013). WHO Guidelines for Investigation of Cases of Human Infection with Middle East Respiratory Syndrome Coronavirus (MERS-CoV). WHO(2015). Recommends Continuation of Strong Disease Control Measures to bring MERS-CoV Outbreak in Republic of Korea to an end, Media Centre, 2015-06-23. Zaki, A.M., Boheemen, S.V., Bestebrober, T.M., Osterhaus, A.D., Fouchier R.A(2012). Isolation of a Novel Coronavirus from a Man with Pneumonia in Saudi Arabia, The New England Journal of Medicine, 367(19), pp.1814~1820.

제 3 장 소셜빅데이터를활용한담배위험예측 1. 서론 2. 연구방법 3. 연구결과 4. 결론 참고문헌

3 소셜빅데이터를활용한담배위험예측 12) << 1. 서론 우리나라 19세이상성인남성흡연율은 1998년 66.3% 에서 2005년 51.6%, 2013년 42.1% 로감소추세이지만 (Ministry of Health and Welfare, 2014), 2012년 15세이상남성흡연율은 OECD 평균 24.9% 보다높은 37.6% 로세계에서가장높은위치를차지하고있다 (OECD Health Data, 2014). 이와같이우리나라남성흡연율이 OECD 회원국중최고수준에달하는상황에서현정부는 2015년 1월 1일부터담뱃값을 2,000원인상하는등범정부차원의금연종합대책을발표하였다 (Ministry of Health and Welfare, 2014 Press release). 전세계적으로흡연으로인해매년 600만명이사망하고있으며 (WHO, 2008), 전체암사망의 30.5%, 호흡기질환사망의 19.8%, 심혈관질환사망의 11.4% 가흡연으로인해사망한것으로예측되었다 (Zheng 등, 2014). 우리나라는 1985년 24,338명, 2003년 46,207명, 2012년 58,155명이흡연으로인한사망자수로보고되었고 (Jung 등, 2013), 2012년기준흡연에의한건강보험진료비는 1조 8,466억원으로추정하고있다 (Ji 등, 2014). 담배연기는사람에게치명적인화학물질 7,000개이상을함유하고있으며, 이로인해폐암을비롯한각종암과심혈관질환, 호흡기질환, 만성 12) 본연구는 송태민 (KIHASA), 송주영 (PSU, 교신저자 ), 천미경 (KIHASA). 소셜빅데이터를활용한담배위험예측. 한국데이터정보과학회지. 2015, 제 26 권 5 호 에게재된논문임을밝힌다.

64 2015 년소셜빅데이터기반보건복지이슈동향분석 질환등다양한질병과관련있는것으로알려져있다 (Carter 등, 2015; CDC, 2010; Thun 등, 2013). 우리나라는 1995년국민건강증진법이제정됨에따라본격적으로담배판매, 광고, 금연구역확대등을추진하였고, 청소년보호법, 학교보건법등에서도청소년흡연과관련하여제도적으로규제하고있다. 또한 2005년 WHO 담배규제기본협약 (FCTC) 비준이후다양한흡연예방및담배규제정책을시행하고있다 (Kang과 Lee, 2011). 담배규제정책들은선진국과개발도상국의차이가있을지라도실제사례를통해효과가입증되었다. 미국은지속적으로담뱃값이인상됨에따라담배소비량이줄어들었고 (Campaign for Tobacco-Free Kids, 2013), 터키도 2008년에비해 2012년담뱃값이 42.1% 증가했을때흡연율은 14.6% 감소하였다 (CDC, 2014). 우리나라는 2004년 12월 2,000원에서 500원인상된후 10년동안추가적인인상이이루어지지않아흡연율의상승과하락을반복하여담뱃값인상에대한금연효과는크지않은것으로나타났다 (Ministry of Health and Welfare, 2014). 담뱃갑경고그림은 2000년 12월캐나다에서제일먼저시작되었고, 흡연자의 63% 는담뱃갑경고그림을통해적어도 1번이상의금연효과를경험했으며 (Hammond 등, 2004), 세계여러나라에서도법안으로정하여시행되고있다. 우리나라는담뱃갑경고그림을의무화하는국민건강증진법개정안이 사실적근거를바탕으로지나치게혐오감을주지않는다 는조건하에통과되어 2016년 12월부터는담뱃갑에경고그림이의무적으로표기된다. 최근 2015년 1월 1일담뱃값인상으로건강증진부담금비중을확대 (14.2% 18.7%) 하였으며, 추가확보된재원을금연성공률이가장높은약물 상담치료에지원하고학교, 군부대, 사업장등에대한금연지원을대폭확대하는한편, 금연광고와금연캠페인을연중실시하고보건소금

제 3 장소셜빅데이터를활용한담배위험예측 65 연클리닉, 금연상담전화, 온라인상담등 1:1 맞춤형금연상담서비스도대폭강화할계획이다 (Ministry of Health and Welfare, 2014 Press release). 한편모바일인터넷과소셜미디어의확산으로데이터양이증가하여데이터의생산, 유통소비체계에큰변화가일어나면서데이터가경제적자산이될수있는빅데이터시대를맞이하게되었다. 세계각국의기업들이빅데이터가공공과민간에미치는파급효과를전망함에따라 SNS를통해생산되는소셜빅데이터의활용과분석을통하여사회적문제의해결과정부의정책을효과적으로추진할수있을것으로예측하고있다. 또한 SNS의역할은기업에서마케팅측면뿐만아니라학자들간의학문연구에서도갈수록중요해지고있으며, 이러한공동의협력은집단창의성 (swarm creativity) 을통해혁신을가져올수있을뿐만아니라성공의가능성도더욱커지게하는결과를가져온다 (Chun, 2015). 우리나라는정부 3.0과창조경제의추진과실현을위하여다양한분야에빅데이터의효율적활용을적극적으로모색하고있다. 정부 3.0은공공부문의데이터공개를통해행정의효율성을높이고, 국민의참여를활성화시키며경제활성화등의파급효과를기대하고있으며, 정부의데이터공개정책은정보화시대에소통과공유, 협업전략이무엇보다중요하다는것을의미한다 (Hong, 2014). 소셜빅데이터의분석은사용자가남긴온라인문서의의미를분석하는것으로자연어처리기술인주제분석 (Text mining) 과감성분석기술인오피니언마이닝 (Opinion mining) 을실시한후, 네트워크분석 (Network analysis) 과통계분석 (Statistics analysis) 을실시해야한다. 기존에실시하던횡단적조사나종단적조사등을대상으로한연구는정해진변인들에대한개인과집단의관계를보는데에는유용하나, 사이버