<C1A4C3A5C0DAB7E15F D303128BCDBC5C2B9CE295FC3D6C1BEC0CEBCE2BFEB C3D6C1BE2DC6EDC1FD2E687770>

Similar documents
년소셜빅데이터를활용한통일인식동향분석 통일에대한한국인의전반적인관심도는 2010년 52.6% 에서 2014년 82.6% 로증가하였으나 20대의무관심은다른세대에비해높은상태로지속됨. 3) 최근의남북관계는모든세대의통일인식에강하게영향을미치고있으나신자유주의통일세대 (

보건 복지 Issue & Focus 한반도통일은남북한의문이자동북아주변국의미래를좌우할국적사안으로 5), 한반도평화체와본격적인통일과정에서국사회의지지는필수불가결한요소이며 6) 국내차원에서는통일에대한국민적공감대형성과통일을맞이할수있는역량구축이필요함 통일을위해서국차원에서는한반도통

Tae-min Song and Juyoung Song 일본 (39.6%) 다음으로노인인구비율이높은수준 (OECD 평균 25.8%) 이될것으로전망하고있다 [1]. 이와같은초저출산과인구고령화로인해생산가능인구는감소하고노인부양비가급증하는등 지속가능한성장 과 국민행복 의시대에큰

1048 Tae Min Song Juyoung Song Mi Kyung Cheon 등, 2015; CDC, 2010; Thun 등, 2013). 우리나라는 1995년국민건강증진법이제정됨에따라본격적으로담배판매, 광고, 금연구역확대등을추진하였고, 청소년보호법, 학교보건법등


<B3EDB4DC28B1E8BCAEC7F6292E687770>

이발간물은국방부산하공익재단법인한국군사문제연구원에서 매월개최되는국방 군사정책포럼에서의논의를참고로작성되었습니다. 일시 장소주관발표토론간사참관 한국군사문제연구원오창환한국군사문제연구원장허남성박사 KIMA 전문연구위원, 국방대명예교수김충남박사 KIMA객원연

<B4E3B9E8B0A1B0DD DB9E8C6F7C0DAB7E12E687770>

<352E20BCD2BCC820BAF2B5A5C0CCC5CD20B1E2B9DD20C0FAC3E2BBEA20C1A4C3A520BCF6BFE4BAD0BCAE28BCDBC5C2B9CE29202D20BCF6C1A432C2F72E687770>

Untitled-1

<C3D6C1BEBAB8B0EDBCAD5FB4E3B9E8B0A1B0DDC0CEBBF3B0FA20C0E7BFF8C8B0BFEBB9E6BEC82E687770>

( 제 20-1 호 ) '15 ( 제 20-2 호 ) ''16 '15 년국제개발협력자체평가결과 ( 안 ) 16 년국제개발협력통합평가계획 ( 안 ) 자체평가결과반영계획이행점검결과 ( 제 20-3 호 ) 자체평가결과 국제개발협력평가소위원회

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

01 01NEAR


ad hwp

KDI정책포럼제221호 ( ) ( ) 내용문의 : 이재준 ( ) 구독문의 : 발간자료담당자 ( ) 본정책포럼의내용은 KDI 홈페이지를 통해서도보실수있습니다. 우리나라경

조사연구 aim of this study is to find main cause of the forecasting error and bias of telephone survey. We use the telephone survey paradata released by N

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A S

C O N T E N T S 목 차 요약 / 3 Ⅰ. 브라질소비시장동향및특성 경제현황 2. 소비시장의특성 Ⅱ. 브라질소비시장히트상품분석 최근히트상품 년소비시장, 이런상품을주목하라! Ⅲ. 우리기업의 4P 진출전략



..1,2,3,

대학생연수용교재 선거로본대한민국정치사

한국정책학회학회보


ㅇ ㅇ

목 차 Ⅰ. 사업개요 5 1. 사업배경및목적 5 2. 사업내용 8 Ⅱ. 국내목재산업트렌드분석및미래시장예측 9 1. 국내외산업동향 9 2. 국내목재산업트렌드분석및미래시장예측 목재제품의종류 국내목재산업현황 목재산업트렌드분석및미래시

1-1) 아직까지도우리나라는 resilience' 이라는용어가적응유연성 ( 권태철, 2002; 김미승, 2002; 박현선, 1998, 1999a, 1999b; 양국선, 2001; 유성경, 2000; 이선아, 2004; 윤미경, 2002; 조혜정, 2002; 장순정, 2

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은


본연구는교육부특별교부금사업으로서울산광역시교육청으로부터예산이지원된정책연구과제임

- 89 -

목차 Ⅰ. 기본현황 Ⅱ 년도성과평가및시사점 Ⅲ 년도비전및전략목표 Ⅳ. 전략목표별핵심과제 1. 군정성과확산을통한지역경쟁력강화 2. 지역교육환경개선및평생학습활성화 3. 건전재정및합리적예산운용 4. 청렴한공직문화및앞서가는법무행정구현 5. 참여소통을통한섬

보건 복지 Issue & Focus 이 글은 시간에 대한 (저출산)정책적 관점의 중요성을 고려하여, 주 출산연령층(20~49세)의 경활동 특성에 따른 가사노동시간 3) 의 차이를 분석하고 정책적 함의를 도출하고자 함 우선 가사노동시간의 성별 차이를 살펴보고, 여성의 경

01정책백서목차(1~18)


Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: : * Research Subject

Global FDI Briefing [FDI FOCUS] 아세안의외국인직접투자와경제구역 (UNCTAD) 2017 년 12 월 18 일 [ 제 139 호 ]


- 2 -

2002report hwp

공무원복지내지82p-2009하

<BFACB1B85F D333528BCDBC5C2B9CE295F32C2F7C8AEC0CEBFEB5F E687770>

DBPIA-NURIMEDIA

UDI 이슈리포트제 20 호 울산권개발제한구역의효율적관리방안 도시계획연구실정현욱연구원 052) / < 목차 > 요약 1 Ⅰ. 서론 3 Ⅱ. 울산권개발제한구역의현황및문제점 4 Ⅲ. 외국의개발제구역대안적관리사

농림축산식품부장관귀하 본보고서를 미생물을활용한친환경작물보호제및비료의제형화와현장적용매뉴 얼개발 ( 개발기간 : ~ ) 과제의최종보고서로제출합니다 주관연구기관명 : 고려바이오주식회사 ( 대표자 ) 김영권 (

새 정부에 바라는 담배규제정책

6) 송승종길병옥, ' 군용무인기개발의역사와그전략적함의에대한연구,' 군사 제 97 호, ) 최근공개된자료에따르면주한미군은기간중 268 회의무인기비행을수행한것으로알려졌다.


2002report hwp

C O N T E N T S 1. FDI NEWS 2. GOVERNMENT POLICIES 3. ECONOMY & BUSINESS 4. FDI STATISTICS 5. FDI FOCUS

11+12¿ùÈ£-ÃÖÁ¾

C O N T E N T S 1. FDI NEWS 2. GOVERNMENT POLICIES 中, ( ) ( 对外投资备案 ( 核准 ) 报告暂行办法 ) 3. ECONOMY & BUSINESS 美, (Fact Sheet) 4. FDI STATISTICS 5. FDI FOCU

allinpdf.com

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

05 ƯÁý

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

C O N T E N T S 1. FDI NEWS 2. GOVERNMENT POLICIES 3. ECONOMY & BUSINESS 4. FDI STATISTICS 5. FDI FOCUS

위탁연구 기능경기시스템선진화방안

<B8D3B8AEB8BB5F20B8F1C2F72E687770>

2002report hwp

CC hwp

장애인건강관리사업

2차 수사분석사례집_최종.hwp

ICT À¶ÇÕÃÖÁ¾

1. 조사설계 조사대상 2017 년 2 월현재, 전국만 19 세이상남녀 표본의크기 조사방법 1,021 명 ( 가중전 1,021 명, 가중후 1,000 명 ) - 가중치를 1,000 명기준으로부여했으나, 보도시표본크기는 1,021 명으로보도해야함. 구조화된설문지를이용한전

C O N T E N T S 1. FDI NEWS 2. GOVERNMENT POLICIES 3. ECONOMY & BUSINESS 4. FDI STATISTICS 5. FDI FOCUS

조사연구 sampling error of polling sites and the additional error which comes from non-response, early voting and second stage sampling error of voters in

동아시아국가들의실질환율, 순수출및 경제성장간의상호관계비교연구 : 시계열및패널자료인과관계분석

2009방송통신산업동향.hwp

UDI 이슈리포트제 18 호 고용없는성장과울산의대응방안 경제산업연구실김문연책임연구원 052) / < 목차 > 요약 1 Ⅰ. 연구배경및목적 2 Ⅱ. 한국경제의취업구조및취업계수 3 Ⅲ. 울산경제의고용계수 9

RR hwp

<B1B9C8B8C0D4B9FDC1B6BBE7C3B3BAB85F BB0DCBFEFC8A35B315D2E706466>

2013_1_14_GM작물실용화사업단_소식지_내지_인쇄_앙코르130.indd

2014 년도사업계획적정성재검토보고서 차세대바이오그린 21 사업

210 법학논고제 50 집 ( )


슬라이드 1

제출문 한국연구재단이사장귀하 본보고서를정책연구용역과제인 학문분야별연구개발사업추 진체계수립을위한사전기획연구 의최종보고서 ( 초안 ) 로제출 합니다 년 6 월 한국연구재단 연구기관명 : 건국대학교산학협력단 연구책임자 : 박재민 공동연구원 : 엄미정 공동연구원 :

º»ÀÛ¾÷-1

ICT EXPERT INTERVIEW ITS/ ICT? 차량과 인프라 간 통신(V2I) Nomadic 단말 통신(V2P) 차량 간 통신(V2V) IVN IVN [ 1] ITS/ ICT TTA Journal Vol.160 l 9


지지정당별지방선거투표의향별국정수행평가별국무총리인선평가별정부개각범위의견별사전투표제인지별사전투표참여의향별지방선거성격공감별차기대선후보선호도별성 * 연령별 자영업 (102) 블루칼라 (96) 12.

에듀데이터_자료집_완성본.hwp

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

조사보고서 구조화금융관점에서본금융위기 분석및시사점


2003report hwp

CC hwp

외국인투자유치성과평가기준개발

BibLaTeX을 이용한 한국어 참고 문헌 처리의 가능성


09³»Áö

고3-02_비문학_2_사회-해설.hwp

서론 34 2

<C1DF29B1E2BCFAA1A4B0A1C1A420A8E85FB1B3BBE7BFEB20C1F6B5B5BCAD2E706466>

* ** *** ****

슬라이드 1

국제보건복지정책동향 å 2. 스웨덴공공부조의역사 ä 보건복지

Transcription:

정책자료 2016-02 2016 년소셜빅데이터기반보건복지이슈동향분석 송태민 이기호 진달래 천미경 서동철 박현애

책임연구자 송태민한국보건사회연구원선임연구위원 주요저서 R을활용한소셜빅데이터연구방법론한나래아카데미, 2016( 공저 ) 빅데이터분석방법론한나래아카데미, 2013( 공저 ) 공동연구진 이기호한국보건사회연구원부연구위원진달래한국보건사회연구원연구원천미경한국보건사회연구원연구원서동철인디애나주립대학교박현애서울대학교간호대학 정책자료 2016-02 2016 년소셜빅데이터기반보건복지이슈동향분석 발행일저자발행인발행처주소 전화홈페이지등록인쇄처정가 2016 년 12 월 31 일송태민김상호한국보건사회연구원 [30147] 세종특별자치시시청대로 370 세종국책연구단지사회정책동 (1~5 층 ) 대표전화 : 044)287-8000 http://www.kihasa.re.kr 1994 년 7 월 1 일 ( 제 8-142 호 ) ( 주 ) 범신사비매품 c 한국보건사회연구원 2016 ISBN 978-89-6827-333-9 93510

발간사 << 최근스마트폰, 스마트TV, RFID, 센서등의급속한보급과모바일인터넷및소셜미디어의확산으로데이터양이기하급수적으로증가하고데이터의생산, 유통, 소비체계에큰변화를주면서데이터가경제적자산이될수있는빅데이터시대를맞이하게되었다. 세계각국의정부와기업들은빅데이터가향후국가와기업의성패를가름할새로운경제적가치의원천이될것으로기대하고있으며, The Economist, Gartner, McKinsey 등은빅데이터를활용한시장변동예측과신사업발굴등경제적가치창출사례및효과를제시하고있다. 특히빅데이터는미래국가경쟁력에도큰영향을미칠것으로기대돼각국가는안전을위협하는글로벌요인이나테러, 재난 재해, 질병, 위기등에선제적으로대응하기위해우선적으로도입하고있다. 한국에서는최근정부3.0과창조경제를추진 실현하고현정부의주요정책과제를지원하기위해다양한분야에서빅데이터의활용가치가강조되고있다. 빅데이터는데이터의형식이다양하고방대할뿐만아니라그생성속도가매우빨라기존의데이터를처리하던방식이아닌새로운관리및분석방법을요구한다. 또한트위터, 페이스북등소셜미디어에남긴정치, 경제, 사회, 문화에대한메시지는그시대의감성과정서를파악할수있는원천으로등장함에따라, 대중매체에의해수립된정책의제는이제소셜미디어로부터파악할수있으며개인이주고받은수많은댓글과소셜로그정보는공공정책을위한공공재로서진화중이다. 이와같이많은국가와기업에서는 SNS로인해생산되는소셜빅데이

터의활용과분석을통하여새로운경제적효과와일자리창출은물론사회적문제의해결을위해적극적으로노력하고있다. 이에본연구는소셜빅데이터를기반으로우리나라보건복지주요이슈에대한동향을분석하기위한것으로, 2016년의주요이슈로보건복지정책미래신호예측, 담배, 통일, 어린이예방접종온톨로지개발, 지카바이러스온톨로지개발의 5개주제에대해소셜빅데이터를수집하여동향분석과수요예측및위험예측모형을제시하였다. 이와같은연구는보건복지주요이슈를적시에분석하고수요를예측할수있다는점에서정책적 분석방법론적으로의의가있으며, 실제적으로내용을더욱빠르게효과적으로파악하여사회조사가지닌한계를보완할수있는새로운조사방법으로서의소셜빅데이터가치를확인하였다는점에서조사방법론적의의를가진다고할수있다. 본연구에귀중한조언을아끼지않으신많은전문가분들과주요이슈에대한논문집필에참여해주신교수님들께감사드린다. 끝으로본보고서에수록된모든내용은우리연구원의공식적인견해는아니며어디까지나참여한연구진의의견임을밝힌다. 2016 년 12 월 한국보건사회연구원원장 김상호

목차 Abstract 1 요약 3 제1장소셜빅데이터를활용한보건복지정책미래신호예측 7 제1절서론 9 제2절소셜빅데이터기반미래신호예측방법론 10 제3절소셜빅데이터기반보건복지정책미래신호예측 11 참고문헌 27 제2장 2016 소셜빅데이터를활용한통일인식동향분석및예측 29 제1절서론 31 제2절연구방법 33 제3절연구결과 38 제4절결론 58 참고문헌 63 제3장 2016 소셜빅데이터를활용한담배위험예측 65 제1절서론 67 제2절연구방법 70 제3절연구결과 75 제4절결론 87 참고문헌 91

제4장지카바이러스감염증소셜빅데이터분류를위한온톨로지개발 95 제1절서론 97 제2절지카바이러스소셜빅데이터온라인문서현황 109 제3절연구결과 123 제4절결론 125 참고문헌 131 제5장어린이예방접종소셜빅데이터분류를위한온톨로지개발 135 제1절서론 137 제2절어린이예방접종온톨로지개발 141 제3절연구결과 154 제4절논의 185 제5절결론 187 참고문헌 189

Korea Institute for Health and Social Affairs 표목차 표 1-1 온라인채널의보건복지정책, 이슈의키워드분석 13 표 1-2 보건복지정책, 이슈의 DoV 평균증가율과평균단어빈도 15 표 1-3 보건복지정책, 이슈의 DoD 평균증가율과평균단어빈도 16 표 1-4 보건복지관련정책, 이슈의미래신호 19 표 1-5 보건복지수요에영향을주는주요정책요인 21 표 1-6 보건복지주요정책의연관규칙 23 표 2-1 통일인식의감정키워드연관성예측 42 표 2-2 통일관련문서 ( 버즈 ) 현황 46 표 2-3 연도별통일관련국민인식 48 표 2-4 통일관련안보 이슈의국가별버즈현황 49 표 2-5 통일관련안보 이슈의기관별버즈현황 50 표 2-6 안보와이슈요인에대한통일인식의연관성예측 51 표 2-7 주변국가 (4국) 의통일인식의연관성예측 53 표 2-8 통일인식에영향을미치는안보 이슈요인 54 표 2-9 통일인식관련안보 이슈요인의예측모형에대한이익도표 57 표 3-1 담배관련온라인문서현황 77 표 3-2 연도별담배관련감정변화 80 표 3-3 요인별담배위험예측 81 표 3-4 담배의위험군과잠재군에영향을미치는정책및도구요인 84 표 3-5 정책요인의예측모형에대한이익도표 86 표 4-1 국내지카바이러스확진자현황 104 표 4-2 발생구분별지카바이러스감염국가 105 표 4-3 성관계를통한지카바이러스감염국가 106 표 4-4 지카바이러스소셜빅데이터수집을위한분류 110 표 4-5 지카바이러스소셜빅데이터수집을위한분류 123 표 5-1 Competency questions 144

표 5-2 연구개념틀에서제시한관련요인들의내용분류 147 표 5-3 예방접종관련게시글의주제분류 151 표 5-4 인적요인의하위분류및용어체계 157 표 5-5 인적요인의데이터모델링예시 158 표 5-6 구조사회문화요인의하위분류및용어체계 160 표 5-7 구조사회문화요인의데이터모델링예시 161 표 5-8 정보요인의하위분류및용어체계 162 표 5-9 정보요인의데이터모델링예시 165 표 5-10 환경요인의하위분류및용어체계 166 표 5-11 환경요인의데이터모델링예시 168 표 5-12 예방접종의도의하위분류및용어체계 169 표 5-13 예방접종의도의데이터모델링 170 표 5-14 예방접종행위의하위분류및용어체계 171 표 5-15 예방접종행위의데이터모델링예시 172 표 5-16 행동반응요인의하위분류및용어체계 173 표 5-17 행동반응요인의데이터모델링예시 175 표 5-18 Competency questions와 DL-Query 176 표 5-19 어린이예방접종빅데이터연구도구 ( 키워드 ) 179 표 5-20 어린이예방접종관련온라인문서현황 183 그림목차 그림 1-1 보건복지관련정책, 이슈의 KEM(Keyword Emergence Map) 18 그림 1-2 보건복지관련정책, 이슈의 KIM(Keyword Issue Map) 18 그림 1-3 랜덤포리스트모델의보건복지주요정책의중요도 20 그림 1-4 보건복지정책수요예측의의사결정나무모형 22 그림 2-1 통일관련문서 ( 버즈 ) 량일별추이 : 2016년 1~3월 39

Korea Institute for Health and Social Affairs 그림 2-2 통일연도별감정변화 40 그림 2-3 통일인식감정의연관규칙에대한병렬좌표시각화 45 그림 2-4 통일인식관련안보 이슈요인의예측모형 56 그림 3-1 월별, 시간별담배관련온라인문서현황 76 그림 3-2 담배관련요일별온라인문서현황 76 그림 3-3 월별담배관련질환별온라인문서현황 77 그림 3-4 월별담배위험군 ( 담배를애호적으로생각하는감정집단 ) 감정변화 79 그림 3-5 월별담배일반군 ( 담배를혐오적으로생각하는감정집단 ) 감정변화 79 그림 3-6 정책요인의예측모형 86 그림 4-1 SIR 모형 101 그림 4-2 SEIR 모형 102 그림 4-3 모기에의한바이러스이동경로 103 그림 4-4 지카바이러스감염경로 104 그림 4-5 WHO 지역구분별지카바이러스감염누적국가수 107 그림 4-6 지카바이러스확산현황 108 그림 4-7 지카바이러스온톨로지분류 127 그림 4-8 생태학적관점의지카바이러스온톨로지분류체계 127 그림 5-1 어린이예방접종온톨로지개발과정 142 그림 5-2 예방접종관련게시글에포함된용어의 word cloud 152 그림 5-3 어린이예방접종온톨로지개념틀 155 그림 5-4 어린이예방접종온톨로지 175 그림 5-5 Competency questions 평가과정예시 178

Abstract << Social big data trend analysis based on health and welfare issues in 2016 Big data consists of various forms of data in large volumes, which are rapidly created. Therefore, it requires a new management and analysis methodology. Moreover, as social media platforms emerge as the source of information about the feelings and sentiments of the current times with messages on politics, economics, society, and culture, policy agendas set up in public spheres can be identified from social media. Countless comments between individuals and society evolve as a log of information, which continues to evolve as an asset for public policy. As such, many nations and businesses actively strive for new economic effects, job creation, as well as solving social problems through the utilization and analysis of social big data created through social networking services(sns). This study proposes study methodologies and utilization strategies of social big data that can create value and predict the future by gathering and analyzing social big data from various fields.

요약 << 1. 연구의배경및목적 스마트폰, 센서, 모바일인터넷그리고소셜미디어등의급속한보급과확산으로데이터양이비약적으로증가하면서데이터가경제적자산이될수있는빅데이터가도래하였다. 빅데이터는미래국가경쟁력에도큰영향을미칠것으로기대돼각국가는안전을위협하는글로벌요인이나테러, 재난 재해, 질병, 위기등에선제적으로대응하기위해우선적으로도입하고있다. 빅데이터는데이터의형식이다양하고방대할뿐만아니라그생성속도가매우빨라기존의데이터를처리하던방식이아닌새로운관리및분석방법을요구한다. 또한트위터, 페이스북등소셜미디어에남긴정치, 경제, 사회, 문화에대한메시지는그시대의감성과정서를파악할수있는원천으로등장함에따라, 대중매체에의해수립된정책의제는이제소셜미디어로부터파악할수있으며개인이주고받은수많은댓글과소셜로그정보는공공정책을위한공공재로서진화중이다. 이와같이많은국가와기업에서는 SNS로인해생산되는소셜빅데이터의활용과분석을통하여새로운경제적효과와일자리창출은물론사회적문제를해결하기위해적극적으로노력하고있다. 본연구에서는다양한분야의소셜빅데이터를수집 분석하여가치를창출하고미래를예측할수있는소셜빅데이터연구방법과활용방안을제시하였다. 그리고 2016년의주요보건복지이슈로보건복지정책, 통일, 담배, 지카바이러스, 어린이예방접종에대한소셜빅데이터를수집하여동향분석과수요예측및위험예측모형을제시하였다.

4 2016 년소셜빅데이터기반보건복지이슈동향분석 2. 주요연구결과 제1장 소셜빅데이터를활용한보건복지정책미래신호예측 에서는소셜빅데이터기반미래예측방법론을사용하여보건복지와관련하여나타나는주요정책과이슈에대한미래신호예측모형을제시하였다. 우리나라온라인뉴스사이트, 블로그, 카페, SNS, 게시판등에서수집한소셜빅데이터를기반으로보건복지분야의각정책및이슈별로강신호와약신호로분류하였다. 특히복지급여와일자리가동시에언급된문서의찬성비율이매우높은것으로나타나능동적복지체계구축을통한일자리창출이필요한것으로보이며, 건강보험및중증질환이동시에언급된문서또한찬성비율이높은것으로나타나건강보험혜택확대로 4 대중증질환의보장성강화가국민의료비를줄임으로써정부정책에대한좋은평가결과로나타난것으로확인되었다. 제2장 2016 소셜빅데이터를활용한통일인식동향분석및예측 에서는우리나라온라인뉴스사이트, 블로그, 카페, SNS, 게시판등에서수집한소셜빅데이터를바탕으로우리나라국민의통일인식에대한동향을분석하고통일인식의예측모형과연관규칙을파악하였다. 우리나라안보와이슈에대한통일인식의연관성예측분석결과통일대박이언급되었을때언급되지않은문서보다통일에찬성할확률이 0.47배높아지는것으로나타났으며핵무기, 천안함이동시에언급되었을경우언급되지않은문서보다통일에반대할확률이 5.92배높아지는것으로나타났다. 제3장 2016년소셜빅데이터를활용한담배위험예측 에서는우리나라온라인뉴스사이트, 블로그, 카페, SNS, 게시판등에서수집한소셜빅데이터를바탕으로우리나라국민의담배에대한위험예측모형과연

요약 5 관규칙을파악하였다. 담뱃값 과 흡연규제 가동시에온라인에서언급되면일반군이될확률이증가하며, 담뱃값인상 만언급되어도위험군을감소시키는것으로나타났다. 제4장 지카바이러스감염증소셜빅데이터분류를위한온톨로지개발 에서는우리나라온라인뉴스사이트, 블로그, 카페, SNS, 게시판등에서수집한소셜빅데이터를수집하기에앞서용어추출에대한다수준적접근을위하여생태학적체계이론을바탕으로주제분류를하여온톨로지용어를구축하였다. 추출된용어를기반으로 2016년 1월 1일부터 4월 15일까지빅데이터를수집하였으며, 지카바이러스와관련하여긍정적인감정을나타내는온라인문서는 36.1%, 보통의감정을나타내는문서는 12.2%, 부정적인감정을나타내는문서는 51.6% 로나타났으며, 지카바이러스대처방법에대해서는초기대응, 정부대응, 감염검사등의순으로확인되었다. 제5장 어린이예방접종소셜빅데이터분류를위한온톨로지개발 에서는어린이예방접종에대한부모의감정, 경험, 태도, 지식과관련된용어를수집하고, 용어로부터관련개념을추출하여추출된개념의데이터모델을개발하였으며, 각영역간의관계를나타내는온톨로지와유의어및동의어를포함한용어체계를개발 구축하였다. 예방접종온톨로지는부모와자녀간의개인요인에서부터구조적 사회적 문화적 환경적요인을모두포함하고있으며, 예방접종이전부터예방접종을하는시점, 예방접종을하고난후의모든시기에관련된요인을포함하고있다.

6 2016 년소셜빅데이터기반보건복지이슈동향분석 3. 결론및시사점 소셜빅데이터는다양한분야에활용할수있다. 첫째, 본연구의적용과같이정부정책과새로운기술에대한미래신호를사전에예측하여대비할수있다. 분야별주요정책에대한미래신호를탐색하고예측함으로써정책의수요예측과평가가가능할수있다. 또한빅데이터, 사물인터넷, 머신러닝, 인공지능등신기술에대한미래신호를예측하여적시대응체계를구축할수있다. 둘째, 조사를통한기존정보수집체계의한계를보완할수있는새로운자료수집방법으로활용할수있다. 통일인식조사, 청소년우울조사, 담배인식조사, 식품안전조사, 인터넷중독조사등다양한분야의조사에활용할수있을것이다. 셋째, 사회적위기상황에대한모니터링과예측으로위험에대한사전대응체계를구축할수있다. 자살위험예측, 사이버폭력위험예측, 메르스정보확산위험예측, 지카바이러스정보확산위험예측, 북한위험예측등다양한사회위험에대한즉시대응체계를구축할수있다. 끝으로빅데이터를분석하여인과성과연관성을발견하고미래를예측하기위해서는데이터사이언티스트양성을위한정부차원의노력이필요할것으로본다. * 주요용어 : 소셜빅데이터, 보건복지, 데이터마이닝, 다변량분석, 시각화, R

제 1 장 소셜빅데이터를활용한보건복지정책미래신호예측 제 1 절서론 제 2 절소셜빅데이터기반미래신호예측방법론 제 3 절소셜빅데이터기반보건복지정책미래신호예측 참고문헌

1 소셜빅데이터를활용한보건복지정책미래신호예측 1) << 제 1 절서론 미래변화의트렌드를파악하고미래의핵심기술을선별하기위해주요선진국들은주기적으로국가의미래트렌드를분석하고그결과를발표하고있다 ( 정근하, 2010, p.6) 2). 그동안미래트렌드를예측하기위한다양한연구가시도되어왔으나대부분의전문가는지식과의견에따라미래를전망하는방법을사용해왔다. 최근소셜네트워크서비스 (SNS) 를비롯한온라인채널에서생산되는텍스트형태의비정형데이터가실제경제및사회에미치는영향력이매우커짐에따라소셜빅데이터를활용한미래예측연구가진행되고있으나수집기술과분석기술의어려움으로활발히확산되지못하고있는실정이다. 한편현정부는국민이행복한사회를이루기위한사회보장정책방향으로 생애주기별맞춤형복지 를제시하고이를실현하기위한맞춤형복지정책을도입및확대하고있다. 2016년도에는국민이체감하는맞춤형복지확산을목표로맞춤형기초생활보호제도정착, 4대중증질환등의료보장지속, 맞춤형보육개편, 기초연금및장기요양지원확대, 복지안내강화, 취약계층필수서비스지속, 국민체감형원격의료확산, 신약개발및제약산업육성등을중점적으로추진해왔다. 정부에서추진하고 1) 본연구는미래창조과학부 / 정보통신기술진흥센터의 R&D 프로그램 [R7117-16-0219, 점진적기계학습기반자가진화 (Self-Evolving) 에이전트시뮬레이션을이용한사회변화예측분석기술개발 ] 의지원을받아작성되었으며, 송태민 (2016). 소셜빅데이터를활용한미래신호예측 : 보건복지주요정책과이슈를중심으로. 보건복지포럼, 통권제 238 호, 한국보건사회연구원 에게재된것임을밝힘. 2) 정근하. (2010). 텍스트마이닝과네트워크분석을활용한미래예측방법연구. 한국과학기술기획평가원.

10 2016 년소셜빅데이터기반보건복지이슈동향분석 있는보건복지정책을성공적으로추진하여예상하는성과를얻기위해서는다양한보건복지욕구와이해집단의갈등을최소화하기위한정책동향및수요를예측해적시에대응할수있는체계가구축되어야한다. 본연구는우리나라에서수집가능한모든온라인채널에서언급된보건복지관련문서를수집하여주제분석과감성분석을통하여보건복지주요키워드를분류하고보건복지와관련하여나타나는주요정책과이슈에대한미래신호를탐지해예측모형을제시하고자한다. 제 2 절소셜빅데이터기반미래신호예측방법론 오늘날미래의환경변화를감지하기위한다양한연구가시도되고있으며, 여러연구중에서가장많은주목을받고있는것은미래의변화를예감할수있는약신호 (weak signal) 를탐지하는것이다 (Yoon, 2012; 박찬국, 김현제, 2015) 3). 약신호는 미래에가능한변화의징후 (Ansoff, 1975) 4) 로약신호는시간이흐르면서강신호 (strong signal) 로, 강신호는다시트렌드 (trend) 나메가트렌드 (mega trend) 로발전할수있다. Hiltunen(2008) 5) 은약신호를미래신호 (future sign) 라는개념을이용하여미래신호를신호 (signal), 이슈 (issue), 이해 (interpretation) 와같 3) Yoon, J. (2012). Detecting weak signals for long-term business opportunities using text mining of Web news, Journal Expert Systems with Applications 39(16), pp.12543-12550; 박찬국, 김현제. (2015). 사물인터넷을통한에너지신산업발전방향연구 - 텍스트마이닝을이용한미래신호탐색. 에너지경제연구원. 4) Ansoff, H.I. (1975). Managing strategic surprise by response to weak signals, Californian Management Review 18(2), pp.21-33. 5) Hiltunen, E. (2008). The future sign and its three dimensions, Futures 40, pp.247 260.

제 1 장소셜빅데이터를활용한미래신호예측 11 이 3 차원의미래신호공간으로설명하였다. Yoon(2012) 은웹뉴스의문 서를수집하여텍스트마이닝분석을통해생성된단어빈도 (Term Frequency, TF) 와문서빈도 (Document Frequency, DF) 를 Hiltunen (2008) 의신호와이슈로각각연계하였다. Yoon(2012) 은단어빈도, 문 서빈도, 발생빈도증가율을이용하여 KEM(Keyword Emergence Map) 과 KIM(Keyword Issue Map) 의키워드포트폴리오를작성하고 작성된키워드포트폴리오를이용하여약신호를선별하였다. KEM 은가 시성을보여주는것으로 DoV(degree of visibility) 를산출하고, KIM 은확산정도를보여주는것으로 DoD(degree of diffusion) 를산출할 수있다. { } { } 여기서 은전체문서수를의미하고, 는단어빈도, 는문서 빈도, 는시간가중치 ( 본연구에서시간가중치는 0.05 를적용 ), 은전 체시간구간, 는시점을의미한다. 제 3 절소셜빅데이터기반보건복지정책미래신호예측 1. 연구대상 본연구는국내의온라인뉴스사이트, 블로그, 카페, 소셜네트워크서 비스 (SNS), 게시판등인터넷을통해수집된소셜빅데이터를대상으로 하였다. 본분석에서는 149 개의온라인뉴스사이트, 4 개의블로그 ( 네이

12 2016 년소셜빅데이터기반보건복지이슈동향분석 버 네이트 다음 티스토리 ), 2개의카페 ( 네이버 다음 ), 1개의 SNS( 트위터 ), 15개의게시판 ( 네이버지식인 네이트지식 네이트톡 네이트판등 ) 등총 171개의온라인채널을통해수집가능한텍스트기반의웹문서 ( 버즈 ) 를소셜빅데이터로정의하였다. 보건복지관련토픽은 2016. 1. 1. 2016. 3. 31. 해당채널에서요일별, 주말, 휴일을고려하지않고매시간단위로수집하였으며, 수집된총 20만 1849건 (1월: 8만 7567건, 2월 : 6 만 5278건, 3월 : 4만 9004건 ) 의텍스트 (Text) 문서를본연구의분석에포함시켰다. 본연구를위한소셜빅데이터의수집 6) 은크롤러 (Crawler) 를사용하였고, 토픽의분류는주제분석기법을사용하였다. 보건복지토픽은모든관련문서를수집하기위해 보건, 복지, 그리고 보건복지 를사용하였다. 2. 단어및문서빈도분석 7) 온라인채널에서수집된텍스트형태의문서를분석하기위해서는텍스트마이닝을통하여우선적으로문서내에서출현하는단어별빈도를산출해야한다. 텍스트마이닝분석을위해서는단어빈도와문서빈도를산출해야한다. 그리고중요한정보의추출을위해서 TF-IDF(Term Frequency-Inverse Document Frequency) 방법을사용하고있다. Spärck(1972) 8) 는희귀한단어일수록더높은가중치를부여하기위 6) 본연구를위한소셜빅데이터의수집및토픽분류는 ( 주 )SK 텔레콤스마트인사이트 에서수행함. 7) 본단어빈도및문서빈도의분석절차는박찬국, 김현제 (2015) 의분석방법을참고한것임을밝힌다. 8) Spärck Jones, K. (1972). "A Statistical Interpretation of Term Specificity and Its Application in Retrieval". Journal of Documentation 28: 11 21. doi:10.1108/eb026526.

제 1 장소셜빅데이터를활용한미래신호예측 13 해역문서빈도 [Inverse Document Frequency, log ] 를 제안하였다. 따라서단어빈도분석에희귀한단어일수록더높은가중치 를부여할필요가있다면단어빈도와역문서빈도를결합하여 TF-IDF= 를산출하여가중치 ( 단어의중요도지수 ) 를적용한다. 상기분석방법론에따라단어빈도, 문서빈도, 단어의중요도지수를고 려한문서의빈도분석을통하여보건복지관련정책과주요이슈에대한 인식변화를살펴보았다 (< 표 1-1> 참조 ). 단어빈도에서는일자리, 증세, 세금, 복지급여, 결혼출산, 건강증진, 치료등의순위로나타나고있어정 책은일자리, 복지급여, 결혼출산이우선이고주요이슈는증세, 세금, 치 료가우선인것으로나타났다. 문서빈도는단어빈도와비슷한추이를나 타내고있으나결혼출산이단어빈도에서는 5 위인반면문서빈도에서는 7 위로나타났다. 키워드의중요성을나타내는단어빈도에서는결혼출산이 중요하나주제의확산을나타내는문서빈도에서는다소떨어져결혼출산 정책의확산에대한노력이필요할것으로본다. 중요도지수를고려한 단어빈도에서정책은일자리, 복지급여, 결혼출산이우선이고주요이슈 는증세, 세금이우선인것으로나타났다. 그리고키워드의월별순위변 화는 2016 년 2 월까지증세, 일자리, 세금, 복지급여, 치료가중요한키워 드로나타나다가 3 월에는건강증진이강조되기시작하여건강에대한관 심이확산되고있는것으로나타났다. < 표 1-1> 온라인채널의보건복지정책, 이슈의키워드분석 순위 TF DF TF-IDF 키워드빈도키워드빈도키워드빈도 1 일자리 8,212 증세 8,059 일자리 6,328 2 증세 8,059 일자리 7,459 증세 5,940 3 세금 5,339 세금 5,339 복지급여 4,955 4 복지급여 4,520 복지급여 3,524 세금 4,890

14 2016 년소셜빅데이터기반보건복지이슈동향분석 순위 TF DF TF-IDF 키워드빈도키워드빈도키워드빈도 5 결혼출산 3,419 건강증진 3,352 결혼출산 4,267 6 건강증진 3,352 치료 2,637 건강증진 3,748 7 치료 2,938 결혼출산 2,485 치료 3,591 8 건강보험 1,307 무상정책 1,116 건강보험 2,114 9 무상정책 1,156 건강보험 1,062 무상정책 1,845 10 기초연금 922 기초연금 922 기초연금 1,548 11 개인정보 872 개인정보 872 개인정보 1,485 12 미래세대육성 817 미래세대육성 817 미래세대육성 1,414 13 의료비 754 의료비 754 의료비 1,332 14 국민연금 738 국민연금 738 국민연금 1,310 15 의료민영화 686 의료민영화 662 보건산업 1,263 16 보건산업 672 자살 634 의료민영화 1,250 17 자살 634 보건산업 581 자살 1,167 18 부동산 483 부동산 483 부동산 946 19 등록금 471 등록금 459 보육 939 20 보육 460 보육 400 등록금 933 21 담배 383 담배 383 담배 789 22 가족친화 348 양극화 306 가족친화 761 23 양극화 306 가족친화 287 양극화 660 24 원격의료 237 중증질환 223 원격의료 546 25 중증질환 233 원격의료 219 중증질환 535 26 환자안전 229 환자안전 212 환자안전 531 합계 47,547 합계 43,985 합계 55,084 3. 보건복지관련키워드의미래신호탐색 9) 미래신호탐지방법론에따라분석한결과는 < 표 1-2>, < 표 1-3> 과같다. 보건복지관련 ( 정책, 이슈 ) 키워드에대한 DoV 증가율과평균단어빈도를산출한결과일자리와복지급여는높은빈도를보이고있으나 DoV 증가율은중앙값보다낮게나타나시간이지날수록신호가약해지는것으로나타났다. 결혼출산, 건강증진은평균단어빈도가높게나타났으며, DoV 증가율은중앙값보다높게나타나시간이지날수록빠르게신호가 9) 본미래신호탐색절차는박찬국, 김현제 (2015) 의분석방법을참고한것임을밝힌다.

제 1 장소셜빅데이터를활용한미래신호예측 15 강해지는것으로나타났다. 미래신호탐색을위해 DoV의평균단어빈도와 DoD의평균문서빈도를 X축으로설정하고 DoV와 DoD의평균증가율을 Y축으로설정한후, 각값의중앙값을사분면으로나누면 2사분면에해당하는영역의키워드는약신호가되고 1사분면에해당하는키워드는강신호가된다. 빈도수측면에서는상위 10위에 DoV는일자리, 증세, 세금, 복지급여, 결혼출산, 건강증진, 치료, 건강보험, 무상정책, 기초연금순으로포함되었고 DoD에는증세, 일자리, 세금, 복지급여, 건강증진, 치료, 결혼출산, 무상정책, 건강보험, 기초연금순으로포함되었다. DoV 증가율의중앙값 (0.23) 보다높은증가율을보이는키워드는결혼출산, 건강증진, 건강보험으로나타났으며 DoD 증가율의중앙값 (0.23) 보다높은증가율을보이는키워드는건강증진, 건강보험으로나타났다. 특히결혼출산의 DoV 증가율은중앙값보다높은반면 DoD 증가율은중앙값보다낮게나타나결혼출산정책의확산을위한방안이필요할것이다. < 표 1-2> 보건복지정책, 이슈의 DoV 평균증가율과평균단어빈도 키워드 DoV 평균평균증가율 1월 2월 3월단어빈도 일자리 0.142 0.168 0.186 0.147 2737 증세 0.158 0.237 0.063-0.116 2686 세금 0.136 0.098 0.077-0.246 1780 복지급여 0.11 0.067 0.094 0.008 1507 결혼출산 0.064 0.049 0.097 0.369 1140 건강증진 0.062 0.051 0.094 0.339 1117 치료 0.045 0.07 0.061 0.208 979 건강보험 0.026 0.02 0.034 0.245 436 무상정책 0.024 0.021 0.024 0.014 385 기초연금 0.013 0.02 0.023 0.33 307 개인정보 0.005 0.04 0.004 3.394 291 미래세대육성 0.01 0.005 0.04 3.498 272 의료비 0.015 0.01 0.022 0.415 251 국민연금 0.007 0.014 0.026 0.886 246

16 2016 년소셜빅데이터기반보건복지이슈동향분석 키워드 DoV 평균평균증가율 1월 2월 3월단어빈도 의료민영화 0.003 0.004 0.04 5.242 229 보건산업 0.011 0.013 0.017 0.216 224 자살 0.006 0.005 0.03 2.167 211 부동산 0.009 0.012 0.007-0.034 161 등록금 0.011 0.007 0.011 0.1 157 보육 0.008 0.012 0.006 0.015 153 담배 0.005 0.005 0.014 0.827 128 가족친화 0.004 0.004 0.014 1.275 116 양극화 0.01 0.003 0.004-0.226 102 원격의료 0.005 0.005 0.004-0.103 79 중증질환 0.007 0.004 0.003-0.307 78 환자안전 0.002 0.008 0.003 1.062 76 중앙값 0.23 249 < 표 1-3> 보건복지정책, 이슈의 DoD 평균증가율과평균단어빈도 키워드 DoD 평균평균증가율 1월 2월 3월단어빈도 증세 0.172 0.251 0.07-0.131 2686 일자리 0.138 0.163 0.186 0.159 2486 세금 0.148 0.104 0.085-0.238 1780 복지급여 0.092 0.055 0.082 0.047 1175 건강증진 0.067 0.054 0.104 0.369 1117 치료 0.043 0.068 0.06 0.221 879 결혼출산 0.054 0.042 0.069 0.224 828 무상정책 0.026 0.021 0.026 0.015 372 건강보험 0.022 0.017 0.032 0.309 354 기초연금 0.014 0.021 0.026 0.337 307 개인정보 0.005 0.042 0.005 3.278 291 미래세대육성 0.011 0.005 0.044 3.683 272 의료비 0.016 0.011 0.024 0.453 251 국민연금 0.008 0.015 0.028 0.902 246 의료민영화 0.003 0.003 0.044 6.347 221 자살 0.007 0.006 0.033 2.279 211 보건산업 0.01 0.013 0.015 0.229 194 부동산 0.01 0.013 0.008-0.04 161 등록금 0.011 0.007 0.012 0.12 153 보육 0.008 0.012 0.005 0.015 133 담배 0.006 0.005 0.015 0.875 128 양극화 0.011 0.003 0.004-0.203 102 가족친화 0.004 0.004 0.012 1.047 96

제 1 장소셜빅데이터를활용한미래신호예측 17 키워드 DoD 평균평균증가율 1월 2월 3월단어빈도 중증질환 0.007 0.003 0.003-0.265 74 원격의료 0.005 0.005 0.004-0.119 73 환자안전 0.002 0.008 0.003 1.27 71 중앙값 0.23 249 그림 1-1, 그림 1-2 와같이보건복지관련주요키워드는복지급여와일자리는 KEM에서는강신호로나타난반면 KIM에서는강하지는않지만잘알려진신호로나타났다. KEM과 KIM에공통적으로나타나는강신호 (1사분면) 에는미래세대육성, 개인정보, 국민연금, 의료비, 기초연금, 건강보험, 결혼출산, 치료, 건강증진이포함되었고약신호 (2사분면) 에는의료민영화, 자살, 환자안전, 가족친화, 담배, 보건산업이포함된것으로나타났다. KIM의 4사분면에만나타난, 강하지는않지만잘알려진신호는무상정책, 복지급여, 세금, 일자리, 증세이며 KIM의 3사분면에만나타난잠재신호는등록금, 보육, 부동산, 원격의료, 양극화, 중증질환으로나타났다.

18 2016 년소셜빅데이터기반보건복지이슈동향분석 그림 1-1 보건복지관련정책, 이슈의 KEM(Keyword Emergence Map) 그림 1-2 보건복지관련정책, 이슈의 KIM(Keyword Issue Map)

제 1 장소셜빅데이터를활용한미래신호예측 19 < 표 1-4> 보건복지관련정책, 이슈의미래신호 구분 잠재신호 (Latent Signal) 약신호 (Week Signal) 강신호 (Strong Signal) 강하지않지만잘알려진신호 (Not Strong but well known Signal) KEM 등록금, 보육, 부동산, 원격의료, 양극화, 중증질환 의료민영화, 자살, 가족친화, 환자안전, 담배, 보건산업, 국민연금 미래세대육성, 개인정보, 의료비, 기초연금, 건강보험, 결혼출산, 치료, 건강증진 무상정책, 복지급여, 세금, 일자리, 증세 KIM 등록금, 보육, 부동산, 원격의료, 양극화, 중증질환 의료민영화, 자살, 환자안전, 가족친화, 담배, 보건산업, 국민연금 미래세대육성, 개인정보, 의료비, 기초연금, 건강보험치료, 건강증진 무상정책, 결혼출산, 복지급여, 세금, 일자리, 증세 주요신호 등록금, 보육, 부동산, 원격의료, 양극화, 중증질환 의료민영화, 자살, 환자안전, 가족친화, 담배, 보건산업, 국민연금 미래세대육성, 개인정보, 의료비, 기초연금, 건강보험, 치료, 건강증진 무상정책, 복지급여, 세금, 일자리, 증세 4. 보건복지정책관련미래신호예측 가. 랜덤포리스트분석을통한주요보건복지정책요인예측 본연구의랜덤포리스트 (Random Forest) 분석을활용하여보건복지수요 ( 태도 ) 에영향을주는주요정책요인을살펴보면 그림 1-3 과같다. 보건복지수요 ( 찬성, 반대 ) 에가장큰영향을미치는 ( 연관성이높은 ) 정책요인은 복지급여 정책으로나타났으며그뒤를이어건강증진, 기초연금, 일자리, 의료민영화, 결혼출산, 건강보험, 보건산업정책등의순으로나타났다.

20 2016 년소셜빅데이터기반보건복지이슈동향분석 그림 1-3 랜덤포리스트모델의보건복지주요정책의중요도 랜덤포리스트의중요도로나타난정책요인들이보건복지수요에미치는영향을로지스틱회귀분석을통하여살펴본결과기초노령연금, 의료민영화는반대의확률이높으며, 그외국민연금 (p<.1), 보육, 출산양육, 가족친화, 건강보험, 원격의료등은찬성의확률이높은것으로나타났다 (< 표 1-5> 참조 ).

제 1 장소셜빅데이터를활용한미래신호예측 21 < 표 1-5> 보건복지수요에영향을주는주요정책요인주 ) 정책 b 찬성 S.E. OR P 국민연금.254.153 1.289.098 기초연금 -1.483.100.227.000 보육 1.440.318 4.221.000 결혼출산.629.070 1.875.000 가족친화 1.119.300 3.061.000 미래세대육성.796.212 2.216.000 무상정책.405.120 1.499.001 의료민영화 -1.634.121.195.000 건강보험 1.180.131 3.256.000 원격의료 1.133.316 3.106.000 중증질환 1.037.342 2.821.002 환자안전 1.303.351 3.681.000 보건산업 1.625.232 5.079.000 복지급여 1.225.068 3.405.000 건강증진 1.041.065 2.831.000 일자리.501.045 1.650.000 주 : 기본범주 -반대, Standardized coefficients, Standard error, odds ratio. 나. 의사결정나무분석을통한보건복지정책수요예측 보건복지정책수요예측모형에대한의사결정나무는 그림 1-4 와같다. 나무구조의최상위에있는뿌리나무는예측변수 ( 독립변수 ) 가투입되지않은종속변수의빈도를나타낸다. 뿌리마디의보건복지에대한감정의비율을보면보건복지에대해찬성은 71.7%, 반대는 28.3% 로나타

22 2016 년소셜빅데이터기반보건복지이슈동향분석 났다. 뿌리마디하단의가장상위에위치하는정책요인이종속변수에대한영향력이가장높은요인 ( 관련성이깊은 ) 으로, 복지급여 정책의영향력이가장큰것으로나타났다. 즉, 온라인문서에 복지급여 정책이있는경우찬성은이전의 71.1% 에서 91.3% 로증가하였다. 복지급여 정책이있고 일자리 정책이있는경우찬성은이전의 91.3% 에서 98.1% 로증가하는것으로나타났다. 그림 1-4 보건복지정책수요예측의의사결정나무모형

제 1 장소셜빅데이터를활용한미래신호예측 23 다. 연관분석을통한정책요인예측 소셜빅데이터분석에서연관분석은하나의온라인문서에포함된둘이상의단어들에대한상호관련성을발견하는것이다. 본연구에서는 < 표 1-6> 과같이하나의문서에나타난정책요인의수요에대한연관규칙을분석하였다. { 의료민영화 } { 반대 } 두변인의연관성은지지도가 0.003, 신뢰도는 0.579, 향상도는 2.044로나타났다. 이는온라인문서에서 의료민영화 정책이언급되면반대할확률이 57.9% 이며, 의료민영화 정책이언급되지않은문서보다반대할확률이약 2.04배높아지는것을나타낸다. { 건강보험, 중증질환 } { 찬성 } 으로세변인의향상도는 1.40으로온라인문서에서건강보험과중증질환정책이언급되지않은문서보다찬성할확률이 1.40배높은것으로나타났다. < 표 1-6> 보건복지주요정책의연관규칙규칙 지지도 신뢰도 향상도 { 의료민영화 } { 반대 } 0.002845413 0.57925072 2.0444824 { 기초연금 } { 반대 } 0.003680634 0.44444444 1.5686797 { 건강보험, 중증질환 } { 찬성 } 0.001670442 1.00000000 1.3953305 { 출산양육, 건강증진 } { 찬성 } 0.001528879 1.00000000 1.3953305 { 출산양육, 복지급여 } { 찬성 } 0.002180068 1.00000000 1.3953305 { 보건산업, 복지급여 } { 찬성 } 0.001005096 1.00000000 1.3953305 { 국민연금, 복지급여 } { 찬성 } 0.002109287 1.00000000 1.3953305 { 건강보험, 복지급여 } { 찬성 } 0.002831257 1.00000000 1.3953305 { 출산양육, 복지급여, 건강증진 } { 찬성 } 0.001090034 1.00000000 1.3953305 { 출산양육, 건강증진, 일자리 } { 찬성 } 0.001005096 1.00000000 1.3953305 { 출산양육, 복지급여, 일자리 } { 찬성 } 0.001373160 1.00000000 1.3953305 { 국민연금, 건강보험, 복지급여 } { 찬성 } 0.001061721 1.00000000 1.3953305 { 국민연금, 복지급여, 일자리 } { 찬성 } 0.001160815 1.00000000 1.3953305 { 건강보험, 복지급여, 건강증진 } { 찬성 } 0.001061721 1.00000000 1.3953305 { 건강보험, 복지급여, 일자리 } { 찬성 } 0.001443941 1.00000000 1.3953305

24 2016 년소셜빅데이터기반보건복지이슈동향분석 규칙 지지도 신뢰도 향상도 { 중증질환, 복지급여 } { 찬성 } 0.001613817 0.99130435 1.3831972 { 기초연금, 복지급여, 일자리 } { 찬성 } 0.001359003 0.98969072 1.3809456 { 복지급여, 건강증진, 일자리 } { 찬성 } 0.002548131 0.98901099 1.3799972 { 복지급여, 건강증진 } { 찬성 } 0.006129672 0.98858447 1.3794020 { 국민연금, 건강보험, 일자리 } { 찬성 } 0.001160815 0.98795181 1.3785193 5. 결론 보건복지정책과이슈의미래신호를예측하기위해서는연도별시계열정보가필요하나본연구는 2016. 1. 2016. 3. 3개월간의정보를수집하여우선적으로미래신호예측방법론을적용해보았다. 본연구의정보분석기간의한계에도불구하고보건복지정책과이슈에대한미래신호예측결과를살펴보면다음과같다. 첫째, 본연구의보건복지정책과이슈의미래신호분석에서미래세대육성, 국민연금, 기초연금, 건강보험, 결혼출산, 건강증진, 개인정보, 의료비, 치료가강신호로분류되어미래세대육성및건강증진과관련된의료비와치료등이강조되고있는것으로나타났다. 특히미래세대육성과개인정보는강신호이면서높은증가율을보이고있어미래세대육성정책에포함된아동학대문제의해결과개인정보보호와관련된제도개선에대한논의가지속적으로이루어져야할것으로본다. 둘째, 의료민영화, 자살, 환자안전, 가족친화, 담배, 보건산업은약신호로분류되었다. 특히약신호인의료민영화와자살은높은증가율을보이고있어이들키워드는시간이지날수록강신호로발전할수있기때문에이에대한대응책이마련되어야할것으로본다. 보건복지정책의미래신호예측에서중요한정책이면서찬성하는정책은복지급여, 건강증진, 일자리, 결혼출산, 건강보험, 보건산업등의순으로나타났다. 특히복지급여와일자리가동시에언급된문서의찬성이매우

제 1 장소셜빅데이터를활용한미래신호예측 25 높은것으로나타나능동적복지체계구축을통한일자리창출이필요할것으로본다. 이는정책의연관분석결과와같이 { 기초연금 } 정책만언급된문서에는반대하는것으로나타났으나 { 기초연금, 복지급여, 일자리 } 정책이동시에언급된문서에는찬성하는것으로나타나노인의능동적자활과근로를통한복지체계구축에대한국민의요구가높은것으로본다. 또한 { 건강보험, 중증질환 } 이동시에언급된문서의찬성이높은것으로나타나건강보험혜택확대로 4대중증질환의보장성강화가국민의의료비부담을줄임으로써정부의정책에대한좋은평가결과로나타난것으로본다. 소셜빅데이터는다양한분야에활용할수있다. 첫째, 본연구의적용과같이정부의정책과새로운기술에대한미래신호를사전에예측하여대비할수있다. 둘째, 조사를통한기존정보수집체계의한계를보완할수있는새로운자료수집방법으로활용할수있다. 셋째, 사회적위기상황에대한모니터링과예측으로위험에대비한사전대응체계를구축할수있다. 끝으로빅데이터를분석하여인과성과연관성을발견하고미래를예측하기위해서는데이터사이언티스트양성을위한정부차원의노력이필요하다.

참고문헌 << 정근하. (2010). 텍스트마이닝과네트워크분석을활용한미래예측방법연구. 한국과학기술기획평가원. 박찬국, 김현제. (2015). 사물인터넷을통한에너지신산업발전방향연구-텍스트마이닝을이용한미래신호탐색. 에너지경제연구원. Ansoff, H.I. (1975). Managing strategic surprise by response to weak signals, Californian Management Review 18(2), pp.21 33. Hiltunen, E. (2008). The future sign and its three dimensions, Futures 40, pp.247 260. Spärck Jones, K. (1972). A Statistical Interpretation of Term Specificity and Its Application in Retrieval. Journal of Documentation 28: 11 21. doi:10.1108/eb026526. Yoon, J. (2012). Detecting weak signals for long-term business opportunities using text mining of Web news, Journal Expert Systems with Applications 39(16), pp.12543 12550.

제 2 장 2016 소셜빅데이터를활용한통일인식동향분석및예측 제 1 절서론 제 2 절연구방법 제 3 절연구결과 제 4 절결론 참고문헌

2 2016 년소셜빅데이터를활용한통일인식동향분석및예측 << 제 1 절서론 최근 한반도정세 가북한의로켓발사와유엔 (UN) 의북한에대한강력한제재결정, 각종군사훈련 ( 최윤철, 2016, p.51), 개성공단잠정폐쇄등으로매우긴박하게전개되고있다. 현정부는 통일 을핵심적국정과제중하나로설정한데이어통일에대한준비와세부정책을추진해오고있다. 통일대박론 으로통일된한반도에대한비전을제시했으며, 북한의불안정한정치상황으로인한실질적흡수통일준비라는해석부터경제적효과에중점을둔전략적판단이라는설까지다양하게제기되고있다 ( 최영준, 2016, p.6). 통일에대한한국인의전반적인관심도는 2010년 52.6% 에서 2014년 82.6% 로증가하였으나 20대의통일에대한무관심은다른세대에비해높은상태로지속되고있는것으로나타났다 ( 아산정책연구원, 2015, pp.25-26). 김병조 (2015) 의연구에서도최근의남북관계가모든세대의통일인식에강하게영향을미치는것으로나타났지만, 신자유주의통일세대 (19~30세) 는통일필요성에대한인식이낮은것으로나타났다 ( 김병조, 2015, p.15, p.26). 남북통일을선도하고통일이후시대를살아가야할젊은층의통일에대한인식을제고하고관련현안에대한관심을환기시키는것은향후정부의통일관련커뮤니케이션의핵심적인과업이라고할수있다 ( 최재원, 김성철, 2016). 최근미디어환경은다양한플랫폼, 이를통해제공되는다양한콘텐츠들로확장됨에따라 ( 홍종윤, 2016) 통일에대한공감대형성에서미디어는중요

32 2016 년소셜빅데이터기반보건복지이슈동향분석 한역할을수행한다. 통일관련정보나뉴스를접할창구가제한된현실에서미디어는통일에대한가장폭넓은정보및뉴스를쉽게얻을수있는통로로작용함과동시에담론이형성 공유되는곳으로이에국민들이통일인식의질을결정한다고해도과언이아니다 ( 연세대학교산학협력단, 2014). 이에세계각국의정부와기업들은 SNS를통해생산되는소셜빅데이터의활용과분석을통하여사회적문제의해결은물론새로운경제적효과와일자리창출을위해적극적으로노력하고있으며, 우리나라는정부3.0과창조경제의추진과실현을위하여다양한분야에대한빅데이터의효율적활용을적극적으로모색하고있다. 그뿐만아니라인터넷또는온라인공간에서의정치토론과정치담론의특성에관한연구는많은연구자들에의해이뤄졌으나, 최근 SNS나소셜미디어와같은새로운웹기술이온라인정치토론과정치담론에미치는영향에관한연구는아직까지미흡한상태이다. 소셜미디어의급격한성장과확산에도불구하고정치담론의본질과특성에대한관심이여전히높지않은실정이기때문에소셜미디어에기반을둔온라인정치담론의특성에대한분석으로관련연구영역을확장시켜야할필요성이제기된다 ( 이원태, 2010). 우리국민의통일에대한다양한인식을살펴보기위하여그동안실시하던설문조사는정해진변인에대한개인과집단의관계를보는데는유용하나, 사이버상에언급된개인별담론 (buzz) 과사회적현상들이얼마나어떻게연관되어있는지밝히고원인을파악하는데는한계가있다 ( 송주영, 송태민, 2014). 이에반해소셜빅데이터의분석은활씬방대한양의데이터를활용하여다양한참여자의생각과의견을확인할수있기때문에기존의오프라인조사와함께활용하면통일인식의예측을더욱정확하게할수있다. 본장에서는우리나라온라인뉴스사이트, 블로그, 카페, SNS, 게시판등에서수집한소셜빅데이터를바탕으로우리나라

제 2 장 2016 년소셜빅데이터를활용한통일인식동향분석및예측 33 국민의통일인식에대한동향을분석하고통일인식의예측모형과연관규칙을파악한다. 소셜빅데이터의분석은사용자가남긴문서의의미를분석하는것으로자연어처리기술인주제분석 (text mining) 과감성분석기술인오피니언마이닝 (opinion mining) 을실시한후네트워크분석 (network analysis) 과통계분석 (statistical analysis) 을해야한다. 제 2 절연구방법 1. 연구대상 본연구는국내의온라인뉴스사이트, 블로그, 카페, SNS, 게시판등인터넷을통해수집된소셜빅데이터를대상으로하였다. 본분석에서는 160개의온라인뉴스사이트, 4개의블로그 ( 네이버 네이트 다음 티스토리 ), 2개의카페 ( 네이버 다음 ), 1개의 SNS( 트위터 ), 9개의게시판 ( 네이버지식인 네이트지식 네이트톡 다음지식인 다음아고라 SLR클럽등 ) 등총 176개의온라인채널을통해수집가능한텍스트기반의온라인문서 ( 버즈 ) 를소셜빅데이터로정의하였다. 통일관련토픽 (topic) 10) 은 2016 년 1월부터 3월까지총 3개월동안 11) 해당채널에서요일, 주말, 휴일을고려하지않고매시간단위로수집하였으며, 수집된총 9만 5507건의텍스트 (Text) 문서 12) 를본연구의분석에포함시켰다. 통일토픽은모든관 10) 토픽은소셜분석및모니터링의 대상이되는주제어 를의미하며, 문서내에관련토픽이포함된문서를수집함. 11) 본연구는 2014 년 1 월 2 일통일대박발언이후통일담론이확산됨에따라연도별통일인식비교를위해 1/4 분기를분석대상으로결정함. 12) 수집된문서는 SNS(73.8%, 7 만 774 건 ), 뉴스 (6.0%, 2 만 4693 건 ), 블로그 (6.9%, 6641 건 ), 카페 (9.6%, 9205 건 ), 게시판 (4.4%, 5111 건 ) 의순으로나타남.

34 2016 년소셜빅데이터기반보건복지이슈동향분석 련문서를수집하기위해 통일 을사용하였으며, 토픽과같은의미로사용되는토픽유사어로는 남북통일, 한반도통일 용어를사용하였다. 그리고불용어로는 통일신라, 통일교등 을사용하였다. 본연구를위한소셜빅데이터의수집 13) 은크롤러 (Crawler) 를사용하였고, 이후주제분석을통해분류된명사형어휘를유목화 (categorization) 하여분석요인으로설정하였다. 2. 연구도구 통일과관련하여수집된문서는주제분석 14) 의과정을거쳐다음과같 이정형화데이터로코드화하여사용하였다. 가. 통일관련감정 본연구의통일감정키워드는문서수집이후주제분석을통하여총 56개 ( 대박, 문제, 평화, 필요, 통일대박, 애국심, 중요, 노력, 반대, 쪽박, 관심, 희망, 신뢰, 우려, 불가능, 잘못, 사랑, 성공, 부정, 최고, 재앙, 위협, 행복, 공감, 빨갱이, 평화적, 천박, 위험, 염원, 포기, 비난, 고통, 강력, 걱정, 갈등, 분열, 혼란, 위대, 환영, 경박, 압박, 비아냥, 조롱, 든든, 불신, 환장, 친절, 한심, 다행, 응원, 긴장, 아픔, 천박한, 소중, 부담, 충격 ) 키워드로분류하였다. 본연구에서는 56개의통일감정키워드 ( 변수 ) 13) 본연구를위한소셜빅데이터의수집및토픽분류는 ( 주 )SK 텔레콤스마트인사이트 에서수행함. 14) 주제분석에사용되는사전은 21 세기세종계획 과같은범용사전도있지만대부분분석의목적에맞게사용자가설계한사전이다. 본연구의통일관련주제분석은 SKT 에서관련문서수집후원시자료 (raw data) 에서나타난상위 2000 개의키워드를대상으로유목화하여사용자사전을구축하였다.

제 2 장 2016 년소셜빅데이터를활용한통일인식동향분석및예측 35 가가지는통일인식의정도를판단하기위해 2차요인분석을통하여 14 개의요인 (38개변수 ) 으로축약한다음감성분석을실시하였다. 요인분석에서결정된 2개의요인에대한주제어의의미를파악하여 찬성, 보통, 반대 로감성분석을실시하였다. 일반적으로감성분석은긍정과부정의감성어사전으로분석해야하나, 본연구에서는요인분석의결과로분류된주제어의의미를파악하여감성분석을실시하였다. 따라서본연구에서는찬성 (13개: 관심, 필요, 중요, 노력, 신뢰, 평화 ( 평화적 ), 든든, 다행, 공감, 행복, 사랑, 위대, 대박 ), 반대 (18개: 쪽박, 천박, 경박, 빨갱이, 환장, 친절, 한심, 문제, 위협, 압박, 포기, 재앙, 혼란, 분열, 갈등, 아픔, 고통, 불신 ) 로분류하였다. 그리고찬성과반대의감정을동일한횟수로표현한문서는보통의감정으로분류하였다. 나. 통일에대한정책 통일에대한정책의정의는주제분석의과정을거쳐 진보, 보수, 공산주의, 사회주의, 대북정책 ( 대북정책, 정책, 통일정책 ), 창조경제 ( 창조경제, 박근혜정권 ), 민주주의 ( 민주정부, 민주주의 ), 햇볕정책 의 8개정책으로정책이있는경우는 1, 없는경우는 0 으로코드화하였다. 다. 통일에대한안보 통일에대한안보의정의는주제분석과정을거쳐 핵무기 ( 미사일, 핵무기, 도발, 전쟁 ), 정상회담 ( 회담, 정상회담, 비핵화 ), 휴전선 ( 휴전선, DMZ, 판문점 ), 남북공동선언 (10 4선언, 남북공동선언 ), 간첩 ( 고정간첩, 간첩 ) 의 5개안보로안보가있는경우는 1, 없는경우는 0 으로코드화하였다.

36 2016 년소셜빅데이터기반보건복지이슈동향분석 라. 통일에대한이슈 통일에대한이슈의정의는주제분석을거쳐 천안함 ( 연평도, 천안함 ), 민영화 ( 민영화, 특검 ), 이산가족상봉 ( 이산가족상봉, 이산가족 ), 선거 ( 대선, 부정선거, 지방선거, 선거 ), 통일대박 ( 통일대박론, 대박, 대박론 ) 의 5 개이슈로이슈가있는경우는 1, 없는경우는 0 으로코드화하였다. 마. 통일에대한주변국가 통일에대한주변국가의정의는주제분석과정을거쳐 중국, 독일 ( 독일, 동독, 서독 ), 일본, 미국, 러시아 ( 소련, 러시아 ), 유럽 ( 유럽, 영국, 스위스, 네덜란드 ) 의 6개로해당국가가있는경우는 1, 없는경우는 0 으로코드화하였다. 바. 통일에대한관련기관 통일에대한관련기관의정의는요인분석과주제분석의과정을거쳐 범민련 ( 범청학련, 범민련, 조국통일범민족연합, 한총련 ), 시민단체 ( 실천연대, 시민단체, 전교조 ), 정부 ( 외교부, 국방부, 통일부, 정부, 법무부, 국가보훈처, 해수부 ), 청와대 ( 청와대, 박근혜정부 ), 국정원, 통일준비위원회 ( 통일준비위원회, 통일준비위 ), 조국통일평화위원회, 자유통일포럼, 국회 ( 국회, 외교통일위원회 ) 의 9개관련기관으로해당관련기관이있는경우는 1, 없는경우는 0 으로코드화하였다.

제 2 장 2016 년소셜빅데이터를활용한통일인식동향분석및예측 37 사. 통일에대한정당 통일에대한정당의정의는주제분석의과정을거쳐 새정치민주연합 ( 민주당, 새정치, 새천년민주, 새정치민주연합 ), 새누리당 ( 새누리, 보수당, 새누리당 ), 통합진보당 ( 통진당, 통합진보당 ), 자유선진당, 노동당 의 5개정당으로해당정당이있는경우는 1, 없는경우는 0 으로코드화하였다. 아. 통일에대한통일방식 통일에대한통일방식의정의는주제분석의과정을거쳐 흡수통일 ( 흡수, 흡수통일 ), 자유통일 ( 자유통일, 자유북진통일, 북진통일 ), 평화통일 의 3개통일방식으로해당통일방식이있는경우는 1, 없는경우는 0 으로코드화하였다. 3. 분석방법 본연구에서는대국민통일인식을설명하는가장효율적인예측모형을구축하기위해특별한통계적가정이필요하지않은데이터마이닝 (data mining) 의연관분석 (association analysis) 과의사결정나무 (decision tree) 방법을사용하였다. 소셜빅데이터분석에서연관분석은하나의온라인문서 (transaction) 에포함된둘이상의단어들에대한상호관련성을발견하는것으로동시에발생한어떤단어들의집합에대해조건과연관규칙을찾는분석방법이다. 전체문서에서연관규칙의평가측도는지지도 (support), 신뢰도 (confidence), 향상도 (lift) 로나타낼수있다. 연관분석과정은연구자가지정한최소지지도를만족시키는빈발항목집합 (frequent itemset) 을생성한후이들에대해최저신뢰도기준을마련하

38 2016 년소셜빅데이터기반보건복지이슈동향분석 고향상도가 1 이상인것을규칙으로채택한다 ( 박희창, 2010). 본연구의연관분석은선험적규칙 (apriori principle) 15) 알고리즘을사용하였다. 본연구의통일감정에사용된연관분석의측도는지지도 0.001, 신뢰도 0.15를기준으로시뮬레이션하였다. 데이터마이닝의의사결정나무분석은방대한자료속에서종속변인을가장잘설명하는예측모형을자동적으로산출해줌으로써각기다른속성을가진통일인식에대한요인을쉽게파악할수있다. 본연구의의사결정나무형성을위한분석알고리즘은 CHAID(Chi-squared Automatic Interaction Detection) 를사용하였다. CHAID(Kass, 1980) 는이산형인종속변수의분리기준으로카이제곱 ( -검정) 을사용하며, 모든가능한조합을탐색하여최적분리를찾는다. 정지규칙 (stopping rule) 으로관찰치가충분하여상위노드 ( 부모마디 ) 의최소케이스수는 100, 하위노드 ( 자식마디 ) 의최소케이스수는 50 으로설정하였고, 나무깊이는 3수준으로정하였다. 본연구의기술분석, 다중응답분석, 로지스틱회귀분석, 의사결정나무분석은 SPSS v. 22.0을사용하였고, 연관분석과시각화분석은 R version 3.3.1을사용하였다. 제 3 절연구결과 1. 통일관련문서 ( 버즈 ) 현황 2016 년 1 월부터 3 월까지통일관련문서버즈양추이를분석한결과북한 과관련된이슈발생시에커뮤니케이션이급증하는양상을보이고있다. 1 월 15) 한항목집합이빈발하다면이항목집합의모든부분집합역시빈발항목집합이며, 한항목집합이비빈발하다면이항목집합을포함하는모든집합은비빈발항목집합이다 ( 이정진, 2011, p.123).

제 2 장 2016 년소셜빅데이터를활용한통일인식동향분석및예측 39 북한의 4 차핵실험으로인해문서량이증가하였으며, 특히 2 월북한의개성 공단잠정폐쇄발표후문서량이급증한것으로나타났다 ([ 그림 2-1] 참조 ). 그림 2-1 통일관련문서 ( 버즈 ) 량일별추이 : 2016 년 1~3 월 그림 2-2 와같이연도별통일찬성의감정변화는대박을제외하고 2011년대비평균 2.23배증가 ( 평화 2.42배, 필요 1.68배, 중요 1.54배, 노력 1.95배, 관심 1.75배등 ) 하였으며찬성감정의표현단어는평화, 필요, 중요, 노력, 관심등의순으로집중된것으로나타났다. 특히대박은 2011년 56건에서 2014년 4만 7480건 16) 으로크게증가한것으로나타났다. 연도별통일반대의감정변화는쪽박, 천박, 경박을제외하고 2011 년대비평균 3.25배증가 ( 문제 1.71배, 위협 1.64배, 갈등 1.56배, 포기 1.58배, 분열 2.29배등 ) 하였으며, 반대감정의표현단어는문제, 위협, 갈등, 포기, 분열등의순으로집중된것으로나타났다. 특히쪽박, 천박, 경박은 2011년 30건에서 2014년 5254건으로증가한것으로나타났다. 16) 그림 2-2 의통일찬성인식에서 대박 은 1 만 5000 건으로표기함.

40 2016 년소셜빅데이터기반보건복지이슈동향분석 그림 2-2 통일연도별감정변화 2011 년 2012 년 2013 년 2014 년

제 2 장 2016 년소셜빅데이터를활용한통일인식동향분석및예측 41 2015 년 2016 년 2011 년 2012 년

42 2016 년소셜빅데이터기반보건복지이슈동향분석 2013 년 2014 년 2015 년 2016 년 < 표 2-1>, 그림 2-3 과같이통일인식에대한감정키워드의연관성예측에서찬성감정의경우중요, 필요의감정에강하게연결되어있는것으로나타났으며반대감정의경우압박, 위협, 문제감정에강하게연결되어있는것으로나타났다. 표 2-1 통일인식의감정키워드연관성예측 규칙 지지도 신뢰도 향상도 { 필요, 위대 } { 중요 } 0.00115 0.66265 26.69166 찬성 { 필요, 노력, 평화 } { 중요 } 0.00255 0.66038 26.60009 { 관심, 필요, 평화 } { 중요 } 0.00135 0.64824 26.11124

제 2 장 2016 년소셜빅데이터를활용한통일인식동향분석및예측 43 반대 규칙 지지도 신뢰도 향상도 { 관심, 필요, 노력 } { 중요 } 0.00149 0.61111 24.61564 { 필요, 공감 } { 중요 } 0.00109 0.60000 24.16808 { 중요, 공감 } { 필요 } 0.00109 0.79545 19.40719 { 관심, 중요, 평화 } { 필요 } 0.00135 0.78659 19.19080 { 중요, 위대 } { 필요 } 0.00115 0.78571 19.16955 { 관심, 중요, 노력 } { 필요 } 0.00149 0.77297 18.85869 { 중요, 노력, 평화 } { 필요 } 0.00255 0.72059 17.58063 { 중요, 사랑 } { 필요 } 0.00203 0.71168 17.36326 { 관심, 신뢰 } { 필요 } 0.00107 0.70068 17.09492 { 관심, 중요 } { 필요 } 0.00301 0.69976 17.07242 { 관심, 노력, 평화 } { 필요 } 0.00109 0.65625 16.01093 { 중요, 노력 } { 필요 } 0.00445 0.63731 15.54892 { 중요, 신뢰 } { 필요 } 0.00164 0.62550 15.26066 { 관심, 노력 } { 필요 } 0.00244 0.62069 15.14334 { 중요, 평화 } { 필요 } 0.00435 0.60876 14.85227 { 문제, 위협, 포기 } { 압박 } 0.001387 0.525692 45.87581 { 위협, 포기 } { 압박 } 0.001783 0.453581 39.58288 { 문제, 위협 } { 압박 } 0.003795 0.397814 34.71626 { 문제, 분열 } { 갈등 } 0.001335 0.400000 31.94238 { 문제, 갈등 } { 분열 } 0.001335 0.252964 31.75531 { 문제, 포기 } { 압박 } 0.002221 0.353234 30.82584 { 위협, 압박 } { 포기 } 0.001783 0.375824 26.38665 { 문제, 위협, 압박 } { 포기 } 0.001387 0.365385 25.65369 { 문제, 압박, 포기 } { 위협 } 0.001387 0.624413 25.61403 { 압박, 포기 } { 위협 } 0.001783 0.595819 24.44106 { 문제, 압박 } { 포기 } 0.002221 0.326187 22.90161 { 문제, 압박 } { 위협 } 0.003795 0.557427 22.8662 { 문제, 갈등 } { 압박 } 0.001199 0.227273 19.83353 { 문제, 위협 } { 포기 } 0.002638 0.276503 19.41329 { 문제, 고통 } { 포기 } 0.001022 0.276056 19.38194 { 분열 } { 갈등 } 0.001898 0.238220 19.02328 { 압박 } { 포기 } 0.002992 0.261147 18.33512 { 포기 } { 압박 } 0.002992 0.210103 18.33512 { 문제, 혼란 } { 위협 } 0.001147 0.421456 17.28853 { 문제, 포기 } { 위협 } 0.002638 0.419569 17.21112 { 압박 } { 위협 } 0.004744 0.414013 16.9832 { 압박, 갈등 } { 문제 } 0.001199 0.864662 16.61866

44 2016 년소셜빅데이터기반보건복지이슈동향분석 규칙 지지도 신뢰도 향상도 { 문제, 분열 } { 위협 } 0.001272 0.381250 15.63924 { 위협, 압박 } { 문제 } 0.003795 0.800000 15.37587 { 위협, 고통 } { 문제 } 0.001126 0.794118 15.26281 { 포기, 고통 } { 문제 } 0.001022 0.790323 15.18987 { 위협, 압박, 포기 } { 문제 } 0.001387 0.777778 14.94876 { 위협, 갈등 } { 문제 } 0.001637 0.762136 14.64813 { 위협, 분열 } { 문제 } 0.001272 0.748466 14.3854 { 압박, 포기 } { 문제 } 0.002221 0.74216 14.2642 { 위협, 혼란 } { 문제 } 0.001147 0.714286 13.72846 { 분열, 갈등 } { 문제 } 0.001335 0.703297 13.51725 { 위협, 포기 } { 문제 } 0.002638 0.671088 12.8982 { 문제, 갈등 } { 위협 } 0.001637 0.310277 12.72785 { 문제, 고통 } { 위협 } 0.001126 0.304225 12.47962 { 압박 } { 문제 } 0.006809 0.594177 11.41998 { 포기 } { 위협 } 0.003931 0.275988 11.32130 { 재앙 } { 위협 } 0.001126 0.250580 10.27903

제 2 장 2016 년소셜빅데이터를활용한통일인식동향분석및예측 45 그림 2-3 통일인식감정의연관규칙에대한병렬좌표시각화 찬성 반대 < 표 2-2> 와같이통일과관련하여통일대박감정을포함하는경우통 일을찬성하는문서는 59.8%, 중립의문서는 12.6%, 반대하는문서는 27.6% 로나타났다. 통일관련정책의문서는대북정책 (36.1%), 민주주

46 2016 년소셜빅데이터기반보건복지이슈동향분석 의 (18.9%), 창조경제 (12.9%), 햇볕정책 (8.8%), 보수 (8.7%), 진보 (6.1%) 등의순으로나타났다. 통일관련안보의문서는핵무기 (72.7%), 정상회담 (13.9%), 휴전선 (6.3%) 등의순으로나타났다. 통일관련이슈의문서는통일대박 (72.8%), 선거 (20.0%), 천안함 (3.5%), 이산가족상봉 (3.4%) 등의순으로나타났다. 통일관련국가의문서는중국 (31.5%), 미국 (25.3%), 일본 (18.4%) 등의순으로나타났다. 통일관련기관의문서는정부 (53.1%), 청와대 (22.0%), 국회 (12.8%), 국정원 (7.9%) 등의순으로나타났다. 통일관련정당의문서는새누리당 (64.1%), 새정치민주연합 (19.1%), 노동당 (11.2%), 통합진보당 (4.8%) 순으로나타났다. 통일방식관련문서는평화통일 (58.2%), 자유통일 (22.0%), 흡수통일 (19.8%) 순으로나타났다. 표 2-2 통일관련문서 ( 버즈 ) 현황 구분항목 N(%) 구분항목 N(%) 연도 채널 정책 2011 년 10,211(2.0) 2012년 53,884(10.6) 2013년 83,268(16.4) 2014년 166,952(32.9) 2015년 96,820(19.1) 2016년 95,907(18.9) 계 507,042 감정 [ 통일대박포함 ] 찬성 14,691(59.8) 중립 3,105(12.6) 반대 6,788(27.6) 카페 6,641(6.9) SNS 9,205(9.6) 계 24,584 블로그 70,744(73.8) 중국 6,558(31.5) 게시판 5,111(5.3) 독일 1,637(7.9) 뉴스 4,206(4.4) 미국 5,258(25.3) 계 95,907 국가 일본 3,820(18.4) 진보 659(6.1) 러시아 2,308(11.1) 보수 945(8.7) 유럽 1,209(5.8) 공산주의 515(4.7) 계 20,790 사회주의 416(3.8) 기관범민련 141(0.7)

제 2 장 2016 년소셜빅데이터를활용한통일인식동향분석및예측 47 구분 항목 N(%) 구분 항목 N(%) 대북정책 3,917(36.1) 시민단체 332(1.7) 창조경제 1,403(12.9) 정부 10,548(53.1) 민주주의 2,048(18.9) 청와대 4,381(22.0) 햇볕정책 957(8.8) 국정원 1,571(7.9) 계 10,860 통일준비위원회 149(0.7) 핵무기 8,599(72.7) 조국평화통일위원회 216(1.1) 정상회담 1,645(13.9) 국회 2,534(12.8) 안보 휴전선 741(6.3) 계 19,872 남북공동선언 109(0.9) 새정치민주연합 940(19.9) 간첩 730(6.2) 새누리 3,033(64.1) 계 11,824 정당 통합진보당 227(4.8) 천안함 342(3.5) 노동당 532(11.2) 민영화 36(0.4) 계 4,732 이산가족상봉 331(3.4) 흡수통일 1,494(19.8) 이슈선거 1,970(20.0) 평화통일 4,402(58.2) 통일방식통일대박 7,187(72.8) 자유통일 1,664(22.0) 계 9,866 계 7,560

48 2016 년소셜빅데이터기반보건복지이슈동향분석 2. 통일관련국민인식 < 표 2-3> 과같이통일의필요성에대한국민의통일인식은조사기관별로차이를보이고있으나, 2011년부터 2014년까지통일대박을제거한소셜빅데이터의분석결과는서울대통일평화연구원의여론조사결과와비슷한추이를보이는것으로나타났다. 통일대박을포함한연도별통일관련찬성인식은 2011년 55.0%, 2012년 62.2%, 2013년 57.8%, 2014년 77.1%, 2015년 59.8%, 2016년 59.8% 로나타났다. 특히아산정책연구원의 2014년통일인식여론조사에서 80.5%( 통일은가능한빨리되어야 + 점진적으로이루어져야 ) 가통일이필요하다고보고있어통일대박을포함한소셜빅데이터분석결과 (77.1%) 와비슷한것으로나타났다. 표 2-3 연도별통일관련국민인식 ( 단위 : %) 연도 찬성중립반대 소셜 1) 서울대 2) KBS 3) 소셜 1) 서울대 2) KBS 3) 소셜 1) 서울대 2) KBS 3) 2011 55.0 53.7 74.4 18.3 25.0 19.9 26.7 21.3 5.7 2012 62.0 57.0 68.4 10.7 21.6 24.6 27.3 21.4 7.0 2013 57.7 54.8 69.1 8.7 21.5 21.2 33.6 23.7 9.7 2014 58.2 55.8-9.0 22.5-32.7 21.7-2015 56.2 51.0 8.3 24.3 35.5 24.8 2016 59.8 12.6 27.6 주 : 1) 본연구의소셜빅데이터의감성분석결과. 2) 서울대학교통일평화연구원이매년 7 월부터 8 월사이 (3 주간 ) 1200 명을대상으로대면조사한결과. 3) KBS 방송문화연구소. (2013). 2013 년국민통일의식조사. 3. 통일관련안보 이슈의동향 < 표 2-4> 와같이통일관련안보 이슈에대한주변국가의문서는미국 중국 일본 러시아등대부분의국가에서핵무기, 정상회담, 통일대박, 천

제 2 장 2016 년소셜빅데이터를활용한통일인식동향분석및예측 49 안함등의순으로많이언급된것으로나타났다. 표 2-4 통일관련안보 이슈의국가별버즈현황 ( 단위 : N, %) 핵무기 정상회담 휴전선 남북공동선언 천안함 통일대박 합계 중국 2,457 (37.5) 951 (14.5) 255 (3.9) 77 (1.2) 137 (2.1) 497 (7.6) 4,374 (27.9) 독일 536 (32.7) 187 (11.4) 109 (6.7) 3 (0.2) 45 (2.7) 133 (8.1) 1,013 (6.5) 미국 2,538 (48.3) 959 (18.2) 305 (5.8) 77 (1.5) 163 (3.1) 344 (6.5) 4,386 (28.0) 일본 1,450 (38.0) 552 (14.5) 209 (5.5) 12 (0.3) 79 (2.1) 156 (4.1) 2,458 (15.7) 러시아 1,327 (57.5) 465 (20.1) 164 (7.1) 68 (2.9) 91 (3.9) 122 (5.3) 2,237 (14.3) 유럽 621 (51.4) 285 (23.6) 114 (9.4) 74 (6.1) 41 (3.4) 67 (5.5) 1,202 (7.7) 합계 8,929 (57.0) 3,399 (21.7) 1,156 (7.4) 311 (2.0) 556 (3.5) 1,319 (8.4) 15,670 (100.0) 통일과관련한기관별안보 이슈에대한버즈는 < 표 2-5> 와같이나타났다. 청와대는핵무기 (31.0%), 정상회담 (10.1%), 통일대박 (9.6%) 등의순으로나타났고정부는핵무기 (33.6%), 통일대박 (10.3%), 정상회담 (8.8%) 등의순으로, 국회는핵무기 (24.4%), 선거 (13.3%), 정상회담 (7.7%), 통일대박 (4.4%) 등의순으로, 국정원은핵무기 (9.2%), 선거 (5.2%), 정상회담 (3.0%) 등의순으로나타났으며, 시민단체의경우에도핵무기 (27.7%), 선거 (17.5%), 정상회담 (9.9%) 순으로나타났다. 기관별로핵무기, 정상회담문서가많이언급된것으로나타났는데이는 2016년 1월북한의 4차핵실험으로인해언급량이증가한것으로판단된다.

50 2016 년소셜빅데이터기반보건복지이슈동향분석 표 2-5 통일관련안보 이슈의기관별버즈현황 ( 단위 : N, %) 핵무기 정상회담 휴전선 남북공동선언 천안함 이산가족상봉 선거통일대박합계 범민련 10 (7.1) 5 (3.5) 4 (2.8) 1 (0.7) 1 (0.7) 3 (2.1) 7 (5.0) 1 (0.7) 32 (0.3) 시민단체 92 (27.7) 33 (9.9) 17 (5.1) 0 (0.0) 12 (3.6) 10 (3.0) 58 (17.5) 24 (7.2) 246 (2.0) 정부 3548 (33.6) 933 (8.8) 322 (3.1) 30 (0.3) 209 (2.0) 178 (1.7) 601 5.7) 1,083 (10.3) 6,904 (56.1) 청와대 1358 (31.0) 441 (10.1) 126 (2.9) 68 (1.6) 95 (2.2) 70 (1.6) 334 (7.6) 419 (9.6) 2,911 (23.7) 국정원 144 (9.2) 47 (3.0) 21 (1.3) 3 (0.2) 24 (1.5) 4 (0.3) 82 (5.2) 40 (2.5) 365 (3.0) 통일준비위원회 64 (43.0) 33 (22.1) 22 (14.8) 1 (0.7) 25 (16.8) 10 (6.7) 18 (12.1) 53 (35.6) 226 (1.8) 조국평화통일위원회 75 (34.7) 23 (10.6) 28 (13.0) 1 (0.5) 6 (2.8) 4 (1.9) 13 (6.0) 1 (0.5) 151 (1.2) 국회 618 (24.4) 196 (7.7) 84 (3.3) 7 (0.3) 57 (2.2) 60 (2.4) 336 (13.3) 112 (4.4) 1,470 (11.9) 계 5,909 (48.0) 1,711 (13.9) 624 (5.1) 111 (0.9) 429 (3.5) 339 (2.8) 1,449 (11.8) 1,733 (14.1) 12,305 (100) 4. 통일관련인식에대한연관성분석 < 표 2-6> 과같이안보와이슈에대한통일인식의연관성예측에서가장신뢰도가높은연관규칙은 { 통일대박 } { 찬성 } 이며, 두변인의연관성은 0.05, 신뢰도는 0.7, 향상도는 4.57로나타났다. 이는온라인문서에서통일대박이언급되면통일에찬성할확률이 70% 이며, 통일대박이언급되지않은문서보다통일에대한찬성확률이 4.57배높아지는것을나타낸다. 또한 { 이산가족상봉 } { 찬성 } 두개변인의연관성지지도는 0.001, 신뢰도 0.44, 향상도는 2.88로온라인문서상에서이산가족상봉

제 2 장 2016 년소셜빅데이터를활용한통일인식동향분석및예측 51 이언급되면통일에찬성할확률이 44.1% 이며, 이산가족상봉이언급되지않은문서보다통일에찬성할확률이 2.8배높아지는것을의미한다. { 핵무기, 천안함 } { 반대 } 세변인의연관성지지도는 0.001, 신뢰도 0.42, 향상도는 5.92로온라인문서상에서핵무기와천안함이언급되면통일에반대할확률이 41.9% 이며핵무기, 천안함이언급되지않은문서보다통일에대해반대할확률이 5.92배높아지는것을나타낸다. 표 2-6 안보와이슈요인에대한통일인식의연관성예측 규칙 지지도 신뢰도 향상도 { 통일대박 } { 찬성 } 0.052488 0.700431 4.572614 { 선거, 통일대박 } { 찬성 } 0.001595 0.642857 4.196753 { 핵무기, 통일대박 } { 찬성 } 0.005495 0.545549 3.561496 { 이산가족상봉 } { 찬성 } 0.001522 0.441088 2.879545 { 핵무기, 휴전선 } { 찬성 } 0.001939 0.440758 2.877395 { 핵무기, 정상회담 } { 찬성 } 0.004817 0.428571 2.797835 { 휴전선 } { 찬성 } 0.003243 0.419703 2.73994 { 핵무기, 천안함 } { 반대 } 0.001053 0.419087 5.921242 { 정상회담 } { 찬성 } 0.00684 0.398784 2.603376 { 천안함 } { 반대 } 0.001335 0.374269 5.288011 { 핵무기, 선거 } { 찬성 } 0.001971 0.348709 2.276468 { 핵무기, 정상회담 } { 반대 } 0.003785 0.336735 4.757692 { 천안함 } { 찬성 } 0.001053 0.295322 1.927943 { 핵무기, 선거 } { 반대 } 0.001668 0.295203 4.170894 { 핵무기 } { 찬성 } 0.02614 0.291546 1.903292 { 정상회담 } { 반대 } 0.00488 0.284499 4.019652 { 핵무기, 휴전선 } { 반대 } 0.00122 0.277251 3.917255 { 선거 } { 찬성 } 0.005234 0.254822 1.663552 { 휴전선 } { 반대 } 0.001846 0.238866 3.37492 { 핵무기 } { 반대 } 0.019060 0.212583 3.003563 { 핵무기, 통일대박 } { 반대 } 0.001574 0.156315 2.208555 < 표 2-7> 과같이주요주변국가에대한통일인식의연관성예측에서 가장신뢰도가높은연관규칙은 { 중국, 일본, 러시아 } { 찬성 } 이며네가

52 2016 년소셜빅데이터기반보건복지이슈동향분석 지변인의연관성지지도는 0.004, 신뢰도는 0.41, 향상도는 2.69로나타났다. 이는온라인문서에서중국, 일본, 러시아가언급되면통일에찬성할확률이 41.2% 이며중국, 일본, 러시아가언급되지않은문서보다통일에찬성할확률이 2.69배높아지는것을나타낸다. { 미국, 일본, 러시아 } { 찬성 } 네변인의연관성지지도는 0.003, 신뢰도 0.41, 향상도 2.65로미국, 일본, 러시아가언급되지않은문서보다통일에대한찬성확률이 2.65배높아지는것으로나타났다. { 중국, 미국, 일본, 러시아 } { 찬성 } 다섯가지변인의연관성지지도는 0.003, 신뢰도는 0.41, 향상도는 2.69로중국, 미국, 일본, 러시아가온라인상에서언급되면통일에찬성할확률이 41% 이며언급되지않은문서보다통일에찬성할확률이 2.69배높은것으로나타났다. 반면 { 중국, 미국, 일본, 러시아 } { 반대 } 의연관성지지도는 0.002, 신뢰도는 0.33, 향상도는 4.64로온라인상에서중국, 미국, 일본, 러시아가언급되면통일에반대할확률이 32% 로나타났으며언급되지않은문서보다통일에반대할확률이 4.64배높은것으로나타났다. { 중국, 미국, 러시아 } { 찬성 } 의연관성지지도는 0.005, 신뢰도 0.38, 향상도 2.46으로중국, 미국, 러시아가언급될경우통일에찬성할확률이 38% 이며중국, 미국, 러시아가언급되지않은문서보다통일에대한찬성의확률이 2.64배높은것으로나타났다. 반면 { 중국, 미국, 러시아 } { 반대 } 의지지도는 0.005, 신뢰도 0.36, 향상도 5.10으로중국, 미국, 러시아가언급될경우통일에반대할확률이 36% 이며중국, 미국, 러시아가언급되지않은문서보다통일에반대할확률이 5.1배높은것으로나타났다.

제 2 장 2016 년소셜빅데이터를활용한통일인식동향분석및예측 53 표 2-7 주변국가 (4국) 의통일인식의연관성예측 규칙 지지도 신뢰도 향상도 { 중국, 일본, 러시아 } { 찬성 } 0.004004 0.41246 2.692654 { 중국, 미국, 일본, 러시아 } { 찬성 } 0.003681 0.410943 2.682752 { 일본, 러시아 } { 찬성 } 0.004348 0.407227 2.65849 { 미국, 일본, 러시아 } { 찬성 } 0.003910 0.405844 2.649465 { 중국, 미국, 러시아 } { 찬성 } 0.00538 0.376368 2.457034 { 미국, 러시아 } { 찬성 } 0.005975 0.367072 2.396352 { 중국, 미국, 러시아 } { 반대 } 0.005161 0.361050 5.101245 { 미국, 일본 } { 찬성 } 0.007007 0.360322 2.352282 { 중국, 미국, 일본 } { 찬성 } 0.005339 0.354325 2.313135 { 중국, 미국, 일본 } { 반대 } 0.005255 0.348789 4.928005 { 중국, 러시아 } { 찬성 } 0.006298 0.343377 2.241662 { 중국, 미국 } { 찬성 } 0.011052 0.340727 2.224359 { 미국, 러시아 } { 반대 } 0.005505 0.338245 4.779027 { 중국, 일본 } { 찬성 } 0.006736 0.334369 2.182852 { 중국, 미국, 일본, 러시아 } { 반대 } 0.00294 0.328289 4.63836 { 미국, 일본, 러시아 } { 반대 } 0.003138 0.325758 4.602597 { 중국, 러시아 } { 반대 } 0.00586 0.3195 4.514181 { 중국, 일본, 러시아 } { 반대 } 0.003065 0.31579 4.461759 { 일본, 러시아 } { 반대 } 0.003326 0.311523 4.401485 { 미국, 일본 } { 반대 } 0.006048 0.310992 4.393975 { 러시아 } { 찬성 } 0.007476 0.310659 2.028067 { 미국 } { 찬성 } 0.016923 0.308673 2.015101 { 중국, 미국 } { 반대 } 0.009874 0.304404 4.300891 { 중국, 일본 } { 반대 } 0.005985 0.297101 4.197718 { 일본 } { 찬성 } 0.011094 0.278534 1.818349 { 러시아 } { 반대 } 0.006412 0.266465 3.764851 { 중국 } { 찬성 } 0.017507 0.256023 1.671392 { 미국 } { 반대 } 0.013096 0.238874 3.375029 { 중국 } { 반대 } 0.01564 0.228728 3.23168 { 일본 } { 반대 } 0.007518 0.188744 2.666738

54 2016 년소셜빅데이터기반보건복지이슈동향분석 5. 통일인식에영향을미치는안보 이슈요인 < 표 2-8> 과같이통일대박, 남북공동선언, 민영화, 이산가족상봉, 휴전선, 선거, 간첩순으로통일의찬성에정적 (+) 영향을주는것으로나타났으나정상회담, 핵무기, 천안함순으로통일의찬성에부적 (-) 영향을주는것으로나타났다. 표 2-8 통일인식에영향을미치는안보 이슈요인 1) 변수 찬성 중립 b S.E. OR P b S.E. OR P 핵무기 -.429.039.651.000.272.054 1.313.000 정상회담 -.005.069.995.939.380.090 1.462.000 휴전선.263.099 1.301.008.584.126 1.793.000 남북공동선언 1.204.250 3.333.000 -.422.470.656.370 간첩.061.198 1.063.756.591.237 1.806.013 천안함 -.890.147.411.000 -.735.189.479.000 민영화.584.535 1.793.275 1.493.574 4.448.009 이산가족상봉.333.147 1.395.024.659.186 1.933.000 선거.087.082 1.091.288.824.096 2.279.000 통일대박 2.581.067 13.205 0.000 3.091.075 22.004 0.000 주 : 1) 기본범주- 반대, Standardized coefficients, Standard error, Adjusted odds ratio. 6. 통일인식관련예측모형 그림 2-4 와같이통일의안보 이슈요인이통일인식에미치는영향에서는 통일대박 의영향력이가장큰것으로나타났다. 통일대박 이있을경우통일에대한찬성인식이이전의 59.8% 에서 76.0% 로증가한반면, 반대인식은 27.5% 에서 3.8% 로감소하였다. 통일대박이있고핵무

제 2 장 2016 년소셜빅데이터를활용한통일인식동향분석및예측 55 기가있는 경우통일에대한인식은이전의 76.0% 에서 58.2% 로감소한반면, 통일대박이있고핵무기가없는 경우는통일에대한인식이 79.2% 로증가한것으로나타났다. 반대의인식은 3.7% 에서 16.1% 로 12.4% 포인트증가한것으로나타났다. < 표 2-9> 의통일인식안보 이슈요인의예측모형에대한이익도표와같이통일의찬성에가장영향력이높은경우는 통일대박 이있고 핵무기 가없는조합으로나타났다. 즉 6번노드의지수 (Index) 가 132.6% 로뿌리마디와비교했을때 5번노드의조건을가진집단이통일을찬성할확률이 1.32배로나타났다. 반면통일반대에영향력이가장높은경우는 통일대박 이없고, 핵무기 가있으며 선거 가없는조합으로나타났다. 즉 7번노드의지수 (Index) 가 140.9% 로뿌리마디와비교했을때 7번노드의조건을가진집단이통일을반대할확률이 1.41배로나타났다.

56 2016 년소셜빅데이터기반보건복지이슈동향분석 그림 2-4 통일인식관련안보 이슈요인의예측모형

제 2 장 2016 년소셜빅데이터를활용한통일인식동향분석및예측 57 표 2-9 통일인식관련안보 이슈요인의예측모형에대한이익도표 구분찬성보통반대 노드 이익지수누적지수노드 (n) 노드 (%) 이익 (%) 지수 (%) 노드 (n) 노드 (%) 이익 (%) 지수 (%) 6 5,689 23.1 30.7 132.6 5,689 23.1 30.7 132.6 9 13,209 53.7 50.9 94.8 18,898 76.9 81.6 106.2 5 937 3.8 3.6 94.1 19,835 80.7 85.2 105.6 10 386 1.6 1.3 85.0 20,221 82.3 86.5 105.2 7 3,934 16.0 12.4 77.7 24,155 98.3 99.0 100.7 8 429 1.7 1.0 59.7 24,584 100.0 100.0 100.0 8 429 1.7 4.2 238.1 429 1.7 4.2 238.1 5 937 3.8 8.3 218.9 1,366 5.6 12.5 224.9 10 386 1.6 2.7 172.3 1,752 7.1 15.2 213.3 6 5,689 23.1 34.8 150.4 7,441 30.3 50.0 165.2 7 3,934 16.0 18.6 116.1 11,375 46.3 68.6 148.3 9 13,209 53.7 31.4 58.4 24,584 100.0 100.0 100.0 7 3,934 16.0 22.5 140.9 3,934 16.0 22.5 140.9 9 13,209 53.7 70.0 130.3 17,143 69.7 92.6 132.7 8 429 1.7 2.2 124.1 17,572 71.5 94.7 132.5 10 386 1.6 1.6 99.5 17,958 73.0 96.3 131.8 5 937 3.8 2.2 58.4 18,895 76.9 98.5 128.2 6 5,689 23.1 1.5 6.4 24,584 100.0 100.0 100.0

58 2016 년소셜빅데이터기반보건복지이슈동향분석 제 4 절결론 본연구는국내의온라인뉴스사이트, 블로그, 카페, SNS, 게시판등인터넷을통해수집된소셜빅데이터를주제분석과감성분석기술로분류하고네트워크분석과데이터마이닝의연관성분석, 의사결정나무분석기법을적용하여분석함으로써우리나라국민의통일인식에대한동향을분석하고통일인식의연관규칙과예측모형을개발하고자하였다. 본연구의결과를요약하면다음과같다. 첫째, 2016년 1월부터 3월까지분석한결과북한과관련된이슈발생시에온라인상에통일관련문서가급증하는양상을보이고있으며, 연도별통일찬성의감정변화는 2011년대비평균 2.23배증가하였으며, 찬성감정의표현단어는평화, 필요, 중요, 노력, 관심등의순으로집중된것으로나타났다. 통일반대의감정변화는 2011년대비평균 3.25배증가하였으며, 반대감정의표현단어는문제, 위협, 갈등, 포기, 분열등의순으로집중된것으로나타났다. 둘째, 안보와관련된문서는핵무기, 정상회담, 통일대박, 천안함등의순으로나타났으며이슈와관련한문서는핵무기, 정상회담, 통일대박등의순으로나타났다. 그리고통일방식과관련한문서는평화통일, 자유통일, 흡수통일순으로나타났다. 셋째, 통일의필요성에대한국민인식은통일대박감정을포함할경우찬성은 2011년 55.0%, 2012년 62.2%, 2013년 57.8%, 2014년 77.1%, 2015년 56.2% 로나타났으며 2016년은찬성이 59.8%, 반대가 27.6% 로나타났다. 넷째, 통일인식에영향을미치는안보 이슈요인에대한다중로지스틱회귀분석결과통일대박, 남북공동선언, 민영화, 이산가족상봉, 휴전선,

제 2 장 2016 년소셜빅데이터를활용한통일인식동향분석및예측 59 선거, 간첩순으로통일의찬성에정적 (+) 영향을주는것으로나타났으나정상회담, 핵무기, 천안함순으로통일의찬성에부적 (-) 영향을주는것으로나타났다. 마지막으로안보 이슈요인이통일인식에미치는영향은통일대박의영향력이가장큰것으로나타났는데온라인문서중통일대박이있을경우통일에대한찬성인식이이전의 59.8% 에서 76.0% 로증가하였고, 특히통일대박이있고핵무기가없는경우통일에찬성하는확률이가장높은것으로나타났다. 주변 4개국이통일인식에미치는영향은중국이가장높은것으로나타났으며온라인문서상에서중국, 미국, 러시아가없는조합이통일에찬성할확률이가장높은반면중국이없고미국이있는조합이통일에반대할확률이가장높은것으로나타났다. 본연구에서우리나라의통일관련인식에대한예측을근거로다음과같은정책적함의를도출할수있다. 첫째, 최근북한과관련된이슈발생시에온라인상에서커뮤니케이션이급증하는것으로나타났다. 2016년상반기북한의핵실험과개성공단폐쇄로인하여남북간의긴장이고조되면서국민들의관심이급증한것으로보인다. 북한의 4차핵실험이후전국만 19세이상의남녀 1005명을대상으로 4차북한핵실험의한반도평화위협정도 에대해물은결과위협적이라고응답한사람이 61% 로나타났다. 3차핵실험이후 위협적이다 라고응답한사람 76% 에비해 15% 포인트낮아졌으나여전히북한핵실험등의이슈는위협적이라고인식하는것으로볼수있다. 둘째, 통일관련국민인식은소셜빅데이터의분석결과와정기적인여론조사결과가비슷한추이를보이는것으로나타났다. 이는본연구에서제시한통일관련감정키워드의감성분석방법으로통일의필요성에대한인식을찬성, 보통, 반대로분류하는것의타당성이어느정도확보

60 2016 년소셜빅데이터기반보건복지이슈동향분석 된것으로볼수있다. 셋째, 통일대박이언급된온라인문서의경우통일에대한찬성확률이높은것은통일대박이통일에대한긍정적인담론을확산시키는것으로나타났다. 그뿐만아니라선거와통일대박이동시에언급된문서의경우찬성확률이높은것은선거를통해통일대박에대한긍정적인담론이확산되기때문으로본다. 핵무기와천안함이동시에언급된온라인문서의경우통일에대한반대확률이높은것은북한의위협으로인해안보불안이증가하면서부정적인담론이확산되기때문으로볼수있다. 마지막으로, 통일과정에가장영향력이높은것은 통일대박 이있고 핵무기 가없는경우통일에대한인식이찬성으로나타났으며, 통일대박 이없고 핵무기 가있으며 선거 가없는조합의문서들이온라인상에언급될때통일에반대하는확률이높은것으로나타나 통일대박론 이통일의필요성에대한인식변화에어느정도영향을주었다고추정할수있다. 본연구는개개인의특성을가지고분석한것이아니고그구성원이속한전체집단의자료를대상으로분석한것이기때문에이를개인에게적용하였을경우생태학적오류 (ecological fallacy) 가발생할수있다 ( 송태민등, 2014). 또한본연구에서감성분석결과정의된통일인식은온라인문서내에서발생된감정단어의빈도로정의되었기때문에기존의조사등을통한통일인식의조작적정의와다를수있으며, 2011 2015년기간 1/4분기 (15개월간) 의제한된소셜빅데이터를분석함으로써전체적인통일관련인식의예측에한계가있을수있다. 그럼에도불구하고본연구는소셜빅데이터에서통일관련주요이슈에대한실제적인내용을빠르게효과적으로파악함으로써기존통일관련인식의정보수집체계의한계를보완

제 2 장 2016 년소셜빅데이터를활용한통일인식동향분석및예측 61 할수있는새로운분석방법을제시하였다는점에서정책적 분석방법론적의의를가진다고할수있다 ( 송주영, 송태민, 2014). 끝으로통일에대한찬반, 통일방법등에대한국민의통일의식조사와더불어소셜미디어에서수집된빅데이터를활용, 분석할경우통일인식의예측은더욱신뢰성이있을것으로본다.

참고문헌 << 김병조. (2015). 한국인의통일인식 2007~2015. 세대별격차와세대내분화, 서울대학교통일평화연구원통일과평화 7(2), pp.3-41. 박희창. (2010). 연관규칙마이닝에서의평가기준표준화방안. 한국데이터정보과학회지, 21(5), pp.891-899. 송태민, 송주영, 진달래. (2014). 소셜빅데이터를활용한인터넷중독위험예측모형. 보건사회연구. 34(3). pp.106-134. 송태민, 송주영. (2014). 빅데이터분석방법론. 서울 : 한나래출판사. 아산정책연구원. (2015). 한국인의대북 통일인식변화, 아산정책연구원. 연세대학교산학협력단. (2014). 평화통일에대한국민공감대형성연구. 이원태, 차미영, 양해륜. (2011). 소셜미디어유력자의네트워크특성 : 한국의트위터공동체를중심으로, 언론정보연구 48(2). pp.44-79. 최영준, 황태희, 최우선, 주형민. (2016). 박근혜정부의통일정책의정책수용성에대한실증연구 : 2013년과 2015년국민인식조사비교. 국제관계연구 21(1), pp.5-32. 최윤철. (2016). 통일국민과이주자의사회통합. 통일인문학, 66. pp.49-83. 최재원, 김성철. (2016). 통일인식제고를위한통일유관기관들의 ICT 활용방안, 언론정보연구, 53(1), pp.149-176. 홍종윤. (2016). 미디어의평화통일지향성지수개발연구. 언론정보연구, 53(1), pp.5-56.

제 3 장 2016 소셜빅데이터를활용한담배위험예측 제 1 절서론 제 2 절연구방법 제 3 절연구결과 제 4 절결론 참고문헌

3 2016 소셜빅데이터를활용한담배위험예측 << 제 1 절서론 우리나라 19세이상성인남성흡연율은 1998년 66.3% 에서 2005년 51.6%, 2014년 43.1% 였으며 2015년가추계치 (preliminary estimates) 일지라도 39.3% 로최초로 30% 대로진입했다 ( 보건복지부, 2015; 기획재정부, 보건복지부보도자료, 2016. 5. 10.). 2012년 15세이상남성흡연율은경제협력개발기구 (OECD) 평균 24.9% 보다높은 37.6% 로세계에서가장높은위치를차지하고있으며 (OECD, 2014), 세계보건기구 (WHO) 에서공표한우리나라 15세이상남성흡연율 (2013년, 연령표준화, Cigarette) 은 51.1% 로서태평양지역국가중두번째로높았다 (WHO, 2015). 이와같이우리나라남성흡연율이 OECD 회원국중최고수준에달하는상황에서현정부는 2015년 1월 1일부터담뱃값을 2000원인상하는등범정부차원의금연종합대책을발표하였고 ( 보건복지부보도자료, 2014. 9. 11.), 2016년 5월담뱃갑경고그림확정및시행등비가격정책추진방안을발표하였다 ( 기획재정부, 보건복지부보도자료, 2016. 5. 10.). 전세계적으로흡연으로인해매년 600만명이사망하고있으며 (WHO, 2008), 전체암사망의 30.5%, 호흡기질환사망의 19.8%, 심혈관질환사망의 11.4% 가흡연으로인해사망한것으로예측되었다 (Zheng et al., 2014). 우리나라는 1985년 2만 4338명, 2003년 4만 6207명, 2012년 5만 8155명이흡연으로인한사망자수로보고되었고 ( 정금지등, 2013), 흡연으로인해발생하는 2013년기준사회경제

68 2016 년소셜빅데이터기반보건복지이슈동향분석 적비용 [ 직접의료비 + 직접비의료비 ( 교통비, 간병비 )+ 간접비 ( 조기사망비, 생산성손실비 )+ 재산피해비용 ] 의규모는남성의경우 5조 9734억원이고, 여성의경우 1조 1523억원으로나타났다 ( 이선미등, 2015). 담배연기는사람에게치명적인화학물질 7000개이상을함유하고있으며, 이로인해폐암을비롯한각종암과심혈관질환, 호흡기질환, 만성질환등다양한질병과관련있는것으로알려져있다 (Carter et al., 2015; CDC, 2010; Thun et al., 2013). 우리나라는 1995년국민건강증진법이제정됨에따라본격적으로담배판매, 광고, 금연구역확대등을추진하였고, 청소년보호법 학교보건법등에서도청소년흡연과관련하여제도적으로규제하고있다. 또한 2005년 WHO 담배규제기본협약 (FCTC) 비준이후다양한흡연예방및담배규제정책을시행하고있다 ( 강은정, 이재희, 2011). 담배규제정책들은선진국과개발도상국의차이는있을지라도실제사례를통해효과가입증되었다. 미국은지속적으로담뱃값이인상됨에따라담배소비량이줄어들었고 (Campaign for Tobacco- Free Kids, 2013), 터키도 2008년에비해 2012년담뱃값이 42.1% 증가했을때흡연율이 14.6% 감소하였다 (CDC, 2014). 우리나라는 2004년 12월 2000원에서 500원인상된후 10년동안추가적인인상이이루어지지않아흡연율의상승과하락을반복하여담뱃값인상에대한금연효과는크지않은것으로나타났다 ( 보건복지부보도자료, 2014. 9. 11.). 비가격정책중하나인담뱃갑경고그림은 2000년 12월캐나다에서제일먼저시작되었고, 흡연자의 63% 는담뱃갑경고그림을통해적어도한번이상의금연효과를경험했으며 (Hammond et al., 2004) 담뱃갑경고그림과경고문구로인한금연행동효과를평가하는연구에따르면경고그림군에서경고문구군에비해금연시도가 6% 포인트더높게 (40% vs 34%, OR=1.29) 나타나 (Brewer et al., 2016) 세계여러나라

제 3 장소셜빅데이터를활용한담배위험예측 69 에서도법안으로정하여시행하고있다. 우리나라도 2016년 12월 23일부터는담뱃갑앞뒷면면적의 30% 이상에해당하는크기의경고그림과 20% 이상에해당하는크기의경고문구를의무적으로표기해야한다. 이외에도담배광고및판촉에대한규제강화, 전자담배사용규제강화, 소포장금지및가향첨가규제, 금연지원서비스및금연캠페인강화등이있다 ( 기획재정부, 보건복지부보도자료, 2016. 5. 10.). 최근 2015년 1월 1일담뱃값인상으로국가금연지원서비스를 2014 년 113억원에서 2015년 1475억원으로확대하였으며, 추가확보된재원을금연성공률이가장높은약물 상담치료에지원하고, 건강보험병의원금연치료서비스시행과학교, 군부대, 사업장등에대한금연지원을대폭확대했다. 또한금연광고와금연캠페인을연중실시하고보건소금연클리닉, 금연상담전화, 온라인상담등 1:1 맞춤형금연상담서비스도대폭강화하였으며, 공공건물등의금연구역확대로간접흡연의폐해도감소시켰다 ( 기획재정부, 보건복지부보도자료, 2016. 5. 10.). 2016년금연정책의추진방향은흡연자금연지원서비스강화및비흡연자간접흡연예방이며, 궁극적으로는제3차국민건강증진종합계획 (Health Plan 2020) 에따라성인남성흡연율을 29%, 청소년남성흡연율을 12% 로감소시키는데목적이있다 ( 보건복지부, 한국건강증진개발원, 2016). 본연구는우리나라온라인뉴스사이트, 블로그, 카페, SNS, 게시판등에서수집한소셜빅데이터를바탕으로우리나라국민의담배에대한위험예측모형과연관규칙을파악한다.

70 2016 년소셜빅데이터기반보건복지이슈동향분석 제 2 절연구방법 1. 연구대상 본연구는국내의 SNS, 온라인뉴스사이트등인터넷을통해수집된소셜빅데이터를대상으로하였다. 본분석에서는 200개의온라인뉴스사이트, 10개의게시판, 1개의 SNS( 트위터 ), 4개의블로그등총 217개의온라인채널을통해수집가능한텍스트기반의웹문서 ( 버즈 ) 를소셜빅데이터로정의하였다. 담배관련토픽 (topic) 17) 은 2016년 1~3월동안해당채널에서요일, 주말, 휴일을고려하지않고매시간단위로수집하였으며, 수집된총 18만 1395건의텍스트 (Text) 문서를본연구분석에포함시켰다. 담배토픽은모든관련문서를수집하기위해 담배 를사용하였으며, 토픽과같은의미로사용되는토픽유사어로는 흡연, 담뱃값, 담배피, 담배추천, 담배가격, 훈녀생정담배, 중딩담배, 고딩담배, 중고딩담배, 청소년담배 용어를사용하였다. 본연구를위한소셜빅데이터의수집 18) 은크롤러 (Crawler) 를사용하였고, 이후주제분석을통해분류된명사형어휘를유목화 (categorization) 하여분석요인으로설정하였다. 2. 연구도구 담배와관련하여수집된문서는주제분석 19) 의과정을거쳐다음과같 17) 토픽은소셜분석및모니터링의 대상이되는주제어 를의미하며, 문서내에관련토픽이포함된문서를수집함. 18) 본연구를위한소셜빅데이터의수집및토픽분류는 ( 주 )SK 텔레콤스마트인사이트 에서수행함. 19) 주제분석에사용되는사전은 21 세기세종계획 과같은범용사전도있지만대부분분석의목적에맞게사용자가설계한사전이다. 본연구의담배관련주제분석은 ( 주 )SK 텔레콤스마트인사이트 에서관련문서수집후원시자료 (raw data) 에서나타난상위 2000

제 3 장소셜빅데이터를활용한담배위험예측 71 이정형화데이터로코드화하여사용하였다. 가. 담배관련감정 본연구의담배감정키워드는문서수집이후주제분석을통하여총 66개 ( 걱정, 고민, 고생, 고통, 깔끔, 다짐, 대단, 두려움, 만족, 믿음, 부담, 불가능, 불리, 불만, 불안, 불편함, 사랑, 스트레스, 실패, 어려움, 여유, 염려, 욕구, 위험, 유혹, 응원, 의지, 의지력, 자신감, 재미, 조심, 즐거움, 짜증, 창피, 최고, 최선, 충격, 치유, 편안, 포기, 피곤, 필요, 행복, 호기심, 파이팅, 활력, 후회, 희망, 힐링, 힘들다, 성공, 도움, 문제, 추천, 관심, 도전, 결심, 잘못, 혐오, 심각, 논란, 불편, 고발, 이해, 지적, 끔찍 ) 키워드로분류하였다. 본연구에서는 66개의담배감정키워드 ( 변수 ) 가가지는담배감정정도를판단하기위해요인분석을통하여 12개의요인 (44개변수 ) 으로축약한후감성분석을실시하였다. 일반적으로감성분석은긍정과부정의감성어사전으로분석해야하나본연구에서는요인분석의결과로분류된주제어의의미를파악하여감성분석을실시하였다. 요인분석에서결정된 12개요인에대한주제어의의미를파악하여 일반군, 잠재군, 위험군 으로감성분석을실시하였다. 따라서본연구에서일반군은 23개변수 ( 스트레스, 위험, 문제, 조심, 성공, 실패, 결심, 의지, 욕구, 논란, 지적, 부담, 불만, 염려, 걱정, 짜증, 창피, 불안, 끔찍, 충격, 불편, 파이팅, 응원 ), 위험군은 16개변수 ( 믿음, 사랑, 희망, 행복, 최선, 추천, 깔끔, 만족, 고민, 최고, 즐거움, 여유, 대단, 피곤, 힐링, 치유 ) 로분류하였다. 그리고일반군과위험군의감정을동일한횟수로표현한문서는잠재군으로분류하였다. 일반군은담배를혐오적으로생각하는감정이 개의키워드를대상으로유목화하여사용자사전을구축하였음.

72 2016 년소셜빅데이터기반보건복지이슈동향분석 고, 위험군은담배를애호적으로생각하는감정이며, 잠재군은담배를보 통으로생각하는감정을나타낸다. 나. 담배와관련된정책 담배와관련된정책의정의는주제분석과정을거쳐 담뱃값인상, FCTC ( 담배규제기본협약등 ), 금연관련법 ( 국민건강증진법, 학교보건법등 ), 흡연규제 ( 금연구역, 벌금부과등 ), 금연광고 ( 공익광고, 금연캠페인등 ), 금연사업 ( 금연상담전화, 금연클리닉등 ) 6개정책으로정책이있는경우는 1, 없는경우는 0 으로코드화하였다. 다. 담배와관련된질환 담배와관련된질환의정의는주제분석을거쳐 가래, 간암, 감기, 동맥경화, 고혈압, 구토, 뇌혈관질환, 당뇨병, 대장암, 두통, 마비, 만성질환, 발기부전, 불면증, 사망, 식도암, 심혈관질환, 염증, 우울증, 위암, 유방암, 폐암, 치매, 후두암, 구강암 의 25개로질환이있는경우는 1, 없는경우는 0 으로코드화하였다. 라. 담배에대한금연도구 담배에대한금연도구의정의는주제분석과정을거쳐 금연껌 ( 금연껌, 니코틴로렌즈, 니코틴껌, 니코틴엘로젠즈, 사탕, 트로키 ), 금연약 ( 금연약, 약물, 니코엔, 니코스텝, 챔픽스, 니코피온, 니코그린, 니코레스, 부프로피온, 흡연욕구저하제, 챔픽스정, 바레니클린, 웰부트린 ), 전자담배

제 3 장소셜빅데이터를활용한담배위험예측 73 ( 전자담배, 스모키전자담배, 애니스틱, 라스트스틱 ), 금연패치 ( 니코레트, 니코틴패치, 패치, 금연패치, 니코틴보조제, 금연보조제, 보조제, 금연침 ), 보조제 ( 물담배, 파이프담배, 리엔파이프, 롤링토바코, 금연파이프, 금연초, 건향초 ) 의 5개로금연도구가있는경우는 1, 없는경우는 0 으로코드화하였다. 마. 담배에대한도움 치료 담배에대한도움 치료의정의는주제분석과정을거쳐 금연클리닉, 금연상담전화, 병원, 금연교실 의 4 개로해당치료가있는경우는 1, 없 는경우는 0 으로코드화하였다. 바. 담배와관련된폐해 담배와관련된폐해의정의는주제분석을거쳐 간접흡연, 알코올, 중 독, 기억력, 담배꽁초, 도박 마약, 이혼, 정신건강, 폭력 의 9 개폐해로해 당폐해가있는경우는 1, 없는경우는 0 으로코드화하였다. 사. 담배에대한유해물질 담배에대한유해물질의정의는주제분석과정을거쳐 니코틴, 발암물 질, 유해물질, 일산화탄소, 타르, 화학물질, 노폐물 의 7 개유해물질로해 당유해물질이있는경우는 1, 없는경우는 0 으로코드화하였다.

74 2016 년소셜빅데이터기반보건복지이슈동향분석 아. 담배에대한장소 담배에대한장소의정의는주제분석과정을거쳐 PC 방, 가정, 금연건 물, 아파트, 공공장소, 흡연구역, 직장, 술집, 식당, 학교 의 10 개장소로 해당장소가있는경우는 1, 없는경우는 0 으로코드화하였다. 자. 담배에대한관련기관 담배에대한관련기관의정의는주제분석과정을거쳐 청와대, 국회, 보건복지부, 여성가족부, 기획재정부, 지방자치단체, 공공기관, 세계보건기구, 금연단체 ( 한국금연운동협의회, 한국건강관리협회, 한국보건의료연구원등 ), 담배회사 의 10개기관으로해당기관이있는경우는 1, 없는경우는 0 으로코드화하였다. 3. 분석방법 본연구에서우리나라담배의위험을설명하는가장효율적인예측모형을구축하기위해특별한통계적가정이필요하지않은데이터마이닝의연관분석 (association analysis) 과의사결정나무 (decision tree) 방법을사용하였다. 소셜빅데이터분석에서연관분석은하나의온라인문서 (transaction) 에포함된둘이상의단어들에대한상호관련성을발견하는것으로, 동시에발생한어떤단어들의집합에대해조건과연관규칙을찾는분석방법이다. 전체문서에서연관규칙의평가측도는지지도 (support), 신뢰도 (confidence), 향상도 (lift) 로나타낼수있다. 지지도는자주발생하지않는규칙을제거하는데이용되며신뢰도는단어들의

제 3 장소셜빅데이터를활용한담배위험예측 75 연관성정도를파악하는데이용할수있다. 향상도는연관규칙 (X Y) 에서단어 X가없을때보다있을때단어 Y가발생할비율을나타낸다. 연관분석과정은연구자가지정한최소지지도를만족시키는빈발항목집합 (frequent itemset) 을생성한후이들에대해최저신뢰도기준을마련하고향상도가 1 이상인것을규칙으로채택한다 ( 박희창, 2010). 본연구의연관분석은선험적규칙 (apriori principle) 알고리즘을사용하였으며, 담배감정에사용된연관분석의측도는지지도 0.001, 신뢰도 0.01 을기준으로시뮬레이션하였다. 본연구의의사결정나무형성을위한분석알고리즘은 CHAID(Chi-squared Automatic Interaction Detection) 를사용하였다. 정지규칙 (stopping rule) 으로관찰치가충분하여상위노드 ( 부모마디 ) 의최소케이스수는 100으로, 하위노드 ( 자식마디 ) 의최소케이스수는 50으로설정하였고나무깊이는 3 수준으로정하였다. 본연구의기술분석, 다중응답분석, 의사결정나무분석은 SPSS v. 21.0을사용하였고, 연관분석은 R version 3.3.1을사용하였다. 제 3 절연구결과 1. 담배관련온라인문서현황 담배와관련된버즈는월별로비슷하게오전 7시부터증가하여 11시이후감소하며, 다시낮 12시이후증가하여오후 2시이후감소하고, 3 시이후증가하여 5시이후감소하고, 7시이후증가하여밤 12시이후급감하는추세를보이는것으로나타났다. 요일별로월요일, 목요일, 화요일, 수요일, 일요일, 금요일, 토요일순으로나타났다 ([ 그림 3-1], [ 그림 3-2]).

76 2016 년소셜빅데이터기반보건복지이슈동향분석 그림 3-1 월별, 시간별담배관련온라인문서현황 ( 단위 : %) 그림 3-2 담배관련요일별온라인문서현황 ( 단위 : %) 그림 3-3 과같이담배와관련한질환의문서는심혈관질환 (3278 건 ), 폐암 (2835 건 ), 감기 (2201 건 ), 사망 (2144 건 ), 고혈압 (1849 건 ), 당뇨 병 (1537 건 ) 등의순으로집중된것으로나타났다.

제 3 장소셜빅데이터를활용한담배위험예측 77 그림 3-3 월별담배관련질환별온라인문서현황 ( 단위 : 건 ) 표 3-1 담배관련온라인문서현황 구분항목 N(%) 구분항목 N(%) 감정 정책 * 도움 치료 * 폐해 * ( 단위 : 건, %) 일반 17,237(54.9) 블로그 22,794(12.6) 잠재 3,075(9.8) 카페 53,052(29.2) 위험 11,070(35.3) SNS 78,369(43.2) 채널소계 31,382(100.0) 게시판 17,958(9.9) 담뱃값인상 10,018(53.9) 뉴스 9,222(5.1) FCTC 128(0.7) 소계 181,395(100.0) 금연관리법 1,908(10.3) 금연껌 850(8.1) 흡연규제 3,146(16.9) 금연약 772(7.3) 금연광고 1,112(6.0) 금연 전자담배 7,343(69.8) 금연사업 2,280(12.3) 도구 * 금연패치 971(9.2) 소계 18,592(100.0) 금연보조제 578(5.5) 금연클리닉 2,163(25.0) 소계 10,514(100.0) 금연상담전화 40(0.5) PC방 299(1.0) 병원 6,280(72.5) 가정 2,270(7.5) 금연교실 174(2.0) 금연건물 289(1.0) 소계 8,657(100.0) 아파트 3,117(10.3) 간접흡연 15,894(48.9) 장소 * 공공장소 4,911(16.2) 알코올 2,883(8.9) 흡연구역 2,156(7.1) 중독 2,017(6.2) 직장 3,389(11.2) 기억력 2,719(8.4) 술집 2,982(9.8)

78 2016 년소셜빅데이터기반보건복지이슈동향분석 구분 항목 N(%) 구분 항목 N(%) 담배꽁초 4,949(15.2) 식당 5,078(16.7) 도박 마약 1,488(4.6) 학교 5,835(19.2) 이혼 719(2.2) 소계 30,326(100.0) 정신건강 699(2.2) 청와대 4,252(47.6) 유해물질 * 주 : * 다중응답. 폭력 1,120(3.4) 국회 567(6.4) 소계 32,488(100.0) 보건복지부 979(11.0) 니코틴 3,396(46.6) 여성가족부 113(1.3) 발암물질 727(10.0) 기획재정부 517(5.8) 관련유해물질 539(7.4) 기관 * 지방자치단체 1,040(11.6) 일산화탄소 413(5.7) 공공기관 507(5.7) 타르 1,368(18.8) 세계보건기구 480(5.4) 화학물질 350(4.8) 금연단체 164(1.8) 노폐물 501(6.9) 담배회사 310(3.5) 소계 7,294(100.0) 소계 8,929(100.0) < 표 3-1> 과같이담배를애호적으로생각하는위험군을나타내는버즈는 35.3%, 보통의감정 ( 잠재군 ) 을나타내는버즈는 9.8%, 혐오적으로생각하는일반군을나타내는버즈는 54.9% 로나타났다. 담배와관련한정책은담뱃값인상 (53.9%), 흡연규제 (16.9%), 금연사업 (12.3%) 등의순으로나타났다. 담배와관련한도움 치료는병원 (72.5%), 금연클리닉 (25.0%), 금연교실 (2.0%), 금연상담전화 (0.5%) 순으로나타났다. 담배와관련한폐해로는간접흡연 (48.9%), 담배꽁초 (15.2%), 알코올 (8.9%), 기억력 (8.4%) 등의순으로나타났다. 담배와관련한유해물질로는니코틴 (46.6%), 타르 (18.8%), 발암물질 (10.0%), 유해물질 (7.4%) 등의순으로나타났다. 담배와관련한채널로는 SNS(43.2%), 카페 (29.2%), 블로그 (12.6%) 등의순으로나타났다. 담배와관련한금연도구로는전자담배 (69.8%), 금연패치 (9.2%), 금연보조제 (5.5%) 등의순으로나타났다. 담배와관련한장소로는학교 (19.2%), 식당 (16.7%), 공공장소 (16.2%) 등의순으로나타났다. 담배와관련한기관으로는청와대 (47.6%), 지방자

제 3 장소셜빅데이터를활용한담배위험예측 79 치단체 (11.6%), 보건복지부 (11.0%), 국회 (6.4%) 등의순으로나타났다. 그림 3-4, 그림 3-5 와같이담배를애호적으로생각하는위험감정의토픽은추천 (28.1%), 사랑 (22.4%), 최고 (19.1%), 고민 (14.9%), 행복 (11.4%) 등의순으로집중된것으로나타났으며, 담배를혐오적으로생각하는일반감정의토픽은문제 (29.1%), 걱정 (17.4%), 스트레스 (15.3%), 위험 (13.2%), 부담 (11.1%) 등의순으로집중된것으로나타났다. 그림 3-4 월별담배위험군 ( 담배를애호적으로생각하는감정집단 ) 감정변화 ( 단위 : %) 그림 3-5 월별담배일반군 ( 담배를혐오적으로생각하는감정집단 ) 감정변화 ( 단위 : %)

80 2016 년소셜빅데이터기반보건복지이슈동향분석 < 표 3-2> 와같이담배와관련한연도별긍정적감정 ( 위험 ) 을나타내는버즈는청소년의경우 2011년 30.9%, 2012년 29.2%, 2013년 27.9%, 2014년 26.8%, 2015년 25.3%, 2016년 30.0% 로나타났으며성인의경우 2011년 39.9%, 2012년 36.4%, 2013년 34.0%, 2014년 36.2%, 2015년 29.1%, 2016년 37.1% 로나타났다. 2015년담뱃값인상은청소년보다성인에게더많은영향을미친것으로나타났고, 2016년은 2015년보다위험을나타내는버즈가증가한것으로나타났다. 표 3-2 연도별담배관련감정변화 연도 2011 2,283 (30.9) 2012 2,767 (29.2) 2013 2,478 (27.9) 2014 2,145 (26.8) 2015 2,160 (25.3) 2016 2,433 (30.0) 계 14,266 (28.3) 청소년성인전체 ( 단위 : 건, %) 위험잠재일반계위험잠재일반계위험잠재일반계 1,017 (13.8) 1,174 (12.4) 1,178 (13.3) 1,050 (13.1) 1,068 (12.5) 1,157 (14.2) 4,085 (55.3) 5,542 (58.4) 5,228 (58.8) 4,799 (60.0) 5,324 (62.3) 4,533 (55.8) 7,385 6,873 (39.9) 9,483 10,537 (36.4) 8,884 11,037 (34.0) 7,994 9,106 (36.2) 8,552 12,274 (29.1) 8,123 8,637 (37.1) 1,747 (10.2) 8,589 (49.9) 1,938 16,508 (6.7) (57.0) 1,956 19,432 (6.0) (59.9) 1,906 14,125 (7.6) (56.2) 3,172 26,769 (7.5) (63.4) 1,918 12,704 (8.2) (54.6) 9,156 17,209 (37.2) 28,983 13,304 (34.6) 32,425 13,515 (32.7) 25,137 11,251 (34.0) 42,215 14,434 (28.4) 23,259 11,070 (35.3) 2,764 (11.2) 3,112 (8.1) 3,134 (7.6) 2,956 (8.9) 4,240 (8.4) 3,075 (9.8) 12,674 (51.5) 22,050 (57.3) 24,660 (59.7) 18,924 (57.1) 32,093 (63.2) 17,237 (54.9) 24,594 38,466 41,309 33,131 50,767 31,382 6,644 29,511 58,464 12,637 98,127 72,730 19,281 127,638 50,421 169,228 (13.2) (58.5) (34.5) (7.5) (58.0) (33.1) (8.8) (58.1) 219,649 자료 : 2011~2015 년결과는 송태민, 진달래 (2015). 2015 년소셜빅데이터기반보건복지이슈동향분석. 한국보건사회연구원. p.77 재인용. 2. 담배위험관련연관성분석 < 표 3-3> 과이정책요인에대한담배위험연관성예측에서가장신뢰도가높은연관규칙은 { 담뱃값인상, 흡연규제 } { 일반 } 이며세변인의연관성은지지도 0.001, 신뢰도는 0.590, 향상도는 6.21로나타났다. 이는온라인문서에서담뱃값인상, 흡연규제가언급되면담배를부정적 ( 일반 )

제 3 장소셜빅데이터를활용한담배위험예측 81 으로생각할확률이 59.0% 이며담뱃값인상, 흡연규제가언급되지않은문서보다담배에대한감정이일반일확률이 6.21배높아지는것을나타낸다. 특히 { 담뱃값인상 } { 위험 } 두변인의연관성은지지도 0.002, 신뢰도는 0.029, 향상도는 0.469로나타나담뱃값인상은담배에대한긍정적 ( 위험 ) 감정을감소시키는것으로나타났다. 반면 { 금연사업 } { 잠재 } 두변인의연관성은지지도 0.001, 신뢰도는 0.103, 향상도는 6.054로나타나담뱃값인상은담배에대한보통 ( 잠재 ) 감정을증가시키는것으로나타났다. 표 3-3> 요인별담배위험예측 규칙 지지도 신뢰도 향상도 정책 { 담뱃값인상, 흡연규제 } { 일반 } 0.001246 0.590078 6.209738 { 금연관련법, 흡연규제 } { 일반 } 0.001191 0.487585 5.131138 { 금연사업 } { 일반 } 0.005298 0.421491 4.435598 { 금연관련법 } { 일반 } 0.003572 0.339623 3.574047 { 금연광고 } { 일반 } 0.001869 0.304856 3.208179 { 흡연규제 } { 일반 } 0.005143 0.296567 3.120948 { 금연사업 } { 위험 } 0.002078 0.165351 2.709469 { 담뱃값인상 } { 일반 } 0.007183 0.130066 1.368759 { 금연사업 } { 잠재 } 0.001290 0.102632 6.054262 { 흡연규제 } { 위험 } 0.001152 0.066434 1.088592 { 담뱃값인상 } { 위험 } 0.001582 0.028648 0.469438 유해물질 { 노폐물 } { 일반 } 0.001582 0.572854 6.028480 { 일산화탄소 } { 일반 } 0.001296 0.569007 5.987995 { 화학물질 } { 일반 } 0.001053 0.545714 5.742870 { 발암물질 } { 일반 } 0.002051 0.511692 5.384832 { 유해물질 } { 일반 } 0.001279 0.430427 4.529631 { 니코틴 } { 일반 } 0.005502 0.293875 3.092620 { 타르 } { 일반 } 0.001356 0.179825 1.892399 { 니코틴, N타르 } { 일반 } 0.001136 0.175319 1.844986 { 니코틴 } { 위험 } 0.002056 0.109835 1.799778 { 니코틴 } { 잠재 } 0.001163 0.062132 3.665177 질환 { 고혈압, 당뇨병, 사망 } { 일반 } 0.001455 0.939502 9.886925

82 2016 년소셜빅데이터기반보건복지이슈동향분석 규칙 지지도 신뢰도 향상도 { 고혈압, 뇌혈관질환, 당뇨병, 사망 } { 일반 } 0.001036 0.935323 9.842953 { 뇌혈관질환, 당뇨병, 사망 } { 일반 } 0.001103 0.925926 9.744058 { 고혈압, 당뇨병, 사망, 심혈관질환 } { 일반 } 0.001020 0.925000 9.734314 { 고혈압, 뇌혈관질환, 당뇨병, 두통 } { 일반 } 0.001169 0.917749 9.658007 { 고혈압, 뇌혈관질환, 사망 } { 일반 } 0.001152 0.916667 9.646618 { 뇌혈관질환, 당뇨병, 두통 } { 일반 } 0.001196 0.915612 9.635517 { 당뇨병, 사망, 심혈관질환 } { 일반 } 0.001196 0.896694 9.436436 { 당뇨병, 사망 } { 일반 } 0.001737 0.889831 9.364205 { 고혈압, 뇌혈관질환, 두통 } { 일반 } 0.001235 0.881890 9.280640 { 고혈압, 구토, 당뇨병 } { 일반 } 0.001003 0.866667 9.120439 { 뇌혈관질환, 두통 } { 일반 } 0.001345 0.859155 9.041388 { 고혈압, 구토 } { 일반 } 0.001097 0.846809 8.911460 { 구토, 당뇨병 } { 일반 } 0.001092 0.838983 8.829108 { 고혈압, 사망 } { 일반 } 0.001814 0.837150 8.809819 { 고혈압, 사망, 심혈관질환 } { 일반 } 0.001307 0.814433 8.570753 { 동맥경화, 사망, 심혈관질환 } { 일반 } 0.001047 0.791667 8.331170 { 동맥경화, 고혈압, 사망 } { 일반 } 0.001003 0.787879 8.291308 { 구토, 두통 } { 일반 } 0.001218 0.786477 8.276555 금연도구 { 금연약 } { 일반 } 0.002398 0.563472 5.929739 { 금연패치 } { 일반 } 0.002547 0.475798 5.007101 { 금연껌 } { 일반 } 0.001632 0.348235 3.664683 { 전자담배 } { 위험 } 0.005518 0.136320 2.233769 { 전자담배 } { 일반 } 0.004956 0.122430 1.288397 { 전자담배 } { 잠재 } 0.001703 0.042081 2.482362 치료 { 금연클리닉, 병원 } { 일반 } 0.002271 0.615845 6.480891 { 병원 } { 일반 } 0.014868 0.429459 4.519443 { 금연클리닉 } { 일반 } 0.005033 0.422099 4.441993 { 금연클리닉 } { 위험 } 0.002029 0.170134 2.787847 { 병원 } { 위험 } 0.004868 0.140605 2.303980 { 병원 } { 잠재 } 0.003831 0.110669 6.528379 { 금연클리닉 } { 잠재 } 0.001284 0.107721 6.354474 폐해 { 알코올, 기억력 } { 일반 } 0.002624 0.607918 6.397478 { 기억력, 담배꽁초 } { 일반 } 0.001483 0.580994 6.114134 { 기억력 } { 일반 } 0.008203 0.547260 5.759136 { 간접흡연, 중독 } { 일반 } 0.001472 0.531873 5.597204 { 간접흡연, 기억력 } { 일반 } 0.002067 0.525210 5.527092 { 간접흡연, 담배꽁초 } { 일반 } 0.003815 0.437698 4.606148 { 정신건강 } { 일반 } 0.001626 0.422031 4.441283 { 간접흡연, 알코올 } { 일반 } 0.001020 0.404814 4.260094 { 중독 } { 일반 } 0.004427 0.398116 4.189607

제 3 장소셜빅데이터를활용한담배위험예측 83 규칙 지지도 신뢰도 향상도 { 알코올 } { 일반 } 0.006218 0.391259 4.117448 { 이혼 } { 일반 } 0.001417 0.357441 3.761559 { 담배꽁초 } { 일반 } 0.008953 0.328147 3.453283 { 폭력 } { 일반 } 0.001907 0.308929 3.251035 { 도박 마약 } { 일반 } 0.002012 0.245296 2.581390 { 간접흡연 } { 일반 } 0.017840 0.203599 2.142589 { 기억력 } { 위험 } 0.002415 0.161089 2.639627 { 간접흡연, 담배꽁초 } { 위험 } 0.001191 0.136622 2.238719 { 기억력 } { 잠재 } 0.002018 0.134608 7.940577 { 알코올 } { 잠재 } 0.002040 0.128339 7.570722 { 담배꽁초 } { 위험 } 0.003457 0.126692 2.076002 { 중독 } { 위험 } 0.001351 0.121468 1.990389 { 간접흡연, 담배꽁초 } { 잠재 } 0.001058 0.121442 7.163901 { 알코올 } { 위험 } 0.001703 0.107180 1.756271 { 중독 } { 잠재 } 0.001147 0.103123 6.083278 { 간접흡연 } { 위험 } 0.008539 0.097458 1.596967 { 담배꽁초 } { 잠재 } 0.002089 0.076581 4.517539 { 간접흡연 } { 잠재 } 0.004449 0.050774 2.995163 3. 담배에영향을미치는정책및도구요인 < 표 3-4> 와같이금연과관련한정책중 FCTC를제외한모든정책요인은담배의위험에부적인영향을미치는것으로나타나담뱃값인상, 금연관련법, 흡연규제, 금연광고가온라인상에서많이언급될수록담배에대한애호적인감정 ( 위험 ) 이감소하는것으로나타났다. 금연도구요인의영향과관련해서는담배위험군에금연약, 금연패치는부적인영향을미치는것으로나타나금연약 금연패치와관련한금연도구가온라인상에서많이언급될수록담배에대한애호적인감정 ( 위험 ) 은감소하는것으로나타났다. 그러나전자담배는정적인영향을미치는것으로나타나전자담배와관련한금연도구가많이언급될수록담배에대한긍정적감정 ( 위험 ) 은증가하는것으로나타났다.

84 2016 년소셜빅데이터기반보건복지이슈동향분석 표 3-4 담배의위험군과잠재군에영향을미치는정책및도구요인 1) 변수 위험 잠재 b S.E. OR P b S.E. OR P 담뱃값인상 -.988.067.372.000 -.397.089.672.000 FCTC.496.326 1.642.128 -.676.602.509.262 정책 금연관련법 -1.076.109.341.000 -.230.122.794.059 흡연규제 -.774.080.461.000 -.184.101.832.067 금연광고 -.720.129.487.000 -.215.159.807.177 금연사업 -.422.063.656.000.370.076 1.447.000 금연껌 -.129.111.879.248.700.123 2.013.000 금연약 -1.155.124.315.000 -.078.130.925.550 도구 전자담배.638.048 1.892.000.707.070 2.027.000 금연패치 -1.154.117.315.000 -.169.124.844.173 금연보조제 -.091.170.913.592 -.135.257.874.600 주 : 1) 기본범주 - 일반, Standardized coefficients, Standard error, Adjusted odds ratio. 4. 담배관련위험예측모형 본연구에서는담배관련위험을예측하기위하여담배와관련한정책요인에대해데이터마이닝분석을실시하였다. 담배관련정책요인이담배의위험예측모형에미치는영향은 그림 3-6 과같다. 나무구조의최상위에있는네모는루트노드로서, 예측변수 ( 독립변수 ) 가투입되지않은종속변수 ( 위험, 잠재, 일반 ) 의빈도를나타낸다. 루트노드에서담배의위험은 35.3%(1만 1070건 ), 잠재는 9.8%(3075건 ), 일반은 54.9%(1만 7237건 ) 로나타났다. 루트노드하단의가장상위에위치하는요인은담배의위험예측에가장영향력이높은 ( 관련성이깊은 ) 정책요인으로 담뱃값인상요인 의영향력이가장큰것으로나타났다. 담뱃값인상요인 이있을경우담배의위험은이전의 35.3% 에서 16.5% 로크게감소하였고잠재는이전의 9.8% 에서 8.8% 로 1.0% 포인트감소

제 3 장소셜빅데이터를활용한담배위험예측 85 하였다. 반면에일반은이전의 54.9% 에서 74.8% 로증가하였다. 담뱃값인상요인 이있고 금연관련법요인 이있는경우담배의위험은이전의 16.5% 에서 4.8% 로, 잠재는이전의 8.8% 에서 7.3% 로감소한반면일반은이전의 74.8% 에서 87.9% 로증가하였다. < 표 3-5> 의담배와관련한정책요인의위험예측모형에대한이익도표와같이담배의위험에가장영향력이높은경우는 담뱃값인상요인 이없고 흡연규제요인 이없으며 금연사업요인 이없는조합으로나타났다. 즉 7번노드의지수 (index) 가 106.5% 로, 뿌리마디와비교했을때 7번노드의조건을가진집단이담배에대한위험이높을확률이 1.07배로나타났다. 담배의잠재에가장영향력이높은경우는 담뱃값인상요인 이없고 흡연규제요인 이없으며 금연사업요인 이있는조합으로나타났다. 즉 8번노드의지수가 164.5% 로, 뿌리마디와비교했을때 8번노드의조건을가진집단이담배에대한보통의감정 ( 잠재 ) 이높을확률이 1.65배로나타났다. 담배의일반에가장영향력이높은경우는 담뱃값인상요인 이있고 금연관련법요인 이있는조합으로나타났다. 즉 6번노드의지수 (index) 가 160.0% 로뿌리마디와비교했을때 6번노드의조건을가진집단이담배에대한부정의감정 ( 일반 ) 이높을확률이 1.60배로나타났다.

86 2016 년소셜빅데이터기반보건복지이슈동향분석 그림 3-6 정책요인의예측모형 표 3-5 정책요인의예측모형에대한이익도표 구분위험잠재일반 이익지수 누적지수 노드 노드 (n) 노드 (%) 이익 (%) 지수 (%) 노드 (n) 노드 (%) 이익 (%) 지수 (%) 7 27291 87.0 92.7 106.5 27291 87.0 92.7 106.5 8 1359 4.3 3.1 71.3 28650 91.3 95.7 104.9 9 797 2.5 1.4 56.6 29447 93.8 97.2 103.6 11 1371 4.4 2.3 53.3 30818 98.2 99.5 101.3 10 192 0.6 0.2 36.9 31010 98.8 99.7 100.9 12 207 0.7 0.2 28.8 31217 99.5 99.9 100.5 6 165 0.5 0.1 13.7 31382 100.0 100.0 100.0 8 1359 4.3 7.1 164.5 1359 4.3 7.1 164.5 12 207 0.7 0.8 123.3 1566 5.0 7.9 159.0 9 797 2.5 2.7 105.0 2363 7.5 10.6 140.8 7 27291 87.0 84.7 97.4 29654 94.5 95.3 100.9 11 1371 4.4 3.8 86.3 31025 98.9 99.1 100.2 10 192 0.6 0.5 85.0 31217 99.5 99.6 100.1 6 165 0.5 0.4 74.2 31382 100.0 100.0 100.0 6 165 0.5 0.8 160.0 165 0.5 0.8 160.0 10 192 0.6 0.9 143.2 357 1.1 1.7 151.0

제 3 장소셜빅데이터를활용한담배위험예측 87 구분 이익지수 누적지수 노드 노드 (n) 노드 (%) 이익 (%) 지수 (%) 노드 (n) 노드 (%) 이익 (%) 지수 (%) 12 207 0.7 0.9 141.6 564 1.8 2.7 147.5 11 1371 4.4 5.8 132.4 1935 6.2 8.4 136.8 9 797 2.5 3.2 127.0 2732 8.7 11.7 133.9 8 1359 4.3 4.6 106.9 4091 13.0 16.3 125.0 7 27291 87.0 83.7 96.3 31382 100.0 100.0 100.0 제 4 절결론 본연구는국내의온라인뉴스사이트, 블로그, 카페, SNS, 게시판등인터넷을통해수집된소셜빅데이터를주제분석과감성분석기술로분류하고데이터마이닝의연관성분석과의사결정나무분석방법을적용하여분석함으로써우리나라국민의담배에대한위험요인을예측하고자하였다. 본연구의주요분석결과는다음과같다. 첫째, 담배관련버즈는월별로오전 7시부터증가하여오전 11시이후감소하고오후 7시이후증가하여밤 12시이후감소하는것으로나타났다. 요일별로월요일, 목요일, 화요일등의순으로나타났다. 둘째, 2015년담뱃값인상은청소년보다성인에게더많은영향을미친것으로나타났고, 2016년은 2015년보다담배의위험이증가한것으로나타났다. 담뱃값인상의금연정책이시행된 2015년담배를애호적으로생각하는감정 ( 위험군 ) 을나타내는버즈는 2014년에비해 5.6% 포인트감소한 28.4% 로나타났다. 하지만 2016년위험군버즈양은 2014 년보다 1.3% 포인트증가한 35.3% 로나타났다. 연도별 1/4분기담배판매량변화를살펴보면 2014년 122억개비에서 2015년 71억개비로 2014년대비 41.4% 감소했지만 2016년은 105억개비로 2015년에비해 47.9% 증가한것으로나타났다 (KT&G, 2016. 9. 5.). 마찬가지로최

88 2016 년소셜빅데이터기반보건복지이슈동향분석 병호와이근재 (2015) 의연구에서담배가격인상충격에대한 1인당담배소비량의단기변동과정을살펴보면가격인상충격에따라담배소비량은즉각적으로상당히하락하지만대체로 5개월정도지나면가격충격이소비량에미치는효과가사라지는것으로나타났다. 이는담배가중독성이있고, 주기적으로피울수있으며, 손쉽게살수있기때문에담뱃값인상의금연정책효과의지속성이오래가지않은것으로보인다. 셋째, 버즈에서담뱃값인상, 흡연규제등이동시에언급되면일반군이될확률이증가하며, 담뱃값인상만언급되어도위험군을감소시키는것으로나타났다. 넷째, 전자담배의언급은일반군보다위험군의확률이높은것으로나타났다. 2014년담뱃값인상발표이후전자담배판매량이급증하였고, 2015년 1월에서 4월전자담배기기수입금액은전년대비 24배, 전자담배액상은 15배이상급증하였다 ( 한국소비자원, 2015). 전자담배는흡입정도에따라니코틴흡입량이달라지기때문에흡연자스스로유입량을예측하기가어렵고, 안전성에대한의혹도제기되며, WHO는전자담배의안전성과금연효과가과학적으로증명된것은아니기때문에단순금연보조제로사용해서는안된다고권고하고있다 ( 최성은, 2015; WHO, 2014). 보건복지부는가격인상정책이후로담뱃갑경고그림과경고문구삽입, 금연치료서비스, 1:1 맞춤형금연상담서비스, 담배광고및판촉에대한규제강화, 전자담배사용규제강화, 소포장금지및가향첨가규제, 금연지원서비스및금연캠페인강화등의비가격정책을시행해왔다 ( 기획재정부, 보건복지부보도자료, 2016. 5. 10.). 또한지난해말흡연의폐해를몸으로표현하는 발레광고 와흡연은스스로질병을구입한다는콘셉트의 폐암하나주세요, 실제흡연의후유증으로고통받는환자와

제 3 장소셜빅데이터를활용한담배위험예측 89 가족의모습을보인광고는 TV뿐만아니라 SNS 등에서큰이슈가되었다. 그러나본연구에서는연도별 1/4분기의버즈를분석했기때문에각연도전체를대표하기에는제한점이따른다. 끝으로금연정책의효과에대한대국민조사와더불어소셜미디어에서수집된빅데이터의활용과분석을병행할경우정부의금연정책에대한예측및평가의신뢰성이더욱제고될것으로예상된다. 또한국민들이금연에적극적으로동참할수있도록소셜빅데이터분석을통해담배를애호적으로생각하는위험군을감소시킬수있는 SNS 홍보가강화되어야할것이다.

참고문헌 << 강은정, 이재희. (2011). 성인흡연자의금연의향담배가격에영향을미치는요인. 보건교육건강증진학회지, 28(2), pp.125-137. 기획재정부, 보건복지부보도자료. (2016. 5. 10.). 비가격금연정책추진방안. 보건복지부보도자료. 박희창. (2010). 연관규칙마이닝에서의평가기준표준화방안. 한국데이터정보과학회지, 21(5), pp.891-899. 보건복지부, 질병관리본부. (2015). 국민건강통계 2014: 국민건강영양조사 Ⅵ. 보건복지부, 질병관리본부. 보건복지부보도자료. (2014. 9. 11.). 범정부, 금연종합대책 발표. 보건복지부보도자료. 보건복지부, 한국건강증진개발원. (2016). 2016년지역사회통합건강증진사업안내 : 지역사회중심금연지원서비스. 보건복지부, 한국건강증진개발원. 이선미, 윤영덕, 백종환, 현경래, 강하렴. (2015). 주요건강위험요인의사회경제적영향과규제정책의효과평가. 국민건강보험건강보험정책연구원. 정금지, 윤영덕, 백수진, 지선하, 김일순. (2013). 한국인성인남녀의흡연관련사망에관한연구. 한국보건정보통계학회지, 38(2), pp.36-48. 최병호, 이근재. (2015). 우리나라담배수요함수의추정과담뱃세정책에관한함의. 경제학회지, 63(4), pp. 53-80. 최성은. (2015). 전자담배관리방안및전자담배제세부담금개편방안연구. 한국조세재정연구원. 한국소비자원. (2015). 전자담배안전실태조사. 한국소비자원. KT&G. (2016. 9. 5.). 경영실적 2014년 1분기-2016년 1분기. KT&G IR자료실. Brewer, N. T., Hall, M. G., Noar, S. M., Parada, H., Stein-Seroussi, A., Bach, L, E, & Hanley, S., et al. (2016). Effect of Pictorial Cigarette pack warnings on changes in Smoking Behavior. JAMA Intern Med, 176(7), pp.905-912.

92 2016 년소셜빅데이터기반보건복지이슈동향분석 Campaign for Tobacco-Free Kids. (2013). Increasing the federal tobacco tax reduces tobacco use, Washington DC. Carter, B. D., Abnet, C. C., Feskanich, D., Freedman, N. D., Hartge, P., Lewis, C. E., Ockene, J. K., et al. (2015). Smoking and mortality: Beyond established causes. New England Journal of Medicine, 372, pp.631-640. Centers for Disease Control and Prevention. (2014). Cigarette prices and smoking prevalence after a tobacco tax increase-turkey, 2008 and 2012. MMWR Morbidity and Mortality Weekly Report, 63, pp.457-461. Hammond, D., Fong, G. T., McDonald, P. W., Brown, K. S. and Cameron, R. (2004). Graphic Canadian cigarette warning labels and adverse outcomes. American Journal of Public Health, 94, pp.1442-1445. Organization for Economic Cooperation and Development. (2014). Health data 2014. Paris, OECD. Thun, M. J., Carter, B. D., Feskanich, D., Freedman, N. D., Prentice, R., Lopez, A. D., & Hartge, P. et al. (2013). 50-year trends in smoking-related mortality in the United States. New England Journal of Medicine, 368, pp.351 364. World Health Organization. (2008). Report on the global tobacco epidemic The MPOWER package. WHO, Geneva. World Health Organization. (2014). Electronic nicotine delivery systems. WHO Framework Converntion on Tobacco Control, Geneva. World Health Organization. (2015). WHO REPORT ON THE GLOBAL TOBACCO EPIDEMIC, 2015: Raising taxes. on tobacco. WHO, Geneva. Zheng, W., McLerran, D. F., Rolland, B. A., Fu, Z., Boffetta, P., He, J.,

참고문헌 93 & Gupta, P. C., et al. (2014). Burden of total and cause-specific mortality related to tobacco smoking among adults aged 45 years in Asia: A pooled analysis of 21 cohorts. Public Library of Science Medicine, 11, e1001631.

제 4 장 지카바이러스감염증소셜빅데이터분류를위한온톨로지개발 제 1 절서론 제 2 절지카바이러스소셜빅데이터온라인문서현황 제 3 절연구결과 제 4 절결론 참고문헌

4 지카바이러스감염증소셜빅데이터분류를위한온톨로지개발 20) << 제 1 절서론 2015년 4월브라질에서시작된지카바이러스의감염증이급속히확산되어 2016년 5월 12일현재 58개국에서감염이보고되었다 (WHO, 2016.5.12.). 중남미지역에서지카바이러스감염증에연계된것으로추정되는선천성결함과자가면역질환의급속한증가로인해세계보건기구 (WHO) 에서는 2016년 2월 1일 국제공중보건위기 를선언하였다 ( 질병관리본부, 2016.2.2.; WHO, 2005). 국제공중보건비상사태는국제보건규정 (IHR) 에따라질병이다른나라의공중보건을위협할만큼국제적으로확산중이며심각성과예외성, 예측불가능성때문에국제사회의즉각적인공동대응이필요한비상상황을뜻한다 (WHO, 2016.8.3.). 세계보건기구는 2009년신종플루, 2014년소아마비바이러스와그해 8월에발생한에볼라바이러스확산, 이렇게세차례에대해비상사태를선언하였다 (The New York Times, 2016.2.1). 지카바이러스증가로인해국내외에서는지카바이러스에대한루머또한확산되고있는실정이다. 우리나라의경우 3월지카바이러스감염확진자가발생함에따라소셜미디어를통해괴담이급속도로확산되었다. 20) 본논문은국내외학술지에게재하기위하여한국보건사회연구원 ( 송태민, 진달래 ), 펜실베이니아주립대학교 ( 송주영교수 ), 인디애나주립대학교 ( 서동철교수 ) 에서공동으로작성한것임을밝힌다.

98 2016 년소셜빅데이터기반보건복지이슈동향분석 소셜미디어에떠도는괴담으로는 잠복기가 2년이고감염되면모두소두증에걸린다, 태아에게전파되려면태반을통해감염되어야하는데지카바이러스는보통혈액에서 1주일가량존재한다, 소변이나키스 ( 침 ) 를통해감염된다 등이있다 ( 동아일보, 2016.3.22.). 계속되는루머확산으로인해 WHO, CDC에서는지카바이러스예방대책권고안과함께루머확산방지를위한정보를공개하였다. 최근지카바이러스발생후소셜분석회사인줌프 (Zoomph) 의분석결과에따르면지카바이러스확산으로인해여행계획에차질이생길것을우려하는사람들의반응과함께 #WHO(World HealthOrganization), #Salud( 스페인어로 건강 을의미함 ) 등의해시태그를연계하여트윗을하는것으로나타났다 (The Straitimes, 2016.2.2.). 이뿐만아니라국내에서발생한 2014년 4월 세월호사고 는소셜네트워크서비스 (SNS) 이용의상반된모습을보여주는의미있는사례이다. 여객선침몰사고가발생한직후부터온라인희생자추모를비롯해트위터, 페이스북등의 SNS 네트워크를활용하여무사귀환을기원하는범국민적동참분위기를조성하였다. 반면다른한쪽에서는각종유언비어를끊임없이확대재생산하면서피해가족들을더욱아프게하는것은물론수색과구조작업에혼선을가져왔다 ( 이윤희, 2014). 2015년발생한국내메르스 (MERS) 사태에서도근거없는루머가확대재생산되면서예방대응에혼선을빚었다. 메르스발생시대부분의한국인은메르스에대한정보를 SNS를통해얻거나의존하는경향이있었으며 (Woohyun Yoo, Doo-Hun Choi, Keeho Park, 2016) 지나친걱정과염려로인해시장, 극장, 레스토랑등사람이많은공공장소에서인파가현저하게줄어드는현상까지나타났다 (Woohyun Yoo, Doo-Hun Choi, Keeho Park, 2016). 이처럼루머는다양한채널을통해근거없

제 4 장지카바이러스감염증소셜빅데이터분류를위한온톨로지개발 99 는소문이확산되어영향을끼치는것으로정의한다 ( 장덕진, 김기훈, 2011). 확산되는루머가자극적일수록이용자들이코멘트를통해서로정보교환을할뿐아니라국민들의불안감을야기하고, 정부정책에대한불신을초래하는등개인적 사회적으로큰손실을끼칠수있다 (Hong, Ju-Hyun, 2014). 초기 SNS의등장을단순히새로운비즈니스영역또는소통과정보공유도구로평가하던전문가들도정치 사회 경제 문화전사회의변화를이끄는 SNS의위력에관심을보이며다양한해석을시도하고있다. 이처럼트위터나페이스북등의 SNS는다양한의견교환및공유를할수있는곳인반면에루머가생성되거나확산되는주요플랫폼중의하나로자리매김하고있는실정이다 (Ling-Ling Xia, Guo-Ping Jiang, et al., 2015). 이에따라악의적인루머에대한신속하고적절한대응은매우중요하며 (Woohyun Yoo, Doo-Hun Choi, Keeho Park, 2016), 이들의사회문화적영향력에대한체계적인연구의필요성이대두되고있다 ( 이원태, 차미영, 양해륜, 2011). 이러한문제에도불구하고 SNS는전염병발생시적시에신뢰할수있는정보를제공하고피해확산을감소시키는데큰역할을할수가있다 (WHO, 2016.8.). SNS는공중보건문제및질병위험에대한정확한정보및정책을홍보하는커뮤니케이션도구로활용할수있다 (WHO 2016.8.; Isaac Chun-Hai Fung, Zion Tsz Ho Tse, King-Wa Fu, 2015). 소셜빅데이터수집을통해데이터마이닝, 시각화, 통계분석, 기계학습등의분석으로정확한정보를예측할수있으며 (Ibrar Yaqoob, Victor Chan, et al., 2016), 질병동향에대한감지, 각종통신별인식과반응등의비상상황을모니터링하고측정할수있다 (Isaac Chun-Hai Fung, Zion Tsz Ho Tse, King-Wa Fu, 2015).

100 2016 년소셜빅데이터기반보건복지이슈동향분석 1. 감염병질환확산모델 전염병은인구집단내에서일정한전파속도로퍼져나가며전염병에영향을끼치는요소들을수학적인모델로만들수있다. 전염병의수학적인모델로는특성에따라 SIS, SIR, SEIR 등이있으며, 이모형들은질병의진행과정에따라구분된다. SIS(susceptible infected susceptible) 모형은평형상태를이루는전염확산과정을설명하는데적합한모형이다. SIS 모형에서는전염가능자가감염이되었을때치유단계가되는것이아니라또다시감염된사람과접촉하거나환경에노출될때감염이가능한상태가되어전염확산에기여하는것이다 (Juacong Chen, Huiling Zhang, et al., 2012). 감염성바이러스질환을설명하는모형으로전염병확산정도를예측하는 SIR(Susceptible-infected-recovered) 모형은 3개의클래스로분류될수있다. 전염가능자 (Susceptible), 감염자 (infected), 치유자 (removed) 사이에서전염병이어떻게확산되는지보여주는모델이다 (Sebastian Funk, Marcel Salathe, et al., 2010). SIS 모형과 SIR 모형의다른점은감염후면역력을갖게되는회복 ( 치유 ) 상태가되는것이다. 그림 4-1 SIR 모형 자료 : Sebastian Funk, Marcel Salathe, Vincent A. A. Janesen. (2010). Modeling the influence of human behaviour on the spread of infectious disease: a review. Journal of the Royal Society interface, 7, pp.1247-1256.

제 4 장지카바이러스감염증소셜빅데이터분류를위한온톨로지개발 101 모든전염가능자 (S), 감염자 (I) 구성원사이에서 만큼의비율 (rate) 로감염이발생하며감염자 (I) 구성원은 만큼의비율로회복 (R) 상태로변하는것을뜻한다. 미분방정식으로각각을설명할수있으며 (Mathematical association of America) 사람간접촉의균질성, 전염병치료에아무런조취를취하지않은가정이포함된다. SEIR(susceptible-expected-infectious-recovered) 모형은인구집단을통해전파되는질병의전달과정각단계에서개입되는질병매개체의동적인상태를묘사한모형이다 ( 신호성, 김동진, 2008). 전염가능단계에서사람들이질병에노출된후일정한시간경과후감염력을갖게되어전파시키고회복되는모형을말한다. 질병회복단계에서는면역력이생기거나사망에이를경우도본모형에포함되어있다 ( 김성순, 이상원, 최보율, 2008). 그림 4-2 SEIR 모형 자료 : 김성순, 이상원, 최보율. (2008). 신종인플루엔자유행관리를위한수학적모형과전략에대한고찰. 한국역학회지, 30(2), pp.156-167.

102 2016 년소셜빅데이터기반보건복지이슈동향분석 2. 지카바이러스감염경로및확산현황 지카바이러스는 1947년우간다지카 (Zika) 숲의붉은털원숭이에서발견된바이러스이며, 1952년우간다와탄자니아에서인간에게최초로감염된것으로보고되었다 (Rodolphe Hamel, Florian Liꠑegeois, et al., 2016; Centers for Disease Control and Prevention 2016). 지카바이러스는아프리카, 동남아, 태평양섬지역에서 2015년이전에발생하였으며, 2015년 5월이후브라질에서첫보고가된후확산되어중남미지역에서지속적으로환자가발생하고있다 ( 질병관리본부, 2016). 지카바이러스는 Aedes 모기에의해감염이되어발생하고, 지카바이러스의질환을가진사람들은대개발열, 피부발진, 결막염, 근육과관절통증, 권태감및두통을동반하는증상을가지고있으며 (Camila Zanluca, Claudia Nunes Duarte dos Santos, 2016), 이러한현상은 2일에서 7 일간지속된다. 지카바이러스에감염되면발열, 두통, 근관절통을동반하는증상이있을뿐만아니라뎅기열, 발진등의증상도함께발생한다 (WHO, 2016.2.; 질병관리본부, 2016). 또한지카바이러스감염증가로인해소두증신생아출산증가와길랭바레증후군증가경향이보고되고있으나원인에대해서는현재조사가진행중이다. 모기에의한바이러스이동경로는 1 흡입한혈액을바이러스에감염시켜 2 감염된혈액이중장 (midgut) 으로이동한다음 3 순환시스템에의해바이러스가순환하여 4 침샘으로이동하고, 마지막으로 5 침샘을통해감염시키는구조로되어있다 ([ 그림 4-3] 참조 ). 그러나이는사람간의일상적인접촉으로는감염되지않는다. 다만감염된사람의혈액을수혈받거나감염된사람과성적접촉을할때감염될가능성이미미하게있다고보고되고있다 ([ 그림 4-4] 참조 ).

제 4 장지카바이러스감염증소셜빅데이터분류를위한온톨로지개발 103 질병관리본부에서는가임여성의경우최소 2개월동안임신을연기하고, 남성의경우배우자등이임신중인경우임신기간동안금욕또는콘돔사용, 임신중이아닐경우최소 2개월동안금욕또는콘돔사용, 확진환자의경우회복후최소 6개월동안금욕또는콘돔사용을할것을발표했다 ( 질병관리본부, 2016.2.2.). 그림 4-3 모기에의한바이러스이동경로 자료 : New York Times, Short answers to Hard Questions About Zika Virus. Updated March 18, 2016, http://www.nytimes.com/interactive/2016/01/16/health/10000004149566.mobil e.html 에서 2016. 1. 16. 인출.

104 2016 년소셜빅데이터기반보건복지이슈동향분석 그림 4-4 지카바이러스감염경로 자료 : Centers for Disease Control and Prevention. How Zika Spreads. http://www.cdc.gov/zika/transmission/ 에서 2016. 5. 9. 인출. 이외에도국민행동수칙을발표하여예방대책을내놓았지만, 국내지카바이러스감염확진자가발생함에따라의심신고건수도증가하고있는것으로나타났다 ( 연합뉴스, 2016.5.5.). 현재까지국내지카바이러스감염확진자는 5명으로신고되었다. 첫번째확진자부터네번째확진자까지모두모기에의해감염된것으로확인되었으며, 다섯번째확진자도모기에물린것으로추정하고있다 (< 표 4-1> 참조 ). < 표 4-1> 국내지카바이러스확진자현황 순번 성별 연령 감염국 감염매개 체류기간 1 남자 43 브라질 모기 2.17.~3.9. 2 남자 20 필리핀 모기 4.10.~4.14. 3 남자 * 21 필리핀 모기 4.10.~4.14. 4 여자 25 베트남 모기 4.10.~5.1. 5 남자 39 필리핀 모기 4.27.~5.4. 주 : *2의친형. 자료 : 질병관리본부보도자료.

제 4 장지카바이러스감염증소셜빅데이터분류를위한온톨로지개발 105 우리나라의경우지카바이러스가동남아를통해유입되고있음이확인돼각별한주의가필요할뿐아니라지카바이러스초기발병시질병관리본부에서는국내의계절이겨울철이기때문에모기를통한바이러스유입가능성이낮을것으로전망했다. 바이러스매개체가될수있는 흰줄숲모기 가국내에서 6월부터증가하기시작해 8~9월에정점을이루는것으로알려져지카바이러스에대한정부차원의대응책마련이필요하다. 2016년 5월 12일현재지카바이러스는 58개국에서감염이보고되었다. 58개국중 45개국이모기에의한감염국으로최초보고되었으며, 13개국은 2007년부터 2014년사이지속적으로지카바이러스감염을보고하였다. 이중 Cook Islands, French Polynesia, ISLA DE PASCUA Chile and YAP, Federated States of Micronesia은지카바이러스유행종식을보고하였다 [ 표 4-2 참조 (Rodolphe Hamel, Florian Liꠑ egeois, et al., 2016; WHO, 2016.05.12.)]. < 표 4-2> 발생구분별지카바이러스감염국가 구분 WHO 지역 발생국 ( 지역 ) 아프리카 (AFRO) Cabo Verde 1 Aruba, Barbados, Belize, Brazil, Bolivia (Plurinational State of), BONAIRE Netherlands, Colombia, Costa Rica, Cuba, Curacao, Dominica, Dominican Republic, Ecuador, El Salvador, French Guiana, Grenada, 최초발생미주 Guadeloupe, Guatemala, -모기에의한감염 38 (AMRO/PAHO) Guyana, Haiti, Honduras, Jamaica, Martinique, Mexico, Nicaragua, Panama, Paraguay, Peru*, Puerto Rico, Saint Barthelemy, Saint Lucia, Saint Martin, Saint Vincent and the Grenadines, Sint Maarten, Suriname, Trinidad & Tobago,

106 2016 년소셜빅데이터기반보건복지이슈동향분석 구분 WHO 지역 발생국 ( 지역 ) United States Virgin Islands, Venezuela (Bolivarian Republic of) 동남아 (SEARO) Maldives 1 American Samoa, Fiji, Marshall 서태평양 (WPRO) 5 Islands, Samoa, Tonga 계 44 과거발생현재전파중이거나종식된곳 아프리카 (AFRO) Gabon 1 동남아 (SEARO) Bangladesh, Indonesia, Thailand 3 Cambodia, Cook Islands, 서태평양 (WPRO) French Polynesia, Lao People s Democratic Republic, Malaysia, Micronesia (Federated States of), New Caledonia, Papua 12 New Guinea, Philippines, Solomon Islands, Vanuatu, Viet Nam 미주 (PAHO) SLA DE PASCUA - Chile 1 자료 : World Health Organization, SITUATION REPORT, ZIKA VIRUS MICROCEPHALY GUILLAIN-BARRÉ SYNDROME(2016), pp.3. 이들국가중성관계를통한지카바이러스감염국가는 < 표 4-3> 과같 이보고되었다. < 표 4-3> 성관계를통한지카바이러스감염국가 구분 WHO 지역발생국 ( 지역 ) 미주 (AMRO/PAHO) Argentina, Canada, Chile, Peru, United States of America 성관계통한전파 유럽 (EURO) France, Italy, Portugal 3 서태평양 (WPRO) New Zealand 1 계 9 자료 : World Health Organization, SITUATION REPORT, ZIKA VIRUS MICROCEPHALY GUILLAIN-BARRÉ SYNDROME(2016), pp.3. 5

제 4 장지카바이러스감염증소셜빅데이터분류를위한온톨로지개발 107 그림 4-5 WHO 지역구분별지카바이러스감염누적국가수 ( 기간 2007.~2016.4.27.) 자료 : World Health Organization, SITUATION REPORT, ZIKA VIRUS MICROCEPHALY GUILLAIN-BARRÉ SYNDROME(2016), pp.2.

108 2016 년소셜빅데이터기반보건복지이슈동향분석 그림 4-6 지카바이러스확산현황 자료 : New York Times, Short answers to Hard Questions About Zika Virus. Updated March 18, 2016, http://www.nytimes.com/interactive/2016/01/16/health/10000004149566.mobile.html 에서 2016. 1. 16. 인출.

제 4 장지카바이러스감염증소셜빅데이터분류를위한온톨로지개발 109 제 2 절지카바이러스소셜빅데이터온라인문서현황 1. 분석방법 가. 연구대상 본연구는국내의온라인뉴스사이트, 블로그, 카페, 소셜네트워크서비스 (SNS), 게시판등인터넷을통해수집된소셜빅데이터를대상으로하였다. 본분석에서는 99개의온라인뉴스사이트, 3개의블로그 ( 네이버 다음 티스토리 ), 2개의카페 ( 네이버 다음 ), 1개의 SNS( 트위터 ), 10개의게시판 ( 네이버지식인 네이트지식 네이트톡 네이트판등 ) 의총 115개온라인채널을통해수집가능한텍스트기반의웹문서 ( 버즈 ) 를소셜빅데이터로정의하였다. 지카바이러스관련토픽은 2016. 1. 1. 2016. 4. 15. 해당채널에서요일별, 주말, 휴일을고려하지않고매시간단위로수집하였으며, 수집된총 6만 5673건의텍스트 (Text) 문서를본연구의분석에포함시켰다. 본연구를위한소셜빅데이터의수집 21) 은크롤러 (Crawler) 를사용하였고, 토픽의분류는주제분석 (text mining) 기법을사용하였다. 지카바이러스토픽은모든관련문서를수집하기위해 지카바이러스, Zikavirus 그리고 지카바이러스감염 등을사용하였다. 21) 본연구를위한소셜빅데이터의수집및토픽분류는 ( 주 )SK 텔레콤스마트인사이트 에서수행함.

110 2016 년소셜빅데이터기반보건복지이슈동향분석 나. 연구도구 지카바이러스와관련하여수집된버즈는주제분석 (text mining) 과요 인분석 (factor analysis) 의과정을거쳐 < 표 4-4> 와같이정형화데이터 로코드화하여사용하였다. < 표 4-4> 지카바이러스소셜빅데이터수집을위한분류 대분류중분류키워드 개인수준의인구학적특성 대상 ( 일반시민 ) (305) 남편, 농부, 노약자, 가족들, 고딩, 가족, 개인, 국민, 고삐리, 국민들, 노인, 대딩, 둘째, 본인, 부모, 부인, 비지니스맨, 사람, 사람들, 성인, 소상공인, 시민, 시민들, 신랑, 아기, 아내, 아들, 아빠, 아이, 아이들, 애들, 어린이, 어린이들, 어머니, 언니, 엄마, 오빠, 와이프, 외국인, 인간, 일반인, 임산부, 자영업자, 주민들, 주부, 중딩, 중삐리, 직장인, 질환자, 첫째, 친구, 친구들, 커플, 패미리, 패밀리, 학생, 학생들, 환자, 환자들, 훼미리, 할머니, 할아버지, 아버지, 기러기아빠, 기러기엄마, 부부, 계부, 계모, 장모, 동생, 애인, 연인, 대학생, 회사원, 가해자, 피해자, 성추행범, 성폭행범, 도둑, 어른, 노인들, 집단, 공무원, 간호조무사, 간호사, 의사, 수급자, 근로자, 엘리트, 단역배우, 서민, 비정규직, 여성환자, 남성환자, 여대생, 직딩, 편부, 편모, 계부모, 조부모, 조부, 조모, 형, 누나, 남동생, 여동생, 부모간, 부모자녀, 형제, 청년, 부, 모, 학교교사, 상담교사, 교내학생, 초등학생, 중고등학생, 교사, 일반대중, 일반청소년, 사회전체, 자살시도청소년, 생존가족, 생존친구, 나, 선배, 후배, 선생, 한국인, 새터민, 미국교포, 미국동포, 중국동포, 중국교포, 친부, 친모, 형제자매, 외조부모, 삼촌, 외삼촌, 고모, 고모부, 이모, 이모부, 자매, 일반의, 정신과전문의, 심리전문상담사, 정신보건전문가, 보건교사, 가족치료사, 음악치료사, 미술치료사, 아로마치료사, 운동치료사, 남매, 감염자, 격리대상자, 자가격리자, 격리자, 파병, 장병, 파병자, 확진자, 접촉자, 밀접접촉, 관광객, 의료진들, 의료진, 교수, 교수님, 전문가, 발병자, 만성질환자, 신고자, 사망자, 의심환자, 사병, 의심병사, 중국인, 미국인, 중동인, 아랍인, 의심자, 유포자, 감염유포자, 직원, 보균자, 초중학생, 우리애, 병사, 확진환자, 미군병사, 감염환자, 경찰, 승객,

제 4 장지카바이러스감염증소셜빅데이터분류를위한온톨로지개발 111 대분류 중분류 키워드관계자, 종사자, 학자들, 학자, 슈퍼전파 SFTS환자, 중증열성혈소판감소증후군환자, 무슬림, 첫감염자, 목사님, 목사, 당첨자, 탑승객, 얼리어답터, 아르바이트생, 쌍둥이, 여직원, 업주, 민간전문가, 해외건설근로자, 건설근로자, 쪽바리, 박사, 연예인, 감염전문가들, 직장인들, 입국객, 낚시꾼, 급식요원, 여행객들, 여행객, 우리국민, 증상자, 출국, 간병자, 여자환자, 남자환자, 관료들, 관료, 직장동료, 이탈자, 무단이탈, 슈퍼보균자, 사무차장, 대변인, 중증환자, 능동감시대상자, 능동감시자, 상인들, 상인, 예약자, 최초감염자, 최초확진자, 퇴원자, 소비자, 판매자, 투자자, 신생아, 임신부, 태아, 유전자, L씨, 산모, 여성들, 임산부들, 책임자, 배우자, 입국자, 임신부들, 가임여성, 주민, 대국민, 대상자별, 아기들, 여행, 방문객, 태국인, 성인환자, 소비자들, 선수들, 내국인, 첫환자, 영국인, 맏며느리, 직원들, 조선족, 유아, 빈곤층, 관광객들, 젊은이들, 운전기사들, 영유아, 안전요원, 여행자들, 외국인들, 양성환자, 여자친구, 방문객들, 군인, 일반인들, 지카바이러스환자, 신생아들, 승객들, 부모님, 여중생, 남성분, 고등학생, 간염환자, 만성간염환자, 발병환자 개인의주관적인지및감정 성별 / 나이 (31) 감정 ( 긍정 ) (194) gender, 남자, 여자, 남성, 여성, 남녀, 10 대, 20 대, 30 대, 40 대, 50 대, 60 대, 70 대, 80 대, 60 대남성, 70 대환자, 10 대여성, 20 대여성, 30 대여성, 40 대여성, 50 대여성, 60 대여성, 70 대여성, 80 대여성, 10 대남성, 20 대남성, 30 대남성, 40 대남성, 50 대남성, 70 대남성, 80 대남성 다행, 해결, 행복, 든든, 완벽, 안정, 안전, 깨끗, 기대, 감동, 격려, 극복, 긍정, 기대감, 기쁨, 도움, 미소, 믿음, 따뜻, 선호, 성공, 소망, 소중, 희망, 힐링, 훈훈, 흥미, 활력, 활발, 배려, 보답, 활약, 사랑, 선처, 스마트, 승리, 화이팅, 환영, 최고, 최선, 치유, 친절, 재미, 웃음, 즐거움, 찬양, 양보, 상승세, 여유, 열정, 염원, 자랑, 자신감, 자유, 우수, 응원, 이해, 인기, 지지, 진심, 진정, 추천, 축하, 존경, 존중, 편리, 편안, 평화, 평화적, 풍요, 가능성, 간단, 간편, 강조, 강추, 개선, 결심, 고급, 공감, 과감, 귀여움, 긍정적, 깔끔, 깜찍, 날씬, 노력, 농담, 느긋, 느낌, 늠름, 다양, 다짐, 단순, 달콤, 당당, 대단, 대박, 도전, 독특, 동심, 득템, 릴렉싱, 만끽, 만족, 매력, 매력적, 몰입, 무난, 반복, 변화, 보호, 비교, 뿌듯, 산뜻, 상쾌, 선택, 세련, 센스, 소소, 소중함, 소통, 순수, 시원, 신기, 신뢰, 신비, 신선, 신중, 실속,

112 2016 년소셜빅데이터기반보건복지이슈동향분석 대분류 중분류 키워드쏠쏠, 아름다움, 안심, 알뜰, 애국심, 애도, 약속, 양호, 역대급, 열광, 완화, 용서, 위대, 위로, 위안, 유명, 유용, 유의, 의지, 익숙, 인내, 인정, 자제, 장난, 적극, 적극적, 적절, 정직, 즐기기, 지름신, 집중, 짱짱, 최애, 추억, 충분, 충성, 쾌적, 탁월, 포근, 푸짐, 풍부, 풍성, 합리, 호기심, 화려, 화제, 환상, 회복, 효과, 훌륭, 휴식, 모범, 정확, 신속, 상승, 추진, 협력, 권장, 각별, 협조, 도입, 구조, 안전성, 금상첨화, 긍정적 감정 ( 부정 ) (268) 답답, 거짓말, 비상, 판단, 불안, 스트레스, 냉소, 공포, 혼란, 엄벌, 공포증, 위험, 우려, 문제, 긴급, 부담, 악화, 난리, 비판, 무책임, 갈등, 감소, 갑갑, 강제, 거부, 거짓, 검토, 경고, 경박, 경악, 고민, 고생, 고통, 곤혹, 골치, 과도, 과시, 귀차니즘, 규제, 규탄, 극심, 급락, 기만, 긴장, 까기, 꼼수, 끔찍, 나쁨, 난형난제, 논란, 눈물, 눈치, 다툼, 단점, 담합, 두려움, 두렵다, 둔화, 뚱딴지, 리스크, 마음고생, 막장, 모욕, 무관심, 무능, 무리, 무시, 미안, 민감, 바보, 반대, 반발, 반성, 방탕, 방해, 배신감, 변명, 복수, 복잡, 부적절, 부정, 부정적, 부족, 부진, 분노, 분열, 불가능, 불과, 불구, 불리, 불만, 불법, 불순, 불신, 불쌍, 불안감, 불청객, 불쾌감, 불편, 불편함, 불행, 불확실, 비난, 비방, 비아냥, 비통, 비하, 비하한, 빡친다, 사기, 상실, 선정적, 섭섭, 성질, 소름, 손실, 수상, 수치심, 슬픔, 시비, 신경질, 실망, 실수, 실패, 심각성, 쓰레기, 아쉬움, 아쉬워, 아쉽다, 아유, 악마, 악영향, 안타까움, 안타깝다, 압박, 야유, 약세, 어려움, 어물, 어물쩡, 억울, 엄격, 엄두, 엄중, 염려, 예민, 오해, 왜곡, 외면, 욕설, 우울, 우울증, 울적, 울화, 위기, 위반, 위험성, 위협, 유죄, 유치, 은밀, 은폐, 의심, 의혹, 자극, 자극적, 잔인, 잔혹, 잘못, 재앙, 저렴, 저주, 적나라, 조롱, 죄송, 죽음, 지랄, 지루, 지적, 지친, 집착, 짜증, 짜증나, 쪽박, 착각, 창피, 천박, 철회, 최악, 충격, 치명, 치열, 침해, 칼칼, 탄핵, 탐욕, 통감, 통제, 속수무책, 퇴진, 퇴치, 퇴폐, 파괴, 파렴치, 폐지, 포기, 피곤, 피로, 피해, 하락, 하한가, 한숨, 한심, 항의, 해명, 해지, 허약, 현혹, 혐오, 혐오감, 협박, 호소, 화, 환장, 황당, 후폭풍, 후회, 흐림, 흥분, 힘들다, 고발, 단절, 무제한, 사회악, 상처, 수상한, 야한, 욕구, 위협한, 유혹, 자극적인, 중독성, 천박한, 충격적인, 퇴폐적, 파렴치한, 취소, 혼탁, 난동, 후덜덜, 비상사태, 제거, 무단, 감시, 설치, 불가피, 제한, 공격, 사상최악, 침투, 공포감, 자살, 개고생, 단속, 경각심, 고리타분, 큰일, 낙폭

제 4 장지카바이러스감염증소셜빅데이터분류를위한온톨로지개발 113 대분류중분류키워드 감염관련정보 바이러스 ( 질병 ) (91) 감염경로 (98) 증상 (151) 사스, 중증급성호흡기증후군, 신종플루, 바이러스, severeacuterespiratorysyndrome, 조류독감, 구제역, SARScoronavirus, avianinfluenza, 조류인플루엔자, H1N1, 신종인플루엔자, 에볼라, 에볼라바이러스, ebolahemorrhagicfever, 에볼라출혈열, ebola, 라사열, Lassafever, 베타코로나바이러스, 질병, 생탄저균, 신종바이러스, 변이형, 중증열성혈소판감소증후군, 병균, 베타코로나, 항바이러스, 항체, 급성신부전증, 급성신부전, 죽상경화증, 사구체염, 급성호흡곤란증후군, 다기관부전증, 복막염, 췌장염, 패혈증, 부정맥, 심부전, 간질, 발작, 혼수, 인수공동전염병, 신종감염병, 감염병, 전염병, 법정전염병, 기저질환, 고열증, 질병정보, 중증급성호흡기질환, 증후군, 독감, 지카바이러스, 바이스, 지카, ZIKA, VIRUS, 법정감염병, VIRUSZIKA, 뎅기, 황열, 뎅기열, 치쿤구니아, 황열병, 플라비바이러스, 길랑바레증후군, 길바레, 유행병, 에이즈, 지카비아러스, 소두증바이러스, 톡소플라스증, 결핵, 인플루엔자, 자카바이러스, 가카바이러스, 바이러스감염, 바이러스들, 바아러스, 바레증후군, 뎅기열바이러스, 동물인플루엔자, H7N9, H5N6, 호흡기질환, 계두이러스, Guillainbarresyndorme, 에이즈바이러스, 길랭바레증후군, 밀접접촉, 농작물재배, 접촉, 가금류, 미확정, 1 감염, 2 차감염, 3 차감염, 박쥐, 염소, 감염로, 공기감염, 호흡기감염, 공기, 대상, 공기전염, 재채기, 원인, 감원인, 밀접, 동물, 작은소참진드기, 진드기, 공기호흡, 농장방문, 농장, 비말감염, 동물들, 감염원, 야생진드기, 인체감염, 지역사회, 사회감염, 4 차감염, 지역사회감염, 가족감염, 전파경, 공기전파, 경구전파, 모기, 여행, 해외여행, 흰줄숲모기, 성관계, 숲모기, 이트숲모기, 매개체, 귀국, 출장, AEDES, 성접촉, 유충, 원숭이, 입국, AEGYPTI, 전쟁, 정액, 매개모기, 키스, 서식지, 모기들, 작은빨간집모기, 토종모기, AEDES 종, CULEX, 열대모기, 감염성질환, 타액, 성적접촉, 뇌상, 성관계한, 성행위, 질병매개, 월동모기, 해충, 전염경로, GM 모기, 모기충, 성관계만, 질병매개모기, 뇌염모기, 모기문제, 암모기, 일본뇌염모기, 모기활동, 지카숲, AedesAegypti, 기생충, 해외여행력, 헌혈, AedesAlbopictus, 수혈, 감염자접촉, 모기전파, 성관계, 체액감염, 아데스기, 임신 감기, 기침, 폐감염, 발열, 고열, 치사율, 취사율, 전염성, 전염, 잠복기, 잠기간, 면역력저하, 호흡기증상, 위

114 2016 년소셜빅데이터기반보건복지이슈동향분석 대분류 중분류 키워드장장애, 합볍증, 경련, 혼수상태, 혈액, 식부진, 구토, 설사, 오심, 혈전증, 외상, 콩팥내종양, 콩팥종양, 전립선비대, 결석, 종양, 탈수, 과다출혈, 화상, 심낭액저류, 감각이상, 수지진전, 섬망, 숨가뿜, 호흡기이상, 호흡이상, 무력감, 두통, 근육통, 인후통, 복통, 폐렴, 가래, 오한, 숨가쁨, 탄저균, 감염, 발생, 확산, 증세, 호흡곤란, 양성, 음성, 호흡기, 38도, 전염력, 사망, 증상, 감염율, 급성, 만성, 질환, 의심증상, 목숨, 전파력, 생명, 혈소판감소, 염증반응, 출반응, 병감, 미열증세, 미열, 중증질환, 신부전증세, 폐렴증세, 출혈, 신장기, 발병, 목감기, 최대잠복기, 흉통, 호흡곤란증세, 감염력, 의심증세, 치사40, 메스꺼움, 분비물, 소화기증상, 소화기관, 불면, 14일, 2주, 소두증, 감증, 발진, 관절통, 결막염, 충혈, 기형, 합병증, 마비, 건강상태, 장애, 정신체, 일본뇌염, 길랭, 전신마비, 신경마비, 뇌성마비, 발달장애, 소아마비, 기아, 반점구신성, 안구충혈, 당뇨, 뇌염, 피부발진, 염증, 몸살기운, 감염증, 신경장애, 정신질환, 중추신경마비, 심장마비, 피부노화, 태아소두증, 소뇌, 뇌졸중, 뇌수막염, 소두증신생아, 소아소두증, 태아기형, 피부염, 피부붉은진, 눈통증, 눈충혈, 결절증, 손목관절통, 정신장애, 소안구증, 관절구축, 말신경계이상, 과다반사증, 권태감, 운동신경마비, 감각신경마비, 전신마비, 소두증 대처 ( 치료 ) (207) 확진, 격리, 치료약, 백신, 대처법, 치료, 지원, 긴급복지지원제도, 생계비, 교육비, 전기세, 주거비, 연료비, 진단, 채혈, 항체검사, 자가격리, 격리대, 인공호흡기, 입원, 감염증세, 양성판정, 음성판정, 유전자검사, 치료제, 초증상, ZMapp, 지맵, TKM 에볼라, 파비피라비르, 브린시도피어, 1 차치료, 2 차치료, 추가, 판정, 확인, 조치, 대응, 대처, 검사, 대책, 폐쇄, 발표, 초, 진료, 관리, 초기발견, 발견, 초기대응, 해결방법, 자택격리, 집중치료, 감염부, 신고, 종합대응방안, 수사, 초강경대책, 지연신고, 차단, 방역체계, 역학사, 총력, 방지, 철저, 실험, 개발, 강화, 의료계열, 검사결과, 격리조치, 방, 혈액검사, 산소공급, 병원진찰, 전파가능성, 약물, 산소포화도, 긴급비상회, 국가지정입원치료, 대응책, 후속조치, 종합대책, 긴급현안, 가택격리, 대응상황, 대처상황, 양성반응, 음성반응, 유사증상, 신원검증, 특별검역, 정상범, 엑스레이, 발열감지, 검역절차, 검역체계, 격리종료, 감염가능성, 대응단계, 의심사례, 수술, 적외선, 발열검사, 위기대응, 격리검사, 환자접촉일, 위급상황, 치료백신, 발열감시, 혈액투석, 마련, 긴급생계지

제 4 장지카바이러스감염증소셜빅데이터분류를위한온톨로지개발 115 대분류 중분류 키워드원, 음압, 구호품, 자가진단표, 휴교, 피해저금리신용대출, 금융지원, 폴리펩티드인HR2P, 경영안전지원자금, 대출, 긴급운영자금, 징수유예, 납기연기, 자금지원, 국방역망, 확산방지, 살균, 방역, 퇴원, 재난관리기금, 예비비, 에크모, 브린시포비르, 수혈, 당부, 연구, 분석, 회의, 치료법, 공중보건, 방제, 방안, 기록, 상담, 박멸, 마거릿, 검역, 예방접종, 진상규명, 완치, 연구소, 소변, 처방, 진통제, 해열제, 가임기, 초음파, 격리치료, 진단키트, 보호조치, 진단검사, 방역소독, 임상시험, 연구개발, 정밀검사, 예방백신, 피검사, 지카백신, 영양상태, 보건위생, 약품, 백신개발, 에볼라백신, 접종, 감염회, 면역체계, 뇌염백신, 신종플루백신, 진료가이드라인, 간염치료제, 간염치료백신, 정액검사, 치료방법, 지카바이러스검출, 치료제백신, 의료진상담, 황열예방접종, 콜레라예방접종, 말라리아예방약, 예방약, 기타예방접종, 항생, 면역항암제, 피임약, 사후피임약, 병원치료, 지카바이러스백신, 바이러스백신, 에볼라치료제, 독감백신, 소변검사, 간염치료백신, 만성간염균자치료제, 약물치료, 아세트아미노펜, 이부프로펜 예방 (182) 손씻기, 마스크, 예방, 예방법, 입막음, 비누, 티슈, 손수건, 손세정제, 손소젤, 손발, 소독, 청결, 면역력강화, 면역력, 유산균, 쇼핑, 나들이, 건강관리, 소풍, 위생, 개인위생, 감염예방수칙, 예방수칙, 음식, 감염예방, 양파, 알코, 알콜, 소독제, N95, 눈보호장비, 증상체크, 체온, 환기, 오렌지, 마늘, 고구마, KF80, 특등급, 1 등급, 공산품마스크, 보건용마스크, KF94, 방역마스크, 황사용마스크, 애니가드, 에탄올, 글리세린, 정제수, 방호복, 계랸, 달걀, 모히또, 슈퍼푸드, 흑마늘진액, 흑마늘, 상추, 깻잎, 미나리, 샐러드, 채소, 야채, 매실, 매실차, 아사이베리, 그라비올라, 안토시아닌, 피토케미, 파이토케미컬, 단백질, 비타민 E, 비타민 D, 칼슘, 휴지, 고등어, 브로콜리, 설포라판, 유황화합물, 비타민 C, 베타카로틴, 항산화물질, 오메가 3, 토마, 무즙, 에스터 C, 스피루리나, 핸드워시, 프로폴리스, 위생용품, 초유, 프로바오틱스, 항균, 클로렐라, 과즙, 건강즙, 건강기능식품, 건기식, 홍삼정, 호암타블컷, 뿌리삼, 홍이장군, 프로바이오틱, 듀오락, 쎌바이오틱스, 듀오락케, 듀오락얌얌, 통마늘진액, 도라지배즙, 천호식품, 알리신, 산시올, 콘돔, 살제, 모기장, 모기기피제, 기피제, 방충망, 행동수칙, 긴바지, 긴급회의, 지, 긴팔, 좋은정보, 소매, 수분섭취, 대책마련, 가이드라인, 공동대응, 방역조, 긴소매, 예방하기, 피임, 면역, 퇴치제, 차관회의, 대책회

116 2016 년소셜빅데이터기반보건복지이슈동향분석 대분류 중분류 키워드의, 모기방제, 경계, 금지령, 모기조심, 모기퇴치제, 예방책, 보도자료, 살충방제, 모기약, 대책, 대응조치, 모기퇴치, 신속대응, 회피요령, 방제증명서, 모기방역, 시민동수칙, 예방조치, 가습기살균제, 감염병예방법, 모기분포조사, 콘돔광고시, 키스금지령, 콘돔사용, 집중방역, 예방대책, 예방활동, 모기살충제, 긴옷, 밝은색옷, 모기퇴치제품, 냉방, 예방접종기관안내, 마스크착용, 황사마스크, 지카바이러스예방용품, 천연모기퇴치제, 담검사, 카바이러스예방, 메트린, 충분한휴식, 휴식, 살충제살포, 향수자체, 긴팔옷착용 사회적관련요소 병원 (247) 상급종합병원, 종합병원, 국민안심병원, 가톨릭서울성모병원, 경희대학교병, 경희대병원, 고려대학교구로병원, 고려대학교안암의과대학부속병원, 고대학교안암병원, 고대안암병원, 연세대강남세브란스병원, 강남세브란스병, 연세대세브란스병원, 이대목동병원, 중앙대학교병원, 중앙대병원, 한양대학병원, 한양대병원, 강북삼성병원, 서울대학교병원, 서울대병원, 서울아산병, 강동성심병원, 명지성모병원, 부민병원, 삼육서울병원, 순천향대학교서울병, 순천향대서울병원, 을지병원, 인제대학교상계백병원, 인제대상계백병, 인제상계백병원, 인제대학교서울백병원, 인제서울백병원, 중앙보훈병원, 가톨릭대학교여의도성모병원, 가톨릭대여의도성모병원, 가톨릭여의도성모병원, 베스티안병원, 보라매병원, 서울성심병원, 서울적십자병원, 성바오로병원, 한림대강남성심병원, 한림대학교강남성심병원, 영등포병원, 한강수병원, 강북힘찬병원, 더조은병원, 목동힘찬병원, 고신대학교복음병원, 고신대복음병원, 인제대학교부산백병원, 동아대학교병원, 부산대학교병원, 광혜병원, 삼육부산병원, 온종합병원, 인제대학교해운대백병원, 좋은삼선병원, 해동병원, 인당의료재단부민병원, 김원묵기념봉생병원, 대동병원, 부산성모병원, 영도병원, 왈레스기념침례병원, 부산힘찬병원, 장림한서병원, 인하대학교병원, 길의료재단길병원, IS한림병원, 검단탑병원, 부평세림병원, 인천광역시의료원, 나은병원, 온누리병원, 의료법인담우의료재단현대유비스병원, 현대유비스병원, 부평힘찬병원, 계명대동산병원, 계명대학교동산병원, 대구가톨릭대칠곡가톨릭병원, 대구의료원, 칠곡경북대학교병원, 칠곡경북병원, 칠곡경북대병원, 드림병원, 한영한마음아동병원, 울산대병원, 울산대학교병원, 전남대병원, 전남대학교병원, 조선대병원, 조선대학교병원, 서광병원, 충남대병원, 충남대학교병원, 대전선병원, 대전한국병원, 유성선병원, 고려대안산병원, 고대

제 4 장지카바이러스감염증소셜빅데이터분류를위한온톨로지개발 117 대분류 중분류 키워드안산병원, 고려대학교안산병원, 순천향대학교부천병원, 순천향대부천병원, 아주대병원, 아주대학교병원, 가톨릭성빈센트병원, 가톨릭의정부성모병원, 경기도의료원안성병원, 국민건강보험공단일산병원, 남양주한양병원, 뉴고려병원, 동국대학교일산병원, 동국대일산병원, 명지병원, 분당제생병원, 세종병원, 시화병원, 신천연합병원, 안양샘병원, 오산한국병원, 원광대의과대학산본병원, 원광대의산본병원, 원광대학교의과대학산본병원, 인제대학교일산백병원, 지샘병원, 차의과학대학교분당차병원, 분당차병원, 현대병원, 가톨릭부천성모병원, 강남병원, 다보스병원, 동의성단원병원, 센트럴병원, 우리의료재단김포우리병원, 김포우리병원, 의료법인동수원병원, 한양대구리병원, 한양대학교구리병원, 안성성모병원, 아가페의료재단시티병원, 이천파티마병원, 장산의료재단이춘택병원, 추병원, 연세대원주세브란스기독병원, 강릉동인병원, 속초보광병원, 충북대학교병원, 건국대학교충주병원, 제천서울병원, 한마음의료재단하나병원, 건명의료재단진천성모병원, 옥천성모병원, 의료법인인화재단한국병원, 청주의료원, 청주효성병원, 충주의료원, 괴산성모병원, 순천향대학교천안병원, 단국대학교의과대학부속병원, 백제병원, 천안충무병원, 당진종합병원, 원광대학교병원, 전북대학교병원, 동군산병원, 부안성모병원, 고창병원, 예수병원유지재단전주예수병원, 전주열린병원, 목포기독병원, 목포중앙병원, 성가롤로병원, 세안종합병원, 순천한국병원, 순천중앙병원, 해남병원, 전남중앙병원, 차의과학대학교구미차병원, 김천제일병원, 동국대학교의과대학경주병원, 안동병원, 포항세명기독병원, 창원파티마병원, 대우의료재단대우병원, 진주고려병원, 창원한마음병원, 제주한마음병원, 의료법인숭연의료재단삼천포서울병원, 창원힘찬병원, 제주대학교병원, 제주한라병원, 서귀포의료원, 중앙의료재단에스중앙병원, 중앙의료재단이중앙병원, 365서울열린의원, 삼성서울병원, 평택성모병원, 아산서울의원, 대청병원, 하나로의원, 윤창옥내과의원, 성 모가정의학과의원, 평택굿모닝병원, 평택푸른의원, 365연합의원, 박애병원, 연세허브가정의학과, 한림대 동탄성심병원, 메디홀스의원, 가톨릭대부천성모병원, 선영내과의원, 단국대의대부속병원, 대천삼육오연합의 원, 폐쇄병원, 병원폐쇄, 병원, 메디힐병원, 서울시립보 라매병원, 건양대학교병원, 건양대병원, 창원sk병원, 집중관리병원, 진영의원, 현대의원, 원주세브란스기독 병원, 힘찬병원, 가족보건의원, 이운우내과, 서울내과,

118 2016 년소셜빅데이터기반보건복지이슈동향분석 대분류 중분류 키워드이피부과의원, 어린이병원, 서북병원, 은평병원, 서울의료원, 동부병원, 북부병원, 서남병원, 국립중앙의료원, 강남성심병원, 국립의료원, 건국대학교병원, 건대원, 산부인과, 안암병원 산업 / 경제 (260) 남대문시장, 시장, 코엑스, 박람회, 행사, 명동, 관광지, 백화점, 마트, 슈퍼마켓, 재래시장, 모란시장, 대중교통, 운송수입금, 관광산업, 서비스업, 숙박업, 요식업, 음식업, 소비심리, 매출감소, 매출상승, 전통시장, 경제손실, 항공사, 항공수요, 증가, 대한항공, 아시아나, 홈쇼핑, 대형마트, 온라인주문, 온라인몰, 택배, 배달, 배송, 면세점, 요우커, 급감, 화장품, 의류, 생활용품, 지역경제, 웰크론, 케이엠, 고객수, 경영난, 면담거부, 계약취소, 계약연기, 내부행사취소, 시가총액, 매도, 코스피, 코스닥, 주식, 주가, 외식업계, 외식, 개점휴업, 휴업, 성수기, 서양식, 양식, 일식, 중식, 기피심리, 취소율, 감소율, 서민경제, 경기보완책, 불황, 경제적손실, 통신요금면제, 데이터무제한, 이통사, 이동통신사, 요금감면, 가든 5, 카드사용액, 야외활동, 배송주문, 수요, 공급, 의약품, 애슐리, 자연별곡, 할매순대국, 이랜드, 계절밥상, 빕스, CJ 푸드빌, 롯데리아, 신세계푸드. 인터넷쇼핑, 인터넷상거래, 여행업계, 소비유형, 리조트, 단체관광, 놀이공원, 유원지, 식품류, 건강식품, 구강청결제, 이마트, 롯데마트, 지마켓, 옥션, 홈플러스, 현대홈쇼핑, 롯데백화점, 신세계백화점, 통합온라인몰, SSG 닷컴, 할인, 상품기획전, 공기청청기, 가든파이브, 판촉전, 주문, 판매, 신선식품, 가공식품, 오픈마켓, G 마켓, 11 번가, 쿠팡, 소셜커머스, 티몬, 위메프, 간편가정식, 생수, 주방용품, 화장지, 세제, 생필품, 커피, 음료, 공산품, 반찬류, 즉석밥, 카레, 홍삼, 인삼, 미네랄, 즉석식품, 아울렛, 여행사, 밀리오레, 두타, 동대문시장, 동대문상가, 이케아, 세일, 생활필수품, 국외여행, 테마주, 불공정거래, 내수회복세, 부산시티투어, 추가경정예산, 추경, 경제통인, 국가부채, GDP, 국내총생산, 관광수입, 크루즈, 로얄캐리비안크루즈, 퀀텀오브더시즈호, 코스타빅토리아호, 중화태산호, 보하이크루즈, 코스타크루즈, 세레나호, 보이저오브더시즈호, 마리너오브더시즈호, 내수경기, 호텔, 유통, 항공, 유커, 건설, 건설업계, 숙박, 아모레퍼시픽, LG 생활건강, 영화관, 영화, 건설공사, 현대건설, 현대백화점, 할인매장, 방역업계, 매출시장, 극장가, 극장, 경제, 온라, 상한가, 태교여행, 총선, PCR, 신혼여행, 인수, 바이오니아, 국제사회, 국제보건규정, 삼성전자, 국제유가, 유유제약, 국

제 4 장지카바이러스감염증소셜빅데이터분류를위한온톨로지개발 119 대분류 중분류 키워드민행동수칙, 알파고, 우진비앤지, 더불어민주당, 정당, 중남미여행, 매출액, 순이익, 국세청, 대기업, 현대상선, 뉴욕주식시장, 무소속, 현대증권, 흑자전환, 최대주주, 이태원, 국내여행, 민주노총, 제주항공, 야권단일화, 금융시장, 부동산중개, 공인중개사법, 중개사무소, 중개행위, 공천문제, 두산그룹, 서울도시철도공사, 대한상공회의소, 콘돔회사, 삼성엔지니어링, 대우증권, 시드니국제공항, 대한민국정부, 바른생각콘돔, 삼성SDS, 국영제약회사, 바이오기술회사, 국영기업, 경기침체, 경제제재, 한국투자증권, 비영리단체, 올림픽, 하계올림픽, 경제위기, 제주국제공항 기관 ( 장소 / 직책 ) (321) 보건복지부, 질병관리본부, 국가방역체계, 국민안전처, 세계보건기구, WHO, 종합병원응급실, 전국보건의료산업노동조합, 보건복지위원회, 새정치민주연합, 새누리당, 정부, 합동대책반, 보건당국, 국립보건원, 보안국장, 레지나입, 입법회, 홍콩주재한국총영사관, 홍콩총영사관, 아시아나항공, 위생방역센터, 홍콩공항, 인천국제공항, 인천공항, 홍콩국제공항, 방역상황반, 정부서울청사, 김포국제공항, 김포공항, UAE 수의진단센터, 바이오노트, 바오기업, 한국생명공학연구원, 미국국립보건원, NIH, 미국질병통제예방센, CDC, 국경없는의사회, 두바이국제공항, 공항, 국방부, 감염내과, 긴급당정회의, 중국보건당국, 미국보건당국, 홍콩보건당국, 중동보건당국, 우리나라보건당국, 한국보건당국, 회사, 대책본부, 박근혜정부, 병실, 복지부, 아산병원, 수용시설, 박근혜정, 병동, ICU, 중환자실, 만원지하철, 응급실, 학원, 지하철, 질병통지센터, 지정격리병원, 격리병원, 대학교, 고등학교, 청와대, 주한미군, 초등학교, 국가지정격리병상, 도심, 시골, 화성국제공항, 한라체육관, 한국농수산식품유통공사, 한국보건산업진흥원, 충주휴게소, 직거래장터, 중부내륙고속도로, 자택, 주택, 왕십리광장, 영양사협회, 역사학연구회, 식품공장, 보건산업진흥원, 호흡기내과, 집중치료소, 집중치료실, 질병본부, 제주검역소, 소화기내과, 제주공항, 제주대학교, 국립보건연구원, 김해공항, 진원생명과학, 방역대책본부, 공공장소, 검역소, 검사반, 인천국제공항입국장, 서울정부청사, 고대구로병원, 파병부대, 정부당국, 사우나, 국가지정격리치료병원, 정부세종청사, 동물원, 해외여행질병정보센터, 식품의약품안전처, 국립인천공항검역소, 국가격리병원, 대법원, 정부조직, 유럽질병통제청, 공공기관, 검찰, 감염관리실, 외교부, 이스타항공, 도하공항, 경남기업, 정읍보건소, 서태평양지역사무소, 지방자치

120 2016 년소셜빅데이터기반보건복지이슈동향분석 대분류 중분류 키워드단체, 새정치연합, 보건소, 새정연, 직장, 대통령, 감염병리과장, 복지장관, 보건장관, 보건복지위원장, 감염병관리과장, 수석대표, 국무총리, 장관, 총리, 제약회사, 서울시장, 성남시장, 경기도지사, 합동평가단, 유엔전문기구, 누리고1727호, 누리고, 객차, 열차, 기차, 버스, KTX123호, KTX, 터미널, 광주관천터미널, 지역응급의료센터, 지역응급의료기관, 응급실신고기관, 권역응급의료센터, 선별진료소, 격리병동, 어린이집, 학교, 도시교통본부, 푸단대, 제주신용보증재단, 수원시장, 심리위기지원단, 콘트롤타워, 컨트롤타워, 심리지원, 마음돌봄, 상황실, 약국, 킹파드왕립병원, 창조경제혁신센터, 정책위의장, 한국거래소, 서울상인연합회, 충주시장, 의료혁신투쟁위원회, 남구보건소, 대구시의원, 대구공무원, 금융감독원, 금감원, 금융위원회, 금융위, KDI, 한국개발연구원, 원내대표, 재난상황실, 한국은행, 한국경제연구원, 총재, 원장, 인천항, 의원, 보좌진, 신라호텔, 횟집, 전경련, 대한상의, 무역협회, 중기중앙회, 전국경제인연합회, 한국관광공사, 차관, 기획재정부차관, 기획재정부, 의료기관, CDC, 당국, 보건, 보건부, 유니더스, 방역당국, 질병관리본부장, 명문제약, 긴급위원회, 몬산토, 의사단체, 보건환경연구원, 국민의당, 더민주당, 더민주, 개누리, 기관, UN, 대한산부인과학회, 지자체, 녹십자엠에스, 국제보건, 보건국, 연구팀, 질병통제센터, 호세프, 국토교통부, 위원장, 후생노동성, 오리엔트바이오, 대책반, 운영위원회, 유엔, 의료재단, 오스바우두, 신속대응반, 대한감염학회, 국가위생계획생육위원회, 농림축산식품부, 식약처, 동화약품, 질병통제예방센터, 긴급상황센터, 문화체육관광부, 군대, 미국보건당국, 미국의사협회저널, 공군, 의과대학, 공정위, 연방보건, 미주지역본부, 국립보건연구소, 미래부, 방통위, 공천관리위원회, 자유권규약위원회, 재심위원들, 질병예방통제센터, 한국공인중개사협회, 국제올림픽위원회, 보건소장, 정책위원회, 미래창조과학부, 국립감염증연구소, 긴급당정협의, 환경부, 감염병관리팀, 의료계, 보건전문가들, 방역대책, 국립검역소, 범미보건기구, 공중보건국, 위생계획생육위원회, 질병관리센터, 유엔본부, 현대경제연구원, 보건위원, 융합생명공학부, 동성제약, 건강기능식품벤처제조업, 한국온라인신문협회, 위기대응총괄과, 질병예방센터, 위생당국, 국회의장, 특별위원회, 긴급대책위원회, 건강보험심사평가원, 경제공동위원회, 국가위생계획위원회, 해외여행질병정보센타, 미국질병통제센터, 질병연구소, 보건노동복지, 비상대책

제 4 장지카바이러스감염증소셜빅데이터분류를위한온톨로지개발 121 대분류 중분류 키워드위원, 한국의학연구소, 경주시보건소, 감염병관리본부, 경기도재난안전본부, 알레르기전염병연구소, 문화사회정책부, 행정자치부 경보수준 (4) 관심, 주의, 경계, 심각 국가적관련요소 국가 (199) 발생국가 (51) 중국, 중동, 홍콩, 대만, 대한민국, 한국, 바레인, 우리나라, 이라크, 이란, 사우디아라비아, 터키, 아시아, 두바이, Dubai, 북한, UAE, 중동국가, HongKong, Taiwan, 레바논, Lebanon, 리비아, Libya, 모로코, Morocco, Bahrain, SaudiArabia, 수단, Sudan, 시리아, Syria, 아랍에레이트연합, 알제리, Algeria, 예멘, Yemen, 오만, Oman, 요르단, Jordan, Iraq, 이집트, Egypt, 지부티, Djibouti, 카타르, Qatar, 쿠웨이, Kuwait, 튀니지, Tunisia, 팔레스타인, Palestine, Iran, 이스라엘, Israel, Turkey, China, 서아프리카, 기니, Guinea, 포레카리아, 두브레, 킨디아, 프리아, 보파, 코나크리, 라이베리아, Liberia, 시에라리온, SierraLeone, 나이지리아, Nigeria, 콩고, RepublicoftheCongo, 미국, UnitedStatesofAmerica, 스페인, Spain, 말리, Mali, 영국, UnitedKingdom, 프랑스, France, 인도, India, 독일, Germany, 노르웨, Norway, 케냐, Kenya, WestAfrica, 나라, 중동지역, 해외, 세계, 전계, 하와이, 아랍에미레이트, 아부다비, 국외, 중동붐, 뉴욕, 아라비아반도, 중동여행, 감염국가, 최대감염국가, 최저감염국가, 이슬람, 중남미, 국가, 아프리카, 남미, 국제, 유럽, 일본, 동남아, 우간다, 인도네시아, 발생국, 과말라, 미주, 대륙, 스위스, 각국, 동남아시아, 제네바, 아르헨티나, 외국, 리데자네이루, 국제적, KOREA, 국가들, 캐나다, 말라리아, 국제적인, LA, 칠, 미주대륙, 슬로베니아, 전세계적, 탄자니아, 벨기에, 22개국, 말레이시아, 텍사스, 카리브해, 상파울루, 브뤼셀, 댈러스, 이탈리아, 23개국, 북동, 러시아, 남미지역, 폴리네시아, 호주, 아메리카, 세아라주, 싱가포르, 21개, 카탈루냐, 플로리다, 파리, 뉴욕시, 워싱턴, 남아메리카, 북미, 동북지역, 오나와, 우루과이, 52개국, 25개국, 포르투갈, 26개국, 싱가폴, 상파울로, 베징, 캘리포니아, 캄보디아, 동아시아, 뉴질랜드, 파키스탄, 에노스아이레스, 안국가, 7개국, 중앙남미아프리카, 태평양, 수마트라섬, 남태평양, 미크로네아, 몰디브, 세부, 섬지역, 갤버스턴, 타히티섬세인트루시아, 볼리비아, 태국, 가이아나, 바베이도스, 프랑스령세인트마틴섬, 프랑스령과들루프, 도미니카공화국, 미국령버진아일랜드, 니카라과, 네덜란드령퀴라

122 2016 년소셜빅데이터기반보건복지이슈동향분석 대분류 중분류 키워드소, 자메이카, 코스타리카, 통가, 사모아, 미국령사모아, 네덜란드령보네르, 네덜란드령아루바, 네덜란드령퀴라소, 미셸제도, 파라과이, 트리니다드, 토바고, 세인트빈센트그레나딘, 네덜란드령신트마르텐, 과테밀라, 마르티니크, 멕시코, 베네수엘라, 브라질, 수리남, 아이티, 에콰도르, 엘살바도르, 온두라스, 콜롬비아, 트리니다드토바고, 파나마, 푸에르토리코, 프랑스령기아나, 프랑스령생마르탱, 마셜제도, 피지, 베트남, 카보베르데, 도미니카, 쿠바, 프랑스령뉴칼레도니아, 코스라이제도, 파푸아뉴기니, 필리핀 시간요인 기타 (141) 계절 (13) 봄, 여름, 가을, 겨울, 겨울철, 봄철, 여름철, 가을철, 여름에, 황사, 겨울, 강추위, 초봄필요, 세기말, 문화, 설명, 분리, 2012년, 2013년, 2014년, 2015년, 김치, 유연, 소규모, 추정, 비슷, 반응, 지정, 중심, 노출, 사과, 가능, 경미, 능력, 상태, 요구, 이유, 이동, 문의, 소리, 제외, 태도, 경험, 사실, 최초, 참고, 자료, 기본, 행동, 처벌, 심판, 아픔, 걱정, 통증, 부탁, 파악, 구멍, 소식, 방문, 연락, 아침, 주말, 언론, 발표기사, 기준, 사례, 이야기, 전환, 사안, 건강, 최소, 낭비, 조심, 중대, 책임, 억지, 조사, 과징금, 중요, 각오, 정체, 조용, 주목, 중독, 필수, 전파, 유발, 유입, 진행, 유행, 선포, 사태, 영향, 최대, 동반, 실시, 예상, 연관성, 착용, 두뇌, 고려, 보유, 선천성, 시행, 지속적, 급증, 대표, 증거, 환경, 존재, EL, 급등, 관련주, 확률, 요청, 공유, 참사, 확보, 배포, 선언, 낙태, 지구촌, 발령, 대유행, 생존, 엘니뇨, 출산, 관할, PAHO, 외출, 붉은털원숭이, 시민안전, 붉은원숭이, 해외여행질병정보사이트, 소두증원인, 급성신경계, 신경세포, 신경질환, 줄기세포, 유전적인, 뇌신경, 신체, 유전자변형, 임신초기, 임신, 임신중, 머리둘레, 두개골, 임신기간, 무증상, 2016올림픽, 리오, 리오데자네이로

제 4 장지카바이러스감염증소셜빅데이터분류를위한온톨로지개발 123 제 3 절연구결과 지카바이러스와관련하여긍정적인감정 ( 안심 ) 을나타내는온라인문서는 36.1%, 보통의감정을나타내는문서는 12.2%, 부정적인감정 ( 불안 ) 을나타내는문서는 51.6% 로나타났다. 최초로작성된문서는 57.5%, 확산된문서는 42.5% 로나타났다. 수집된채널은 SNS( 트위터 ), 카페, 뉴스, 블로그, 게시판순으로나타났다. 대상은의료계, 일반인, 증상자등의순으로언급되었으며언급국가는아시아, 북미 / 호주, 남미등의순으로나타났다. 감염은모기, 성관계, 감염경로, 접촉등의순으로나타났다. 증상은전염, 소두증, 열등의순으로언급된것으로나타났다. 대처방법은초기대응, 정부대응, 감염검사등의순으로나타났다. 예방방법은예방수칙, 모기퇴치, 피임등의순으로나타났다. 산업은올림픽, 주식, 관광산업의순으로나타났다. < 표 4-5> 지카바이러스소셜빅데이터수집을위한분류 구분항목 N(%) 구분항목 N(%) 감정 순계정 채널 바이러스 긍정 8,968(36.1) 감염경로 3,042(10.6) 보통 3,037(12.2) 접촉 2,551(8.9) 부정 12,820(51.6) 동물 1,309(4.6) 계 24,825 공기 931(3.2) 감염최초문서 37,758(57.5) 진드기 499(1.7) 확산문서 27,915(42.5) 모기 15,063(52.5) 계 65,673 성관계 5,323(18.5) 블로그 7,189(10.9) 계 28,718 카페 18,988(28.9) 전염 20,778(33.5) SNS 24,163(36.8) 의심증상 3,152(5.1) 게시판 5,939(9.0) 열 5,677(9.2) 뉴스 9,394(14.3) 호흡기증상 1,173(1.9) 계 65,673 증상 소화기증상 511(0.8) 메르스 4,127(6.7) 사망 2,160(3.5) 사스 217(0.4) 마비증상 1,955(3.2) 조류인플루엔자 116(0.2) 소두증 12,405(20.0)

124 2016 년소셜빅데이터기반보건복지이슈동향분석 구분 항목 N(%) 구분 항목 N(%) 신종플루 701(1.1) 피부발진 5,050(8.1) 에볼라 1,520(2.5) 통증 4,410(7.1) 지카바이러스 38,545(62.8) 출혈 2,083(3.4) 뎅기열 3,539(5.8) 합병증 976(1.6) 기타바이러스 12,635(20.6) 기타증상 1,651(2.7) 계 61,400 계 61,981 일반인 12,288(11.3) 초기대응 8,514(25.3) 남성 1,216(1.1) 격리 3,323(9.9) 여성 4,529(4.1) 치료 3,988(11.8) 노인 353(0.3) 대처 감염검사 6,255(18.6) 아이 / 학생 4,425(4.1) 예방백신 4,880(14.5) 가족 1,310(1.2) 정부대응 6,730(20.0) 대상 싱글 832(0.8) 계 33,690 외국인 602(0.6) 예방수칙 7,616(42.4) 여행객 1,814(1.7) 위생 996(5.5) 증상자 15,167(13.9) 마스크 305(1.7) 의료계 65,673(60.2) 면역강화 1,162(6.5) 예방직장인 / 군인 946(0.9) 외출 500(2.8) 계 109,155 피임 1,930(10.8) 아시아 8,958(27.7) 모기퇴치 5,444(30.4) 중동 772(2.4) 계 17,953 아프리카 3,438(10.6) 경기 564(5.2) 국가 유럽 4,634(14.3) 전통시장 1,065(9.7) 북미 / 호주 6,577(20.3) 대형마트 371(3.4) 남미 4,779(14.8) 관광산업 1,601(14.6) 동남아 / 인도 3,230(10.0) 숙박업 384(3.5) 계 32,388 요식업 181(1.7) 정부 13,052(49.2) 주식 1,864(17.0) 산업국제기구 6,098(23.0) 건설업 236(2.2) 병원 3,079(11.6) 영화산업 202(1.8) 기관 민간기관 1,605(6.1) 생필품 860(7.9) 정당 707(2.7) 온라인쇼핑몰 146(1.3) 공항 1,511(5.7) 교통 849(7.8) 학교 451(1.7) 올림픽 1,957(17.9) 계 26,503 바이오산업 660(6.0)

제 4 장지카바이러스감염증소셜빅데이터분류를위한온톨로지개발 125 제 4 절결론 지난 3년간에볼라바이러스와메르스로인해국내유입이우려되는해외유행감염병에대한국민의불안이증폭되었다. 최근브라질에서지카바이러스가발생하면서그에대한공포의식은더욱증가하였으며, 국민들이쉽게의사소통할수있는 SNS를통하여유언비어가확산되기도하였다. 그럼에도불구하고 SNS는정보를적시에제공하고정책을전달하는커뮤니케이션수단으로서질병위험에대한우려를감소시키기도한다. 본연구는지카바이러스정보확산과위험을예측하는데필요한온톨로지개발을통해공중보건비상상황에대한대응방안을마련하는데기여할수있을것이다. 1. 지카바이러스주제분류 가. 온톨로지구축 지카바이러스소셜빅데이터수집을위하여 Ontology Development 101에근거하여온톨로지를개발하였으며지카바이러스관련분류체계와용어체계를구축하였다. 첫째, 온톨로지개발범위는개인수준의인구학적특성, 개인의주관적인지및감정, 지카바이러스감염관련정보, 사회및국가수준의관련요소, 시간요인으로선정하였다. 둘째, 기존의온톨로지를확인하였는바, 본연구에서는메르스소셜빅데이터분석시사용된검색체계를활용하여온톨로지를개발하였다. 셋째, 생태학적이론을바탕으로지카바이러스관련분류체계를대분류, 중분류순으로하였다. 넷째, 지카바이러스관련용어를소셜미디어검색을통해추출하였

126 2016 년소셜빅데이터기반보건복지이슈동향분석 다. 이후단계인 EAV 모델링개발및 Protege 를이용한온톨로지표현, 온톨로지 content coverage 평가는향후에진행하여야한다. 나. 온톨로지분류 지카바이러스와관련한소셜빅데이터수집에앞서용어추출에대한다수준적접근을위해생태학적체계이론을바탕으로주제분류를하였다. 생태학적관점에서의미시체계 (Microsystem), 중간체계 (Mesosystem), 외체계 (Exosystem), 거시체계 (Macrosystem), 시간체계 (Chronosystem) 를기준으로지카바이러스와관련한온톨로지를개인수준의인구학적특성, 개인의주관적인지및감정, 감염관련정보, 사회적관련요소, 국가적관련요소, 시간요인등 6개의대분류및기타로구분하였다. 하위영역은 17개의중분류로구성하여 2763개의용어를추출하였다.

제 4 장지카바이러스감염증소셜빅데이터분류를위한온톨로지개발 127 그림 4-7 지카바이러스온톨로지분류 그림 4-8 생태학적관점의지카바이러스온톨로지분류체계 생태학적관점 대분류 중분류 개인수준의인구학적 대상 ( 일반시민 ) 특성성별 / 나이 Microsystem 긍정 ( 감정 ) 개인의주관적인지및감정부정 ( 감정 ) Mesosystem 감염관련정보 바이러스 ( 질병 ) 감염경로증상대처 ( 치료 ) 예방 Exosystem 사회적관련요소 병원산업 / 경제기관 ( 장소 / 직책 ) 경보수준 Macrosystem 국가적관련요소 국가발생국가 Chronosystem 시간요인 계절 기타

128 2016 년소셜빅데이터기반보건복지이슈동향분석 미시체계에속하는개인수준의인구학적특성은대상 305개, 성별 / 나이 31개, 개인의주관적인지및긍정 ( 감정 ) 194개, 부정 ( 감정 ) 268개를포함하여총 798개의용어가배치되었다. 중간체계에속하는감염관련정보는증상 151개, 바이러스 91개, 감염경로 98개, 대처 ( 치료 ) 207개, 예방 182개로구성되었다. 중분류중대처 ( 치료 ) 와예방의경우는격리, 백신, 예방수칙등과같이조직수준에서도개입이가능한개념을포함하며, 감염경로또한단순매개감염뿐만아니라 SIS 모형및 SEIR 모형과같은감염병질환확산모델에의하여사람들간의감염병전파가설명되므로감염관련정보는중간체계의개념이라고볼수있다. 중간체계는총 729개의용어로추출되었다. 외체계에속하는사회적관련요소는병원 247개, 산업 / 경제 260개, 기관 ( 장소 / 직책 ) 321개, 경보수준 4개로총 832개, 거시체계에속하는국가적관련요소는지카바이러스발생국가 51개와국가 199개로총 250개를포함하였다. 시간체계에속하는시간요인은계절을포함하며 18개의용어를추출하였다. 그밖에생태학적체계이론의범주에포함시키기부적절하다고간주되는용어 141개는기타로분류하였다. 본연구에서는생태학적체계이론을통해지카바이러스에관한요소를개인수준의인구학적특성, 개인의주관적인지및감정, 감염관련정보, 사회적관련요소, 국가적관련요소, 시간요인및기타로나누어살펴보았다. 이를통해개발된지카바이러스관련온톨로지와분류체계는 SNS에서의감염병감정위험을예측하여추후감염병위기관리방안을마련하는데활용될수있을것이다.

제 4 장지카바이러스감염증소셜빅데이터분류를위한온톨로지개발 129 2. 지카바이러스정부대응방안 본지카바이러스발생에대한분석을기반으로정부는향후신종전염병질환이발생할때신속하고체계적으로대응해야한다. 구체적으로정부가수립할수있는대응방안을제시하면다음과같다. 첫째, SNS상의무분별한허위정보유포를방지하고사용자가올바른정보를제공받고공유할수있는체계를구축해야한다. SNS는파급력이뛰어난매체중하나이며이는정보의질과무관하게적용된다. 바이러스와같은질병은해당질병에대한부정적인정보유포와낙인화의충격을초래할수도있으며, 이로인해사용자들은잘못조성된정보로인한불안속에서위험에대한해결방안을찾지못할수있다. 따라서정부에서는 SNS 사용자들에게공중보건문제에대한올바른정보를제공할수있는방안을마련함과동시에이정보들이확산될수있고잘못된정보의전파를방지할수있는체계를구축해야한다. 둘째, 지카바이러스와같은고위험신종전염병이출현할경우 SNS 빅데이터분석을통한정부차원의위기관리체계구축을통해치밀하고신속한대응이이루어져야한다. 고위험신종전염병에대한불안한감정이 SNS상에서확산되면사회전반에그악영향이미칠수있다. 따라서빅데이터분석을통해 SNS 사용자들이보이는불안한감정을감지및예측할수있는질병관리모니터링체계를구축해지나친우려에대해선초기에대처할수있어야한다. 셋째, SNS는위기커뮤니케이션으로서중요한역할을할수있지만메르스나에볼라바이러스, 지카바이러스등의고위험신종전염병에대한정보가다뤄질경우미디어상에서해당정보가반복적으로조명됨으로써대중의공포심을자극하게될수도있다. 이는정부혹은관련조직에대

130 2016 년소셜빅데이터기반보건복지이슈동향분석 한불신등의형태로전이될수있으며다른요소들과겹쳐위험이확산 될수있으므로위험에대한올바른정보와대책을사용자에게제공하고 공유하도록하는체계가구축되어야할것이다. 3. 감염병위기정보확산리스크커뮤니케이션구축방안 감염병발생시수집된소셜빅데이터를활용하여감염병위기대응센터를통해위기단계에따른대응및시나리오별대응조치방안을마련해야한다. 소셜네트워크는즉각적인정보의전달과사람들간의상호작용이가능한커뮤니케이션수단이다. 이에따라감염병위기정보의지속적인모니터링을통하여정보를관리해야한다. 또한소셜네트워크상에서국민들의공포의식을증대시키는요인을파악하고분석한결과를바탕으로신종감염병에대한여론동향을예측해올바른정보를제공해야한다.

참고문헌 << 김민정, 윤영민. (2015). 복합매체이용과사회적동조가온라인상에서루머신뢰및루머전파의도에미치는영향, 한국PR학회, 19(2), pp.96-119. 김성순, 이상원, 최보율. (2008). 신종인플루엔자유행관리를위한수학적모형과전략에대한고찰. 한국역학회지, 30(2), pp.156-167. 김태형, 간형식. (2014). 루머의특성과확산에관한이론적고찰. 글로벌경영연구, 26(1), pp.1-18. 동아일보. 지카바이러스한국인감염자첫발생, SNS 괴담진실은?, http://news. donga.com/bestclick/3/all/20160322/77140871/2에서 2016. 3. 22. 인출. 이윤희. (2014). 국내 SNS 이용현황과주요이슈분석, Internet & Security, 8월호. 이원태, 차미영, 양해륜. (2011). 소셜미디어유력자의네트워크특성 : 한국의트위터공동체를중심으로. 언론정보연구, 48(2). pp.44-79. 연합뉴스, 지카바이러스의심신고 87건, 1주일새 4.8배로늘어, http://www.yonhapnews.co.kr/bulletin/2016/05/05/020000000 0AKR20160505026000017.HTML에서 2016. 5. 5. 인출. 신호성, 김동진. (2008). 기후변화와전염병질병부담. 한국보건사회연구원. 장덕진, 김기훈. (2011). 한국인트위터네트워크의구조와동학. 언론정보연구, 48(1), pp.59-86. 질병관리본부, 보도자료. 2016.02.02. 질병관리본부. 지카바이러스발생국가현황. http://www.cdc.go.kr/cdc/contents/cdckrcontentview.jsp?cid =66993&menuIds=HOME001-MNU2374-MNU2365-MNU2367에서 2016. 2. 22. 인출. 질병관리본부. 지카바이러스감염증. http://www.cdc.go.kr/cdc/contents/cdckrcontentview.jsp?cid =66993&menuIds=HOME001-MNU2374-MNU2365-MNU2366. 에

132 2016 년소셜빅데이터기반보건복지이슈동향분석 서 2016. 2. 22. 인출. Camila Zanluca, Claudia Nunes Duarte dos Santos. (2016). Zika virus - an overview. Microbes and Infection, pp.1-7. Centers for Disease Control and Prevention. About Zika Virus Disease. http://www.cdc.gov/zika/about/index.html/ 에서 2016. 2. 22. 인출. Hong, Ju-Hyun. (2014). A crisis of confidence and the media, Newspaper and broadcast 10, pp.15-20. Ibrar Yaqoob, Victor Chang, Abdullah Gani, Salimah Mokhtar, Ibrahim Abaker Targio Hashem, Ejaz Ahmed, Nor Badrul Anuar, Samee U. Khan. (2016). Information Fusion in Social Big Data: Foundations, State-of-the-art, Applications, Challenges, and Future Research Directions. International Journal of Information Management. Isaac Chun-Hai Fung, Zion Tsz Ho Tse, King-Wa Fu. (2015). The use of Social media in public health surveillance, Western Pacific Surveillance and Response Journal. 6(2), pp.3-6. Juacong Chen, Huiling Zhang, Zhi-hong Guan, Tao Li. (2012). Epidemic spreading on networks with overlapping community structure. Physica A: Statistical Mechanics and its Application, 39(4), pp.1848-1854. Ling-Ling Xia, Guo-Ping Jiang, Bo Song, Yu-Rong Song. (2015). Rumor spreading model considering hesitating mechanism in complex social networks. Physica A 437, pp.295-303. Mathematical association of America, The SIR Model for Spread of Dsiease The differential Equation Model. http://www.maa.org/press/periodicals/loci/joma/the-sir-model-for-s pread-of-disease-the-differential-equation-model 에서 2016. 5. 4. 인출. Michael B Prentice, Lila Rabalison. (2007). Plague. Lancent, 369, pp.

제 4 장지카바이러스감염증소셜빅데이터분류를위한온톨로지개발 133 1196-1207. Rodolphe Hamel, Florian Liꠑegeois, Sineewanlaya Wichit, Julien Pompon, Fodꠑe Diop, Loïc Talignani, Frꠑedꠑeric Thomas, Philippe Desprꠗes, Hans Yssel, Dorothꠑee Missꠑe. (2016). Zika virus: epidemiology, clinical features and host-virus interactions. Microbes and Infection, pp.1-9. Sebastian Funk, Marcel Salathe, Vincent A. A. Janesen. (2010). Modeling the influence of human behaviour on the spread of infectious disease: a review. Journal of the Royal Society interface, 7, pp.1247-1256. The New York Times, Zika Virus a Global Health Emergency, W.H.O. Says 1. Feb, 2016. http://www.nytimes.com/2016/02/02/health/zika-virus-worldhealth-organization.html?_r=0에서 2016. 2. 22. 인출. Woohyun Yoo, Doo-Hun Choi, Keeho Park. (2016). The effects of SNS communication: How expressing and receiving information predict MERS-preventive behaviour intentions in south Korea. World Health Organization, Zika Virus, Fact sheet, Updated February 2016, http://www.who.int/mediacentre/factsheets/zika/en/ 에서 2016. 2. 22. 인출. World Health Organization. Frequently asked question on IHR Emergency Committee. World Health Organization, Situation report, Zika Virus Microcephaly Guillain-Barre Syndrome. Update 12 May 2016. World Health Organization. What social media offers to health professionals citizens. Updated August, 2009, http://www.who.int/bulletin/volumers/87/8/09-006712/en에서 2016. 4. 27. 인출.

134 2016 년소셜빅데이터기반보건복지이슈동향분석 World Health Organization. WHO statement on the first meeting of the International Health Regulations (2005) (IHR 2005) Emergency Committee on Zika virus and observed increase in neurological disorders and neonatal malformations. http://www. who.int/mediacentre/news/statements/2016/1st-emergency-co mmittee-zika/en/ 에서 2016. 2. 22. 인출. Zika Virus a trending topic on social media platform. http://www.straitstimes.com/world/united-states/zika-virus-tre nding-topic-on-social-media-platforms에서 2016. 2. 22. 인출.

제 5 장 어린이예방접종소셜빅데이터분류를위한온톨로지개발 제 1 절서론 제 2 절어린이예방접종온톨로지개발 제 3 절연구결과 제 4 절논의 제 5 절결론 참고문헌

5 어린이예방접종소셜빅데이터분류를위한온톨로지개발 22) << 제 1 절서론 전세계적으로인류를위협하는다양한감염병이끊임없이발생하고있는데우리나라도예외가아니다. 최근들어사스, 에볼라, 메르스등과같은신종감염병뿐만아니라수두, 홍역, 백일해등과같이이미퇴치되었다고생각되었던감염병도지속적으로다시유행하고있는상황이다. 이러한감염병으로부터건강을보호하기위해예방접종의중요성이강조되고있다. 예방접종은미생물의병원성을죽이거나약하게하여만든백신을사람에게투여해능동면역이생기는것을유도하여감염질환을예방할수있는효과적인수단으로한개인의질병예방뿐만아니라사회집단전체로감염이전파되는것을막는집단면역의효과까지얻을수있다 ( 질병관리본부, 2013). 2013년전국예방접종률조사에따르면우리나라의 3세이상아동의예방접종률은 95% 이상으로세계보건기구 (WHO) 에서정한감염병퇴치수준에이를정도로높다. 그러나이렇게높은예방접종률에도불구하고최근홍역, 유행성이하선염등의예방접종대상감염병이간헐적으로유행하면서예방접종의효과나필요성을의심하는사람이생겨나고있고, 예방접종후부작용이나사망과같은백신안전성관련문제가발생하면서온라인상에자녀의예방접종에대한부모들의걱정이나우려, 예방접 22) 본연구는해외학술지에게재하기위하여서울대학교간호대학 ( 박현애, 온정아 ) 과한국보건사회연구원 ( 송태민 ) 에서공동으로작성한논문임을밝힌다.

138 2016 년소셜빅데이터기반보건복지이슈동향분석 종경험등의글이늘어나고있다. 예방접종에대한걱정이나우려와같은부정적인감정, 예방접종의효과나유익성과같은긍정적인감정은예방접종의도에영향을주며나아가예방접종률의감소나증가를초래한다 ( 임은실외, 2006; 김금순외, 2007). 비록우리나라예방접종률이감염병퇴치수준까지도달하였지만온라인에게시되는예방접종에대한걱정이나우려의글이늘어나면예방접종의도에영향을미칠수있다. 따라서예방접종에영향을줄수있는, 예방접종에대한부모들의걱정이나우려등을정확히파악할필요가있다. 본연구팀이사전조사에서온라인에게시된예방접종관련감정이나경험등을표현한글을살펴본결과예방접종에대한긍정적인글과부정적인글모두를확인할수있었다. 이들게시글을자세히살펴보면예방접종후발생하는부작용과이에대처하는방법, 예방접종날짜의조정, 예방접종여부고민과같은다양한주제에대한개인들의감정, 경험, 태도와예방접종정보등이게시되고있음을알수있었다. 예방접종에대한감정, 태도, 경험, 지식과관련한국내의연구중예방접종실태와부모들의예방접종에대한인식을조사한연구 ( 임정우외, 2006) 에의하면반드시시행해야할예방접종은 BCG, MMR, DTP, 소아마비, B형간염이라고인식하였고비용이비싼예방접종이더안전할것이라고생각하는것으로나타났다. 또한제때예방접종을하지못한이유는자녀가아파서, 접종날짜를잘몰라서, 집안일때문인것으로나타났다. 12세이하자녀를둔보호자를대상으로방문면접조사방식으로시행한질병관리본부주관의 2014년국가예방접종지원정책만족도및보호자인식조사 ( 고재영외, 2015) 에의하면대부분의부모는예방접종을하지않으면감염병에걸릴가능성이커진다고생각하고있으며, 예방

제 5 장어린이예방접종소셜빅데이터분류를위한온톨로지개발 139 접종대상감염병을심각하게여기고, 예방접종이건강증진에도움을준다는긍정적인인식을가지고있는것으로나타났다. 앞에소개한연구들은온라인및방문설문조사를통해예방접종에대한인식을파악하여조사시간, 비용, 노력이많이소요되고사람들의인식을실시간파악할수없다는단점이있다. 또한이러한연구방법은감염병유행이나새로운백신도입과같은특정사건이발생한시점에서사람들의생각을실시간으로파악하는데한계가있다. 예방접종에대한부모들의감정, 태도, 경험, 지식들을좀더빠르게파악하기위해소셜데이터를활용한연구가국외에서소개되고있다. 예를들어미국에서 2009년신종플루가유행한시기에신종플루예방접종과관련한트위터메시지를수집하여예방접종에대한감정을분석한연구 (Salathé et al., 2011) 에서는트위터에표현된예방접종에대한감정과예방접종률간에밀접한관계가있는것으로나타났고, 소셜데이터가예방접종률을예측할수있는효과적인수단임을보여주었다. 또한유엔아동기금 (UNICEF, 2013) 에서유럽에서의대중의예방접종에대한반대감정을파악하기위해블로그, 포럼, 트위터, 텀블러, 유튜브, 페이스북과같은소셜미디어에게시된글을수집하여분석한결과, 예방접종반대감정은종교적 도덕적신념, 이상반응, 장애발생, 화학물질 / 독성 / 불필요성, 음모이론등에기인하는것으로나타났다. 이연구에서는예방접종을반대하는감정에기여하는영역을부작용에대한우려나두려움과같은개인영역, 정부나제약산업에대한불신과같은상황적영역, 예방접종이필요없다는종교적인신념과같은초월적영역으로구분하였고, 이들세영역의조합에따른각기다른예방접종캠페인방법을제시하였다. 또다른예로 UN global pulse(2014) 에서인도네시아대중이소셜미디어인트위터에게시한예방접종관련글을분석하여예방접종에대한종

140 2016 년소셜빅데이터기반보건복지이슈동향분석 교적인입장, 질병발생관련대화, 백신이상반응으로여겨지는증상혹은건강상태, 오가백신인새로운백신도입에대한글이많이게시되는것을파악하였고, 게시글의추이를분석해대중이예방접종관련우려를언제가장많이하는지그시점과우려의이유를파악할수있었다. 소셜미디어에게시된글을이용한이들연구에서문자로구성된비정형데이터를분석하기위해수작업분석방법혹은자연어처리시스템을활용하였다. 이러한분석방법은주로게시된글에포함된용어의빈도수에기반을두어분석과정에서용어의의미론적관계를명확히파악하지못한다는한계를가진다. 이러한한계를극복하기위해동음이의어 (homonym) 와이음동의어 (synonym) 를설정한유의어사전을개발하여이용하고있으나그용어가사용된문맥을이해하지못하면용어의정확한의미를파악하기어렵다 ( 유은지외, 2012). 소셜미디어에게시된비정형데이터의의미적모호성을해결하고용어의의미를정확하게파악하기위해서는개념의의미와개념의고유한속성, 개념들간의관계및제약조건등을정의하고유의어 / 동의어를망라한용어체계가포함된온톨로지가필요하다. 온톨로지는공유된개념화에대한정형화되고명시적인명세 (Gruber, 1993) 이며, 어휘의내용을명확하게정의하고어휘들로표현된사실들사이의논리적관계를나타내는일종의지식표현 (knowledge representation) 이다 ( 김학래, 2010). 따라서소셜미디어에게시된글을이용하여자녀의예방접종에대한부모의감정, 태도, 경험, 지식을정확히파악하기위해서는온톨로지를개발할필요가있다. 이에본연구에서는부모가자녀의예방접종을결정하는과정에영향을주는감정, 경험, 태도, 지식과예방접종경험및예방접종후의감정, 태도등을포함한온톨로지를개발하고자한다. 본연구에서개발된온톨로지는부모가자녀의예방접종에대해어떤감정, 경험, 태도, 지식을가

제 5 장어린이예방접종소셜빅데이터분류를위한온톨로지개발 141 지고있는지를파악하는분석의틀로활용될수있을것이다. 또한온톨 로지개발과정에서비정형소셜데이터의빅데이터분석에활용할수있 는주요용어들의유의어 / 동의어를기술한용어체계를개발하고자한다. 제 2 절어린이예방접종온톨로지개발 1. 연구목표 연구목표는다음과같다. 첫째, 어린이예방접종에대한부모의감정, 경험, 태도, 지식과관련된용어를수집하고, 용어로부터관련개념을추출하여추출된개념의데이터모델을개발한다. 둘째, 어린이예방접종에대한부모의감정, 경험, 태도, 지식관련영역과영역간의관계를나타내는온톨로지와유의어 / 동의어를포함한용어체계를개발한다. 2. 연구방법및내용 어린이예방접종에대한부모의감정, 경험, 태도, 지식관련온톨로지를 Ontology development 101(Noy & McGuinness, 2001) 을참조하여구축할예정이며이과정에서온톨로지에포함된개념들의유의어 / 동의어를포함한용어체계를개발할예정이다. 연구의진행과정은 [ 그림 5-1] 과같다. 우선개발할어린이예방접종온톨로지의범위와영역을설정하고, 관련문헌을통해용어를수집한다. 수집된용어로부터개념을추출

142 2016 년소셜빅데이터기반보건복지이슈동향분석 하여추출된개념의특성을파악하는 EAV 모델 (Entity-Attribute-Value model) 을개발하고, 관련개념들의관계와유의어 / 동의어를포함하는온톨로지및용어체계를개발할예정이다. 마지막으로개발된온톨로지가계획목적에맞게개발되었는지평가할예정이다. 그림 5-1 어린이예방접종온톨로지개발과정 가. 어린이예방접종온톨로지의개발범위와영역설정 1) 예방접종의대상과범위 예방접종은영유아에서부터노인에이르기까지다양한연령을대상으로시행되고있으나그중에서면역력이약한어린이를대상으로한예방접종은기초면역을형성하는데중요하여다른연령보다많은항목의예방접종이요구된다. 또한우리나라정부에서는어린이예방접종비용지원사업, 취학아동예방접종확인사업과같은정책을시행하며어린이예방접종을독려하기위해애쓰고있다. 따라서본연구에서는예방접종의범위를 0세에서 12세에시행되는어린이예방접종으로한정하였으며여기에포함되는세부예방접종으로는결핵예방접종, B형간염예방접

제 5 장어린이예방접종소셜빅데이터분류를위한온톨로지개발 143 종, 디프테리아 / 파상풍 / 백일해예방접종, 폴리오예방접종, 홍역 / 볼거리 / 풍진예방접종, 일본뇌염예방접종, 수두예방접종, b형헤모필루스인플루엔자예방접종, 폐렴구균예방접종, A형간염예방접종, 인플루엔자예방접종, 로타바이러스예방접종, 인유두종바이러스예방접종이있다. 어린이예방접종은다른연령층의예방접종과달리육아를담당하는부모의예방접종에대한감정, 경험, 태도, 지식에의해예방접종여부가결정된다. 부모는자녀의건강에관심이많으며건강에영향을주는예방접종과관련된이슈에대해서도민감하게반응하고, 소셜미디어를통해예방접종에대한감정, 경험, 태도등을표현한다. 본연구에서개발할어린이예방접종온톨로지는부모의관점에서어린이예방접종에대한감정, 태도, 경험, 지식을파악할필요가있다. 자녀의예방접종에대한부모의감정, 태도, 경험, 지식은예방접종을할때뿐만아니라예방접종여부를결정하고예방접종을하고난후의모든과정에영향을미친다 (Katz et al., 2010). 본연구에서개발할온톨로지는예방접종이전부터예방접종을할때, 예방접종을하고난후에이르는전체과정에서의부모의감정, 경험, 태도, 지식을파악할필요가있다. 예방접종과관련된개인의감정, 태도, 경험, 지식등은주변의다양한요인에영향을받는다. 부모의개인적경험이나생각, 지식뿐아니라사회지리적인특성, 예방접종과관련된의료기관, 예방접종에대한사회적인식, 국가정책, TV나신문을통한보도와같은요인들이예방접종에영향을주는요인으로알려져있다 (Larson et al., 2014). 본연구에서개발할어린이예방접종온톨로지는개인적측면에국한하지않고구조적 사회적 문화적 환경적요인들을모두포함할필요가있다. 따라서본연구에서개발할어린이예방접종온톨로지는 0세에서 12 세에시행하는예방접종을대상으로부모관점에서예방접종에대한감

144 2016 년소셜빅데이터기반보건복지이슈동향분석 정, 경험, 태도, 지식을파악하며예방접종이전단계에서부터예방접종 시점, 예방접종후에이르는예방접종전과정에서개인적 구조적 사회 적 문화적 환경적영역을포함할필요가있다. 2) Competency questions 어린이예방접종온톨로지의영역과내용을좀더명확히설정하고자 Competency questions(grüninger & Fox, 1995) 를작성하였다. Competency questions 는온톨로지개발시영역과범위를구체적으로정하는데도움을주며, 온톨로지개발후에는원래목적에맞는내용이충분히포함되었는지를평가하는데이용된다. 연구를시작하기에앞서본연구팀이온라인에표현된예방접종관련감정및경험을조사한내용을참고로 Competency questions 를작성하였다. 작성된 Competency questions는 < 표 5-1> 과같다. < 표 5-1> Competency questions 범위 개인적측면 예방접종에대한정보 Competency questions 예방접종을결정하는데영향을주는요인은무엇인가? 예방접종에대해어떤감정을가지고있는가? 예방접종을하는데고려하는자녀의건강상태는무엇인가? 예방접종에대한지식수준은어떠한가? 어린이가맞아야하는예방접종은무엇인가? 결핵예방접종후발생가능한이상반응은무엇인가? 만 1세인자녀는어떤예방접종을해야하는가? 예방접종에대한정보는어떤매체를통해얻는가? 예방접종에영향을주는자녀와관련된요인은? 구조적 / 사회적 / 문화예방접종에영향을주는과거예방접종관련경험은무엇인가? 적요인예방접종비용에대해어떻게생각하는가? 예방접종후경험디프테리아 / 파상풍 / 백일해예방접종후경험한이상반응은무엇인가?

제 5 장어린이예방접종소셜빅데이터분류를위한온톨로지개발 145 범위 환경적요인 Competency questions 예방접종후발열시어떻게해야하는가? 예방접종을하러간의료기관에대해만족하는가? 의료진은친절한가? 정부의예방접종관련정책은무엇이있는가? 예방접종관련미디어의성향은어떠한가? 3) 기개발된온톨로지확인 본연구에서예방접종관련감정, 경험, 태도, 지식을확인하는온톨로지를개발하고자기개발된예방접종관련온톨로지를검색하였으나, 백신자체에대한온톨로지 (He et al., 2009) 외에예방접종행위나인식및태도와관련된온톨로지는찾을수없었다. 예방접종에대한감정, 경험, 태도, 지식과관련된요인들에대한연구개념틀을검색하여이를온톨로지개발에참조하였다. 본연구에서고찰한연구개념틀은 Sturm et al.(2005) 의 Fators influencing parental decision making about childhood immunization 과 Larson et al.(2014) 의 Model of determinants of vaccine hesitancy 와 Katz et al.(2010) 의 The vaccine perception, accountability and adherence model 이다. Sturm et al.(2005) 의연구에서사용된개념틀에서는예방접종결정에영향을주는요인으로개인적 / 부모요인, 사회환경적요인, 제도적요인, 의료서비스환경요인, 물리적환경요인을제시하고각요인들간의관계를표현하였다. 개인 / 부모의건강신념, 건강에대한태도등이예방접종을결정하며사회환경적요인, 제도적요인, 의료서비스환경요인이개인 / 부모요인에영향을미치는것으로나타났다. 사회환경적요인은예방접종에대한문화적태도와신념, 부모의사회적집단규범, 백신

146 2016 년소셜빅데이터기반보건복지이슈동향분석 에대한미디어의보도등을포함하며, 제도적요인은국가정책뿐아니라백신에대한사회적집단이나전문가집단의행동을포함하고있다. 의료서비스환경요인은예방접종의위험성과장점에대한의사소통, 의료서비스제공자의태도나행동을포함하며, 물리적환경요인은감염병의유행, 감염병에대한효과적인새로운예방법이나치료법개발등을포함하고있다. Larson et al.(2014) 의연구에서사용된개념틀에서는예방접종을결정하는데관련된요인을개인적 / 사회적집단영향, 백신과예방접종관련이슈, 상황적영향으로구분하였다. 개인적 / 사회적집단영향은건강에대한신념과태도, 예방접종에대한지식이나인식, 의료서비스경험, 예방접종에대한사회적규범등을포함하고백신과예방접종관련이슈는백신의과학적인위험성과이득, 예방접종일정, 백신공급의신뢰성, 예방접종비용등으로구성되어있다. 상황적영향은지리적장애, 미디어환경, 정책및정치, 지역적 / 문화적요소, 사회경제적요인등을포함하고있다. 세가지요인간의관계는제시되지않았다. Katz et al.(2010) 의연구에서사용된개념틀에서는인유두종바이러스예방접종에대한인식, 결정, 행위유지에영향을미치는요인으로청소년개인요인, 부모와같은돌봄제공자요인, 구조적 / 사회환경적요인, 행동반응요인, 환경적요인을제시하였고각요인이예방접종과정중어떤시점에영향을미치는지표현하였다. 예방접종시행전에는구조적 / 사회환경적요인이영향을주며사회인구학적요인, 사회지리적요인, 과거예방접종관련행동, 예방접종이용가능성과비용이포함된다. 예방접종시점에는청소년개인요인과돌봄제공자요인이영향을주며청소년개인요인에는청소년의성숙발달, 자기효능감, 지식, 돌봄제공자와의관계, 정신건강, 건강신념이포함되고, 돌봄제공자요인에는건

제 5 장어린이예방접종소셜빅데이터분류를위한온톨로지개발 147 강신념, 돌봄제공자와청소년의관계, 의료서비스이용이포함된다. 예방접종후에는행동반응요인이영향을주며첫번째예방접종후반응, 첫방문시의료서비스의상호작용이포함된다. 예방접종의모든시점에환경적요인이영향을주며사회적건강신념, 정부의보도자료, 미디어가포함된다. 세가지연구개념틀에서제시한예방접종과관련된요인들의개념과요인들간의관계를본연구에서개발할어린이예방접종온톨로지에포함할필요가있다. < 표 5-2> 와같이각연구개념틀에서제시한요인들을비슷한개념으로분류하였고, 이를이용하여온톨로지의세부범위를설정하고관련용어를추출하였다. < 표 5-2> 연구개념틀에서제시한관련요인들의내용분류분류내용출처 개인 제도적 사회적환경적구조적 건강신념 ( 지각된위험성, 지각된유익성, 지각된민감성, 지각된장애요인, 자기효능감 ) 건강에대한태도 예방접종의이상반응발생우려 예방접종에대한지식이나인식 과거예방접종경험 의료서비스이용예방접종대상과돌봄제공자와의관계자녀의정신건강, 자녀의성숙도 정책 사회적집단이나전문가집단의행동 문화적태도와신념 사회적집단규범 미디어 Sturm(2005), Larson(2014) Katz(2010) Sturm(2005), Larson(2014) Sturm(2005) Larson(2014), Katz(2010) Larson(2014), Katz(2010) Katz(2010) Katz(2010) Katz(2010) Sturm(2005), Katz(2010) Sturm(2005), Larson(2014) Sturm(2005), Larson(2014) Sturm(2005), Larson(2014) Katz(2010) Sturm(2005),

148 2016 년소셜빅데이터기반보건복지이슈동향분석 분류 내용 출처 Larson(2014) Katz(2010) 타인의영향 Larson(2014) 사회경제적요소 Larson(2014) 의료서비스경험 예방접종관련정보 지리적요소 종교적요소성별요소제약산업역사적영향인구사회학적요소백신이용가능성감염병의유행감염병에대한새로운예방법이나치료법개발 예방접종의위험성과장점에대한의사소통 예방접종서비스제공자의태도와행동 의료서비스와제공자에대한개인적경험 의료서비스와제공자에대한신뢰예방접종후반응 백신의효과와위험성예방접종일정백신관리방법백신전달방법새로운백신, 새로운제형도입백신공급의신뢰성 예방접종비용 Larson(2014), Katz(2010) Larson(2014) Larson(2014) Larson(2014) Larson(2014) Katz(2010) Katz(2010) Sturm(2005) Sturm(2005) Sturm(2005), Larson(2014) Sturm(2005) Larson(2014), Katz(2010) Larson(2014) Katz(2010) Larson(2014) Larson(2014) Larson(2014) Larson(2014) Larson(2014) Larson(2014) Larson(2014), Katz(2010) 나. 관련용어수집 예방접종실무지침과어린이예방접종관련연구논문및연구보고서를 고찰하여어린이예방접종에대한부모의감정, 경험, 태도, 지식과관련

제 5 장어린이예방접종소셜빅데이터분류를위한온톨로지개발 149 된인적요인, 구조사회문화요인, 정보요인, 환경요인, 행동반응요인에포 함된용어를수집하고, 마지막으로 SNS 검색을통해위의자료원에포함 되지않은용어들을수집하였다. 1) 예방접종실무지침 본연구에서는우리나라질병관리본부에서제공한 예방접종대상감염병의역학과관리, 미국의 CDC(Centers for Disease Control) 와영국의 NHS(National Health Service) 에서제공하는예방접종실무지침을고찰하였다. 예방접종실무지침에는예방접종의원리, 일반원칙, 예방접종대상감염병등에대한설명이포함된다. 예방접종의원리영역에서백신의분류기준과관련된용어를수집하였고예방접종의일반원칙영역에서예방접종시기와간격, 예방접종후이상반응, 예방접종금기사항및주의사항, 백신의접종방법과관련된용어를수집하였다. 예방접종대상감염병영역에서결핵, B형간염, 디프테리아, 파상풍, 백일해, 폴리오등과같은감염병의원인균, 예방법과관련된용어를수집하였다. 2) 예방접종관련요인에대한연구논문과연구보고서 Pubmed와 Google scholar에서 예방접종, 영유아, 어린이, 부모, 인식, 태도, 지식, vaccination, immunization, child, parent, perception, attitude, knowledge 등의검색어로확인된 101개의국내외논문중예방접종에대한감정, 경험, 태도, 지식과관련된논문을고찰하였다. 예방접종에대한부모와자녀의인식및개인적요인과관련된논문을

150 2016 년소셜빅데이터기반보건복지이슈동향분석 고찰하여예방접종필요성, 예방효과, 예방접종의해로움, 예방접종부작용발생, 감염병위험성, 예방접종불신등과같은예방접종에대한신념 ( 임은실외, 2006; 김금순외, 2007; 차혜경외, 2012; 오현경, 2015) 에대한용어, 부모의지식수준, 예방접종에대한지식을얻는지식원 ( 정미은, 2007; 진선미, 이석구, 2007; 최인영외, 2007) 과같은예방접종관련지식에대한용어, 부모의나이, 교육수준, 직업, 자녀의나이, 성별, 출생순서, 가족형태, 소득수준등의인구사회적요인 ( 진선미, 이석구, 2007; 최윤경외, 2008; 이무식외, 2012; 이석구, 전소연, 2015) 에대한용어가수집되었다. 자녀의질병, 장애유무, 자녀의건강에대한인식 ( 이석구, 전소연, 2015; 박명배외, 2013) 등자녀의건강과관련된용어, 외래이용횟수, 입원여부, 건강검진시행여부 ( 박명배외, 2013) 등의의료서비스이용과관련된용어가수집되었다. 예방접종에영향을미치는구조사회문화요인과관련된논문을고찰하여사회적건강신념, 주변사람의예방접종에대한태도, 예방접종추천유무 ( 최인영외, 2007; Brunson et al., 2012), 거주지 ( 박명배외, 2013) 같은용어가수집되었다. 예방접종과관련한환경적요인에대한논문을고찰하여필수예방접종, 예방접종일정, 어린이예방접종지원정책, 예방접종률조사, 예방접종국민의식조사, 예방접종인식조사, 예방접종지원정책만족도조사 ( 이종구, 최원석, 2008; 고재영외, 2015) 와같은정책관련용어, TV 신문 라디오를통한미디어보도, 보도내용, 보도성향 ( 이현우, 2010) 과같은미디어보도관련용어, 감염병의유행, 전파정도, 심각성 (sturm et al., 2005) 과같은감염병유행관련용어를수집하였다.

제 5 장어린이예방접종소셜빅데이터분류를위한온톨로지개발 151 3) 소셜미디어검색 예방접종실무지침과예방접종관련연구논문에서수집한용어를보완하기위해본연구에서는소셜미디어검색을시행하였다. 육아전문카페중하나인 맘스홀릭 에서 2016년 3월 1일부터 2016년 4월 1일까지게시된글중 예방접종 을키워드로검색하여추출된총 285개의예방접종관련게시글을분석하였다. 게시글의주제를예방접종후발생한부작용및대처방안, 예방접종날짜를조정하는방법, 예방접종여부에대한고민, 두가지이상의백신상품명중하나를선택하는방법, 예방접종전에주의할사항, 예방접종기관에대한경험및의견, 예방접종비용, 하루에투여가능한예방접종개수등으로분류한후예방접종과관련된개념을추출하였다. 소셜미디어에서추출한예방접종관련게시글의주제분류는 < 표 5-3> 과같다. < 표 5-3> 예방접종관련게시글의주제분류주제 게시글개수 비율 예방접종후부작용과대처방안 89 31.2% 예방접종날짜조정방법 62 21.8% 예방접종여부에대한고민 21 7.4% 두가지이상의백신상품명중하나선택방법 19 6.7% 예방접종전주의사항 17 6.0% 예방접종기관 16 5.6% 예방접종비용 12 4.2% 하루에접종투여가능한예방접종개수 12 4.2% 예방접종정보요청 11 3.9% 해외예방접종정보요청 5 1.8% 예방접종후주의사항 4 1.4% 예방접종일정알람 3 1.1% 예방접종후인증 2 0.7%

152 2016 년소셜빅데이터기반보건복지이슈동향분석 주제게시글개수비율예방접종수첩 1 0.4% 합계 285 100.0% 이들예방접종관련게시글에서추출한용어를 word cloud로표현하면 [ 그림 5-2] 와같다. 수집한용어를클래스, 속성, 속성값으로분류하고수집된용어를검색키워드로각용어의유의어 / 동의어를수집하였다. 예를들어예방접종종류의하나인 결핵예방접종 이라는용어를클래스로정의하였고그동의어로 BCG, 비씨지, 불주사 라는용어를수집하였다. 그림 5-2 예방접종관련게시글에포함된용어의 word cloud

제 5 장어린이예방접종소셜빅데이터분류를위한온톨로지개발 153 다. 어린이예방접종온톨로지개발 1) EAV 모델 (Entity-Attribute-Value model) 앞단계에서수집한어린이예방접종관련용어에서의미론적개념을추출하고, 동일하고특징적인성질을지닌개념들을클래스로생성하였다. 하나의클래스개념을개체 (entity) 로규정하고, 특징적인성질들을속성 (attribute) 으로표현하며, 고유의속성값 (value) 을정의하여 EAV 모델 (Entity-Attribute-Value model) 을개발하였다. 2) 온톨로지및용어체계개발 어린이예방접종과관련된클래스개념을일반적인개념에서부터시작하여구체적인세부개념으로계층화하여배치하고, 연구개념틀을기초로최상위클래스사이의관계를정의하여온톨로지를개발하였다. 클래스, 속성, 속성값에해당하는개념의유의어 / 동의어를수집하고배열하여용어체계를개발하였다. 라. 온톨로지평가 개발된온톨로지가개발목적에맞는내용을충분히포함하고있는지앞단계에서개발한 Competency questions를이용하여평가하였다. Protégé 5.0 프로그램내의 DL-Query를활용하여 Competency questions를 query로입력했을때, 개발된온톨로지가 Competency questions에적절하게답을제시하는정도로평가하였다.

154 2016 년소셜빅데이터기반보건복지이슈동향분석 제 3 절연구결과 1. 어린이예방접종온톨로지 본연구에서개발한어린이예방접종에대한부모의감정, 태도, 경험, 지식을설명하는온톨로지는인적요인, 구조사회문화요인, 정보요인, 환경요인, 예방접종의도, 예방접종행위, 행동반응요인의최상위클래스로구성된다. 그림 5-3 은각최상위클래스사이의관계와최상위클래스에포함되는하부클래스를표현한개념틀을제시하고있다. 그림 5-3 에제시된어린이예방접종온톨로지개념틀에따르면자녀의예방접종에대한부모의감정, 태도, 경험, 지식은예방접종이전단계에서부터예방접종시점과예방접종후까지의모든과정에영향을미치며예방접종후의감정, 태도, 경험, 지식은또다시차기예방접종에영향을미치는반복적인과정을거친다. 어린이예방접종에대한부모의감정, 태도, 경험, 지식을포함하고있는인적요인과이에영향을미치는구조사회문화요인, 정보요인, 환경요인이예방접종이전에예방접종의도에영향을미치고, 예방접종에대한의도는예방접종행위로이어지며, 예방접종후의행동반응요인은다시인적요인에영향을미친다. 인적요인, 구조사회문화요인, 정보요인, 환경요인, 예방접종의도, 예방접종행위, 행동반응요인들에대한상세설명과참고한문헌은다음과같다. 가. 인적요인 인적요인에는예방접종신념, 예방접종지식, 인구사회적요인, 자녀건 강, 의료서비스이용, 과거예방접종관련경험이포함된다.

제 5 장어린이예방접종소셜빅데이터분류를위한온톨로지개발 155 그림 5-3 어린이예방접종온톨로지개념틀 예방접종에대한신념은부모가자녀의예방접종에대해지니고있는생각과감정으로, 건강신념모델을이용하여예방접종에대한부모의인지를확인한여러연구 ( 임은실외, 2006; 김금순외, 2007; 차혜경외 2012; 오현경, 2015) 를기초로지각된유익성, 지각된심각성, 지각된민감성, 지각된장애요인, 자기효능감개념을추출하였다. 이들개념을설명하는용어로예방효과, 감염병위험성, 감염병전파성, 예방접종불신, 예방접종복잡성등을포함하였다. 예방접종에대한부모의지식은예방접종을결정하는데관련이있는지식의수준, 그지식의정보원으로구성된다 ( 정미은, 2007; 진선미, 이석구, 2007; 최인영외, 2007). 예방접종지식수준은예방접종대상감염병, 예방접종종류, 예방접종시기, 예방접종후이상반응, 예방접종주의사항에대해부모가스스로인지하는정도를포함하였다. 예방접종에대한정보를얻는정보원으로는정부에서제공하는예방접종수첩, 예방접종도우미사이트및앱, 대중매체, 의료기관, 의료인, 가족및주변이웃, 책을포함하였다. 인구사회적요인은부모, 자녀, 가족의인구사회적요인으로나뉘어구

156 2016 년소셜빅데이터기반보건복지이슈동향분석 성된다. 예방접종의영향요인을파악한연구 ( 진선미, 이석구, 2007; 최윤경외, 2008; 이무식외, 2012; 이석구, 전소연, 2015) 를기초로부모의인구사회적요인에연령, 교육수준, 직업을포함하였고, 자녀의인구사회적요인에성별, 연령, 출생순서, 출생지, 주양육자를포함하였다. 가족의사회적요인에자녀수, 가족형태, 혼인형태, 소득수준, 의료보장형태를포함하였다. 자녀의건강은예방접종을결정하기전필수적으로고려되는요인으로예방접종을하지않은이유에대한조사에서 질병을앓고있어서, 아이가아파서 와같은아이의건강상태 ( 이석구, 전소연, 2015) 가예방접종과밀접한관련이있는것으로나타나자녀의건강에자녀의건강상태와건강에대한인식을포함하였다. 건강상태는질병과장애여부및중증도로구성하였고건강에대한인식은부모가인지하는자녀의건강상태와정도로구성하였다. 자녀또는가족구성원의평소의료서비스이용은예방접종에긍정적인영향을미친다는연구 ( 박명배외, 2013) 결과에따라의료서비스이용에입원, 외래, 건강검진이용을포함하였다. 의료서비스이용대상을자녀, 형제 / 자매, 부모로나누었고외래이용은최근 2주이내를기준으로이용여부와횟수를, 입원은최근 1년이내를기준으로이용여부와일수를, 건강검진은최근 2년이내를기준으로시행여부와횟수를포함하였다. 또한부모가각의료서비스이용대상의이용정도에대해인식하는정도도포함하였다. 인적요인의하위분류및용어체계는 < 표 5-4> 와같다. 인적요인의데이터모델링예시는 < 표 5-5> 와같다.

제 5 장어린이예방접종소셜빅데이터분류를위한온톨로지개발 157 < 표 5-4> 인적요인의하위분류및용어체계 대분류 중분류 소분류 1 소분류 2 인적요인 예방접종신념 예방접종필요성 필요성 예방접종유익성 예방효과감염병유행감소 예방접종유해성 예방접종해로움예방접종부작용발생예방접종의고통유발 예방접종대상감염병심각성 감염병위험성감염병의고통유발감염병전파성감염병합병증발생 예방접종장애요인 예방접종일정잊어버림예방접종불신바쁨예방접종복잡성비용부담빠른접종시기지정의료기관과의먼거리많은예방접종항목 예방접종촉진요인 예방접종알림서비스제공취학시접종확인무접종아이기피예방접종수첩사용예방접종일정기억예방접종신뢰예방접종시간여유예방접종간단함예방접종비용지원여부적절한접종시기 예방접종지식 지식수준 예방접종대상감염병예방접종종류예방접종시기예방접종이상반응예방접종주의사항 정보원 정부대중매체의료기관의료인가족및주변이웃책 인구사회적요인 부모의인구사회적요인 연령 교육수준

158 2016 년소셜빅데이터기반보건복지이슈동향분석 대분류중분류소분류 1 소분류 2 직업성별 자녀의인구사회적요인 가족의사회적요인 연령출생순서출생지주양육자자녀수가족형태혼인상태소득수준의료보장형태 자녀건강 건강상태 질병장애 건강인식 건강하다허약하다 의료서비스이용 이용대상 자녀형제 / 자매어머니아버지 이용내용 최근 2주내외래이용여부최근 1년내입원여부최근 2년내건강검진시행여부 의료서비스이용에대한인식 과거예방접종관련경험 과거예방접종시행경험 과거예방접종대상감염병경험 경험대상예방접종경험여부이상반응발생여부감염병경험대상감염병종류 < 표 5-5> 인적요인의데이터모델링예시 ENTITY ATTRIBUTE VALUE 예방접종필요성 정도 반드시해야한다 / 해야한다 / 보통이다 / 하지않아야한다 / 전혀하지않아야한다 예방효과 정도 매우효과있다 / 효과있다 / 보통이다 / 효과없다 / 전혀효과없다 자녀의인구사회적요인 성별연령 출생순서출생지 남 / 여 0개월 /1개월/2개월/4개월/6개월/12개월/15개월 /18개월/24개월/36개월/ 만 4세 / 만 6세 / 만 11세 / 만 12세첫째 / 둘째 / 셋째이상가정분만 / 조산원 / 병원

제 5 장어린이예방접종소셜빅데이터분류를위한온톨로지개발 159 ENTITY ATTRIBUTE VALUE 주양육자 부모 / 조부모 / 친척, 보모 / 보육시설 가족의사회적요인 자녀수 독자녀 / 다자녀 가족형태 조손가족 / 한부모가족 / 일반가족 / 다문화가족 / 장애인가족 혼인상태 미혼 / 동거 / 기혼 / 이혼 / 별거 / 사별 소득수준 저소득층 / 중산층 / 고소득층 의료보장형태 건강보험 / 의료급여 나. 구조사회문화요인 구조사회문화요인에는사회적건강신념, 사회지리적요인, 예방접종이용가능성이포함된다. 사회적건강신념은개인이아닌대중의예방접종에대한일반적인감정과태도로, 예방접종을결정하는데중요한역할을하는것으로나타났다 ( 최인영, 2007; Brunson, 2012). 사회적건강신념은대중과부모, 주변사람의신념으로구성되는데사회적신념의내용은예방접종필요성, 예방접종효과, 예방접종유해성, 예방접종부작용발생, 예방접종신뢰, 예방접종복잡성으로구성된다. 주변사람의신념에는사회적신념에포함된내용에더해예방접종추천여부가포함된다. 사회지리적요인으로거주지, 예방접종기관의거리에대한내용을포함하였다. 거주지에따라예방접종에대한접근성및태도가달라지므로 ( 박명배외, 2013; 이석구, 전소연, 2015) 거주지를국내외와도시규모에따라대도시, 중소도시, 군지역으로구분하였다. 예방접종기관과의거리는이동하는데소요되는시간과이동거리를포함하였다. 예방접종이용가능성에는백신이용가능성, 경제적접근성, 국가예방접종지정의료기관을포함하였다. 백신이용가능성은원하는백신을맞으려할때백신이생산 유통되는지, 재고가충분한지에대한내용이포함되며경제적접근성은예방접종에드는비용지불여부, 비용이비싸

160 2016 년소셜빅데이터기반보건복지이슈동향분석 다고여기는지, 비용지원을받을수있는지가포함된다. 국가예방접종지정의료기관은거주지근처에이용할수있는국가예방접종지정보건소, 개인병의원, 종합병원이있는지, 걸어서이용가능한정도인거주지주위 1km 내에의료기관이몇개있는지, 휴일에진료가가능한지여부를포함하였다. 구조사회문화요인의하위분류및용어체계는 < 표 5-6> 과같다. 구조사회문화요인의데이터모델링예시는 < 표 5-7> 과같다. < 표 5-6> 구조사회문화요인의하위분류및용어체계 대분류중분류소분류 1 소분류 2 구조사회문화요인 사회적건강신념 사회지리적요인 예방접종이용가능성 예방접종에대한사회적신념 예방접종에대한주변사람의신념 거주지 예방접종기관과의거리 백신이용가능성 경제적접근성 예방접종필요성의사회적인식예방접종효과의사회적인식예방접종유해성의사회적인식예방접종부작용발생의사회적인식예방접종신뢰의사회적인식예방접종복잡성의사회적인식 예방접종필요성에대한주변사람의인식예방접종효과에대한주변사람의인식예방접종유해성에대한주변사람의인식예방접종부작용발생에대한주변사람의인식예방접종신뢰에대한주변사람의인식예방접종복잡성에대한주변사람의인식주변사람의예방접종추천 국내외도시규모 소요시간이동거리 백신생산백신재고 비용지불여부

제 5 장어린이예방접종소셜빅데이터분류를위한온톨로지개발 161 대분류 중분류 소분류 1 소분류 2 비용정도 비용지원여부 국가예방접종지정의료기관 이용가능한의료기관거주지에서도보가능한지정의료기관수 휴일진료여부 < 표 5-7> 구조사회문화요인의데이터모델링예시 ENTITY ATTRIBUTE VALUE 거주지 국내외 국내 / 국외 도시규모 대도시 / 중소도시 / 군지역 예방접종기관과의 소요시간 걸어서 20분이하 / 걸어서 20분초과 거리 이동거리 거주지 1km 이하 / 거주지 1km 초과 거리에대한인식 가깝다 / 적당하다 / 멀다 백신이용가능성 백신생산여부 만든다 / 안만든다 백신재고여부 있다 / 없다 경제적접근성 비용지불여부 유료 / 무료 비용정도 비싸다 / 적당하다 / 싸다 비용지원여부 지원한다 / 지원하지않는다 국가예방접종지정의료기관 이용가능한지정의료기관거주지에서도보가능한지정의료기관수휴일진료여부 보건소 / 개인병의원 / 종합병원 0 개 /1 개 /2 개 /3 개이상 가능하다 / 가능하지않다 다. 정보요인 정보요인에는예방접종과관련된정보와예방접종을하는의료기관에대한정보가포함된다. 예방접종정보는질병관리본부에서제공한 예방접종대상감염병의역학과관리 와미국의 CDC(Centers for Disease Control), 영국의 NHS(National Health Service) 에서제공하는예방접종실무지침을기

162 2016 년소셜빅데이터기반보건복지이슈동향분석 초로예방접종의종류, 예방접종대상감염병, 백신구분, 투여경로, 접종비용지원여부, 원인병원체, 투여회차, 투여시기, 투여부위, 이상반응정보, 이상반응대처법으로구성하였다. 의료기관정보는의료기관별정보, 의료진정보, 의료기관서비스정보로구성하였다. 의료기관별정보에는예방접종을할수있는의료기관의종류, 해당의료기관에서접종가능한예방접종의종류, 진료과목, 국가지정의료기관여부, 의료기관의평판, 병원인증획득여부와획득했다면획득한병원인증제의종류를포함하였다. 의료진정보에는의료진의평판과의료진이예방접종을권유하는지아닌지가포함된다. 의료기관서비스제공정보에는예방접종기록, 예방접종사전알림서비스, 예방접종교육이포함된다. 정보요인의하위분류및용어체계는 < 표 5-8> 과같으며, 정보요인의데이터모델링예시는 < 표 5-9> 와같다. < 표 5-8> 정보요인의하위분류및용어체계 대분류 중분류 소분류 1 소분류 2 정보요인 예방접종정보 예방접종종류 결핵예방접종 B형간염예방접종디프테리아 / 파상풍 / 백일해예방접종폴리오예방접종 b형헤모필루스인플루엔자예방접종폐렴구균예방접종홍역 / 유행성이하선염 / 풍진예방접종수두예방접종 A형간염예방접종일본뇌염예방접종인플루엔자예방접종로타바이러스예방접종인유두종바이러스예방접종 예방접종대상 결핵

제 5 장어린이예방접종소셜빅데이터분류를위한온톨로지개발 163 대분류중분류소분류 1 소분류 2 감염병 B형간염디프테리아파상풍백일해소아마비뇌수막염폐렴홍역유행성이하선염풍진수두 A형간염백신구분뇌염독감투여경로장염인유두종바이러스감염피내주사경피주사경구접종비용국가예방접종지원여부기타예방접종원인병원체세균바이러스투여회차 1차 2차 3차 4차 5차 6차매년접종투여시기생후 0개월생후 1개월생후 2개월생후 4개월

164 2016 년소셜빅데이터기반보건복지이슈동향분석 대분류 중분류 소분류 1 소분류 2 생후 6개월 생후 12개월 생후 15개월 생후 18개월 생후 24개월 생후 36개월 만 4세 만 6세 만 11세 만 12세 투여부위 허벅지전외측 허벅지근육 상완외측면 삼각근 백신별 이상반응정보 이상반응대처법 발열대처법접종부위이상반응대처법 의료기관정보 의료기관 의료기관종류접종가능한예방접종종류진료과목국가예방접종지정의료기관여부의료기관평판병원인증획득여부획득한병원인증제종류 의료진 의료진의예방접종권유여부의료진평판 의료기관서비스 예방접종기록 예방접종사전알림서비스 예방접종교육

제 5 장어린이예방접종소셜빅데이터분류를위한온톨로지개발 165 < 표 5-9> 정보요인의데이터모델링예시 ENTITY ATTRIBUTE VALUE 결핵 원인병원체 결핵균 예방접종 대상감염병 결핵 백신구분 생백신 투여경로 피내주사 / 경피주사 투여부위 상완외측면 투여회차 1차 투여시기 생후 0개월 상품명 피내용비시지 / 경피용비시지 접종비용지원여부 지원한다 / 지원안한다 보건소 접종비용 - 경피용비시지 발생가능한이상반응 국가예방접종지정의료기관여부 접종가능한예방접종 평판 5 만원미만 /5 만원 /6 만원 /7 만원 /8 만원 /9 만원 /10 만원 /10 만원초과 접종부위통증 / 접종부위부종 / 접종부위발적 / 접종부위흉터 / 접종부위염증 / 화농성림프절염 /BCG 골염 / 전신파종성 BCG 감염증 / 무통성궤양 / 켈로이드 맞다 / 아니다 결핵피내용예방접종 /B 형간염예방접종 / 디프테리아 파상풍 백일해예방접종 / 폴리오예방접종 /b 형헤모필루스인플루엔자예방접종 / 폐렴구균백신 / 홍역 유행성이하선염 풍진예방접종 / 수두예방접종 /A 형간염예방접종 / 일본뇌염예방접종 / 인플루엔자예방접종 매우좋다 / 좋다 / 보통이다 / 나쁘다 / 매우나쁘다 라. 환경요인 환경요인에는정부의예방접종관련정책, 예방접종에대한미디어보도, 감염병의유행이포함된다. 정부의예방접종관련정책은예방접종실행정책, 정보제공정책, 재정지원정책, 예방접종실태조사로구성하였다. 예방접종실행정책에는필수적으로맞아야하는예방접종종류와시기가포함되고, 정보제공정책에는예방접종에대한일반적인정보를제공하는예방접종도우미사이트및앱, 예방접종일정을잊어버리지않

166 2016 년소셜빅데이터기반보건복지이슈동향분석 도록문자로알려주는정기예방접종사전알림, 예방접종지정의료기관의이름과위치같은정보를알려주는의료기관찾기서비스가포함된다. 재정지원정책에는 0세에서 12세에접종해야할 14종의예방접종비용을지원하는어린이국가예방접종지원사업이포함되고, 예방접종실태조사에는예방접종률조사, 취학아동예방접종확인사업, 예방접종등록사업, 예방접종에대한생각, 태도등을파악하는예방접종국민의식조사, 예방접종인식조사, 예방접종지원정책만족도조사가포함된다. 미디어를통한예방접종관련보도는부모의예방접종에대한감정, 태도, 경험, 지식에큰영향을미친다. 예방접종과관련한미디어보도에더해예방접종에대한국민의인식을파악한 예방접종안전성및정보교환에관한국민의식조사 와 예방접종안전성이슈에대한커뮤니케이션전략연구 보고서를기반으로미디어매체종류, 미디어의보도내용, 미디어성향, 보도내용의심각성및보도빈도를포함하였다. 예방접종대상감염병또는신종감염병의유행에는유행하는감염병에대해인지하고있는심각성, 전파정도, 유행질환의종류가포함된다. 감염병의심각성과전파정도에는부모가인지하는수준을포함하였고, 유행질환의종류에는통계청에서발표한법정감염병발생현황을기초로최근유행한감염병을포함하였다. 환경요인의하위분류및용어체계는 < 표 5-10> 과같으며, 환경요인의데이터모델링예시는 < 표 5-11> 과같다. < 표 5-10> 환경요인의하위분류및용어체계 대분류 중분류 소분류 1 소분류 2 환경요인 정부정책 예방접종실행정책 국가예방접종 정보제공정책 기타예방접종표준예방접종일정예방접종도우미정기예방접종사전알림

제 5 장어린이예방접종소셜빅데이터분류를위한온톨로지개발 167 대분류 중분류 소분류 1 소분류 2 예방접종지정의료기관정보제공 재정지원정책 국가예방접종지원사업 예방접종실태조사 전국예방접종률조사취학아동예방접종확인예방접종등록사업예방접종국민의식조사예방접종인식조사예방접종지원정책만족도조사 미디어보도 미디어보도매체 TV 신문광고라디오 미디어보도내용 예방접종관련일반정보예방접종관련질병예방접종약, 백신예방접종관련정책및홍보예방접종에대한인식예방접종안전성, 관련사건, 사고예방접종현황예방접종관련인물, 기관예방접종관련해명 미디어보도성향 긍정적중립적부정적 미디어보도내용심각성미디어보도빈도 감염병유행 유행질환 독감홍역수두폐렴결핵 A형간염백일해 유행성이하선염

168 2016 년소셜빅데이터기반보건복지이슈동향분석 대분류중분류소분류 1 소분류 2 전파정도감염병심각성 신종플루에볼라메르스지카바이러스 < 표 5-11> 환경요인의데이터모델링예시 ENTITY ATTRIBUTE VALUE 예방접종실행정책 항목국가예방접종 / 기타예방접종 / 표준예방접종일정홍보정도잘알고있다 / 알고있다 / 보통이다 / 모른다 / 전혀모른다만족도매우만족 / 만족 / 보통 / 조금불만족 / 불만족 미디어보도 보도매체 TV/ 신문 / 광고 / 라디오 보도내용 예방접종관련일반정보 / 예방접종관련질병 / 예방접종약, 백신 / 예방접종관련정책및홍보 / 예방접종에대한인식 / 예방접종안전성, 관련사건, 사고 / 예방접종현황 / 예방접종관련인물, 기관 / 예방접종관련해명 보도내용심각성 매우심각하다 / 심각하다 / 보통이다 / 심각하지않다 / 전혀심각하지않다 보도성향 긍정적 / 중립적 / 부정적 보도빈도 매우자주보도한다 / 자주보도한다 / 보통이다 / 가끔보도한다 / 전혀보도하지않는다 감염병유행 전파정도 매우잘전파된다 / 잘전파된다 / 보통이다 / 가끔전파된다 / 전혀전파되지않는다 심각성 매우심각하다 / 심각하다 / 보통이다 / 심각하지않다 / 전혀심각하지않다 유행질환 장티푸스 / 홍역 / 유행성이하선염 /B형간염/ 수두 / 말라리아 / 성홍열 / 쓰쓰가무시 /A형간염/ 신증후군출혈열 / 독감

제 5 장어린이예방접종소셜빅데이터분류를위한온톨로지개발 169 마. 예방접종의도 예방접종의도는예방접종을할것인지하지않을것인지에대한부모의생각으로어떤예방접종의몇번째회차를어느의료기관에서언제접종할것인지, 접종하지않을것인지, 접종여부를결정하지못하고고민하고있는지를의미한다. 구성요소로예방접종여부, 예방접종항목, 예방접종차수, 예방접종기관, 예방접종양상을포함하였다. 예방접종의도의하위분류및용어체계는 < 표 5-12> 이며, 예방접종의도의데이터모델링은 < 표 5-13> 과같다. < 표 5-12> 예방접종의도의하위분류및용어체계 대분류중분류소분류 1 소분류 2 예방접종의도예방접종여부접종한다 예방접종항목 예방접종차수 고민중이다접종하지않는다결핵예방접종 B형간염예방접종디프테리아 / 파상풍 / 백일해예방접종폴리오예방접종 b형헤모필루스인플루엔자예방접종폐렴구균백신홍역 / 유행성이하선염 / 풍진예방접종수두예방접종 A형간염예방접종일본뇌염예방접종인플루엔자예방접종로타바이러스예방접종인유두종바이러스예방접종 1차 2차 3차

170 2016 년소셜빅데이터기반보건복지이슈동향분석 대분류중분류소분류 1 소분류 2 4차 5차 6차예방접종기관보건소개인병의원종합병원예방접종양상적기접종지연접종 < 표 5-13> 예방접종의도의데이터모델링 ENTITY ATTRIBUTE VALUE 예방접종의도 여부 접종한다 / 고민중이다 / 접종하지않는다 항목 결핵예방접종 /B형간염예방접종 / 디프테리아 파상풍 백일해예방접종 / 폴리오예방접종 /b형헤모필루스인플루엔자예방접종 / 폐렴구균백신 / 홍역 유행성이하선염 풍진예방접종 / 수두예방접종 /A형간염예방접종 / 일본뇌염예방접종 / 인플루엔자예방접종 / 로타바이러스예방접종 / 인유두종바이러스예방접종 차수 1차 /2차/3차/4차/5차/6차 접종기관 보건소 / 개인병의원 / 종합병원 양상 적기접종 / 지연접종 바. 예방접종행위 예방접종행위는예방접종을하는시점에확인해야할사항과예방접종경험으로접종전확인사항과예방접종행위로구성하였다. 예방접종전확인해야할사항은예방접종에대한금기사항이있는지, 주의해야할사항이있는지, 예방접종당일의건강상태가어떤지, 준비물은무엇인지를포함한다. 예방접종행위는어떤예방접종항목의몇번째회차를

제 5 장어린이예방접종소셜빅데이터분류를위한온톨로지개발 171 어느접종기관에서접종했는지, 하지않았는지, 예방접종을모두시행했는지, 같은날몇개의예방접종을했는지가포함된다. 예방접종행위의하위분류및용어체계는 < 표 5-14> 와같으며, 예방접종행위의데이터모델링예시는 < 표 5-15> 와같다. < 표 5-14> 예방접종행위의하위분류및용어체계 대분류중분류소분류 1 소분류 2 예방접종행위 접종전확인사항 예방접종행위 접종금기사항확인 당일의건강상태확인 준비물확인 예방접종행위여부접종항목 영구적금기사항예방접종주의사항 건강상태인식발열감기기침콧물가래중이염설사예방접종수첩지참 결핵예방접종 B형간염예방접종디프테리아 / 파상풍 / 백일해예방접종폴리오예방접종 b형헤모필루스인플루엔자예방접종폐렴구균백신홍역 / 유행성이하선염 / 풍진예방접종수두예방접종 A형간염예방접종일본뇌염예방접종인플루엔자예방접종

172 2016 년소셜빅데이터기반보건복지이슈동향분석 대분류 중분류 소분류 1 소분류 2 로타바이러스예방접종인유두종바이러스예방접종 접종차수접종기관 보건소개인병의원종합병원 접종완료여부 완전접종불완전접종 접종시기준수여부 적기접종지연접종 같은날접종한개수 < 표 5-15> 예방접종행위의데이터모델링예시 ENTITY ATTRIBUTE VALUE 영구적금기사항 항목 백신성분에대한아나필락시스발생 / 백일해백신투여 7일내뇌증발생 여부 있다 / 없다 예방접종주의사항 항목 약이나음식물 ( 계란포함 ) 로인한알레르기증상 / 이전예방접종후이상반응발생 / 경련경험 / 암, 백혈병, 면역계질환진단 / 최근 3개월내스테로이드, 항암제, 방사선치료시행 / 최근 1 년내수혈또는면역글로불린투여 여부 있다 / 없다 예방접종행위 여부 접종했다 / 접종하지않았다 항목 결핵예방접종 /B형간염예방접종 / 디프테리아 파상풍 백일해예방접종 / 폴리오예방접종 /b형헤모필루스인플루엔자예방접종 / 폐렴구균백 신 / 홍역 유행성이하선염 풍진 예방접종 / 수두 예방접종 /A형간염예방접종 / 일본뇌염예방접 종 / 인플루엔자예방접종 / 로타바이러스예방접 종 / 인유두종바이러스예방접종 차수 1차 /2차/3차/4차/5차/6차 접종기관 보건소 / 개인병의원 / 종합병원 접종완료 여부 완전접종 / 불완전접종

제 5 장어린이예방접종소셜빅데이터분류를위한온톨로지개발 173 ENTITY ATTRIBUTE VALUE 접종시기준수여부 적기접종 / 지연접종 같은날접종한개수 1개 /2개/3개/4개/5개이상 사. 행동반응요인 행동반응요인은예방접종을하고난후의부모의감정, 태도, 경험등으로예방접종관련의료서비스경험, 예방접종후이상반응경험이포함된다. 예방접종과관련된의료서비스의경험은의료기관에따른경험, 의료진에따른경험으로구성하였다. 의료기관에대한경험에는의료기관인보건소, 개인병의원, 종합병원의이용여부, 이용만족도, 이용대기시간, 타인에대한추천여부가포함된다. 의료진에대한경험은의사와간호사의친절도와만족도가포함된다. 예방접종후이상반응경험에는예방접종을하고난후이상반응의발생여부, 발생한이상반응의항목, 발생시기, 지속기간, 이상반응의인지된중증도, 이상반응대처여부가포함된다. 행동반응요인의하위분류및용어체계는 < 표 5-16> 과같으며행동반응요인의데이터모델링예시는 < 표 5-17> 과같다. < 표 5-16> 행동반응요인의하위분류및용어체계 대분류중분류소분류 1 소분류 2 행동반응요인 의료서비스경험 예방접종후이상반응경험 의료기관 의료진 이상반응발생여부 이상반응항목 보건소경험개인병의원경험종합병원경험 의사경험간호사경험 결핵예방접종후이상반응

174 2016 년소셜빅데이터기반보건복지이슈동향분석 대분류 중분류 소분류 1 소분류 2 B형간염예방접종후이상반응디프테리아 / 파상풍 / 백일해예방접종후이상반응폴리오예방접종후이상반응 b형헤모필루스인플루엔자예방접종후이상반응폐렴구균예방접종후예방접종홍역 / 유행성이하선염 / 풍진예방접종후이상반응수두예방접종후이상반응 A형간염예방접종후이상반응일본뇌염예방접종후이상반응인플루엔자예방접종후이상반응로타바이러스예방접종후이상반응인유두종바이러스예방접종후이상반응 이상반응발생시기 접종당일 1일후 2일후 1주일내 이상반응지속기간 1일 2일 1주일내 1주일이상 이상반응중증도이상반응대처가능여부

제 5 장어린이예방접종소셜빅데이터분류를위한온톨로지개발 175 < 표 5-17> 행동반응요인의데이터모델링예시 ENTITY ATTRIBUTE VALUE 보건소이용 여부 있다 / 없다 경험 만족도 매우만족 / 만족 / 보통 / 불만족 / 매우불만족 이용대기시간 길다 / 적당하다 / 짧다 타인에대한추천여부 추천한다 / 추천하지않는다 B 형간염예방접종후이상반응경험 발생여부 항목 발생시기지속기간 중증도 있다 / 없다 접종부위통증 / 접종부위부종 / 접종부위발적 / 접종부위발적 / 발열 / 피로감 / 두통 / 보챔 / 아나필락시스 접종당일 /1 일후 /2 일후 /1 주일내 1일 /2일/1주일내 /1주일이상매우심각하다 / 심각하다 / 보통이다 / 심각하지않다 / 전혀심각하지않다 그림 5-4 는본연구에서개발한어린이예방접종온톨로지를 Protégé 5.0 을이용하여최상위클래스와최상위클래스의관계뿐아니 라최상위클래스에포함되는하부클래스를제시한것이다. 그림 5-4 어린이예방접종온톨로지

176 2016 년소셜빅데이터기반보건복지이슈동향분석 2. 온톨로지평가 본연구에서개발한어린이예방접종온톨로지의범위와영역은개발단계에서작성한 17개의 Competency questions에적절하게답을제시하는지로평가하였다. 구체적인평가방법은 Protégé 5.0의 DL- Query를이용하여개념과개념간의관계를형식에맞게 query로입력한후그결과를확인하였다. Competency questions 에따른 DL-Query 는 < 표 5-18> 과같다. < 표 5-18> Competency questions 와 DL-Query Competency questions 예방접종을결정하는데영향을주는요인은무엇인가? 예방접종에대해어떤감정을가지고있는가? 예방접종을하는데고려하는자녀의건강상태는무엇인가? 예방접종에대한지식수준은어떠한가? 어린이가맞아야하는예방접종은무엇인가? 결핵예방접종후발생가능한이상반응은무엇인가? 만 1세인자녀는어떤예방접종을해야하는가? 예방접종에대한정보는어떤매체를통해얻는가? 예방접종에영향을주는자녀와관련된요인은? 예방접종에영향을주는과거예방접종관련경험은무엇인가? 예방접종비용에대해어떻게생각하는가? DL-Query Is Influence Of some intention_to_vaccinate Is Sentiment Of some intention_to_vaccinate Is Health State Of some intention_to_vaccinate Is Knowledge Of some personal_factor Type Of some vaccination Is Adverse Reaction Of some BCG_vaccination Is Schedule Of some 1_years_old_children Is Information Source Of some personal_factor Is Child Demographics Of some intention_to_vaccinate Is Past Experience Of some vaccination Is Economic Affordability Of some intention_to_vaccinate

제 5 장어린이예방접종소셜빅데이터분류를위한온톨로지개발 177 Competency questions 디프테리아 / 파상풍 / 백일해예방접종후경험한이상반응은무엇인가? 예방접종후발열시어떻게해야하는가? 예방접종을하러간의료기관에대해만족하는가? 의료진은친절한가? 정부의예방접종관련정책은무엇이있는가? 예방접종관련미디어의성향은어떠한가? DL-Query Is Experience Advese Reaction Of some DTP_vaccination Is Fevermanage Of some information_factor Is Satisfaction Of some public_health_center Is Kindness Of some staff Is Policy Of some intention_to_vaccinate Is Media Tendency Of some intention_to_vaccinate 평가결과, 본연구에서개발한어린이예방접종온톨로지가작성된 17개의 Competency questions에대해모두정확한결과를도출하였다. [ 그림 5-5] 는 Competency questions 중 예방접종을결정하는데영향을주는요인은무엇인가? 라는질문에대한답을찾는쿼리 (query) 를입력한결과를나타낸예이다. 3. 어린이예방접종소셜빅데이터온라인문서현황 가. 분석방법 1) 연구대상 본연구는국내의온라인뉴스사이트, 블로그, 카페, 소셜네트워크서비스 (SNS), 게시판등인터넷을통해수집된소셜빅데이터를대상으로하였다. 본분석에서는 99개의온라인뉴스사이트, 3개의블로그 ( 네이버 다음 티스토리 ), 2개의카페 ( 네이버 다음 ), 1개의 SNS( 트위터 ), 10개

178 2016 년소셜빅데이터기반보건복지이슈동향분석 의게시판 ( 네이버지식인 네이트지식 네이트톡 네이트판등 ) 총 115개의온라인채널을통해수집가능한텍스트기반의웹문서 ( 버즈 ) 를소셜빅데이터로정의하였다. 지카바이러스관련토픽은 2016. 1. 1. 2016. 4. 15. 해당채널에서요일별, 주말, 휴일을고려하지않고매시간단위로수집하였으며, 수집된총 6만 5673건의텍스트 (Text) 문서를본연구분석에포함시켰다. 본연구를위한소셜빅데이터의수집 23) 은크롤러 (Crawler) 를사용하였고, 토픽의분류는주제분석 (text mining) 기법을사용하였다. 지카바이러스토픽은모든관련문서를수집하기위해 지카바이러스, Zikavirus, 그리고 지카바이러스감염 등을사용하였다. 그림 5-5 Competency questions 평가과정예시 23) 본연구를위한소셜빅데이터의수집및토픽분류는 ( 주 )SK 텔레콤스마트인사이트 에서수행함.