Original Article J Health Info Stat 2016;41(4):417-427 https://doi.org/10.21032/jhis.2016.41.4.417 pissn 2465-8014 eissn 2465-8022 소셜빅데이터기반보건복지정책미래신호예측 송태민 1, 송주영 2 1 한국보건사회연구원, 2 펜실베이니아주립대학 Future Signals of Health and Welfare Policies and Issues using Social Big Data Tae-min Song 1, Juyoung Song 2 1 Korea Institute for Health and Social Affairs, Sejong, Korea; 2 Department of Administration of Justice, Pennsylvania State University, PA, USA Objectives: The purpose of this study is to collect health and welfare-related documents mentioned in and collectable from online channels, analyze important health and welfare keywords through topic and sentimental analyses, detect future signals concerning major policies and issues related to health and welfare services, and propose a prediction model. Methods: 201,849 Health & Welfare related online documents from January 1 to March 31, 2016 from 171 Korean online channels and analyzed such documents using machine learning with random forest and Apriori algorithm association analysis. We used R software (version 3.2.1) for the association analysis data mining and visualization. Results: As for the prediction of future signals of health and welfare policies, policies that were important and supported by the people were welfare payment, health promotion, job, marriage/childbirth, health insurance, and healthcare industry (in this order). Specifically, as support for documents mentioning welfare payment and jobs was high, job creation through building a spontaneous welfare system is thought to be needed. Additionally, similar to the linkage analysis result of policies, as people were against documents that mentioned only {basic pension} policies, but supported documents that included {basic pension, welfare payment, job}, there is a strong demand for the establishment of a welfare system through active self-support and labor of the elderly. Conclusions: Social big data can be utilized in various areas. First, similar to the application in this study, future signals concerning government s policies and new technologies can be predicted in advance and prepared for. Second, they can be used as a new data collection methods that supplement limitations in survey data collection systems. Finally, a preemptive response system against risk can be established through monitoring and predicting social crisis. Key words: Social big data, Machine learning, Future signals, Health & welfare 서론 연구의필요성우리나라는 2001년부터 2014년까지합계출산율 1.3 미만의초저출산율이 10년이상지속되고있고, 기대수명은 1970년 62.1세, 1990년 71.3세, 2013년 81.9세로지속적으로증가하고있다 [1]. 또한, 2000년고령화사회 ( 노인인구 7%) 에진입한이후 65세이상노인인구비중은꾸준히증가하는추세에있다. 2017년에는노인인구비율이 14% 를넘어고령사회 (aged society) 에진입하고, 2025년에는 20% 로초고령사회에들어서게되며 2050년에는우리나라의고령화율은 38.2% 로급증하여 Corresponding author: Juyoung Song 200 University Drive, Schuylkill Haven, PA 17972, U.S.A Tel: +1-570-385-6171, E-mail: jxs6190@psu.edu Received: September 26, 2016 Revised: November 27, 2016 Accepted: November 28, 2016 *This research was supported by the ICT R&D program of MSIP/IITP, [R7117-16-0219, Development of Predictive Analysis Technology on Socio-Economics using Self-Evolving Agent-Based Simulation embedded with Incremental Machine Learning]. and Some of the articles are listed Song Tae Min(2016). Using Social Big Data Predictive Future Signal: With Special Reference to the Major Policy Issues of Health and Welfare, Health and Welfare Policy Forum(228), Korea Institute for Health and Social Affairs is published. How to cite this article: Song T, Song J. Future Signals of Health and Welfare Policies and Issues using Social Big Data. J Health Info Stat 2016;41(4):417-427. Doi: https://doi.org/10.21032/jhis.2016.41.4.417 It is identical to the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0) whichpermit sunrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited. 2016 Journal of No potential conflict of interest relevant to this article was reported. http://www.e-jhis.org 417
Tae-min Song and Juyoung Song 일본 (39.6%) 다음으로노인인구비율이높은수준 (OECD 평균 25.8%) 이될것으로전망하고있다 [1]. 이와같은초저출산과인구고령화로인해생산가능인구는감소하고노인부양비가급증하는등 지속가능한성장 과 국민행복 의시대에큰걸림돌이되고있다. 인구감소와고령화로총부양률이 2016년부터본격적으로증가하고, 노년부양비도 2010년 15.2% 에서 2050년 71.0% 수준으로급증할것으로예측하고있다 [2]. 그리고상대적으로높은비정규직비율과정규직과의임금격차는잠재적복지수요를증가시키며, 이러한고용구조와소득분배구조의악화로인한사회보장비는증가할것으로본다. 이와같은보건복지여건및환경변화에따라보건복지수요는증가하고있으며이러한복지수요에대응하기위하여정부는 2015년에 116조원을예산을보건. 복지. 고용에투입하였고 2016년에는 123조원을투입하고있으며, 향후에도지속적으로증가될것으로판단한다. 그러나제도의미성숙, 제도간의연계성부족, 복지수요와공급간의조응성미흡등으로국민의복지만족도와행복도는높지않는편이다 [1]. 따라서복지만족도와국민행복도를높이기위해서는국민이필요로하는욕구를우선순위별로파악하여분배정의 (distributive justice) 에따라예산을배분하고, 객관적인보건복지수요조사를바탕으로근거중심의정책개발및예산배정이필요하다. 국내의대표적인국민의복지욕구조사는보건복지부. 한국보건사회연구원에서매년실시하는 보건복지정책수요조사및분석 과통계청에서실시하는 사회조사 가있다. 이들조사의대부분은보건복지와관련된일부정책이나전반적인정책에대한만족도와복지수준에대한인식조사로서보건복지와관련된다양한정책의수요예측은미흡한실정이다. 국민이요구하는보건복지정책수요를예측하기위해서는다양한산업의종사자나일반인을대상으로설문조사를실시해야한다. 기존에실시하던횡단적조사나종단적조사등을대상으로한연구는정해진변인들에대한개인과집단의관계를보는데는유용하나, 사이버상에언급된개인별담론에서논의된관련변인의상호간의연관관계를밝히고원인을파악하는데는한계가있다 [3]. 따라서보건복지정책을성공적으로추진하여예상하는성과를얻기위해서는다양한보건복지욕구와이해집단과의갈등을최소화하기위한정책동향및수요를예측하여적시에대응할수있는체계구축이필요하다. 이를위해서는오프라인보건복지정책수요조사와함께온라인에서수집된보건복지정책에대한미래신호탐색과예측을하여야한다. 연구의목적본연구는우리나라에서수집가능한모든온라인채널에서언급된보건복지관련문서를수집하여주제분석과감성분석을통하여보건복지주요키워드를분류하고보건복지와관련하여나타나는주요정 책과이슈에대한미래신호를탐지하여예측모형을제시하고자한다. 본연구의목적을달성하기위한구체적인내용은다음과같다. 첫째, 보건복지와관련한소셜빅데이터를분석하기위해주제분석 (text mining) 과감성분석 (opinion mining) 을실시한다. 둘째, 단어빈도와문서빈도를활용하여보건복지주요정책에대한신호를탐지한다. 셋째, 머신러닝분석을통하여탐지된보건복지주요신호에대한미래신호를예측한다. 이론적배경 2016년보건복지주요정책및수요현정부는국민이행복한사회를이루기위한사회보장정책방향으로 생애주기별맞춤형복지 를제시하고, 이를실현하기위해다양한맞춤형복지정책을도입및확대하고있다 [4]. 지난 3년간취약계층보호및사회보장을위한생애주기별맞춤형복지의큰프레임을구축하였으며, 저소득층의자립유인및실질적기초생활지원강화를위해통합급여를생계 의료 주거 교육급여등맞춤형급여로개편하였고, 의료보장성강화및노후생활을지원하였다. 2016년도에는국민이체감하는맞춤형복지확산을목표로맞춤형복지제도내실화 ( 맞춤형기초생활보장제도정착, 4대중증질환등의료보장지속, 맞춤형보육개편, 기초연금및장기요양지원확대 ), 복지사각지대적극해소 ( 복지안내강화, 정부3.0 위기가구선제발굴, 취약계층필수서비스지속확충, 노후준비등불안요인해소지원 ), 읍면동중심복지전달체계구축 ( 읍면동복지허브화, 읍면동중심통합서비스제공 ) 을중점추진중에있다. 우리경제에혁신과재도약을위해 2014년수립된경제혁신 3개년계획의핵심개혁과제로선정된보건 의료서비스업육성의일환으로바이오헬스산업을새로운성장동력으로육성하는정책을추진중에있다. 2017년바이오헬스산업 7대강국도약을목표로 2016년에는한국의료의세계적브랜드화 ( 외국인환자유치촉진, 한국의료해외진출확대, 디지털헬스케어해외진출 ), ICT (information & communication technology) 융합기반의료서비스창출 ( 국민체감형원격의료확산, 진료정보교류활성화, 의료법개정 ), 제약 의료기기산업미래먹거리로육성 ( 신약개발등제약산업육성, 정밀 재생의료산업활성화, 첨단의료기기개발지원 ) 을주요추진과제로선정하여추진하고있다. 우리나라의복지수요는다음의네가지측면에서증가할것으로보고있다 [1]. 첫째, 저출산 고령화, 경제성장률하락, 높은비정규직및자영업비율, 빈곤및분배구조변화에따라복지수요는증가될것으로추론되고있다. 둘째, 연금제도의성숙등보건복지제도성숙에따라공공사회복지지출비중 (SOCX (social expenditure database) 기준 ) 은 2060년에 GDP 대비약 29.0% 로증가하는등복지수요는증가할것 418 http://www.e-jhis.org
Future Signals of Health and Welfare Policies 으로예측하고있다. 셋째, 상병수당, 아동수당등의새로운보건복지제도도입에따라복지수요는증가할것으로보고있다. 넷째, 사회복지서비스영역에서선별복지에서보편복지로의전환으로복지수요는증가할것으로보고있다. 미래신호예측미래변화의트랜드를파악하고미래의핵심기술을선별하기위하여, 주요선진국들은주기적으로국가의미래트랜드를분석하고그결과를발표하고있다 [5]. 그동안 US Strategic Business Insight [6], Finland Futures Research Center [7] 등많은연구그룹들은미래트랜드를예측하기위한다양한연구가시도되어왔으나대부분전문가의지식과의견에따라미래를전망하는방법을사용하여왔다 [8]. 최근 SNS를비롯한온라인채널에서생산되는텍스트형태의비정형데이터가실제경제및사회에미치는영향력이매우높아짐에따라소셜빅데이터 (social big data) 를활용한미래예측연구가진행되고있으나수집기술과분석기술의어려움으로활발히확산되지못하고있는실정이다. 미래의환경변화를감지하기위한다양한연구가시도되고있으며, 여러연구중에서가장많은주목을받고있는것은미래의변화를예감할수있는약신호 (weak signal) 를탐지하는것이다 [9,10]. 약신호는 미래에가능한변화의징후 [11] 로약신호는시간이흐르면서강신호 (strong signal) 로, 강신호는다시트랜드 (trend) 나메가트랜드 (mega trend) 로발전할수있다. Hiltunen [12] 은약신호를미래신호 (future sign) 라는개념을이용하여미래신호를신호 (signal), 이슈 (issue), 이해 (interpretation) 와같이 3차원의미래신호공간으로설명하였다. 온라인채널에서수집된텍스트형태의문서를분석하기위해서는텍스트마이닝 (text mining) 을통하여우선적으로문서내에서출현하는단어별빈도를산출해야한다. 텍스트마이닝분석을위해서는단어빈도 (term frequency, TF) 와문서빈도 (document frequency, DF) 산출해야한다. 단어빈도의산출은각문서에서단어별출현빈도를산출하고, 문서별출현빈도를합산하여산출할수있다. 문서빈도는특정단어가출현하는문서의수를나타낸다. 텍스트마이닝에서중요한정보의추출을위해서 term frequency-inverse document frequency (TF-IDF) 방법을사용하고있다. TF-IDF는여러문서로이루어진문서군이있을때어떤단어가특정문서에얼마나중요한것인지를나타내는통계적수치이다 [5]. Spärck [13] 는희귀한단어일수록더높은가중치를부여하기위해서역문서빈도 (inverse document frequency, IDFj = ) 를제안하였다. 따라서단어빈도분석에희귀한단어일수록더높은가중치를부여할필요가있다면단어빈도와역문서빈도를결합하여 TF- IDF =TFij IDFj 를산출하여가중치 ( 단어의중요도지수 ) 를적용한다. Yoon [9] 은웹뉴스의문서를수집하여텍스트마이닝분석을통해 생성된단어빈도와문서빈도를 Hiltunen [12] 의신호와이슈로각각연계하였다. Yoon [9] 은단어빈도, 문서빈도, 발생빈도증가율을이용하여 keyword emergence map (KEM) 과 keyword issue map (KIM) 의키워드포트폴리오를작성하고작성된키워드포트폴리오을이용하여약신호를선별하였다. KEM은가시성을보여주는것으로 degree of visibility (DoV) 를산출하고, KIM은확산정도를보여주는것으로 degree of diffusion (DoD) 를산출할수있다. 여기서 NN은전체문서수를의미하고, TF는단어빈도, DF는문서빈도, tw는시간가중치 ( 본연구에서시간가중치는 0.05를적용 ), n은전체시간구간, j는시점을의미한다. 시간가중치는현재부터시간이멀어질수록영향력을약하게만드는기능으로본연구에서의시간가중치는 Yoon [9] 이적용한 0.05를사용하였다. 분석방법 분석자료및대상본연구는국내의온라인뉴스사이트, 블로그, 카페, 소셜네트워크서비스, 게시판등인터넷을통해수집된소셜빅데이터를대상으로하였다. 본분석에서는 149개의온라인뉴스사이트, 4개의블로그 ( 네이버, 네이트, 다음, 티스토리 ), 2개의카페 ( 네이버, 다음 ), 1개의 SNS ( 트위터 ), 15개의게시판 ( 네이버지식인, 네이트지식, 네이트톡, 네이트판등 ) 의총 171개의온라인채널을통해수집가능한텍스트기반의웹문서 ( 버즈 ) 를소셜빅데이터로정의하였다. 보건복지관련토픽의수집은 2016년 1월 1일부터 3월 31일까지해당채널에서요일별, 주말, 휴일을고려하지않고매시간단위로수집하였으며, 수집된총 201,849건 (1 월 : 87,567건, 2월 : 65,278건, 3월 : 49,004건 ) 의텍스트 (text) 문서를본연구의분석에포함시켰다. 본연구를위한소셜빅데이터의수집은 SKT 스마트인사이트에서크롤러 (crawler) 를사용하였고, 토픽의분류는주제분석 (text mining) 기법을사용하였다. 보건복지토픽은모든관련문서를수집하기위해 보건, 복지, 그리고 보건복지 를사용하였다. 연구방법본연구의소셜빅데이터를분석하기위해 Figure 1과같은연구방법을사용하였다. 첫째, 수집된보건복지온라인문서를자연어처리기술을이용하여텍스트마이닝과감성분석 (opinion mining) 을실시하였다. 둘째, 분류된온라인텍스트문서를통계분석과데이터마이닝분 http://www.e-jhis.org 419
Tae-min Song and Juyoung Song 석을위해숫자형태로코딩하여정형데이터로변환하였다. 셋째, 보건 복지미래신호를탐색하기위해단어빈도, 문서빈도, TF-IDF 를분석하 고, 키워드의중요도와확산도를분석하여미래신호를탐색하였다. 넷 째, 머신러닝 (machine learning) 분석기술을이용하여탐색된미래신호 를중심으로보건복지정책의미래신호를예측하고미래신호간의연 관관계파악하였다. 본연구의머신러닝에사용된연관분석알고리즘 으로는선험적규칙 (apriori principle) 을사용하였고, 주요신호의예측 을위한분류방법으로랜덤포레스트 (random forest) 알고리즘을사용 하였다. 머신러닝분석과시각화는 R 3.3.1 을사용하였다. 기계학습 (machine learning) 에서분류기법중하나인랜덤포레스트는 Breiman [14] 에의해제안되었다. 랜덤포레스트는주어진자료로부터여러개 의예측모형들을만든후, 예측모형들을결합하여하나의최종예측모 형을만드는기계학습을위한앙상블 (ensemble) [15] 기법중하나로분 류정확도가우수하고이상치에둔감하며, 계산이빠르다는장점이있 다 [16]. 연관분석은연구자가지정한최소지지도를만족하는빈발항 목집합 (frequent item set) 을생성한후, 이들에대한최저지지도기준 을마련하고향상도가 1 이상인것을규칙으로채택한다 [17]. 연구도구 Text mining Opinion mining Structured data conversion Future signal monitoring - Term frequency analysis - Document frequency analysis - TF-IDF analysis - Keyword emergence map analysis - Degree of visibility - Keyword issue map analysis - Degree of diffusion Future signal prediction - Random forest - Logistic regression - Association analysis Figure 1. Flowchart of future signal monitoring and prediction. 보건복지관련소셜빅데이터의수집및분류는보건복지부홈페이 지를크롤링 (crawling) 하여자연어처리와주제분석을과정을거쳐최 종정책과이슈를도출하여분류하였다. 그리고본연구에사용된연 구도구는주제분석, 감성분석, 요인분석 (factor analysis) 의과정을거쳐 다음과같이정형화데이터로코드화하여사용하였다. Table 1. Online document of policies and issues on health and welfare Item 보건복지관련수요 Total n (%) Attitude 70,640 (100.0) Support 50,626 (71.7) Oppose 20,014 (28.3) Issue 19,926 (100.0) Medical cost 754 (3.8) Suicide 634 (3.2) Tuition fee 459 (2.3) Tax 5,339 (26.8) Personal information 872 (4.4) Real estate 483 (2.4) Polarization 306 (1.5) Treatment 2,637 (13.2) Cigarette 383 (1.9) Tax increase 8,059 (40.4) Policy 24,059 (100.0) National pension 738 (3.1) Basic pension 922 (3.8) Childcare 400 (1.7) Marriage/childbirth 2,485 (10.3) Family-friendly 287 (1.2) Future generation nurturing 817 (3.4) Grant policy 1,116 (4.6) Healthcare privatization 662 (2.8) Health insurance 1,062 (4.4) Telemedicine 219 (0.9) Advanced disease 223 (0.9) Patient safety 212 (0.9) Healthcare industry 581 (2.4) Welfare payment 3,524 (14.6) Health promotion 3,352 (13.9) Job 7,459 (31.0) 보건복지감정은주제분석을통하여총 57 개 ( 가능, 강화, 개선, 거짓 말, 계획, 관심, 규제, 기부, 노력, 논란, 눈물, 다양, 도움, 도입, 마련, 무시, 문제, 반대, 발표, 방문, 부담, 부족, 비판, 사용, 소중, 시행, 신속, 신청, 실 시, 실현, 어려움, 억울, 예정, 외면, 운영, 이용, 저지, 정의, 주장, 준비, 중 요, 증가, 지원, 지적, 진행, 참여, 최고, 최우선, 추진, 추천, 축소, 폐지, 필요, 행복, 혜택, 확대, 확인 ) 키워드로분류되었다. 따라서본연구의 종속변수인보건복지수요 ( 찬성, 반대 ) 의정의는요인분석과감성분석 의과정을거쳐 계획, 예정, 추진, 강화, 실시, 운영, 지원, 확대, 개선, 도 움, 관심, 다양, 중요, 참여, 필요, 진행, 노력, 확인, 사용, 가능, 이용, 발 표, 혜택, 시행, 신청, 실현, 행복, 정의, 최우선, 소중, 최고 은찬성의감 정으로, 부족, 지적, 논란, 주장, 비판, 문제, 외면, 축소, 저지, 폐지, 반 대, 무시, 부담, 걱정, 거짓말, 준비, 억울, 눈물, 어려움, 규제 은반대의감 420 http://www.e-jhis.org
Future Signals of Health and Welfare Policies 정으로정의하였다. 연구결과 보건복지관련정책보건복지관련정책의정의는요인분석과주제분석의과정을거쳐 국민연금요인, 기초연금요인, 보육요인, 결혼출산요인, 가족친화요인, 미래세대육성요인, 무상정책요인, 의료민영화요인, 건강보험요인, 원격의료요인, 중증질환요인, 환자안전요인, 보건산업요인, 복지급여요인, 건강증진요인, 일자리요인 의 16정책으로해당정책이있는경우는 1, 없는경우는 0 으로코드화하였다. 보건복지정책과이슈의온라인문서현황보건복지정책과이슈의온라인문서현황을살펴보면 (Table 1), 보건복지관련수요는찬성의감정을가진버즈는 71.7% 로나타났다. 보건복지관련주요정책으로는일자리 (31.0%), 복지급여 (14.6%), 건강증진 (13.9%), 결혼출산 (10.3%), 무상정책 (4.6%), 건강보험 (4.4%), 기초연금 (3.8%) 등의순으로나타났다. 보건복지관련주요이슈로는증세 (40.4%), 세금 (26.8%), 치료 (13.2%), 개인정보 (4.4%) 등의순으로나타났다. 보건복지관련주요이슈보건복지관련주요이슈의정의는주제분석의과정을거쳐 의료비, 자살, 등록금, 세금, 개인정보, 부동산, 양극화, 치료, 담배, 증세 의 10개이슈로정의하였다. 정의된모든이슈는해당대상이있는경우는 1, 없는경우는 0 으로코드화하였다. 소셜빅데이터기반미래신호탐색보건복지관련키워드의단어및문서빈도분석단어빈도, 문서빈도, 단어의중요도지수를고려한문서의빈도의분석을통하여보건복지관련정책과주요이슈에대한인식변화를살펴보았다 (Table 2). 단어빈도에서는일자리, 증세, 세금, 복지급여, 결혼 Table 2. Keyword analysis of health/welfare policies and issues in online channels Ranking Term frequency Document frequency Term frequency - inverse document frequency Keyword Frequency Keyword Frequency Keyword Frequency 1 Job 8,212 Tax increase 8,059 Job 6,328 2 Tax increase 8,059 Job 7,459 Tax increase 5,940 3 Tax 5,339 Tax 5,339 Welfare payment 4,955 4 Welfare payment 4,520 Welfare payment 3,524 Tax 4,890 5 Marriage/childbirth 3,419 Health promotion 3,352 Marriage/childbirth 4,267 6 Health promotion 3,352 Treatment 2,637 Health promotion 3,748 7 Treatment 2,938 Marriage/childbirth 2,485 Treatment 3,591 8 Health insurance 1,307 Grant policy 1,116 Health insurance 2,114 9 Grant policy 1,156 Health insurance 1,062 Grant policy 1,845 10 Basic pension 922 Basic pension 922 Basic pension 1,548 11 Personal information 872 Personal information 872 Personal information 1,485 12 Future generation nurturing 817 Future generation nurturing 817 Future generation nurturing 1,414 13 Medical cost 754 Medical cost 754 Medical cost 1,332 14 National pension 738 National pension 738 National pension 1,310 15 Healthcare privatization 686 Healthcare privatization 662 Healthcare industry 1,263 16 Healthcare industry 672 Suicide 634 Healthcare privatization 1,250 17 Suicide 634 Healthcare industry 581 Suicide 1,167 18 Real estate 483 Real estate 483 Real estate 946 19 Tuition fee 471 Tuition fee 459 Childcare 939 20 Childcare 460 Childcare 400 Tuition fee 933 21 Cigarette 383 Cigarette 383 Cigarette 789 22 Family-friendly 348 Polarization 306 Family-friendly 761 23 Polarization 306 Family-friendly 287 Polarization 660 24 Telemedicine 237 Advanced disease 223 Telemedicine 546 25 Advanced disease 233 Telemedicine 219 Advanced disease 535 26 Patient safety 229 Patient safety 212 Patient safety 531 Total 47,547 43,985 55,084 http://www.e-jhis.org 421
Tae-min Song and Juyoung Song Table 3. DoV mean increase rate and mean term frequency (TF) for health/welfare policies and issues Keyword Degree of visibility (DoV) January February March Mean increase rate Mean term frequency Job 0.142 0.168 0.186 0.147 2,737 Tax increase 0.158 0.237 0.063-0.116 2,686 Tax 0.136 0.098 0.077-0.246 1,780 Welfare payment 0.11 0.067 0.094 0.008 1,507 Marriage/childbirth 0.064 0.049 0.097 0.369 1,140 Health promotion 0.062 0.051 0.094 0.339 1,117 Treatment 0.045 0.07 0.061 0.208 979 Health insurance 0.026 0.02 0.034 0.245 436 Grant policy 0.024 0.021 0.024 0.014 385 Basic pension 0.013 0.02 0.023 0.33 307 Personal information 0.005 0.04 0.004 3.394 291 Future generation nurturing 0.01 0.005 0.04 3.498 272 Medical cost 0.015 0.01 0.022 0.415 251 National pension 0.007 0.014 0.026 0.886 246 Healthcare privatization 0.003 0.004 0.04 5.242 229 Healthcare industry 0.011 0.013 0.017 0.216 224 Suicide 0.006 0.005 0.03 2.167 211 Real estate 0.009 0.012 0.007-0.034 161 Tuition fee 0.011 0.007 0.011 0.1 157 Childcare 0.008 0.012 0.006 0.015 153 Cigarette 0.005 0.005 0.014 0.827 128 Family-friendly 0.004 0.004 0.014 1.275 116 Polarization 0.01 0.003 0.004-0.226 102 Telemedicine 0.005 0.005 0.004-0.103 79 Advanced disease 0.007 0.004 0.003-0.307 78 Patient safety 0.002 0.008 0.003 1.062 76 Median 0.23 249 출산, 건강증진, 치료등의순위로나타나고있어정책은일자리, 복지급여, 결혼출산이우선이고주요이슈는증세, 세금, 치료가우선인것으로나타났다. 문서빈도는단어빈도와비슷한추이를나타내고있으나결혼출산이단어빈도에서는 5위인반면문서빈도에서는 7위로나타나키워드의중요성을나타내는단어빈도에서는결혼출산이중요하나주제의확산을나타내는문서빈도에서는다소떨어져결혼출산정책의확산에대한노력이필요할것으로본다. 중요도지수를고려한단어빈도에서는정책은일자리, 복지급여, 결혼출산이우선이고주요이슈는증세, 세금이우선인것으로나타났다. 그리고키워드의월별순위의변화는 2016년 2월까지증세, 일자리, 세금, 복지급여, 치료가중요한키워드로나타나다가 3월에는건강증진이강조되기시작하여건강에대한관심이확산되고있는것으로나타났다. 보건복지관련키워드의미래신호탐색미래신호탐지방법론에따라분석한결과는 Tables 3, 4와같다. 보건복지관련 ( 정책, 이슈 ) 키워드에대한 DoV 증가율과평균단어빈도 를산출한결과일자리와복지급여는높은빈도를보이고있으나 DoV 증가율은중앙값보다낮게나타나시간이갈수록신호가약해지는것으로나타났다. 결혼출산, 건강증진은평균단어빈도는높게나타났으며, DoV 증가율은중앙값보다높게나타나시간이갈수록빠르게신호가강해지는것으로나타났다. 미래신호탐색을위해 DoV의평균단어빈도와 DoD의평균문서빈도를 X축으로설정하고 DoV와 DoD의평균증가율을 Y축으로설정한후, 각값의중앙값을사분면을나누면 2사분면에해당하는영역의키워드는약신호가되고 1사분면에해당하는키워드는강신호가된다. 빈도수측면에서는상위 10위에 DoV는일자리, 증세, 세금, 복지급여, 결혼출산, 건강증진, 치료, 건강보험, 무상정책, 기초연금순으로포함되었고, DoD에는증세, 일자리, 세금, 복지급여, 건강증진, 치료, 결혼출산, 무상정책, 건강보험, 기초연금의순으로포함되었다. DoV의증가율의중앙값 (0.23) 보다높은증가율을보이는키워드는결혼출산, 건강증진, 건강보험으로나타났으며 DoD의증가율의중앙값 (0.23) 보다높은증가율을보이는키워드는건강증진, 건강보험으로나타났다. 특 422 http://www.e-jhis.org
Future Signals of Health and Welfare Policies Table 4. DoD mean increase rate and mean document frequency (DF) for health/welfare policies and issues Keyword Degree of diffusion (DoD) January February March Mean increase rate Mean document frequency Tax increase 0.172 0.251 0.07-0.131 2686 Job 0.138 0.163 0.186 0.159 2486 Tax 0.148 0.104 0.085-0.238 1780 Welfare payment 0.092 0.055 0.082 0.047 1175 Health promotion 0.067 0.054 0.104 0.369 1117 Treatment 0.043 0.068 0.06 0.221 879 Marriage/Childbirth 0.054 0.042 0.069 0.224 828 Grant policy 0.026 0.021 0.026 0.015 372 Health insurance 0.022 0.017 0.032 0.309 354 Basic pension 0.014 0.021 0.026 0.337 307 Personal information 0.005 0.042 0.005 3.278 291 Future generation nurturing 0.011 0.005 0.044 3.683 272 Medical cost 0.016 0.011 0.024 0.453 251 National pension 0.008 0.015 0.028 0.902 246 Healthcare privatization 0.003 0.003 0.044 6.347 221 Suicide 0.007 0.006 0.033 2.279 211 Healthcare industry 0.01 0.013 0.015 0.229 194 Real estate 0.01 0.013 0.008-0.04 161 Tuition fee 0.011 0.007 0.012 0.12 153 Childcare 0.008 0.012 0.005 0.015 133 Cigarette 0.006 0.005 0.015 0.875 128 Polarization 0.011 0.003 0.004-0.203 102 Family-friendly 0.004 0.004 0.012 1.047 96 Advanced disease 0.007 0.003 0.003-0.265 74 Telemedicine 0.005 0.005 0.004-0.119 73 Patient safety 0.002 0.008 0.003 1.27 71 Median 0.23 249 5 Healthcare_privatization Keyword emergence map Time weighted increasing rate 4 3 2 1 Future_generation_nurturing Personal_information Suicide Family_friendly Patient_safety Cigarette National_pension 0 Medical_cost Basic_pension Healthcare_industry Health_insurance Tuition_fee Childcare Grant_policy Temedicine Real_estate Polarization Advance_disease Health_promotion Marriage_childbirth Treatment Welfare_payment Tax Job Tax_increase 0 500 1,000 1,500 2,000 2,500 Average term frequency Figure 2. Keyword emergence map (KEM) of health/welfare related policies and issues. http://www.e-jhis.org 423
Tae-min Song and Juyoung Song 6 Keyword issue map Time weighted increasing rate 5 4 3 2 1 0 Healthcare_privatization Future_generation_nurturing Personal_information Suicide Family_friendly Patient_safety National_pension Cigarette Medical_cost Healthcare_industry Basic_pension Tuition_fee Health_insurance Temedicine Childcare Real_estate Grant_policy Polarization Advance_disease Marriage_childbirth Health_promotion Treatment Welfare_payment 0 500 1,000 1,500 2,000 2,500 Tax Job Tax_increase Average document frequency Figure 3. Keyword issue map (KIM) of health/welfare related policies and issues. Welfare_payment Health_promotion Basic_pension Job Healthcare_privatization Marriage_childbirth Health_insurance Healthcare_industry Grant_policy National_pension Childcare Temedicine Patient_safety Future_generation_nurturing Family_friendly Advanced_disease Figure 4. Importance of major health and welfare policies in the random forest model. 히결혼출산의 DoV 증가율을중앙값보다높은반면 DoD 의증가율 은중앙값보다낮게나타나결혼출산정책의확산을위한방안이필 요할것이다. 0 20 40 60 80 100 IncNodePurity Figures 2, 3 과같이보건복지관련주요키워드는복지급여와일자 리는 KEM 에서는강신호로나타난반면 KIM 에서는강하지는않지만 잘알려진신호로나타났다. KEM 과 KIM 에공통적으로나타나는강 신호 (1 사분면 ) 에는미래세대육성, 개인정보, 국민연금, 의료비, 기초연 금, 건강보험, 결혼출산, 치료, 건강증진이포함되었고, 약신호 (2 사분면 ) 에는의료민영화, 자살, 환자안전, 가족친화, 담배, 보건산업이포함된 것으로나타났다. KIM 의 4 사분면에만나타난강하지는않지만잘알 Table 5. Major determinants of health and welfare demand Policy Support 1 B 2 SE OR p-value National pension 0.25 0.15 1.29 0.098 Basic pension -1.48 0.10 0.23 0 Childcare 1.44 0.32 4.22 0 Marriage/childbirth 0.63 0.07 1.88 0 Family-friendly 1.12 0.30 3.06 0 Future generation nurturing 0.80 0.21 2.22 0 Grant policy 0.41 0.12 1.509 0.001 Healthcare privatization -1.63 0.12 0.20 0 Health insurance 1.18 0.13 3.26 0 Temedicine 1.13 0.32 3.11 0 Advanced disease 1.04 0.34 2.82 0.002 Patient safety 1.30 0.35 3.68 0 Healthcare industry 1.63 0.23 5.08 0 Welfare payment 1.23 0.07 3.41 0 Health promotion 1.04 0.07 2.83 0 Job 0.50 0.05 1.65 0 SE, standard error; OR, odds ratio. 1 Basic category is opposition. 2 Standardized coefficients. 려진신호는무상정책, 복지급여, 세금, 일자리, 증세로나타났으며, KIM 의 3 사분면에만나타난잠재신호는등록금, 보육, 부동산, 읜격의 료, 양극화, 중증질환으로나타났다. 소셜빅데이터기반미래신호예측 랜덤포레스트분석을통한주요보건복지정책요인예측 본연구의랜덤포레스트분석을활용하여보건복지수요 ( 태도 ) 에영 424 http://www.e-jhis.org
Future Signals of Health and Welfare Policies Table 6. Association rules of major health/welfare policies Rule Support Confidence Lift {Healthcare privatization} = > {Opposition} 0.002845413 0.57925072 2.0444824 {Basic pension} = > {Opposition} 0.003680634 0.44444444 1.5686797 {Health insurance, advanced disease} = > {Support} 0.001670442 1 1.3953305 {Childbirth/nurture, health promotion} = > {Support} 0.001528879 1 1.3953305 {Childbirth/nurture, welfare payment} = > {Support} 0.002180068 1 1.3953305 {Healthcare industry, welfare payment} = > {Support} 0.001005096 1 1.3953305 {National pension, welfare payment} = > {Support} 0.002109287 1 1.3953305 {Health insurance, welfare payment} = > {Support} 0.002831257 1 1.3953305 {Childbirth/nurture, welfare payment, health promotion} = > {Support} 0.001090034 1 1.3953305 {Childbirth/nurture, health promotion, job} = > {Support} 0.001005096 1 1.3953305 {Childbirth/nurture, welfare payment, job} = > {Support} 0.00137316 1 1.3953305 {National pension, health insurance, welfare payment} = > {Support} 0.001061721 1 1.3953305 {National pension, welfare payment, job} = > {Support} 0.001160815 1 1.3953305 {Health insurance, welfare payment, health promotion} = > {Support} 0.001061721 1 1.3953305 {Health insurance, welfare payment, job} = > {Support} 0.001443941 1 1.3953305 {Advanced disease, welfare payment} = > {Support} 0.001613817 0.99130435 1.3831972 {Basic pension, welfare payment, job} = > {Support} 0.001359003 0.98969072 1.3809456 {Welfare payment, health promotion, job} = > {Support} 0.002548131 0.98901099 1.3799972 {Welfare payment, health promotion} = > {Support} 0.006129672 0.98858447 1.379402 {National pension, health insurance, job} = > {Support} 0.001160815 0.98795181 1.3785193 향을주는주요정책요인을살펴보면 Figure 4와같다. 보건복지수요 ( 찬성, 반대 ) 에가장큰영향을미치는 ( 연관성이높은 ) 정책요인은 복지급여 정책으로나타났으며, 그뒤를이어건강증진, 기초연금, 일자리, 의료민영화, 결혼출산, 건강보험, 보건산업정책등의순으로나타났다. 랜덤포레스트의중요도로나타난정책요인들이보건복지수요에미치는영향을로지스틱회귀분석을통하여살펴본결과, 기초노령연금, 의료민영화는반대의확률이높으며, 그외국민연금 (p < 0.1), 보육, 출산양육, 가족친화, 건강보험, 원격의료등은찬성의확률이높은것으로나타났다 (Table 5). 연관분석을통한주요보건복지정책요인예측소셜빅데이터분석에서연관분석은하나의온라인문서에포함된둘이상의단어들에대한상호관련성을발견하는것이다. 본연구에서는 Table 6과같이하나의문서에나타난정책요인의수요에대한연관규칙을분석하였다. { 의료민영화 } = > { 반대 } 두변인의연관성은지지도 0.003, 신뢰도는 0.579, 향상도는 2.044로나타났다. 이는온라인문서에서 의료민영화 정책이언급되면반대할확률이 57.9% 이며, 이는 의료민영화 정책이언급되지않은문서보다반대할확률이약 2.04배높아지는것을나타낸다. { 건강보험요인, 중증질환요인 } = > { 찬성 } 으로세변인의향상도는 1.40으로온라인문서에서건강보험과중증질환정책이언급되지않은문서보다찬성할확률이 1.40배높은것으로나타났다. 고찰 본연구는우리나라에서수집가능한모든온라인채널에서언급된보건복지관련문서를수집하여보건복지와관련하여나타나는주요정책과이슈에대한미래신호를탐지하여예측모형을제시하고자하였다. 본연구의분석을위하여 171개의온라인채널을통해수집된온라인문서를대상으로자연어처리기술을이용하여텍스트마이닝과감성분석을실시하였다. 보건복지미래신호를탐색하기위해단어빈도, 문서빈도, TF-IDF를분석하고, 키워드의중요도와확산도를분석하여미래신호를탐색하였다. 그리고머신러닝분석기술을이용하여탐색된미래신호를중심으로보건복지정책의미래신호를예측하고미래신호간의연관관계파악하였다. 본연구의보건복지의정책과이슈에대한미래신호예측결과를살펴보면다음과같다. 첫째, 본연구의주제분석과감성분석을통한 2016년보건복지수요를예측한결과찬성의감정을가진문서는 71.7%, 반대의감정을가진문서는 28.3% 로나타났다. 이는 2015년보건복지정책수요조사분석 [1] 에서일반국민의전반적인의료만족도가만족 (72.7%), 불만족 (27.3%) 로나타나비슷한추이를보는것으로나타났다. 따라서본연구의첫번째연구목적인주제분석과감성분석을통한수요분석에대한타당성을어느정도입증한것으로본다. 둘째, 본연구의보건복지정책과이슈의미래신호분석에서미래세 http://www.e-jhis.org 425
Tae-min Song and Juyoung Song 대육성, 국민연금, 기초연금, 건강보험, 결혼출산, 건강증진, 개인정보, 의료비, 치료가강신호로분류되어미래세대육성과건강증진과관련된의료비와치료등이강조되고있는것으로나타났다. 이는 2015년보건복지정책수요조사분석 [1] 에서보건복지정책의우선순위로의료비부담을낮추기위한정책, 국민기초생활보장제도개편, 안전한보건의료체계, 노인들을위한소득보장강화, 맞춤형보육서비스, 보건산업육성, 노인을위한건강증진등의순으로나타나보건복지정책에대한강신호는비슷한추이를보이는것으로나타났다. 특히, 미래세대육성과개인정보는강신호이면서높은증가율을보이고있어미래세대육성정책에포함된아동학대문제의해결과개인정보보호와관련된제도개선에대한논의가지속적으로이루어져야할것으로본다. 셋째, 의료민영화, 자살, 환자안전, 가족친화, 담배, 보건산업은약신호로분류되었다. 특히약신호인의료민영화와자살은높은증가율을보이고있어이들키워드는시간이지나면강신호로발전할수있기때문에이에대한대응책이마련되어야할것으로본다. 보건복지정책의미래신호예측에서중요한정책이면서찬성하는정책은복지급여, 건강증진, 일자리결혼출산, 건강보험, 보건산업등의순으로나타났다. 이는 2015년보건복지정책수요조사분석 [1] 에서 2016년복지분야중점정책에대해일자리창출을통한탈빈곤정책이가장높은응답비율을나타나일자리창출에대한신호가중요한것으로나타났다. 특히복지급여와일자리가동시에언급된문서의찬성이매우높은것으로나타나능동적복지체계구축을통한일자리창출이필요할것으로본다. 이는정책의연관분석결과와같이 { 기초연금 } 정책만언급된문서는반대하는것으로나타났으나 { 기초연금, 복지급여, 일자리 } 정책이동시에언급된문서는찬성하는것으로나타나노인의능동적자활과근로를통한복지체계의구축에대한국민의요구가높은것으로본다. 넷째, { 건강보험, 중증질환 } 이동시에언급된문서의찬성이높은것으로나타나건강보험혜택확대로 4대중증질환의보장성강화가국민의의료비부담을줄임으로써정부의정책에대한좋은평가결과로나타난것으로본다. 위의연구결과를바탕으로정책을제언하면다음과같다. 첫째, 생애주기별맞춤형복지정책을위해분야별, 대상자별로다양한보건복지욕구를적시에파악하여이들의욕구를충족시킬수있어야한다. 둘째, 보건복지정책수행과정중발생할수있는문제점이나한계점을파악하여적절한대책을마련하기위한대응체계구축이필요하다. 셋째, 보건복지정책의효과적인수행을위해보건복지정책수요예측및동향파악을위한적시대응체계를구축할필요가있다. 본연구의제한점은다음과같다. 첫째, 본연구는 2016년 1월부터 3 월까지 3개월간제한된소셜빅데이터를수집하여분석함으로써보건복지정책의미래신호예측에한계가있을수있다. 따라서실질적인 보건복지정책과이슈의미래신호를예측하기위해서는연도별시계열자료를수집하여분석한후결과를도출해야할것으로본다. 둘째, 본연구는개개인의특성을가지고분석한것이아니고그구성원에속한전체집단의자료를대상으로분석하였기때문에이를개인에게적용하였을경우생태학적오류 (ecological fallacy) 가발생할수있다 [3]. 또한본연구에서정의된보건복지관련요인은문서내에서발생된단어의빈도로정의되었기때문에기존조사등을통한이론적모형에서의의미와다를수있다. 결론 본연구결과와같이소셜빅데이터의분석은다양한분야에활용할수있다 [18]. 첫째, 조사를통한기존의정보수집체계의한계를보완할수있는새로운자료수집방법으로활용할수있다. 통일에대한국민인식조사, 정부의금연정책 ( 가격정책 비가격정책등 ) 실시이후흡연실태조사, 스마트폰및인터넷중독실태조사등여러분야의조사에활용할수있다. 둘째, 보건복지정책수요를예측할수있다 ( 저출산정책수요예측등 ). 새정부출범이후건강보험보장성강화에대한국민의요구가커지고인구고령화와저출산이사회적문제로대두됨에따라대상자별 분야별로다양한보건복지정책이요구되고있다. 이러한변화에대응하기위해오프라인보건복지욕구조사와더불어소셜미디어에남긴다양한정책의제를분석하여수요를파악해야한다. 셋째, 사회적위기상황에대한모니터링과예측으로위험에대한사전대응체계를구축할수있다. 예를들면청소년자살과사이버폭력대응체계구축, 질병에대한위험예측, 식품안전모니터링등에활용할수있다. 넷째, 새로운기술에미래신호를사전에예측하여대비할수있다. 빅데이터, 사물인터넷, 머신러닝 ( 인공지능 ) 과같은새로운기술에대해수요자와공급자가요구하는기술동향등에대한미래신호를탐색하여예측할수있다. 끝으로정부와공공기관이보유 관리하고있는빅데이터는통합방안보다는각각의빅데이터의집단별특성을분석하여위험 ( 또는수요 ) 집단간연계를통한예측 ( 위험예측또는질병예측등 ) 서비스를제공하여야할것이다. 즉빅데이터분석을통한개인별맞춤형서비스는프라이버시를침해할수있기때문에위험집단별맞춤형서비스를제공하여야한다 [19]. 또한빅데이터를분석하여인과성을발견하고미래를예측하기위해서는데이터사이언티스트양성을위한정부차원의노력이필요하다. 426 http://www.e-jhis.org
Future Signals of Health and Welfare Policies REFERENCES 1. Kim MG, Yeo YJ, Kim SA, Kim JH, Choi MJ. 2015 Health and welfare policy demand survey and analysis. Sejong: Korea Institute for Health and Social Affairs; 2015 (Korean). 2. Statistics Korea. Availablle at http://www.kosis.kr 3. Song TM, Song J, An JY, Hayman LL, Woo JM. Psychological and social factors affecting internet searches on suicide in Korea: a big data analysis of google search trends. Yonsei Med J 2014;55(1):254-263 (Korean). 4. Ministry of Education, Ministry of Labor, Health and Welfare, Women and Family Affairs. 2016 National happiness sector work plan. Sejong: Ministry of Education; 2016 (Korean). 5. Jeong G. A study of future prediction method using text mining and network analysis. Seoul: Korea Institute of Science & Technology Evaluation and Planning; 2014 (Korean). 6. The Department for Business, Innovation & Skills (BIS). Horizon scanning centre. Available at http://www.bis.gov.uk/foresight/ourwork/horizon-scanning-centre 7. TrendWiki. TrendWiki homepage. Available at http://www.trendwiki. fi/en/ 8. Yoo SH, Park HW, Kim KH. A study on exploring weak signals of technology innovation using informetrics. J Technol Innov 2009;17(2): 109-130 (Korean). 9. Yoon J. Detecting weak signals for long-term business opportunities using text mining of web news. J Expert Syst Appl 2012;39(16):12543-12550. 10. Park C, Kim H. A study of development direction of new industries through the internet of things-detecting future signals using text mining. Ulsan: Korea Energy Economics Institute; 2015 (Korean). 11. Ansoff HI. Managing strategic surprise by response to weak signals. Californian Manag Rev 1975;18(2):21-33. 12. Hiltunen E. The future sign and its three dimensions. Futures 2008; 40:247-260. 13. Spärck JK. A statistical interpretation of term specificity and its application in retrieval. J Document 1972;28:11-21. Doi:10.1108/eb026526. 14. Breiman L. Random forest. Machine learning 2001;45(1):5-32. 15. Breiman L. Bagging predictors. Machine Learning 1996;26:123-140. 16. Jin JH, Oh MA. Data analysis of hospitalization of patients with automobile insurance and health insurance: a report on the Patient Survey. J Korea Data Analysis Soc 2013;15(5B):2457-2469 (Korean). 17. Park HC. Proposition of causal association rule thresholds. J Korean Data Inf Sci Soc 2013;24(6):1189-1197. 18. Song TM, Song J. Social big data research methodology with R. Seoul: Hannarae Academy; 2016 (Korean). 19. Song TM, Song J. Cracking the big data analysis. Seoul: Hannarae Academy; 2015 (Korean). http://www.e-jhis.org 427