통계연구 (2016), 특별호, 72-95 소셜빅데이터기반저출산정책수요분석 1) 송태민 2) 요약 본연구는국내의 183개온라인채널을통해수집가능한텍스트기반의웹문서를소셜빅데이터로정의하여, 2008년 1월 1일부터 2015년 6월 30일까지의기간동안요일, 주말, 휴일을고려하지않고매시간단위로수집하였다. 수집된 433,603건의텍스트문서에대하여저출산정책인식에대한감정분석결과결혼출산양육부담경감, 근로시간, 육아출산휴가, 보육시설, 아동보호정책, 청소년지원정책은보통의감정보다부정의감정이많은것으로분석되었으며, 고용문제와양성불평등을제외하고대부분의원인요인은보통의감정보다부정의감정이많은것으로나타났다. 그리고저출산정책이관련요인에미치는영향분석결과모든정책에대한감정이긍정적인영향이높은것으로나타났으나, 결혼상태에따른전체정책에대한감정분석결과에서는모든정책에대하여부정적인감정상태가높은것으로나타났다. 주요용어 : 저출산정책, 소셜빅데이터, 감성분석, 연관규칙, 데이터마이닝 1. 서론 2014년우리나라합계출산율은 1.21명으로 1983년합계출산율이인구대체수준인 2.1명에도달한이후, 지속적으로하락하여현재세계최저수준을기록하고있다 ( 통계청, 2015). 1970년 OECD 국가의합계출산율평균은 2.8명수준에서 2013명 1.7명수준으로감소하여저출산현상은우리나라만겪는문제가아니고전세계적인문제가되고있다 (OECD, 2015). 그러나 1995년 OECD 국가들의합계출산율과비교하면많은국가들의합계출산율은유지또는증가한반면, 우리나라를비롯한일부국가에서는지속적인감소를보이고있다 (OECD, 2015). 이러한저출산문제는심각한사회문제와함께생산가능인구의감소로인한경제활력저하및국가경쟁력의악화를초래하여국가의지속발전가능성에걸림돌이되고있다 ( 송태민등 2010). 우리나라는 2005년에국가경쟁력을높이고국민의삶의질향상과국가의지속적인발전을도모하기위하여저출산 고령사회기본법을제정하였고, 이에근거하여제1차저출산 고령사회기본계획 (2006년 2010년) 과제2차저출산 고령사회기본계획 (2011년 2015년) 을수립 시행하여범정부차원의본격적인대응을시작하였다. 특히, 2016년은제3차저출산 고령사회기본계획 (2016년 2020) 시행의원년으로서각종정책들의구체적인실행방안및관련연구가진행될예정이다. 보건복지서비스가공급자중심에서수요자중심의맞춤형서비스체계로변화됨에따라기존의보건복지서비스는선택, 품질, 1) 본논문은 송태민외 (2015). 소셜빅데이터기반저출산정책수요예측. 한국보건사회연구원. 의연구를수정및보완한것임. 2) 한국보건사회연구원, 정보통계연구실연구위원, ( 주소 ) 세종특별자치시시청대로 370, E-mail: tmsong@kihasa.re.kr
소셜빅데이터기반저출산정책수요분석 73 정보, 의사반영측면에서수요자개인의맞춤형 / 통합적서비스제공체제로전환되고있다. 그동안정부의보육정책은저소득층위주의경제적부담완화에초점을맞추어왔으나, 새정부출범과함께전계층의무상보육과양육수당지급정책등이도입됨에따라대상자들의정책체감도는상당히높아질것으로예측되고있다. 그동안제1차, 제2차저출산 고령사회기본계획에따라다각적인제도개선및정책추진에도불구하고우리나라저출산문제가지속되고있어, 사회적여건및보건복지소비자의요구를반영한현실적인진단과그에따른효과적인저출산정책방향의설정이요구되고있다. 한편, 기존의보건복지정보시스템의성공적구축과함께스마트폰, 스마트TV, RFID, 센서등의급속한보급과모바일인터넷, 소셜미디어의확산으로보건복지관련데이터량은기하급수적으로증가하고있다. 빅데이터는미래국가경쟁력에도큰영향을미칠것으로기대하여국가별로는안전을위협하는글로벌요인이나테러, 재난재해, 질병, 위기등에선제적으로대응하기위해우선적으로도입하고있다. 또한많은국가와기업에서는 SNS를통하여생산되는소셜빅데이터의활용과분석을통하여새로운경제적효과와일자리창출은물론사회적문제를해결하기위하여적극적으로노력하고있다. 트위터, 온라인채널등소셜미디어에남긴정치, 경제, 사회, 문화에대한메시지는그시대의감성과정서를파악할수있는원천으로등장함에따라, 대중매체에의해수립된정책의제는소셜미디어로부터파악이가능할수있다 ( 송영조, 2012). 그동안횡단적조사나종단적조사등을대상으로한저출산연구는이미정해진변인들에대한개인과집단의관계를보는데에는유용하나소셜빅데이터의분석은훨씬방대한양의데이터를활용하여다양한참여자의생각과의견을확인할수있기때문에사회적문제의예측과현상에대한복잡한연관관계를보다정확하게밝혀낼수있다 (Song et al, 2014). 이에본연구에서는우리나라온라인뉴스사이트, 블로그, 카페, SNS, 게시판등에서수집한소셜빅데이터를바탕으로저출산정책의수요를예측하고연관규칙을파악하고자한다. 2. 이론적배경 저출산은오늘날많은국가에서겪고있는문제중하나이다. 이미 1970년대부터유럽의많은나라들과일본에서는합계출산율이인구대체출산수준이하로떨어지는저출산현상을경험한바있으며, 이를극복하기위해저출산의원인을파악하고이에대한대책을제시하기위한연구가수행되어져왔다. 우리나라의경우 1983년합계출산율이인구대체출산수준이하로떨어지는저출산사회에진입하였고, 2001년부터는초저출산사회로진입하였으나저출산에관심을갖게된시점은 2000년대초반부터라는사실에볼때다른나라들에비해저출산과관련한연구가상대적으로미약하였음에도불구하고우리나라의저출산원인을파악할수있는주목할만한여러연구가수행되었다. 김승권 (2003) 의연구에서는저출산의원인을인구통계학적원인과가치관및사회경제적원인을제시하였다. 인구통계학적원인으로는결혼연령의증가
74 송태민 가출산율저하에영향을미치며, 가치관적원인으로는미혼남녀의결혼에대한가치관과기혼부인의자녀필요성에대한가치관의변화가출산율저하에영향을미치고, 사회경제적원인으로는장기적경기침체및청년실업, 여성의자아욕구증대, 양성불평등의자녀양육과육아의경제적부담증가, 가정과직장의양립이불가능한사회적환경, 불임부부의증가와지원부족등이출산율저하에영향을미치는것으로보았다. 이삼식등 (2005) 의연구에서는한국사회에서의저출산원인을종합적으로규명하고자결혼 출산동향파악및계층별 사회경제적속성별저출산원인검증을위한조사를실시하여, 가치관 ( 결혼관, 자녀관, 성역할관 ), 자녀양육비용, 경제적환경, 노동시장, 일-가정양립문제, 주거환경, 생식보건수준등이실제출산수준결정에영향을미치는요인으로제시하였다. 김혜선 (2006) 의연구에서는초혼연령의상승, 유배우자의출산율감소, 가임여성인구의감소와같은인구학적원인과소득 고용의불안, 자녀양육비용의과다, 직장과가정의양립불가, 가치관의변화및양상평등문화부재등과같은사회경제적인원인이출산율저하의원인이라고보았다. 조남훈등 (2006) 의연구에서는출산율이저하되는이유로혼인율의저하와유배우출산율의저하를제시하였다. 여성의학력상승과사회경제적기회확대가혼인연령을늦추거나혼인율을저하시킬것이며, 육아에따른효용에비해육아에따른직간접적인비용이증가하면서순효용이감소하고이에따라출산을포기하게된다는것이다. 반면이철희 (2012) 연구에서는합계출산율의변화를분해한분석결과 1991년이후우리나라합계출산율감소는유배우출산율보다는주로유배우여성비율의감소에의해초래된것이라고보았다. 3. 연구대상및연구방법 3.1 연구대상 본연구는국내의 SNS, 온라인뉴스사이트등인터넷을통해수집된소셜빅데이터를대상으로하였다. 본분석에서는 159개의온라인뉴스사이트, 17개의게시판, 1개의 SNS( 트위터 ), 4개의블로그, 2개의카페의총 183개의온라인채널을통해수집가능한텍스트기반의웹문서인버즈 (buzz) 를소셜빅데이터로정의하였다. 저출산관련토픽 (topic) 의수집은 2008. 1. 1.~2015. 6. 30 기간동안해당채널에서요일, 주말, 휴일을고려하지않고매시간단위로수집하였으며, 수집된총 433,603건 (2008년 26,577건, 2009년 43,140건, 2010년 53,252건, 2011년 59,381건, 2012년 78,220건, 2013년 69,514건, 2014년 53,583건, 2015년 49,496건 ) 의텍스트 (text) 문서를본연구의분석에포함시켰다. 저출산토픽은모든관련문서를수집하기위해 저출산 을사용하였으며, 토픽과같은의미로사용되는토픽유사어로는 출산율저하, 출산율저하, 출산율저조, 출산율저조, 출산율급감, 출산율급감, 출산을기피, 출산기피현상, 출산기피, 아이낳지않, 아기낳지않, 자녀낳지않, 딩크족, 딩펫족, 딩크펫, 무자녀가족, 무자녀가정 용어를사용하였다. 본연구를위한소셜빅데이터의수집 3) 은크롤러 (crawler) 를사용하였고, 이후온톨로지 4) 에따른주제분석을통해분류된명사형어휘를유목
소셜빅데이터기반저출산정책수요분석 75 화 (categorization) 하여분석요인으로설정하였다. 3.2 연구도구 저출산과관련하여수집된문서는주제분석 (text mining) 과감성분석 (opinion mining) 의과정을거쳐정형화데이터로코드화하였다. 저출산관련감정은감성어사전을개발하여긍정감정은 가족문제없다, 가족사랑하다, 가족행복하다, 결혼원하다, 둘째갖고싶다등, 보통감정은 20세결혼하다, 가정주부일하다, 가족고수하다, 가족당연하다, 결혼결정하다등, 부정감정은 가족싫다, 가치관없다, 결혼안하다, 둘째낳지않다, 아이낳기싫다, 양육비무섭다등등 으로구분하여감성분석을실시하였다. 그리고저출산정책은주제분석을통하여 결혼출산양육부담경감, 아동청소년의건전한성장환경조성, 일과가정의양립일상화, 법률, 건강서비스, 산모도우미, 근로시간, 직장내보육시설, 스마트워크, 육아출산휴가, 돌보미서비스, 홍보, 교육, 상담서비스, 방과후프로그램, 보육시설, 아동보호, 청소년지원, 다문화가정지원, 자립지원프로그램 의 20개요인으로그룹화하였다. 3.3 분석방법 본연구에서우리나라저출산의원인과정책수요를예측하는모형을구축하기위해머신러닝의연관분석 (association analysis) 과의사결정나무 (decision tree) 방법을사용하였다. 소셜빅데이터분석에서연관분석은하나의온라인문서 (transaction) 에포함된둘이상의단어들에대한상호관련성을발견하는것으로동시에발생한어떤단어들의집합에대해조건과연관규칙을찾는분석방법이다. 전체문서에서연관규칙의평가측도는지지도 (support), 신뢰도 (confidence), 향상도 (lift) 로나타낼수있다. 지지도는자주발생하지않는규칙을제거하는데이용되며신뢰도는단어들의연관성정도를파악하는데이용할수있다. 향상도는연관규칙 (X Y) 에서단어 X가없을때보다있을때단어 Y가발생할비율을나타낸다. 연관분석과정은연구자가지정한최소지지도를만족시키는빈발항목집합 (frequent itemset) 을생성한후, 이들에대해최저신뢰도기준을마련하고향상도가 1인이상인것을규칙으로채택한다 (Park, 2010). 본연구의연관분석은선험적규칙 (apriori principle) 알고리즘을사용하였으며, 저출산수요예측에사용된연관분석의측도는지지도 0.001, 신뢰도 0.01을기준으로시뮬레이션하였다. 본연구의의사결정나무형성을위한분석알고리즘은 CHAID (Chisquared Automatic Interaction Detection)(Kass, 1980) 를사용하였다. 정지규칙 (stopping rule) 으로관찰치가충분하여상위노드 ( 부모마디 ) 의최소케이스수는 100으로하위노드 ( 자식마디 ) 의최소케이스수는 50으로설정하였고, 나무깊이는 CHAID의기본값인 3) 본연구를위한소셜빅데이터의수집및토픽분류는 ( 주 )SK 텔레콤스마트인사이트 와공동으로수행함. 4) 저출산소셜빅데이터의분류체계를위한온톨로지개발은서울대간호대학박현애교수연구팀과공동으로수행함.
76 송태민 3수준으로정하였다. 본연구의기술분석, 다중응답분석, 의사결정나무분석은 SPSS version 22.0을사용하였고, 연관분석과시각화는 R version 3.2.1을사용하였다. 4. 연구결과 4.1 저출산관련온라인문서현황 저출산관련언급온라인문서현황은 < 표 4.1> 과같다. 저출산관련감정은긍정 (31.4%), 보통 (37.2%), 부정 (31.4%) 로나타났다. 저출산과관련한원인및가치관으로분류된버즈현황으로는고령화문제가 55.6%, 경제적인문제가 13.2%, 핵가족화 7.8%, 보수적인판단 7.0%, 결혼관변화가 6.8%, 학대및폭력이 4.6%, 고용관련문제가 3.0%, 양성불평등문제가 2.1% 순으로분석되었다. 임신및출산관련버즈현황으로는시험관이 58.8%, 임신출산이 13.6%, 불임이 7.7%, 임신보조제 4.6%, 난임 2.9%, 보조생식술이 2.3% 순으로분석되었다. 경제관련버즈현황으로는결혼준비가 28.3% 로가장높았으며, 그다음이출산비용으로 27.0%, 집 13.9%, 저소득층 11.9%, 중고소득층 9.4%, 소득수준 5.2%, 연금이 4.2% 순으로나타났다. 저출산정책1과관련된버즈현황으로는결혼출산양육부담경감이 79.8% 로가장높았으며다음이일과가정의양립일상화 11.4%, 법률 3.8%, 아동청소년의건전한성장환경조성이 2.9% 순으로나타났다. 정책2와관련된버즈현황으로는육아출산휴가 (61.4%), 근로시간 (21.1%). 직장내보육시설 (9.5%), 스마트워크 (8.0%) 순으로나타났다. 정책3과관련된버즈현황으로는보육시설이 49.4% 로가장높았으며, 아동보호 47.1%, 방과후프로그램 1.8%, 다문화가정지원, 자립지원프로그램이각각 0.8%, 청소년지원프로그램이 0.7% 순으로분석되었다. 정책4와관련된버즈현황으로는홍보관련서비스가 78.1% 로가장높았으며, 교육서비스가 13.6%, 돌보미서비스가 5.1%, 상담서비스가 3.2% 순으로나타났다. < 표 4.1> 저출산관련온라인문서현황 구분 항목 N(%) 구분 항목 N(%) 감정긍정 59,270 ( 31.4) 정책1 결혼출산보통 70,194 ( 37.2) 양육부담경감 24,500 ( 79.8) 부정 59,235 ( 31.4) 아동청소년의 계 188,699 (100.0) 건전한성장 876 ( 2.9) 원인 고용문제 3,680 ( 3.0) 환경조성 가치관양성불평등 2,571 ( 2.1) 일과가정의경제적문제 16,407 ( 13.2) 양립일상화 3,492 ( 11.4) 고령화 69,178 ( 55.6) 법률 1,176 ( 3.8) 핵가족화 9,739 ( 7.8) 건강서비스 113 ( 0.4) 결혼관변화 8,502 ( 6.8) 산모도우미 564 ( 1.8) 보수적판단 8,725 ( 7.0) 계 30,721 (100.0) 학대 / 폭력 5,729 ( 4.6) 정책2 근로시간 2,752 ( 21.1) 계 124,531 (100.0) 직장내보육시설 1,243 ( 9.5)
소셜빅데이터기반저출산정책수요분석 77 구분 항목 N(%) 구분 항목 N(%) 임신 / 불임 3,685 ( 7.7) 스마트워크 1,050 ( 8.0) 출산 난임 1,392 ( 2.9) 육아출산휴가 8,016 ( 61.4) 임신출산 6,525 ( 13.6) 계 13,061 (100.0) 시험관 28,155 ( 58.8) 정책3 방과후임신보조제 2,194 ( 4.6) 프로그램 392 ( 1.3) 보조생식술 1,083 ( 2.3) 보육시설 15,235 ( 49.4) 기형및기타 253 ( 0.5) 아동보호 14,545 ( 47.1) 조산 2,424 ( 5.1) 청소년지원 222 ( 0.7) 자궁외임신 1,095 ( 2.3) 다문화계 1,075 ( 2.2) 가정지원 243 ( 0.8) 경제결혼준비 21,025 ( 28.3) 자립지원소득수준 3,887 ( 5.2) 프로그램 232 ( 0.8) 저소득층 8,845 ( 11.9) 계 30,869 (100.0) 중고소득층 6,951 ( 9.4) 정책4 돌보미서비스 574 ( 5.1) 연금 3,142 ( 4.2) 홍보 8,803 ( 78.1) 집 10,331 ( 13.9) 교육 1,532 ( 13.6) 출산비용 20,037 ( 27.0) 상담서비스 362 ( 3.2) 계 74,218 (100.0) 계 11,271 (100.0) 저출산관련주요요인으로저출산제1차 5개년에는고령화, 결혼출산양육부담경감, 임신출산, 출산비용, 결혼준비, 보육시설, 아동보호, 경제적문제, 주택등의순으로많이언급된것으로나타났다. 저출산제2차 5개년에는고령화, 임신출산, 결혼출산양육부담경감, 결혼준비, 경제적문제, 출산비용, 아동보호, 보육시설, 아파트등의순으로많이언급된것으로나타났다. (< 그림 4.1> 참조 ). 저출산제 1 차 5 개년 (2008-2010) 저출산제 2 차 5 개년 (2011-2015) < 그림 4.1> 저출산관련주요요인버즈현황 저출산관련연도별인식은 2012년까지긍정감정이부정감정보다많았으나, 2013 년부터부정감정이긍정감정보다많은것으로나타났다 (< 그림 4.2> 참조 ).
78 송태민 < 그림 4.2> 저출산연도별인식변화 4.2 저출산인식에영향을미치는요인 < 표 4.2> 의다항로지스틱분석결과제1차저출산 5개년의인식에영향을미치는정책요인은육아출산휴가는부정적인영향을미치는것으로나타났으며, 자립지원프로그램, 다문화가정지원, 아동청소년의건전한환경조성, 스마트워크, 산모도우미, 돌보미서비스, 일과가정의양립일상화등의순으로긍정적인영향을미치는것으로나타났다. < 표 4.2> 저출산인식에영향을미치는정책 ( 저출산제1차 5개년 (2008-2010)) * 변수 긍정보통 b S.E. OR P b S.E. OR P 결혼출산양육부담경감.768.029 2.155.000 -.024.033.976.465 아동청소년의건전한성장환경조성 1.004.216 2.729.000.855.225 2.352.000 일과가정의양립일상화.665.068 1.944.000.149.077 1.161.053 법률.275.110 1.316.012 -.316.133.729.018 건강서비스.497.431 1.645.249.422.498 1.525.397 산모도우미.901.182 2.462.000.792.193 2.207.000 근로시간.132.081 1.141.102 -.331.096.718.001 직장내보육시설.450.116 1.569.000.286.134 1.331.032 스마트워크.990.139 2.691.000.566.152 1.761.000 육아출산휴가 -.146.050.864.004 -.173.055.841.002 돌보미서비스.795.209 2.215.000.798.221 2.222.000 홍보.323.049 1.382.000.156.051 1.169.002 교육.537.112 1.711.000 -.146.133.864.274 방과후프로그램 -.069.201.933.731.007.212 1.007.973 보육시설.346.034 1.413.000 -.223.039.800.000 아동보호.024.036 1.025.501 -.501.041.606.000 청소년지원.319.281 1.376.255 -.246.333.782.461 다문화가정지원 1.318.328 3.736.000.938.360 2.555.009 자립지원프로그램 1.480.378 4.391.000.914.413 2.495.027 주 : * 기본범주 : 부정, Standardized coefficients, Standard error, odds ratio < 표 4.3> 의다항로지스틱분석결과제2차저출산 5개년의인식에영향을미치는정책요인은육아출산휴가는부정적인영향을미치는것으로나타났으며, 상담서비스,
소셜빅데이터기반저출산정책수요분석 79 건강서비스, 다문화가정지원, 스마트워크, 결혼출산양육부담경감, 보육시설, 근로시간등의순으로긍정적인영향을미치는것으로나타났다. < 표 4.3> 저출산인식에영향을미치는정책 ( 저출산제 2 차 5 개년 (2011-2015))* 변수 긍정보통 b S.E. OR P b S.E. OR P 결혼출산양육부담경감.670.025 1.955.000 -.188.028.828.000 아동청소년의건전한성장환경조성.016.119 1.016.893 -.432.130.649.001 일과가정의양립일상화.341.066 1.406.000 -.067.072.935.348 법률.254.113 1.290.024 -.185.126.831.143 건강서비스 1.667.530 5.297.002 1.178.579 3.248.042 산모도우미.540.198 1.717.006.394.209 1.483.059 근로시간.570.071 1.768.000 -.040.081.961.621 직장내보육시설.354.125 1.424.005 -.057.147.945.698 스마트워크.702.131 2.017.000 -.034.149.967.822 육아출산휴가 -.142.041.868.000 -.353.042.702.000 돌보미서비스.282.169 1.326.095 -.103.194.902.596 홍보.369.046 1.446.000.299.046 1.348.000 교육.541.098 1.718.000 -.042.109.959.704 상담서비스 1.999.233 7.379.000.400.265 1.492.131 방과후프로그램.429.201 1.535.033.078.218 1.082.719 보육시설.600.032 1.822.000 -.116.036.891.001 아동보호.294.028 1.342.000 -.412.030.662.000 청소년지원.079.219 1.082.719 -.851.287.427.003 다문화가정지원 1.676.383 5.344.000.968.407 2.632.017 자립지원프로그램.274.307 1.315.372.244.338 1.277.470 주 : * 기본범주 : 부정, Standardized coefficients, Standard error, odds ratio < 표 4.4> 의다항로지스틱분석결과제1차저출산 5개년의인식에영향을미치는원인요인은경제적문제와학대및폭력은부정적인영향을미치는것으로나타났으며, 양성불평등, 보수적판단, 결혼관변화, 고용문제등의순으로긍정적인영향을미치는것으로나타났다. < 표 4.4> 저출산인식에영향을미치는원인 ( 저출산제 1 차 5 개년 (2011-2015))* 변수 긍정보통 b S.E. OR P b S.E. OR P 고용문제.119.062 1.127.056 -.444.076.642.000 양성불평등.430.078 1.538.000 -.111.094.895.238 경제적문제 -.351.037.704.000 -.357.039.700.000 고령화.101.023 1.106.000 -.217.024.805.000 핵가족화 -.271.041.763.000 -.421.046.656.000 결혼관변화.151.045 1.163.001 -.391.053.676.000 보수적판단.168.043 1.182.000 -.313.051.731.000 학대및폭력 -.134.056.874.016 -.502.066.606.000 주 : * 기본범주 : 부정, Standardized coefficients, Standard error, odds ratio < 표 4.5> 의다항로지스틱분석결과제2차저출산 5개년의인식에영향을미치는원인요인은핵가족화, 경제적문제, 그리고학대및폭력순으로부정적인영향을미치는것으로나타났으며, 고용문제, 양성불평등, 보수적판단, 결혼관변화의순으로긍정적인영향을미치는것으로나타났다.
80 송태민 < 표 4.5> 저출산인식에영향을미치는원인 ( 저출산제 2 차 5 개년 (2011-2015))* 변수 긍정보통 b S.E. OR P b S.E. OR P 고용문제.519.055 1.680.000 -.115.062.891.062 양성불평등.253.069 1.288.000 -.126.075.881.093 경제적문제 -.187.027.829.000 -.421.028.656.000 고령화 -.017.017.983.312 -.291.016.748.000 핵가족화 -.231.035.794.000 -.621.038.537.000 결혼관변화.035.037 1.036.340 -.070.037.933.060 보수적판단.169.036 1.185.000 -.306.040.737.000 학대및폭력 -.115.042.892.007 -.554.046.575.000 주 : * 기본범주 : 부정, Standardized coefficients, Standard error, odds ratio 4.3 저출산인식에영향을미치는예측모형 본연구에서는제1차와제2차저출산관련정책의인식에영향을미치는모형을개발하기위하여데이터마이닝분석을실시하였다. 제1차저출산관련정책요인이저출산인식에미치는영향은 < 그림 4.3> 과같다 5). 나무구조의최상위에있는네모는루트노드로서, 예측변수 ( 독립변수 ) 가투입되지않은종속변수 ( 긍정, 보통, 부정 ) 의빈도를나타낸다. 루트노드에서저출산의인식은긍정은 35.3%(21,875건 ), 보통은 34.4%(21,334건 ), 부정은 30.3%(18,789건 ) 으로나타났다. 루트노드의하단의가장상위에위치하는요인은저출산인식예측에가장영향력이높은 ( 관련성이깊은 ) 정책요인으로 결혼출산양육부담 정책의영향력이가장큰것으로나타났다. 결혼출산양육부담 정책이있을경우저출산에대한긍정적감정이이전의 35.3% 에서 54.6% 로크게증가한반면, 보통은이전의 34.4% 에서 23.6%, 부정은이전의 30.3% 에서 21.7% 로감소하였다. 결혼출산양육부담 정책이있고 보육시설 이정책이있는경우저출산에대한긍정적감정은이전의 54.6% 에서 63.6% 로증가한반면, 보통은이전의 23.6% 에서 16.7%, 부정은이전의 21.7% 에서 19.7% 로감소한것으로나타났다. 본연구에서의사결정나무의분류모형의성능에대한이익을분석하기위하여이익도표를산출하였다. < 표 4.6> 의저출산과관련한정책요인의인식예측모형에대한이익도표와같이저출산의긍정적인식에가장영향력이높은경우는 결혼출산양육부담 정책이있고 보육시설 정책이있고 육아출산휴가 정책이없는조합으로나타났다. 즉, 13번노드의지수 (index) 가 188.1% 로뿌리마디와비교했을때 13번노드의조건을가진집단이저출산에대한긍정적감정을가질확률이 1.88배로나타났다. 5) 본연구에서의사결정나무의나무깊이 4 의분석결과는부록 1 과부록 2 에제시하였음.
소셜빅데이터기반저출산정책수요분석 81 < 그림 4.3> 저출산감정에영향을미치는정책요인 ( 제 1 차 5 개년계획 ) < 표 4.6> 저출산정책의예측모형에대한이익도표 ( 제 1 차 5 개년계획 ) 구분긍정보통부정 노드 이익지수누적지수노드 (n) 노드 (%) 이익 (%) 지수 (%) 노드 (n) 노드 (%) 이익 (%) 지수 (%) 13 2113 3.4 6.4 188.1 2113 3.4 6.4 188.1 10 193.3.6 183.6 2306 3.7 7.0 187.7 14 730 1.2 1.9 157.6 3036 4.9 8.8 180.5 12 451.7 1.1 145.8 3487 5.6 9.9 176.0 11 6517 10.5 15.2 144.3 10004 16.1 25.1 155.4 9 3560 5.7 7.0 121.5 13564 21.9 32.0 146.5 8 3573 5.8 6.2 107.2 17137 27.6 38.2 138.3 7 44861 72.4 61.8 85.4 61998 100.0 100.0 100.0 7 44861 72.4 80.0 110.6 44861 72.4 80.0 110.6 9 3560 5.7 4.6 80.3 48421 78.1 84.6 108.3 11 6517 10.5 8.3 78.6 54938 88.6 92.9 104.8 8 3573 5.8 4.3 75.2 58511 94.4 97.2 103.0 10 193.3.2 60.2 58704 94.7 97.4 102.9 14 730 1.2.6 53.7 59434 95.9 98.0 102.3 12 451.7.4 53.5 59885 96.6 98.4 101.9 13 2113 3.4 1.6 46.6 61998 100.0 100.0 100.0 8 3573 5.8 6.9 119.8 3573 5.8 6.9 119.8 7 44861 72.4 76.0 105.0 48434 78.1 82.9 106.1 12 451.7.7 99.5 48885 78.8 83.6 106.1 9 3560 5.7 5.6 97.3 52445 84.6 89.2 105.5 14 730 1.2 1.0 85.4 53175 85.8 90.2 105.2 11 6517 10.5 7.6 72.7 59692 96.3 97.9 101.7 13 2113 3.4 2.0 58.1 61805 99.7 99.9 100.2 10 193.3.1 47.9 61998 100.0 100.0 100.0
82 송태민 제2차저출산의인식은 < 그림 4.4> 와같이긍정은 29.5%(37,395건 ), 보통은 38.6% (48,860건), 부정은 31.9%(40,446건 ) 으로나타났다. 루트노드의하단의가장상위에위치하는요인은저출산인식예측에가장영향력이높은 ( 관련성이깊은 ) 정책요인으로 결혼출산양육부담 정책의영향력이가장큰것으로나타났다. 결혼출산양육부담 정책이있을경우저출산에대한긍정적감정이이전의 29.5% 에서 49.4% 로크게증가한반면, 보통은이전의 38.6% 에서 25.3%, 부정은이전의 31.9% 에서 25.3% 로감소하였다. 결혼출산양육부담 정책이있고 보육시설 이정책이있는경우저출산에대한긍정적감정은이전의 49.4% 에서 57.1% 로증가한반면, 보통은이전의 25.3% 에서 19.9%, 부정은이전의 25.3% 에서 23.0% 로감소한것으로나타났다. < 그림 4.4> 저출산감정에영향을미치는정책요인 ( 제 2 차 5 개년계획 ) < 표 4.7> 의저출산과관련한정책요인의인식예측모형에대한이익도표와같이저출산의긍정적인식에가장영향력이높은경우는 결혼출산양육부담 정책이없고 보육시설 정책이있고 교육 정책이있는조합으로나타났다. 즉, 10번노드의지수 (index) 가 225.9% 로뿌리마디와비교했을때 10번노드의조건을가진집단이저출산에대한긍정적감정을가질확률이 2.26배로나타났다.
소셜빅데이터기반저출산정책수요분석 83 구분긍정보통부정 < 표 4.7> 저출산정책의예측모형에대한이익도표 ( 제 2 차 5 개년계획 ) 노드 이익지수누적지수노드 (n) 노드 (%) 이익 (%) 지수 (%) 노드 (n) 노드 (%) 이익 (%) 지수 (%) 10 72.1.1 225.9 72.1.1 225.9 12 133.1.2 206.3 205.2.3 213.2 13 484.4.7 193.9 689.5 1.1 199.7 14 1801 1.4 2.7 193.2 2490 2.0 3.8 195.0 11 9159 7.2 11.6 160.4 11649 9.2 15.4 167.8 9 4423 3.5 5.5 158.0 16072 12.7 20.9 165.1 8 6527 5.2 6.7 131.0 22599 17.8 27.7 155.2 7 104102 82.2 72.3 88.0 126701 100.0 100.0 100.0 7 104102 82.2 87.9 106.9 104102 82.2 87.9 106.9 12 133.1.1 74.1 104235 82.3 87.9 106.9 9 4423 3.5 2.5 71.6 108658 85.8 90.4 105.5 8 6527 5.2 3.6 70.6 115185 90.9 94.1 103.5 11 9159 7.2 5.0 68.9 124344 98.1 99.0 100.9 14 1801 1.4.8 55.3 126145 99.6 99.8 100.3 10 72.1.0 39.6 126217 99.6 99.9 100.2 13 484.4.1 38.0 126701 100.0 100.0 100.0 8 6527 5.2 5.5 106.9 6527 5.2 5.5 106.9 7 104102 82.2 84.4 102.7 110629 87.3 89.9 103.0 13 484.4.3 88.0 111113 87.7 90.2 102.9 11 9159 7.2 5.9 81.8 120272 94.9 96.2 101.3 9 4423 3.5 2.8 80.7 124695 98.4 99.0 100.6 14 1801 1.4 1.0 67.8 126496 99.8 99.9 100.1 10 72.1.0 56.6 126568 99.9 100.0 100.1 12 133.1.0 33.0 126701 100.0 100.0 100.0 제1차저출산관련원인요인이저출산인식에미치는영향은 < 그림 4.5> 와같다. 루트노드에서저출산의인식은긍정은 35.3%(21,875건 ), 보통은 34.4%(21,334건 ), 부정은 30.3%(18,789건 ) 으로나타났다. 루트노드의하단의가장상위에위치하는요인은저출산인식예측에가장영향력이높은 ( 관련성이깊은 ) 원인요인으로 고령화 원인의영향력이가장큰것으로나타났다. 고령화 원인이있을경우저출산에대한긍정적감정이이전의 35.3% 에서 38.9%, 부정은이전의 30.3% 에서 32.3% 로증가한반면, 보통은이전의 34.4% 에서 28.8% 로감소하였다. 고령화 원인이있고 핵가족화 이원인이있는경우저출산에대한긍정적감정은이전의 38.9% 에서 36.4%, 부정은이전의 32.3% 에서 40.6% 로증가한반면, 보통은이전의 28.8% 에서 23.0% 로감소한것으로나타났다. < 표 4.8> 의저출산과관련한원인요인의인식예측모형에대한이익도표와같이저출산의긍정적인식에가장영향력이높은경우는 고령화 원인이없고 보수적판단 원인이있고 핵가족화 원인이없는조합으로나타났다. 즉, 9번노드의지수 (index) 가 131.9% 로뿌리마디와비교했을때 9번노드의조건을가진집단이저출산에대한긍정적감정을가질확률이 1.32배로나타났다. 저출산의부정적인식에가장영향력이높은경우는 고령화 원인이없고 보수적판단 원인이있고 핵가족화 원인이있는조합으로나타났다. 즉, 10번노드의지수가 180.3% 로뿌리마디와비교했을때 10번노드의조건을가진집단이저출산에대한부정적감정을가질확률이 1.80 배로나타났다.
84 송태민 < 그림 4.5> 저출산감정에영향을미치는원인요인 ( 제 1 차 5 개년계획 ) 구분긍정보통부정 < 표 4.8> 저출산원인의예측모형에대한이익도표 ( 제 1 차 5 개년계획 ) 노드 이익지수누적지수노드 (n) 노드 (%) 이익 (%) 지수 (%) 노드 (n) 노드 (%) 이익 (%) 지수 (%) 9 1498 2.4 3.2 131.9 1498 2.4 3.2 131.9 14 454.7.9 128.6 1952 3.1 4.1 131.1 8 1485 2.4 2.9 122.1 3437 5.5 7.1 127.2 11 13061 21.1 24.0 113.7 16498 26.6 31.0 116.5 12 2485 4.0 3.9 97.6 18983 30.6 34.9 114.1 13 1631 2.6 2.5 96.1 20614 33.2 37.4 112.6 7 41115 66.3 62.2 93.8 61729 99.6 99.6 100.1 10 269.4.4 85.3 61998 100.0 100.0 100.0 7 41115 66.3 72.7 109.6 41115 66.3 72.7 109.6 11 13061 21.1 18.4 87.2 54176 87.4 91.0 104.2 12 2485 4.0 3.2 79.5 56661 91.4 94.2 103.1 13 1631 2.6 1.9 72.7 58292 94.0 96.1 102.2 8 1485 2.4 1.7 71.0 59777 96.4 97.8 101.5 9 1498 2.4 1.6 68.1 61275 98.8 99.5 100.6 14 454.7.3 45.4 61729 99.6 99.8 100.2 10 269.4.2 44.3 61998 100.0 100.0 100.0 10 269.4.8 180.3 269.4.8 180.3 13 1631 2.6 3.6 135.5 1900 3.1 4.3 141.9 14 454.7.9 128.6 2354 3.8 5.3 139.3 12 2485 4.0 5.1 126.0 4839 7.8 10.3 132.5 8 1485 2.4 2.6 107.1 6324 10.2 12.9 126.5 9 1498 2.4 2.4 99.1 7822 12.6 15.3 121.3 11 13061 21.1 20.8 98.6 20883 33.7 36.1 107.1 7 41115 66.3 63.9 96.4 61998 100.0 100.0 100.0
소셜빅데이터기반저출산정책수요분석 85 제2차저출산관련원인요인이저출산인식에미치는영향은 < 그림 4.6> 과같다. 루트노드에서저출산의인식은긍정은 29.5%(37,935건 ), 보통은 38.6%(48,860건 ), 부정은 31.9%(40,446건 ) 으로나타났다. 루트노드의하단의가장상위에위치하는요인은저출산인식예측에가장영향력이높은 ( 관련성이깊은 ) 원인요인으로 고령화 원인의영향력이가장큰것으로나타났다. 고령화 원인이있을경우저출산에대한긍정적감정이이전의 29.5% 에서 32.1%, 부정은이전의 31.9% 에서 35.9% 로증가한반면, 보통은이전의 38.6% 에서 32.0% 로감소하였다. 고령화 원인이있고 핵가족화 이원인이있는경우저출산에대한긍정적감정은이전의 32.1% 에서 30.2%, 보통은이전의 32.0% 에서 22.5% 로감소한반면, 부정은이전의 35.9% 에서 47.2% 로감소한것으로나타났다. < 그림 4.6> 저출산감정에영향을미치는원인요인 ( 제 2 차 5 개년계획 ) < 표 4.9> 의저출산과관련한원인요인의인식예측모형에대한이익도표와같이저출산의긍정적인식에가장영향력이높은경우는 고령화 원인이없고 학대및폭력 원인이있고 결혼관변화 원인이있는조합으로나타났다. 즉, 13번노드의지수 (index) 가 139.4% 로뿌리마디와비교했을때 13번노드의조건을가진집단이저출산에대한긍정적감정을가질확률이 1.39배로나타났다. 저출산의부정적인식에가장영향력이높은경우는 고령화 원인이있고 핵가족화 원인이있고 결혼관변화 원인이없는조합으로나타났다. 즉, 10번노드의지수가 153.5% 로뿌리마디와비교했을때 10번노드의조건을가진집단이저출산에대한부정적감정을가질확률이 1.54 배로나타났다.
86 송태민 구분긍정보통부정 < 표 4.9> 저출산원인의예측모형에대한이익도표 ( 제 2 차 5 개년계획 ) 노드 이익지수누적지수노드 (n) 노드 (%) 이익 (%) 지수 (%) 노드 (n) 노드 (%) 이익 (%) 지수 (%) 13 265.2.3 139.4 265.2.3 139.4 9 359.3.4 132.1 624.5.7 135.2 12 1914 1.5 1.8 117.9 2538 2.0 2.4 122.2 7 25025 19.8 21.7 109.9 27563 21.8 24.1 111.0 14 1809 1.4 1.5 108.3 29372 23.2 25.7 110.8 8 5493 4.3 4.7 107.7 34865 27.5 30.4 110.3 10 2502 2.0 1.9 98.2 37367 29.5 32.3 109.5 11 89334 70.5 67.7 96.0 126701 100.0 100.0 100.0 11 89334 70.5 76.1 108.0 89334 70.5 76.1 108.0 7 25025 19.8 17.4 88.1 114359 90.3 93.5 103.6 8 5493 4.3 3.1 71.7 119852 94.6 96.6 102.2 12 1914 1.5 1.0 68.6 121766 96.1 97.7 101.6 9 359.3.2 67.9 122125 96.4 97.9 101.5 14 1809 1.4.9 63.6 123934 97.8 98.8 101.0 10 2502 2.0 1.1 57.1 126436 99.8 99.9 100.1 13 265.2.1 49.9 126701 100.0 100.0 100.0 10 2502 2.0 3.0 153.5 2502 2.0 3.0 153.5 14 1809 1.4 1.9 136.3 4311 3.4 5.0 146.3 8 5493 4.3 5.5 127.1 9804 7.7 10.5 135.5 13 265.2.3 124.1 10069 7.9 10.7 135.2 12 1914 1.5 1.8 121.4 11983 9.5 12.6 133.0 9 359.3.3 109.1 12342 9.7 12.9 132.3 7 25025 19.8 20.8 105.2 37367 29.5 33.7 114.2 11 89334 70.5 66.3 94.1 126701 100.0 100.0 100.0 < 표 4.10> 과같이전년도의저출산정책요인에대한저출산인식의연관성예측에서가장신뢰도가높은연관규칙으로는 { 홍보, 상담서비스 } => { 긍정 } 이며세변인의연관성은지지도 0.001, 신뢰도는 0.771, 향상도는 2.4556으로나타났다. 이는온라인문서에서홍보와상담서비스정책이언급되면저출산에대해긍정적으로생각할확률이 77.1% 이며, 홍보, 상담서비스가언급되지않은문서보다저출산에대해긍정적으로생각할확률이 2.46배높아지는것을나타낸다. < 표 4.10> 저출산정책연관규칙 ( 전체 ) 규칙 지지도 신뢰도 향상도 { 홍보, 상담서비스 } => { 긍정 } 0.00105459 0.7713178 2.455659 { 상담서비스 } => { 긍정 } 0.00111818 0.7535714 2.399159 { 일과가정의양립일상화, 근로시간 } => { 긍정 } 0.00110228 0.6864686 2.185523 { 결혼출산양육부담경감, 보육시설, 아동보호 } => { 긍정 } 0.00185480 0.6822612 2.172128 { 결혼출산양육부담경감, 직장내보육시설, 보육시설 } => { 긍정 } 0.00137255 0.6624041 2.108908 { 결혼출산양육부담경감, 근로시간, 보육시설 } => { 긍정 } 0.00164812 0.6575053 2.093312 { 결혼출산양육부담경감, 직장내보육시설 } => { 긍정 } 0.00198199 0.6415094 2.042386 { 결혼출산양육부담경감, 일과가정의양립일상화, 보육시설 } => { 긍정 } 0.00184420 0.6350365 2.021777 { 결혼출산양육부담경감, 법률 } => { 긍정 } 0.00103339 0.6250000 1.989824 { 결혼출산양육부담경감, 교육 } => { 긍정 } 0.00107578 0.6189024 1.970411
소셜빅데이터기반저출산정책수요분석 87 규칙 지지도 신뢰도 향상도 { 일과가정의양립일상화, 보육시설 } => { 긍정 } 0.00281930 0.6171694 1.964894 { 직장내보육시설, 육아출산휴가, 보육시설 } => { 긍정 } 0.00100159 0.6156352 1.960009 { 결혼출산양육부담경감, 홍보, 보육시설 } => { 긍정 } 0.00145734 0.6070640 1.932721 { 결혼출산양육부담경감, 보육시설 } => { 긍정 } 0.01649187 0.6068643 1.932085 { 직장내보육시설, 보육시설 } => { 긍정 } 0.00206148 0.6049767 1.926075 { 근로시간, 보육시설 } => { 긍정 } 0.00277161 0.6046243 1.924954 { 육아출산휴가, 아동보호 } > { 긍정 } 0.00176471 0.6010830 1.913679 { 결혼출산양육부담경감, 근로시간 } > { 긍정 } 0.00283520 0.5984340 1.905245 { 직장내보육시설 } => { 긍정 } 0.00337574 0.5964419 1.898903 { 일과가정의양립일상화, 육아출산휴가, 보육시설 } => { 긍정 } 0.00109698 0.5830986 1.856422 { 결혼출산양육부담경감, 일과가정의양립일상화 } > { 긍정 } 0.00366721 0.5824916 1.854489 { 근로시간, 육아출산휴가, 보육시설 } => { 긍정 } 0.00129836 0.5778302 1.839649 { 직장내보육시설, 육아출산휴가 } > { 긍정 } 0.00139905 0.5751634 1.831158 { 결혼출산양육부담경감, 아동보호 } > { 긍정 } 0.00523055 0.5738372 1.826936 { 보육시설, 아동보호 } => { 긍정 } 0.00397458 0.5716463 1.819961 { 일과가정의양립일상화, 육아출산휴가 } => { 긍정 } 0.00204028 0.5695266 1.813213 { 일과가정의양립일상화, 아동보호 } > { 긍정 } 0.00102279 0.5693215 1.812560 { 스마트워크 } => { 긍정 } 0.00260202 0.5650173 1.798856 { 결혼출산양육부담경감, 육아출산휴가, 보육시설 } => { 긍정 } 0.00361952 0.562603 1.791170 { 홍보, 보육시설 } => { 긍정 } 0.00230525 0.5612903 1.786990 < 표 4.11> 과같이제1차저출산정책요인에대한저출산인식의연관성예측에서가장신뢰도가높은연관규칙으로는 { 결혼출산양육부담경감, 다문화가정지원 } => { 긍정 } 이며세변인의연관성은지지도 0.001, 신뢰도는 0.853, 향상도는 2.418으로나타났다. 이는온라인문서에서결혼출산양육부담경감과다문화가정지원정책이언급되면저출산에대해긍정적으로생각할확률이 85.3% 이며, 결혼출산양육부담경감, 다문화가정지원이언급되지않은문서보다저출산에대해긍정적으로생각할확률이 2.42배높아지는것을나타낸다. < 표 4.11> 저출산정책연관규칙 ( 제 1 차 5 개년계획 ) 규칙 지지도 신뢰도 향상도 { 결혼출산양육부담경감, 다문화가정지원 }=> { 긍정 } 0.00103229 0.8533333 2.418512 { 결혼출산양육부담경감. 직장내보육시설, 홍보 }=> { 긍정 } 0.00106455 0.7764706 2.200669 { 직장내보육시설, 홍보 }=> { 긍정 } 0.00120971 0.7500000 2.125646 { 결혼출산양육부담경감, 법률, 보육시설 }=> { 긍정 } 0.00124197 0.7403846 2.098394 { 일과가정의양립일상화, 근로시간 }=> { 긍정 } 0.00185489 0.7371795 2.089310 { 결혼출산양육부담경감, 산모도우미 }=> { 긍정 } 0.00130649 0.7297297 2.068196 { 산모도우미 }=> { 긍정 } 0.00132262 0.7256637 2.056672 { 결혼출산양육부담경감, 직장내보육시설, 보육시설 }=> { 긍정 } 0.00291944 0.7098039 2.011722 { 근로시간, 아동보호 }=> { 긍정 } 0.00133875 0.7033898 1.993543 { 다문화가정지원 }=> { 긍정 } 0.00141940 0.6984127 1.979437 { 결혼출산양육부담경감, 법률 }=> { 긍정 } 0.00220974 0.6884422 1.951179 { 결혼출산양육부담경감, 직장내보육시설, 육아출산휴가 }=> { 긍정 } 0.00183876 0.6867470 1.946374 { 결혼출산양육부담경감, 직장내보육시설, 육아출산휴가, 보육시설 }=> { 긍정 } 0.00140327 0.6850394 1.941535 { 일과가정의양립일상화, 근로시간, 보육시설 }=> { 긍정 } 0.00104842 0.6842105 1.939186 { 결혼출산양육부담경감, 직장내보육시설 }=> { 긍정 } 0.00425820 0.6821705 1.933404 { 결혼출산양육부담경감, 보육시설, 아동보호 }=> { 긍정 } 0.00348398 0.6792453 1.925113 { 결혼출산양육부담경감, 스마트워크 } => { 긍정 } 0.00119358 0.6788991 1.924132
88 송태민 규칙 지지도 신뢰도 향상도 { 결혼출산양육부담경감, 일과가정의양립일상화, 보육시설 }=> { 긍정 } 0.00406464 0.6774194 1.919938 { 결혼출산양육부담경감, 돌보미서비스 }=> { 긍정 } 0.00114519 0.6761905 1.916455 { 육아출산휴가, 보육시설, 아동보호 }=> { 긍정 } 0.00161295 0.6756757 1.914996 { 결혼출산양육부담경감, 육아출산휴가, 보육시설, 아동보호 }=> { 긍정 } 0.00117745 0.6697248 1.898130 { 일과가정의양립일상화, 보육시설 }=> { 긍정 } 0.00608084 0.6672566 1.891135 { 근로시간, 홍보 }=> { 긍정 } 0.00129036 0.6666667 1.889463 { 일과가정의양립일상화, 직장내보육시설 }=> { 긍정 } 0.00106455 0.6600000 1.870568 { 법률, 보육시설 }=> { 긍정 } 0.00180651 0.6588235 1.867234 { 근로시간, 직장내보육시설 }=> { 긍정 } 0.00124197 0.6525424 1.849432 { 교육, 보육시설 }=> { 긍정 } 0.00146778 0.6500000 1.842226 { 스마트워크, 보육시설 }=> { 긍정 } 0.00103229 0.6464646 1.832206 { 결혼출산양육부담경감, 육아출산휴가, 아동보호 }=> { 긍정 } 0.00161295 0.6451613 1.828512 { 육아출산휴가, 아동보호 }=> { 긍정 } 0.00282267 0.6433824 1.823471 { 결혼출산양육부담경감, 일과가정의양립일상화 }=> { 긍정 } 0.00738733 0.6405594 1.815470 { 결혼출산양육부담경감, 근로시간, 보육시설 }=> { 긍정 } 0.00285493 0.6389892 1.811019 { 결혼출산양육부담경감, 보육시설 }=> { 긍정 } 0.02916223 0.6359479 1.802400 { 스마트워크, 육아출산휴가 }=> { 긍정 } 0.00162908 0.6352201 1.800337 { 직장내보육시설, 육아출산휴가, 보육시설 }=> { 긍정 } 0.00175812 0.6337209 1.796088 { 결혼출산양육부담경감, 근로시간, 육아출산휴가 }=> { 부정 } 0.00130649 0.3389121 1.118307 { 아동보호 }=> { 부정 } 0.02556534 0.3355918 1.107351 { 근로시간, 육아출산휴가, 보육시설 }=> { 부정 } 0.00122584 0.3333333 1.099899 { 육아출산휴가, 홍보 }=> { 부정 } 0.00145166 0.3146853 1.038366 { 근로시간, 육아출산휴가 }=> { 부정 } 0.00201619 0.3101737 1.023479 < 표 4.12> 와같이제2차저출산정책요인에대한저출산인식의연관성예측에서가장신뢰도가높은연관규칙으로는 { 홍보, 상담서비스 } => { 긍정 } 이며세변인의연관성은지지도 0.001, 신뢰도는 0.771, 향상도는 2.613으로나타났다. 이는온라인문서에서홍보와상담서비스정책이언급되면저출산에대해긍정적으로생각할확률이 77.1% 이며, 홍보, 상담서비스가언급되지않은문서보다저출산에대해긍정적으로생각할확률이 2.61배높아지는것을나타낸다. < 표 4.12> 저출산정책연관규칙 ( 제 2 차 5 개년계획 ) 규칙 지지도 신뢰도 향상도 { 홍보, 상담서비스 }=> { 긍정 } 0.00157062 0.7713178 2.613364 { 상담서비스 }=> { 긍정 } 0.00166533 0.7535714 2.553236 { 결혼출산양육부담경감, 보육시설, 아동보호 }=> { 긍정 } 0.00105760 0.6871795 2.328288 { 결혼출산양육부담경감, 근로시간, 보육시설 }=> { 긍정 } 0.00105760 0.6836735 2.316409 { 근로시간, 육아출산휴가, 보육시설 }=> { 긍정 } 0.00101025 0.6530612 2.212689 { 결혼출산양육부담경감, 근로시간 }=> { 긍정 } 0.00210732 0.6180556 2.094084 { 근로시간, 보육시설 }=> { 긍정 } 0.00194157 0.6134663 2.078535 { 근로시간, 육아출산휴가 }=> { 긍정 } 0.00225728 0.5921325 2.006252 { 직장내보육시설, 보육시설 }=> { 긍정 } 0.00116810 0.5849802 1.982018 { 직장내보육시설 }=> { 긍정 } 0.00205996 0.5774336 1.956449 { 결혼출산양육부담경감, 육아출산휴가, 보육시설 }=> { 긍정 } 0.00218625 0.5723140 1.939103 { 결혼출산양육부담경감, 보육시설 }=> { 긍정 } 0.01029194 0.5706783 1.933561 { 결혼출산양육부담경감, 아동보호 }=> { 긍정 } 0.00425411 0.5667718 1.920325 { 육아출산휴가, 아동보호 }=> { 긍정 } 0.00124703 0.5602837 1.898342 { 스마트워크 }=> { 긍정 } 0.00180740 0.5558252 1.883236 { 홍보, 보육시설 }=> { 긍정 } 0.00126281 0.5536332 1.875809
소셜빅데이터기반저출산정책수요분석 89 규칙 지지도 신뢰도 향상도 { 근로시간 }=> { 긍정 } 0.00606940 0.5434629 1.841350 { 보육시설, 아동보호 }=> { 긍정 } 0.00262034 0.5415987 1.835034 { 육아출산휴가, 보육시설 }=> { 긍정 } 0.00390683 0.5409836 1.832950 { 돌보미서비스 }=> { 긍정 } 0.00101025 0.5400844 1.829903 { 일과가정의양립일상화, 보육시설 }=> { 긍정 } 0.00122335 0.5218855 1.768242 { 교육 }=> { 긍정 } 0.00275451 0.5065312 1.716219 { 보육시설 }=> { 긍정 } 0.02694532 0.5035398 1.706084 { 결혼출산양육부담경감, 육아출산휴가 }=> { 긍정 } 0.00424621 0.4990724 1.690947 { 결혼출산양육부담경감일과가정의양립일상화 }=> { 긍정 } 0.00184686 0.4947146 1.676182 { 결혼출산양육부담경감 }=> { 긍정 } 0.04514565 0.4940831 1.674043 { 홍보, 아동보호 }=> { 긍정 } 0.00142856 0.4918478 1.666469 { 결혼출산양육부담경감, 홍보 }=> { 긍정 } 0.00438039 0.4780362 1.619673 { 일과가정의양립일상화 }=> { 긍정 } 0.00561163 0.4717983 1.598538 { 법률 }=> { 긍정 } 0.00173637 0.4621849 1.565966 { 홍보 }=> { 긍정 } 0.01218617 0.4213974 1.427770 { 아동보호 }=> { 긍정 } 0.02573776 0.4129939 1.399298 { 아동청소년의건전한성장환경조성 }=> { 긍정 } 0.00132595 0.4077670 1.381588 { 육아출산휴가 }=> { 긍정 } 0.01249398 0.3888479 1.317487 { 아동청소년의건전한성장환경조성 }=> { 부정 } 0.00109707 0.3373786 1.056871 { 육아출산휴가 }=> { 부정 } 0.01075761 0.3348072 1.048816 { 아동보호 }=> { 부정 } 0.02011823 0.3228217 1.011270 5. 결론및정책제언 본연구는국내의 SNS, 온라인뉴스사이트, 블로그, 카페, 게시판등인터넷을통해수집된소셜빅데이터를데이터마이닝의연관분석과의사결정나무분석을통하여저출산정책의수요에대한예측모형을개발하고자하였다. 본연구의결과를요약하면다음과같다. 첫째, 저출산관련주요요인으로고령화, 임신출산, 결혼출산양육부담경감, 결혼준비, 출산비용, 경제적문제, 보육시설, 아동보호, 주택등의순으로많이언급된것으로나타났다. 둘째, 저출산관련연도별인식은 2012년까지긍정감정이부정감정보다많았으나, 2013년부터부정감정이긍정감정보다많은것으로나타났다. 셋째, 제1차저출산 5개년의인식에영향을미치는정책요인은육아출산휴가는부정적인영향을미치는것으로나타났으며, 자립지원프로그램, 다문화가정지원, 아동청소년의건전한환경조성, 스마트워크, 산모도우미, 돌보미서비스, 일과가정의양립일상화등의순으로긍정적인영향을미치는것으로나타났다. 제2차저출산 5개년의인식에영향을미치는정책요인은육아출산휴가는부정적인영향을미치는것으로나타났으며, 상담서비스, 건강서비스, 다문화가정지원, 스마트워크, 결혼출산양육부담경감, 보육시설, 근로시간등의순으로긍정적인영향을미치는것으로나타났다. 넷째, 제1차저출산 5개년의인식에영향을미치는원인요인은경제적문제와학대및폭력은부정적인영향을미치는것으로나타났으며, 양성불평등, 보수적판단, 결혼관변화, 고용문제등의순으로긍정적인영향을미치는것으로나타났다. 제2차저출산 5개년의인식에영향을미치는원인요인은핵가족화, 경제적문제, 그리고학대및폭력순으로부정적인영향을미치는것으로나타났으며, 고용문제, 양성불평등, 보수적판단,
90 송태민 결혼관변화의순으로긍정적인영향을미치는것으로나타났다. 다섯째, 제1차저출산인식예측에서 결혼출산양육부담 정책이있고 보육시설 이정책이있는경우저출산에대한긍정적감정은이전의 54.6% 에서 63.6% 로증가한반면, 보통은이전의 23.6% 에서 16.7%, 부정은이전의 21.7% 에서 19.7% 로감소한것으로나타났다. 제2차저출산인식예측에서 결혼출산양육부담 정책이있고 보육시설 이정책이있는경우저출산에대한긍정적감정은이전의 49.4% 에서 57.1% 로증가한반면, 보통은이전의 25.3% 에서 19.9%, 부정은이전의 25.3% 에서 23.0% 로감소한것으로나타났다. 여섯째, 제1차저출산관련원인요인이저출산인식에미치는영향에서 고령화 원인이있고 핵가족화 이원인이있는경우저출산에대한긍정적감정은이전의 38.9% 에서 36.4%, 부정은이전의 32.3% 에서 40.6% 로증가한반면, 보통은이전의 28.8% 에서 23.0% 로감소한것으로나타났다. 제2차저출산관련원인요인이저출산인식에미치는영향에서 고령화 원인이있고 핵가족화 이원인이있는경우저출산에대한긍정적감정은이전의 32.1% 에서 30.2%, 보통은이전의 32.0% 에서 22.5% 로감소한반면, 부정은이전의 35.9% 에서 47.2% 로감소한것으로나타났다. 일곱째, 제1차저출산정책요인에대한저출산인식의연관성예측에서가장신뢰도가높은연관규칙으로는 { 결혼출산양육부담경감, 다문화가정지원 } => { 긍정 } 이며세변인의연관성은지지도 0.001, 신뢰도는 0.853, 향상도는 2.418으로나타났다. 제2차저출산정책요인에대한저출산인식의연관성예측에서가장신뢰도가높은연관규칙으로는 { 홍보, 상담서비스 } => { 긍정 } 이며세변인의연관성은지지도 0.001, 신뢰도는 0.771, 향상도는 2.613 으로나타났다. 앞선저출산정책수요예측연구를근거로우리나라의저출산정책수요와관련하여다음과같은정책적함의를도출할수있다. 첫째, 결혼출산양육부담경감, 근로시간, 육아출산휴가, 보육시설, 아동보호정책, 청소년지원정책은보통의감정보다부정의감정이많은것으로나타나동정책들에대해저출산에보통의감정을가진사람들을긍정의감정으로변화시키기위한맞춤형서비스모형이개발되어야할것으로본다. 둘째, 양성불평등을제외하고모든원인요인은보통의감정보다부정의감정이많은것으로나타나저출산에보통의감정을가진사람들을긍정의감정으로변화시키기위해동요인들의해결을위한정책이개발되어야할것으로본다. 셋째, 고용문제와양성불평등을제외하고대부분의원인요인은보통의감정보다부정의감정이많은것으로나타나저출산에보통의감정을가진사람들을긍정의감정으로변화시키기위해동요인들의해결을위한정책이개발되어야할것으로본다. 넷째, 원인에따른저출산정책감성분석결과에서도제1 차년도에는고용문제, 양성불평등, 고령화, 결혼관변화, 보수적판단, 학대및폭력에대한긍정비율이높았으며, 제2차년도결과에서도고용문제, 양성불평등, 보수적인판단에긍정적인비율이높은것으로나타났다. 현재, 미혼남성및여성이경험하는노후불안감, 경제적인불안전성등의이유로만혼또는독신생활을하는인구가증가하고있다. 이는저성장과고령화로인해젊은청년들이취업난에어려움을겪을뿐만아니라고용상태가불안정해지면서결혼을필수가아닌선택으로여기고있다. 결혼과출산에대한기회비용을더욱철저하게
소셜빅데이터기반저출산정책수요분석 91 계산하도록만드는사회적구조, 자녀양육에대한경제적인부담등의원인으로출산율은낮아지고있다. 결혼을하더라도결혼준비로인한무리한가계대출로인하여출산을미루거나, 아이중심이아닌부부중심의결혼생활, 아이를낳더라도앙육및교육비의부담이커둘째아이출산을꺼리는경향이증가하고있다. 지금까지수많은저출산정책과대책들이투입되고있음에도불구하고출산율이회복되지않는것을인구정책의속성상단기에효과를기대하기힘들다는이유만으로돌릴수는없다. 최근정부가제3차 (2016~2020년) 저출산고령사회기본계획을통해저출산정책을확대했지만정책의체감도측면에서는여전히한계가있다. 연애, 결혼, 출산을포기하는 3포세대들이결혼과출산하기좋은환경을만들기위해서는고용의안전성이보장된일자리창출은물론, 여성이출산및양육을하는동안경력단절이되지않도록정부차원의지원을확대, 남성이육아휴직을할수있는사회적환경조성, 육아휴직급여확대, 출산과양육을국가가책임질수있는정책의대전환이필요할뿐만아니라, 기존의정책을재검토하여정책의우선순위를설정하는등보다체계적이고종합적인대책이필요할것으로판단된다.
92 송태민 부록 1. 1 차저출산감정에영향을미치는정책요인 ( 나무깊이 4 기준 )
소셜빅데이터기반저출산정책수요분석 93 부록 2. 2 차저출산감정에영향을미치는정책요인 ( 나무깊이 4 기준 )
94 송태민 참고문헌 김승권 (2003). 저출산의원인과안정화대책, < 보건복지포럼 >, 86, 6-21. 김혜선 (2006). 정부의저출산대응정책. < 한국모자보건학회학술대회연제집 >, 56-59. 송영조 (2012). < 빅데이터시대! SNS의진화와공공정책 >, 한국정보화진흥원, 서울. 송태민, 김태헌, 이중순, 진달래 (2010). < 저출산 고령사회정보관리체계및통계DB 구축방안연구 >, 한국보건사회연구원, 세종. 이삼식, 정경희등 (2013). < 저출산원인과파급효과및정책방안 >, 한국보건사회연구원, 세종. 이철희 (2012). 한국의합계출산율변화요인분해. < 한국인구학 >, 35(3), 117-144. 조남훈, 김태헌, 이삼식, 오형희, 김용현, 김정석, 구성열등 (2006). < 저출산고령사회기본계획의이해 >, 한국보건사회연구원, 세종. 통계청 (2015). 합계출산율 ( 시도 ). http://kosis.kr/stathtml/stathtml.do?orgid=101&tbli d=dt_1yl0401&vw_cd =MT_GTITLE01&list_id=101_014&seqNo=&lang_ mode=ko&language=kor&obj_var_id=&itm_id=&conn_path=e1에서 2015. 1 1. 8. 인출 Kass, G. V. (1980). An exploratory technique for investigating large quantities of c ategorical data. Applied Statistics, 29(2), 119-127. OECD. (2015. 5. 12). OECD Family Database. http://www.oecd.org/ social/family/ database.htm에서 2015.11. 8. 인출 Park, H. C. (2010). Standardization for basic association measures in association rule mining. Journal of the Korean Data & Information Science Society, 21, 891-899. Song, T. M., Song, J., An, J. Y., Hayman, L. L. and Woo, J. M. (2014). Psychological and social factors affecting internet searches on suicide in Korea: A big data analysis of Google search trends. Yonsei Med J., 55(1), 254-263.
소셜빅데이터기반저출산정책수요분석 95 Analysis of the Low Birth Policy Demand based on Social Big Data Tae Min Song 1) Abstract The study defined social big data as text-based web documents available through 183 domestic online channels. Data from January 1st, 2008 to June 30th, 2015 were collected hourly including weekends and holidays. Using 433,603 text documents collected, sentiment analysis was carried out on awareness of policy regarding low fertility. The study found that more negative emotions were found to be associated with marriage-delivery-raise-reduce, working hours, maternity leave, child care facilities, child protection, and youth support than neutral emotions were. Most of the variables carried negative connotations than neutral ones except for unemployment and gender inequality. Furthermore, as for sentiments on the policy s impact on its related factors, all of the factors exhibited more positive sentiments whereas marital status reverses the findings. Key words : Low Birth Policy, Social Big Data, Opinion Mining, Association Rule, Data Mining 1) Research Fellow, Information and Statistical Research Dept., Korea Institute for Health and Social Affairs, 370 Sicheong-daero, Sejong City 339-007 KOREA. E-mail: tmsong @kihasa.re.kr