ISSN 2092-7117 (2014-17) 발행일 : 2014. 05. 02 소셜빅데이터를활용한사회위험요인예측 : 청소년자살과사이버따돌림을중심으로 SNS를통하여전송되는데이터양이기하급수적으로증가하면서많은국가와기업에서새로운경적효과와일자리창출, 그리고사회적문의해결을위해빅데이터의활용과분석을적극적으로시도함 SNS 상에서나타나는자살등사회위험요인에대한감정표현이나심리적위기행태들을분석하게되면위험징후와유의미한패턴을감지하여사회위험요인을예측할수있음 민간기관의검색포털이나 SNS 의비정형빅데이터의수집 분류와함께정부 나공공기관의정형빅데이터와연계한후, 다변량분석을실시하여사회위험 요인을예측하고대책을수립할수있음 송태민사회정신건강연구센터장 보건복지빅데이터의부가가치를높이고사회위험과불확실성에효과적으로대 응하기위해서는국가차원의사회위험관리빅데이터분석센터의설립이필요함 1. 보건복지분야빅데이터추진방안 정부 3.0 의효과적인추진과생애주기별맞춤형보건복지및국민행복실현을위한보건복지분야빅데이터의효율적활용방안모색 정부 3.0 은공공정보를적극개방 공유하고, 부처간칸막이를없애고소통 협력함으로써국정과에 대한추진동력을확보하고국민맞춤형서비스를공함과동시에일자리창출과창조경를지원하는새로 운정부운영패러다임을의미함 빅데이터는방대한규모 (Volume), 빠른생성주기 (Velocity), 다양하고 (Variety), 복잡한 (Complexity) 형태의 데이터를뜻하며, 대용량의데이터를활용 분석하여신뢰성있고 (Veracity) 가치있는 (Value) 정보를추출 하고, 생성된지식을바탕으로능동적으로대응하거나변화를예측하기위한기술을의미함 빅데이터의특성 (5V, 1C) 와보건복지부 3.0 의추진전략은유기적인연관성이있음 1) 1) 오미애 (2014). 정부 3.0 과빅데이터 : 보건복지분야사례를중심으로. 보건 복지 Issue & Focus, 230. 의내용을보완함.
보건 복지 Issue & Focus 보건복지부 3.0의 소통하는투명한보건복지 는빅데이터의이용활성화를위해공공데이터를적극개방함으로써활용가능한자료가복잡하고 (Complexity), 양이매우방대해짐 (Volume) 보건복지부 3.0의 일잘하는유능한보건복지 는빅데이터를활용한과학적행정구현으로다양한 (Variety) 정보의결합이가능하고, 정부운영시스템개선으로인한자료의축적속도 (Velocity) 가빠름 보건복지부 3.0의 국민중심보건복지서비스 는빅데이터분석결과를기초로수요자맞춤형서비스통합을공함으로써신뢰성있는 (Veracity) 새로운가치 (Value) 를창출함 [ 그림 1] 빅데이터의특성과보건복지부 3.0 추진전략 Volume, Complexity 국민의알권리충족 홈페이지개편을통한접근성강화 국민실생활편의에맞게 6 개분야로구분해공 공공데이터의민간활용활성화 데이터개방협의체구성및운영 공공DB품질개선및 API개발지원등 민 / 관협치강화 국민소통채널다양화 민원 / 도개선협의회의적극적운영 청각장애인에게원활한고충상담서비스지원을위한영상상담시스템운영 일잘하는유능한보건복지 정부내칸막이해소 기관간정보시스템연계 협업 / 소통지원을위한시스템개선 행정정보공동이용및정보공유확대 빅데이터를활용한행정구현 보건복지부및산하기관이보유한빅터이터를구축 / 활용하여서비스공및새로운일자리창출 Value, Veracity 수요자맞춤형서비스통합공 국민개개인의생애주기별 / 유형별원스톱, 복지서비스공 시스템연계 / 통합을통한불편해소창업및기업활동원스톱지원강화 기업유형별원스톱맞춤형서비스지원 기업역량강화를위한인프라구축 / 지원 정보취약계층접근성고 장애인등의취약계층이쉽게접근할수있도록접근성강화 취약계층의이용편의향상을위한원스톱서비스구현 2 소통하는투명한보건복지 Velocity, Variety 2. 소셜빅데이터를활용한청소년자살위험예측 국민중심보건복지서비스 우리나라는최근스마트폰보급의확산에따라모바일인터넷과 SNS 이용이급속히증가함 2013 년 7 월현재우리나라만 3 세이상인구의인터넷이용률은 82.1% 이며이중만 6 세이상인터넷이용자의 55.1% 가 1 년이내 SNS 을이용하고있음 2) SNS 를통하여전송되는데이터양이기하급수적으로증가하면서많은국가와기업에서새로운경적효과와일자리창출, 그리고사회적문의해결을위해빅데이터의활용과분석을적극적으로시도함 공공부분에서유전자와생명연구자원공유를통한질병예방및예측, 치료, 그리고환자관리등에활용하고 있으며, 다국적 IT(Information Technology) 기업들과웹 (web) 검색포털 (portal) 사이트들은서버에저장 된빅데이터를분석함으로써다양한가치정보를생산함 3) SNS 는청소년들이일상생활속에서갖는우울한감정이나스트레스, 고민을들을수있고행태를이해할수 있는장소로 SNS 상에서나타나는자살에대한감정표현이나심리적위기행태들을분석하게되면위험 징후와유의미한패턴을감지하여자살을예방하는데긍정적효과가발휘됨 4) 우리나라는급격한사회 경적변화속에자살률이 2004 년부터 OECD 국가중최고의수준이며, 특히청소년계층의자살문가사회적이슈로대두되면서정부차원의적극적인대책이시급한실정임 2) 미래창조과학부 한국인터넷진흥원 (2013). 2013 인터넷이용자실태조사. 3) Policy Exchange (2012). The Big Data Opportunity: Making government faster, smarter and more personal. 4) 한국정보화진흥원 (2012). 소셜분석으로살펴본청소년자살예방정책의시사점. 7 면.
소셜빅데이터를활용한사회위험요인예측 : 청소년자살과사이버따돌림을중심으로 청소년자살의원인과관련요인을규명하기위하여기존에실시하던횡단적조사나종단적조사등을대상으로한연구는정해진변인들에대한개인과집단의관계를보는데에는유용하나사이버상에서언급된개인별버즈 (buzz: 입소문 ) 가사회적현상들과어떻게얼마나연관되어있는지밝히는데는한계가있음 본연구는 2011. 1. 1 2013. 3. 31(821일 ) 동안수집 5) 된자살관련소셜빅데이터를활용하여 SNS상의 청소년자살의원인을살펴보고데이터마이닝분석을통해한국의청소년자살위험예측모형을시함 자살 관련버즈일별추이 청소년자살, 유명인자살등자살과관련된사회적이슈발생시에자살과관련한커뮤니케이션이급증하는양상을보이고있으며특히연예인관련자살이슈발생시버즈량이급증함 자살 관련버즈일별추이 20,000 18,000 16,000 14,000 12,000 10,000 8,000 6,000 4,000 2,000 0 1/16 왕따자살대전여고생친구도투신 자살 관련버즈요일별추이 2/24 블락비피오자살권유청원 4/16, 17 자살무방비영주, 안동중학생잇단투신 / 카이스트학생기숙사투신자살 6/12 신인여배우정아율우울증으로자살 6/28 배우윤진서자살기도해프닝 9/10 자살예방의날 9/15 크리에이티브디렉터우종완자살 전체일평균버즈량 : 2,325건 자살사회이슈발생일평균버즈량 : 4,839건 유명인자살이슈발생일평균버즈량 : 6,294건 10/5 가수김장훈 SNS 자살암시글게시후자살시도 12/26 자살외대노조위원장빈소에서부위원장, 스트레스성심근경색사망 2012 년 2013 년 1/6 故최진실전남편조성민자살 일평균버즈량 3 최근 3 년간전체 자살 관련버즈량은수요일과일요일에지속적으로증가한반면, 금요일에는감소추이를 보임 청소년자살 관련버즈량은월, 목, 일요일에증가추이를보인반면에수, 금, 토요일에는감소추이를보임 요일별버즈량 - 전체 < 요일별버즈량구성비추이 > 2011 년 2012 년 2013 년 15.4% 13.9% 12.1% 15.4% 14.2% 17.2% 15.7% 15.1% 14.3% 16.2% 15.6% 13.6% 16.7% 14.4% 13.1% 11.7% 11.9% 11.2% 15.9% 13.4% 12.9% 요일별버즈량 - 청소년 < 요일별버즈량구성비추이 > 23.8% 21.2% 18.1% 18.5% 18.0% 16.6% 16.3% 15.6% 15.7% 15.5% 14.6% 12.5% 13.2% 12.1% 12.9% 12.9% 11.7% 7.3% 7.2% 8.3% 7.8% 월요일 화요일수요일목요일금요일토요일일요일 월요일화요일수요일목요일금요일토요일일요일 5) 본연구를위한소셜빅데이터의수집및토픽분류는 ( 주 ) SK 텔레콤스마트인사이트 에서수행함
보건 복지 Issue & Focus 자살 관련버즈시간대별추이 자살 과 청소년자살 관련버즈모두 20시부터 24시사이에버즈량이많음. 특히 22시부터 24시에집중적 발생 자살 과 청소년자살 의시간대별버즈량추이는유사한패턴으로나타남 시간대별버즈량 자살 청소년자살 16.0% 14.0% 12.0% 10.0% 8.0% 6.0% 4.0% 2.0% 0.0% 00 시 -02 시 02 시 -04 시 04 시 -06 시 06 시 -08 시 08 시 -10 시 10 시 -12 시 12 시 -14 시 14 시 -16 시 16 시 -18 시 18 시 -20 시 20 시 -22 시 22 시 -24 시 청소년자살 버즈원인 4 거의모든기간에서 학업 / 성적 / 진학 이청소년자살버즈원인 1위로나타남 - 2012년통계청사회조사에서 13 19세청소년은 학교성적 / 진학문 가 39.2% 로자살충동이유 1위로나타남 2011년 12월이후 학교폭력 과 왕따 가주요청소년자살버즈원인으로지속등장 우울 / 고독 / 불안 은청소년자살에서지속적으로주요자살원인으로나타나고있음 주요청소년자살원인월별추이 학업 / 성적 / 진학 학교폭력 우울 / 고독 / 불안 왕따 폭력 인터넷 / 게임중독 경쟁 가정불화 성폭력 질병 / 장애 경적빈곤 열등감 기타 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1 월 2 월 3 월 4 월 5 월 6 월 7 월 8 월 9 월 10 월 11 월 12 월 1 월 2 월 3 월 4 월 5 월 6 월 7 월 8 월 9 월 10 월 11 월 12 월 1 월 2 월 3 월 2011 년 2012 년 2013 년 청소년자살 위험예측 청소년자살위험예측에가장영향력이높은요인은 외모요인 으로 외모요인 의위험이높은경우청소년 자살위험은이전의 27.9% 에서 36.9% 로증가하고, 외모요인 이높고 충격요인 이높으면청소년자살 위험이이전의 36.7% 에서 40.7% 로증가함 외모요인 의위험이낮더라도 열등감요인 의위험이높으면청소년자살위험은이전의 25.9% 에서 33.8% 로증가하였으며, 열등감요인 이높고, 충격요인 의위험이높으면청소년자살위험은이전의 33.8% 에서 37.8% 로증가함
소셜빅데이터를활용한사회위험요인예측 : 청소년자살과사이버따돌림을중심으로 [ 그림 2] 청소년자살위험예측모형 자살생각 자살위험자살보 노드 0 자살위험 27.9 16317 자살보 72.1 42206 합계 100.0 58523 외모 P- 값조정 = 0.000, 카이곱 = 525.101, 노드 1 자살위험 25.9 12392 자살보 74.1 35492 합계 81.8 47884 열등감 P- 값조정 = 0.000, 카이곱 = 184.835, 노드 2 자살위험 36.9 3925 자살보 63.1 6714 합계 18.2 10639 충격 P- 값조정 = 0.000, 카이곱 = 12.334, 0.000 1.000 1.000 0.000 노드 3 노드 4 노드 5 노드 6 자살위험 24.9 10699 자살위험 33.8 1693 자살위험 40.7 672 자살위험 36.2 3253 자살보 75.1 32183 자살보 66.2 3309 자살보 59.3 978 자살보 63.8 5736 합계 73.3 42882 합계 8.5 5002 합계 2.8 1650 합계 15.4 8989 우울 P- 값조정 = 0.000, 카이곱 = 176.510, 충격 P- 값조정 = 0.029, 카이곱 = 4.751, 성적 P- 값조정 = 0.000, 카이곱 = 19.713, 0.000 노드 7 자살위험 23.6 8065 자살보 76.4 26174 합계 58.5 34239 1.000 1.000 0.000 노드 8 자살위험 30.5 2634 자살보 69.5 6009 합계 14.8 8643 노드 9 자살위험 37.8 225 자살보 62.2 370 합계 1.0 595 노드 10 자살위험 33.3 1468 자살보 66.7 2939 합계 7.5 4407 노드 11 자살위험 30.2 103 자살보 69.8 합계 0.6 341 노드 12 자살위험 43.5 569 자살보 56.5 740 합계 2.2 1309 5 3. 소셜빅데이터를활용한사이버따돌림 6) 위험예측 사이버따돌림에노출된청소년들이자살을선택하거나폭력의가해자가됨에따라심각한사회문로떠오르고있음 우리나라는 2013 년 11 월현재청소년의 29.2%, 일반인의 14.4% 가타인에게사이버따돌림을가한경험이 있으며, 청소년의 30.3%, 일반인의 30.0% 가사이버따돌림의피해를경험한것으로나타남 7) 사이버따돌림은 개인혹은집단이자기자신을스스로방어하기힘든피해자를대상으로반복적으로전자 기기를통해이루어지는공격적행동혹은행위 8) 로우울증, 자해, 자살과같은심각한심리적상해를가져 올수있음 9) 6) 본연구의사이버따돌림은 사이버언어폭력, 사이버명예훼손, 사이버스토킹, 사이버성폭력, 신상정보유출, 사이버왕따 를포괄하는사이버폭력의의미로사용함 7) 방송통신위원회 한국인터넷진흥원 (2013). 2013년사이버폭력실태조사. 8) Slonje, R., Smith, P. K. and Frisén, A. (2013). The nature of cyberbullying and strategies for prevention. Computers in Human Behavior, 29(1), pp.26~32. 9) Erentaitė, R., Bergman, L. and Zukauskienė, R. (2012). Cross-contextual stability of bullying victimization: a person-oriented analysis of cyber and traditional bullying experiences among adolescents. Scandinavian Journal of Psychology, 53(2), pp.181~190.
보건 복지 Issue & Focus 사이버따돌림 관련버즈일별추이 사이버따돌림과관련한온라인커뮤니케이션은일평균 742건이발생하였으며, 2012년 7~8월에유명걸그룹의왕따설이사회적이슈가되면서 SNS상에서이에대한커뮤니케이션이매우활발했음 사이버따돌림 관련버즈량일별추이 10000 9000 8000 7000 6000 5000 4000 3000 2000 1000 0 12. 2. 6, 왕따폭력 방관혐의교사첫입건 2011 년 2012 년 12. 7. 30, 티아라화영결국탈퇴... 왕따설 일축 전체일평균버즈량 : 742 건 11. 12. 20, 대구중학생 폭력과왕따 로인한자살 1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103 109 115 121 127 133 139 145 151 157 163 169 175 181 187 193 199 205 211 217 223 229 235 241 247 253 259 265 271 277 283 289 295 301 307 313 319 325 331 337 343 349 355 361 사이버따돌림 관련버즈량요일별추이 6 최근 3 년간전체 사이버따돌림 관련버즈량은화요일과일요일에지속적으로증가한반면, 금요일과토요일 에는감소추이를보임 요일별버즈량 < 요일별버즈량구성비추이 > 2011 년 2012 년 2013 년 17.7% 16.6% 17.5% 17.0% 15.6% 15.4% 14.4% 13.8% 12.8% 13.4% 14.0% 13.4% 13.5% 13.6% 14.1% 14.3% 14.9% 11.7% 12.6% 12.3% 11.6% 월요일 화요일수요일목요일금요일토요일일요일 사이버따돌림 관련버즈시간대별추이 사이버따돌림 관련버즈량은 20시부터 24시사이에주로발생함. 특히 22시부터 24시에집중적발생 사이버따돌림 관련시간대별버즈량추이는 자살 과유사한패턴을보임 시간대별버즈량 18.0% 16.0% 14.0% 12.0% 10.0% 8.0% 6.0% 4.0% 2.0% 0.0% 사이버따돌림 00 시 -02 시 02 시 -04 시 04 시 -06 시 06 시 -08 시 08 시 -10 시 10 시 -12 시 12 시 -14 시 14 시 -16 시 16 시 -18 시 18 시 -20 시 20 시 -22 시 22 시 -24 시
소셜빅데이터를활용한사회위험요인예측 : 청소년자살과사이버따돌림을중심으로 사이버따돌림 위험예측 사이버따돌림위험예측에가장영향력이높은요인은 충동요인 으로, 충동요인 의위험이높은경우피해자 의위험이이전의 73.6% 에서 68.7%, 가해자의위험이이전의 14.5% 에서 11.5% 로감소한반면, 방관자의 위험은이전의 11.9% 에서 19.9% 로크게증가함 충동요인 이높더라도 일진 ( 지배욕 ) 요인 이높으면피해자의위험은이전의 68.7% 에서 78.9% 로증가한 반면, 가해자의위험은이전의 11.5% 에서 7.8%, 방관자의위험은이전의 19.9% 에서 13.3% 로크게감소함 일진요인 이높더라도 스트레스요인 이높으면피해자의위험은이전의 78.9% 에서 73.1% 로감소한반면, 가해자의위험은 7.8% 에서 9.4% 로증가하였고, 방관자의위험도 13.3% 에서 17.6% 로증가함 [ 그림 3] 사이버따돌림위험예측모형 피해자가해자방관자 노드 0 피해자 73.6 23363 가해자 14.5 4605 방관자 11.9 3785 합계 100.0 31753 충동 P- 값조정 = 0.000, 카이곱 = 538.009, 노드 1 피해자 74.9 18722 가해자 15.3 3830 방관자 9.8 2442 합계 78.7 24994 일진 P- 값조정 = 0.000, 카이곱 = 973.687, 노드 2 피해자 68.7 4641 가해자 11.5 775 방관자 19.9 1343 합계 21.3 6759 일진 P- 값조정 = 0.000, 카이곱 = 98.618, 7 0.000 1.000 노드 3 노드 4 노드 5 노드 6 피해자 78.6 16497 피해자 55.4 2225 피해자 65.6 3411 피해자 78.9 1230 가해자 13.3 2784 가해자 26.1 1046 가해자 12.6 654 가해자 7.8 121 방관자 8.1 1700 방관자 18.5 742 방관자 21.8 1135 방관자 13.3 208 합계 66.1 20981 합계 12.6 4013 합계 16.4 5200 합계 4.9 1559 외모 P- 값조정 = 0.000, 카이곱 = 119.698, 문화 P- 값조정 = 0.000, 카이곱 = 69.740, 문화 P- 값조정 = 0.000, 카이곱 = 67.956, 스트레스 P- 값조정 = 0.047, 카이곱 = 6.105, 노드 7 노드 8 노드 9 노드 10 노드 11 노드 12 노드 13 노드 14 피해자 79.8 14465 피해자 71.4 2032 피해자 53.3 1911 피해자 73.0 314 피해자 63.7 2962 피해자 81.2 449 피해자 80.0 1051 피해자 73.1 179 가해자 12.3 2232 가해자 19.4 552 가해자 27.9 998 가해자 11.2 48 가해자 13.4 623 가해자 5.6 31 가해자 7.5 98 가해자 9.4 23 방관자 7.9 1439 방관자 9.2 261 방관자 18.8 674 방관자 15.8 68 방관자 22.9 1062 방관자 13.2 73 방관자 12.6 165 방관자 17.6 43 합계 57.1 18136 합계 9.0 2845 합계 11.3 3583 합계 1.4 430 합계 14.6 4647 합계 1.7 553 합계 4.1 1314 합계 0.8 245 4. 사회위험요인예측을위한빅데이터분석방안 대상소셜빅데이터수집 해당버즈분석모델링을통해수집대상 ( 검색포털이나 SNS의비정형빅데이터 ) 과수집범위를설정한후, 대상채널 ( 뉴스, 블로그, 카페, 게시판, SNS 등 ) 에서크롤러등수집엔진 ( 로봇 ) 을이용하여수집 수집한비정형빅데이터의분석 비정형빅데이터분석은버즈분석, 키워드분석, 감성분석, 계정분석등으로진행
보건 복지 Issue & Focus 수집한비정형데이터를텍스트마이닝 (text mining), 오피니언마이닝 (opinion mining), 네트워크분석 (network analysis) 을통하여분석 정형빅데이터변환 비정형빅데이터를정형빅데이터로변환즉, 자살버즈각각의문서는 ID로코드화하여야하고, 버즈내키워드나방법등도모두코드화함 정형빅데이터와정부나공공기관의오프라인통계 ( 조사 ) 자료연계 사회현상과연계해분석하기위하여정형화된빅데이터를공공기관의정형빅데이터와연계함 연계가능한 ID( 일별 월별 연별 지역별 ) 를확인한후, 공공기관의빅데이터 ( 오프라인통계 ) 와연계함 다변량분석 오프라인통계 ( 조사 ) 자료와연계된정형화된빅데이터의분석은요인간의인과관계나시간별변화궤적을분석할수있는구조방정식모형이나일별 ( 월별 연별 ), 지역별사회현상과관련된요인과의관계를분석할수있는다층모형, 그리고수집된키워드의분류과정을통해새로운현상을발견할수있는데이터마이닝분석을실시할수있음 [ 그림 4] 소셜빅데이터분석절차및방법 ( 자살버즈분석사례 ) 10) 대상소셜빅데이터수집 비정형빅데이터분석 정형빅데이터변환 정형빅테이터와오프라인통계 ( 조사 ) 자료연계 다변량분석 8 분석모델링을통해수집대상, 수집범위를설정한후뉴스, 블로그, 카페, 게시판, SNS 통해서크롤러를사용하여수집 자살관련키워드그룹지정 자살토픽불용어지정 Buzz 분석 - 전체 Buzz 분석 - 채널별 Buzz 분석 - 유사분석확산도등 키워드분석 - 빈출키워드 - 키워드네트워크등 감성분석 - 채널별분석 - 사이트별분석 - 속성별분석 계정분석 - 영향력자분석 - 계정활동분석 - 채널별분석 비정형데이터정형데이터 ( 자살 Buzz 사례 ) - ID( 문서번 ) - 채널 Code - 버즈내자살관련키워드 1~N(1: 있음, : 없음 ) - 버즈내자살관련방법 1~N(1: 있음, : 없음 ) - 최초작성문성 (1: 최초, : 최초아님 ) - 년 (YYYY) - 월 (MM) - 일 (DD) - 시 (HH) - 트위터응급방식 (1: 대화, 2: 전파, 3: 독백, 4: 정보링크 ) - 자살감정 (1: 긍정, 2: 보통, 3: 부정, 4: 없음 ) - 문서확산수 - 1주차문서확산수 - 2주차문서확산수 - 3주차문서확산수 오프라인통계 ( 조사 ) 자료연계항목 - 통계청통계자료 사망원인통계 인구, 가구통계 고용, 노동, 임금통계 보건, 사회복지통계 환경통계등 - 기상청기상자료 - 패널조사자료등 한국복지패널 한국의료패널 한국아동청소년패널 여성가족패널 지역사회건강조사 감염병통계 보건복지통계 구조방정식모형다층모형데이터마이닝 - 회귀분석 - 판별분석 - 군집분석 - 분류분석 - 트리분석 - 연관규칙 10) 송태민 송주영 (2013). 빅데이터분석방법론. 한나래아카데미. 집필자 Ⅰ 송태민 ( 사회정신건강연구센터장 ) 문의 Ⅰ02-380-8201 발행인 Ⅰ 최병 발행처 Ⅰ 한국보건사회연구원 (122-705) 서울특별시은평구진흥로 235 Ⅰ TEL 02)380-8000 Ⅰ FAX 02)352-9129 Ⅰ http://www.kihasa.re.kr 한국보건사회연구원홈페이지의발간자료에서온라인으로도이용하실수있습니다. http://www.kihasa.re.kr/html/jsp/publication/periodical/focus/list.jsp