빅데이터연구사례 소셜빅데이터를활용한자살검색예측모형개발 송태민 (tmsong@kihasa.re.kr) 2013. 9. 24.
1. 빅데이터개념및기술 빅데이터란 스미트기기, 센서등의급속한보급과모바일인터넷과 SNS 의확산으로데이터량이기하급수적 으로증가하여데이터가경제적자산이될수있는빅데이터시대가도래 2011 년전세계데이터에서생성될디지털정보량이 1.8ZB( 제타바이트 ) 에달하는 제타바이트 시대 로진입하고 2012 년에는연간 2.7ZB 를넘어섬 1ZB 는 1 조 GB( 기가바이트 ) 에해당하는양으로미의회도서관저장정보 (235TB( 테라비아트 ), 11. 4 월현재 ) 의약 4 백만배에해당 빅데이터는엄청나게많은데이터로양적인의미를벗어나데이터의분석과활용을포괄하는 개념 빅데이터는기존의데이터베이스시스템으로는수집ㆍ저장ㆍ관리ㆍ분석하기힘든대량의정형또는비정형의데이터로부터새로운가치를창출하는기술로정의 기존데이터베이스관리도구의데이터수집 저장 관리 분석의역량을넘어서는대량의정형또는비정형데이터세트및이러한데이터로부터가치를추출하고결과를분석하는기술 (Wikipedia(2013. 5. 30) 대용량데이터를활용, 분석하여가치있는정보를추출하고, 생성된지식을바탕으로능동적으로대응하거나변화를예측하기위한정보화기술 ( 국가정보화전략위원회 ) 빅데이터란기존의관리및분석체계로는감당할수없을정도의거대한데이터의집합으로대규모데이터와관계된기술및도구 ( 수집, 저장, 검색, 공유, 분석, 시각화등 ) 를모두포함하는개념 ( 삼성경제연구소 ) 빅데이터의분석은기존의데이터에가치있는새로운생명을불어넣는것 -2-
빅데이터의구성요소 1. 빅데이터개념및기술 -3-
빅데이터처리기술 1. 빅데이터개념및기술 -4-
맵리듀스 (Map & Reduce) 1. 빅데이터개념및기술 구글에서개발한비구조적데이터를획득, 조직화, 분석하기위한기술 자료 : 삼성경제연구소 (2012). 빅데이터경영을바꾸다. p81-5-
빅데이터플랫폼 1. 빅데이터개념및기술 디바이스 빅데이터플랫폼 빅데이터처리플랫폼 소셜미디어 인터넷 / 소셜미디어 센서데이터 데이터폭증 데이터수집 빅데이터분석 빅데이터처리 빅데이터저장관리 빅데이터컴퓨터인프라 지식가시화 스마트서비스 스마트그리드 홈랜드시큐리티 금융 / 보험 분산컴퓨팅고성능컴퓨팅인메모리컴퓨팅 BI 공공 / 기업데이터 과학 / 제조 출처 : 황승구외 (2013), 빅데이터플랫폼전략, 전자신문사 p81. -6-
정형화빅데이터분석방법 분석대상 2. 빅데이터분석방법 기존정보시스템에저장된정보 ( 건강보험자료, 사통망자료등 ) 조사자료 ( 사망원인통계자료, 출산력자료, 복지패널자료등 ) 분석방법 구조방정식모형과다층분석등의다변량통계분석 비정형화빅데이터 ( 소셜빅데이터 ) 분석방법 분석대상 검색포털로그파일, 페이스북, 트위트, SNS 의 Buzz 등 분석방법 Text Mining : 특정주제어분석으로자연어처리기술을이용하여정보를추출하거나연계성을파악, 분류, 혹은군집화 Opinion Mining: 소셜미디어의텍스터문장을대상으로자연어처리기술과감성분석기술을적용하여사용자의견을분석하는것으로마케팅의 Buzz( 입소문 ) 분석 Network Analysis : 사람들간연결관계와상호영향력분석 Statistics and Descriptive Analysis : 통계분석을통해어떤경로로전파하는지누구에게영향을미치는지 파악 -7-
2. 빅데이터분석방법 비정형화빅데이터의정형화데이터변환 ID : BUZZ ID_1: 중복 BUZZ 연 / 월 / 일 / 시간 채널구분 자살구분 ( 일반, 청소년 ) 언급방식 ( 대화, 전파, 독백, 정보 LINK) 정보확산주기 : 일또는주단위 자살관련토픽 : 1-N ( 군집분석 ) 자살원인 : 친구불화, 왕따, 성적, 가정불화등 자살방법 : 투신, 분신, 동반, 음독, 약물, 질식등 자살감정 : 4점척도 자살언급수 자살 Cardinarity( 대응수 ) 기타 -8-
2. 빅데이터분석방법 정형화빅데이터분석사례 자살속성작업 비정형화 -> 정형화 -9-
2. 빅데이터분석방법 정형화빅데이터 (in SPSS) 요인분석 군집분석 -10-
2. 빅데이터분석방법 요인분석 -11-
군집분석 ( 군집화, 세분화 ) 2. 빅데이터분석방법 -12-
2. 빅데이터분석방법 데이터마이닝 (Decision Tree) -13-
3. 빅데이터분석사례 우리나라는최근스마트폰보급의확산에따라모바일인터넷과 SNS 이용이급속히증가함 SNS는개인, 집단, 사회의관계를네트워크로파악하는사회관계망서비스로실시간성과가속성이라는특징을지녔기때문에어떠한매체보다이슈에대한확산속도가빨라, 개개인의단순한생활내용뿐만아니라정치, 경제, 사회 문화등사회전반의문제에대한이슈가 SNS를통해확산됨 SNS를통하여전송되는데이터양이기하급수적으로증가하면서많은국가와기업에서새로운경제적효과와일자리창출, 그리고사회적문제의해결을위해빅데이터의활용과분석을적극적으로시도함 공공부분에서유전자와생명연구자원공유를통한질병예방및예측, 치료, 그리고환자관리등에활용하고있으며, 다국적 IT(information technology) 기업들과웹 (web) 검색포털 (portal) 사이트들은서버에저장된빅데이터를분석함으로써다양한가치정보를생산함 SNS는청소년들이일상생활속에서갖는우울한감정이나스트레스, 고민을들을수있고행태를이해할수있는장소로 SNS 상에서나타나는자살에대한감정표현이나심리적위기행태들을분석하게되면위험징후와유의미한패턴을감지하여자살을예방하는데긍정적효과가발휘됨 -14-
가. 서론 우리나라의보건복지분야에서는이미수많은정형화된빅데이터가정부및공공기관에서관리되고있으나정보접근의어려움으로활용이미흡한반면, 민간기관의검색포털이나 SNS에서관리되고있는비정형화된빅데이터의분석과활용은활발히이루어지고있음 우리나라자살문제해결에소셜빅데이터를활용함 우리나라는급격한사회 경제적변화속에자살률이 2004년부터 OECD 국가중최고의수준이며, 특히청소년계층의자살문제가사회적이슈로대두되면서정부차원의적극적인대책이시급한실정임 그동안자살의연구는통계자료와조사데이터의분석을통하여국가간자살률비교나자살요인등에초점을맞춘연구가진행되어왔으나이러한연구는자살에대한개별적변인을보는데에는장점이있으나, 개별대상자로부터파악한변수들이지역변수나사회 환경적인변수와얼마나어떻게관련되는지는불분명하며, 실시간으로원인을분석하는데는한계가있음 본연구는소셜빅데이터를활용하여자살검색의개인별요인과지역 / 환경적요인을검증함으로써자살과관련된실질적인행동을예측하여정부차원의온라인자살예방대응체계를마련함 -15-
나. 연구방법 연구모형 성인과청소년집단의자살요인의비교분석은다중집단구조모형 월별자살률, 기후, 경제활동과일별스트레스 / 음주 / 운동검색이청소년자살검색의결정요인에미치는영향을분석하기위하여다층모형 (Multi-level Model) 으로구성 연구모형 1( 다중집단구조모형 ) 연구모형 2( 다층모형 ) 본연구의구조모형은그동안의연구에서제안된스트레스가건강생활실천요인 ( 음주, 운동 ) 을매 개하여자살에영향을미칠것이라는스트레스취약모형을적용함 -16-
나. 연구방법 연구대상 ( 자료 ) 국내의온라인뉴스사이트, 블로그, 카페, 소셜네트워크서비스, 게시판등인터넷을통해수집된소셜빅데이터를대상으로분석함 2011. 1. 1 2011. 12. 31까지해당채널에서수집된자살관련토픽은성인추정 (321,506 건 ), 청소년추정 (67,742건) 임 본연구를위한소셜빅데이터의수집및토픽분류는 ( 주 ) SK텔레콤스마트인사이트에서수행 측정도구 본연구의측정도구로는종속변수는소셜빅데이터에서수집된자살검색량을사용하였고독립변수는스트레스 / 음주 / 운동검색량과통계청통계자료 ( 일별자살자수, 이혼율, 출산율, 경제활동참가율등 ) 와기상청의일일평균습도와미세먼지량을사용함 빅데이터분석방법 본연구의기술분석과자살예측모형개발은 SPSS 20.0을사용, 다중집단구조모형분석은 AMOS 20.0을사용, 자살검색량결정요인을위한다층모 형분석은 HLM 7.0 을사용함 -17-
다. 연구결과 성인의자살검색예측모형 성인의자살검색의예측을위하여전체자살률, 음주검색량, 이혼율, 출산율, 평균습 도를사용하여다중회귀분석을실시함 모형 1은자살자수가많을수록 ( 자살률이높을수록 ) 성인의자살검색은증가함 모형 2는자살자수가많을수록음주검색이많을수록성인의자살검색은증가함 모형 3은자살자수가많을수록음주검색이많을수록이혼율이높을수록성인의자살검색은증가함 모형 4는자살자수가많을수록음주검색이많을수록이혼율이높을수록출산율이낮을수록성인의자살검색은증가함 모형 5는자살자수가많을수록음주검색이많을수록이혼율이높을수록출산율이낮을수록, 평균습도가높을수록성인의자살검색은증가함 -18-
다. 연구결과 성인의자살검색예측모형 자살관련 Buzz 가급속히전파되는 1 주간의시차 (time lag) 를적용하여자살률에미 치는영향을살펴본결과예측도가조금향상됨 Model 1 비교 Model 2 비교 Model 3 비교 Model 4 비교 Model 5 비교 -19-
다. 연구결과 청소년의자살검색예측모형 청소년의자살검색을예측하기위하여청소년자살률, 스트레스검색량, 음주검색 량, 미세먼지량을사용함 모형 1은청소년자살자수가많을수록청소년의자살검색은증가함 모형 2는청소년자살자수가많을수록스트레스검색이많을수록청소년의자살검색은증가함 모형 3은청소년자살자수가많을수록스트레스검색이많을수록, 음주검색이많을수록청소년의자살검색은증가함 모형 4는청소년자살자수가많을수록스트레스검색이많을수록, 음주검색이많을수록, 미세먼지량이적을수록청소년의자살검색은증가함 -20-
다. 연구결과 자살요인다중집단구조모형분석 자살요인의다중집단구조모형분석은연구모형의적합성을검증한후, 집단간등가제약과정을거쳐경로계수간유의미한차이를검증함 연구모형의적합도는 (, p)=59.411(8, p<.000), NFI=0.954( 양호 ), TLI=0.847( 보통 ), CFI=.959( 양호 ), RMSEA=0.094( 보통 ) 으로대부분의적합도에서적합함 성인과청소년두집단모두스트레스검색에서운동 / 음주 / 자살검색으로가는경로와자살검색에서자살률로가는경로가청소년의경우음주검색에서자살검색으로가는경로를제외하고모든경로에서정적 (+) 으로유의한영향을미치는것으로나타남 다중집단구조모형 ( 성인 ( 청소년 )) -21-
3. 연구결과 자살요인다중집단구조모형분석 음주검색과운동검색의매개효과를살펴보기위해효과분해를실시한결과성인과청소년모두부분매개효과 (partial mediation) 를하는것으로나타남 우리나라성인과청소년모두스트레스를경험할경우건강생활실천요인 ( 음주, 운동 ) 을많이찾게되고이러한건강생활실천요인이자살검색에영향을미치고궁극적으로자살률에영향을주는것으로나타남 -22-
자살요인다층모형분석 3. 연구결과 청소년의자살검색의결정요인에대한다층분석을위해 3 개의분석모형으로검증함 -23-
3. 연구결과 자살요인다층모형분석 기초모형 (Model 1) 에서청소년의일별평균자살검색량은 181.82 로자살 검색량은월별로상당한변량이있음 일별자살검색량에대한총분산중월별수준의분산이차지하는비율이약 53.82% 로자살검색량이일별요인에의해서도영향을받지만월별요인에도 영향을받음 무조건적기울기모형 (Model 2) 에서음주검색량은자살검색량에영향을 주지않는것으로나타났고스트레스검색량과운동검색량은통계적으로 유의미하여자살검색량에영향을주는것으로나타남 일별특성에서스트레스검색량이높아질수록자살검색량이높아지며, 이러한효과는월별 에따라서차이가있음 조건적모형 (Model 3) 에서모든일별요인은유의미한차이를보이고있어 청소년이스트레스를많이검색하고스트레스해결을위한음주와운동을 많이검색할경우자살검색량에영향을주는것으로나타남 월별전체자살률은자살검색량에부적영향을미치는것으로나타나, 청소년의자살검색은청소년의자살률에는영향을받지만전체자살률에는영향을받지않음 평균습도는자살검색량에정적영향을미치는것으로나타나, 월별평균습도가중가하면 자살검색량은증가하며, 월별경제활동참가율은자살검색량에정적영향을미치는것으 로나타나, 월별경제활동참가율이높을수록자살검색량은증가함 -24-
4. 결론및정책제언 본연구는소셜빅데이터를활용하여우리나라의자살검색요인과자 살검색예측모형을개발하기위해다변량분석을실시하였으며, 분석 결과를요약하면다음과같음 결과요약 본연구를바탕으로우리나라의자살예방과관련한정책적함의는다 음과같음 정책적함의 -25-
Question & Answer 감사합니다. -26-