1048 Tae Min Song Juyoung Song Mi Kyung Cheon 등, 2015; CDC, 2010; Thun 등, 2013). 우리나라는 1995년국민건강증진법이제정됨에따라본격적으로담배판매, 광고, 금연구역확대등을추진하였고, 청소년보호법, 학교보건법등

Similar documents
<5B31362E30332E31315D20C5EBC7D5B0C7B0ADC1F5C1F8BBE7BEF720BEC8B3BB2DB1DDBFAC2E687770>

한국성인에서초기황반변성질환과 연관된위험요인연구

금연 한눈에 보기 FCTC MPOWER 발행일 발행처 발행인 책임기획 문의처 집필진 2015년 6월 한국건강증진개발원 서울특별시 중구 퇴계로 173(충무로 3가) 남산스퀘어 빌딩 24층 장석일 한국건강증진개발원 국가금연지원센터 한국

< FB4EBB1B8BDC320BAB8B0C7BAB9C1F6C5EBB0E8BFACBAB820B9DFB0A320BFACB1B85FBEF6B1E2BAB92E687770>


???? 1

<B4E3B9E8B0A1B0DD DB9E8C6F7C0DAB7E12E687770>

< B3E220C1F6BFAABBE7C8B820C5EBC7D5B0C7C1F5C1F8BBE7BEF720BEC8B3BB28C3D6C1BEC0CEBCE2292E687770>


878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

Vol. 20, December 2014 Tobacco Control Issue Report Contents Infographic 년 전 세계 FCTC 주요 이행현황 Updates 04 이 달의 정책 06 이 달의 연구 Highlights 09 담배규제기본

06_À̼º»ó_0929

DBPIA-NURIMEDIA

에너지경제연구 제13권 제1호

DBPIA-NURIMEDIA

Journal of Educational Innovation Research 2017, Vol. 27, No. 4, pp DOI: * A Study on Teache

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A Research Trend





13.12 ①초점

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A S

인문사회과학기술융합학회

:,,.,. 456, 253 ( 89, 164 ), 203 ( 44, 159 ). Cronbach α= ,.,,..,,,.,. :,, ( )

歯1.PDF

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: : * Research Subject

서론 34 2

Research subject change trend analysis of Journal of Educational Information and Media Studies : Network text analysis of the last 20 years * The obje

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Study on the Pe

<B1DDBFACC5ACB8AEB4D02DC6EDC1FD28C3D6C1BE292DB1B3C1A4BFCFB7E128BABCB5E5BBE8C1A6292E687770>

WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성 ( 황수경 ) ꌙ 127 노동정책연구 제 4 권제 2 호 pp.127~148 c 한국노동연구원 WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성황수경 *, (disabi

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: * Review of Research

인문사회과학기술융합학회

보건사회연구-25일수정

DBPIA-NURIMEDIA

03이경미(237~248)ok

DBPIA-NURIMEDIA

Kor. J. Aesthet. Cosmetol., 라이프스타일은 개인 생활에 있어 심리적 문화적 사회적 모든 측면의 생활방식과 차이 전체를 말한다. 이러한 라이프스 타일은 사람의 내재된 가치관이나 욕구, 행동 변화를 파악하여 소비행동과 심리를 추측할 수 있고, 개인의

PHI Report 시민건강이슈 Ⅱ 모두가건강한사회를만들어가는시민건강증진연구소 People's Health Institute


DBPIA-NURIMEDIA

05_±è½Ã¿Ł¿Ü_1130


Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: * Strenghening the Cap


<C7D1B1B9B1B3C0B0B0B3B9DFBFF85FC7D1B1B9B1B3C0B05F3430B1C733C8A35FC5EBC7D5BABB28C3D6C1BE292DC7A5C1F6C6F7C7D42E687770>

<352EC7E3C5C2BFB55FB1B3C5EBB5A5C0CCC5CD5FC0DABFACB0FAC7D0B4EBC7D02E687770>

27 2, 17-31, , * ** ***,. K 1 2 2,.,,,.,.,.,,.,. :,,, : 2009/08/19 : 2009/09/09 : 2009/09/30 * 2007 ** *** ( :

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: * Suggestions of Ways

Analyses the Contents of Points per a Game and the Difference among Weight Categories after the Revision of Greco-Roman Style Wrestling Rules Han-bong

부속

hwp

,......

,,,.,,,, (, 2013).,.,, (,, 2011). (, 2007;, 2008), (, 2005;,, 2007).,, (,, 2010;, 2010), (2012),,,.. (, 2011:,, 2012). (2007) 26%., (,,, 2011;, 2006;


278 경찰학연구제 12 권제 3 호 ( 통권제 31 호 )

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Dec.; 27(12),

전립선암발생률추정과관련요인분석 : The Korean Cancer Prevention Study-II (KCPS-II)

*5£00̽ÅÈ�

13.11 ①초점

비지니스 이슈(3호)


<443A5CB1E8BFF8BAD05C B3E2B0E6C1A6C6F7C4BFBDBA5C C E2E2E>

노인의학 PDF

141(26) () ( ( ) () () () ) 2) 1932 ()()3) 2 1) ( ) ( ) () () () 4) ( ) 5) 6) ) ) ( ) () 42 () )

<C3D6C1BEBAB8B0EDBCAD5FB4E3B9E8B0A1B0DDC0CEBBF3B0FA20C0E7BFF8C8B0BFEBB9E6BEC82E687770>

232 도시행정학보 제25집 제4호 I. 서 론 1. 연구의 배경 및 목적 사회가 다원화될수록 다양성과 복합성의 요소는 증가하게 된다. 도시의 발달은 사회의 다원 화와 밀접하게 관련되어 있기 때문에 현대화된 도시는 경제, 사회, 정치 등이 복합적으로 연 계되어 있어 특

DBPIA-NURIMEDIA

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

<352E20BCD2BCC820BAF2B5A5C0CCC5CD20B1E2B9DD20C0FAC3E2BBEA20C1A4C3A520BCF6BFE4BAD0BCAE28BCDBC5C2B9CE29202D20BCF6C1A432C2F72E687770>

264 축되어 있으나, 과거의 경우 결측치가 있거나 폐기물 발생 량 집계방법이 용적기준에서 중량기준으로 변경되어 자료 를 활용하는데 제한이 있었다. 또한 1995년부터 쓰레기 종 량제가 도입되어 생활폐기물 발생량이 이를 기점으로 크 게 줄어들었다. 그러므로 1996년부

Àå¾Ö¿Í°í¿ë ³»Áö

03-서연옥.hwp

012임수진

44-4대지.07이영희532~

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

00표지

27 2, 1-16, * **,,,,. KS,,,., PC,.,,.,,. :,,, : 2009/08/12 : 2009/09/03 : 2009/09/30 * ** ( :

<31342DC0CCBFEBBDC42E687770>

A 617

DBPIA-NURIMEDIA

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: : Researc

09권오설_ok.hwp

Microsoft Word - 통신원소식_미주_2010-Vol.7.doc

에너지경제연구 제13권 제1호

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

14.531~539(08-037).fm

<31372DB9DABAB4C8A32E687770>

유럽연합의 양성평등지수와 세계경제포럼에서 측정하는 양성격차지수 등을 통해 스웨덴 사회의 양성평등 수준이 높을 것이라는 점은 예상할 수 있으나 그동안 스웨덴 노동시장의 양 성평등을 구체적으로 보여주는 성별 임금, 근로형태, 고용률, 실업률 등의 통계는 자세히 소 개되지

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Analysis of

,126,865 43% (, 2015).,.....,..,.,,,,,, (AMA) Lazer(1963)..,. 1977, (1992)

,.,..,....,, Abstract The importance of integrated design which tries to i

보건 복지 Issue & Focus 한반도통일은남북한의문이자동북아주변국의미래를좌우할국적사안으로 5), 한반도평화체와본격적인통일과정에서국사회의지지는필수불가결한요소이며 6) 국내차원에서는통일에대한국민적공감대형성과통일을맞이할수있는역량구축이필요함 통일을위해서국차원에서는한반도통

???? 1

시안

<313120B9DABFB5B1B82E687770>

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA

새 정부에 바라는 담배규제정책

Transcription:

Journal of the Korean Data & Information Science Society 2015, 26(5), 1047 1059 http://dx.doi.org/10.7465/jkdi.2015.26.5.1047 한국데이터정보과학회지 소셜빅데이터를활용한담배위험예측 송태민 1 송주영 2 천미경 3 13 한국보건사회연구원정보통계연구실 2 펜실베니아주립대학범죄학과 접수 2015 년 8 월 5 일, 수정 2015 년 9 월 1 일, 게재확정 2015 년 9 월 24 일 요약 본연구는국내의블로그, 카페, SNS 등인터넷을통해수집된소셜빅데이터를데이터마이닝분석기법을적용하여우리나라국민의담배에대한위험요인을예측하고자하였다. 주요분석결과는다음과같다. 첫째, 온라인상에 담뱃값인상 이언급될경우담배에대한일반군 (negative) 이 58.6% 에서 74.8% 로증가하며, 폐암 이언급될경우 73.1% 로증가하는것으로나타났다. 둘째, 담뱃값인상이후담배에대한위험군 (positive) 은 5.6% 감소하고, 일반군은 6.1% 증가한것으로나타났다. 셋째, FCTC, 담뱃값인상, 금연관련법, 흡연규제, 금연광고, 금연사업 과관련된정책이온라인상에많이언급될수록담배에대한위험군이감소하는것으로나타났다. 마지막으로 금연약, 금연패치, 금연껌 이온라인상에언급될수록담배에대한위험군이감소하나, 전자담배와보조제 가온라인상에언급될수록담배에대한위험군을증가시키는것으로나타났다. 주요용어 : 감성분석, 담배, 데이터마이닝, 소셜빅데이터, 연관분석. 1. 서론 우리나라 19 세이상성인남성흡연율은 1998 년 66.3% 에서 2005 년 51.6%, 2013 년 42.1% 로감소 추세이지만 (Ministry of Health and Welfare, 2014), 2012 년 15 세이상남성흡연율은 OECD 평균 24.9% 보다높은 37.6% 로세계에서가장높은위치를차지하고있다 (OECD, 2014). 이와같이우 리나라남성흡연율이 OECD 회원국중최고수준에달하는상황에서현정부는 2015 년 1 월 1 일부터 담뱃값을 2,000 원인상하는등범정부차원의금연종합대책을발표하였다 (Ministry of Health and Welfare, 2014 press release). 전세계적으로흡연으로인해매년 600 만명이사망하고있으며 (WHO, 2008), 전체암사망의 30.5%, 호흡기질환사망의 19.8%, 심혈관질환사망의 11.4% 가흡연으로인해 사망한것으로예측되었다 (Zheng 등, 2014). 우리나라는 1985 년 24,338 명, 2003 년 46,207 명, 2012 년 58,155 명이흡연으로인한사망자수로보고되었고 (Jung 등, 2013), 2012 년기준흡연에의한건강보험 진료비는 1 조 8,466 억원으로추정하고있다 (Ji 등, 2014). 담배연기는사람에게치명적인화학물질 7,000 개이상을함유하고있으며, 이로인해폐암을비롯한 각종암과심혈관질환, 호흡기질환, 만성질환등다양한질병과관련있는것으로알려져있다 (Carter 본논문의일부내용은한국보건사회연구원의보건복지 ISSUE&FOCUS에게재된 송태민 (2015) 의소셜빅데이터를활용한담배위험예측 의내용임. 1 (339-007) 세종특별자치시시청대로 370 ( 반곡동 ), 세종국책연구단지사회정책동한국보건사회연구원정보통계연구실, 빅데이터연구센터장. 2 교신저자 : North Wales PA 19454, USA, 펜실베니아주립대학범죄학과조교수. E-mail: juyoung81@gmail.com 3 (339-007) 세종특별자치시시청대로 370 ( 반곡동 ), 세종국책연구단지사회정책동한국보건사회연구원 정보통계연구실, 연구원.

1048 Tae Min Song Juyoung Song Mi Kyung Cheon 등, 2015; CDC, 2010; Thun 등, 2013). 우리나라는 1995년국민건강증진법이제정됨에따라본격적으로담배판매, 광고, 금연구역확대등을추진하였고, 청소년보호법, 학교보건법등에서도청소년흡연과관련하여제도적으로규제하고있다. 또한 2005년 WHO 담배규제기본협약 (FCTC) 비준이후다양한흡연예방및담배규제정책을시행하고있다 (Kang과 Lee, 2011). 담배규제정책들은선진국과개발도상국의차이가있을지라도실제사례를통해효과가입증되었다. 미국은지속적으로담뱃값이인상됨에따라담배소비량이줄어들었고 (Campaign for Tobacco-Free Kids, 2013), 터키도 2008년에비해 2012년담뱃값이 42.1% 증가했을때흡연율은 14.6% 감소하였다 (CDC, 2014). 우리나라는 2004년 12월 2,000원에서 500원인상된후 10년동안추가적인인상이이루어지지않아흡연율의상승과하락을반복하여담뱃값인상에대한금연효과는크지않은것으로나타났다 (Ministry of Health and Welfare, 2014). 담뱃갑경고그림은 2000년 12월캐나다에서제일먼저시작되었고, 흡연자의 63% 는담뱃갑경고그림을통해적어도 1번이상의금연효과를경험했으며 (Hammond 등, 2004), 세계여러나라에서도법안으로정하여시행되고있다. 우리나라는담뱃갑경고그림을의무화하는국민건강증진법개정안이 사실적근거를바탕으로지나치게혐오감을주지않는다 는조건하에통과되어 2016년 12월부터는담뱃갑에경고그림이의무적으로표기된다. 최근 2015년 1월 1일담뱃값인상으로건강증진부담금비중을확대 (14.2% 18.7%) 하였으며, 추가확보된재원을금연성공률이가장높은약물 상담치료에지원하고학교, 군부대, 사업장등에대한금연지원을대폭확대하는한편, 금연광고와금연캠페인을연중실시하고보건소금연클리닉, 금연상담전화, 온라인상담등 1:1 맞춤형금연상담서비스도대폭강화할계획이다 (Ministry of Health and Welfare, 2014). 한편모바일인터넷과소셜미디어의확산으로데이터양이증가하여데이터의생산, 유통소비체계에큰변화가일어나면서데이터가경제적자산이될수있는빅데이터시대를맞이하게되었다. 세계각국의기업들이빅데이터가공공과민간에미치는파급효과를전망함에따라 SNS를통해생산되는소셜빅데이터의활용과분석을통하여사회적문제의해결과정부의정책을효과적으로추진할수있을것으로예측하고있다. 또한 SNS의역할은기업에서마케팅측면뿐만아니라학자들간의학문연구에서도갈수록중요해지고있으며, 이러한공동의협력은집단창의성 (swarm creativity) 을통해혁신을가져올수있을뿐만아니라성공의가능성도더욱커지게하는결과를가져온다 (Chun, 2015). 우리나라는정부 3.0과창조경제의추진과실현을위하여다양한분야에빅데이터의효율적활용을적극적으로모색하고있다. 정부 3.0은공공부문의데이터공개를통해행정의효율성을높이고, 국민의참여를활성화시키며경제활성화등의파급효과를기대하고있으며, 정부의데이터공개정책은정보화시대에소통과공유, 협업전략이무엇보다중요하다는것을의미한다 (Hong, 2014). 소셜빅데이터의분석은사용자가남긴온라인문서의의미를분석하는것으로자연어처리기술인주제분석 (text mining) 과감성분석기술인오피니언마이닝 (opinion mining) 을실시한후, 네트워크분석 (network analysis) 과통계분석 (statistics analysis) 을실시해야한다. 특히, 소셜네트워크데이터는일반적인테이블형태의분석데이터와는다른노드와노드의연결을나타내는관계데이터의형태를가진다 ((Chun과 Leem, 2014). 기존에실시하던횡단적조사나종단적조사등을대상으로한연구는정해진변인들에대한개인과집단의관계를보는데에는유용하나, 사이버상에서언급된개인별문서 ( 버즈 : buzz) 에논의된관련정보상호간의연관관계를밝히고원인을파악하기에는한계가있다 (Song 등, 2013). 소셜빅데이터의분석은훨씬방대한양의데이터를활용하여다양한참여자의생각과의견을확인할수있기때문에기존의오프라인조사와함께활용하면사회적문제의예측을보다정확히할수있다. 본연구는우리나라온라인뉴스사이트, 블로그, 카페, SNS, 게시판등에서수집한소셜빅데이터를바탕으로우리나라국민의담배에대한위험예측모형과연관규칙을파악한다.

Predicting tobacco risk factors by using social big data 1049 2. 연구방법 2.1. 연구대상본연구는국내의 SNS, 온라인뉴스사이트등인터넷을통해수집된소셜빅데이터를대상으로하였다. 본분석에서는 200개의온라인뉴스사이트, 10개의게시판, 1개의 SNS ( 트위터 ), 4개의블로그등총 217개의온라인채널을통해수집가능한텍스트기반의웹문서 ( 버즈 ) 를소셜빅데이터로정의하였다. 담배관련토픽 (topic) 의수집은 2011~2015년의 1/4분기기간동안 ( 각연도의 1~3월, 총 15개월간 ) 해당채널에서요일, 주말, 휴일을고려하지않고매시간단위로수집하였으며, 수집된총 1,091,958건 (2011년: 94,412건, 2012년 : 229,322건, 2013년 : 286,067건, 2014년 : 181,713건, 2015년 : 300,444건 ) 의텍스트 (text) 문서를본연구의분석에포함시켰다. 토픽은소셜분석및모니터링의 대상이되는주제어 를의미한다. 담배와관련된토픽이포함된모든문서를수집하기위해 담배 를사용하였으며, 토픽과같은의미로사용되는토픽유사어로는 흡연, 담뱃값, 담배피, 담배추천, 담배가격, 훈녀생정담배, 중딩담배, 고딩담배, 중고딩담배, 청소년담배 용어를사용하였다. 본연구를위한소셜빅데이터의수집은크롤러 (crawler) 를사용하였고, 이후주제분석을통해분류된명사형어휘를유목화 (categorization) 하여분석요인으로설정하였다. 2.2. 연구도구담배와관련하여수집된문서는주제분석의과정을거친다. 이때주제분석에사용되는사전은 21세기세종계획 과같은범용사전도있지만대부분분석의목적에맞게사용자가설계한사전을사용하게된다. 본연구의담배관련주제분석은 ( 주 )SK텔레콤스마트인사이트 에서관련문서를수집한후원시자료 (raw data) 에서나타난상위 2,000개의키워드들을대상으로유목화를하여사용자사전을구축하였다. 주제분석을거친후다음과같이정형화데이터로코드화하여사용하였다. 1) 담배관련감정본연구의담배감정키워드는문서수집이후, 주제분석을통하여총 66개 ( 걱정, 고민, 고생, 고통, 깔끔, 다짐, 대단, 두려움, 만족, 믿음, 부담, 불가능, 불리, 불만, 불안, 불편함, 사랑, 스트레스, 실패, 어려움, 여유, 염려, 욕구, 위험, 유혹, 응원, 의지, 의지력, 자신감, 재미, 조심, 즐거움, 짜증, 창피, 최고, 최선, 충격, 치유, 편안, 포기, 피곤, 필요, 행복, 호기심, 파이팅, 활력, 후회, 희망, 힐링, 힘들다, 성공, 도움, 문제, 추천, 관심, 도전, 결심, 잘못, 혐오, 심각, 논란, 불편, 고발, 이해, 지적, 끔찍 ) 키워드로분류하였다. 본연구에서는 66개의담배감정키워드 ( 변수 ) 가가지는담배감정정도를판단하기위해요인분석을통하여 12개의요인 (44개변수 ) 으로축약을실시한후, 감성분석을실시하였다. 일반적으로감성분석은긍정과부정의감성어사전으로분석해야하나, 본연구에서는요인분석의결과로분류된주제어의의미를파악하여감성분석을실시하였다. 요인분석에서결정된 12개의요인에대한주제어의의미를파악하여 일반군, 잠재군, 위험군 으로감성분석을실시하였다. 따라서본연구에서일반군은 23개변수 ( 스트레스, 위험, 문제, 조심, 성공, 실패, 결심, 의지, 욕구, 논란, 지적, 부담, 불만, 염려, 걱정, 짜증, 창피, 불안, 끔찍, 충격, 불편, 파이팅, 응원 ), 위험군은 16개변수 ( 믿음, 사랑, 희망, 행복, 최선, 추천, 깔끔, 만족, 고민, 최고, 즐거움, 여유, 대단, 피곤, 힐링, 치유 ) 로분류하였다. 그리고일반군과위험군의감정을동일한횟수로표현한문서는잠재군으로분류하였다. 일반군은담배가위험하다고생각하는혐오적인감정이고, 위험군은담배가위험하지않다는애호적인감정이며, 잠재군은담배의위험을보통으로생각하는감정을나타낸다. 2) 담배와관련된정책담배와관련된정책의정의는주제분석과정을거쳐 담뱃값인상, FCTC ( 담배규제기본협약등 ), 금

1050 Tae Min Song Juyoung Song Mi Kyung Cheon 연관련법 ( 국민건강증진법, 학교보건법등 ), 흡연규제 ( 금연구역, 벌금부과등 ), 금연광고 ( 공익광고, 금연캠페인등 ), 금연사업 ( 금연상담전화, 금연클리닉등 ) 6개정책으로정책이있는경우는 1, 없는경우는 0 으로코드화하였다. 3) 담배와관련된질환담배와관련된질환의정의는주제분석을거쳐 가래, 간암, 감기, 동맥경화, 고혈압, 구토, 뇌혈관질환, 당뇨병, 대장암, 두통, 마비, 만성질환, 발기부전, 불면증, 사망, 식도암, 심혈관질환, 염증, 우울증, 위암, 유방암, 폐암, 치매, 후두암, 구강암 의 25개로질환이있는경우는 1, 없는경우는 0 으로코드화하였다. 4) 담배에대한금연도구담배에대한금연도구의정의는주제분석과정을거쳐 금연껌 ( 금연껌, 니코틴로렌즈, 니코틴껌, 니코틴엘로젠즈, 사탕, 트로키 ), 금연약 ( 금연약, 약물, 니코엔, 니코스텝, 챔픽스, 니코피온, 니코그린, 니코레스, 부프로피온, 흡연욕구저하제, 챔픽스정, 바레니클린, 웰부트린 ), 전자담배 ( 전자담배, 스모키전자담배, 애니스틱, 라스트스틱 ), 금연패치 ( 니코레트, 니코틴패치, 패치, 금연패치, 니코틴보조제, 금연보조제, 보조제, 금연침 ), 보조제 ( 물담배, 파이프담배, 리엔파이프, 롤링토바코, 금연파이프, 금연초, 건향초 ) 의 5개금연도구가있는경우는 1, 없는경우는 0 으로코드화하였다. 5) 담배에대한치료담배에대한치료의정의는주제분석과정을거쳐 금연클리닉, 금연상담전화, 병원, 금연교실 의 4개로해당치료가있는경우는 1, 없는경우는 0 으로코드화하였다. 6) 담배와관련된폐해담배와관련된폐해의정의는주제분석을거쳐 간접흡연, 알코올, 중독, 기억력, 담배꽁초, 도박마약, 이혼, 정신건강, 폭력 의 9개폐해로해당폐해가있는경우는 1, 없는경우는 0 으로코드화하였다. 7) 담배에대한유해물질담배에대한유해물질의정의는주제분석과정을거쳐 니코틴, 발암물질, 유해물질, 일산화탄소, 타르, 화학물질, 노폐물 의 7개유해물질로해당유해물질이있는경우는 1, 없는경우는 0 으로코드화하였다. 8) 담배에대한장소담배에대한장소의정의는주제분석과정을거쳐 PC방, 가정, 금연건물, 아파트, 공공장소, 흡연구역, 직장, 술집, 식당, 학교 의 10개장소로해당장소가있는경우는 1, 없는경우는 0 으로코드화하였다. 9) 담배에대한관련기관담배에대한관련기관의정의는주제분석과정을거쳐 청와대, 국회, 보건복지부, 여성가족부, 기획재정부, 지방자치단체, 공공기관, 세계보건기구, 금연단체 ( 한국금연운동협의회, 한국건강관리협회, 한국보건의료연구원등 ), 담배회사 의 10개기관으로해당기관이있는경우는 1, 없는경우는 0 으로코드화하였다. 3. 분석방법 본연구에서우리나라담배의위험을설명하는가장효율적인예측모형을구축하기위해특별한통 계적가정이필요하지않은데이터마이닝의연관분석 (association analysis) 과의사결정나무 (decision

Predicting tobacco risk factors by using social big data 1051 tree) 방법을사용하였다. 소셜빅데이터분석에서연관분석은하나의온라인문서 (transaction) 에포함된둘이상의단어들에대한상호관련성을발견하는것으로동시에발생한어떤단어들의집합에대해조건과연관규칙을찾는분석방법이다. 전체문서에서연관규칙의평가측도는지지도 (support), 신뢰도 (confidence), 향상도 (lift) 로나타낼수있다. 지지도는자주발생하지않는규칙을제거하는데이용되며신뢰도는단어들의연관성정도를파악하는데이용할수있다. 향상도는연관규칙 (X Y ) 에서단어 X가없을때보다있을때단어 Y 가발생할비율을나타낸다. 연관분석과정은연구자가지정한최소지지도를만족시키는빈발항목집합 (frequent itemset) 을생성한후, 이들에대해최저신뢰도기준을마련하고향상도가 1인이상인것을규칙으로채택한다 (Park, 2013). 본연구의연관분석은선험적규칙 (apriori principle) 알고리즘을사용하였으며, 담배감정에사용된연관분석의측도는지지도 0.001, 신뢰도 0.01을기준으로시뮬레이션하였다. 본연구의의사결정나무형성을위한분석알고리즘은 CHAID (Chi-squared Automatic Interaction Detection) 를사용하였다. 정지규칙 (stopping rule) 으로관찰치가충분하여상위노드 ( 부모마디 ) 의최소케이스수는 100으로하위노드 ( 자식마디 ) 의최소케이스수는 50으로설정하였고, 나무깊이는 3수준으로정하였다. 본연구의기술분석, 다중응답분석, 의사결정나무분석은 SPSS v. 22.0을사용하였고, 연관분석과시각화는 R을사용하였다. 4. 연구결과 4.1. 담배관련버즈현황담배와관련된버즈는연도별로비슷하게 8시부터증가하여 11시이후감소하며, 다시 12시이후증가하여 17시이후감소하고, 20시이후증가하여 23시이후급감하는추세를보이고있는것으로나타났다. 요일별로평일에는수요일, 목요일, 화요일, 월요일, 금요일순으로높은추이를보이는반면, 주말에는감소하는것으로나타났다 (Figure 4.1). Figure 4.1 Buzz tracking in tobacco Figure 4.2 와같이연도별담배에대한위험군의변화는 2011 년대비평균 1.8 배씩증가하였으며, 주 된위험군변수는 추천, 사랑, 최고, 행복, 고민등 의순으로집중된것으로나타났다.

1052 Tae Min Song Juyoung Song Mi Kyung Cheon 2011 year 2012 year 2013 year 2014 year 2015 year Figure 4.2 Positive emotion in tobacco Table 4.1 Descriptive Statistics Division Items N (%) Division Items N (%) Negative 110,401 (58.6) Blog 147,235 (13.5) Usually 16,206 ( 8.6) Cafe 268,463 (24.6) Emotion Positive 61,660 (32.8) SNS 577,125 (52.9) Channel Total 188,267 Board 53,243 ( 4.9) Raising cigarette price 58,267 (50.0) News 45,892 ( 4.2) FCTC 454 ( 0.4) Total 1,091,958 Non-smoking laws 13,528 (11.6) Non-smoking gum 4,260 ( 7.5) Policy Smoking regulations 27,828 (23.9) Non-smoking drug 4,778 ( 8.4) Non-smoking ads 5,626 ( 4.8) Electronic cigarette 38,600 (68.1) Tools Non-smoking business 10,887 ( 9.3) Non-smoking patches 5,200 ( 9.2) Total 116,590 Supplements 3,819 ( 6.7) Non-smoking clinic 10,015 (25.6) Total 56,657 Non-smoking helpline 360 ( 0.9) PC rooms 3,932 ( 2.1) Therapy Hospital 28,062 (71.7) House 12,414 ( 6.7) Non-smoking class 694 ( 1.8) Non-smoking building 1,609 ( 0.9) Total 39,131 Apartment 14,915 ( 8.1) Harmful effect Hazardous substances Secondhand smoke 88,855 (48.6) Public places 34,775 (18.9) Place Alcohol 16,217 ( 8.9) Smoking area 14,029 ( 7.6) Addiction 13,333 ( 7.3) Office 19,666 (10.7) Memory 12,396 ( 6.8) Bar 26,000 (14.1) Cigarette butt 29,651 (16.2) Restaurant 28,659 (15.5) Gambling drugs 8,469 ( 4.6) School 28,314 (15.4) Divorce 3,333 ( 1.8) Total 184,313 Mental health 3,907 ( 2.1) Blue House 32,311 (48.6) Violence 6,611 ( 3.6) Congress 5,803 ( 8.7) Total 182,772 Ministry of Health & welfare 7,894 (11.9) Nicotine 18,496 (46.8) Ministry of Gender Equality & Family 1,502 ( 2.3) Carcinogen 5,651 (14.3) Ministry of Strategy & Finance 2,971 ( 4.5) Hazardous 3,142 ( 8.0) Organization Local Government 4,963 ( 7.5) Carbon monoxide 2,894 ( 7.3) Public institutions 4,021 ( 6.1) Tar 4,707 (11.9) WHO 2,227 ( 3.4) Chemicals 1,875 ( 4.7) Non-smoking groups 1,079 ( 1.6) Waste 2,745 ( 6.9) Tobacco companies 3,673 ( 5.5) Total 39,510 Total 66,444 Table 4.1 과같이담배의위험군을나타내는버즈는 32.8%, 잠재군은 8.6%, 일반군은 58.6% 로나 타났다. 담배와관련된정책은담뱃값인상 (50.0%), 흡연규제 (23.9%), 금연사업 (9.3%) 등의순으

Predicting tobacco risk factors by using social big data 1053 로나타났다. 담배에대한치료는병원 (71.7%), 금연클리닉 (25.6%), 금연교실 (1.8%), 금연상담전 화 (0.9%) 의순으로나타났다. 담배와관련된폐해로는간접흡연 (48.6%), 담배꽁초 (16.2%), 알코 올 (8.9%), 중독 (7.3%) 등의순으로나타났다. 담배에대한유해물질로는니코틴 (46.8%), 발암물 질 (14.3%), 타르 (11.9%), 유해물질 (8.0%) 등의순으로나타났다. 담배와관련된채널로는 SNS (52.9%), 카페 (24.6%), 블로그 (13.5%) 등의순으로나타났다. 담배에대한금연도구로는전자담 배 (68.1%), 금연패치 (9.2%), 금연약 (8.4%) 등의순으로나타났다. 담배에대한장소로는공공장 소 (18.9%), 식당 (15.5%), 학교 (15.4%) 등의순으로나타났다. 담배에대한관련기관으로는청와대 (48.6%), 보건복지부 (11.9%), 국회 (8.7%) 등의순으로나타났다. Table 4.2와같이담배와관련된연도별위험군의변화는 2011년 37.2%, 2012년 34.6%, 2013년 32.7%, 2014년 34.0%, 2015년 28.4% 로나타났으며, 2015년담뱃값인상이후위험군이 5.6% 감소 하고, 일반군이 6.1% 증가한것으로나타났다. Table 4.2 Emotion changes in tobacco (unit: n (%)) Year Positive Usually Negative Total 2011 9,156 (37.2) 2,764 (11.2) 12,674 (51.5) 24,594 2012 13,304 (34.6) 3,112 ( 8.1) 22,050 (57.3) 38,466 2013 13,515 (32.7) 3,134 ( 7.6) 24,660 (59.7) 41,309 2014 11,251 (34.0) 2,956 ( 8.9) 18,924 (57.1) 33,131 2015 14,434 (28.4) 4,240 ( 8.4) 32,093 (63.2) 50,767 Total 61,660 (32.8) 16,206 ( 8.6) 110,401 (58.6) 188,267 4.2. 담배위험관련연관성분석 Table 4.3 과같이정책요인에대한담배위험연관성예측에서가장신뢰도가높은연관규칙으로는 담뱃값인상, 금연관련법 => 일반군이며세변인의연관성은지지도 0.002, 신뢰도는 0.540, 향상도는 5.339 로나타났다. 이는온라인문서에서담뱃값인상, 금연관련법이언급되면담배를혐오적으로생각 하는일반군이될확률이 54.0% 이며, 담뱃값인상, 금연관련법이언급되지않은문서보다담배에대 한감정이혐오적일확률이 5.34 배높아지는것을나타낸다. 특히, 담뱃값인상 => 위험군두변인의 연관성은지지도 0.002, 신뢰도는 0.041, 향상도는 0.724 로나타나담뱃값인상은위험군을감소시키는 것으로나타났다. 반면, 담뱃값인상 => 일반군의향상도 (1.854) 가담뱃값인상 => 잠재의향상도 (1.493) 보다높게나타나온라인문서에담뱃값인상이언급될경우잠재군보다일반군의확률이더높 은것으로나타났다. Table 4.3 Association analysis in tobacco policy Rule Support Confidence LIft {Rasing cigarette price, Non-smoking laws} =>{Negative)} 0.001776625 0.53978854 5.3389590 {Rasing cigarette price, Smoking regulations} => {Negative)} 0.001778457 0.49465104 4.8925115 {Non-smoking business} => {Negative)} 0.004685162 0.46991825 4.6478836 {Non-smoking laws, Smoking regulations} => {Negative)} 0.001862709 0.46395985 4.5889500 {Non-smoking laws} => {Negative)} 0.005130234 0.41410408 4.0958349 {Non-smoking ads} => {Negative)} 0.001716183 0.33309634 3.2946007 {Smoking regulations} => {Negative)} 0.007551572 0.29632025 2.9308545 {Rasing cigarette price} => {Negative)} 0.010004048 0.18748176 1.8543511 {Non-smoking business} => {Positive)} 0.001788530 0.17938826 3.1768480 {} => {Negative)} 0.101103705 0.10110371 1.0000000 {Smoking regulations} => {Positive)} 0.001625520 0.06378468 1.1295846 {} => {Positive)} 0.056467373 0.05646737 1.0000000 {Rasing cigarette price} => {Positive)} 0.002182318 0.04089794 0.7242755 {Rasing cigarette price} => {Usually)} 0.001182280 0.02215662 1.4929102 {} => {Usually)} 0.014841230 0.01484123 1.0000000

1054 Tae Min Song Juyoung Song Mi Kyung Cheon 4.3. 담배의위험에영향을미치는요인 금연정책의중요한요인인흡연규제와금연도구가담배의위험에미치는요인은 Table 4.4와같이금 연과관련한모든정책요인은담배의위험군에부정적인영향을미치는것으로나타나, FCTC, 담뱃값 인상, 금연관련법, 흡연규제, 금연광고, 금연사업과관련한정책이온라인상에많이언급될수록위험군 은감소하는것으로나타났다. 금연과관련한도구요인의영향은금연약, 금연패치, 금연껌은부적인 영향을미치는것으로나타나, 금연약, 금연패치, 금연껌과관련한금연도구가온라인상에많이언급될 수록위험군은감소하는것으로나타났으나, 전자담배와금연보조제는정적인영향을미치는것으로나 타나전자담배와보조제와관련한금연도구가많이언급될수록담배에대한위험군은증가하는것으로 나타났다. Table 4.4 Logistic regression analysis in tobacco risk factors* Variables Positive Usually b S.E. OR P b S.E. OR P Rasing cigarette price -.854.024.426.000 -.207.031.813.000 FCTC -1.328.269.265.000 -.451.215.637.036 Policy Non-smoking laws -.845.037.430.000 -.153.044.858.001 Smoking regulations -.742.027.476.000 -.191.036.826.000 Non-smoking ads -.275.049.760.000.076.065 1.079.240 Non-smoking business -.242.028.785.000.410.035 1.507.000 Non-smoking gum -.357.051.700.000.068.069 1.071.324 Non-smoking drug -1.556.060.211.000 -.176.058.839.003 Tools Electronic cigarettes.206.019 1.229.000.155.032 1.167.000 Non-smoking patches -1.091.051.336.000 -.414.065.661.000 Supplements.374.060 1.454.000.688.081 1.990.000 * base category: Negative, Standardized coefficients, Standard error, Adjusted odds ratio 4.4. 담배관련위험예측모형본연구에서는담배관련위험을예측하기위하여담배와관련된정책요인과금연도구요인에대해데이터마이닝분석을실시하였다. 담배와관련된정책요인이담배의위험예측모형에미치는영향은 Figure 4.3과같다. 나무구조의최상위에있는네모는루트노드로서, 예측변수 ( 독립변수 ) 가투입되지않은종속변수 ( 위험군, 잠재군, 일반군 ) 의빈도를나타낸다. 루트노드에서위험군은 32.8% (61,660건), 잠재군은 8.5% (16,206건), 일반군은 58.6% (110,401건) 으로나타났다. 루트노드하단의가장상위에위치하는요인은담배의위험예측에가장영향력이높은 ( 관련성이깊은 ) 정책요인으로 담뱃값인상요인 의영향력이가장큰것으로나타났다. 담뱃값인상요인 이있을경우담배의위험군은이전의 32.8% 에서 16.3% 로크게감소한반면, 잠재군은이전의 8.5% 에서 8.8%, 일반군은이전의 58.6% 에서 74.8% 로증가하였다. 담뱃값인상요인 이있고 금연관련법요인 이있는경우담배의위험군은이전의 16.3% 에서 6.0%, 잠재군은이전의 8.8% 에서 8.0% 로감소한반면, 일반군은이전의 74.8% 에서 88.0% 로증가하였다. Table 4.5의담배와관련한정책요인의위험예측모형에대한이익도표와같이담배의위험군에가장영향력이높은경우는 담뱃값인상요인 이없고 흡연규제요인 이없으며 금연관련법요인 이없는조합으로나타났다. 즉, 8번노드의지수 (index) 가 108.1% 로뿌리마디와비교했을때 8번노드의조건을가진집단이담배에대한위험군이높을확률이 1.08배로나타났다. 담배의잠재군에가장영향력이높은경우는 담뱃값인상요인 이있고 금연관련법요인 이없으며 금연사업요인 이있는조합으로나타났다. 즉, 14번노드의지수가 168.0% 로뿌리마디와비교했을때 14번노드의조건을가진집단에서잠재군이높을확률이 1.68배로나타났다. 담배의일반군에가장영향력이높은경

INSIDabcdef_:MS_0001MS_0001 Predicting tobacco risk factors by using social big data 1055 INSIDabcdef_:MS_0001MS_0001 우는 담뱃값인상요인 이있고 금연관련법요인 이있으며 FCTC요인 이있는조합으로나타났다. 즉, 12번노드의지수가 163.0% 로뿌리마디와비교했을때 12번노드의조건을가진집단에서일반군이높을확률이 1.63배로나타났다. 담배관련질병요인이담배의위험예측모형에미치는영향은 Figure 4.4와같다. 담배의위험예측에가장영향력이높은질병요인으로 폐암 의영향력이가장큰것으로나타났다. 폐암 이있을경우위험군은이전의 32.8% 에서 14.6% 로크게감소한반면, 잠재군은이전의 8.6% 에서 12.3%, 일반군은이전의 58.6% 에서 73.1% 로증가하였다. 폐암 이있고 후두암 이있는경우담배의위험군은이전의 14.6% 에서 7.6%, 잠재군은이전의 12.3% 에서 6.5% 로감소한반면, 일반군은이전의 73.1% 에서 85.8% 로증가하였다. Table 4.6의담배와관련한질병요인의위험예측모형에대한이익도표와같이담배의위험군에가장영향력이높은경우는 폐암 이없고 심혈관질환 이없으며 고혈압 이없는조합으로나타났다. 즉, 11번노드의지수가 104.6% 로뿌리마디와비교했을때 11번노드의조건을가진집단이담배에대한위험이높을확률이 1.05배로나타났다. 잠재군에가장영향력이높은경우는 폐암 이없고 심혈관질환 이있으며 간암 이있는조합으로나타났다. 즉, 14번노드의지수가 485.7% 로뿌리마디와비교했을때 14번노드의조건을가진집단에서잠재군이높을확률이 4.86배로나타났다. 담배의일반에가장영향력이높은경우는 폐암 이있고 후두암 이있으며 심혈관질환 이있는조합으로나타났다. 즉, 8번노드의지수가 155.0% 로뿌리마디와비교했을때 8번노드의조건을가진집단에서일반군이높을확률이 1.55배로나타났다. Figure 4.3 Prediction model in policy factors

INSIDabcdef_:MS_0001MS_0001 1056 Tae Min Song Juyoung Song Mi Kyung Cheon INSIDabcdef_:MS_0001MS_0001 Part Positive Usually Negative Table 4.5 Profit chart of prediction model in policy factors Node Profit Index Cumulative Index Node (n) Node (%) Profit (%) Index (%) Node (n) Node (%) Profit (%) Index (%) 8 161765 85.9 92.9 108.1 161765 85.9 92.9 108.1 13 11699 6.2 3.5 56.2 173464 92.1 96.3 104.6 9 8518 4.5 2.5 54.7 181982 96.7 98.8 102.2 7 3312 1.8.8 45.5 185294 98.4 99.6 101.2 14 643.3.1 43.7 185937 98.8 99.8 101.0 11 2143 1.1.2 19.2 188080 99.9 100.0 100.1 10 74.0.0 16.5 188154 99.9 100.0 100.1 12 113.1.0 2.7 188267 100.0 100.0 100.0 14 643.3.6 168.0 643.3.6 168.0 10 74.0.0 125.6 717.4.6 163.6 7 3312 1.8 2.1 121.0 4029 2.1 2.8 128.6 9 8518 4.5 4.6 102.4 12547 6.7 7.4 110.8 13 11699 6.2 6.3 101.1 24246 12.9 13.7 106.1 8 161765 85.9 85.2 99.2 186011 98.8 98.9 100.1 11 2143 1.1 1.1 95.4 188154 99.9 100.0 100.0 12 113.1.0 41.1 188267 100.0 100.0 100.0 12 113.1.1 163.0 113.1.1 163.0 11 2143 1.1 1.7 145.8 2256 1.2 1.8 146.6 10 74.0.1 142.9 2330 1.2 1.8 146.5 7 3312 1.8 2.2 127.3 5642 3.0 4.1 135.3 9 8518 4.5 5.7 125.0 14160 7.5 9.7 129.1 13 11699 6.2 7.7 124.3 25859 13.7 17.4 126.9 14 643.3.4 121.5 26502 14.1 17.8 126.8 8 161765 85.9 82.2 95.6 188267 100.0 100.0 100.0 Figure 4.4 Prediction model in disease factors

Predicting tobacco risk factors by using social big data 1057 Part Positive Usually Negative Table 4.6 Profit chart of prediction model in disease factors Node Profit Index Cumulative Index Node (n) Node (%) Profit (%) Index (%) Node (n) Node (%) Profit (%) Index (%) 11 168916 89.7 93.9 104.6 168916 89.7 93.9 104.6 12 1741.9.8 89.4 170657 90.6 94.7 104.5 13 8694 4.6 3.2 68.8 179351 95.3 97.9 102.8 10 6256 3.3 1.7 51.5 185607 98.6 99.6 101.0 14 177.1.0 34.5 185784 98.7 99.6 101.0 7 502.3.1 31.6 186286 98.9 99.7 100.8 9 1607.9.2 29.3 187893 99.8 100.0 100.2 8 374.2.0 12.2 188267 100.0 100.0 100.0 14 177.1.5 485.7 177.1.5 485.7 9 1607.9 1.7 200.2 1784.9 2.2 228.6 12 1741.9 1.8 190.2 3525 1.9 3.9 209.6 13 8694 4.6 6.7 144.7 12219 6.5 10.6 163.4 10 6256 3.3 4.6 137.2 18475 9.8 15.2 154.6 11 168916 89.7 84.5 94.2 187391 99.5 99.6 100.1 7 502.3.2 87.9 187893 99.8 99.9 100.1 8 374.2.1 59.0 188267 100.0 100.0 100.0 8 374.2.3 155.0 374.2.3 155.0 7 502.3.4 140.0 876.5.7 146.4 9 1607.9 1.1 124.8 2483 1.3 1.7 132.4 10 6256 3.3 4.0 121.6 8739 4.6 5.8 124.7 13 8694 4.6 5.1 110.8 17433 9.3 10.9 117.8 11 168916 89.7 88.2 98.3 186349 99.0 99.1 100.1 12 1741.9.9 92.7 188090 99.9 99.9 100.0 14 177.1.1 80.0 188267 100.0 100.0 100.0 5. 결론본연구는국내의온라인뉴스사이트, 블로그, 카페, SNS, 게시판등인터넷을통해수집된소셜빅데이터를주제분석과감성분석기술로분류하고데이터마이닝의연관성분석과의사결정나무분석방법을적용하여분석함으로써우리나라국민의담배에대한위험요인을예측하고자하였다. 본연구의주요분석결과는다음과같다. 첫째, 담배관련버즈는매일 8시부터증가하여 11시이후감소하며, 20시이후증가하여 23시이후급감하고, 요일별로수요일, 목요일, 화요일, 월요일, 금요일순으로높은추이를보이는반면, 주말에는감소하는것으로나타났다. 둘째, 담뱃값인상이후위험군은 5.6% 감소하고, 일반군은 6.1% 증가한것으로나타났다. 셋째, 버즈에서담뱃값인상, 금연관련법이동시에언급되면일반군이될확률이증가하며, 담뱃값인상만언급되어도위험군을감소시키는것으로나타났다. 넷째, FCTC, 담뱃값인상, 금연관련법, 흡연규제, 금연광고, 금연사업과관련된정책이온라인상에많이언급될수록위험군이감소하는것으로나타났다. 금연약, 금연패치, 금연껌과같은도구가온라인상에많이언급될수록위험군은감소하는것으로나타났으나, 전자담배와보조제는위험군을증가시키는것으로나타났다. 다섯째, 담배위험예측모형에서온라인상에 담뱃값인상 이언급될경우일반군이 58.6% 에서 74.8% 로증가하며, 폐암 이언급될경우 73.1% 로증가한것으로나타났다. 끝으로금연정책의효과에대한대국민조사와더불어소셜미디어에서수집된빅데이터의활용과분석을병행할경우, 정부의금연정책에대한예측및평가의신뢰성이더욱제고될것으로예상되며, 또한국민들이금연에적극적으로동참할수있도록소셜빅데이터분석을통하여담배를애호적으로생각하는위험군을감소시킬수있는 SNS 홍보가강화되어야할것이다.

1058 Tae Min Song Juyoung Song Mi Kyung Cheon References Campaign for Tobacco-Free Kids. (2013). Increasing the federal tobacco tax reduces tobacco use, Washington DC. Carter, B. D., Abnet, C. C., Feskanich, D., Freedman, N. D., Hartge, P., Lewis, C. E., Ockene, J. K., Prentice, R. L., Speizer, F. E., Thun, M. J. and Jacobs, E. J. (2015). Smoking and mortality : Beyond established causes. N ew England Journal of Medicine, 372, 631-640. Center for Disease Control and Prevention. (2010). How tobacco smoke cause disease : The biology and behavioral basis for smoking attributable disease: A report of the surgeon genera, US Department of Health and Human Services, Atlanta, GA. Centers for Disease Control and Prevention. (2014). Cigarette prices and smoking prevalence after a tobacco tax increase-turkey, 2008 and 2012. MMWR Morbidity and Mortality Weekly Report, 63, 457-461. Chun, H. (2015). The comparison of coauthor networks of two statistical Journals of the Korean Statistical Society using social network analysis. Journal of the Korean Data & Information Science Society, 26, 335-346. Chun, H. and Leem. B. (2014). Face/non-face channel fit comparison of life insurance company and non-life insurance company using social network analysis. Journal of the Korean Data & Information Science Society, 25, 1207-1219. Hammond, D., Fong, G. T., McDonald, P. W., Brown, K. S. and Cameron, R. (2004). Graphic Canadian cigarette warning labels and adverse outcomes. American Journal of Public Health, 94, 1442-1445. Hong, Y. (2014). A study on the invigorating strategies for open government data. Journal of the Korean Data & Information Science Society, 25, 769-777. Ji, S., Jung, K., Jeon, C., Kim, H., Yun, Y. and Kim, I. (2014). Smoking attributable risk and medical care cost in 2012 in Korea. Journal of Health Informatics and Statistics, 39, 25-41. Jung, K., Yun, Y., Baek, S., Jee, S. and Kim, I. (2013). Smoking-attributable mortality among Korean adults, 2012. J ournal of Health Informatics and Statistics, 38, 36-48. Kang, E. and Lee, J. (2011) Factor related to willingness-to-quit smoking cigarette price among Korean adults. Korean Journal of Health Education and Promotion, 28, 125-137. Ministry of Health and Welfare. (2014). Korea health statistics 2013: Korea national health and nutrition examination survey, Ministry of Health and Welfare, Korea. Ministry of Health and Welfare. (2014) press release. Government-wide, No smoking comprehensive plan retrieved September 11, 2014. Organization for Economic Cooperation and Development. (2014). Health data 2014, Paris, OECD. Park, H. C. (2013). Proposition of causal association rule thresholds. J ournal of the Korean Data & Information Science Society, 24, 1189-1197. Song, T. M. (2015). Predicting tobacco risk factors by using social big data, Health and Social Welfare Issue & Focus, Korea Institute for Health and Social affairs, Korea. Song, T. M., Song, J., An, J. Y. and Jin, D. (2013). Multivariate analysis of factors for search on suicide using social big data. Korean Journal of Health Education and Promotion, 30, 59-73. Thun, M. J., Carter, B. D., Feskanich, D., Freedman, N. D., Prentice, R., Lopez, A. D., Hartge, P. and Gapstur, S. M. (2013). 50-year trends in smoking-related mortality in the United States. New England Journal of Medicine, 368, 351-364. World Health Organization. (2008). Report on the global tobacco epidemic - The MPOWER package, World Health Organization, Geneva. Zheng, W., McLerran, D. F., Rolland, B. A., Fu, Z., Boffetta, P., He, J., Gupta, P. C., Ramadas, K., Tsugane, S., Irie, F., Tamakoshi, A., Gao, Y. T., Koh, W. P., Shu, X. O., Ozasa, K., Nishino, Y., Tsuji, I., Tanaka, H., Chen, C. J., Yuan, J. M., Ahn, Y. O., Yoo, K. Y., Ahsan, H., Pan, W. H., Qiao, Y. L., Gu, D., Pednekar, M. S., Sauvaget, C., Sawada, N., Sairenchi, T., Yang, G., Wang, R., Xiang, Y. B., Ohishi, W., Kakizaki, M., Watanabe, T., Oze, I., You, S. L., Sugawara, Y., Butler, L. M., Kim, D. H., Park, S. K., Parvez, F., Chuang, S. Y., Fan, J. H., Shen, C. Y., Chen, Y., Grant, E. J., Lee, J. E., Sinha, R., Matsuo, K., Thornquist, M., Inoue, M., Feng, Z., Kang, D. and Potter, J. D. (2014). Burden of total and cause-specific mortality related to tobacco smoking among adults aged 45 years in Asia: A pooled analysis of 21 cohorts. Public Library of Science Medicine, 11, e1001631.

Journal of the Korean Data & Information Science Society 2015, 26(5), 1047 1059 http://dx.doi.org/10.7465/jkdi.2015.26.5.1047 한국데이터정보과학회지 Predicting tobacco risk factors by using social big data Tae Min Song 1 Juyoung Song 2 Mi Kyung Cheon 3 13 Information and Statistics Department, Korea Institute for Health and Social Affairs 2 Department of Criminal Justice, Pennsylvania State University Received 5 August 2015, revised 1 September 2015, accepted 24 September 2015 Abstract This study will predict risk factors associated with cigarettes in Korea by analyzing the social big data collected from the internet such as blogs, cafes, and SNSes in Korea, using data mining techniques. The key analysis results are as follows. First, when raising cigarette price is mentioned online, the negative group (i.e., the proportion of people holding negative views about smoking) increased from 58.6% to 74.8%, and when lung cancer is mentioned, it increased to 73.1%. Second, with regard to cigarettes in general, the positive group (i.e., the proportion of people holding positive views about smoking) decreased by 5.6% after the raising of cigarette prices, while the negative group increased by 6.1%. Third, when policies related to FCTC, raising cigarette price, non-smoking laws, smoking regulations, non-smoking ads, and nonsmoking business are more frequently mentioned online, the positive group tended to decrease. Finally, when non-smoking drugs, non-smoking patches, and non-smoking gums are more frequently mentioned online, the positive group tended to decrease. However, when electronic cigarettes and supplements are more frequently mentioned online, the positive group increased. Keywords: Association analysis, data mining, opinion mining, social big data, tobacco. Some of this research was published in Health and Social Welfare Issue & Focus : Song, T. M. (2015), Predicting tobacco risk factors by using social big data. 1 Head, Research Center for Big Data, Information and Statistics Department, Korea Institute for Health and Social affairs, Sejong 339-007, Korea. 2 Corresponding author: Assistant professor, Department of Criminal Justice, Pennsylvania State University, North Wales PA 19454, USA. E-mail: juyoung81@gmail.com 3 Researcher, Information and Statistics Department, Korea Institute for Health and Social affairs, Sejong 339-007, Korea.