286 정보과학회논문지 : 컴퓨팅의실제및레터제 20 권제 5 호 (2014.5) 소셜빅데이터로부터의재난이슈탐지모델 (The Sensing Model of Disaster Issues from Social Bigdata) 최선화 배병걸 (SeonHwa Choi) (ByungGul Bae) 요약최근정부는새로운정부운영패러다임 정부 3.0 을내건적극적개방과공유, 부처간소통과협력을통해국민맞춤형서비스제공은물론일자리창출과창조경제를지원하겠다고발표하였다. 이는데이터공개를통해국민의신뢰와지지를받은국민공감형정책을요구하는것으로공공데이터와사람과사람간의발생하는소셜빅데이터의분석 활용이매우중요하게되었다. 재난관리도기존의정부중심대응에서벗어나소셜미디어등의빅데이터를활용하여국민이참여하는재난대응과정치 사회 경제등제반이슈와연계된분석 예측기술개발이필요하다. 본논문에서는소셜미디어의재난관리활용과운영의가능성을살펴보고재난이슈탐지를위한모델을소개하고자한다. 키워드 : 빅데이터, 소셜미디어, 재난전조, 실시간재난모니터링 Abstract Recently, government announces the plan of operation, Government 3.0, for the adjusted service to people. This will be realized through actively opening and sharing data as well as communicating and collaborating between government departments. This policy requires winning the sympathy with people by opening government data, and also emphasizes the importance of analyzing and utilizing between public data and social big data. In field of disaster management, it also requires the technique development using big data analysis. In this paper, 이논문은제40회추계학술발표회에서 소셜빅데이터재난이슈탐지모델 의제목으로발표된논문을확장한것임 정회원 : 안전행정부국립재난안전연구원 shchoi333@gmail.com (Corresponding author임 ) bazel1984@korea.kr 논문접수 : 2014년 1월 10일심사완료 : 2014년 2월 24일 CopyrightC2014 한국정보과학회 ː개인목적이나교육목적인경우, 이저작물의전체또는일부에대한복사본혹은디지털사본의제작을허가합니다. 이때, 사본은상업적수단으로사용할수없으며첫페이지에본문구와출처를반드시명시해야합니다. 이외의목적으로복제, 배포, 출판, 전송등모든유형의사용행위를하는경우에대하여는사전에허가를얻고비용을지불해야합니다. 정보과학회논문지 : 컴퓨팅의실제및레터제20권제5호 (2014.5) we introduce the disaster issues sensing model through monitoring social big data created by social media. Keywords: bigdata, social media, sign of disaster, real-time disaster monitoring 1. 서론 21세기의원유라고일컫는빅데이터에대한관심은민간기업들뿐만아니라국가차원의전략수립으로확산되고있다. 다양한산업분야에서새로운가치창출에기여하고있는빅데이터기술을도입하여사회현안및국민의니즈를파악하고미래전략수립, 선제적공공서비스제공등정부혁신이필요한시기이다. 재난관리도기존의정부중심대응에서벗어나공공데이터와소셜데이터등을연계 분석하여대내외의이슈와변화를감지하고인타임대책을수립해야한다. 재난이발생한이후에소셜미디어활용현황을분석하고그가치를제시한사례들이있다. 대표적으로동일본대지진 (2011.03) 당시, 국민들스스로다양한소셜미디어를활용하여피해상황및대피소정보를공유하는등효과적으로대응한사실은소셜미디어의위력을잘설명해주는사례이다 [1,2]. 미국동부를강타한허리케인샌디 (2012.11) 당시송전탑피해로인해전력공급이어려워져집안에발전기를가동하기위해기름확보를위한주유대란이일어났다. 이때주유소를방문한일반시민들이페이스북, 트위터등을통해주유소의기름보유상태, 연락처, 대기시간등을매플러학생들에게전달하고이정보를지도에매핑하여공유하는서비스를제공함으로써주유대란이진정되고해결되었다. 이처럼커뮤니티기반특정목적을갖는소셜미디어활용은신뢰성높은집단지성을활용할수있다는장점이있다. 최근발생한미국샌프란시스코공항에아시아나항공기추락사고의최초보도는트위터에서이루어졌다. 당시항공기사고현장과대피하는승객들의모습이담긴사진도제공하면서사건현장을생생히보도한것이다. 이처럼트위터와같은소셜미디어는재난상황시정보전달의신속성뿐만아니라국민스스로긴급정보공유의지의수단으로활용되고있다 [3]. 스마트시대에소셜미디어는관계기관보다한발빠른피해상황보고매체이며국민과소통하는채널로서활용되고있기때문에재난관리에초점을맞추어선순환적운영방안수립및소셜미디어모니터링기술개발이필요하다. 2. 소셜빅데이터재난이슈탐지모델 2.1 재난이슈개념재난피해가발생하기전, 사전에전조를파악하고대비한다면피해를최소화할수있다. 본연구는재난이
소셜빅데이터로부터의재난이슈탐지모델287 슈를전조이슈와발생이슈로구분하여정의하고특성에맞는이슈탐지모델을수립하였다. 전조이슈는재난이발생된것은아니지만전조를알리는트윗들을분석한다. 즉, 억수로쏟아지는비에강남역이또잠길까두려워... 와같은트윗은침수피해가발생한것은아니지만침수피해의전조를말하고있다. 이런전조이슈발견을위해서는트윗에서평상시와다른패턴을찾아야하고정확한분석보다는트랜드파악이중요하다. 또한, 트윗발생빈도뿐만아니라기상, 사회현상등과병행분석이수행되어야할것이다. 다른유형의재난이슈는재난발생이슈탐지이다. 이것은실제발생된사건의사실을알리는것으로, 앞서사례로든센프란시스코아시아나항공기추락사건을최초로보도한트윗이이에해당한다. 발생이슈는전조이슈와달리최초트윗을발견하는것이중요하며내용의정확성과, 진위파악이우선되야한다. 따라서전조이슈에서사용하는빈도는큰의미가없고, 사건발생을알리는트윗의패턴규칙을찾아내고이를활용해야한다. 2.2 전조이슈탐지모델전조이슈감지를위해재난유형별과거트윗발생빈도를기반으로확률모델을구축하고각재난유형의실시간발생된트윗의빈도가확률모델상발생확률과비교하여비정상일경우전조이슈로판단한다. 예를들어, 태풍관련최근 1시간트윗빈도가 100개라고하자. 먼저과거태풍의확률분포상 100개트윗이발생할확률을계산하고이것이임계치미만이면비정상이고태풍피해의전조이슈로판단한다. 3.2.1 확률모델구축강풍외 12개재난유형의확률모델을구축하고, 확률모델을이용해정확한전조이슈를판단하기위한임계치최적화연구를수행하였다. 확률모델구축은 2012년 5 월부터발생한각재난유형과관련된트윗의빈도를시간단위로구하여활용하였고, 푸아송분포 (Poisson distribution) 를사용하였다. 푸아송분포는비주기적으로발생하는사건들에대해단위시간안에어떤사건이몇번발생할것인지를표현하는이산확률분포로서일정시간동안특정진도이상의지진이발생하는수, 일정시간동안생산라인에서발생하는불량의수, 일정시간동안톨게이트를통과하는차량의수등을찾아내는주로활용된다. 과거재난유형별관련트윗의시간단위발생빈도를살펴본결과, 푸아송분포와일치하지않아발생빈도를스케일링하여푸아송분포와매핑시키는과정을거쳤다. 스케일링방법으로는시간단위트윗빈도를적절한지수로지수승하여변환하는 Exponential Scaling 방법을이용하였다. 이방법은스케일링된빈도가원래빈도에 비해매우작아지기때문에, 빈도구간이겹쳐서변별력이떨어지는경향이있지만다른방법보다푸아송분포매핑시왜곡이작은편이므로선택하였다. 3.2.2 전조이슈판단절차재난유형별과거트윗발생빈도를기반으로확률모델을구축하고각재난유형의최근 1시간동안실시간발생된트윗의빈도가발생할확률이임계치 1) 보다낮을경우전조이슈로판단하고이를알린다. 다시말해서, 확률분포상누적확률값이 95% 가되는빈도수이상일때전조이슈로판단한다. 전조이슈를판단하는구체적인절차는그림 1과같다. 예를들어호우의경우, 최근 1 시간호우관련트윗빈도가 50이라고가정하자. 이값은호우확률모델에서누적확률값 95% 가되는빈도인 38 보다크므로전조이슈로판단된다. 구축한확률모델을기반으로전조이슈를판단한자료를분석해보면원전중단, 폭염등으로인해전력난이심했던 2013년은원전중단이후첫전력경보를발령했던 6월4일전력부족을전조이슈로가장많이감지한것을확인할수있다. 또한, 전력부족은사회적사건및이슈와밀접한관계가있는재난임을반영하고있었다. 또한, 2013년 7월에발생한강남지역침수피해에대해오전 6시부터전조이슈를탐지하는등단기간집중호우로인한침수피해전조이슈도확률모델로탐지하였다. 3.2.3 전조이슈판단임계치최적화전조이슈탐지의정확성을평가하기위해서는판단기준의최적화가필요하다. 재난유형별특성이반영되지않은동일한임계치가아닌각재난유형별발생빈도의성질을반영하여임계치를정할필요가있다. 따라서 5 개재난유형을선정하고각각의임계치최적화실험을수행하였다. 실험대상은재난유형특성상외부적요인등으로피해예측이가능한정형유형에호우와폭염을선정하였고피해예측이불가능한비정형유형에화재, 가스폭발, 해양사고를선정하여실험하였다. 재난유형의확률모델구축에사용되었던과거시간단위관련트윗발생빈도를가지고재난유형의피해가발생했던시점을추출하여임계치평가시정답집합으로활용하였다. 단, 폭염은재난피해가명확하지않고피해이력을관리하지않으므로해당기간최고기온이 30 C를넘을경우폭염피해전조이슈라고판단하고정답집합을추출하였다. 실험대상유형과각재난유형의총데이터와실사건데이터로추출한정답집합은표 1과같다. 1) 현재모니터링서비스에서사용중인임계치는경험적검증을통해선정한 5% 를사용하고있다.
288 정보과학회논문지 : 컴퓨팅의실제및레터제 20 권제 5 호 (2014.5) 표 1 실험대상유형및실험데이터 Table 1 Disaster type and experimental data No. Disaster Type Period #Total data #Damage data 1 Heavy rain 2012.05.01. ~ 2013.09.12 6,192 229 2 Heatwave 2013.06.01. ~ 2013.08.31 2,208 192 3 Fire accident 2012.05.01. ~ 2013.09.12 6,192 67 4 Gas explosion 2012.05.01. ~ 2013.09.12 6,192 68 5 Marine accident 2012.05.01. ~ 2013.09.12 6,192 61 그림 2 임계치평가척도추이 ( 호우 ) Fig. 2 The Progress of rating scale threshold(heavy rain) 그림 1 전조이슈판단절차 Fig. 1 The decision procedure of sign issues 확률모델을근거로임계치에따라전조이슈인지아닌지를분류하는문제이므로임계치를변화시키면서해당임계치분류정확도를기준으로최적임계치를선정하려고한다. 분류정확도계산을위해 Confusion Matrix 을이용하며판단척도는정확률 (Precision) 과재현율 (Recall) 을사용하였고, 두값의최적지점을찾기위해두값의기하평균 (Geometric mean) 을이용하였다. Confusion Matrix의각행에는예측된클래스를표시하고열에는실제클래스를표시하여 Matrix를구성하고이를분류문제의정확도를쉽게판단할수있는장점이있다. 정확률은전조이슈라고예측한결과에서실제전조이슈에해당하는것의비율이며, 재현율은실제전조이슈즉, 정답집합에서전조이슈라고예측한것의비율이다. 재현율이높도록시스템을최적화하는것은가능한전조이슈를많이찾는것에중점을두는것이고반면에, 정확률이높도록최적화하는것은확실한전조이슈를찾고전조이슈가아닌것은최대한제외시키는것에초점을두게된다. 두척도는서로상반관계 (trade-off) 를가지고있어서한쪽을높이면한쪽이내려가는특성 이있다. 따라서본연구에서는확실한전조이슈를찾고전조이슈가아닌것은최대한제외하는것에초첨을맞추어정확률이재현율보다높은임계치중, 기하평균이가장큰임계치를최적치로판정하였다. 호우는초기임계치 0에서시작하여총 12단계분류를반복하여분류정확도를계산하였다 ( 그림 2). 정확률이재현율보다높은시점은임계빈도 60부터고이중두값의기하평균이가장높은임계빈도는 80이다. 따라서호우확률모델의최적임계빈도는 80으로최적화하였다. 이는기존 5% 기준임계빈도 40으로전조이슈를판단한했을때정확성보다정확률은상승 (25%) 하고재현율은하락 (19%) 한것이다. 이와같은방법으로폭염, 화재, 가스폭발, 해양사고를대상으로전조이슈여부를판단하는임계치최적화를수행하였다. 실험과정에서트윗발생빈도가지나치게한값에치우친경우 ( 예를들어거의발생하지않는경우 ) 이산확률분포인푸아송분포로임계치를설정하는데문제가있다는사실을확인하였다. 따라서향후다양한모델링방법을적용하여최적모델을찾는연구가필요하며, 실험대상유형이외의재난에대해확률모델의적정성과임계치최적화작업또한수행되어야한다. 2.3 발생이슈탐지모델소셜미디어에서재난발생사실을보도한사례들은다양했으며어떤언론보다빠르게사실을알려준다는특징이있다. 소셜미디어의이런장점을이용해재난발생
소셜빅데이터로부터의재난이슈탐지모델289 사실을알리는트윗등의제보를이슈로간주하고이를탐지하는기술개발이필요하다. 본연구에서는최초재난발생사실을알리는이슈를재난발생이슈라고정의하고재난발생사실을알리는최초트윗을감지하기위해트윗발생빈도가아닌재난발생사실을알리는트윗원문에주로사용하는어휘들의패턴을추출하여이를정규화한어휘패턴을이용한기법을설명하고자한다. 재난발생이슈탐지를위해, 재난유형별재난발생사실을알리는어휘패턴을구축하고탐지정확성을검증하기위해실제재난발생사실을알리는트윗을대상으로실험하였다. 실험을위해 10개재난유형의 77개발생된재난을대상으로추출된 1,485개의재난발생사실을알리는트윗들을활용하였다 ( 동일내용의리트윗은제외 ). 재난유형별로트윗원문의어휘들을분석하고패턴을추출한후정규표현식 [4][5] 을이용하여어휘패턴을정의하였다. 정규식으로변환한어휘패턴들은유사성을고려하여그룹핑하였으며, 그룹내어휘패턴들의성능을비교하여가장우수한성능의어휘패턴을해당재난유형에가장적합한어휘패턴으로선정하였다. 어휘패턴을정의하는데필요한재난관련어휘는실제트윗데이터에서추출된키워드집합을활용하였다. 재난유형별로트윗원문의어휘들을분석하고패턴을추출하여기본패턴을만들고, 기본패턴에부정의의미가포함된패턴인부정형패턴과지역정보가있는지역형패턴을추가하였다. 기본패턴에지역패턴과부정패턴을추가한이유는패턴의다양성을높여서더정교한패턴을만들기위함이다. 하지만기본패턴의정확율이지역패턴과부정패턴에영향을미치게되는경우, 즉기본패턴의정확율이 1이되는경우에지역패턴과부정패턴도정확율이 1이되고재현률은기본패턴에비해서낮아지므로정확율이 1인경우는지역패턴과부정패턴은평가하지않았다. F-measure = 재난발생이슈탐지를위한어휘패턴의정확성을검증하기위해앞의절에서사용했던 Confusion Matrix 을이용하며판단척도는정확율 (Precision) 과재현율 (Recall) 을사용하였고, 두값의적절한융합지수로 F- measure값을이용하였다. 이값은정확율과재현율이서로상반관계 (trade-off) 이기때문에한쪽을높이면한쪽이내려가는특성을고려하여 β값을이용해어떤척도에비중을둘지를결정하는데활용한다. 재난발생이슈탐지의경우에정확한패턴을검색하는재현율과정답패턴을검색하는정확율이모두필요하다. 그러므로본실험에서는 β값을 0.5로고정하여두지수의중간값을 F-measure값으로결정하였다. 실험결과, 10개재난유형을대상으로총 124개어휘패턴을추출하였으며, 1,485개의재난트윗을대상으로실험한결과어휘패턴을이용한재난발생이슈를탐지기법의우수성을검증및실제적용이가능함을확인하였다 ( 표 2). 어휘패턴을이용한재난발생이슈탐지기법의가능성은검증하였으나, 실제모니터링에적용하기위해서는다음과같은연구개발이지속적으로이루어져야한다. 첫째, 어휘표현이유사한재난판별을위해어휘를다양화하고중복성해결, 유사한재난을구별할수있는패턴이나규칙을정의하는등연구개발이필요하다. 둘째, 기존패턴에서탐지할수없었던재난발생이슈들에대해서는패턴을지속적으로추가해야하며, 재난발생이슈탐지를위해정확율과재현율의중요성을판단하고 β값을최적화하는연구가필요하다. 마지막으로실제재난관리에적용하기위해어휘패턴매칭으로재난발생이슈를탐지했다하더라도사실유무를판단하는프로세스및알고리즘개발이필요하다. 표 2 각패턴의전체실험결과 Table 2 The experiment result of Lexical pattern Disaster type Pattern type #Comparison group #Pattern Recall Precision F-measure Oil spill 6 6 0.87 1 0.93 Train accident 7 15 0.89 0.38 0.63 Collapse accident 5 8 0.94 0.83 0.88 Ship accident 4 14 0.96 0.27 0.61 Fall accident 4 15 0.94 0.08 0.51 typhoon 3 11 0.27 1 0.63 Explosion 4 22 0.67 0.56 0.61 Heavy snow 3 4 0.87 0.99 0.93 Heavy rain 4 7 0.42 0.53 0.47 Fire accident 4 22 0.84 0.52 0.63
290 정보과학회논문지 : 컴퓨팅의실제및레터제 20 권제 5 호 (2014.5) 그림 3 소셜빅데이터모니터링모델 ( 소셜빅보드 ) Fig. 3 The monitoring model of social bigdata 3. 결론및향후계획본연구에서는소셜빅데이터실시간모니터링을통해재난전조를감지하기위해재난이슈탐지모델개발을개발하였다. 재난이슈는전조이슈와발생이슈로구분하여정의하고특성에맞는이슈탐지모델을수립하였다. 전조이슈는과거트윗발생빈도를기반으로확률모델을구축하였으며판단임계치최적화를통해전조이슈탐지정확성을향상시켰다. 재난발생이슈탐지를위해, 재난유형별재난발생사실을알리는어휘패턴을구축하고탐지정확성을검증하였다. 국립재난안전연구원에서는재난이슈탐지모델중전조이슈탐지모델을적용한소셜빅데이터재난모니터링서비스를구축하고시범운영하고있다. 이서비스는스마트빅보드 2) 의구성요소로서소셜빅데이터를실시간모니터링하며재난유형별로시간대별, 지역별발생빈도는물론해당원문과실시간전조이슈를제공하고있다 ( 그림 3). 이서비스는전조이슈탐지모델최적화와어휘패턴을활용한발생이슈탐지모델적용을통해기능고도화를수행할계획이다. dy-and-geographies-of.html, http://www.floatingsheep. org/2012/10/the-urban-geographies-of-hurricane.html [2] Mapping social media related Japan earthquake [Online].Available:http://www.aljazeera.com/indepth/fea tures/2011/03/201131474027904222.html [3] Seon-Hwa Choi, Woo-Jeong Choi, Jong-Kook Lee, "Monitoring and Sensing Disaster Issues from Social Media," Proc. of the 40 th Conference of the KIPS, vol.20, no.1, pp.332-335, 2013. (in Korean) [4] Seung-Sig Kang, Morpheme Analysis and Information Retrieval, 2002. (in Korean) [5] Keong-Su Kim, Regular Expression Handbook, 2009. (in Korean) References [1] Mapping Hurricane sandy tweets [Online].Available: http://www.floatingsheep.org/2012/10/hurricane-san 2) 스마트빅보드는기존에있는기상관측감지센서뿐만아니라트윗분석을통해재난관련키워드를뽑아내고해당트윗이올라온시점과장소를지도위에실시간으로표시하는한편해당지역 CCTV 를자동연계시켜정확한재난상황을파악하는등모든정보네트워크를총체적으로가동하여재난관리에활용하는최첨단재난관리시스템이다.