특집 국가교통정책선진화를위한빅데이터활용 전세계적으로교통분야는빅데이터의다양한적용사례에서선도적인역할을하고있으며, 가장활발하게활용되고있다. 통신기술을통하여교통정보를수집하고교통서비스를제공하는 ITS분야는이미 20여년전부터구축되어왔으며, 교통정보제공시스템, 버스정보시스템, 내비게이션과같은서비스는스마트폰과함께일상화되어있다. 중앙정부는물론여러지방자치단체와기업에서교통과관련된빅데이터를활용하여새로운서비스를만들거나기존시스템을개선하려는노력또한한창이다. 이번호특집에서는교통분야에서활용하고있는빅데이터의다양한유형과함께보다활용도높은데이터를구축하기위한과제를모색해보고자한다. 특집기획 : 윤서연국토연구원책임연구원
ㅣ특집ㅣ국가교통정책선진화를위한빅데이터활용 1 교통분야의 빅데이터활용활성화방향 엄진기 한국철도기술연구원책임연구원 (jkom00@krri.re.kr) 최근사회전반에걸쳐빅데이터 (Big Data) 에대한관심이증가하면서빅데이터의활용방법및사례에대한내용들이인터넷이나매스컴을통해지속적으로발표되고있고, 데이터처리에대한다양한기술서적들이출판되고있다. 데이터를전문적으로다루고있는학자들은 빅데이터 보다는 데이터사이언스 와같은용어를선호하고있다. 그이유는과거부터이미데이터에대한연구가지속되어왔으며, 금세기인터넷, 모바일통신및컴퓨터기술의눈부신발전에의해다양한대규모데이터의실시간획득및분석처리측면에서과거에비해속도와규모가커졌을뿐데이터를바라보는관점은변함이없다는것이다. 다만빅데이터활용의성공여부는데이터간의네트워킹이큰관심사항이다. 개별데이터는자기만의색깔을가지고있으므로이들을서로연결하여과거개별데이터에서찾던독립적인가치창출에서벗어나새로운가치창출을하는것이데이터간네트워킹이필요한이유다. 그러나잘못된데이터간의네트워크는소요된비용과시간에비해쓸모없는거대한데이터쓰레기를양산할수있기때문에시행착오를최소화하여어떻게새로운가치를도출할것인가에대한고민이필요한것이다. 이러한측면에서보면 6 교통부문의빅데이터활용뿐만아니라타분야에서생성되는제 3 의빅데이터와의네트워킹은 필수적이며, 이러한네트워크를구성하기위해데이터공유에대한사회적인식의변화및제도 적장치를마련하려는움직임이필요하다. 국토제 405 호 (2015. 7)
교통부문빅데이터널리알려진바와같이빅데이터의세가지특징은 3V 로서데이터규모 (Volume), 정형및비정형데이터의다양성 (Variety), 데이터축적속도 (Velocity) 를들수있다. 최근에는데이터의가치 (Value) 및복잡성 (Complexity) 의특징이추가되어언급되고있기도하다. 데이터규모는수십에서수천테라바이트또는그이상의거대한크기를가지며, 여러가지비정형데이터를포함하고있어기존의정형화된데이터처리방식과차별화되는관리와분석이필요한데이터를의미한다 ( 정용찬 2012b). 교통분야에서주로활용하는데이터를살펴보면대중교통이용실적자료, 고속도로차량실적자료, 철도수송자료, 교통사고자료등과거부터지속적으로조사획득한자료들이주를이루고있다. 최근 GPS, 근거리무선통신등위치기반및전송기술에힘입어교통카드, 하이패스, 차량내비게이션등다양한데이터의실시간확보가가능하게되었으며, 이로인해교통부문에활용할기회가확대되고있 다. 정리하면예전부터특정필요에의해조사및활용되고있었으나 IT 및통신기술의발달로과거단기간또는소규모샘플조사에국한되었던것이전수시간의완전한형태의완성형 (completion) 자료로수집하게된것이다. 빅데이터정의에비추어보면그동안교통부문에서활용하던데이터의대부분은공공성이강한정형화된데이터로볼수있으며, 타분야의정형및비정형빅데이터와네트워킹에따라새로운가치창출을위한커다란기회로볼수있다. 그러나교통관련데이터의특성상통행주체인개인에대한정보가대부분의데이터내용에포함됨에따라 개인정보보호법 에저촉되어데이터의협조및활용에상당한제약이되고있다. 그동안교통부문데이터의소유권및저작권의성격이데이터에대한조사및관리를담당하고있는운영업체, 공공기관또는지자체에서주관이되어제한적이며소유권을가진업체, 공공기관및지자체간의협조가어려웠던것이사실이다. 교통부문데이터의협조와별개로 SNS 등비정형데이터의활용및타분야데이터와의교통데이터네트워킹문제는보다나은교통서 < 표 1> 빅데이터환경의특징 구분기존데이터환경빅데이터환경 데이터 하드웨어 소프트웨어 / 분석방법 출처 : 정용찬. 2012a. 정형화된수치자료중심 고가의저장장치 데이터베이스 (DB) 데이터웨어하우스 (DW) 관계형데이터베이스 (RDBMS) 통계패키지 (SAS, SPSS) 데이터마이닝 기계학습, Knowledge Discovery 비정형의다양한데이터 문자데이터 (SMS, 검색어 ) 영상데이터 (CCTV, 동영상 ) 위치데이터 클라우드컴퓨팅등비용효율적인장비활용 오픈소스형태의무료소프트웨어 Hadoop, NoSQL 오픈소스통계솔루션 (R) 텍스트마이닝 (text mining) 온라인버즈분석 (opinion mining) 감성분석 (sentiment analysis) 7
ㅣ특집ㅣ국가교통정책선진화를위한빅데이터활용 < 표 2> 교통부문활용가능빅데이터사례 구분데이터형태데이터단위내용보유기관 공개여부 ( 현재 ) 활용부문 교통카드 xls 건 / 일대중교통이용자 OD 운영업체및지자체비공개 대중교통이용패턴분석 택시운행 - 대도로속도, 이동동선운영업체비공개통행이동패턴분석 내비게이션 - 대차량속도, 이동동선업체및지자체비공개 자가용이용패턴분석 철도운행 pdf 편성 ( 량 )/ 회, 일 철도수송한국철도공사공개 철도이용자이동패턴분석 고속도로이용차량 xls, csv 시간, 영업지점 이용차량대수한국도로공사공개 수단간속도비교및장거리 OD 교통 DB txt, xls 링크, 지점 지역간 OD, 사회경제지표 한국교통연구원공개수단별통행량분석 주차정보 asp 면 / 개소 주차장위치, 잔여면수 지자체 공개 지점별교통환경분석 자전거이용 pdf, html km 자전거도로노선, 편의시설 지자체 공개 대중교통환승및서비스여건개선 사고자료 xls 건사고지역및원인 보험회사, 도로교통공단 일부공개 사고현황및심각도 운행기록장치 - 대차량운행패턴 - 비공개 운전패턴및교통현황 택배배송자료 - 대화물 OD 택배회사, 우체국등 비공개 물류 OD 현황 UTIS 교통정보 html 링크, 지점교통상황 경찰청중앙교통정보센터 공개 실시간교통상황 버스승 하차 xls 지점버스승 하차인원지자체공개 버스승 하차규모분석 버스위치정보조회 xml 대정류장간이동시간지자체공개 버스배차간격및속도분석 지하철역별승 하차인원 xml, xls, json 역, 시간 지하철역승 하차인원 지자체공개지하철혼잡도분석 역별혼잡도 xls, csv, json 역, 시간시간대별혼잡도지자체공개지역별혼잡도분석 출처 : 한국철도기술연구원. 2014. 8 비스창출을위해해결해야할또다른이슈다. 정부 3.0 기조에따라데이터를협조받아활용할수있는기회가마련되었으나정부가원하는새로운가치창출을위해서는데이터의협조에필요한다양한문제점을해결해야하는숙제를안고있다. 빅데이터활성화제약교통데이터활용활성화를위해서는원활한데이터협조를가장중요한요건으로꼽을수있으나근본적으로데이터협조를어렵게하는문제가발생하고있다. 교통부문의데이터가공공성격을가진다는의미 국토제 405 호 (2015. 7)
는교통시설인도로및대중교통시설이공공투자로건설되고, 데이터조사의필요성및조사내용도이러한공공교통시설에기반한내용으로서공공정책에활용되기위함이며, 정부 ( 공공기관 ) 및지자체의예산으로수행및관리 운영된다는것이다. 그러나방대한데이터의실시간자동화수집 관리에있어추가적인인프라투자가필요한상황이고, 이러한업무는공공투자에서벗어나민간부문에서투자및위탁하여수행하는경우가발생하고있다. 대중교통카드및운전자내비게이션자료등은이러한사례로볼수있으며, 교통운영자및민간사업자가데이터수집을위한인프라시스템구축 운영에대한투자를근거로해당주체가소유권 ( 또는관리권 ) 을일부가지고있다. 따라서데이터제공에있어자신들의영업권리를침해할것을우려하여제한적으로만제공하고있는실정이다. 두번째로교통데이터이용활성화에제약은대부분의데이터가개인정보에대한항목을포함하고있는부분이며, 이러한개인정보는교통정책에있어매우중요한요소임에도협조가어렵다는점이다. 또한교통데이터사업자의단말기정보, 오류처리사항등교통정보 ( 통행실태관련 ) 범위밖의운영또는영업과관련된일부항목을포함하고있으므로데이터를요구할때마다데이터수요자와제공자간이견조율에시간이소요되는문제가발생하고있다. 세번째로법 제도적측면에서데이터협조를위한내용이선언적으로만되어있어실무적으로데이터협조를위해서는번거로운절차와함께제한된데이터만협조가가능한실정이다. 데이터의원활한협조를위해서는관계기관의역할및절차가법 제도상보다구체적으로정의되어야한다. 이를통해데이터요청시관계기관 ( 공공기관및지자체 ), 교통운영업체, 데이터인프라사업자로이어지는복잡한데 이터공유체계에서도정보의시차발생을최소화할수있으므로빅데이터활용의장점을살릴수있다. 다음으로교통시설관리주체의교통시설물에대한정보와데이터인프라사업자의관리정보가서로연계되지않는경우가발생하여데이터의신뢰성을악화시키는문제점이발생하고있다. 그예로수도권대중교통통합정산의경우인프라사업자간사업적문제, 지자체-운영사간정책적상충등의원인으로통합정산담당인프라사업자로부터일괄제공받는데어려움이있다. 마지막으로각종교통데이터의협조가원활하게진행되기위해서는해당데이터를제공하기위해빅데이터의관리및데이터추출을위한전문인력및서비스에대한비용이발생하는문제가있다. 데이터관리주체가데이터서비스를위해추가적인조직과인력에대해준비되지않은경우가대부분으로데이터제공을위한추가적인업무에미온적으로대응할가능성이존재한다. 또한방대한빅데이터의분석을위해서는데이터처리를위한하드웨어및소프트웨어를활용해야하는바, 이러한전산환경이필수적이나인프라구축비용이만만치않아개인단위에서자료를분석하기어려운상황이며, 결과적으로데이터이용활성화를위한저변확대에제약요인으로작용하고있다. 빅데이터이용활성화방안 1. 공공부문데이터제공인식전환필요비단교통부문뿐만아니라모든공공부문에서는데이터공개를요청할경우수요자에게흔히어떤목적으로왜이용하려는지를먼저묻게되며, 이러한질문에제대로답변을하지못할경우데이터의협조는 9
ㅣ특집ㅣ국가교통정책선진화를위한빅데이터활용 10 어렵게된다. 빅데이터의이용활성화는분명히데이터의제공자와이용자가서로윈-윈 (win-win) 하는결과로나타날경우에활성화될수있다. 데이터의활용을통해성공적인결과물이나새로운가치를창출하기위해서는수많은노력과실패가반복될것이다. 하지만이것도데이터가있는상태에서의미있는활동이된다. 사전에특별한아이디어가없더라도데이터를보고생각할수있는기회를제공하는것은매우중요하다. 빅데이터환경에서는앞서언급한바와같이개별데이터자체의분석만으로는의미가약하며, 다양한데이터간의네트워킹에따라새로운가치가창출되므로이러한목적을달성하기위해데이터공개에있어개방된시각및인식의전환이필요하다. 수요자가어디에어떤자료가있는지그내용을모른다면새로운아이디어를기대하기어려울것이며, 데이터를쉽게접하게됨으로써다양한아이디어창출이가능할것이다. 교통부문의빅데이터이용활성화를위해서는교통부문만의자료에국한되어서는안되며, 타분야와의데이터접목이필수적이다. 예를들어, 공공부문건강보험데이터중근로자의가정및직장위치정보등은교통계획에필요한정보이나개인정보침해요인이발생할여지가있어협조가되지않고있는실정이다. SK통신량자료의경우서울시심야버스노선계획에활용된사례가있으나시간대별및일별통신량에대한스냅샷자료를제공하기때문에교통부문활용에제한적이다. 보다나은정보를위해서는개인단위통신궤적에대한내용이포함되어야하나이역시 개인정보보호법 에의해제한되어있다. 따라서교통부문의활용을위해서는공공의목적으로사용될경우개인정보암호화처리를통해이용이가능하도록전향적인인식의전환이필요하다. 또한통신회사처럼민간에서투자된 인프라에서제공되는데이터는이용을위해서별도의구매비용이수반되는것이현실이므로공공의목적을위해비용을현실화하는것이데이터이용활성화에기여할수있을것으로판단된다. 제3의데이터와교통데이터간의네트워킹을통한유의미한정보를추출하여혁신적인결과물을도출하기위해서는공공및민간데이터의오픈에인색해서는안될것이며, 다양한수요에대응하여다각적으로제공하는환경이필요하다. 2. 빅데이터제공을위한데이터제공표준화교통부문빅데이터의이용활성화를위해서는먼저교통관련유관기관및지자체, 교통운영업체, 데이터인프라업체등데이터조사및관리에관여하고있는모든기관이공유가능한데이터의목록과수준을결정하는작업이선행되어야한다. 데이터의목록과수준의결정은사용자의수요조사를통해적절한수준으로공개내용을조율할필요가있으며, 특히개인정보보호와관련하여법의테두리안에서최대한이용자의특성별통행양식을분석할수있는수준으로제공범위가정리될필요가있다. 이러한공공데이터의활용을촉진하기위해관련법률의개정을통해공공이용제도의시행및활성화를제도적으로뒷받침하는것이필요하다. 정부및지방자치단체, 교통사업자, 데이터사업자등민 관의데이터전문가로협의체를구성하여데이터의공개방침결정과데이터의내용및표출형식에대해세부적으로논의하여표준화할필요가있다. 공개데이터의수준, 범위, 내용의표준화는신속한데이터의추출과제공에필수적인사항으로서시간적으로유의미한데이터의활용을가능하게할수있으므로현재와같이수개월이 국토제 405 호 (2015. 7)
걸리는데이터협조과정에서발생하는시간적정보의가치손실을막을수있다. 데이터의효율적인관리및제공을위해서는일부교통부문데이터를통합적으로관리할수있는정보시스템구축이필요하다. 전국적으로데이터관리운영주체가다르고이 부는기업이데이터로부터가치를창출할수있도록제도적으로뒷받침해야하며, 통신네트워크및분석방법론등의다양한영역에서 R&D를가속화하여빅데이터이용활성화의토대를마련하는것이필요하다. 들데이터를통합적으로관리하지못할경우데이터의신속한제공및활용이제한적일수밖에없다. 통합적관리시스템은산재된데이터의수집주기단축으로실시간교통정보제공을위해설계하는것이필요하다. 3. 빅데이터의활용능력및환경 교통부문빅데이터의이용활성화를위해서는데이터관리주체로부터데이터가제공되었을경우이용자측면에서충분한전산환경과분석능력이구비되어있는지가관건이다. 데이터를공개하고있지만이러한준비가안되어있다는이유로활용도가낮다면공공정보의공개의미가퇴색될수있기때문이다. 이러한이유로데이터이용자의편의를고려한 Open API와같은슬림화된서비스제공을독려해야한다. 이용자의직접참여를유도하며데이터를활용한서비스개발 ( 애플리케이션등 ) 을활성화하는등선순환구조를마련하는것이하나의방법이될수있다. 또한다양한종류의빅데이터간네트워킹을구현하고분석하기위해서는필요한전산인프라및데이터마이닝기술등이필요하다. 빅데이터를활용하기위해서는관련전산인프라와인력수급이원활히되어야가능하므로전문인력의양성이필요하며, 이러한차원에서공공부문에서선제적으로투자하여빅데이터가신가치창출에기여할수있는지에대한신뢰를민간에게심어주어민간에서도빅데이터산업에투자할수있도록자연스럽게유도하는것이필요하다. 정 참고문헌 ----- 매일경제기획팀, 서울대빅데이터센터. 2014. 빅데이터세상. 서울 : 매 일경제신문사. 성지은, 박기량. 2014. 빅데이터를활용한정책사례분석과시사점. 과학 기술정책 24 권, 2 호 : 94-106. 윤미영. 2013. 주요국의빅데이터추진전략분석및시사점. 과학기술정 책 23 권, 3 호 : 31-43. 이석주. 2012. 교통부문에서의빅데이터현황및활용. 고양 : 한국교통연 구원. 정용찬. 2012a. 빅데이터혁명과미디어정책이슈. KISDI Premium Report 12-02. 진천 : 정보통신정책연구원.. 2012b. 빅데이터, 빅브라더. KISDI 전문가컬럼. 진천 : 정보통신정 책연구원. 한경록. 2013. 광주공공데이터활용전략과데이터산업활성화방안. 광 주 : 광주발전연구원. 한국정보화진흥원빅데이터전략연구센터. 2013. 더나은미래를위한데 이터분석 : Big Data 글로벌선진사례 II. 서울 : 한국정보화진흥원. 한국철도기술연구원. 2014. 한국철도기술연구원내부자료. 의왕 : 한국철 도기술연구원. 함유근, 채승병. 2012. 빅데이터, 경영을바꾸다, 서울 : 삼성경제연구소. 11