빅데이터의이해와주요이슈들 Ⅰ. 서론 최근정보통신기술의일상화가이루어지면서하드웨어, 소프트웨어에이어데이터가정보화사회의새로운핵심기술로등장하고있다. 이는과거하드웨어에서소프트웨어, 그리고데이터로관심영역이점차확대되고있다는것을의미한다. 이러한데이터로의관심영역의중심에는빅데이터가포함되어있어서많은이들과영역에서이슈가되고있다. 이러한빅데이터로의발전은정보사회의패러다임을견인할정도의큰힘을발취하고있음은누구도부인하기어렵다. 스마트단말기확산, SNS 활성화, 클라우드, M2M(Machine to Machine) 네트워크의확산으로데이터폭발이더욱가속화되어빅데이터의기반이확대되고있다. 따라서향후 5년이내빅데이터를위한고급분석등관련기술은성숙될것으로전망하고있다 ( 한국정보화진흥원, 2011). 이미알려진바와같이우리나라전자정부는 2010, 2012년연속세계 1위를차지하고있으며 2014년에도 1위달성이무난한것으로전망하고있다 ( 행정안전부, 2012). 이와더불어
전자지방정부도같은맥락속에서추진되고있다. 특히전자지방정부에서는지역정보화를발전시키기위한수단으로여러정보화시스템들이개발되어추진하고있어서지방정부운영차원에서데이터에근거한행정을기대하고있으나실제로는이러한필요성에비해적당한데이터나방법이적시에제시되지못하는경향이있다. 이미지역정보화를추진하는주체들인공공과민간영역에서많은양의유형, 무형의데이터가잘인식하지못하는사이에생성되고소멸되기도하지만, 공공과민간의융합에따른모델창조를통한전자지방정부의구현을통한활성화가필요하다. 따라서본논문에서는빅데이터와관련된논쟁적인이슈에대한정리와지역정보화차원에서연구시고려해야할이슈등에대한논의를통해지역정보화를추진하는데있어서의대응방안및시사점등을모색해보고자한다. 전자지방정부와지역정보화의개념상유사점과차이점에대해서는여러논란이있으나 ( 서진완, 2004), 본논문에서는빅데이터를지역정보화에활용함으로써전자지방정부의운영관점에서시사점과대응방안을논의하고자하는것이므로두가지개념을같은개념으로정의하여사용하고자한다. 본논문의구성은다음과같다. II장에서는전자정부및스마트사회의변화에따라필수적으로등장하는빅데이터이슈및빅데이터의개념적 이론적이슈를정리하고, III장에서는빅데이터도입과관련된여러논쟁들에대해살펴보고, IV장에서는빅데이터가지역정보화발전에가지는시사점과이슈들및이에대한대응방안을논의하고자한다. 마지막으로 V 장에서는향후지역정보화차원에서빅데이터연구시고려할만한사항들에대해제시하고자한다. Ⅱ. 빅데이터와관련된등장배경, 개념적, 이론적이슈 인터넷이일상화된지 10 여년이지난지금디지털데이터가양적으로증대하고있어서전 세계데이터에생성될디지털정보량이 2011 년 1.8 제타바이트 1) (zetta bytes) 의데이터가
2015년에는 7.9 제타바이트로증가할것이며, 2020년에는 50배급증하게되어 10배많은서버가필요할것이라고전망되고있어서, 기존의데이터관계된기술로는감당할수없는규모로성장하게될것이므로향후 5년이내빅데이터를위한고급분석등관련기술이예상되고있다 ( 한국정보화진흥원, 2010; 정보통신산업진흥원, 2011). 빅데이터를포함하는웹문서의개수를구글검색결과로부터연도별추이로표현하면, < 그림 1(a)> 에서와같이 2012년에생성된빅데이터관련웹문서가 2011년에생성된빅데이터관련웹문서의두배가넘고있다 ( 양혜영, 2012). < 그림 1(b)> 에서와같이구글트랜드 2) 검색기준으로빅데이터에대한검색결과, 2010년까지는특별한변화를보이지않다가 2011 년부터증가하기시작하여특히 2012년에빅데이터에대한검색이급증하였으며 2013년에 5 월달에최대검색만족도인 100% 에달하고이후 8월에약간낮아졌으나최대치를기록하고있음을알수있다. (a) 빅데이터를포함하는연도별웹문서의개수 (b) 빅데이터검색빈도의시계열적변화 2013 년 8 월 15 일기준으로 < 그림 2> 는구글트랜드에서의빅데이터에대한지역별관심 도를나타낸것으로국가별로는인도, 대한민국, 싱가포르순으로높게나타났다 3). 구글트렌 드에서는 2013 년 8 월 15 일현재이슈가되는빅데이터관심용어를보면 < 그림 3> 과같이빅 데이터분석가 (data analytics) 관련용어에대해관심이매우높은것으로나타나고있다. 데이 터의유형또한 < 그림 4> 와같이매우다양하게변화하고있어서이러한비정형정보들이향 1) 1.8 제타바이트는우리나라모든사람들이 17 만 847 년동안쉬지않고매분마다트윗글 3 개를게시할경우생성되는양이다. 2) < 그림 1> < 그림 2> < 그림 3> < 그림 5> 의출처 :(http://www.google.co.kr/trends) 3) 지역별로는인도지역 (Bangalo, 하이데라바드, 첸나이 ) 이가장높고, 다음으로서울이높은것으로나타났다.
후 10 년동안생성되는전체데이터의약 90% 에달할것이라전망하고있다 ( 양혜영, 2012). 분야별빅데이터를전망하면, 다음 < 그림 5> 와같이비디오, 이미지, 오디오, 텍스트종류별은행, 보험회사, 정부등에서생성되는빅데이터의유형을구분한것이다. 특히정부나커뮤니케이션미디어는비디오, 오디오, 텍스트데이터가매우많고이미지데이터도많은것으로나타났다. < 그림 6> 은빅데이터를활용했을경우가치가창출될수있는예상정도는나타낸것으로동그라미크기가클수록예상정도가높다는것을나타낸것인데, 여기서정부는예상정도가매우높게나타남을알수있다.
많은기관들에서빅데이터를정의하였는데특징을정리하면 < 표 1> 과같다. 기관구분 빅데이터정의및특징 가치를얻기위한데이터와무엇을할것인지아는사람이기업에게필요 하다는것을의미있는기술 포레스트 볼륨, 속도, 다양함, 다양성으로현재의기술로감당어려운규모의데이터 경제적가치를창출하는데이터 SERI 거대한데이터집합으로대규모데이터와관련된기술및도구포함 3V로정의 : Volume, Variety, Complexity Volume : 데이터규모가엄청남을의미 가트너 Variety : 로그기록, 소셜, 위치정보등데이터의종류가증가로텍스트외멀티미디어등비정형화된데이터의유형이다양화되는것의미 Complexity : 구조화되지않은데이터, 데이터저장방식의차이, 중복성문제등데이터종류가확대되고외부데이터의활용등으로관리대상이증가됨으로써점차적으로데이터관리및처리가복잡화되고심화되어새로운처리및관리기법이요구되는상황을의미 4V로정의 : Volume, Variety, Velocity, Value Volume, Variety는가트너정의와동일 SAS Velocity : 센서나모니터링등사물정보, 스트리밍정보등실시간성정보가증가하고있고, 이러한실시간성으로인한데이터생성, 이동과유통의속도가증가하고있으며대규모데이터처리및가치있는실시간성정보활용을위해데이터처리및분석속도가매우중요하게되었음을의미 Value : 새로운가치를창출하는것을의미 노무라연구소 빅데이터를처리할수있는인재 조직, 데이터처리 축적 분석기술, 데이터자원등을빅데이터의 3요소로정의 3요소의조화로운발전이데이터의특성과컴퓨팅파워의발달에따라실생활적용이빠르게확산될것으로전망 정형과비정형은다음 < 그림 7> 과같이 DB 스키마라는표준방식으로정의하느냐일반적인파일시스템형태로유지하느냐의차이로구분된다. 비정형으로유지하는이유는데이터의저장이중요하지않으나단순한경향파악이주요이유일경우에해당되며, 이경우일정시간경과후소멸된다. 수많은데이터를저장기술을통해저장할필요가없거나너무생성속도가빨라서저장기술이생성속도를따라갈수없을경우는비정형데이터로유지될수밖에없다. 그러나저장기술이생성속도를능가하는시점이도래하여서도빅데이터의저장여부가이슈가되는데이것은데이터의필요성문제에관한것으로볼수있다.
이와같이빅데이터는 IT의흐름이하드웨어, 소프트웨어에이어데이터로이동하기시작하는정보형태의변화, 정보관리및기대치의변화에원인이있으며, 단순분석보다는데이터의의미와가치에더많은관심을가지기시작하면서발전하기시작하였음을알수있다 ( 한국정보화진흥원, 2013; 한국정보화진흥원, 2012b). 윤상오는빅데이터의장점뿐아니라위험요인에대한유형분류를제시하였으나 ( 윤상오, 2013), 정보화는위험요인에대한인식과이에대한대처방안이함께개발되면서더나은방향으로발전할수있을것이다. 정보화사회는매우급변하게변화하고있고과거시스템중심에서사람중심으로변화되고있으며, 소셜네트워크의파워가매우증가하고있다. 이러한시대에빅데이터는미래사회의특성인불확실성, 리스크, 스마트, 융합등미래사회의특성에대응하는역할을수행하며기회요인을창출하는핵심엔진으로작용하고있다 ( 정보통신산업진흥원, 2011; 한국정보화진흥원, 2012a; 한국정보화진흥원, 2012b; 한국정보화진흥원, 2012c). 먼저불확실성에대한빅데이터의역할은통찰력을제공하는데있는데, 주로사회현상과현실세계의데이터를기반으로한패턴분석과미래전망을제공하고있고, 여러가지가능성
에대한시나리오시뮬레이션과다각적인상황이고려된통찰력을제시하고있으며다수의시나리오로상황변화에유연하게대처하게한다. 두번째특징인리스크에대해서는대응력을제공하고있다. 빅데이터는환경, 소셜, 모니터링정보의패턴분석을통한위험징후, 이상신호를포착하고이슈를사전에인지하여분석하고빠른의사결정과실시간대응지원을하고있으며기업과국가경영의투명성을제고하여낭비요소를절감하게한다 ( 권대석, 2012). 세번째특징인스마트에대해서는경쟁력을제공하고있다. 주로대규모데이터분석을통한상황인지, 인공지능서비스등이가능하도록하고있으며트랜드변화분석을통한제품경쟁력을확보할수있도록한다. 네번째특징인융합에대해서는창조력을제공하며, 인과관계및상관관계가복잡한컨버전스분야의데이터분석으로안정성을향상시키고시행착오를최소화할수있도록하며, 방대한데이터활용을통한새로운융합시장창출이가능하도록한다. Gartner는 2011년이머징기술 hype cycle에서빅데이터를새롭게포함시키고앞으로주목해야할기술로서빅데이터를기술발생단계 (technology trigger) 로분류하여전망하였다 ( 한국정보화진흥원, 2012a; 한국정보화진흥원, 2012c). 그러나빅데이터플랫폼은특성상매우복잡하기때문에 NP-hard(Nondeterministic Polynomial-hard) 문제로볼수있다. NP-hard는특별히다항식으로식을세울수없는어려운문제들의집합이므로, 근사추론에의해일일이답을대입해야만정답을유추해야하는부류의문제들이므로, NP-hard 문제에대한해결책으로휴리스틱접근방법인인공지능기술이대두되고있다. 빅데이터플랫폼에인공지능기술 ( 한국정보화진흥원, 2010; 한국정보화진흥원, 2012c; 조영임, 2012) 이접목되면, 센싱정보로부터학습, 추론, 인지등의기본적인공지능과정을통해분석결과를해석하고의사결정할수있는지능을가진인간과유사한시스템을구축할수있는것이다. (1) Human-like 빅데이터플랫폼 인간과유사한 human-like 기능의빅데이터플랫폼은 < 그림 8> 과같이제시할수있다.
즉, 빅데이터처리인프라에기반하여데이터수집및통합에서데이터전처리단계를거쳐데이터저장및관리기술로이어지고데이터분석및데이터분석가시화단계로구성된다. Human-like 빅데이터플랫폼이라고명명하는이유는 5단계의각기술들에서인간의지능을구현할기술들이적용되고연구되기때문이다. 1 데이터수집 / 통합단계데이터수집및통합단계에서는새로운데이터생성, 네트워크에산재해있는외부데이터수집, 내외부이종데이터통합등데이터의형태와소재에무관하게데이터를확보하는기술들을말한다. 과거기술적가능성, 분석성능의미비, 분석결과의타당성등을이유로등한시했던데이터들을빅데이터로명명하고이를분석하면서통계분석기법, 인공지능적기법, machine learning 기법들을총체적으로적용하면서연관성을찾아기업의경쟁력강화, 기업의수익, 소비자성향파악에주력해아한다. 따라서수집로봇, 데이터가상화, logging station 등의기술이데이터수집및통합단계에서사용되는기술들로, 전처리단계로진입하기전에다양한원천의데이터를확보하는일이첫번째로수행되는기술들이필요하다.
2 데이터전처리단계데이터전처리단계에서는첫번째단계에서수집된정보들에서센싱정보, SNS 등지속적으로발생하는비정형스트림데이터를정제하여분석가능한형태로구조화하여분석의정확성을높이고심층분석을가능하게하는기술들을말한다. 데이터통합, 익명화, 정제, 검색, 인증및 ETL(Extraction, Transformation, Loading) 기술의개발을통해다음단계로의진입을원활하게해야한다. 정보검색기술의목표는 내가원하는것을놓치지않고편한하고빠르게검색하는것 이며, 정보검색의요구사항을해결하기위한관련된기술로는인공지능적기법, 자연어처리, 쿼리프로세싱, 재현율 / 정확율평가방법과컴퓨터네트워크가반드시지원되어야한다 ( 조영임, 2013;Christoper D. 외, 2009). 빅데이터플랫폼의두번째단계인전처리단계의정확성여부가정보검색의방향을결정한다고해도과언이아니므로수집한결과를잘분류하여분석이가능한형태로만드는것이매우중요한기술이된다. 정보검색에서문헌을 라고하고색인어 와의연관정도라하면, 문헌 에서색인어 와의연관도를구하는함수는 에의해, 값이높을수록연관성이높아서검색순위가높게나타날것이다. 재현율 (recall) 과정확율 (precision) 는검색척도를나타내는개념으로일반적인데, 두번째단계의전처리기술의정도에따라이비율이달라지게되어정보검색의효과에영향을미치게되므로중요하다. 3 데이터저장 / 관리단계데이터저장및관리기술은웹데이터, 소셜미디어, 비즈니스데이터, 센싱정보등의증가하는다양한형식의데이터를실시간으로저장및관리할수있는분산컴퓨팅기술을말하는것으로, 빅데이터플랫폼의핵심기술을말한다. 빅데이터저장기술인 NoSQL(Not Only SQL) 은 RDB(Relational DB) 를넘는빅데이터저장을위한새로운 DB개념으로다양한형태의인터페이스를제공하고있으며비표준화상태이고종류로는 MongoDB, Cassandra, Hbase 등이있다. 따라서앞서언급한빅데이터저장의필요성과저장기술과의상관관계에대해서는세번째단계에서의연구에따라또한여러가지현상적필요성에따라선택할수있을것이다.
최근많이사용되는하둡 (Hadoop : High-Availability Distributed Object-Oriented Platform, http://hadoop.apache.org) 은데이터관리단계에해당되는기술로서, 오픈소스이며 다음에설명하는여러장점들로인해많이응용되고있다. 4 데이터분석기술데이터분석기술은빅데이터에내재된가치를추출하기위해필요한대규모통계처리, 데이터마이닝, 그래프마이닝등의분석기술, machine learning, artificial intelligence기술을활용한다양한심층분석기술로서, 빅데이터플랫폼의핵심중의핵심기술이다. 이단계의다양한기술들의개발정도가 human-like 플랫폼을구축하는브레인의지능정도에해당되므로이들의개발정도와플랫폼의지능수준은비례관계를갖는다. 최근이러한이유로인해데이터분석가양성의필요성이대두되고있다 ( 한국정보화진흥원, 2015d). 구조화되지않은대규모데이터속에서숨겨진정보를찾아내는데이터분석가는스마트시대에최고의인재를말하며, 데이터를관리하고분석할수있는인력의중요성이높아지고있다. < 그림 3> 의빅데이터관심용어에도데이터분석가가상위에랭킹하고있어서이분야의인력양성이중요함을알수있다. 5 데이터분석가시화기술데이터분석가시화기술은비전문가가데이터분석을수행할수있는환경을제공하는분석도구기술과분석결과를함축적으로표시하고직관적인정보를제공하는인포그래픽스기술을말한다. 빅쿼리 는 2011년 11월구글의빅데이터분석솔루션플랫폼으로, 오픈소스데이터분석툴인하둡을활용해신속히분석하여시각화할수있는기술이다. (2) 빅데이터플랫폼사례최근빅데이터플랫폼툴로는 WEKA 4) 빅데이터분석툴과 IBM의 InfoSphere 등이많이사용되고있으나 WEKA는자바기반의 machine learning, 데이터마이닝소프트웨어로데이터분석에쉽게사용할수있다. 예를들면, 날씨와운동과의관계를알고싶을경우, 날씨에관련된데이터는날씨에따라 4) http://www.cs.waikato.ac.nz/ml/weka/index.html. 무료버전이며사용법이쉽기때문에지방정부등에서빅데이터분석을위해엑셀자료가쉽게변환되므로유의미한결과를도출할수있을것이다.
play 여부를기록한데이터즉날씨의어떠함에따라운동경기를했는지, 안했는지의과거정보들을기록해둔데이터를분석하면어떤날씨조건에서운동을하는것이좋은가에대한유용한지식을얻을수있다. < 그림 9(a)> 는 outlook( 조망 ) 과 play 관계를나타낸그림으로, 파랑색은 play 속성이 Yes 값을갖는경우이고, 빨강색은 play 속성이 No 값을갖는경우를구분한것이다. 따라서 Outlook이 Sunny( 맑음 ) 인경우는안하는경우가약간많고, Overcast( 흐림 ) 인경우 100% 운동을하고, Rainy( 비옴 ) 인경우도경기하는비율이약간높음을볼수있다. < 그림 9(b)> 는 temperature와 play와의관계를나타낸그림으로, 온도에따라서는크게비율의차이가없는것으로나타낸그림이다. 이와같은과정을반복함으로써 < 그림 9(c)> 와같은의사결정트리를얻을수있으며, 이로부터운동경기 (play) 에영향을주는속성은조망 (outlook), 습도 (humidity), 풍량 (windy) (a) Outlook 과 play 관계 (b) Temperature 와 play 관계 (c) 운동경기와조망, 습도, 풍량관계분석결과
으로분석되는데, 가장중요한속성은조망으로분석된다는것을알수있다. 앞으로빅데이터플랫폼을지능화하여융통성있게개발함으로써인공지능과빅데이터가상호시너지효과를발휘할수있도록하고결과물의신뢰성을향상시켜야한다. 기존고객관리나자료관리나검색기술의단순확장및적용이아니라창의적활동이포함되는 human-like 플랫폼개발이필수적이기때문이다. Ⅲ. 빅데이터도입과관련된논쟁 빅데이터도입과관련되어서는우리정부도지난몇년간정부의데이터가중요한가치창출의기반임을인지하고공공데이터공개 개방을지속적으로추진하였다. 이러한기반마련과함께 < 표 2> 와같이지난 2011년 10월에는적극적인빅데이터활용을통한정부혁신과국가경쟁력제고를위해대통령직속의국가정보화전략위원회에서 빅데이터를활용한스마트정부구현방안 을마련하였다. 빅데이터를활용한스마트정부구현방안 에서는공공데이터를활용하여범부처간, 정부 민간융합지식을도출하고국내외경제 사회 질병등에대한실시간분석 대응으로고품질서비스국가를실현한다는것을목표로빅데이터추진역량강화및핵심기반확보를위한과제를제안하고있다. 이에안전행정부 ( 구행정안전부 ) 는이를구체화한 스마트정부구현을위한빅데이터마스터플랜 을수립하였다. 정부차원의빅데이터활용방안외에방송통신위원회에서는 빅데이터서비스활성화방안 을마련하여민간의빅데이터활용을촉진하기위한계획을발표하였다. 빅데이터활용을통해기업과국가의경쟁력을강화하고, 사회현안해결과스마트라이프구현이가능해질것이라는기대로 7대과제를제시한바있다 ( 한국정보화진흥원, 2012). 최근박근혜정부에서는정부3.0을발표하였는데, 정부데이터를공개하고부처간정보칸막이를없애는정보행정의대혁신을의미하는것으로, 정부3.0의키워드는선제적정보공개를통한개방, 공유, 소통이핵심가치이다 ( 관계부처합동, 2013). 정부3.0의 3대전략중 일잘하는유능한정부 에는 4개의중점과제들이있는데이중하나가 빅데이터를활용한과학
추진과제 범정부적데이터연계 분석체계구축 정부 민간데이터융합추진 공공데이터진단체계구축 법 제도개선 분석인력양성및재교육 개인정보익명성보정체계확립 기술개발 과제별주요내용 기존행정정보공동이용센터등을확대하여부처및공공기관의정보를지속적으로연계 수집할수있는체계수립예측기반의국정운영혁신을위한국가전방의데이터수집 분석체계마련 소셜미디어, 포털데이터등과같은민간데이터와공공데이터의연계 활용을위한체계및기술확립산 학등이보유한각종정보를범국가적으로연계 수집할수있도록저장소구축 운영공공데이터의단계적개방으로민간의가치창출및기업활동강화지원민간기업의공공데이터접근에따른데이터라이센스규약을신설하여데이터활용의공익성을확보 공공데이터의효율적관리를위한범정부적 MDM체계구축MDM(Master Data Management): 다수의시스템에서활용되고중앙에서통제관리되어야하는표준참조데이터범부처데이터공동관리를위한품질관리기준및체계마련 범국가적빅데이터활용추진기본계획수립및관련법령개정 공공부문빅데이터분석서비스활용촉진방안및성과관리체계확립 빅데이터시대신수요에대응한빅데이터분석전문인력양성빅데이터활용역량강화를위한다양한재교육프로그램제공 안전하고신뢰할수있는공공데이터공개및활용을위해개인정보와프라이버시보호관련기본원칙을체계화데이터의안전한공유와유통을위한강화된보안대책수립데이터의개방 공유 활용에따른정부공공데이터활용가이드라인마련 빅데이터관련인프라기술개발빅데이터운영 분석기술개발 ( 출처 : 국가정보화전략위원회, 빅데이터를활용한스마트정부구현 ( 안 ), 2011) 행정의실현 으로중요한개념이되고있다. 해외에서는 < 표 3> 과같이영국이 2012년현재 Linked Data 형태로 8,400개의데이터세트를제공하고있으며향후의료, 교육, 세금, 고용, 기상및지리정보등에대해순차적으로공개를확대할예정이다 ( 한국정보화진흥원, 2012).
(a) 공개데이터목록 구분 공개내용및데이터 최초공개일 업데이트 고등교육데이터 학생들의고등교육진학시고려사항 2012.9 매년 기업등록소데이터 기업명, 기업수, 등록주소, 분류상태및원문코드무료다운로드 2012.7 매년 국립지리원데이터 국립지리원의오픈데이터, 국립자연탐방로데이터세트 2013.4 계속 구분의료정보세금및자금정보 고용정보 (b) 향후공개대상데이터내용및공개목적 공개내용및데이터일반의료진의실적정보를공개하여환자들이병원간환자치료및생존률비교가능시민사회프로그램의정보를공개하여보조금및세금지원여부를확인할수있도록하여투명성증대노동연금부의워크프로그램및고용유지지원금의정보를공개하여일자리창출을위한정보제공 우리정부의빅데이터는이명박정부에서이슈가되어최근박근혜정부에서활성화되기에이르렀으며, 빅데이터도입과관련되어서는기술적개념적이슈등이구체적으로실현됨으로써빅데이터기술이나응용이가시화되고실생활에접목이되어야진정한가치가있을것이다. 빅데이터와관련되어서는최근여러가지측면에서논쟁이제시되고있으나본장에서는빅데이터도입과관련된주요논쟁관점및이를바탕으로다음장에서는지방정부에서지역정보화차원에서빅데이터시대준비해야할이슈와사항들에대해논의하고자한다. 빅데이터도입과관련된첫번째가장큰이슈로는기술적이슈인빅데이터플랫폼에대한것이다. 이미많은연구자들이빅데이터의플랫폼에대한필요성을제시하고있고관련기술들과응용사례들이제시되고있으나구체적인스마트사회에적합한인간과유사한 human-like 플랫폼분석틀이제시되지는않는상황이다. 빅데이터플랫폼은민간보다는공공분야에서공공분야정보의공유를위해더필요하다 ( 한국정보화진흥원, 2012d; 관계부처합동, 2013). 최근정부3.0에서는빅데이터는이러한플랫폼을통한데이터개방을필요로하고있다. 미국은이미데이터생성부터공개까지효율적
인플랫폼과관리체계가구축되어가장활발한데이터공개를하고있다. 미국은원천데이터를제공하는서비스형태가 sheet, chart, map, apps, open API이며, 통계와지리정보데이터를제공하고있고, link와다운로드가가능한데이터파일을공개하고있다. 영국은미국에비해상대적으로정보공개현황의수준이미흡하나원천데이터를중심으로데이터를공개하고있는점이차이점이나미국과마찬가지로데이터를다운로드할수있는데이터파일형태로제공하고있다. 호주도다운로드할수있는데이터파일형태로제공하고있다. 그러나우리나라는원천데이터의공개는이루어지지않고있으며 open API 형태로가공된프로그램만을제공하고있으므로개발된데이터의양이절대적으로부족하고, 공개를위한자원소모가상대적으로크며이로인해공공정보의활용율이매우낮다. 따라서공공정보의활용율을높이고빅데이터의효율적분석과활용성을위한플랫폼의기본구조와기능들에대한연구가필요하다. 따라서빅데이터의역할이성공을거두려면공공과민간부문이통합된데이터분석을위한플랫폼개발이필요하며, 다학제적이해와통합적사고와직관력을갖춘데이터분석가의양성이필요하고, 개인프라이버시를위한기법의도입과데이터자원의결합과협력촉진을위한신뢰기반형성이필요하다. 두번째빅데이터기술적이슈로정보보안을들수있다. 정보보안은빅데이터도입이전에도정보시스템에서자주이슈화되는문제이기도하다. 기존에도해결하지못한보안문제를빅데이터도입후엄청난양의데이터를어떻게보안유지를할수있을지가여전히큰문제이다. 클라우드컴퓨팅환경과마찬가지로기업데이터및경영전략에대한보안우려가빅데이터에서도역시화두이다. 정보보안은개인정보보호와시스템보안으로구분할수있다. 따라서빅데이터에서의정보보안은시스템보안뿐아니라개인정보보호차원에서철저한연구가이루어져야한다. 만약공공이든민간이든빅데이터사용할경우개인정보보호가제대로이루어지지않으면심각한문제를발생하기때문이다. 빅데이터는개인정보뿐만아니라위치 의료기록 대출정보등이담겨있기때문에해킹으로인해정보가유출될경우피해가더욱커질수있다. 방대한데이터수집과분석, 활용이기업의경쟁력으로연결되기때문에개인정보를노린범죄가더발생할수있다. 실제로개인정보나 SNS 정보, 온라인결제및 GPS 정보, 블로그등을분석
하면얼마든지범죄에악용될수도있기때문이다. 그러나이러한비정형데이터의유형이전체데이터의 90% 를차지하고있는시점에서빅데이터의활용은매우중요한이슈가되고있으므로정보화의역기능에해당되는정보보안문제를최소화하는방안을마련하는것이필수적이다. 즉데이터암호화, 본인확인기관검증, 모니터링강화등빅데이터시대에맞는보안체계를만들어야한다. 이미정부3.0에서는공공정보개방 공유및개인맞춤형서비스확대에따른개인정보침해요소에대한선제적보호조치강화및안전한활용기반을마련함으로써정부3.0 추진기반을마련하고개인정보보호안심사회를구현하기위해준비중이나빅데이터시대에맞는보안체계의수립이필요하다. 빅데이터시대정보보안은이러한기술적이슈뿐아니라, 빅데이터플랫폼첫단계인데이터수집단계에서의정보수집과이용과정의투명성과정보주체의명확성을확립해야하는것도중요하다. 특히빅데이터가범죄등에악용되지않도록법과제도를통해철저하게관리해야한다. 세번째이슈로는정보보안과같은맥락이나개인사생활침해문제를들수있다. 스마트시대사용자들입장에서보면개인사생활침해문제를가장심각하게받아들이고있다. 개인정보가자신도모르는사이에노출되므로공공이나민간입장에서는정보보안이나해킹을염려하였지만, 개인입장에서는사생활침해문제가가장심각하므로개인의사생활이보호되는제도적기술적개발이필수적으로마련되어야한다. 네번째이슈로는빅데이터플랫폼의단계별로이슈화되는문제에서도제시하였듯이어떠한정보의수집을통해어떠한형태로빅데이터정보가가공되어제공하느냐문제와어느범위까지제공할수있느냐즉, 정보의범위 (coverage) 와정보의깊이 (depth) 관계를고려해야한다. 실제로공공이나민간등빅데이터를활용하려는기관에서필요로하는데이터를적시에제공하기란쉽지않다. 이문제역시앞서설명한 NP-hard에속하는문제이다. 따라서학습과추론을통한지능형시스템개발을통해해답을제안해나가야한다.
Ⅳ. 빅데이터의지역정보화발전을위한시사점및대응방안 최근안전행정부는지식행정활성화를위해정보를공유하고, 협업을장려하는것을주요내용으로한지식행정도입으로부처간칸막이를낮추려는노력을하고있으며, 정부가보유한공공정보의개방과공유를확대하고부처간칸막이를없애며중앙과지방, 정부와국민간소통과협업을통해국가현안을해결할수있는시스템을정착하기위해노력중이다. 정부3.0의취지가아니더라도공공정보와민간정보의융합을통한정보공유체제를갖추어서활용가치를높여야하는것은최근빅데이터추세에부합하는일일것이며, 가치를추구하는개방형스마트정부에서마땅히해야할일일것이다. 따라서공공과민간의정보공유는향후정보화시대에추진되어야할필수적사항이되고있다. 따라서지방정부에서는지역정보화를통해빅데이터실현을위해노력해야할것이다. 서울시와인천시의경우몇가지계획을발표함으로써지방정부의빅데이터실현에앞장서고있어서사례를제시하고자한다. 먼저서울시의경우 5) 공공과민간분야의빅데이터공유를통한새로운서비스발굴을위해, 2013년 4월이동통신기지국통화량분석을통해인구가밀집된지역을중심으로심야시간버스노선이증설할계획을수립하고 KT와공공서비스개선협약을체결하였으며향후공공과민간의데이터를활용해공공서비스발굴에노력할계획이라고한다. 우선통신빅데이터정보와공공교통데이터를분석해심야버스노선을효율적으로배치하게되는데, 이로인해교통약자의안전귀가를도모하고상대적으로소득이낮은심야경제활동인구의교통비를절감할수있을것이다. 서울시의사례는공공과민간과의빅데이터융합, 분석결과를시정책에반영하는최초의사례가될것이며, 앞으로도공공분야빅데이터의주체로시민에게보다유용한공공데이터를개방하는것이정부3.0의취지는물론빅데이터의활용추세에맞는일일것이다. 최근인천시등에서도교통에빅데이터를이용하려는계획 6) 을발표하는등공공과민간분야의융합을통한빅데이터활용이가속화될것으로보인다. 그러나지방정부에서활용된사례들을보면, III장에서빅데이터도입과관련되어주요쟁 5) http://www.seoul.go.kr/main/index.html 6) http://article.joinsmsn.com/news/article/article.asp?total_id=10465948&ctg=1213
점으로논의된플랫폼, 정보보안, 개인사생활침대, 정보의깊이와범위등에서구체적인안이제시되지않고있으며단순한응용에그치는경향이있다. 결론적으로빅데이터는국가는물론지역정보화의발전에중요한역할을하고있음에도불구하고아직까지지방정부에서는빅데이터에대한이해와활용성에대한분석이나연구가다소낮은것으로보인다. 따라서이를해결하기위한몇가지시사점과대응방안을제시하면다음과같다. 첫째, 지방정부에서빅데이터를활용하여지역정보화를달성하려면공공과민간의융합영역의창조가필수적이다. 이는이미앞의서울시와인천시의경우를통해서제시한바와같다. 정보공유차원에서빅데이터를통한공공과민간융합모델의창조와이를통한새로운데이터나서비스모델의발굴이필요하다. 단순한정보의제공은또다른문제를야기시킬수있으므로다양한형태의공공민간융합모델에관해참여하는범위와제공되는정보의양, 활용처, 주요대상등면밀한분석을통한융합모델이제시되어야한다. 둘째, 지역정보화관점에서민간분야의공공화가필요하다. 즉, 그동안공공분야에서는다소미흡하였으나민간분야의전문영역이었던부분을공공분야에서활용할수있도록제도화하는것이필요하다. 예를들면, 민간분야의취업사이트인경우취업정보를확인할뿐아니라취업정보이외에수많은정보를제공하기위한전문영역으로이용자가증가하고있으나공공기관의취업사이트인경우단순정보제공에그치는경향이많으므로실제로이용자관점에서보면유용하지못한경우가많다. 그러나공공에비해민간분야에서는최근빅데이터분석에의한서비스를통해취업사이트내에소셜기능을적극도입된형태로변화하고있는데, 실제로인크루트 7) 에서는기개발한인맥서비스를보완하고이어인맥끼리이력서에첨언하는 추천글 서비스를도입, 소셜을통한이력서신뢰도를향상시키고있다. 즉, 관계를통해취업의질과양의향상을동시에향상시키고있다. 빅데이터로부터합격가능채용정보를제공하기도한다. 합격가능채용정보는기존의맞춤채용정보와다른데, 구직자가미리조건을설정하지않아도구직자의데이터를분석하고구직자의지원행태와조건을동시에고려하여선별된채용정보를생성함으로써구직자에게가장적합한취업정보를제공할수있다는점에서차별화된다. 따라서이러한민간분야에서활성화되는사이트를공공분야의취업정보와연계하여구축하고제도화함으로써상호발전을꾀하는것은물론지역정보화를활성화하는데필요할것이다. 7) http://job.incruit.com/jobdb_list
셋째, 지방정부에서는빅데이터마스터플랜및플랫폼계획을먼저수립해야하며정부는법적근거를마련해야한다. 이는앞서서빅데이터플랫폼에서도제시하였으나정보보안이나사생활침해등의문제를적극적으로해결하면서전자지방정부의특성을살린특성화된전자지방정부빅데이터플랫폼구축을위해노력해야할것이다. 국토해양부에서는 2010년부터지방정부에서유비쿼터스도시구축을위해계획을수립하고정부의승인을얻어야만유비쿼터스도시구축이가능하도록법적근거를마련하였다. 이로서유비쿼터스도시를구축하려는지방정부들은반드시계획수립후승인을얻어야만구축이가능하게되었다. 따라서향후빅데이터활용을위해서는이러한법적근거가마련되어야할것이므로법을개정하거나신규제정이필요하다. 지방정부에서빅데이터활용을위한마스터플랜수립은지방정부에서빅데이터를활용하여어떠한효과를기대할수있는지를미리계획하는데효과적일것이다. 넷째, 작은일에도관심을갖고빅데이터활용을강화해야한다. 마이클래빈의 깨진유리창법칙 을보면범죄충동은사람의개성보다는환경과상황에따른다는것을알수있다 ( 마이클래빈, 2006). 이법칙 8) 이유명해진것은뉴욕의줄리아니시장이범죄와의전쟁을선포하면서이이론을적용해큰효과를보면서였다고하는데, 1994년선출된이후살인이나강력범죄가아닌지하철낙서와같은 사소한 범죄근절에우선앞장서는전략을택했고, GIS를활용해살인등강력사건이자주발생하는지역에집중적으로가로등, CCTV를설치하고깨진창문을모두없애고순찰을강화한결과살인건수가 60% 이상줄었다고한다. 우리나라도이와유사한사례들을많이볼수있는데, 지방정부의지역정보화를위해서는빅데이터를활용하여미리예측하고대응함으로써성공한사례를계속개발하고작은일에도관심을기울이는것이필요하다. V. 지역정보화차원에서빅데이터연구시고려사항 III 장의빅데이터도입과관련된논쟁과 IV 장의지역정보화발전을위한시사점및대응방 안은연관성이있는내용으로지역정보화차원에서모두고려되어야하는사항이므로, 이러 8) 깨진유리창법칙은깨진유리창처럼사소한것들이사람들에게중요한메시지를전달한다고강조한다. 깨진유리창을방치하는건물은분명보안도허술하고관리도제대로되지않을것이라고생각한다는것이다.
한전제하에지역정보화발전차원에서빅데이터연구시추가적으로고려해야하는사항을 < 그림 10> 의흐름과같이제시하여논의하고자한다. 먼저, 지방정부의거버넌스체계확립이먼저선행되어야한다. 거버넌스체계 ( 양순애, 2013) 가확립되지않은상태에서의플랫폼과융합모델은활성화가되지않음은그동안이미여러경우를통해입증되었기때문이다. 둘째, 다양한사례에적용할수있도록하는빅데이터활용분야를브레인스토밍해야한다. 공공이든민간이든여러분야의사용자들로부터니즈를분석하여니즈의클러스터링화를계속적으로반복함으로써 bottom-up 방식의빅데이터활용분야를도출해야한다. 그동안공공분야에서 top-down 방식의정보제공이있었다면빅데이터는 bottom-up 방식의접근방법을통해주민들에게직접적으로다가가는것이필요할것이다. 이것이또한공공민간융합모델의기본틀이되어야할것이다. 이미빅데이터를통해정책에활용하여성공한사례는무수히많이제시되고있다 ( 권대석, 2012). 한국 SAS의한예를들면하루 1,000만달러를생산하는원유시추선이문제가발생하였을경우대처하기위해서는평균 5일정도가소요된다고한다. 이경우약 5000만불의손해를입게되는것은당연하다. 그러나빅데이터분석을통해미리문제를예측하고대처함으로써이만큼의손해를미리예방하였다고한다. 따라서정지일 80% 감소, 생산량 5% 증가, 운영비용매년 7억달러감소하였음은잘알려진사례이다.
오바마대통령은당선되기 2년전부터 66,000번모의선거를통해디너파티초청장, TV광고등의결정에세심하게활용하여와서당선되었으나롬니는빅데이터에대한인식이낮았기때문에선거에서패배하였다고한다. 또한구글트랜드에서는우리나라 7대대통령선거에서이미당시후보인박근혜와문재인후보에대해 52.5 : 47.5로박근혜후보의당선을예측하였고실제로도 51.6 : 48로박근혜후보가당선되었다. 셋째, 전문인력양성과교육프로그램개발과교육기관마련이절실하다. 데이터분석가나홍보인력의필요성은앞서바와같으나빅데이터분석이나우수한빅데이터활용사례홍보등을체계적으로수행할인력양성을위한교육프로그램과교육기관의마련이필요하다. 이것은어느대학이나어느기관에맡기는데그칠것이아니라체계적인평가와활용을통해구체화되고실천될수있도록하는방안마련이필요하다. 앞의 < 그림 4> 와 < 그림 5> 를통해정부의데이터에는다양한형태의데이터가모여있고, 또가치창출면에서보면다른분야보다매우높음을알수있었다. 따라서정부의효율적이고과학적인운영을위해서는데이터분석가의양성과활용이매우중요한일일것이다. 스마트사회에서빅데이터는필수불가결하게발생하는요소이며, 이것을어떻게잘활용하느냐가스마트사회의성패를좌우한다고해도과언이아니다. 우리나라가자랑하는전자정부도빅데이터의활용으로부터효율성을높일수있도록패키지화하는것이향후지속적인경쟁우위를점하는요소가될것이다. 이제는버리는데이터가하나도없이다모아서분석하여유의미한지식을생산함으로써가치창출을이루는정보화사회를이루어나가야할때가도래한것이다. 전자정부에서는수많은데이터들이쌓이고버려진다. 앞으로는어떠한거버넌스체계에서어떠한형태의빅데이터를얼만큼잘활용하고운영하느냐가데이터가중심인시대로도래하면서경쟁력을갖추는핵심요소가될것임은너무나도분명하다. 참고문헌 관계부처합동. (2013). 정부 3.0 추진기본계획. 안전행정부. 권대석. (2012). 클라우드와슈퍼컴퓨팅이이끄는미래 : 빅데이터혁명. 21 세기북스. 마이클래빈. (2006). 깨진유리창법칙. 흐름출판.
서진완. (2004). 전자지방정부구현을위한모델개발과적용. 교수논총. 양순애. (2013). 지역정보화의효율적인추진을위한 IT 거버넌스발전방안. 한국지역정보화학회지. 16(1) : 77-96. 양혜영. (2012). 빅데이터를활용한기술기획방법론. Korea Institute of Science & Technology Evaluation and Planning. 윤상오. (2013). 빅데이터의위험유형분류에관한연구. 한국지역정보화학회지. 16(2) : 93-122. 정보통신산업진흥원. (2011). 빅데이터확산에따른도전과기회. 최신 IT동향. 조영임. (2012). 최신인공지능시스템. 홍롱과학출판사. 한국정보화진흥원. (2010). 모바일시대를넘어 AI 시대로. IT&Future Strategy. 한국정보화진흥원. (2011). 신가치창출엔진, 빅데이터의새로운가능성과대응전략. IT&Future Strategy. 한국정보화진흥원. (2012a). 빅데이터로진화하는세상. 빅데이터연구센터. 2012. 한국정보화진흥원. (2012b). 빅데이터시대 : 효과적인공공정보개방을위한데이터플랫폼구축방향. IT&Future Strategy. 2012. 한국정보화진흥원. (2012c). 빅데이터시대. AI의새로운의미와가치. IT&Future Strategy. 2012. 한국정보화진흥원. (2012d). 빅데이터시대의인재, 데이터사이언티스트의역할과가능성. IT&Future Strategy. 2012. 한국정보화진흥원. (2012e). 2012 국가정보화백서, 빅데이터시대의국가발전전략. 2012. 한국정보화진흥원. (2013). 새로운미래를여는빅데이터시대. 행정안전부. (2012). 주요정책과제추진실적보고서. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, (2009), "An Introduction to Information Retrieval", Cambridge University Press, England. 9) 조영임 ( 曺永任 ): 1988 년고려대학교컴퓨터학과졸업. 1990 년동대학원석사. 1994 년동대학원박사. 2000 년 Univ. of Massachusetts at Amherst, post-doc. 1996 년삼성전자선임연구원. 현수원대학교컴퓨터학과교수, 현정부 3.0 자문단및행정안전부와소방방재청자체평가위원, 현 Purdue 대초빙교수, 전대학산업기술지원단단장, 전국가정보화전략위원회실무위원, 관심분야는유비쿼터스시스템, 인공지능, 정보검색, 빅데이터, 전자정부등 (ycho@suwon.ac.kr). < 논문접수일 : 2013. 9. 2 / 게재확정일 : 2013. 9. 22>