ISSN 2092-7117 (2014-09) 발행일 : 2014. 03. 07 정부 3.0 과빅데이터 : 보건복지분야사례를중심으로 빅데이터의 4가지특성 (Volume, Variety, Velocity, Value) 과정부 3.0의세가지추진전략은유기적인연관성이있음여기서는정부 3.0의구현을위한핵심적요소인빅데이터의중요성과보건복지분야에서의빅데이터활용사례를시하고, 빅데이터활용과관련하여기되는이슈와한계를살펴봄 빅데이터분석시거시적통찰과, 빅데이터수집과관리 활용에관한사회적합의가뒷받침된다면개인정보보의문로인한한계와빅데이터를효과적으로활용함으로써새롭게창출할수있는가치사이의상충관계는어느정도해결가능할수있을것임 오미애사회통계연구실부연구위원 1. 정부 3.0 과빅데이터 정부 3.0과빅데이터출현배경 정부 3.0이란공공정보를적극개방 공유하고, 부처간칸막이를없애소통 협력함으로써국민맞춤형 서비스를공하고, 일자리창출과창조경를지원하는새로운정부운영패러다임을의미함 - 정부 3.0이기된배경으로 IT 환경의변화로인한빅데이터의등장을들수있음 빅데이터란기존데이터베이스관리도구로데이터를수집, 저장, 관리, 분석할수있는역량을넘어서는대량의 정형또는비정형데이터집합및이러한데이터로부터가치를추출하고결과를분석하는기술을의미함 1) - 빅데이터의주된출현배경은기하급수적으로증가하는데이터의양과 IT의발달임 빅데이터의 4가지특성 (4V) 과정부 3.0의추진전략은유기적인연관성이있음 정부 3.0의첫번째추진전략인 소통하는투명한정부 는빅데이터활용활성화를위해공공정보를적극공개하고공공데이터를개방하며, 이에따라활용가능한자료의양 (Volume) 이매우방대해짐 1) 출처 : 위키백과.
보건 복지 Issue & Focus 정부 3.0 의두번째추진전략인 일잘하는유능한정부 는빅데이터를활용한과학적행정구현으로, 다양한 정보의결합 (Variety) 이가능하고, 정부운영시스템개선으로인하여자료가축적되는속도 (Velocity) 가빠름 정부 3.0 의세번째추진전략인 국민중심의서비스정부 는빅데이터를활용한분석결과를기초로수요자 맞춤형서비스를통합공함으로써빅데이터의목적인새로운가치 (Value) 를창출함 이글에서는정부 3.0 의성공적인추진을위한핵심적요소인빅데이터의중요성을살펴보고, 보건복지분야에서의빅데이터활용사례를시함 이와함께, 빅데이터활용과정에서기되는다양한이슈와고려되어야하는한계점을짚어봄 [ 그림 1] 빅데이터특성과정부 3.0 추진전략 2 정부 3.0 Volume 빅데이터활용을위한 Velocity 빅데이터를활용한 Value 빅데이터활용에의한 Variety 소통하는 투명한 정부 국민중심의 서비스 정부 공공정보적극공개로국민의알권리충족 공공데이터의민간활용활성화 민 관협치강화일잘하는 정부내칸막이해소유능한 협업 소통지원을위한정부운영시스템개선정부 빅데이터를활용한과학적행정구현 수요자맞춤형서비스통합공 창업및기업활동원스톱지원강화 정보취약계층의서비스접근성고 새로운정보기술을활용한맞춤형서비스창출 2. 빅데이터의중요성 빅데이터의시대적흐름 1990 년대중반부터 2000년대중반까지는 Data warehousing era 로, 사용자의의사결정을지원하기위하여축적한데이터를사용자관점에서고객정보, 교통정보, 서비스정보등주별로관리함으로써주요한정보를적절한시점에공할수있도록함 2000년대중반부터 2010년대중반까지는 Data convergence era 로, 데이터의통합관리를통해분석하고자하는소비자등대상자에관한입체적인이해를가능하게함 2010년대중반이후는 Big data era 로, 통합된고객정보, 모바일, SNS의결합을통해기존의정형데이터로는파악하기어려운변화를감지하고소비자의욕구를즉시확인하고활용할수있게됨 치열한경쟁사회일수록빅데이터의중요성은증가함 2) 2) 김용대, 조광현 (2013). 빅데이터와통계학, 한국데이터정보과학지, 24(5), pp.959-974.
정부 3.0 과빅데이터 : 보건복지분야사례를중심으로 데이터로부터얼마나많은부가가치를창출할수있는가의관점에서, 자료분석으로부터새롭게얻을수있는지식또는부가가치의양과그차이는크지않음 하지만, 국가간또는회사간기술격차의감소로인해경쟁이치열해지는환경속에서이러한작은차이가큰결과를가져올수있으며, 빅데이터의활용은이러한차이를만들어낼수있음 - 예를들어, A상품과 B상품만존재하는상황에서 A상품고객이 A상품을다시구매할확률이 0.51, B상품고객이 B상품을다시구매할확률이 0.50이라고할때, A상품의시장점유율은 0.505이며, B상품의시장점유율은 0.495임 3) - 두상품의기술격차가감소하여 A상품의고객이 A상품을다시구매할확률이 0.999이고, B상품의고객이 B상품을다시구매할확률이 0.990이라고하면, A상품의시장점유율은 0.909이며, B상품의시장점유율은 0.091으로두상품의시장점유율차이는무려 90% 정도가됨 - 기술격차의감소에도불구하고두상품사이에존재하는재구매확률의미세한차이는이와같은커다란결과를낳을수있으며, 이러한작은차이는빅데이터의분석을통해고객의욕구변화를즉시파악하여품질개선이나홍보에활용함으로써창출할수있는가치임 [ 그림 2] 경쟁사회에서기술격차감소로인한빅데이터활용의중요성 P(A A)=0.51 P(B B)=0.5 P(A A)=0.99 P(B B)=0.98 P(A A)=0.999 P(B B)=0.990 P(A)=0.505 P(B)=0.495 P(A)=0.667 P(B)=0.333 기술격차감소 P(A)=0.909 P(B)=0.091 기술격차감소 3 3. 정부 3.0 추진전략별중앙행정기관의빅데이터활용사례 4) 투명한정부 : 병원 약국정보검색서비스 정부 3.0 공공정보공개차원에서건강보험은그동안축적된빅데이터를융합 활용하여환자들이궁금해하는병원별 질환별진료비와입원일수등에대한정보를스마트폰어플리케이션과건강보험심사평가원홈페이지를통하여언어디서나정보에접근가능하도록공 이러한서비스를통해공되는정보는다음과같음 - 병원별로급성심근경색증, 고혈압 당뇨병등질병치료및수술별평가자료 - 주요수술별진료비정보및평균입원일수정보 - 병원별주소, 전화번와함께주요의료장비 (CT, MRI) 보유여부, 야간진료 ( 소아과 ) 여부등정보 3) 시장점유율은마코프체인의정상분포로계산한결과임. 4) 안전행정부 (2013), 정부 3.0 우수사례집.
보건 복지 Issue & Focus 유능한정부 : 건강검진결과공유를통한운전면허발급시신체검사생략 2013년 8월부터운전면허적성검사시국가건강검진 ( 시력 청력 ) 정보를활용하여별도의신체검사나자료출없이운전면허신규취득및갱신이가능해짐 연간약 300억원의경적절감효과 ( 직접 160억, 간접 140억 ) - 직접적으로는신체검사를별도로시행하지않음에따라, 신체검사실시에따른검사비용과검사인력의인건비등을절감함 - 간접비용절감효과는별도의신체검사에소요되는시간 ( 약 20분 ) 을기회비용으로환산하였음 이는안전행정부, 보건복지부등 5개부처및공공기관이부처간칸막이를거하고협업에의해빅데이터를활용함으로써구현된통합행정서비스의대표적사례임 < 표 1> 운전면허증발급시건강검진정보공동이용협업기관역할 관계기관안전행정부보건복지부국민건강보험공단경찰청도로교통공단 역할 - 행정정보공동이용시스템개발 - 도개선, 민원사무처리기준표개정및관보고시 - 국가건강검진결과중경찰청에서시력 청력정보를공동으로이용할수있도록승인및지원 - 보유하고있는국가건강검진결과중시력 청력정보를행정정보공동이용시스템을통해공 - 도로교통법시행규칙개정 - 운전면허시험장을통한시력 청력정보공동이용실시 - 고객정보유출방지등교육실시 4 자료 : 보건복지부보도자료 (2013. 8. 1) 서비스정부 : 개인별평생맞춤형건강서비스공 국민건강보험공단은전국민의출생에서사망까지건강보험자격및보험료자료, 병의원이용내역과건강검진결과, 가입자의희귀난치성질환및암등록정보등 10여년동안축적된 1조 3,034억건의빅데이터를보유하고있음 이러한빅데이터를활용하여개인별 인구집단별다양한맞춤형건강관리서비스 ( 건강상태, 4대중증질환, 만성질환등 ) 와개인별진료내역, 건강검진, 장기요양서비스등을연계한평생건강관리포털서비스를공할예정임 검진결과와진료이력등개인별건강정보를연계하여건강위험요인을분석하고, 질병별위험군에따라예방 프로그램공과건강상담자를연결하여지속적인개인별맞춤형사전예방건강서비스를실시할예정임 4. 정부 3.0 구현을위한지방자치단체의빅데이터활용사례 : 광주광역시광산구의 GIS 와공공데이터연계 광주광역시광산구는보유하고있는각종공공데이터와지리정보시스템 (GIS; Geographic Information System) 을결합하여사회현상에대해정확한원인을분석하고근본적인대책을수립하여정책에활용
정부 3.0 과빅데이터 : 보건복지분야사례를중심으로 활용가능한공공데이터실태조사를통하여데이터현황을파악하고, 조직내 외부 7개분야에서 380여종의공공데이터를수집및확보 (2014. 1. 기준 ) GIS를활용하여공공데이터를시각화함으로써복지, 교육, 안전등총 7개분야의현황및문점을분석하였고, 7개분야, 52개소주, 205개의정책지도를작하여지역주민들에게공함 보건 건강을그리다 - 보건소이용자분포분석결과 광산구수완보건지소지역의만성, 재활등의기타진료이용자평균연령은 42.9세이고 30대의경우보건소이용이적음을알수있음 예를들어, 을중심으로이용자분포를살펴보면, 예방접종과기타진료이용자의분포는다른양상을보여주고있으며, 서쪽지역주민의기타진료이용비율이가장높음을알수있음 [ 그림 3] 광산구수완보건지소이용자분포 광산구수완보건지소방문서비스이용자 광산구수완보건지소예방접종이용자 광산구수완보건지소기타진료이용자 첨단 2 동 첨단 2 동 첨단 2 동 비아동비아동비아동 수완보건소수완동 수완보건소수완동 수완보건소수완동 월곡 2 동 월곡 2 동 월곡 2 동 5 월곡 1 동 월곡 1 동 월곡 1 동 방문서비스이용자높음 예방접종이용자높음 기타진료이용자높음 광산구청 송정 2 동 송정 1 동 신흥동 0 1 2 광산구청 송정 2 동 송정 1 동 신흥동 0 1 2 광산구청 송정 2 동 송정 1 동 신흥동 0 1 2 자료 : GIS 로그리는광산구행정지도 생애주기별맞춤형복지를그리다 - 영유아보육시설입지분석결과 광산구내에출근지가있는인구의직장분포와영유아관련보육시설의입지를살펴보면약 40% 정도의근로자는산업단지로출근하고있으나, 주요산업단지내에는어린이집이거의없음 30대인구분포와영유아관련보육시설입지를살펴보면, 현재어린이집은인구가밀집한주거지중심으로배치되어있음을확인할수있음 이러한분석결과로부터, 향후추가로어린이집을설치할경우아이의부모가근무하는산업단지나월곡, 송정지역의직장밀집지역인근에배치하는것을고려할수있음 현재국공립어린이집은전체 448개소중 4개소로영유아보육시설운영은거의전적으로민간영역에의존하고있으므로, 산업단지주변으로신규국공립어린이집의배치를고려해볼수있음
보건 복지 Issue & Focus [ 그림 4] 광산구직장및 30 대인구분포와어린이집위치 광산구직장분포와어린이집위치 광산구 30 대인구분포와어린이집위치 임곡동 비아동 첨단 2 동 임곡동 첨단1동비아동첨단2동 본량동 수완동신기동 본량동 수완동신기동 삼도동 어룡동 월곡2동월곡1동 삼도동 어룡동 월곡2동월곡1동 평동 신흥동송정2동송정1동 주요산업단지 관련밀도 평동 신흥동송정2동송정1동 주요산업단지 관련밀도 도산동 국공립어린이집 도산동 국공립어린이집 어린이집 어린이집 동곡동 0 2.5 5 동곡동 0 2.5 5 자료 : GIS 로그리는광산구행정지도 생애주기별맞춤형복지를그리다 - 노인복지시설취약지역분석결과 6 노인복지시설을이용하지않는노인의분포를살펴보기위해, 전체노인인구의분포에서노인관련복지시설이용자에가중치를적용하여거한결과, 노인인구의분포와노인복지관련시설이용자분포가균등하지않고편중되어있음을확인할수있음 노인복지관련시설이용취약지역을살펴보면, 진하게나타난송정동,, 월곡1동, 첨단2동은노인인구에비해노인복지시설이용률이상대적으로저조한지역이므로신규노인복지관련시설의설치를고려해야하는것으로판단됨 [ 그림 5] 광산구노인인구및노인복지시설분포와이용자분포 노인인구및노인복지시설분포 2011 노인복지관련시설총이용자분포 노인복지관련시설이용취약지역 첨단종합복지관 첨단종합복지관 첨단종합복지관 첨단2동 첨단2동 첨단2동 비아동 비아동 비아동 북구 북구 북구 수완동 수완동 수완동 송정 2 동 광산구 월곡 2동노인복지관복지관광산구노인복지관종합복지관월곡 1동양로시설요양시설노인요양공동생활가정노인인구분포 송정 1 동 송정권노인복지관신흥동 높음 0 1 2 광산구 월곡 2동 노인복지관 복지관 광산구노인복지관종합복지관월곡 1동양로시설 요양시설 노인요양공동생활가정 노인복지관이용자분포 높음 송정 2동 송정 1동 0 1 2 송정권노인복지관신흥동 광산구 월곡 2동 노인복지관 복지관 광산구노인복지관종합복지관월곡 1동양로시설 요양시설 노인요양공동생활가정 노인복지시설미이용률 송정 2동 송정 1동 높음 0 1 2 송정권노인복지관신흥동 자료 : GIS 로그리는광산구행정지도
정부 3.0 과빅데이터 : 보건복지분야사례를중심으로 5. 해외빅데이터활용사례 : 꿈을찍는다그리고마음을읽는다 5) UC Berkeley 의 Gallant Lab(Neuroscience 분야 ) 에서는움직이는영상정보를처리하는대뇌신를모형화하여뇌신만을이용해시각정보를재구성 실험자에게몇시간동안영화를보게하면서대뇌에서일어나는변화를 fmri(functional magnetic resonance imaging) 를활용하여뇌신를파악하고, 이러한뇌신와실험자가본영상간의관계를모형화함 유튜브 (Youtube) 동영상자료등을이용하여뇌신와같은반응을보이는동영상이미지의평균을가지고 영상을재구성함 [ 그림 6] 실영상정보와뇌신로재분석된영상정보 자료 : Gallant Lab UC Berkeley 이연구는유튜브와같은영상빅데이터가있기때문에가능하였으며, 대뇌의영역별기능을확인하고그것이작동하는방식을알려주었다는점에서큰의미가있음 7 이러한기술은뇌졸증환자, 혼수상태환자등언어적의사소통이힘든사람들의머릿속으로생각한것을영상으로나타낼수있어마음에어떤일이일어나는지에대한이해를가능하게만들었음 또한, 뇌성마비등뇌병변장애를가진사람들이자신들의마음을컴퓨터가읽을수있는뇌-기계인터페이스를위한기반을마련하였다는데의의가있음 6. 빅데이터활용의이슈와한계 과적합 (overfitting) 문 6) 방대한양의자료가축적되어있는빅데이터는, 자료를세분화하여분석할수있게만들어세밀한정책적판단을가능하게함 그러나, 현재축적된빅데이터를활용하여지나치게정교한분석을수행할경우, 미래에대한예측력은오히려떨어질가능성이있음 5) Nishimoto, S., Vu, A. T., Naselaris, T., Benjamini, Y., Yu, B., & Gallant, J. L. (2011). Reconstructing visual experiences from brain activity evoked by natural movies. Current Biology, 21(19), pp.1641-1646. 6) 김용대, 조광현 (2013). 빅데이터와통계학, 한국데이터정보과학지, 24(5), pp.959-974.
보건 복지 Issue & Focus - 빅데이터를분석할경우, 현재의자료가미래를가장잘설명할수있다는통계학의기본가정이성립되는지를살펴보아야하며, 현재빅데이터가생산 축적되는모집단자체가변화될수있다는사실에유의해야함 7) 많은경우 SNS와같이빅데이터를생산하는모집단은시간에따라변화되며, 이러한변화를인지하는것이성공적인빅데이터분석의필수적인전조건임 차원의저주 (curse of dimensionality) 8) 차원의저주란, 분석의정확도를어느정도유지하기위해서변수의수를증가시킬때마다필요한데이터의수는기하급수적으로증가한다는것으로, 다양한정보의결합으로자료의차원이커지면서발생할수있는현상임 변수의개수가무수히많아지면, 아무리빅데이터라고할지라도감당하기어려운수준일수있으므로이러한차원의저주를피하기위한여러가지통계적기법들을고려해야함 개인정보보와법적문 개인정보보법의정취지는개인정보침해로인한국민의피해구를강화하여사생활의비밀을보하고개인정보에대한국민의권리와이익을보장하는데있음 8 빅데이터활용의가치를논의하면서동시에개인정보보와관련된문를기하는것은데이터를수집하는공공기관및민간기업들이어떤경로를통해어떤데이터를수집하는지, 그리고수집된데이터를어떻게관리하고이용하는지에대한정보공자의불안감때문일수있음 9) - 최근 사회적이슈가되고있는주요신용카드사의대량의개인정보유출사건은이러한측면에서빅데이터구축및활용을약하고, 정부 3.0의구현을어렵게만드는한계로작용할수있음 그럼에도불구하고, 빅데이터수집과관리 활용에관한투명성고를바탕으로, 개인정보가포함된데이터에대한충분한수준의익명화 (masking) 를거쳐분석에활용한다면, 개인정보보의문로인한한계와빅데이터를효과적으로활용함으로써새롭게창출할수있는가치사이의상충관계는어느정도해결가능할수있을것임 7) 예로, 트위터자료를분석하고이를주식투자에이용하여좋은수익률을기록하였던어느빅데이터회사가 2012년대선이후로많은어려움을겪었는데그이유는 2012년대선이후에진보적성향의트위터이용자들이대거트위터를탈퇴했기때문으로사후조사됨. 8) Hastie, T., Tibshirani, R., Friedman, J.(2001), The elements of statistical learning, New York, Springer, p.22. 9) 서울대학교법학연구소 빅데이터센터공동학술대회자료. 개인정보보의법과정책, p.33. 집필자 Ⅰ 오미애 ( 사회통계연구실부연구위원 ) 문의 Ⅰ02-380-8267 발행인 Ⅰ 최병 발행처 Ⅰ 한국보건사회연구원 (122-705) 서울특별시은평구진흥로 235 Ⅰ TEL 02)380-8000 Ⅰ FAX 02)352-9129 Ⅰ http://www.kihasa.re.kr 한국보건사회연구원홈페이지의발간자료에서온라인으로도이용하실수있습니다. http://www.kihasa.re.kr/html/jsp/publication/periodical/focus/list.jsp