IT 기획시리즈 IT 기획시리즈 통계와 빅데이터 강유경 통계청 통계포털운영과 과장 summaul@korea.kr, 1. 서언 2. 빅데이터 개념 및 관련 기술 3. 공공분야에서의 빅데이터 활용 4. 통계와 빅데이터 5. 빅데이터시대: 통계청의 이슈와 과제 1. 서언 스마트폰을 비롯한 모바일 기기의 활성화, 클라우드 컴퓨팅 환경으로의 전환, 소셜 미디 어 등 다양한 정보 채널의 등장으로 우리는 유례 없는 데이터 홍수 시대를 맞이하고 있다. 과거 인류 역사의 시작에서부터 2010 년까지 축적된 데이터의 양보다 최근 2 년간 생성된 데이터의 양이 더 많으며, 앞으로는 매 2 년 마다 데이터의 양이 2 배 이상 증가한다고 하 니, 그야말로 우리는 빅 데이터 시대에 살고 있는 것이다. 이러한 빅데이터 시대를 맞아 미래는 데이터를 지배하는 자의 것이라는 위기 의식 속에 서 미국, 일본을 비롯한 여러 선진국에서는 국가 차원에서의 빅데이터 전략을 수립하는 등 선제적으로 대응하고 있다. 미국은 2012 년 3 월 빅데이터 기술 연구 개발에 2 억 달러 이 상을 투자하는 빅데이터 연구개발 이니셔티브를 발표하고 4 월 대통령 직속 빅데이터 협의 체를 발족ㆍ운영하고 있다. 일본은 2012 년 5 월 빅데이터 활용 기본전략을 발표하고, 7 월 차기 ICT 전략의 5 대 중점영역에 빅데이터에 의한 사회ㆍ경제 성장을 포함시켰다[1]. 우 리나라도 예외가 아니다. 2012 년 1 월 국가과학기술위원회에서의 논의를 시작으로, 3 월 민ㆍ관ㆍ학 합동으로 빅데이터국가전략포럼이 설립되고, 9 월 또 다른 빅데이터 포럼이 발 족하였다. 12 월에는 교육과학기술부, 행정안전부를 비롯한 5 개 부처가 합동하여 스마트 국가 구현을 위한 빅데이터 마스터 플랜 을 발표하였다. 이 마스터 플랜에는 국민의 수혜와 * 본 내용과 관련된 사항은 통계청 통계포털운영과 강유경 과장 ( 042-481-2377)에게 문의하시기 바랍니다. ** 본 내용은 필자의 주관적인 의견이며 NIPA 의 공식적인 입장이 아님을 밝힙니다. 정보통신산업진흥원 15
주간기술동향 2013. 3. 27. 유용성을 고려한 빅데이터 활용 과제를 선정하고, 기반 인프라 구축, 전문인력 양성 등 빅 데이터 활용의 기반을 조성하기 위한 내용들이 담겨 있다. 본 고에서는 먼저 빅데이터 개념 및 관련 기술에 관해 간단히 언급한 후, 빅데이터 시대 를 맞아 공공 분야에서 어떻게 대응하고 있는지를 살펴보고자 한다. 특히 통계와 빅데이터 와의 관계를 조명하고, 빅데이터 시대의 도래가 공식통계를 작성하는 국가통계작성기관에 가져온 위기의식 및 여러 이슈들을 제시하고 함께 고민하는 것으로 끝을 맺고자 한다. 2. 빅데이터 개념 및 관련 기술 빅데이터는 새로운 개념이라기보다는 기존의 데이터 홍수, 정보 폭발의 연장선 상에 있 는 개념이다. 과거에도 데이터마이닝이란 이름으로 데이터로부터 새로운 가치를 찾고자 하 는 시도가 계속 있었음에도 불구하고 빅데이터란 개념으로 진화하며 주목받게 된 것은 최 근 H/W 및 S/W 기술이 급속도로 발전하면서 방대한 양의 다양한 데이터를 신속하게 처리 할 수 있게 되었기 때문이다. 모바일 SIM 카드, 센서, 소프트웨어 로그, RFID, 소셜미디어 등을 통해 실시간으로 생성되는 다양한 정보들에 대해 다면적 판단이나 개별적으로 최적화 된 마케팅 등이 가능해지면서 빅데이터가 더욱 각광받게 된다. 가트너 그룹에서 빅데이터 를 2012 년과 2013 년 주목해야 할 10 대 전략 기술의 하나로 지목한 것은 이러한 맥락에 서이다. 빅데이터에 대해서는 아직까지 모든 사람이 공감하는 100% 합의된 정의는 없다. 다만, 일반적으로 멕킨지의 정의를 1) 바탕으로 3V 로 대변되는 세 가지 속성(다양성(Variety), 생 성속도(Velocity), 대용량(Volume))을 갖는 데이터를 빅데이터로 간주한다. SAS 는 여기에 하나의 V(Value)를 더 추가하여 이러한 세 가지 속성을 지니면서 새로운 가치 창출의 원 자료가 되는 데이터를 빅데이터라고 정의하고 있으며, 일각에서는 휘발성(Volatility)의 속 성을 추가하여 정의하기도 한다. 그러나 3V 의 세 가지 속성으로 대변되는 일반적 정의도 실제 빅데이터를 활용하는 단 계에서는 다소 완화되는 것을 볼 수 있다. 실시간에 가깝게 생성되는 아주 다양한 형태의 엄청난 양의 데이터를 이용하여야만 우리가 빅데이터를 활용한다고 말할 수 있는가? 에 대 1) 빅데이터(McKinsey Global Institute 2011): 자료의 양이 방대할 뿐만 아니라 비정형 자료를 포함하고 있어 기존의 기술이나 방법 으로 수집ㆍ저장ㆍ검색ㆍ분석ㆍ시각화 하기 힘든 데이터 16 www.nipa.kr
IT 기획시리즈 한 질문에 대해서는 사람들마다 그 답이 다를 수 있다. 대용량(Volume) 속성은 어느 정도 를 말하는 것일까? 수십 TB(10 12 bytes)는 대용량이라고 볼 수 없고, PB(10 15 bytes), ZB(10 21 bytes)에 이르러야지만 빅데이터의 대용량 속성을 만족한다고 할 수 있을까? 반드 시 그렇지는 않다. 빅데이터 비즈니스 책의 저자 스즈키 료스케는 빅데이터의 대용량 속 성과 관련하여 데이터의 절대적 크기에 대해서 관대할 필요가 있다고 주장한다. 또한, 행정 자료를 이용하는 것이 빅데이터를 활용한다고 볼 수 있는가에 대해서 속도 측면에서 빅데 이터의 정의에 위배되므로 그렇게 볼 수 없다고 주장하는 사람이 있는 반면, 서로 다른 많 은 유형의 행정자료를 엮어서 분석하다 보면 새로운 인사이트를 얻을 수 있으므로 속도에 대한 정의를 다소 완화하여 빅데이터 활용의 한 예라고 생각하는 부류도 있다. 이처럼 빅데이터 개념에 대해서는 합의를 이끌어내기 어려워도, 빅데이터의 활용성과 잠재적 가치에 대해서는 모든 이들이 인정하고 있으며, 빅데이터 분석을 위한 기술 및 인 프라에 대한 관심이 높아지고 있다. 대표적인 빅데이터 분석 인프라 기술로는 하둡(Hadoop), NoSQL(Not-only SQL), R 등 이 있다. 하둡은 더그 커팅이 개발한 오픈 소스 기반의 분산 컴퓨팅 플랫폼을 말하며, NoSQL 은 전통적인 관계형 데이터베이스뿐만 아니라 컬럼 기반(column-based)의 비관계 형 데이터베이스 등을 포함하는 개념이다. R 은 통계 패키지의 일종으로 통계 계산, 모델링, 데이터 마이닝을 위한 함수들과 하둡 환경에서의 분산처리를 지원하는 라이브러리를 제공 한다. R 은 S, S-Plus 와 매우 유사하지만 이들 패키지와 달리 오픈 소스 기반의 프리웨어 란 장점을 지닌다. 빅데이터 분석 기법으로는 텍스트/오피니언 마이닝, 군집분석, 소셜네트 워크 분석 등이 있다. 빅데이터 분석 플랫폼은 크게 5 단계(데이터 수집ㆍ통합/데이터 사전처리/데이터 저장ㆍ 관리/데이터 분석/데이터 시각화)로 구분된다. 빅데이터는 제 2 단계(데이터 사전처리)와 제 4 단계(데이터 분석)까지의 과정을 거치면서 실행 가능한 정보로 탈바꿈하게 되며, 빠르게 생성되는 방대한 양의 데이터를 처리하기 위해 인-메모리 기반의 실시간 처리 기법, 스트 리밍 기법, 텍스트 마이닝 기법 등을 필요로 한다[2]. 그러면 빅데이터 분석과 기존의 대용량 데이터베이스 처리는 어떻게 다른 것일까? 대용 량 데이터베이스는 사전에 미리 정의된 정형 데이터의 집합이다. 여기 저기 데이터가 산재 되어 있는 것이 아니라 처리를 위해 한 곳에 모인 정형 데이터의 집합이다. 대용량 데이터 정보통신산업진흥원 17
주간기술동향 2013. 3. 27. 베이스는 주로 디스크 기반으로 구현되고 데이터는 주기적으로 갱신된다. 분석은 패턴 매 칭이나 빈도수, 평균 등의 통계 분석이 주가 된다. 반면, 빅데이터는 정형 데이터 뿐만 아니 라 비정형화된 데이터를 포함한다. 데이터가 한 곳에 집중되어 있기보다는 여러 곳에 흩어 져 있는 경우가 더 많으며, 스트리밍 방식의 데이터 갱신이 일어난다. 또한 효율적인 처리 를 위해서는 디스크 기반보다는 인-메모리 기반의 환경이 더욱 효과적이다. 빅데이터 분석 은 패턴이나 통계에 기반한 대용량 데이터베이스처리와 달리 인공지능, 기계학습, 의미 기 반의 정보처리기법 등 다양한 분석을 포함한다[2]. 3. 공공 분야에서의 빅데이터 활용 2012 년 10 월 한국정보화진흥원에서는 소셜분석을 통해 위기 청소년 패턴을 찾고 이를 청소년 자살예방 대책 마련에 활용하는 것을 내용으로 하는 시범 프로젝트를 수행하였다. 이 시범 프로젝트에서는 보다 효과적인 자살 예방 대책을 수립하기 위해 블로그, 카페, SNS, 게시판 등 온라인 상에서 자살 또는 청소년 자살 과 관련된 버즈를 2) 활용하였다. 즉, 소셜 데이터에 기반하여 자살 관련 이야기가 어느 채널에서 가장 많이 언급되는 지, 일 주일 중 어느 요일에, 하루 중 어느 시간 대에 가장 많이 언급되는 지, 가장 많은 영향력을 끼치는 자가 누구인지 등을 분석하였다. 이러한 자살 문맥 분석을 통해 위험 인자를 식별 하고, 자살 이라는 특정 이슈와 관련된 온라인 상의 빅마우스의 존재와 이들의 영향력 수 준을 분석하였다. 이러한 분석에 기초하여 부정적 영향을 끼치는 트윗의 확산 경로를 파악, 유해 정보의 조기 차단 등을 통해 자살을 미연에 방지할 수 있으며, 온라인 영향력자와의 협력을 통해 자살예방정책을 추진하게 되면 더욱 더 큰 효과를 얻을 수 있다는 점 등 여러 시사점을 도출하였다[3]. 이 외에도 공공 분야에서 빅데이터를 활용하고자 하는 크고 작은 사례들을 찾아볼 수 있다. 그 중 2012 년 12 월에 발표된 빅데이터 마스터 플랜은 빅데이터 시대를 맞아 우리 나라가 나아가야 할 방향에 대해 잘 보여주고 있다. 이 마스터 플랜은 데이터의 창조적 활 용을 통한 스마트 강국 실현 이라는 비전과 빅데이터를 통한 선제적 사회현안 해결, 맞 2) 기간: 2012.1.1~2012.10.18 버즈량: 자살(총 506,766 건), 청소년 자살(총 69,886 건) 분석채널: 214 개 뉴스 사이트, 5 대 블로그, 5 대 카페, SNS(트위터,미투데이), 그 외 다수 게시판 18 www.nipa.kr
IT 기획시리즈 춤형 대국민 서비스, 데이터 기반 정책 수립 지원, 빅데이터 기반 신성장 동력 창출 의 4 가지 목표 아래, 국민 수혜, 유용성 등을 고려하여 2013 년부터 3 개 과제를 우선 추진하 고 이를 바탕으로 각 부처별로 빅데이터 대상과제를 지속적으로 추가 발굴, 확산하는 것을 그 내용으로 하고 있다[1]. 2013 년에 추진할 마스터 플랜의 3 가지 과제는 다음과 같다. 첫째, 범죄 발생 장소 및 시간 예측을 통한 범죄 발생 최소화 과제이다. 이 과제는 지역별 시간별 과거 범죄 발 생 내역, 순찰 경로, 주민 신고, CCTV 내용들을 복합적으로 분석하여 장소별, 시간대별 범 죄 발생 가능성을 도출하고 범죄 가능성이 높은 장소에 순찰 인력을 배치하는 것을 목표로 한다. 둘째, 예측 기반의 자연 재해 조기 감지 대응 과제는 기후 변화 등의 영향으로 자 연재해에 대한 위험성이 증가하고 있는 것에 착안, 기상특보, 강우 수위 정보, CCTV 재해 상황 정보 등 각종 데이터를 연계하여 선제적으로 위험지역을 파악, 신속한 경보 발령 등 을 통해 국민 피해를 최소화하는 것을 목적으로 하고 있다. 마지막 과제는 주민참여형 방식의 교통사고 감소체계 구축 이다. 교통사고 사망자 수가 OECD 평균 사망자의 2 배가 넘는 교통사고 후진국인 상황을 탈피하기 위한 과제로, 각종 정형, 비정형 데이터를 결합하 여 신호등, 과속 방지턱 설치 장소 파악 등의 개선방안을 도출하고 교통사고 발생을 최소 화하는 것을 목적으로 한다[1]. 4. 통계와 빅데이터 그렇다면, 빅데이터 시대를 맞아 국가통계를 작성하는 중앙통계기관으로서의 통계청에 서는 빅데이터를 어떻게 활용해야 하는 걸까? 다른 많은 분야는 직관 또는 과거 축적된 경험과 빅데이터 간의 경쟁이라고 한다면, 통 계 분야는 과학적 방법으로 수집된 데이터와 엄청난 양의 데이터 간의 경쟁이라는 점에서 큰 차이가 있다. 즉, 다른 분야는 경험과 직관 등 비과학적 요소와 객관적인 데이터 간의 충돌이기 때문에 빅데이터가 경쟁력이 있을 것이라 생각하여 대부분의 사람들이 관심을 갖 고 뛰어들고 있다. 그러나 통계 분야는 데이터와 데이터 간의 충돌이다. 어찌 보면, 기존 방 식의 통계가 수학적 이론에 그 바탕을 두고 있어 더 과학적일 수도 있다. 많은 통계학자들 은 빅데이터의 대표성(representativeness), 즉 모집단을 제대로 대표한다고 볼 수 없다 는 점 때문에 빅데이터에 기반한 통계 작성에는 심각한 문제가 있다고 우려한다. 물론 통 정보통신산업진흥원 19
주간기술동향 2013. 3. 27. 계청 내부에도 이러한 우려가 많이 있다. 반면, 빅데이터 옹호자의 주장은 다르다. 이론의 종말 의 저자 크리스 앤더슨을 비롯한 많은 빅데이터 옹호자들은 양이 질을 만들어낸다고 주장한다. 즉, 엄청난 양의 데이터가 그 어떤 과학적 방법이나 기술을 능가한다는 것이다. 이들의 주장에도 나름 일리가 있다. 통계가 과학적 방법으로 작성된다고는 하나, 표본 오류 나 비표본 오류 등의 여러 문제로부터 자유롭지 못한 점이 분명 존재한다. 모든 모델은 잘 못되었다. 그 중 몇몇은 사용할 만하지만 이라는 저명한 통계학자 조지 박스의 말도 3) 빅데이터 옹호자에게 힘을 실어주고 있다. 그러나 통계작성기관으로서 통계청이 빅데이터에 관심을 가져야 할 가장 큰 이유는 시 의성 때문이다. 요즘 민간 마케팅 부서에서 유행하는 말이 더 이상 과거의 행동 패턴을 미 래에 기대하지 말라 는 것인 걸 보면, 이미 우리는 과거에 기초하여 미래를 예측할 수 없는 시대에 진입하고 있는 지도 모른다. 이런 변화의 시기에 시의성은 빅데이터가 갖는 가장 큰 매력일 수 있다. 또한, 사생활 보호, 맞벌이 부부 증가 등의 사회변화로 인해 갈수록 악 화되는 조사환경을 고려할 때, 이러한 사회적 변화가 행정자료를 활용한 통계 작성 붐을 이끌었던 것처럼, 이제는 행정자료를 넘어서 빅데이터를 활용하게 되는 시대가 우리가 좋 든 싫든 가까운 미래에 올 것이다. 실제로, 공식통계는 아니지만 빅데이터를 활용하여 통계를 작성하는 몇몇 사례를 찾아 볼 수 있다. 그 첫 번째 사례로 MIT 의 로베르토 리고본 교수와 알베르토 까발로 교수가 주도한 BPP(Billion Price Project) 지수를 들 수 있다[4]. BPP 프로젝트는 도시별 높은 시 장점유율을 가지며 온라인/오프라인 판매를 병행하는 소매업자를 선정한 후, 이들의 온라 인 가격정보를 매일 모니터링하여 가격지수를 작성하는 프로젝트다. 현재 세계 20 여 개 국에 대한 일일가격지수(3 일간의 시간차를 두고 공표)를 작성하고 있으며, State Street 은 행의 고객들이 활용할 수 있도록 제공하고 있다. 일반인을 위해서는 웹을 통해 미국과 아 르헨티나의 BPP 지수만을 공개하고 있다[5]. 온라인 가격정보를 활용하여 물가지수를 작 성하는 사례는 이외에도 구글의 GPI(Google Price Index)를 들 수 있다. 또한 유럽에서도 빅데이터를 활용하여 5 개 국의 CPI(Consumer Price Index)를 작성하는 시범 사업을 2013 년부터 2 개년에 걸쳐 추진할 예정이다[6]. 3) Georgy Box: All models are wrong, but some are useful. 20 www.nipa.kr
IT 기획시리즈 빅데이터를 통계에 활용한 두 번째 사례로 UN Global Pulse 의 실업선행 지표에 관한 연구를 소개하고자 한다. UN Global Pulse 는 디지털 데이터의 실시간 분석을 통해 세계 발전을 꾀하려는 UN 의 혁신적 시도로 2009 년 UN 사무총장의 제안으로 만들어진 조직 이다. UN Global Pulse 는 SAS 와 함께 2 년간 미국과 아일랜드의 온라인 자료(약 50 만 사이트)를 분석하여 온라인 상 대화의 양(volume) 및 감정(sentiment)과 향후 실업률과의 관계에 관해 다음과 같은 사실을 발견한다. 식료품 비용 절감, 대중 교통 이용, 자가용 등급 하락 에 관한 온라인 대화가 증가하면 향후 실업률이 올라가고, 특히 미국의 경우 향 후 경제상황에 대해 낙담(depressed)하거나 적대적(hostile)인 사람의 비율이 증가하면 약 4 개월 후 실업률이 최고조(spike)에 도달하며, 아일랜드의 경우 걱정(anxious)하는 사람의 비율이 증가하면 약 5 개월 후 실업률이 최고조에 달한다는 것이다. UN Global Pulse 의 연 구는 온라인 상의 감정 및 대화의 양에 기반하여 도출된 정보가 공식 통계를 보완하는 보 조지표로 사용될 수 있음을 보여준 좋은 사례라고 할 수 있다[7],[8]. 마지막으로 소개할 사례는 구글 트랜드를 4) 이용한 관광객 수 예측 사례이다. 홍콩관광 청에서는 여행에 앞서 관련 여행지에 관한 검색이 증가하는 현상에 착안하여 구글 트랜드 를 이용하여 향후 관광 수요 예측을 시도하였다. 그 결과, 과거의 관광객 통계와 구글 트랜 드 인덱스를 이용하면 꽤 적합도 높은 계절적 AR 모형 도출이 가능함을 밝혔다[9]. 이 외 에도 구글 트랜드 인덱스를 활용하여 자동차나 집 매매 추이 등을 예측한 다양한 시도가 있다. 5. 빅데이터 시대: 통계청의 이슈와 과제 국가통계를 작성하는 중앙통계기관인 통계청으로서는 시의성과 비용 효율성 측면에서 빅데이터의 우위성을 인정하면서도, 행여 잘못된 결과 또는 부정확한 결과로 인한 공신력 저하의 위험성을 심각하게 고려하지 않을 수 없다. 따라서 아무런 준비 없이 빅데이터에 기반한 통계생산 방식으로 급작스럽게 전환하는 것보다는 적용 가능한 분야를 발굴하여 철 저히 연구한 후 점진적으로 옮겨가야 할 것이다. 네덜란드 통계청은 이미 2 년 전부터 빅데이터를 이용한 통계 작성에 관한 연구를 활발 4) 구글 트랜드: 지리적 위치 및 카테고리 별 검색어 양에 관한 인덱스를 제공하는 서비스로 구글 인사이트라고도 한다. 정보통신산업진흥원 21
주간기술동향 2013. 3. 27. 히 진행하고 있다. 마트가 보유하고 있는 상품거래 정보를 CPI 작성에 활용하는 것, 모바일 위치정보를 통한 인구 이동 패턴 분석, 도로교통 상황 정보에 기반한 교통 및 수송 통계 작 성 등이 대표적 예이다. 현재 한국 통계청은 빅데이터를 통계생산에 이용하기에 앞서, 기존 통계를 작성하는 과 정에서 이상치 점검 등의 내용검토 과정의 효율성을 높이는 차원에서 빅데이터를 시범활용 하고 있다. 아직은 빅데이터를 통계 생산 과정에서 보조적인 수단으로 활용하는 단계이지 만, 빅데이터로부터 공식 통계를 만들어야만 하는 때가 머지 않아 도래할 것으로 예상된다. 앞서 언급한 구글의 GPI 나 MIT 의 BPP 지수, 그리고 선진국들의 빅데이터의 적극적 활용 움직임 등을 고려하면 그리 멀지 않아 그렇게 될 것으로 보인다. 아직은 빅데이터 활용의 위험성이 존재함에도 불구하고, 미래를 대비하여 지금부터 빅데이터에 관심을 기울이고 미 래를 대비할 이유가 여기에 있다. 빅데이터 시대가 도래하면서 통계청이 고민해야 할 이슈는 크게 다음의 세 가지이다. 첫째, 많은 통계학자들이 우려하는 빅데이터의 대표성 문제에 대해서 많은 연구가 필 요하다. 빅데이터의 속성상 대표성 을 수학적, 이론적 근거에서 찾는 것은 매우 어려울 것 이다. 그러나 실제로 빅데이터로부터 도출된 통계와 기존 방식의 통계간 비교 분석을 통해 서는 어느 정도 의미 있는 답을 찾을 수 있을 것으로 보인다. 이러한 차원에서 2013 년부 터 2 개년 계획으로 유럽에서 추진하는 빅데이터에 기반한 물가지수 작성 시범 프로젝트는 기존의 공식물가지수와의 비교 검토가 가능하여 매우 의미 있다고 생각한다. 둘째, 빅데이터를 잘 활용하려면 원하는 데이터에 대한 접근이 가능해야 한다. 그것은 기관이 보유한 자료나 인터넷 상에서 얻을 수 있는 자료일 수도 있으나, 타 기관이 보유한 자료일 수도 있다. 따라서 빅데이터를 제대로 활용하기 위해서는 이들 자료에 대한 접근이 가능하도록 법적 제도가 뒷받침되어야 한다. 현재 추진 중인 공공 정보 공유 활성화에 관 한 법안이 빅데이터 활용을 가속화할 것으로 보이지만, 민간이 보유한 자료에 대한 접근과 공유를 가능하게 하는 법적 인프라 또한 갖춰 나가야 할 것이다. 스마트폰 사용이 일반화 된 지금, 개인의 위치 정보에 대한 접근이 가능하다면 그 활용도는 무궁무진할 것으로 보 인다. 그러나 개인 정보 보호 등과 맞물려 있는 사안인 만큼 조심스런 접근이 필요한 것도 사실이다. 데이터 공유 및 접근과 관련하여 통계청은 2013 년 2 월 말 기준 118 개 통계작성기관 22 www.nipa.kr
IT 기획시리즈 의 542 종 통계에 대한 정보를 국가통계포털(http://kosis.kr)을 통해 무료로 제공하고 있다. 또한 타 기관에서 국가통계포털이 보유한 데이터에 자유롭게 접근하여 새로운 시스템을 개 발할 수 있도록 2013 년 중 API 를 개발하여 제공할 예정이다. 그러나 외부의 통계청에 대 한 자료 접근 요구는 비단 매크로데이터에만 국한된 것은 아니다. 통계청이 보유하고 있는 마이크로데이터에 대한 요구가 빅데이터 흐름과 맞물려 더욱 더 증가하고 있다. 서로 상충 관계에 있는 개인 정보 보호와 데이터 공유 및 접근이라는 두 마리 토끼를 모두 좇아야 하 는 상황에서, 통계청은 마스킹 기법 연구 강화 등 마이크로데이터 이슈를 현명하게 해결하 기 위해 끊임없이 노력해야 할 것이다. 마지막으로, 빅데이터 시대에 걸맞은 인재를 육성하여야 한다. 빅데이터 시대의 인재상 은 지금까지의 전통적인 인재상과 다른데, 이는 빅데이터 접근법이 조사를 통하여 통계를 생산할 때 필요로 하던 지식이나 기술과는 다르기 때문이다. 흔히 데이터과학자라고 불리 우는 빅데이터 시대의 인재는 IT 지식, 통계적 지식과 도메인 지식을 함께 갖춘 사람을 뜻 한다. 많은 경우에 있어 빅데이터로부터 가치를 창출하는 과정은 빅데이터로부터 무엇을 찾아야 할 지 알지 못한 채, 유의미한 가치나 통찰력을 도출할 때까지 끊임없는 시행착오 를 필요로 한다. 이러한 빅데이터 접근법으로 인해 빅데이터 시대의 인재상은 엄청난 양의 데이터 처리를 뒷받침할 수 있는 분산환경에서의 프로그래밍 실력과 자신이 찾은 결과가 유의미한 지에 대한 분석을 하기 위한 통계 및 도메인 지식을 요구한다. 한 조사에 의하면, 국내에서 빅데이터를 저장, 처리할 수 있는 전문인력은 2012 년 3 월 기준 100 명 내외로 추정되고, 2017 년에는 14,000 명의 데이터과학자에 대한 수요가 있을 것이라고 한다[1]. 데이터과학자가 이처럼 부족한 상태이며, 또 짧은 기간 동안에 육성하기 가 힘든 만큼, 중앙통계작성기관으로서 학계와 협력하여 미래의 인재상을 키워 나갈 필요가 있다. 미래는 데이터를 활용하는 자의 것이다. 데이터를 보유하는 것 자체가 힘이 아니라, 쏟 아져 나오는 데이터로부터 유용한 가치를 도출할 수 있는 자가 밝은 미래를 개척해 나갈 수 있을 것이다. 빅데이터가 중앙통계기관인 통계청에 위기의식 및 앞서 언급한 많은 이슈 를 가져온 것은 사실이다. 그러나 통계청은 이러한 위기를 기회로 전환할 충분한 역량을 지니고 있으며, 반드시 그렇게 만들어 나갈 것이라고 믿는다. 정보통신산업진흥원 23
주간기술동향 2013. 3. 27. <참 고 문 헌> [1] 스마트 국가 구현을 위한 빅데이터 마스터플랜, 교육과학기술부, 행정안전부, 지식경제부, 방송통신위 원회, 국가과학기술위원회, 2012. 12. [2] 황승구, 빅데이터 동향 및 전망 빅데이터로 열어가는 스마트 혁명, ETRI, 2012. 12. 4. pp.23-24. [3] 권정은, 정지선, 소셜분석으로 살펴본 청소년 자살예방정책의 시사점, IT & Future Strategy 제17 호, 2012. 12. [4] The Billion Price Project @MIT, http://bpp.mit.edu [5] PriceStat, http://www.pricestats.com [6] What does Big Data mean for Official Statistics, UNECE, March 2013. [7] UN Global Pulse, http://www.unglobalpulse.org/sites/default/files/bigdatafordevelopment- UNGlobalPulseJune2012.pdf [8] SAS, http://www.sas.com/news/preleases/un-sma.html [9] Evan Gawlik, Hardik Kabaria, Shagandeep Kaur, Predicting tourism trends with Google Insights, 15 December 2011. 24 www.nipa.kr