Market & Issue 분석 Report 2012. 7. 17 [ 빅데이터처리기술현황및전망 ] 차세대방송 모바일미래인터넷융합기술정보보호전파위성방송통신시장방송통신정책 본보고서의내용은집필자개인의견해로서한국방송통신전파진흥원의공식입장과는무관합니다.
I. 개요 빅데이터 (Big Data) 는기존데이터베이스관리도구의데이터수집, 관리, 분석역량을넘어서는대량의데이터셋 (set) 을의미하며, 스마트디바이스의확대, 데이터이용량증가, 비정형데이터의증가등으로인해관련기술에대한관심이급증하고있음 빅데이터는기존데이터베이스관리도구의데이터수집, 관리, 분석역량을넘어서는데이터셋 (set) 을의미 단순히많은양의데이터가아니라제타바이트 (Zetabytes) 수준의데이터량, 로그기록, 위치, 소셜, 소비데이터등텍스트이외의비정형화된데이터, 데이터처리및분석속도가뒷받침되는기술을포함함 과거의데이터자원이축적과공유중심이었다면이를기반으로엄청난데이터가쌓이면서현재는데이터 분석과추론 ( 예측 ) 의중요성이증가하고있음 빅데이터는데이터생성, 수집, 저장, 분석, 표현의처리과정을거치며각과정마다세부영역과관련기술이확대되고있음 빅데이터 (Big Data) 구성요소 데이터이용및빅데이터처리프로세스 빅데이터는일반적으로 3V(Volume, Variety, Velocity) 의특징을가지며, 이러한특성으로인해과거데이터수집및이용과는구별 - Volume( 규모 ) 은스마트디바이스의확대, 네트워크고도화로인해데이터량이증가하면서제타바이트 (Zetabytes) 수준의데이터를의미, Variety( 다양성 ) 은정형및비정형데이터등데이터유형이다양화되는것을의미, Velocity( 속도 ) 는위치정보, 센서등실시간성정보가증가하면서데이터처리및분석속도가중요해지고있음을강조 축적활용확산및공유가치창출 저장데이터베이스 검색검색엔진 관리 KMS 공유 Web2.0 분석 빅데이터 추론 상황인식 데이터수집저장처리분석 내부데이터 수동 정형 / 비정형 배치처리 분석방법 표현 외부데이터 자동 로그수집기 크롤링 저장장치 실시간 & 배치 분산병렬처리 센싱 출처 : TDWI Research, 2011, VeyondStrategy 재구성, 2012.06 출처 : NIA, 2011.12, VeyondStrategy 재구성, 2012.06 2
II. 주요기술현황 (1) 빅데이터분석기법은텍스트마이닝, 오피니언마이닝, 소셜네트워크애널리틱스등이대표적이며이러한분석을가능하게지원하는분석인프라기술은하둡 (Hadoop), NoSQL, R 등이핵심기술임 Text Mining Opinion Mining Social Network Analytics Cluster Analysis 빅데이터분석기법 텍스트마이닝은비 / 반정형텍스트데이터에서자연어처리 (Natural Language Processing) 기술에기반유용한정보를추출, 가공하는것을목적으로하는기술 방대한텍스트데이터에서의미있는정보를추출해내고, 타정보와의연계성을파악하며, 텍스트가가진카테고리를찾아내는등단순한정보검색이상의결과도출가능 오피니언마이닝 ( 평판분석 ) 은소셜미디어등의정형 / 비정형텍스트의긍정 (Positive), 부정 (Negative), 중립 (Neutral) 선호도를판별하는기술 특정서비스및상품에대한시장규모예측, 소비자반응, 입소문분석등에활용되고있음 소셜네트워크분석은수학의그래프이론 (Graph Theory) 에근거한기술 소셜네트워크연결구조및연결강도등을바탕으로사용자명성및영향력을측정, 소셜네트워크상에서입소문의중심또는허브 (Hub) 역할을하는사용자확인에활용 군집분석은비슷한특성을가진개체를합쳐가면서최종적으로유사한특성을가진집단 (Group) 을발굴하는데사용 예를들어, 트위터상에서주로사진 / 카메라에대해논의하는사용자군과게임에관심있는사용자군등관심사나취미에따른사용자군을군집분석을통해분류가능 Hadoop NoSQL R 빅데이터처리기술 하둡 (Hadoop) 은오픈소스분산처리기술프로젝트로정형 / 비정형빅데이터분석에가장선호되는솔루션 주요구성요소로는하둡분산파일시스템인 HDFS(Hadoop Distributed File System), 분산컬럼기반데이터베이스인 Hbase, 분산컴퓨팅지원프레임워크인 MapReduce 가포함 기본적으로비용효율적인 x86 서버로가상화된대형스토리지 (HDFS) 를구성, HDFS 에저장된거대한데이터셋을간편하게분산처리할수있는 Java 기반의 Mapreduce 프레임워크제공 NoSQL 은 Not-Only SQL 혹은 No SQL 을의미, 전통적인관계형데이터베이스 (RDBMS) 와다르게설계된비관계형데이터베이스를의미 대표적인 NoSQL 솔루션으로는 Cassandara, Hbase, MongDB 등이존재 NoSQL 은테이블스키마 (Table Schema) 가고정되어있지않고테이블간조인 (Join) 연산을지원하지않으며, 수평적확장 (Horizontal Scalability) 이용이한장점이있음 오픈소스프로젝트 R 은통계계사및시각화를위한언어및개발환경을제공하며, R 언어와개발환경을통해기본적인통계기법부터모델링, 최신데이터마이닝기법까지구현및개선이가능 구현한결과는그래프등으로시각화가가능하며, Java 나 C, Python 등의다른프로그래밍언어와의연결도용이한장점이있음 출처 : KT 종합기술원, 2011 출처 : KT 종합기술원, 2011 3 3
II. 주요기술현황 (2) 암바리 ( 매니지먼트 ) 주키퍼 ( 코디네이션 ) H 베이스 ( 컬럼화된 NoSQL 저장 ) 빅데이터처리기술의핵심인하둡은하둡분산파일시스템 (HDFS), 분산처리를위한프레임워크인맵리듀스, 분산 DB 인 Hbase 등으로구성되며, 아파치소프트웨어라이선스에따라전체프레임워크가오픈소스로제공되어비용이낮은특징이있음 Hadoop 세부구성요소 하둡플랫폼에는기본요소인하둡분산파일시스템 (HDFS), 분산처리를위한프레임워크인맵리듀스 (MapReduce) 가핵심 그외, 분산 DB 인 Hbase, 검색엔진인너치 (Nutch), 관계형대수쿼리언어인터페이스인피그 (Pig), 데이터웨어하우징솔루션하이브 (Hive), 테이블스토리지관리서비스 H 카달로그등이포함 맵리듀스는빅데이터를나눠저장하고있는수백, 수천대의서버각각에서데이터에대한정제 / 분석 (Map) 을최대한거쳐그결과값을모아최종정제 / 분석결과를내는 (Reduce) 방법임 피그 ( 데이터플로우 ) 하이브 (SQL) 맵리듀스 ( 분산형프로그래밍프레임워크 ) H 카달로그 ( 테이블 & 스키마매니지먼트 ) HDFS ( 하둡분산형파일시스템 ) HDFS 는마스터 / 슬레이브 (Master/Slave) 구조를가지며, HDFS 클러스터는하나의네임노드와파일시스템을관리하고클라이언트접근을통제하는마스터서버로구성 핵심아파치하둡 필수적인하둡프로젝트 오픈 APIs 데이터통합 / 이동 애플리케이션관리 시스템관리 출처 : hadoop.apache.org, 2012 하둡은아파치소프트웨어라이선스에따라전체프레임워크가오픈소스이기때문에기본소프트웨어라이선스비용이없음 H/W 측면에서도고가의하드웨어나고성능프로세서를필요로하지않으며저가상용서버사용이가능해비용절감효과가높음 출처 : hadoop.apache.org, 2012 4 4
Ⅲ. 사업자동향 빅데이터시장선점을위해주요 SI 및솔루션업체의기술및솔루션개발노력이지속적으로진행되어왔으며, 11 년까지는기술개발을위한관련업체인수 합병및제휴가활발히진행, 12 년부터는관련솔루션과서비스가본격적으로출시되고있음 빅데이터관련주요 SI/ 솔루션업체동향 데이터저장, 관리, 분석등을제공하기위해 10 년 7 월그린플럼 (Greenplum) 인수, 10 년 11 월 NAS 전문업체아이실론 (Isilon) 인수 11 년 4 월, 백업서비스전문업체모지 (Mozy) 인수 12 년 2 월, 하둡분산파일시스템 (HDFS) 과통합된 아이실론스케일아웃 NAS 를출시, 하둡환경에서데이터를보호하고관리하며공유할수있는포괄적인엔터프라이즈급스토리지기능제공 12 년 3 월, 업계최초로하나의툴에서관련인력간협업과빅데이터분석, 저장, 검색, 열람이가능한포털개념의 Greenplum Chorus 출시 12 년 5 월, 플래시스토리지아케텍처기업인익스트림 IO(ExtreamIO) 인수, 네트워크스토리지인프라를강화, 플래시스토리지포트폴리오확대 최근 5 년간 140 억달러투자, 관련업체 25 개사인수, 8,000 명의분석관련컨설턴트확보 InforSphere BigInsight, InfoSphere Streams 등의솔루션제공, 스마트플래닛 뿐만아니라공공영역진입도강화 12 년 1 월, 비정형데이터와실시간데이터를효과적으로분석할수있는소셜분석툴인 IBM Connection 출시 12 년 3 월, 기업의예측분석 (Predictive Analytics) 역량을강화하는신규컨설팅서비스와소프트웨어 IBM Smarter Analytics 출시 12 년 4 월, 비정형데이터검색및디스커버리솔루션업체인 비비시모 (Vivisimo) 인수발표 07 년 DB 업체 하이페리온 (Hyperion) 인수 / 08 년 EPM 솔루션인 Oracle Enterprise Performance Management 시스템발표 11 년 11 월, 빅데이터 NoSQL 데이터베이스발표 / 12 년 1 월, 오라클빅데이터어플라이언스 (Oracle Big Data Appliance) 출시 12 년 2 월, 아파치하둡기반소프트웨어및서비스솔루션을제공하는선두업체인 클라우데라 (Cloudera) 와협력, 자사의엔지니어드시스템 빅데이터어플라이언스 에서클라우데라아파치하둡기술지원발표 07 년 10 월, BI 플랫폼업체 비즈니스오브젝트 (Business Objects) 인수 11 년 6 월, 인메모리컴퓨팅기술기반분석솔루션인 HANA 를탑재한신규솔루션인 SAP 스마트미터어낼러틱스 (SAP Smart Meter Analytics) 와 SAP Co-PA 액셀러레이터 (SAP CO-PA Accelerator) 소프트웨어발표 11 년 12 월, SNS 분석업체인넷베이스 (Netbase) 와서비스제휴, SAP Social Media Analytics 를출시 11 년 2 월, 데이터웨어하우스 (DW) 업체인버티카 (Vertica) 인수 / 11 년 8 월, 기업용검색엔진 1 위기업인오토노미 (Autonomy) 인수 11 년 11 월, 오토노미와버티카통합, Instant-On Enterprise 등의솔루션으로경영지원전략수립서비스제공 10 년 GFS, Mapreduce, Sawzall, BigTable 등대용량데이터처리기술발표 12 년 5 월이용자가업로드한데이터분석을지원하는 Big Query 서비스일반공개 11 년 Windows Azure 와윈도우서버플랫폼용아파치하둡개발계획발표 11 년 10 월, 하둡기술전문업체 호튼웍스 와제휴, 아파치하둡개발협력 11 년 11 월, 기업용소프트웨어와클라우드서비스를다양한단말기로확장시킨인텔리전트시스템 (Intelligent System) 개념공개 12 년 3 월, 하둡에저장된데이터를엑셀로불러올수있는 커넥터 개발발표 출처 : 각사보도자료, VeyondStrategy 재구성, 2012.06 5
Ⅵ. 시장및서비스전망 비정형데이터량증가로인해빅데이터시장이지속적으로확대될것으로전망되며, 빅데이터처리및분석기술은공공분야, 금융 / 통신등에서서비스개선, 마케팅, 향후전망예측등에적극적으로활용될전망 기업정형 / 비정형데이터비중변화추이 출처 : Jefferries, 2012 글로벌빅데이터시장전망 3,217 출처 : IDC, 2012, Jefferies, 2012 빅데이터시장전망 36.0% 2006 년 2015 년 (E) 4,766 64.0% 정형데이터 6,842 9,728 77.0% 비정형데이터 12,941 23.0% [ 단위 : 백만달러 ] 16,920 2010 2011 2012E 2013E 2014E 2015E 미국투자은행제퍼리스 (Jefferies) 의 12 년자료에따르면, 기업내부에축적된비정형데이터 (Unstructured data) 비중이 06 년 36% 에서 15 년 77% 로 10 년간 2 배이상급증할것으로전망 비정형데이터는특정문형이나수치로정형화가불가능해빅데이터처리기술에대한수요가증가할전망 12 년 IDC 의발표에따르면빅데이터시장규모가 10 년 32 억 1,700 만달러에서 15 년에는 169 억 2,000 만달러로증가할것으로전망 빅데이터응용분야 빅데이터기술은대규모데이터가생성되는공공분야, 금융 / 통신, 기업등에서서비스개선, 제품및서비스개발, 마케팅, 향후전망예측등에주로활용될것으로전망 응용분야 공공 금융 / 통신 제조및일반기업 기타 출처 : LG CNS, 2011 내용 U-City, USN 데이터수집, 분석, 활용 환경, 방재, 국방, 기상등대용량데이터분석기반시스템구축 SNS 및관련서비스 / N-Screen 서비스 스마트폰사용자의실시간데이터취합및분석 카드사결제정보, 로그정보기반타겟마케팅 제조장비운전데이터수집, 분석 (SPC), 제어모니터링시스템 대용량 EAI, B2Bi 구축 BI 2.0, CRM, ERM, ERP 등의의사결정지원도구시스템 통계데이터기반각종시뮬레이션및예측시스템 온라인쇼핑몰이용자패턴정보분석및타겟마케팅 온라인게임, 연말정산등의일시적 G2C 서비스등 글로벌주요국에서는이미재난방지, 질병통계, 탈세방지등에빅데이터처리기술을활용, 서비스및효율성개선을꾀하고있음 - 공공분야에서미국국세청은 12 년 3 월빅데이터분석을활용해탈세및사기범죄예방시스템을구축, 11 년일본건설성, 통산성등은실시간 GPS 데이터분석을통해최적의교통정보서비스를제공 - 의료분야에서는 12 년미국국립보건원이유전자데이터를공유및분석할수있는시스템을구축할예정이며, 10 년 Pillbox 프로젝트를통해약검색서비스를제공하고이를통해확보한다양한사용자의질병통계데이터를질병의분포및추세를예측하는데활용중임 - 보안분야에서는싱가포르에서국가위험관리시스템 (RAHS) 구축을통해테러발생, 국가적재난, 전염병등의확산대응에이용하고있음 6 6
V. 전망및시사점 빅데이터처리기술은오픈소스분산처리기술인하둡 (Hadoop) 프로젝트에 SI 및솔루션업체가참여하면서하둡기술중심으로생태계가조성될것으로전망, 그러나시장초기단계라시스템구축에필요한인력부족과개인정보관리등의문제가해결과제로남아있음 16 년글로벌 IP 트래픽이 1.3ZB(Zettabytes) 로확대전망 (Cisco, 2012), 12 년글로벌스마트폰시장 6 억대전망 (Oppenheimer, 2011), 15 년기업내부보유비정형데이터비중 77%( 06 년 36%, Jefferies, 2012) 등빅데이터에대한수요가지속적으로증가할전망 빅데이터시장규모는 10 년 32 억 1,700 만달러에서 15 년에는 169 억 2,000 만달러로증가할것으로전망 (IDC, 2012) 빅데이터관련기술은하둡, NoSQL, R 등의처리기술에대한연구가활발히진행되고있으며, 12 년부터 SI 와솔루션업체들이제품을본격적으로출시하고있음 그러나빅데이터시장이아직초기단계라시스템구축에필요한인력역시부족한상태 * 이며생성된데이터활용에있어서도개인정보관리등사생활보호문제해결등의과제가남아있음 * 미국에서는 18 년까지 14~19 만명의빅데이터전문가와 150 만명정도의데이터관리자와분석인력이부족할전망 (McKinsey, 2011) 정부 산 학 연중심의핵심인력개발추진 - 빅데이터시대에는데이터관리하고분석할수있는인력의중요성이증가 - 그러나현재빅데이터시장은초기단계로전문인력이많이부족한상태 시장조사기관인 McKinsey 의조사에따르면미국에서는 18 년까지 14 만 ~19 만명의빅데이터전문가와 150 만명정도의데이터관리자와분석인력이부족할것으로전망 - 따라서, 정부, 산업계, 대학교등을중심으로빅데이터분석전문가, 기술인력양성에노력을기울어야할것으로판단 개인정보보호문제해결을위한정책마련 - 데이터수집, 활용과관련한개인정보침해가능성이있으므로이를방지하기위한정부차원의제도마련과개인정보유출방지기술개발이필요할것으로보임 빅데이터활용을통한서비스모델개발 - 현재빅데이터는수집데이터분석을통해재난방지, 탈세방지, 질병통계등공공분야에주로활용되고있으나, 향후빅데이터분석을통한소비자기호파악을통한맞춤형광고, 기업내의사결정지원도구, 예측시스템등의분야에도활용가능할전망 7 7