빅데이터 자료집-앞붙이-최종.indd



Similar documents

[Brochure] KOR_TunA

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

DW 개요.PDF

김기남_ATDC2016_160620_[키노트].key

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

ETL_project_best_practice1.ppt

Intra_DW_Ch4.PDF

Portal_9iAS.ppt [읽기 전용]

DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx

Agenda 오픈소스 트렌드 전망 Red Hat Enterprise Virtualization Red Hat Enterprise Linux OpenStack Platform Open Hybrid Cloud

빅데이터_DAY key

Model Investor MANDO Portal Site People Customer BIS Supplier C R M PLM ERP MES HRIS S C M KMS Web -Based

Service-Oriented Architecture Copyright Tmax Soft 2005

Semantic Search and Data Interoperability for GeoWeb

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

untitled

歯목차45호.PDF

Oracle Apps Day_SEM

Basic Template

슬라이드 1

15_3oracle

빅데이터처리의핵심인 Hadoop 을오라클은어떻게지원하나요? Oracle Big Data Appliance Solution 01 빅데이터처리를위한전문솔루션이 Oracle Big Data Appliance 군요. Oracle Big Data Appliance 와함께라면더이


160322_ADOP 상품 소개서_1.0

Windows 8에서 BioStar 1 설치하기

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론


슬라이드 1

ecorp-프로젝트제안서작성실무(양식3)

PCServerMgmt7

Backup Exec

슬라이드 1

출원국 권 리 구 분 상 태 권리번호 KR 특허 등록

SAS Customer Intelligence SAS Customer Intelligence Suite은 기업이 당면한 다양한 마케팅 과제들을 해결하기 위한 최적의 통합 마케팅 제품군으로 전사적 마케팅 자원관리를 위한 Marketing Operation Manageme

PowerPoint Presentation

들어가는글 2012년 IT 분야에서최고의관심사는아마도빅데이터일것이다. 관계형데이터진영을대표하는오라클은 2011년 10월개최된 오라클오픈월드 2011 에서오라클빅데이터어플라이언스 (Oracle Big Data Appliance, 이하 BDA) 를출시한다고발표하였다. 이와

PowerPoint 프레젠테이션

vm-웨어-01장

SW¹é¼Ł-³¯°³Æ÷ÇÔÇ¥Áö2013

Semantic Search and Data Interoperability for GeoWeb

Windows Live Hotmail Custom Domains Korea

1217 WebTrafMon II

SANsymphony-V

RUCK2015_Gruter_public

J2EE & Web Services iSeminar

분산처리 프레임워크를 활용한대용량 영상 고속분석 시스템

歯CRM개괄_허순영.PDF

TTA Journal No.157_서체변경.indd

CRM Fair 2004

Level 학습 성과 내용 1수준 (이해) 1. 기본적인 Unix 이용법(명령어 또는 tool 활용)을 습득한다. 2. Unix 운영체계 설치을 익힌다. 모듈 학습성과 2수준 (응용) 1. Unix 가상화 및 이중화 개념을 이해한다. 2. 하드디스크의 논리적 구성 능력

비식별화 기술 활용 안내서-최종수정.indd

スライド タイトルなし

Analyst Briefing

목순 차서 v KM의 현황 v Web2.0 의 개념 v Web2.0의 도입 사례 v Web2.0의 KM 적용방안 v 고려사항 1/29

AGENDA 모바일 산업의 환경변화 모바일 클라우드 서비스의 등장 모바일 클라우드 서비스 융합사례

Microsoft PowerPoint - chap01-C언어개요.pptx

solution map_....

Data Industry White Paper

슬라이드 1

I. - II. DW ETT Best Practice

PowerPoint Presentation

슬라이드 1

IBMDW성공사례원고

_LG히다찌 브로슈어

Microsoft Word - 조병호

따끈따끈한 한국 Azure 데이터센터 서비스를 활용한 탁월한 데이터 분석 방안 (To be named)

Microsoft PowerPoint - R-R1-유충현_ ppt [호환 모드]

클라우드컴퓨팅확산에따른국내경제시사점 클라우드컴퓨팅확산에따른국내경제시사점 * 1) IT,,,, Salesforce.com SaaS (, ), PaaS ( ), IaaS (, IT ), IT, SW ICT, ICT IT ICT,, ICT, *, (TEL)

리포트_03.PDF

Microsoft PowerPoint - Smart CRM v4.0_TM 소개_ pptx

Cloud Friendly System Architecture

08SW

2

차세대 시스템 개발과 스마트 캠퍼스 구축의 시대! 2014년 현재 대학 정보화 화두는 차세대, 스마트 캠퍼스, 개인정보보호 입니다. 대학 정보화 동향 1990년대 후반부터 2000년대 초반 붐처럼 일었던 학사행정 시스템 구축의 시기를 지나 2000년대 중 후반 부터는

PowerPoint Presentation

RED HAT JBoss Data Grid (JDG)? KANGWUK HEO Middleware Solu6on Architect Service Team, Red Hat Korea 1

Oracle9i Real Application Clusters

consulting

Intro to Servlet, EJB, JSP, WS

IBM Business Intelligence Solution Seminar 2005 Choose the Right Data Integration Solution ; Best Practices on EII/EAI/ETL IBM DB2 Technical Sales BI

13 Who am I? R&D, Product Development Manager / Smart Worker Visualization SW SW KAIST Software Engineering Computer Engineering 3

이제는 쓸모없는 질문들 1. 스마트폰 열기가 과연 계속될까? 2. 언제 스마트폰이 일반 휴대폰을 앞지를까? (2010년 10%, 2012년 33% 예상) 3. 삼성의 스마트폰 OS 바다는 과연 성공할 수 있을까? 지금부터 기업들이 관심 가져야 할 질문들 1. 스마트폰은

PowerPoint Presentation

Global Bigdata 사용 현황 및 향후 활용 전망 빅데이터 미도입 이유 필요성 못느낌, 분석 가치 판단 불가 향후 투자를 집중할 분야는 보안 모니터링 분야 와 자동화 시스템 분야 빅데이터의 핵심 가치 - 트랜드 예측 과 제품 개선 도움 빅데이터 운영 애로 사항

Microsoft PowerPoint - CNVZNGWAIYSE.pptx

고객 지향적인 IT 투자와 운영이 요구되는 시대! 2014년 현재 유통, 서비스 업계의 정보화 화두는 BYOD 수용과 고객의 마음을 읽는 분석 입니다. Market Overview _ Cross Industry 의 정보화 동향 유통과 서비스 업계의 IT 환경은 발 빠르

Slide 1

세션 3 (오이식).ppt

Microsoft PowerPoint - S4_통계분석시스템.ppt

서현수

미래 서비스를 위한 스마트 클라우드 모델 수동적으로 웹에 접속을 해야만 요구에 맞는 서비스를 받을 수 있었다. 수동적인 아닌 사용자의 상황에 필요한 정보를 지능적으로 파악 하여 그에 맞는 적합한 서비스 를 제공할 수 새로운 연구 개발이 요구 되고 있다. 이를 위하여,

PowerPoint Presentation

±èÇö¿í Ãâ·Â

Oracle Database 10g: Self-Managing Database DB TSC

리뉴얼 xtremI 최종 softcopy

ORANGE FOR ORACLE V4.0 INSTALLATION GUIDE (Online Upgrade) ORANGE CONFIGURATION ADMIN O

Microsoft PowerPoint - 3.공영DBM_최동욱_본부장-중소기업의_실용주의_CRM

당사의 명칭은 "주식회사 다우기술"로 표기하며 영문으로는 "Daou Tech Inc." 로 표기합니다. 또한, 약식으로는 "(주)다우기술"로 표기합니다. 나. 설립일자 및 존속기간 당사는 1986년 1월 9일 설립되었으며, 1997년 8월 27일 유가증권시장에 상장되

Microsoft 을 열면 깔끔한 사용자 중심의 메뉴 및 레이아웃이 제일 먼저 눈에 띕니다. 또한 은 스마트폰, 테블릿 및 클라우드는 물론 가 설치되어 있지 않은 PC 에서도 사용할 수 있습니다. 따라서 장소와 디바이스에 관계 없이 언제, 어디서나 문서를 확인하고 편집

Transcription:

2012. 9. 작성 및 문의 한국정보화진흥원 빅데이터 전략연구센터 정지선 책임연구원(jjs@nia.or.kr, 02-2131-0533)

I 추진배경 및 목적 Contents II 빅데이터 기업의 추진 현황 1 그루터(Gruter)` `10 2 넥스알(NexR)` `17 3 다음소프트(Daumsoft)` `22 4 사이람(CYRAM)` `29 5 솔트룩스(Saltlux)` `35 6 EMC` `42 7 HP` `51 8 IBM` `57 9 오라클(Oracle)` `62 10 SAS` `68 11 테라데이타(Teradata)` `74

I 추진배경 및 목적

빅데이터 공급 기업의 현황 파악 필요성 ` ` 사용자들이 빅데이터를 이해하고 업무에 활용하기 위해서는 빅데이터 서비스 및 솔루션 공급 현황을 파악하는 것이 필요 - 활용할 소스 데이터(내부데이터, 웹, 소셜 등)와 분석 목적에 따라서 데이터 수집과 분석 방법은 천차만별 - 빅데이터 활용 범위와 목적에 가장 부합하는 효율적인 방식을 찾기 위해서는 각종 서비스와 솔루션에 대한 이해가 중요 기업뿐만 아니라 공공 통신 교육 교통 의료 등 여러 분야에서 제기되는 빅데이터 서비스는 목적과 대상에 맞는 다른 접근법 필요 다양한 고급분석 기법을 활용하여 관계, 패턴, 트렌드, 의미, 선호도, 통계 분석 등 목적에 맞는 분석 결과 도출이 가능 빅데이터 업계 지도(Big Data Landscape) Log Data Apps Vertical Apps Business Intelligence Analytics and Visualization Data Providers Analytics Infrastructure Operational Infrastructure Infrastructure As A Service Structured Databases Copyright C 2012 Dave Feinleib dave@vcdave.com http://blogs.forbes.com/davefeinleib/ 출처 : www.forbes.com/sites/davefeinleib/2012/06/19/the-big-data-landscape 4

` ` IT기업들의 빅데이터 추진 현황은 미래 빅데이터 시장 발전 방향과 차세대 정보화 패러다임을 이해하는데도 유용한 정보 - 최근 IT 업계는 빅데이터 비즈니스 발굴에 주력하며 글로벌 빅데이터 시장에서 주도권을 잡기위한 전략을 강화중 - 빅데이터 중심의 선도기업 뿐만 아니라 신생 IT기업, 전통적인 IT 기업들도 후발주자로 참여하며 빅데이터 시장 경쟁이 본격화 Ⅰ. 추진배경 및 목적 위키본(Wikibon)의 자료에 따르면 빅데이터 시장 규모는 12년 약 51억 달러에서 17년 534억 달러로 10배 이상 성장할 것으로 전망 향후 빅데이터 시장 전망(2012~2017) $60.0 $50.0 Big Data Market Forecast, 2012-2017 (in $US billions) $48.0 $53.4 $40.0 $30.0 $32.1 $20.0 $16.8 $10.0 $10.2 $5.1 $0.0 2012 2013 2014 2015 2016 2017 출처 : Jeff Kelly(2012), Big Data Market Size and Vendor Revenues, Wikibon 1 1) http://wikibon.org/wiki/v/big_data_market_size_and_vendor_revenues 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 5

IT기업들의 빅데이터 추진 동향 ` ` 현재 많은 IT기업들은 기존의 강점과 전문성을 빅데이터 영역까지 확장시켜 새로운 서비스와 솔루션을 마련중 - 글로벌 IT기업들은 빅데이터를 차세대 주력분야로 선정하고, 빅데이터 전문 기업의 인수합병 등을 통해 선도적 전략 수립 - 전통적으로 비즈니스 솔루션에 강점이 있는 기업들은 BI, DW 등에 빅데이터를 접목하고, 고급 분석(Advanced Analysis)을 강화 <글로벌 IT기업의 빅데이터 사업 추진 현황> 기업명 EMC HP IBM Oracle SAS Teradata 빅데이터 사업 추진 현황 데이터 저장부터 관리, 분석까지 빅 데이터와 관한 모든 것을 제공하기 위해 그린플럼, 아이실론 등 빅 데이터 솔루션 업체 및 데이터 관련 다수업체 인수 빅 데이터 스토리지 솔루션(아이실론, 아트모스), 콘텐츠 관리 솔루션(다큐멘텀) BI 솔루션 업체 버티카, 기업용 검색엔진 업체 오토노미 인수 버티카와 오토노미를 결합하여 빅 데이터 분석 시장에 진입 기업경영 의사결정, 경영정보 분석 등 경영지원 전략 수립 서비스 제공 분석용 데이터 저장관리 업체(네티자), 데이터 통합 업체(에센셜), 분석 솔루션 업체(코그너스) 등 비즈니스 분석 관련업체 인수 빅 데이터 솔루션 : InfoSphere BigInsight(Hadoop), InfoSphere Streams 세계적인 DB 업체, 하이페리온 社 를 인수로 분석기술 확보 오라클 빅데이터 어플라이언스 제품 출시 고급 분석(Advanced Analytics)을 위한 HPA(High Performance Analytics) 기반의 SEMMA 방법론 제시 IT+분석+비즈니스 통합 플랫폼 구현(SAS 빅데이터 분석 플랫폼 Solution MAP) 데이터웨어하우징 및 비즈니스 인텔리전스(BI) 전문 업체 비정형 데이터의 고급분석 관리 솔루션 업체 인수(애스터데이터) 애스터 맵리듀스 플랫폼 제시 ` ` 빅데이터의 프로세스의 전 과정을 아우르는 빅데이터 플랫폼부터 특화된 단위와 분야별 서비스까지 다양한 빅데이터 서비스 등장 6

- 빅데이터 수집, 저장, 분석, 표현의 전체 과정을 통합적으로 처리할 수 있는 빅데이터 플랫폼 구축 및 토털솔루션 서비스 제공 - 클라우드 서비스(저장, 관리), 소셜 네트워크 분석/텍스트 마이닝(분석), 시맨틱 검색(수집, 검색) 등 여러 서비스 영역 창출 Ⅰ. 추진배경 및 목적 <국내 IT기업의 빅데이터 사업 추진 현황> 기업명 그루터 넥스알 다음 소프트 사이람 솔트룩스 빅데이터 추진 현황 빅데이터 관련 플랫폼, 기술, 솔루션 전문기업 빅데이터 플랫폼 구축 및 컨설팅 서비스, 빅데이터 분석 및 데이터 제공 서비스, 빅데이터 분석 플랫폼 제공 서비스 구축 넥스알 빅데이터 분석 플랫폼(NDAP : NexR Data Analytics Platform), 넥스알 빅데이터 분석 솔루션(RHive) 구축 SNS 정보 기반 여론 진단 서비스, 소셜미디어 트위터, 블로그 트렌드 분석 소셜미디어 상의 데이터들에서 의미 있는 정보를 찾고, 조직화함으로써 정보 간의 관계나 패턴, 트렌드 등을 분석하는 서비스 제공 소셜 네트워크 분석 소프트웨어 넷마이너(NetMiner) 개발 : 대규모 소셜 네트워크 및 데이터 간의 관계를 계량적으로 분석해 패턴을 파악하고 시각화하는 기능을 제공 소셜 네트워크 분석 응용솔루션 및 컨설팅 제공 비정형 빅데이터 분석 및 시맨틱 기술 전문기업 비정형 빅데이터 분석 플랫폼(truestory), 클라우드 기반 시맨틱 검색 플랫폼(IN2), 시맨틱 기반 빅데이터 추론 플랫폼(STORM), 빅데이터 분석 서비스 플랫폼(O2) 서비스 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 7

보고서 작성 개요 빅데이터 솔루션 및 서비스를 제공하는 IT기업들의 현황을 파악을 통해 - 기업과 조직이 빅데이터 활용 시에 참고할 수 있고, - IT시장의 중요한 패러다임 변화를 이해할 수 있도록 자료 작성 ` (목적) 국내의 빅데이터 관련 기업의 기술 및 솔루션 제공 현황을 파악 ` ` (방법) 국내에서 활동하고 있는 빅데이터 기업을 선정하고, 해당 기업의 담당자에게 빅데이터 추진현황에 관한 원고 작성을 요청 - 빅데이터 국가전략 포럼 창립 초기에 참여한 빅데이터 전문기업을 중심으로 기업 선정 - 각 기업의 빅데이터 담당자들에게 자사의 빅데이터 비즈니스 전략, 기술, 솔루션 등을 소개하는 원고를 의뢰하여 정리 이후에도 포럼 참여기관 및 그 외 다양한 국내 빅데이터 전문기업들의 빅데이터 솔루션과 서비스 추진 현황을 조사하여 추가적으로 보고서를 발간할 계획임 각 기업의 원고작성 담당자 및 원문 출처 그루터, 이전행 미디어랩 이사 넥스알, 김연섭 이사 다음소프트, 권미경 이사 사이람, 하정엽 경영기획팀 팀장 솔트룩스, 여준희 차장 EMC, 강정민 마케팅팀 부장 HP, 최형광 기술컨설팅본부 상무 IBM, 김경전 실장 Oracle, 김상현, Big Data in Oracle, ORACLE KOREA MAGAZINE, 2011 Winter. 참고 SAS, 이진권 솔루션서비스본부 상무 Teradata, 구태훈 이사 ` ` (내 용) 각 기업의 빅데이터 추진 전략 및 비전 소개 - 각 기업의 빅데이터 관련 기술, 서비스, 솔루션의 소개 - 국내외 적용 사례 및 적용 효과 - 향후 발전방향 8

빅데이터 기업의 추진 현황 II 1. 그루터(Gruter)` 2. 넥스알(NexR) 3. 다음소프트(Daumsoft)` 4. 사이람(CYRAM) 5. 솔트룩스(Saltlux)` 6. EMC 7. HP` 8. IBM` 9. 오라클(Oracle)` 11. SAS 12. 테라데이타(Teradata)`

1 그루터(Gruter) 2 그루터의 비전 및 주요 전략 ` ` 그루터는 빅데이터 관련한 플랫폼 및 기술과 솔루션 전문 기업 - 빅데이터 플랫폼 구축뿐만 아니라 구축 이후 최적화 관리가 가능한 종합적인 관리 운영체계를 솔루션 化 해서 제공 ` ` 그루터의 빅데이터 비전 : Data Centric Company - 그루터는 데이터 수집, 분석, 서비스 등 일련의 데이터 프로세스의 전 과정을 경험하고 공유하며 체화하여 최고의 기술력을 보유 - 향후 솔루션 중심의 기술 안정화, 서비스를 통한 운영 안정화 그리고 꾸준한 인력 양성을 통해 글로벌 경쟁력을 유지하고자 함 ` ` 빅데이터 플랫폼 구축 및 컨설팅, 빅데이터 분석 및 데이터 제공, 빅데이터 분석 플랫폼 제공 등의 기술과 서비스 보유 1 빅데이터 플랫폼 구축 및 컨설팅 서비스(Big Data Platform Providing & Consulting Service). 2 빅데이터 분석 및 데이터 제공 서비스(Big Data Analysis & Data Providing Service) 2) 원문 출처 : 그루터 미디어랩 이전행 이사(kusong.lee@gruter.com) 10

- 소셜 데이터와 같은 다양한 빅데이터 수집 분석 서비스 - 데이터 혹은 재 가공된 데이터를 기업 등에 제공 3 빅데이터 분석 플랫폼 제공 서비스(Big Data Ad-hoc Analysis Platform Service) - 개별 기업의 특정 목적에 따라 원하는 분석을 자유롭고 효과적으로 수행할 수 있는 빅데이터 분석 플랫폼 제공 Ⅱ. 빅데이터 기업의 추진 현황 빅데이터 플랫폼, BAAS (BigData Analysis & Application System) ` ` BAAS는 대용량 데이터 수집, 저장, 실시간 분석 및 일괄 분석 등 분석용 데이터의 전체 라이프 사이클을 관리하는 플랫폼 BAAS의 개념도 Front-end 서버 (웹로그, 메일, 블로그 등) Data 저장 SAN Contents Storage NAS Log or Data Data 추출 검색 Collector/ Real-time Analysis NoSQL 검색 서버군 HTTPd 분석 분산 스토리지 Batch Analysis BAAS 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 11

<BAAS의 주요 특징> 특징 데이터수집/ 저장/분석 토탈 솔루션 오픈소스 취약점을 보완하는 추가 컴포넌트 제공 대용량 데이터 저장 탄력적인 확장성 안정성 주요 내용 오픈소스 중심의 소프트웨어 스택 x86 Linux 서버와 SATA/SAS 등 저가의 디스크 사용 분산/병렬 처리로 고성능 데이터 처리 실현 관리 및 모니터링 도구 그루터 자체 개발 다양한 부가 컴포넌트 제공 페타바이트 이상 규모의 원본 데이터 저장 가능 수백억 건 이상의 실시간 트렌젝션 데이터 저장 데이터 증가 시 서비스 중단 또는 프로그램 변경 없이 지속적으로 증설 가능 불필요한 서버는 별도의 작업 없이 즉시 제거 가능 모든 컴포넌트는 장애 발생 시 자가 치유 능력 보유로 지속적인 서비스 가능 모든 데이터는 2 ~ 3중 백업 체계 <BAAS의 주요 기능> 기능 원본 데이터 수집 및 저장 데이터 분석 검색 분산시스템 모니터링 및 Management System - Cloumon 주요 내용 데이터 발생원으로 안정적인 저장소로 저장 파일 기반 저장 및 트렌젝션 데이터 저장 외부 데이터(웹, 사용자 로그, 블로그, 소셜네트워크 등) 수집 지원솔루션 : Flume/Hadoop/HBase/Cassandra 다양한 분석 유형 제공 : 실시간/준실시간/배치 분석 Query 기반의 분석 룰 관리 기능 : 분석 룰 관리 및 분석된 데이터 검색 통합 관리 UI 제공 분석에 필요한 도구 제공 : 데이터 마이닝 알고리즘, Sentiment Analysis 등 알고리즘 또는 작업 관리 도구 제공 지원솔루션 : Esper(실시간분석), Cloustream(준실시간 분석), Hive(배치 분석), 분석을 위한 Rule Manager, M/R, Hive Manager 사용자 별 개인화된 검색 및 전체 데이터에 대한 검색 다양한 검색 조건을 이용한 검색 첨부 파일 검색(txt, doc, ppt, xls, pdf 등) 지원솔루션 : ElasticSearch 빅데이터 관련 솔루션은 대부분 오픈소스이므로 관리 및 모니터링 환경은 취약. 분산된 서버에 대한 클러스터 및 통합 환경 설정 관리 관리용 웹 콘솔 및 Shell 명령 제공 대상솔루션 : Hadoop, ZooKeeper, HBase/Cassandra, Hive, Flume 12

BAAS의 세부구성 내용 데이터 소스/수집기 (각종 로그 데이터) Data Source (Web Server) Thrift Flume Source Agent 데이터 소스/수집기 (FTP, HTTP 등 표준 프로토콜) FTP/ HTTP Temporary Data Source Flume Agent Temporary Thrift Sink Thrift Sink 데이터 수집기/실시간 분석 Thrift Source Flume Collector Logical Node Pipeline-Sink NoSQL HBase Hadoop 검색 Rnaltime Analysis Cluster Monitoring Cloumon 원본 저장소(File/Structured), 준 실시간 분석 HBase RegionServer Hadoop DataNode Serri-Strue tured Origin File 검색엔진(Search) ElasticSearch Index 실시간 분석 결과저장소 (File/Structured) HBase RegionServer Hadoop DataNode Oracle/ MySQL Cluster coordinator Serri-Strue tured Origin File RGB Zookeeper Cloustream 준 실시간 분석 배치분석/저장소 배치분석 Hive Hadoop Mapeduce Hadoop DataNode Rule Manager ARM Analysis Origin File Ⅱ. 빅데이터 기업의 추진 현황 ` ` BAAS는 다양한 오픈 소스와 그루터 자체 기술로 구성된 소프트웨어 스택 솔루션 제공 - 빅데이터 플랫폼에 필요한 전체 기술 스택 및 컨설팅 제공 - 고객의 요구사항에 맞게 최적화된 오픈 소스를 선택하여 빅데이터 플랫폼을 구현(유연성) - 고객의 요구 기능에 따라 필요한 모듈을 개발하여 추가(확장성) 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 13

그루터 빅데이터 플랫폼의 기본적인 소프트웨어 스택 Interface Web Phone Data Visualization Pad Analysis Management (Near)Real-time Analysis Batch Analysis Analysis Job Real-time Analysis Platform (ClouStream) Script Language(Hive, Pig) Job Workflow Engine(cozie, cascade) Analysis Job Monitoring (cloumon) Management Collector (flume, scribe, chukwa) Aggregator Collector (flume, scribe, chukwa) File System (HadoopFS) Data Analysis Platform(hadoop) NoSQL (cloudata) Data Store NoSQL (HBase, Cassandra) Search (ElasticSearch) Cluster Management (Zookeeper) 오픈소스 자체구축 빅데이터 분석 및 데이터 제공 서비스 (Big Data Analysis & Data Providing Service) ` ` 소셜네트워크 데이터 수집 및 분석 서비스 : Seenal.com - 트위터, 페이스북, 블로그 및 기타 소셜네트워크 미디어 등의 데이터 수집 및 분석 서비스 제공 - 기업의 소셜 네크워트 활동과 관련된 모니터링, 분석 정보제공 - 이미지, 인물, 제품 및 이슈등 대한 실시간 분석 서비스 - 메시지, 이슈에 대한 확산 경로 및 확산 요인 분석 - 메시지에 대한 감성, 영향력, 확산 정도 등 효과 측정 - 소셜네트워크 검색 서비스 - 효율적인 성과지표 관리를 지원하는 보고서 기능 제공 14

Ⅱ. 빅데이터 기업의 추진 현황 ` ` 데이터 제공 서비스(Data Providing Service) - 소셜네트워크 분석 및 데이터 제공 서비스 - 기업이 요청하는 원본 Raw Data Crawl & Feeding 서비스 - 분석결과를 직접 서비스 지원하는 API 제공 빅데이터 분석 플랫폼 제공 서비스 (Ad-Hoc BigData Analysis Platform Service) ` ` 빅데이터 분석 플랫폼을 보유하지 않은 기업들에게 다양한 목적과 내용의 빅데이터를 분석할 수 있도록 플랫폼 제공 - 빅데이터 플랫폼 구축에 비용 등의 부담을 느끼는 중소기업이나 부분적인 분석의 필요성만 있는 기업의 경우에 적합한 솔루션 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 15

` ` 그루터가 자체적으로 보유하고 있는 빅데이터 플랫폼을 개별 기업들이 빅데이터를 분석하는데 이용할 수 있도록 서비스 제공 - 소셜 네트워크 데이터의 분석 플랫폼 제공 - On Demand 빅데이터 분석 플랫폼을 제공 - 기업의 Social CRM 구현을 위한 CRM연동 - 빅데이터 분석 모듈의 On Demand 제공 16

2 넥스알(NexR) 3 Ⅱ. 빅데이터 기업의 추진 현황 넥스알 빅데이터 분석 플랫폼 (NDAP : NexR Data Analytics Platform) ` ` Big Data 배치 처리 및 근 실시간 검색 플랫폼, NDAP - 빅데이터 분석을 위한 모든 작업(수집/저장/분석/검색/관리 등) 및 실시간 데이터 질의를 처리할 수 있는 소프트웨어 플랫폼 - ANSI SQL를 기본 언어로 사용하여 신규 개발 및 기존 DB나 DW(Data Warehouse)의 마이그레이션(Migration) 4 이 용이 - 빅데이터 처리 및 향후 데이터 증가에 유연하게 대처할 수 있는 scale-out 구조 3) 원문 출처 : 넥스알, 김연섭 이사(eric.kim@nexr.com) 4) 하나의 운영환경으로부터 더 나은 운영환경으로 옮아가는 과정을 뜻하는 정보통신 용어(네이버 백과사전) 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 17

넥스알 빅데이터 솔루션 NDAP Enterprise RHive Integration of R and Hive Advanced analytics NDAP Enterprise Hive Oracle-to-Hive, Hive workflow, Hive performance monitor, query planner Batch data processing NDAP Data Store HDFS, Sqoop-based data import/export NDAP Search Lucene-based distributed log search engine Time-ranged index sharding NDAP Collector Flume-based data collector Checkpointing for low overhead agents Common data storage Real-time query Streamed data collection NDAP Admin Center Zookeeper-based distributed coordinator Collected-based system/app management <기존 제품과 NDAP의 차별성> 차별성 저비용 고 확장성 구조 다양한 데이터 적재 방법 제공 정형/비정형 관계없이 모두 수용 가능 분산 기반 고성능 검색 기능 제공 (NDAP Search) 데이터 다중화 (2copy, 3copy, ) 주요 내용 RDB 기반의 기존 DW 시스템에 비해 시스템(처리 성능, 저장 용량) 확장이 쉽고 저비용임 다양한 형식의 데이터를 쉽게 적재할 수 있으며, 필요할 경우 플러그인 형식의 확장으로 신규 데이터를 쉽게 적재할 수 있음 정형/비정형 등 데이터 유형에 관계없이 모두 수용 가능 색인 및 검색을 scale-out 구조로 분산화 하여 빅 데이터 수용에 적합 표현이 다양한 검색 질의 언어 제공(기능 확장 중) 특정 노드 장애에 관계없이 seamless한 서비스 가능 18

넥스알 빅데이터 분석 솔루션 : RHive ` ` Big Data 고급 분석 플랫폼, RHive - 가장 대중적인 분석 도구인 R 5 과 검증된 대용량 분산 DW`시스템인 Hive를 결합하여 제작 - 분석가들에게 친숙한 R 환경에서 빅데이터 고급 분석 가능 Ⅱ. 빅데이터 기업의 추진 현황 넥스알 빅데이터 솔루션 RHive Language : R or ANSI-SQL R-Hive Bridge R Export R 기반 분산 처리 Framework 가장 널리 사용하는 Analytic Tool CRAN : 4,000+Rich R library Set 용이한 Library/Procedure 제작 다양한 Visualization, IDE 도구 Hadoop 기반 분산 병렬 처리 ANSI SQL : Low Leaning Cost 용이한 기능 확장 : UDF, UAF NexR Add-on ` ` RHive는 빅데이터를 대상으로 고급 분석(Advanced Analysis)을 할 수 있게 하는 플랫폼 - 고급 분석이란 빅데이터에서 세부 정보, 극단적인 정보도 빠짐없이 분석하여 기존에는 찾을 수 없었던 Big Value를 찾아내는 분석 - RHive는 군집 분석, 회귀 분석, 기계 학습, 이상 징후 예측 분석, 시계열 분석 등의 고급 분석이 가능 5) R 이란 오픈소스 통계분석 소프트웨어임. 무료 소프트웨어이며 각종 API 제공으로 기능 확장 및 타 SW와의 연동이 용이하여 학계 및 산업계에서 널리 쓰이고 있음 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 19

` ` 기존의 상용 분석 도구와 빅데이터 분산처리 플랫폼의 장단점을 분석하여 사용하기 쉬운 빅데이터 분석 플랫폼, RHive 를 제작 - 기존 통계 분석 도구는 DW의 요약된 정보를 대상으로 분석을 수행하므로 outlier 및 long-tail의 숨은 정보를 놓치는 문제 발생 - 또한 분석 대상 데이터가 메모리 위에 존재해야 하므로, 처리 속도 및 저장 용량 면에서 빅데이터 처리가 어려움 상용 분석 도구와 빅데이터 분산처리 플랫폼의 장단점 R 및 기존 상용 분석 도구들 장점 Data Analytics 기법은 수 십 년간 연구되 어 성숙 단계임 데이터 분석가들이 쉽게 사용할 수 있는 자체 분석 언어 제공 시각화, 시스템화를 위한 각종 편의 도 구 제공 데이터 처리 스케일 : TB ~ PB 분산 병렬 처리 기반 수평 확장 가능하여 저비용으로 고성 능 보장 단점 데이터 처리 스케일 : GB 대용량 데이터는 샘플링에 의존 단일 node, In-memory 처리 기반 고성능을 위해서는 H/W 수직 확장이 필요 분석가들이 다루기 어렵다(패키지 언어 에 Lock-in) Library화 된 분석 기법이 많지 않다. 분석 기법 Porting이 어렵다(java, MapReduce, HDFS 등 언어 및 패러다 임 이질성) Big Data Analytics Platform 전통적 분석 도구 분산 처리 플랫폼 분석가들이 쓰기 쉽다 Big Data를 다루지 못한다 Big Data 분석 가능 분석가들이 다루기 어렵다 ` ` RHive는 Hadoop과 같은 분산 처리 시스템 기반의 빅데이터 분석 시스템에 비해서 개발이 용이 - 데이터 분석가들이 많이 사용하는 R 인터페이스를 지원하여 사용하기 쉬운 친숙한 인터페이스 호환성 지원 - 분산화 모델로 이식된 R Basic Function을 제공하고, ANSI SQL 기반의 Hive-QL로 개발 가능하여 개발이 상대적으로 쉬움 20

- 또한 맵리듀스 모델(MapReduce Model)을 R 개발자가 이해하기 쉽도록 추상화한 프레임워크 제공 - 맵리듀스에 대한 지식이 없이도 분산 모델의 프로그래밍이 가능 ` ` RHive는 공개 소프트웨어(OSS)로 개방(Apache License Version 2) - http://www.github.com/nexr/rhive - http://cran.r-project.org/web/packages/rhive - R-Hive Integration 기능, R-HDFS Integration 기능 및 분산 처리화 된 R 기본 함수(range, mode, xtabs, cut, by 등)를 제공 Ⅱ. 빅데이터 기업의 추진 현황 ` ` RHive의 상용 버전으로 Enterprise RHive 제작 - RHive의 기본 기능 외에 각종 편의 도구 및 분산화 된 분석 알고리즘 패키지를 제공 - KMeans, Sampling, Scatter Plot, Simple Linear Regression 등 분산화 된 분석 알고리즘 제공(알고리즘 셋(set) 추가 확장 중) - 개발 도구로 SSO(Single-Sign-On) 연동된 RStudio 6 사용 가능 - RHive 및 보고서 Action을 기술할 수 있는 웹기반 워크플로우(Workflow) 관리 기능 제공 - 시스템 모니터링/관제/작업 관리/설정 관리 등의 기능을 제공하는 웹 기반 통합 관리 콘솔 기능 제공 6) RStudio는 R을 위한 무료 오픈소스 통합 개발 환경(IDE)임(사이트 : rstudio.org). 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 21

3 다음소프트(Daumsoft) 7 소셜미디어 분석을 위한 다음소프트의 전략 ` ` 다음소프트는 고도의 자연 언어 처리 기술과 방대한 언어 자원을 기반으로 소셜미디어 등 대용량의 텍스트 분석 서비스를 제공 - 소셜미디어 상의 데이터들에서 의미 있는 정보를 찾고, 조직화함으로써 정보 간의 관계나 패턴, 트렌드 등을 분석하는 서비스 - 비정형 텍스트 데이터인 소셜미디어 데이터를 자연 언어 처리 기술인 텍스트 마이닝(text mining) 기법 등을 활용하여 분석 <다음소프트의 소셜미디어 분석 서비스> 기술 범주 관심도 분석 연관어 분석 감성 및 긍부정 분석 세부 정보 정확도 높은 단어 및 개체명 인식을 통해 이용자가 관심이 있는 키워드 혹은 개체명이 특정 소스, 특정 기간의 문서에서 얼마나 나타났는지를 시계열로 확인할 수 있는 버즈 분석 서비스 관심 키워드/개체명이 어떤 키워드/개체명과 특정 소스, 특정 기간의 문서에서 얼마나 연관되어 나타났는지를 시계열로 확인할 수 있는 연관어 분석 서비스 관심 키워드/개체명이 어떤 속성어/감성어와 특정 소스, 특정 기간의 문서에서 어떠한 양상(긍정, 부정)으로 나타났는지를 시계열로 확인할 수 있는 속성 및 감성 분석 서비스 7) 원문 출처 : 다음소프트, 권미경 이사(fanto@daumsoft.com) 22

기술 범주 이슈 분석 영향력자 분석 소셜미디어 계정 분석 세부 정보 관심 키워드/개체명과 관련된 이슈의 발생과 변화를 감지하고 모니터링할 수 있는 이슈 분석 서비스 관심 키워드/개체명과 관련된 버즈를 발생시키는 영향력 있는 사용자를 감지하고 모니터링할 수 있는 사용자 영향력 분석 서비스 이용자/기업의 소셜 네트워크 계정에 대한 리트위트, 맨션 등의 상호작용을 모니터링하고 대응할 수 있는 계정 분석 서비스 Ⅱ. 빅데이터 기업의 추진 현황 ` ` 다음소프트는 잘 구성된 규칙적 알고리즘, 방대한 언어자원, 통계정보 등 자연 언어 처리를 위한 최고 수준의 기술 보유 - 오랜 연구 개발 경험을 통해 정확도가 높은 단어를 인식하고, 단어의 구조를 파악하는 형태소 분석 기술 보유 - 문장 내에서 단어 간의 관계를 파악할 수 있는 문장 분석 기술 보유 - 개체명 사전, 사물과 상황에 대한 주관적 평가의 표현에 사용되는 속성어와 감성어 사전 등의 방대한 언어 자원 구축 <빅데이터 분석을 위한 다음소프트 보유 기술> 기술 범주 자연어 처리 기술 데이터마이닝 기술 문서 변환 기술 지식 구축 및 관리 기술 Ontology 관련 기술 기타 보유 기술 세부 정보 형태소 분석 기술, 품사 태깅 기술, 복합명사 인식 기술, 개체명 인식 기술 특성 추출 기술, 카테고리 분류 기술, 군집화 기술, 토픽 연관성 분석 기술, Fact 추출 기술, SNS 분석 기술 텍스트 추출 기술, 메타 정보 추출 기술, 표준 포맷 변환 기술 사전 구축 및 관리 기술, DB 구축 및 관리 기술, Ontology 구축 및 관리 기술 Ontology 자료구조(기술 언어) 트렌드 분석 기술 ` ` 기업들은 위기 감지, 소비자 반응 분석, 소비자 트렌드 및 행동 연구, 커뮤니 케이션 활동 평가 등에 소셜미디어 분석을 활용 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 23

<기업들의 소셜미디어 분석서비스 도입 목적> 도입 목적 Risk Monitoring Market Research Trend Watching Communication Evaluation 설명 자사 관련 이슈에 대한 조기 감지 및 대응 자사 제품/브랜드에 대한 소비자 반응 조사 소셜미디어를 통한 소비자 트렌드 및 행동 연구 커뮤니케이션 활동을 평가하기 위한 SNS 모니터링 빅데이터 관련 서비스 및 솔루션 ` ` 빅데이터 분석을 위한 Hub 솔루션 : SOCIALmetrics TrendMap - 소셜미디어 분석을 위하여 개발된 허브 시스템으로 제품, 브랜드, 산업 및 사회현상이나 트렌드 분석에 주로 활용 < 소셜메트릭스 TrendMap 2.0 의 분석 환경 및 기능> 제공 언어 분석 대상 주요 분석결과 한국어 블로그, 트위터, 미디어(뉴스) 관심도분석, 연관어분석, 감성분석, 분류분석, 영향력자 분석 24

` ` 실시간 소셜미디어 분석 및 모니터링 서비스 : 트윗몹 - 트위터 상에서 공유되고 있는 거의 모든 종류의 콘텐츠 링크를 실시간으로 모아 프리뷰를 제공하는 큐레이팅 서비스 < 트윗몹(www.tweetmob.co.kr) 의 분석 환경 및 기능> 제공 언어 한국어 Ⅱ. 빅데이터 기업의 추진 현황 분석 대상 주요 분석결과 트위터 트위터에서 공유되는 다양한 콘텐츠링크를 주제별로 프리뷰 ` ` 소셜메트릭스서비스의 기업용 버전 : SOCIALmetrics Biz - 지정된 기업, 제품(서비스)에 대한 상시 모니터링, 소셜미디어 중심의 디지털 마케팅 효과 분석, 마케팅 타겟 발굴, 인플루언서 분석 제공 < 소셜메트릭스 Biz(http://insight.some.co.kr) 의 분석환경 및 기능> 제공 언어 분석 대상 주요 분석결과 한국어 블로그, 트위터 실시간 이슈 모니터링, 이슈 히스토리, 계정분석(트위터), 키워드탐색 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 25

` ` 소셜메트릭스 Enterprise edition : SOCIALmetrics Enterprise - 다양한 수집원과 분석 카테고리를 활용하여 기업의 제품, 브랜드 분석 및 캠페인 분석 결과를 제공 < 소셜메트릭스 Enterprise 의 분석 환경 및 기능> 제공 언어 분석 대상 주요 분석결과 한국어, 영어, 중국어 블로그, 트위터, 페이스북(팬페이지), 포럼, 포털, 쇼핑몰 및 기타 전문 리뷰 사이트 브랜드 제품별 온라인버즈 점유율변화, 피쳐별 긍부정 분석, 캠페인효과분석, 사이트별 분석, 리포팅을 위한 각종 통계 26

공공분야 적용 사례 ` ` 국가권익위원회 - 온라인 민원정보분석시스템 구축 - 국가권익위원회 홈페이지 민원, 제안, 콜센터 상담을 통해 축적된 민원 데이터를 분석하여 민원이 정책에 환류될 수 있도록 지원 - 정보의 획득 및 이슈 민원 분석시간 단축 등을 통한 업무효율화 - 의미기반의 다차원 분석을 통한 개선사항 조기발견 및 선제적 대응을 목적으로 온라인 민원정보분석시스템 구축 Ⅱ. 빅데이터 기업의 추진 현황 국가권익위원회 온라인국민소통시스템(2차년도) ` ` 국가대표포털(www.korea.go.kr) 콘텐츠 이용 활성화를 위한 소셜 트렌드 분석 - 최근 3년간의 블로그 데이터를 대상으로 국민의 관심사 및 서비스 콘텐츠에 대한 관심도를 분석 - 국민들의 월별 관심사 파악을 통해 시의적인 콘텐츠 및 서비스 제공 - 관심사에서 주요 언급되는 내용을 분석하여 국민의 니즈를 반영한 콘텐츠 구성에 활용 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 27

대한민국정부포털 콘텐츠 이용활성화를 위한 트렌드 분석 연말정산간소화에 대한 관심도 변화 및 연관어 3500 3000 2500 2000 1500 1000 500 0 2008-01-01 2008-04-01 2008-07-01 2008-10-01 2009-01-01 2009-04-01 2009-07-01 2009-10-01 2010-01-01 2010-04-01 2010-07-01 2010-10-01 2011-01-01 2011-04-01 2011-07-01 연말정산 연말정산간소화 순위 연관어 문서수 1 필요하다 697 2 가능하다 263 3 다양한 103 4 달라지다 97 5 편리하다 57 6 쉽다 57 7 편리한 54 8 불편 57 9 큰 기대 41 10 아름다운 41 11 간단한 38 12 어렵다 36 13 어려운 32 14 다르다 29 15 간편하다 29 16 새로운 28 17 기대 28 18 불만 23 19 까다롭다 20 20 신속한 18 28

4 사이람(CYRAM) 8 Ⅱ. 빅데이터 기업의 추진 현황 소셜 네트워크 분석 전문기업 사이람 ` ` 사이람은 소셜 네트워크 분석(SNA)에 기반하여 개체 데이터와 관계 데이터를 함께 분석할 수 있는 통합 데이터 마이닝 기업 - 데이터 수집, 모델링 및 처리, 알고리즘 개발, 분석, 시스템 구축, 컨설팅 등 데이터 마이닝 종합 솔루션 제공 <소셜 네트워크 분석 응용 분야 및 적용사례> 주요 기능 문헌/정보관리 인사조직/지식경영 범죄수사/사기적발 내용 지식지도 시스템 연구자, 저널, 키워드 등 지식의 구성요소간 관계를 맵으로 시각화하고, 내비 게이션 및 R&D 동향에 대한 효과적 탐색 지원 대표사례 : 한국산업기술평가원(2011), KISTI(2011) 인적자원 네트워크 관리 시스템/지식 네트워크 관리 시스템 구성원, 부서, 업무, 역량, 지식 등 조직 자원 간의 관계를 분석하여 효율적인 조직 자원 배분과 전략 경영 지원 대표사례 : 현대 모비스(2011), 한국 컨텐츠 진흥원(2010) 네트워크형 범죄수사/사기적발 지원 시스템 혐의자들 간의 드러나거나 숨은 관계에 대한 수사를 가능하게 함으로써 불법 증권거래 및 보험 사기 적발지원 대표사례 : 금융감독원(2010), 교보생명(2009) 8) 원문 출처 : 사이람, 경영기획팀 하정엽 팀장(hazime98@cyram.com) 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 29

주요 기능 소셜 미디어분석 마케팅/고객관리 내용 소셜 미디어 모니터링 시스템 소셜 미디어 분석을 통한 위기 관리, 여론 조사, 시장동향 파악 대표사례 : 정당(2012), 공공기관(2011), 언론사(2011) 소셜 마케팅 시스템/고객관계 네트워크 관리시스템 구매 및 활동이력, 고객 관계 네트워크를 통합 활용해 핵심 영향력자, 고객 커뮤니티를 파악하고 고객관리의 효율성 향상 대표사례 : 도서유통사(2011), 통신사(2008) 소셜 네트워크 분석 전문 소프트웨어 : NetMiner ` ` NetMiner는 국내 기술로 개발된 소셜 네트워크 분석 소프트웨어 - 노드와 링크로 이루어진 데이터를 분석하고 시각화 - 전세계 50여개국 대학, 정부/공공기관, 글로벌 기업 고객 확보 <NetMiner의 주요 특징> 주요 특징 대용량 네트워크 처리 최신 SNA 분석지표 탑재 상호작용이 원활한 시각적 분석 다양한 통계분석과 차트 기능의 포함 내용 최대 1백만 개의 노드로 구성된 네트워크 처리 SNA 표준 지표, 다양한 최신 분석 지표를 신속하게 반영 사용자의 분석 의도와 편의성을 반영한 다양한 기능 제공 노드와 링크를 각 속성에 따라 자유롭게 스타일링 할 수 있을 뿐만 아니라, 네트워크 지도상에서 자유롭게 노드와 링크의 이동이 가능 다양한 통계분석 기능과 차트가 포함되어 있어 통합된 분석환경을 제공 외부 통계 프로그램을 사용하지 않고서도 다양한 분석 가능 ` ` 대용량 데이터 최적화 알고리즘 구현으로 유연한 분석 수행 - NetMiner는 최대 1백만 개의 노드와 1천만 개의 링크를 처리할 수 있으며, 대용량 데이터 처리에 최적화된 알고리즘 구현 30

` ` NetMiner는 다양한 SNA(Social Network Analysis) 방법론과 이론을 포함하는 포괄적인 범위의 네트워크 지표와 분석모델들을 제공 - 기존 통계분석 모델과 차트 기능이 내장되어 외부 통계처리 프로그램을 사용하지 않고 다양한 분석 수행 가능 NetMiner의 분석모델과 차트기능 예시 Ⅱ. 빅데이터 기업의 추진 현황 ` ` NetMiner는 분석과 시각화가 유기적으로 결합되어 탐색적인 데이터 분석이 가능하며 분석결과를 직관적으로 이해하는데 도움 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 31

NetMiner의 시각화 사례 및 UI <NetMiner 응용분야 예시> 주요 기능 온라인 네트워크 분석 고객 네트워크 분석 조직 네트워크 분석 범죄 네트워크 분석 지식 네트워크 분석 내용 트위터와 같은 온라인 소셜미디어 상에 형성되는 여론이나 네트워크 등을 분석하고 시각화 고객의 구매 및 활동 이력, 고객간 관계 네트워크를 분석하여 다양한 마케팅 활용에 활용 조직구성원, 부서, 업무, 역량 등 조직 내 인적자원 간의 공식적, 비공식적 관계를 분석하고 시각화 혐의자들 간의 드러나거나 숨은 관계(covert/overt network)를 분석하여 시각화 연구나, 저널, 키워드 등 지식의 구성요소 간 관계를 분석하고 시각화 네트워크 분석 엔터프라이즈 솔루션 : NetMetrica ` ` NetMetrica는 엔터프라이즈 환경에서의 대용량 네트워크 데이터 속에 숨겨진 패턴과 가치 있는 정보를 찾아내는 데이터 분석 솔루션 - 영향력 있는 노드(Node: 사람, 아이템 등) 추적, 행위 패턴 분석, 연결경로 추적, 노드의 역할 분석, 응집그룹 판별, 유사성 분석 32

NettMetrica의 시스템 아키텍처 및 분석 프로세스 Resource Layer Customer DW Legacy Network Data Mart Network Data NetMetrica Analysis Layer Analyzed Network Data Mart Visualize Layer NetViz manager NetViz Service Page Ⅱ. 빅데이터 기업의 추진 현황 Configuration Handler Administration Layer Log Handler 시스템 운영을 위한 관리/감독 기능의 집합 On-Demand Analysis Client Request Gateway Data Processing Modules Data Retrieval Transform Preprocess Postprocess Interface Layer Meciation Layer Request Analyzer Analysis Layer Network Analysis Modules Hub Scorting Path Search Script Scheduler Script Script Manager Launcher Community Group Detection Social Filtering Module Controller Role Identification Similarity 엔진에 분석을 요청하는 역할을 하는 기능 및 시스템 구성 요소의 집합 Interface Layer로부터 수취한 분석 요청을 해석한 결과 및 Storage Layer에 저장된 데이터를 Analysis Layer의 분석 모듈에 전달하기 위해 필요한 매개 기능의 집합 데이터 처리 및 분석을 위한 기능들의 집합으로 독립적인 분석 단계의 단위인 모듈 로 구성되어 있음 Data Manager Internal Storage Internal DB Storage Layer Internal File System External Storage DB NAS 데이터의 저장, 관리, 전송을 위한 기능 및 시스템 구성요소의 집합 ` ` 대용량 네트워크 분석이 필요한 다양한 응용영역에서 데이터 처리, 시각화 솔루션 등과 연계하여 적용 가능 <NetMetrica 특장점> 특장점 대용량 네트워크 데이터 분석 내용 수천만 노드, 수십업 링크 이상으로 구성된 네트워크 데이터를 처리할 수 있는 구조와 기능을 제공 (4천 5백만 노드, 12억 링크로 구성된 데이터로 Eigenvector Centrality를 계산하는데 약 3시간 소요) 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 33

특장점 사용자에게 적합한 분석 환경 제공 스케줄 분석 지원 기존 시스템과의 유연한 연동 운영체제에 독립적인 시스템 운영 가능 실시간 SNA API 지원 내용 분석 서버에서 스크립트 기반의 자동화된 처리, 클라이언트로부터의 on-demand 분석요청 처리를 동시에 지원 내장 스케줄러를 통한 분석 예약기능 지원 (정해진 시간에 분석 실행, 주기적인 배치 처리 지원) NetMetrica의 내부 인터페이스 레이어를 통해 기존 시스템의 데이터 및 애플리케이션과 유연하게 연동 JAVA 가상 머신에서 운영되어 기존 운영체제 환경에서 독립적인 시스템을 유지 실시간 경로 검색 인터페이스를 이용한 웹 서비스 구현 가능 NetMetrica 주요 기능 개체 간 연결 경로 검색 두 노드간의 최단 연결 경로를 실시간으로 검색 NetMetrica의 기본 프레임워크 데이터를 다루는데 필요한 기본적인 기능과 네트워크의 기본적인 특성을 파악하는데 필요한 알고리즘 제공 관리도구, 요청처리, 외부 시스템과의 인터페이스, 스케줄러 등의 기능 포함 커뮤니티 판결 대규모 네트워크 데이터 내에 숨겨져 있는 커뮤니티 및 그룹을 추출 네트워크 영향력 지수 분석 네트워크 상에서 개체들의 구조적 중요성을 평가(중심성 분석) 특히, 소설 네트워크에서 개인별 관계 영향력 지수를 산출하여 핵심 영향력자를 선별 행위와 관계 데이터를 통합 활용한 아이템 추천 협업 필터링을 통한 추천엔진 제공 사용자의 행위 데이터와 사용자간 관계 데이터(소셜 네트워크)를 통합 활용하여 최적의 추천 아이템을 선정 개체들간의 유사성 분석 동일 유형의 개체간 또는 이중 개체간 관계 패턴의 유사성 지수를 산출 34

5 솔트룩스(Saltlux) 9 Ⅱ. 빅데이터 기업의 추진 현황 솔트룩스의 경쟁력 및 사업영역 ` ` 솔트룩스는 비정형 빅데이터 분석 및 정보 마이닝, 시맨틱 웹, 유비쿼터스 컴퓨팅 등 차세대 웹과 지식 서비스 전문기업 - 시맨틱 기술 기반의 정형 비정형 빅데이터의 분석 및 지능화 서비스 제공 - 온톨로지와 시맨틱 기술을 토대로 한 시맨틱 기술 기반의 지능형 검색 부분에서 기술 경쟁력 보유 솔트룩스 주요 사업영역 Knowledge Communication Company 기술/사업 컨설팅 소프트웨어 솔루션 혁신 서비스 초대용량 시맨틱 검색 고정밀 텍스트 마이닝 소셜 검색 및 분석 지능형 웹 시맨틱 웹, LCD 온톨로지, 추론엔진 소셜 미디어 분석(트랜드, 평판) 시맨틱 검색 데이터 지능화 서비스 개인화, 추천 상황인지, Geo-Semantic 지능형 모바일 서비스 9) 원문 출처 : 솔트룩스, 여준희 차장(june820@saltlux.com) 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 35

오라클, SAP, 온토프라이즈, STI2, 프란츠 등 미국 및 유럽의 글로벌 기업 및 연구 단체 들과 공동연구 및 협력을 통해 세계적인 기술력 보유 유럽의 대규모 연구사업인 Larkc(Large Knowledge Collider) 프로젝트 중 FP6, FP7 (한화 100조원 규모) 등 유럽의 시맨틱 및 빅데이터 연구 프로젝트에 참여(위치기반 시맨틱 소셜미디어 분석엔진 개발) 비정형 빅데이터 분석 플랫폼, 트루스토리(truestory) ` ` 트루스토리(www.truestory.co.kr)는 클라우드 컴퓨팅과 인공지능 기술이 결합된 정형+비정형의 빅데이터 분석을 수행 - 솔트룩스 고유의 시맨틱(Semantic) 기술이 적용된 워크플로우 기반의 심층 분석이 가능 - 소셜 빅데이터 분석뿐 아니라 기업 빅데이터 분석, 통신 및 금융 빅데이터 분석 등 다양한 도메인에 활용 트루스토리 아키텍쳐 빅 데이터 분석 플랫폼 심층 분석 서비스 기대 효과 분석 서비스 응용 및 시각화 소셜 데이터 기업 데이터 금융 데이터 통신 데이터 안보 데이터 의료 데이터 분석 워크플로우 시스템 분석 서비스 컴포넌트 트랜드, 분류, 군집, 사히망, 인물, 감성 분석 기술 인프라 자연어처리, 기계학습, 통계, 시맨틱/추론 데이터 수집/통합/관리 인프라 분산, 병렬처리 인프라 하둡, NoSQL(HBASE, mongodb,...) 사회, 시장 트랜드 분석 고객, 시민 목소리 분석 제품, 서비스 평판 분석 경쟁자 모니터링, 분석 사업 리스크 감지, 분석 부정 사용자, 비리 감지 실시간 마케팅 최적화 경쟁 전략 최적화 등적 비용 최적화 신 사업, 정책 발굴 위험 조기 감지 사전 대응 클라우드 컴퓨팅 인프라 36

` ` 현재 트루스토리 플랫폼을 사용한 시즌`1 서비스로 정치인 소셜 빅데이터 분석 서비스 를 제공 - 블로그, 뉴스, 트위터 등 약 2억 건 이상의 웹 및 소셜 미디어 데이터를 실시간 수집, 분석 - 정치인 관심도, 호감 비호감 등의 평판, 비교 분석 등의 결과 제공 Ⅱ. 빅데이터 기업의 추진 현황 클라우드 기반 시맨틱 검색 플랫폼 : [IN2] ` ` [IN2]는 클라우드 컴퓨팅 및 의미 기반 대용량 정보 검색, 텍스트 마이닝 (Text Mining), 지식 표현, 추론 기술이 융합 적용 - 손쉬운 연동 및 확장이 가능하며 초대용량 분산 클라우드 지원 - 비정형 콘텐트의 의미적 융합 분석 및 내 외부 정보의 융합 검색 분석을 지원할 수 있는 클라우드 기반 시맨틱 검색 플랫폼 ` ` 시맨틱 검색엔진 : [IN2] Discovery 시맨틱 검색엔진 [IN2]Discovery - 의미 기반 연관정보의 시맨틱 검색과 분석, 토픽 랭크 기반의 시맨틱 네트워크 분석, LOD (Linked Open Data) 적용이 가능한 검색 엔진 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 37

` ` 클라우드 지원 통합 검색엔진 : [IN2]DOR - 자체 클라우드 컴퓨팅 기능을 내장하고, 빅 데이터 시대에 적합한 고가용 통합 검색 엔진 - 초 대용량 검색, 다양한 종류의 비정형 데이터 대응, 실시간 생성/유통 되는 스트림 데이터의 인덱싱과 검색을 제공 ` ` 하이브리드 자동분류 엔진 : [IN2]HBC - 방대한 양의 다양한 비정형 문서들을 사전 정의한 분류체계로 실시간 자동 분류하는 대용량 고정밀 자동 분류 시스템 ` ` 스토리지 일체형 사내 검색포털 : [IN2]SearchBox - 파일서버와 개인 PC의 공유문서를 언제 어디서나 정확하고 빠르게 찾아서 지식으로 활용할 수 있게 지원 시맨틱 기반 빅데이터 추론 플랫폼 : STORM ` ` STORM은 분산된 비즈니스 정보들로부터 시맨틱 메타데이터의 추출, 통합, 저장, 관리 및 활용하기 위한 시맨틱 통합 플랫폼 - 기반 구조, 응용 프레임워크, 개발 방법론을 제공 - 온톨로지 공학 통합 환경, 견고하고 확장성 있는 시맨틱 메타데이터 처리, 효과적이고 생산적인 온톨로지 구축 도구 제공 - 강력한 질의 및 추론 성능, 쉽고 유연한 응용 시스템 개발 지원 ` ` 초대용량 트리플 저장, 질의, 추론 플랫폼 : STORM SOR - 시맨틱 메타데이터의 생성, 저장, 관리, 질의와 추론을 가능하도록 하는 초대용량 시맨틱 컴퓨팅 프레임워크 38

STORM SOR Query & Reasoning Instantiation Managing Indexing & loading Data Storage / Retrieval Integration / Application Interface Driver Manager Administration System Managing Ontology Browsing Instance Managing Query Managing User & Authority Ⅱ. 빅데이터 기업의 추진 현황 Repository Managing TDB BigOWLIM AllegroGraph The others ` ` 소셜 서치 & 지식 네트워크 분석 엔진 : STORM SSAMZIE - 비정형 정보로부터 소셜 네트워크와 시맨틱 네트워크를 자동 추출하고 지식 베이스로 통합하는 소셜 검색 및 지식 네트워크 분석 엔진 ` ` 의미정보 추출과 온톨로지 인스턴스 자동생성 엔진 : STORM Semano - 대용량 비정형(일반 텍스트) 혹은 반정형 정보들로부터 온톨로지 인스턴스 생성을 자동화하기 위한 고성능 어노테이션(Annotation) 도구 ` ` 시맨틱 인스턴스 데이터 자동생성 엔진 : STORM Transformer - DBMS 또는 텍스트 파일에 존재하는 정형화된 데이터를 온톨로지 스키마 간의 매핑을 통해 인스턴스 데이터로 자동 생성하는 변환 모듈 ` ` 대용량 온톨로지 라이브러리 시스템 : STORM COMET - 기업이 보유하고 있는 시맨틱 데이터 저장소, 추론엔진, 작성된 온톨로지 (Ontology)들을 통합 관리하기 위한 기반구조 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 39

빅데이터 분석 서비스 플랫폼 : O2 ` ` O2는 소셜 미디어 상의 지식 콘텐츠 수집 및 분석을 위한 분산 인프라와 시맨틱 기술 기반의 빅데이터 분석 융합 서비스 플랫폼 - 소셜 미디어 분석 기반 지식 콘텐트 제공 - 대용량 클라우드 컴퓨팅 인프라 및 데이터 수집 통합 관리 인프라 ` ` 비정형 빅데이터 분석 플랫폼 : Truestory(www.truestory.co.kr) - 다양한 형태의 소셜 빅데이터를 수집하여 제품 정치 사회 등과 관련된 이슈 평판 트렌드 영향력에 관한 분석을 지원 ` ` 스마트 큐레이션 플랫폼 : Ziny.us - 소셜 빅데이터 분석과 사용자 선호 기계학습 자동추천 등의 인공지능 기술이 융합된 미래형 소셜 플랫폼 - 스마트 큐레이션 및 클라우드 퍼블리싱 기반의 멀티 플랫폼과 n-screen을 지원하는 개인화된 소셜 매거진 서비스 제공 스마트 큐레이션 플랫폼, 지니어스 40

솔트룩스의 빅데이터 분석 구축사례 분야 및 목적 학술 빅데이터 : 전문가 추천 (부산 지식 네트워크 서비스) 내용 부산 지역 전문가들의 논문, 기고 등을 분석해서 전문 지식 네트워크 도출 관련된 전문가들을 연결, 추천 전문가들 간의 친밀도나 소셜 네트 워크 분석 Ⅱ. 빅데이터 기업의 추진 현황 기술 빅데이터 : 트랜드 센싱 (삼성전자 신기술 센싱 및 트렌드 분석) 삼성전자 내부 지식정보, 국내외 학술 자료, 과학기술 동향 분석 기술 문서들의 트렌드, 특정 기술의 연관관계망 분석, 기술검색 서비스 등 제공 고객 빅데이터 : 고객 VOC 분석 (KT & 도로공사 VOC 분석) 비정형 VOC 데이터 분석(통계, 분석 기반의 텍스트 마이닝) 고객 불만`/`니즈 추출, 상품`/`서비스`/` 프로세스 측면의 연관 정보 분석 국방/안보 빅데이터 : 정보 분석 (통일부 정보분석 시스템) 각 부문별로 도출한 위험관리 지표 체계를 정보시스템 DB와 연계 예측되는 위협요인 및 행동패턴, 특이 동향에 따른 대응전략 수립을 지원 기업 빅데이터 : e-discovery (기업 이메일 네트워크 분석) 스마트 시티 빅데이터 : 지능형 u-city 관제 시스템 (국토해양부 u-city 관제 시스템) 기업의 비정형 정보로부터 시맨틱 소셜 네트워크 도출 및 지식 유통 구조를 분석하는 시스템 조직 내의 문서들로부터 의미적 관계를 발견하여 통합된 지식 생성 u-city 사업에서 상황인지를 위해 시맨틱 웹 기술과 추론 기술 적용 u-city의 지하 매설물 관리에 활용할 수 있는 지능형 관제 시스템을 구현 통신 빅데이터 : 개인화, 맞춤 추천 (모바일 소셜 네트워크 분석) 모바일 소셜 네트워크 분석 시스템 구현 사용자의 행동 패턴 학습을 통해 개인 선호 정보 및 서비스 제공 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 41

6 10 EMC2 전략 방향 ` ` EMC는 그린플럼(Greenplum), 아이실론(Isilion) 등 빅데이터 관련 솔루션 업체를 전략적으로 인수 - 그린플럼은 대규모 데이터 클라우드와 데이터 분석 서비스의 핵심이 되는 데이터 웨어하우징(Data Warehousing) 기술을 보유 - 아이실론은 스케일 아웃 NAS 스토리지 부문의 글로벌 선도 업체로서 데이터 관리를 위한 강력하고도 간편한 솔루션 제공 스케일 아웃(Scale-out) 스토리지인 NAS(Network Attached Storage)는 데이터 저장 용량을 바로 확장할 수 있는 장점이 있어 데이터가 급격히 늘어날 경우 이에 대해 빠르게 대응 가능 - EMC는 향후에도 빅데이터 시장의 선도적 입지를 강화하기 위해 지속적으로 관련 업체를 인수할 계획 ` ` 데이터 과학자들로 구성된 애널리틱스 랩(Analytics Lap) 부서를 운영하는 등 데이터 과학자(Data Scientist) 확보 및 양성에 노력 - `11년 5월 세계적인 데이터 과학자 서밋(Data Scientist Summit) 을 개최하여 약 500명의 데이터 과학자 및 업계 리더들이 함께 참여 10) 원문 출처 : EMC, 마케팅팀 강정민 부장(Mina.Kang@emc.com) 42

- 11년 말 데이터 과학 과 빅데이터 분석 교육 및 자격증 과정 신설 - EMC 산학협력 프로그램인 EAA(EMC Academic Alliance)에 참여하고 있는 40여 국가, 700개 이상 기관에 데이터 과학, 빅데이터 분석 커리 큘럼을 제공 한국EMC는 EAA 프로그램의 첫 대상으로 숭실대학교를 선정, 정보인프라스트럭처 과정에 대한 지원을 하고 있으며 데이터 과학에 관련한 커리큘럼 역시 빠른 시일 내에 제공할 계획 Ⅱ. 빅데이터 기업의 추진 현황 빅데이터 통합 분석을 위한 EMC 그린플럼(Greenplum) 11 ` ` EMC 그린플럼은 단일 어플라이언스 내에서 정형 비정형 데이터의 Seamless한 상호 연계 처리 및 공유 기능을 제공 - 정형 데이터 분석을 위한 DB모듈과 비정형 데이터 분석을 위한 하둡 모듈을 단일 어플라이언스 내에서 지원 EMC 그린플럼 어플라이언스의 구조 The Power of Data Co-Processing Greenplum Chorus Analytic Productivity & Tool Integration Data Computing Interfaces SQL, MapReduce, In-Database Analytics, Parallel Data Loading (batch or real-time) SQL DB Engine Compute & Storage Storage parallel data exchange parallel data exchange MapReduce Engine Compute Storage Network All Data Types 11) 그린플럼은 현재 EMC 정보 인프라스트럭처 사업부 산하 데이터 컴퓨팅 제품(Data computing Product) 사업부로 통합돼 다양한 솔루션을 출시하는데 박차를 가하고 있음. 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 43

` ` 정형 데이터 분석을 위한 EMC 그린플럼 DBMS의 구조 - EMC 그린플럼 어플라이언스(Data Computing Appliance)는 MPP (Massively Parallel Processing) 아키텍쳐 시스템 - 분산 병렬 처리에 기반한 강력한 로딩, 쿼리분석, 워크로드 관리기능, BI/ ETL/마이닝 툴과의 연계를 지원 ` ` 비정형 데이터 분석을 위한 EMC 그린플럼 하둡 배포판 제작 - 하둡 및 기타 하둡 배포판의 단점(가용성, 성능, 관리용이성)을 보완하여 Community 버전과 Enterprise 버전의 Hadoop을 제작 <하둡과 그린플럼의 특성 비교> Hadoop Features Apache Hadoop Greenplum HD Community Edition Greenplum HD Enterprise Edition Scalability Yes Yes Yes Compatibility 100% 100% 100% Language Java Java C Commodity Hardward Yes Yes Yes Certified Stack No Yes Yes Installation Services No Yes Yes Performance Standard Standard 2-5X faster NFS Support No No Yes Fault Tolerance No Yes Yes Rolling Upgrades No No Yes Snapshot No No Yes Wide-Area Replication No No Yes ` ` EMC는 지난해 9월 EMC 그린플럼 모듈식 데이터 컴퓨팅 어플라이언스 12 (이하 그린플럼 DCA) 를 출시 12) GreenplumR Modular Data Computing Appliance 44

- 그린플럼 DCA는 단일 인프라스트럭처 내에서 정형 비정형 데이터 및 애플리 케이션이 통합된 빅데이터 분석 플랫폼 - 기업들이 무공유(Shared-nothing) MPP 기반 관계형 DB와 엔터프라 이즈급의 아파치 하둡을 결합시킬 수 있는 모듈식 아키텍처 - 정형 비정형 데이터의 상호 연계 처리(co-processing) 및 정형 비정형 데이터를 단일의 통합 플랫폼에서 필요에 따라 확장 가능 Ⅱ. 빅데이터 기업의 추진 현황 <그린플럼 데이터 컴퓨팅 어플라이언스의 네 가지 모듈> 모듈 종류 그린플럼 데이터베이스 모듈(Greenplum Database Module) 그린플럼 데이터베이스 고용량 모듈 (Greenplum Database High Capacity Module) 그린플럼 HD 모듈 (Greenplum HD Module) 그린플럼 데이터 통합 가속기 모듈(Greenplum Data Integration Accelerator Module) 내용 목적별 DW 어플라이언스 모듈로 확장성 뛰어남 데이터베이스, 컴퓨팅, 스토리지 및 네트워크를 쉽게 실행할 수 있는 엔터프라이즈 시스템으로 통합 가능 최고의 성능과 비용 효율성 제공 전원과 설치공간을 추가로 늘릴 필요 없이 수 페타바이트(PB)의 데이터를 관리할 수 있도록 설계 매우 방대한 양의 데이터를 정교하게 분석해야 하는 기업이나 장기적인 아카이빙이 필요한 기업들을 위해 단위당 저렴한 비용의 DW를 제공 고성능 데이터 상호 연계 처리 하둡 어플라이언스 모듈 하둡과 그린플럼 데이터베이스를 결합시켜 정형 비정형 데이터를 단일 솔루션 내에서 상호 연계 처리 배치 로드를 줄이거나 마이크로 배치 로딩을 실행할 경우 업계 최고의 데이터 로딩 성능을 제공 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 45

스케일 아웃 NAS 스토리지, EMC 아이실론(Isilion) 13 ` ` EMC 아이실론은 대규모 정형 비정형 데이터 관리를 위한 스케일 아웃 (Scale-out) NAS 스토리지 솔루션 - EMC 아이실론 스토리지는 모듈 방식의 구조와 자동화된 기능으로 대량의 데이터를 빠르고 쉽게 처리 - 용량과 성능을 유연하게 확장할 수 있어, 전체 컴퓨팅 구조를 단순화하고 효율적으로 구성 ` ` EMC 아이실론은 다양한 산업 분야 걸쳐 빅데이터 관리의 문제를 보다 쉽게 해결할 수 있도록 유기적이고, 유연한 인프라 제공 - 클라우드 컴퓨팅 환경, 서버 가상화 및 VDI(Virtual Desktop Infrastructure), 산업별 대규모 데이터 관리 등 다양한 분야에 활용 <EMC 아이실론의 활용 사례> 활용 분야 클라우드 컴퓨팅 환경을 위한 EMC 아이실론 서버 가상화 및 VDI (Virtual Desktop Infrastructure)를 위한 EMC 아이실론 내용 스케일 아웃 방식의 확장으로 용량과 성능을 필요한 만큼 선형적으로 증가시킬 수 있음 여러 노드를 하나의 파일 시스템으로 구성함으로써, 전체 컴퓨팅 환경을 단순화하고, 스토리지 활용률 극대화 부하를 여러 노드에 자동 분산하고, 성능이 다른 노드를 계층별로 구성하여 사용자 요구에 맞는 가격대 성능 제공 EMC 아이실론 스토리지는 SSD, SAS, 또는 SATA 디스크로 스토리지 풀을 구성할 수 있어 가상머신의 업무가 필요로 하는 성능에 따라 다른 성능을 제공 성능이 다른 여러 개의 스토리지 풀을 하나의 스토리지로 구성하여 일원화된 관리가 가능 스토리지 용량이나 성능 증가 시에 기존 서버나 가상머신의 구성 변경을 하지 않고 운영 중에 확장 가능 13) 스케일 아웃(Scale-out) NAS(Network Attached Storage) 스토리지. Simple is Smart 라는 슬로건을 내세우고 있는 EMC 아이실론의 솔루션은 규모에 관계없이 간편하게 설치, 관리 및 확장이 가능하며 추가되는 스토리지의 수, 요구되는 성능 수준 또는 향후 비즈니스 요구 사항에 관계없이 탁월한 사용 편의성을 보장한다. 46

활용 분야 생명 공학을 위한 EMC 아이실론 내용 유전자 분석을 위해 여러 컴퓨터가 동시에 읽고 분석할 수 있는 충분한 성능을 제공 기하급수적으로 증가하는 데이터를 쉽게 관리 할 수 있는 기능 제공 EMC 아이실론 스토리지는 노드 단위로 확장되며, 최대 144노드, 15PB 까지 하나의 스토리지로 구성할 수 있어, 용량 증설이 쉽고, 스토리지 관리가 용이 Ⅱ. 빅데이터 기업의 추진 현황 ` ` 하둡 분산 파일 시스템 14 과 통합된 엔터프라이즈 NAS 플랫폼, EMC 아이실론 스케일아웃 NAS 출시( 12. 2월) - 하둡 지원이 가능한 빅데이터 분석 솔루션인 EMC 그린플럼 HD(EMC Greenplum HD)와 결합 - 기존 오픈소스 기반의 하둡 대비, 성능과 효율성이 뛰어나고 유연한 데이터 스토리지 및 분석 지원 환경을 구현 ` ` EMC 아이실론 스케일아웃 NAS 하드웨어 및 소프트웨어 플랫폼 신제품 출시( 11. 5월) - 빅데이터 애플리케이션의 성능을 가속화하는데 최적화된 아이실론 스케일 아웃 NAS 하드웨어 제품 : 아이실론 S200, 아이실론 X200 - 데이터를 간편하게 관리할 수 있으며 S200과 X200의 하드웨어 성능을 최대화하는 소프트웨어 제품 : OneFS 6.5와 SyncIQ 3.0 비정형 컨텐츠 관리를 위한 EMC 다큐멘텀 솔루션 ` ` EMC는 비정형 컨텐츠 관리 및 협업을 담당하는 ECM(Enterprise Content Management) EMC 다큐멘텀 솔루션을 제공 14) 하둡 분산 파일 시스템(HDFS : Hadoop Distributed File System) 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 47

- EMC는 빅데이터를 위해서 Store-Analyze-Act로 규정되는 계층화 된 새로운 IT 아키텍처인 EMC 빅데이터 Stack 15 을 제시 - EMC 다큐멘텀은 EMC 빅데이터 Stack 에서 비정형 데이터 기반의 실행 (Act) 계층에 포지셔닝 됨 - EMC는 이와 같은 비정형 데이터 기반의 실행 계층을 인포메이션 인텔리전스 그룹(Information Intelligence Group) 으로 분류 EMC 다큐멘텀은 국내 200여 개의 기업들이 사용하고 있는 솔루션으로써, 대부분의 기업들이 전사 엔터프라이즈 레벨로 도입하여 사용함 ` ` 다큐멘텀 솔루션은 컨텐츠를 축적 관리하는 것뿐만 아니라 비정형 컨텐츠와 핵심 업무 프로세스를 연결하는 프로세스 구현 ` ` EMC 다큐멘텀의 아키텍처는 객체지향 기술 및 서비스 기반의 안정적인 아키텍처를 제공 - 다양한 고가용성(HA) 서비스 및 최고의 성능을 보장하기 위해 수평적, 수직적으로 확장이 쉬운 아키텍처를 제공하는 것이 특징 EMC 빅데이터 Stack The EMC Big Data Stack Collaborative Real Time Act EMC Documentum Analyze EMC Greenplum + Hadoop Structures & Unstructured Petabyte Scale Store EMC Isilon + Atmos 15) 빅데이터에서 신속하게 비즈니스 가치를 실현하기 위해 그것을 분석하는 새로운 IT 아키텍처로써 EMC 빅데이터 Stack 을 제시 48

` ` 기업 내 광범위하게 분포한 다양한 유형의 비정형 콘텐츠를 관리하기 위한 EMC의 ECM(전사콘텐츠관리) 영역은 4가지로 구분 - Knowledge Worker : 지식업무를 위한 콘텐츠 기반의 협업 - Transactional : 프로세스 기반 업무(BPM), 이미징 - Interactive : 웹콘텐츠 관리, 동영상 관리 - Compliance & Archiving : 문서 산출물의 장기 보관 및 보존 정책, 규정 준수 Ⅱ. 빅데이터 기업의 추진 현황 EMC의 ECM(Enterprise Content Management) 솔루션 영역 KNOWLEDGE WORKER TRANSACTIONAL INTERACTIVE COMPLIANCE & ARCHIVING 협업 문서관리혁신/검색 입력/캡처 관리 프로세스 관리 웹사이트 관리 디지털 자산 관리 이메일 아카이빙 SAP 아카이빙 컨텐츠 중심 어플리케이션 KNOWLEDGE WORKER TRANSACTIONAL INTERACTIVE COMPLIANCE & ARCHIVING EMC 2 컴플라이언스/보안 인프라스트럭처 다양한 컨텐츠 엑세스 기능 제공 다양한 컨텐츠 서비스 다양한 컨텐츠 타입 관리 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 49

EMC의 빅데이터 관련 고객 사례 분류 고객 사례 솔루션 활용 내용 아 이 실 론 그 린 플 럼 오클라호마 의학 연구재단 (OMRF, Oklahoma Medical Research Foundation) 사례 Harvard 의과대학(HMS) 사례 TGen(Translational Genomics Research Institute, 해석적 유전체학 연구기관) 사례 SK커뮤니케이션즈 사례 그린플럼 으로 DW 분석 시스템 구조 개선 그 외의 그린플럼 고객 사례들 DNA 서열 분석 파이프라인과 가상화 환경을 확장성이 높고, 공유 가능한 고성능 단일 스토리지 풀로 통합 필요에 따라 스토리지 시스템을 유연하게 확장하여 미션 크리티컬한 워크플로의 고유한 성능 요구 사항을 충족함 IT 환경 간소화 및 효과적인 치료제를 밝혀내기 위한 유전체 연구 기간을 크게 단축 HMS 커뮤니티는 구성원들의 효율적 데이터 액세스, 생산적 소통을 원함 아이실론을 통해 커뮤니티의 변화에 따라 단계별로 확장이 가능한 스토리지 솔루션 확보 성능 또는 관리 용이성에 영향을 주지 않고 필요에 따른 용량 확장, 협업 등 효율성 보장 분산된 스토리지 사일로(silo)의 데이터를 옮기는 과정에서 복잡한 데이터 관리 과제 발생 필요에 따라 확장 가능하고 안정적인 스토리지 시스템으로 아이실론 솔루션 도입 엄청난 양의 워크플로를 간소화하고, 과학자들이 데이터 분석에 사용할 수 있는 용량도 증가 인터넷 서비스 환경, 요구사항 변화에 대응하기 위해 DW 분석 시스템 구조개선 사업 추진 늘어난 데이터를 처리할 수 있도록 대용량 병렬 처리(MPP) 기술을 기반으로 한 시스템 구축 이기종 분산DB 시스템을 통합관리 할 수 있는 시스템 요구(통합 관리와 확장성 보장) 향후 데이터 증가에 대비하여 증설 용량에 따라 성능의 비례적인 향상 고려 배치성능 개선 및 배치작업 단축 효과 발생 인터넷전화 업체 스카이프는 네트워크 남용을 막기 위한 유저 성향 분석에 활용 도이치뱅크는 금융 사기 감지 방지, 신용 위험 감소를 위한 신용 등급 설정 및 분석에 활용 미국의 폭스 인터랙티브 미디어는 광고 타겟 설정 및 마켓 조사를 위한 클릭 스트림(Click Stream) 분석을 위해 그린플럼을 도입 50

7 HP 16 Ⅱ. 빅데이터 기업의 추진 현황 빅데이터 시장을 겨냥하는 HP의 차세대 전략 ` ` 데이터의 대부분은 오래 전부터 있었으며, 특정 목적으로 이용되다가 일정 시간 후 폐기되었으나 최근 데이터 가치가 재조명됨 - 여러 소스의 데이터를 연계 분석하여 새로운 비즈니스를 창출하거나 기존 비즈니스를 강화시킬 수 있을 것이라는 기대 증가 ` ` IT업계들은 폭증하고 있는 빅데이터 속에서 기업의 의사결정에 필요한 정보를 찾아낼 수 있는 차세대 기술 및 서비스에 주목 - 한국HP도 빅데이터 서비스 시장에 합류하였으며, 12년 엔터프라이즈 사업 전략으로 빅데이터 솔루션을 제공할 계획 ` ` HP는 자동관리, 자동사용이 가능한 환경 구축을 전제로 정보 최적화(Information Optimization) 및 빅데이터 플랫폼 전략을 수립 - 11년에 DW(Data Warehouse) 솔루션인 버티카와 지능형 검색엔진 오토노미를 인수하여 빅데이터 기술과 서비스 기반 마련 - 오토노미에서 제공하는 정보처리 레이어와 버티카의 고성능 실시간 분석 엔진의 조합을 토대로 빅데이터 인프라 서비스 제공 16) 원문 출처 : 한국HP, 기술컨설팅본부 최형광 상무(hyong-kwang.choi@hp.com) 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 51

` ` HP가 제시하는 HP 빅데이터 전략 의 5가지 강점 1 유연성과 확장성, 연계 가능한 플랫폼 2 운영 자동화를 통한 효율성 제고 및 비용절감을 통한 수익증대 3 검증된 보안정책 및 솔루션을 통한 정보보안 확보 4 의사결정을 위한 빅 데이터로부터 의미있는 정보분석 및 적시제공 5 최적화된 딜리버리 모델을 통한 적정한 시간과 가격 빅데이터 분석을 위한 Vertica Analytic Database ` ` 버티카(Vertica) 플랫폼은 실시간 분석, 대량의 데이터 분석, 고도의 분석 역량 등 세 가지 요소를 충족하는 분석 환경을 제공 - Hadoop 시스템 은 분석 역량과 대량의 데이터 처리능력은 갖췄으나 실시간 분석에는 한계가 있음 - 기존의 통계 패키지 는 분석 역량과 소량의 데이터 분석을 통한 실시간 처리 능력은 갖췄지만 대량의 데이터 분석은 어려움 - 스트리밍 처리 솔루션 은 대량의 데이터를 실시간으로 분석하지만 보다 깊이 있는 고도의 분석 역량은 부족함 버티카의 빅데이터 처리 요소별 기능 통계 프로그램 고도의 분석 역량 실시간 분석 Hadoop 대량의 데이터 스트리밍 52

` ` 버티카 솔루션은 자동화된 관리 도구로 대용량 데이터 분석에 대한 대응성을 강화하며, 실시간 기반의 MPP 17 병렬처리로 확장성 보장 빅데이터 처리 요소 실시간 데이터 처리 기술 고도의 분석 역량 대량의 데이터 처리 <버티카의 빅데이터 처리 요소별 제공 기능> 버티카 제공 기능 고속 데이터 적재 기능인 Copy 유틸리티 제공 별도의 메모리 영역을 활용하여 트랜잭션 처리가 가능한 하이브리드 데이터 저장 아키텍처 제공 실시간으로 분석되어야 하는 데이터를 메모리 영역을 통해 빠르게 DB에 입력하고, 즉각적으로 분석 다른 DBMS가 제공하지 못하는 다양한 형태의 분석함수 제공 사용자가 필요에 따라 추가적인 분석함수(User Defined Function)를 작성하여 사용 가능 오픈 소스 통계 어플리케이션인 R, 상용 통계 패키지인 SAS 등과의 손쉬운 연동 함수를 제공 Hadoop 연동을 위한 connector 및 Hadoop 데이터를 External 테이블로 인식하여 직접 사용할 수 있는 기능 제공 Column Storage : Record 단위의 데이터 처리가 아닌 Column 데이터 처리를 통해 분석 시 발생하는 I/O를 최소화 Clustering : 대용량의 데이터 처리를 위해 여러대의 서버를 활용하여 분석 성능을 향상시키는 기법 Compression : 컬럼 기반의 데이터 압축 기법 외에 다양한 데이터 encoding 기법을 제공. 약 90%의 데이터 압축 가능 Continuous Performance``:``시스템 간의 데이터 이중화로 장애 발생시 별도의 Fail-over 없이 지속적인 서비스 제공. 시스템 레벨의 이중화 구성의 복잡도 최소화 Ⅱ. 빅데이터 기업의 추진 현황 버티카 솔루션 프레임워크 Columnar Compression Concurrent Load & Query Elastic Cluster SQL Analytics User- Defined Analytics Optimized Connectors Standard Interface Native Columnar RDBMS Native and Performance Optimized High Availability Real Time Massively Parallel Processing Next Generation Administration and Design Tools 17) MPP : Massively Parallel Processing 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 53

의미기반으로 데이터를 분석하는 오토노미(Autonomy) 18 솔루션 ` ` 오토노미는 구조화된 정보 및 비구조화된 정보의 관리, 프로세싱 및 검색 자동화 등을 수행하는 정보기술 인프라의 분석 툴로 사용 - 다양한 종류의 데이터(영상, 텍스트, 음성 등)가 가지는 의미와 구문을 개념적 문맥적으로 이해하는 의미기반의 분석 결과 제공 - 정보에서 개념적 검색뿐만 아니라 감성적 분석, 시각화, 경향화, 교육, 클러스터링, 범주화와 같은 확장된 기능까지 의미를 추출 Autonomy 인프라 스트럭처의 핵심기술인 IDOL(Intelligent Data Operating Layer)은 패턴 매칭 및 컨셉 추출 기술을 기반으로 함 IDOL은 효울성과 생산성을 증대시키기 위해 무한히 증가하는 정보로부터 사용가능한 지식을 추출하는 500개 이상의 기능 제공 오토노미 솔루션 포지셔닝 Strong Risky Bets Contenders Strong Performers Leaders Autonamy Current offering ZL Technologies Symantec IBM OpenText Iron Mountain EMC HP Microsoft Market presence Weak Weak Strategy Strong 출처 : Forrester Research(2011), The Forrester Wave : Message Archiving Software, Q1 2011. 18) 1996년 설립된 Autonomy는 영국 Cambridge 와 California, san francisco에 본사를 두고 있으며, 시장 지배력은 $4.5billion에 달함. 2011년 HP와 합병하였으며, Autonomy는 현재 HP의 Information Management 사업부의 핵심 솔루션. 54

오토노미 솔루션의 도입 사례 ` ` BBC는 오토노미의 동영상 아카이빙(Archiving), 안면인식, 음성인식 등의 기술을 기반으로 원하는 뉴스 영상 검색환경 구축 - BBC는 새로운 서비스로 찾기 (Find), 플레이 (Play), 공유하기 (Share) 3가지 개념을 제시하고, 서비스 프로바이더로의 변신을 모색 19 Ⅱ. 빅데이터 기업의 추진 현황 BBC의 뉴스 아키이빙 서비스 - 이를 위해 오토노미 솔루션을 도입하여 동영상 포맷의 뉴스 내용을 사용자가 언어에 구애받지 않고 검색하는 사이트 구축 약 32개국 언어로 통합검색 서비스를 제공하며 약 3,500만개 뉴스 동영상에 대한 검색이 실시간으로 이루어짐 - 빠른 속도로 생산되는 뉴스 콘텐츠의 자동 태깅 및 분류가 가능해졌고, 동영상 내용 중에 해당 프레임만 검색하는 서비스 구현 19) BBC(2006), BBC s Director of New Media & Technology defines vision for the future, http://www.bbc.co.uk/pressoffice/pressreleases/stories/2006/04_april/25/newmedia. shtml 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 55

` ` 영국 국방성은 국방성이 보유한 모든 정보를 검색하고 분석할 수 있는 인프라 구현 - 영국 국방성은 전세계에 약 40만명의 인력들을 운용하며 10억건 이상의 정보를 보유하고 25,000개 이상의 목적별 시스템을 운용함 - 국방성은 신속한 정보 취득 및 빠른 분석을 위해 포탈 인프라와 Autonomy IDOL 엔진을 연계하여 하나의 표준화된 인프라 구축 - 국방성이 보유한 모든 정보를 단일 정보 인프라에 구현하고, 적절한 보안 관리 체계하에서 의미기반의 검색 수행 기존의 레거시 정보는 물론 이메일, 동영상, 이미지, 음성파일, 오피스문서, HTML 등 정보의 형태에 구애 받지 않고 의미 기반 검색 지원 56

8 IBM 20 Ⅱ. 빅데이터 기업의 추진 현황 빅데이터에 대한 IBM의 접근방안 및 추진 전략 ` ` IBM은 빅데이터를 V3 21 의 특성을 가진 새로운 타입의 데이터로서 과거에는 답할 수 없던 통찰력을 얻을 수 있는 기회로 정의 <IBM의 빅데이터 플랫폼 제공 전략> 구분 포괄적 (Comprehensive) 융합 (Integrated) 준비성 (Enterprise-ready) 오픈소스 기반 (Open Source based) 내용 볼륨, 속도, 다양성 등 빅데이터의 3가지 특징에 대응하는 가장 광범위한 솔루션을 제공 DB, DW, BI 등 기존 정보관리체계와의 융합을 통해 빅데이터 기술 도입의 단순화 가속화 고객이 필요로 하는 성능, 보안, 신뢰성, 사용성 등을 갖춘 빅데이터 솔루션 및 서비스를 제공 IBM 빅데이터 플랫폼은 엔터프라이즈 수준의 기능 및 통합능력을 통해 최상의 오픈소스 기술을 고객에게 제공 ` ` 빅데이터를 기업으로(Bringing big data to the enterprise) 라는 슬로건 아래, 빅데이터 플랫폼 제공 전략 수립 20) 원문 출처 : 한국IBM, 김경전 실장(kkj@kr.ibm.com) 21) V3 : 볼륨(Volume), 속도(Velocity), 다양성(Variety) 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 57

<IBM의 빅데이터 플랫폼의 핵심요건> 구분 V3에 대한 플랫폼 (Volume, Velocity, Variety) V3측면의 분석(Analytics) 기능 제공 사용편의성(Ease of Use) 제공 엔터프라이즈 수준 (Enterprise Class)의 프로젝트 환경 지원 확장적 통합역량 (Extensive Integration Capabilities) 제공 내용 네이티브 포맷(native format)의 데이터로 저장 초당 수천바이트의 스트리밍데이터까지 처리 페타바이트 이상까지 확장 가능 네이티브 포맷(native format)의 소스 및 모든 데이터를 분석 자동 수정 및 액션 등 능동적 분석기능 개발자가 친숙한 개발도구 및 인터페이스(UI) 제공 최종사용자 인터페이스(UI) 및 시각화 배포의 가속성 여러 지역의 사용자환경을 지원하는 배포관리, 보안 및 프라이버시 필요에 따라 경제적으로 확장 가능한 플랫폼 매우 다양한 소스에 대한 통합기능 제공 엔터프라이즈 관점의 통합기술 레버리지 IBM의 빅데이터 플랫폼 기술 ` ` 전통적인 원천데이터(ERP, CRM 등), 데이터스트림, 정형 비정형의 대용량 데이터 등을 통합 분석하기 위한 HW, SW 솔루션 제공 1 하둡(Hadoop) 22 과 nosql 23 기반 : Infosphere BigInsights - 다양성과 볼륨 특성을 가진 빅데이터를 분석하기 위한 하둡 기반의 저지연 (low latency) 분석기술 적용사례 : Banco Bilbao Vizcaya Argentaria의 소셜분석, Vestas 풍력발전기 모델링, 통신사의 전계층 시스템로그 분석 등 22) 하둡(Hadoop) 컴퓨팅 모델 : 저가 컴퓨터상의 파일시스템에 데이터를 분산 저장하고, 데이터가 저장된 컴퓨터 자원을 이용하여 데이터를 분산 처리하는 오픈소스기반의 분산 소프트웨어 플랫폼 23) nosql(not only SQL) : 관계형 데이터베이스의 한계를 극복하기 위한 데이터베이스의 새로운 형태로 수평적 확장성을 특징으로 하며, 구글의 BigTable, 아마존의 Dynamo 등이 대표적인 제품임 58

2 스트림 컴퓨팅(Stream Computing) 기술 : Infosphere Streams - 스트리밍 데이터를 분석하기 위한 저지연(low latency) 분석기술 적용사례 : 통신사의 전계층 시스템로그 분석, 석유탐사선의 센서데이터 실시간분석, IBM 반도체공정 센서데이터 실시간 분석, 스웨덴의 우주기상 실시간분석, UOIT 미숙아 모니터링데이터 실시간분석 등 3 정보융합(Information Integration) 기술 : Infosphere Information Server - 대용량 데이터 통합 및 변환 기술 Ⅱ. 빅데이터 기업의 추진 현황 IBM의 빅데이터 플랫폼 기술 Info Sphere Big Insights Hadoop-based low latency analytics for variety and volume Info Sphere Information Server High volume data integration and transformation Info Sphere Streams Low Latency Analytics for streaming data IBM Info Sphere Warehouse Large volume structured data analytics IBM Netezza High Capacity Appliance Queryable Archive structured Data IBM Netezza 1000 BI + Ad Hoc Analytics on Structured Data IBM Smart Analytics System Operational Analytics on Structured Data IBM Informix Timeseries Time-structured analytics 4 MPP Data Warehouse 기술 - InfoSphere Warehouse : 대용량 정형데이터 분석기술 - Netezza : 정형데이터에 대한 쿼리 아카이브 및 Ad-hoc 분석용 어플라이언스 - Smart Analytics System : 정형 데이터에 대한 운영 분석 어플라이언스 - Informix Timeseries : 시간구조(Times-structured) 분석 기술 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 59

IBM의 빅데이터 플랫폼 구조도 ` ` IBM은 정형 비정형 데이터의 저장, 생명주기관리, 실시간 분석, 사용자 분석 도구 등 빅데이터 전반에 걸친 솔루션 제공에 초점 IBM의 빅데이터 플랫폼 이니셔티브 분산된 대용량 데이터 (비정형, 정형,...) InfoSphere BigInsights 데이터 웨어하우스 SOA 웹서비스 Cognos 어플리케이션 스프레드시트 메쉬업 재정계획 Cubing Services InfoSphere Streams 운영데이터 저장소 이벤트 감지 및 실시간 데이터 캡처 InfoSphere Information Server 전통적 데이터 원천 (ERP, CRM, DB 등) 일관된 웨어하우스 입력을 위한 모든 원천데이터 융합 Warehouse Feed Data Integration Data Quality Data Delivery 60

IBM의 빅데이터 구축 사례 ` ` IBM은 빅데이터 플랫폼을 자사의 반도체 제조공정, 세일즈부문 등에 도입하여 빅데이터 활용 분석에 따른 적용효과 창출 - IBM의 뉴욕 반도체 공장에 제조분석 기술을 도입하여 수율과 이익에 영향을 미치는 편차(deviations)를 조기 경보하는 체계 구축 Ⅱ. 빅데이터 기업의 추진 현황 2007년 이후 3천2백만불의 비용절감 및 2천1백만불의 매출증대 효과 달성 - STAR(Statistical Tracking and Assessment of Revenue)라는 IBM 내부 모델링시스템을 구축하여 미래 매출을 예측 과거대비 예측에러(forecasting error)가 평균 40% 감소 ` ` 에너지, 헬스케어, 공공기관, 미디어회사 등의 분야에 IBM의 빅데이터 플랫폼 적용 <IBM 빅데이터 플랫폼 적용 사례> 구분 미국 사회보장국 (Social Security Administration) 온타리오 공과대학 (University of Ontario Institute of Technology) 덴마크의 세계적 풍력에너지회사인 Vestaso 아르헨티나 금융기관, BBVA(Banco Bilbao Vizcaya Argentaria) 스웨덴의 Uppsala University Swedish Institute of Space Physics 내용 예측모델링 및 텍스트분석 시스템 구축 - 수개월 걸리던 장애인복지 심사 승인기간을 수일 내로 단축 - 지난 8년간 장애인복지 리뉴얼 비용을 약 20억불 절감 미숙아 모니터링 장치에서 데이터스트림을 실시간 분석 - 미숙아의 생명을 위협하는 잠재상황을 6~24시간 조기 감지로 환자의 사망률 감소 - 의료진의 새로운 임상가설 검증기반 제공 풍력터빈 및 풍력단지 설계를 위한 기상 및 지형데이터 분석 시스템 구축 - 수 주일씩 걸리던 풍력예측정보 모델링타임을 수 시간으로 약 97% 정도 단축 약 5.8테라바이트의 당 은행에 대한 인터넷 및 소셜 미디어 상의 정서 (sentiment)를 분석 - 부정적 여론에 적극 대처하고, 은행에 대한 평판을 향상 우주 날씨(spare weather)를 보다 잘 이해하기 위해 시간당 21.6테라 바이트에 이르는 방대한 데이터 분석 - 우주 날씨에 민감한 위성, 전력그리드 및 통신시스템에 미치는 영향을 완화 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 61

9 오라클(Oracle) 24 오라클의 빅데이터 전략 ` ` 오라클의 전략은 현재 엔터프라이즈 데이터 아키텍처에 빅데이터를 포함시켜 비즈니스 가치를 창출할 수 있도록 진화하는 것 - 이미 검증된 오라클 시스템의 신뢰성, 유연성 및 성능에 기반해 빅데이터 처리 및 활용 요건 해결 <빅데이터 포함되는 데이터의 유형들> 데이터 유형 기존의 엔터프라이즈 데이터 시스템 생성/센서 데이터 소셜 데이터 내용 CRM 시스템의 고객 정보, 트랜잭션 데 데이터, 웹스토어 거래, 총계정원장 데이터 등 CDR(Call Detail Records), 웹로그, 스마트 미터기, 제조센서, 장비의 로그 데이터, 트레이딩 시스템 데이터 등 고객 피드백 스트림, 트위터와 같은 마이크로 블로깅 사이트, 페이스북과 같은 소셜 미디어 플랫폼 ` ` 오라클은 최근 기업의 모든 빅 데이터 요건을 해결하기 위한 통합 솔루션 Oracle Big Data Appliance 를 발표 24) 원문 출처 : 김상현(2011), Big Data in Oracle, ORACLE KOREA MAGAZINE, 2011 Winter.를 참고하여 작성 62

오라클 빅데이터 어플라이언스 HDFS Oracle NoSQL Database Enterprise Applications Oracle Big Data Appliance Hadoop (MapReduce) Oracle Loader for Hadoop Oracle Data Integrator Data Warehouse In-Database Analytics Analytic Applications Ⅱ. 빅데이터 기업의 추진 현황 ACQUIRE ORGANIZE ANALYZE DECIDE 오라클 빅데이터 어플라이언스(Oracle Big Data Appliance) ` ` NoSQL 데이터베이스가 개발자 중심의 전용 솔루션에서 기업용 솔루션으로 전환되려면, 기존의 SQL 솔루션과의 통합이 필수적 - NoSQL 시스템은 데이터를 시스템에 입력할 때 분류 및 구문분석 없이 모든 데이터를 캡처할 수 있어서 비정형 데이터 저장이 가능 - 그러나 NoSQL 데이터베이스는 저장된 데이터를 해석하기 위한 프로그래밍이 필요하며 복잡한 질의 패턴에 대한 지원도 부족 - 최종 사용자가 NoSQL 데이터베이스에서 데이터를 정제하는 것은 그리 쉽지 않으므로 기존의 SQL 솔루션과의 통합이 필요 NoSQL과 SQL 솔루션 범위의 구분 Distributed File Systems Key/Value Stores MapReduce Solutions NoSQL Flexible Specialized Developercentric DBMS (OLTP) ETL Data Warehouse ACQUIRE ORGANIZE ANALYZE SQL Trusted Secure Administered 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 63

` ` 오라클은 기업의 빅데이터 요건을 해결할 수 있는 통합 솔루션 제공 오라클의 빅데이터 솔루션 HDFS Oracle NoSQL Database Enterprise Applications Hadoop (MapReduce) Oracle Loader for Hadoop Oracle Data Integrator Data Warehouse In-Database Analytics Analytic Applications ACQUIRE ORGANIZE ANALYZE DECIDE ` ` ` 오라클 빅데이터 어플라이언스 는 최적화된 하드웨어와 오라클의 특화된 솔루션이 하나로 뭉쳐진 엔지니어드 시스템 - 빅데이터 처리를 위해 소프트웨어 및 하드웨어를 하나의 엔지니어드 시스템으로 통합하여 제공 - 빅데이터를 수집하고 구성하여 Oracle Database 11g에 로드하여 활용할 수 있게 하는 솔루션 - 기업 수준의 성능, 가용성, 지원성 및 보안 문제를 해결하며 Oracle Exadata 및 Oracle Database와도 밀접한 통합 가능 ` ` 오라클 빅데이터 어플라이언스는 총 스토리지 용량이 432TB에 이르는 18개의 Sun 서버가 포함된 풀랙(Full rack) 구성으로 제공 - 랙에 설치되는 모든 서버에는 6개의 코어가 탑재된 2개의 CPU가 장착되어 전체 랙에는 216개의 코어가 존재 - 각 서버의 메모리는 48GB로서 전체 랙에는 총 864GB 메모리 탑재 ` ` 오라클 빅데이터 어플라이언스는 통계 패키지 R, Oracle Enterprise Linux 5.6 운영체제 및 Apache Hadoop를 포함 64

- 이미 Hadoop 솔루션을 활용하고 있는 기업은 Oracle External Table 기능을 통해 HDFS의 데이터 통합 가능 - 먼저 FUSE(Filesystem in User SpacE)를 통해 HDFS 파일 시스템을 설치한 후 External Table로 정의하면 SQL 질의를 통해 HDFS 데이터에 액세스 가능 Ⅱ. 빅데이터 기업의 추진 현황 오라클 빅데이터 어플라이언스 : 소프트웨어 구성요소 ` ` 오라클 빅데이터 어플라이언스에는 오픈 소스 소프트웨어와 오라클이 개발한 전용 소프트웨어가 통합 ` ` Oracle NoSQL Database는 Oracle Berkeley DB를 기반으로 하는 확장성이 뛰어난 분산형 키-값 데이터베이스(Key-Value Database) - 분산형 Berkeley DB 외에도 인텔리전트 드라이버가 추가되어 기업 수준의 범용 키-값 스토어(Key-Value Store) 제공 - 인텔리전트 드라이버는 기본 스토리지 토폴로지를 추적하고, 최저 지연 시간으로 데이터 저장 가능한 위치를 찾아주는 역할 수행 ` ` OLH(Oracle Loader for Hadoop)은 Hadoop MapReduce 프로세싱을 이용해 최적화된 데이터 세트를 생성 - 또한 Oracle Database 11g에서 효율적인 로딩 및 분석이 가능 - 오라클 내부의 포맷을 활용하기 때문에 데이터를 더욱 빨리 로드하면서도 오라클 데이터베이스의 부하는 경감 ` ` Oracle Data Integrator Application Adapter for Hadoop은 Hadoop과 Oracle Database간의 간편한 데이터 통합 작업 지원 - 사용이 간편한 Oracle Data Integrator 인터페이스를 이용 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 65

오라클 빅데이터 어플라이언스 소프트웨어의 개요 Oracle NoSQL Database Oracle Data Integrator (Hadoop Knowledge Module) Oracle Loader for Hadoop Hadoop Oracle Enterprise Linux & Java VM Oracle Big Data Appliance In-Database 분석 ` ` 오라클 빅데이터 어플라이언스에서 Oracle Database 또는 Oracle Exadata 로 데이터를 적재한 경우 In-Database 고급 분석 수행 가능 - Oracle Exadata와 함께 오라클 빅데이터 어플라이언스를 사용하여 정형 비정형 엔터프라이즈 데이터를 수집, 구성, 분석 - 빠른 분석과 통찰력을 얻을 수 있는 정보창출로 효율적인 의사결정 수립을 지원 빅데이터 어플라이언스 및 Exadata의 사용 모델 Oracle Big Data Appliance Oracle Exadata High-Speed Connectivity InfiniBand Accelerator Software Stream Acquire Organize Analyze & Decide 66

` ` 오라클 빅데이터 어플라이언스에서는 다음 중 한 가지를 활용하여 In-Database 고급 분석을 수행 - Oracle R Enterprise : Project R의 오라클 버전인 오라클 R 엔터프라 이즈 는 기존의 R 사용자들이 대용량 데이터 세트에서 R을 활용할 수 있는 환경 제공 활용 예시 : 공항의 항공사 지연 예측, 임상 시험 분석 및 결과 등에 활용 Ⅱ. 빅데이터 기업의 추진 현황 - In-Database Data Mining : 복잡한 모델을 만들어 대용량 데이터를 구축한 후 예측 분석이 가능 활용 예시 : 구매 활동 및 인구 통계학적 데이터를 기준으로 고객 나이를 예측 - In-Database Text Mining : Oracle Text와 Oracle Data Mining을 적용하면 블로그, 리뷰 사이트 등의 텍스트 마이닝 가능 활용 예시 : 특정 기업, 제품 또는 활동 등에 대한 고객의 반응을 판단하기 위해 코멘트 기반의 감성 분석에 활용 - In-Database Semantic Analysis : 다양한 데이터 포인트와 데이터 세트 간의 그래프 및 연결 관계를 통한 의미 분석 제공 활용 예시 : 관계 네트워크를 통해 고객의 친구집단에 대한 가치 측정 - In-Database Spatial : 데이터에 공간 차원을 추가함으로써 맵에 데이터의 행적을 표시할 수 있음 활용 예시 : 사용자는 지리적 관계와 동향을 더욱 효율적으로 파악하고, 근접해있는 고객들에 대해 구매 유도 기회를 확보 - In-Database MapReduce : MapReduce 로직을 작성하여 Oracle Database 내에서 병렬 실행을 통해 빠른 성능을 제공 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 67

1 0 10 SAS SAS25) 25 빅데이터 분석을 위한 IT+분석+비즈니스 통합 플랫폼 구현 ` ` SAS는 빅데이터에서 인사이트를 얻어내는 전 과정이 상호협력 할 수 있는 TOTAL DATA Approach 26 의 핵심기술을 제공 - 외부 데이터를 수집-관리-분석-축적하고, 내부 운영계 시스템과 EDW 데이터와 연계하여, 최종 ADW를 구성 EDW(Enterprise Data Warehouse) : 전사데이터웨어하우스 ADW(Analytical Data Warehouse) : 분석데이터웨어하우스 - ADW를 구성하고, ADW를 통하여 비즈니스 인사이트를 얻어내는 전 과정을 아우르는 핵심기술 보유 1 Volume : HPA(High Performance Analytics) 2 Variety : Text Analytics Framework(SAM, SNA, TM, CC 27 ) 3 Velocity : Real-Time Decision Management 4 Integrated Value : Business Analytics Framework, Access to Hadoop 25) 원문 출처 : SAS Korea, 솔루션서비스본부 이진권 상무(Jin.Lee@sas.com) 26) 451 Research : TOTAL DATA - Data Management Approach in an Era of Big Data 27) SAM-Sentimental Analysis M gmt, SNA - Social Network Analysis, TM-Text Mining, CC-Content Categorization 68

` ` 고급 분석(Advanced Analytics)을 위한 HPA 기반의 SEMMA 방법론 제시 - 데이터의 탐색`-`변경`-`모델링`-` 검증의 전 과정에서 빅데이터 분석의 핵심인 HPA 기술이 적용 되어 처리 - 샘플링 없이 전수 데이터 처리나 다양한 변수의 적용 및 배치작업 대신 실시간 추천/감지가 가능 SEMMA 방법론 라이프사이클 Ⅱ. 빅데이터 기업의 추진 현황 SAS SEMMA 분석방법론 프로세스 분석주제 설정 및 필요 Data 추출 Sampling Explore Modify Modeling Assessment 분석 data 생성 통계적 추출 조건 추출 비용 절감 및 모델 평가를 위한 데이터 준비 분석 데이터 탐색 기초 통계, 그래픽적 탐색 요인 벨 분할표 Clustering 변수유의성 및 상관분석 데이터 조감을 통한 데이터 오류 검색 모델의 효율 증대 데이터 현황을 통해 비즈니스를 이해, 아이디어를 위해 이상현상, 변화 등을 탐색 분석 데이터 수정/ 변환 수량화, 표준화, 각종 변환, 그룹화 데이터가 지닌 정보의 표현 극대화 최적의 모델을 구축할 수 있도록 다양한 형태로 변수를 생성, 선택, 변형 모델 구축 Neural Network Decision TREE Logistic Regression 전통적 통계 데이터의 숨겨진 패턴 발견 하나의 비즈니스 문제해결을 위해 특수의 모델과 알고리즘 적용 가능 모델 평가 및 검증 텍스트 교본 Feedback 모델의 검증 서로 다른 모델을 동시에 비교 추가분석 수행여부 결정 Continuous Process 결과해석 및 업무적용 SAS 빅 데이터 분석 플랫폼 Solution MAP ` ` Big Analytics 핵심기술은 IT+분석+비즈니스 통합 플랫폼 구현 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 69

SAS 빅 데이터 분석 플랫폼 Solution MAP SAS R Grid Computing SAS R In-Database SAS R In-Memory Analytics SAS High-Performance Analytics SAS High-Performance Visualization 1 2 Visual HUB Visual Designer Visual Explorer Visual BI DIVERSITY DATA SAS R DI, DQ, qmom DATA GOVERNANCE SAS R Access to Hadoop SAS Advanced Analytics SAS Information Management SAS Unified Data Models 3 4 5 SAS R STATISTICS SAS R MINING SAS R FORECASTING SAS R ANALYTICS SAS R OPTIMIZATION Banking Int. Solution Telecom Int. Solution Retail Int. Solution 1 High Performance Analytics - Grid Computing : 멀티노드를 병렬 처리하여 고급분석 수행 - In-Database : Oracle, DB2뿐 아니라 Teradata, Greenplum, Netizza 같은 Appliance DB 상에서 고급분석을 수행 - In-Memory : In-Memory OLAP/Query 뿐 아니라 고급분석 함수 (Logistics, Regression, Optimization 등)를 병렬컴퓨팅 환경에서 수행케 함 SAS HPA Infrastructure ANALYTICS INFRASTRUCTURE SAS R HIGH-PERFORMANCE ANALYTICS SAS R Grid Computing SAS R In-Database SAS R In-Memory Analytics 70

2 High Performance Visualization - Hadoop 기반 In-Memory SAS VAE(Visual Analytics Environment) 비주얼 분석환경(VAE) 제공 - Speed Free : 수억 건 이상 데이터를 In-Memory 기반 으로 실시간 분석 - Ad-Hoc Free : 직관적인 비정형 분석 제공 - Dimension Free : 사전 정의 없이 OLAP 분석 - Analytics Free : 회귀분석, 상관분석 등 고급분석 영역의 시각화 - Source Free : Hadoop을 포함한 DBMS 및 PC 파일에 대응 Ⅱ. 빅데이터 기업의 추진 현황 3 Advanced Analytics - 기초통계 분석 외에 데이터 마이닝, 예측, 최적화, 텍스트 분석의 모든 고급분석 기능을 In-Memory 기반의 HPA 처리 - Advanced Analytics를 중심으로 Visualization, BI/Report, 정보관리 (IM)의 전 사이클을 통합 관리 SAS Advanced Analytics Components 빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 71