MapR Platform 2017 MapR Technologies 1
빅데이터시장동향 2017 MapR Technologies 2
빅데이터시장동향 기업 IT 환경의변화 1980 년대모든데이터를플랫파일로관리하던어려움을극복하고자데이터베이스시스템이시장에출시된이후로기업용 어플리케이션등장, 인터넷의등장, 디지털변혁접목등기업혁신의핵심에는항상데이터가중요한역할을함 1980s Now Early databases Enterprise applications The Internet Digital Transformation 2017 MapR Technologies 3
빅데이터시장동향 기업 IT 환경의변화와데이터 가트너와같은시장조사기관들은향후 4 년이내에기업내데이터의 90% 가 Hadoop 과같은차세대 IT 환경에저장될것으로예측. In Billions 차세대 IT 비용 vs. 레거시 IT 비용 ($M) 120,000 $120 100,000 80,000 60,000 40,000 20,000 - (20,000) (20) 2013 2014 2015 2016 2017 2018 2019 2020 (40,000) (40) (60,000) (60) (80,000) (80) (100,000) (100) IT 시장의전체투자규모 ($) 차세대 IT 시장의투자규모 ($) 레거시 IT 시장의투자 / 삭감규모 ($) Source: IDC, Gartner; Analysis & Estimates: MapR Next-gen consists of cloud, big data, software and hardware related expenses 2017 MapR Technologies 4
빅데이터시장동향 기존 IT 환경의특징 기존 IT 환경은전통적인데이터접근법에의해단위부서별로각기다른어플리케이션이각기다른데이터소스를활용하는구조 기존환경의특징 단위사업별로구축 사일로형태의구성 인사팀 이기종시스템들간의복잡한 인터페이스관계 회계팀 IT 팀 개발팀 마케팅팀 경엉분석팀 정형데이터위주의처리 IT 에서데이터를발생및처리 Oracle, SAP, Microsoft 등의 전통적어플리케이션 영업팀 < 기존 IT 아키텍처 > 2017 MapR Technologies 5
빅데이터시장동향 차세대 IT 환경의특징 차세대 IT 환경은고객니즈또는경영지표를보다심도있게분석하기위한데이터기반의통합된플랫폼형태의구조 수요예측개인화분석실시간탐지실시간마케팅상품설계 차세대환경의특징 통합사업으로구축 시장분석 O2O 서비스 이기종시스템들을데이터 SNS 분석 이슈기반서비스 연계산업상품 기반으로통합하는형태 경쟁사분석 소비패턴분석 이상거래탐지 사물인터넷연계 개인화상품 정형 / 반정형 / 비정형데이터를 트렌드분석 360 고객분석 실시간소비탐지 위치기반서비스 소통기반상품 상권분석 맞춤형상품추천 SNS 이슈탐지 실시간상품추천 고객세분화 빅데이터기반플랫폼 모두통합 IT/OT 모든영역에서데이터를발생및처리 개인화분석, 실시간오퍼등의새로운패러다임 < 차세대 IT 아키텍처 > 2017 MapR Technologies 6
빅데이터시장동향 통합데이터플랫폼의필요성 새로운차세대 IT 아키텍처는전통적인시스템과새로운시스템모두와호환이가능하면서전사통합이가능한아키텍처. 새로운어플리케이션 전통적어플리케이션 오픈소스시스템 분석시스템 기존도입시스템 새로운통합데이터플랫폼 온프레미스 프라이빗클라우드 퍼블릭클라우드 다양한하드웨어 2017 MapR Technologies 7
빅데이터시장동향 빅데이터시대의산업방향 McKinsey 등의시장조사기관들은금융업은빅데이터활용의잠재가치가높은산업으로, 기존데이터보유량이많고새로유입되는 데이터양이많기때문에 VoC 분석, 360 고객싱글뷰구성등활용가치가매우높은산업으로분류하고있습니다. 접근이력감사 비정형데이터통합 360 고객싱글뷰 융합산업 개인화상품설계 DW 확장 VoC 분석 이상거래탐지 사물인터넷연계 AI 자동상담 2017 MapR Technologies 8
빅데이터 시장동향 기업들이 MapR 플랫폼을 선택하는 이유 MapR 플랫폼은 단순한 빅데이터 플랫폼으로서의 기능이 아닌 엔터프라이즈 수준의 가용성과 안전성을 제공하는 기업용 플랫폼 핵심 기술 요소 분산 파일 시스템 MapR-FS NoSQL DB 시스템 MapR-DB 글로벌 메세징 시스템 MapRStreams 규모에 따른 확장 수 조 단위까지 확장되는 제한없는 파일 시스템 대규모 분산 처리 환경에서 대용량 데이터 고속 처리 고속처리를 위한 최적화 대용량 분산 병렬 처리 지원 정형 및 비정형등의 다양한 데이터를 통한 대규모 분석 및 기계 학습 구현 엔터프라이즈 수준의 안정성 무중단 데이터 액세스를 지원하는 다양한 자동 복구 기능 재해 복구와 스냅샷을 포함한 고가용성 제공 안정적인 고객 지원 체계 2017 MapR Technologies 9
빅데이터시장동향 MapR 플랫폼을통한비즈니스목표 디지털변혁에대한혁신성과와비용절감에대한경영성과를모두달성할수있는혁신플랫폼으로서 MapR 을선택 비즈니스혁신 Financial Services AMEX 카드사는 MapR 플랫폼기반의이상금융거래탐지시스템으로매년 1조달러의거래에서사기를보호 Telco & Media TransUnion 사는 MapR 플랫폼에서새로운셀프서비스분석플랫폼을통해고객에게더나은시장통찰력을제공하여의사결정에도움 Government AADHAAR 사는인도의 12억5천만명의생체인식시스템을개발하여불법적으로보험금을수령하는사기탐지시스템을개발해 1.3B$ 를절감 비용절감 Ad tech Experian사는기존 DB2 환경의신용평가스코어링시스템을 MapR 플랫폼에이식하여 20배의비용절감 UnitedHealth Group 은건강보험료지불과클레임관리등 80 여가지유스케이스를 MapR 기반으로도입하여지불오류, 사기등월 2 백만달러의비용절감 Retail IRi사는기존운영중이던메인프레임에서 MapR 플랫폼과의 DW 오프로드를통해연간 2.5백만달러의비용을절감 2017 MapR Technologies 10
1. MapR Technologies 소개 2017 MapR Technologies 11
1. MapR Technologies 소개 MapR Technologies 연혁 MapR Technologies 는 2009 년설립되었으며, 엔터프라이즈환경이요구하는신뢰성높은빅데이터플랫폼을제공하는회사입니다. 본사는미국산호세에위치해있으며, 빅데이터플랫폼시장에서가장많은유료고객을확보하고있습니다. MapR 주요연혁및제품출시현황 MapR Enterprise Hadoop V2 MapR Platform V5.2 MapR 컨버지드데이터플랫폼출시 분산메시징시스템을포함하는컨버지드데이터플랫폼 MapR Technologies 미국설립 세계최대빅데이터업체와파트너체결 MapR Enterprise Hadoop V4 MapR 한국지사설립업계유일의하둡버전호환성 (MR1/MR2) 제공 2009 2011 2012 2013 2014 2015 2016 ENTERPRISE EDITION MapR 엔터프라이즈빅데이터플랫폼출시 MapR Enterprise Hadoop V1 표준 API를활용한 Unified 하둡플랫폼출시 ENTERPRISE DATABASE EDITION MapR 엔터프라이즈데이터베이스에디션출시 MapR Enterprise Hadoop V3 업계최초하둡파일시스템과 NoSQL 데이터베이스통합 MapR Enterprise Hadoop V5 하둡업체최초로컬지원인력및한국어서비스제공업계유일실시간 NoSQL 데이터베이스복제구현 2017 MapR Technologies 12
1. MapR Technologies 소개 MapR 글로벌파트너 APPLICATIONS & OS ANALYTICS & BUSINESS INTELLIGENCE DATA WAREHOUSE & INTEGRATION INFRASTRUCTURE & CLOUD CONSULTANTS & INTEGRATORS 2017 MapR Technologies 13
1. MapR Technologies 소개 MapR 산업별글로벌고객 FINANCIAL SERVICES RETAIL CPG & MANUFACTURING ONLINE SERVICES & SECURITY MEDIA & ENTERTAINMENT Top Fashion Retailer MARKET RESEARCH ADVERTISING HEALTH COMMUNICATIONS GOVERMENT 2017 MapR Technologies 14
Data Processing 1. MapR Technologies 소개 MapR Platform Open Source Engines & Tools Commercial Engines & Applications Web-Scale Storage MapR-FS High Availability Search and Others MapR-DB Cloud and Managed Services HDFS API POSIX, NFS HBase API JSON API Kafka API Database MapR Streams Custom Apps Event Streaming Real Time Unified Security Multi-tenancy Disaster Recovery Global Namespace Unified Management and Monitoring Enterprise-Grade Platform Services 2017 MapR Technologies 15
1. MapR Technologies 소개 MapR Core & MapR Ecosystem Pack MapR Ecosystem Pack 데이터수집데이터저장및처리데이터분석개발및관리 기존의 DB 나로그서버로부터데이터를수집 데이터플랫폼에저장되어있는비정형데이터를처리 대량의정형데이터를 SQL 기반으로처리 스트리밍으로생성되는데이터를실시간으로처리 데이터마이닝, 기계학습을통한데이터분석 어플리케이션개발, 클러스터관리 MapR-NFS Drill Spark MLlib HUE Sqoop Spark SQL Spark Steaming Mahout Oozie Flume Pig Hive Storm R / Python / Scala Sentry YARN Framework Zookeeper Kafka API OJAI API HBase API JSON API NFS HDFS API MapR Streams (Global Event Streaming) MapR-DB (High-Performance NoSQL) MapR 컨버지드데이터플랫폼 (Read/Write) MapR-FS (POSIX) 엔터프라이즈상호호환성성능동시사용성데이터보호플랫폼관리 2017 MapR Technologies 16
2. Hadoop 기반플랫폼구축과한계 2017 MapR Technologies 17
2. Hadoop 기반플랫폼구축과한계 Hadoop 이란? Hadoop 이란대량의데이터를보관및처리할수있는분산저장소및분산처리프레임워크이며 Hadoop 에저장되어있는데이터를 수집, 저장, 처리, 분석하기위한다양한에코시스템이클러스터컴퓨팅기반으로구성되어있는환경 오픈소스에코시스템 분산처리프레임워크 분산저장소 2017 MapR Technologies 18
2. Hadoop 기반플랫폼구축과한계 하지만실제 Hadoop 플랫폼을구축해보면 기업환경에서 Apache Hadoop 기반의빅데이터플랫폼을구축하여보면, 다양한기업니즈에대응하기위해수많은컴포넌트들이 활용되게되고이러한컴포넌트의불완전한결합으로인해빅데이터통합플랫폼의복잡도가오히려증가하는현상이발생 스트리밍클러스터 오픈소스에코시스템 Impala 클러스터 NoSQL 클러스터 네임노드 얀 (YARN) 프레임워크 데이터노드 (HDFS) 2017 MapR Technologies 19
2. Hadoop 기반플랫폼구축과한계 하지만실제 Hadoop 플랫폼을구축해보면 기업환경에서 Apache Hadoop 기반의빅데이터플랫폼을구축하여보면, 다양한기업니즈에대응하기위해수많은컴포넌트들이 활용되게되고이러한컴포넌트의불완전한결합으로인해빅데이터통합플랫폼의복잡도가오히려증가하는현상이발생 스트리밍오픈소스에코시스템클러스터외부데이터처리지연서비스가용성축소 Impala NoSQL 클러스터대면 / 비대면결합클러스터저해비정형데이터처리어려움 노드수증가에따른비용증가 네임노드 얀 (YARN) 프레임워크 단일장애점발생 대고객서비스품질저하엔터프라이즈수준가용성확보불가데이터노드 (HDFS) 2017 MapR Technologies 20
2. Hadoop 기반플랫폼구축과한계 어느빅데이터프로젝트매니저의고민 막상 Hadoop 프로젝트를다끝내놓고보니 수많은컴포넌트들 수많은클러스터들 대체이많은관리포인트를어떻게관리하라는거야 뭐가이렇게어려운거야익숙한기술이라고는하나도없고 하아 팀원교육이걱정이다 그리고 Hadoop 이라는게원래이렇게느린거였어? 이건내예상보다훨씬성능이안나오잖아 이거정말기업에서사용하라고만든거야? 재난대책은? 보안은? 걱정이다 2017 MapR Technologies 21
3. MapR Platform 특장점 2017 MapR Technologies 22
3. MapR Platform 특장점 단일장애점제거로서비스레벨품질확보 2017 MapR Technologies 23
3. MapR Platform 특장점 단일장애점제거로서비스레벨품질확보 2017 MapR Technologies 24
3. MapR Platform 특장점 단일장애점제거로서비스레벨품질확보 2017 MapR Technologies 25
3. MapR Platform 특장점 단일장애점제거로서비스레벨품질확보 2017 MapR Technologies 26
3. MapR Platform 특장점 단일장애점제거로서비스레벨품질확보 Apache Hadoop 의필수적인요소인네임노드는분산환경에서데이터블럭의위치과변경사항을관장하는핵심요소이나단일 구성으로장애와병목의주요요소. MapR 은네임노드를제거한아키텍처로서비스레벨의품질확보가가능한유일한플랫폼 기존 Hadoop File System 네임노드장애시전체클러스가중지되는단일장애점발생 대기 (Stand-by) 네임노드는분산처리가아닌장애대비 대량의노드가구성된클러스터환경에서네임노드가부하시전체클러스터의성능이저하되는치명적인구조 MapR File System 네임노드를제거하여단일장애점 (SPOF) 제거 CLDB(Container Location Database) 기술기반운영 대량의노드가구성된클러스터환경에서도컨테이너위치와변경사항을분산처리하여성능에영향을미치지않는구조 네임노드 네임노드 (HA) 데이터노드 데이터노드 2017 MapR Technologies 27
3. MapR Platform 특장점 실시간빅데이터와서비스성능품질 금융산업에서빅데이터플랫폼을통한선제적의사결정환경을구현하기위해서는적시성을확보하는것이핵심. MapR 플랫폼은 기존 Hadoop 의아키텍처를완전히혁신하여기업수준의적시성확보와기존개발환경과유사한환경을제공 기존 Hadoop File System MapR File System HDFS 128 MB HDFS POSIX Direct 8 KB Volume API I/O API 지원 NFS I/O 관리 Hadoop File System (Java Code) MapR File System (C Code) 다중계층 으로인한 성능저하 Java Virtual Machine Linux File System 계층 간소화로 성능향상 Disk Disk 2017 MapR Technologies 28
3. MapR Platform 특장점 빅데이터저장에최적화된 MapR-FS 의시스템구조 Volume User-Defined Container MapR-FS Files MapR-DB Tables MapR Streams 10-30GB (Self-adjusting) Sizes vary Chunks Tablets Partitionlets Sizes vary 8KB Blocks 8KB (Fixed) Storage Pools 3 disks (default) Disks Physical/Virtual Data Node Physical/Virtual 2017 MapR Technologies 29
3. MapR Platform 특장점 빅데이터저장에최적화된 MapR-FS 의시스템구조 MapR-FS 는 Random Read/Write 를위한 8KB IO 단위를갖으면서도데이터는효과적으로분배되어병렬처리를진행하며 GB 단위의 복제를통해메타관리를보다간소하게관리하는혁신적인빅데이터플랫폼입니다. 기존 Hadoop File System MapR File System Name Node 싱글메타 CLDB 분산메타 Block 복제비효율분산 64MB < IO Containers 복제 IO 처리단위, 저장단위, 복제단위가모두동일하여 Chunks 병렬분산 빅데이터를효과적으로처리가불가능 데이터사이즈증가로대량의 Block이생성되고처리될때 Name Node의부하로인한급격한성증저하 8 KB Blocks 8KB IO 오로지 Read 만을위한구조 2017 MapR Technologies 30
3. MapR Platform 특장점 동일한사용자경험을위한 MapR NFS MapR 의 NFS 기능은 IT 관리자, 개발자, 데이터사이언티스트이특별한 Hadoop 커맨드를익히지않고도기존의파일시스템과 동일한방법으로 MapR-FS 를사용할수있도록지원하는기능입니다. 이기능을통하여레거시솔루션과도연동이가능합니다 드래그 & 드롭을통한파일의활용가능 일반적인파일브라우저를사용하여 MapR-FS 의데이터를손쉽게활용 커스터마이징없이어플리케이션에서활용 Read/Write 파일시스템을통해 Hadoop 전용커넥터가없는어플리케이션도활용 로그와같은파일을 MapR- FS 에직접 Write 개별서버내부에로그를저장하고 Hadoop 으로이관하는방법이아닌 MapR-FS 에바로 Write $ find. grep log $ cp /mapr/cluster $ scp /mapr/cluster $ vi results.csv $ tail -f part-00000 표준 OS 유틸리티사용 MapR-FS 는 POSIX 기반파일시스템으로일반적인리눅스유틸리티를그대로활용가능 2017 MapR Technologies 31
3. MapR Platform 특장점 데이터압축 MapR File System 은기본적으로압축기능이적용. Hadoop 파일시스템압축기능사용시과도한성능저하가발생하는경쟁사 제품과달리 MapR 파일시스템은 IO 레이어의간소화를통해압축기능을사용하여도최소한의오버헤드만발생 압축타입압축률압축속도압축해제속도 LZ4 2.084 330 MB/s 915 MB/s LZF 2.076 197 MB/s 465 MB/s ZLIB 3.095 14 MB/s 210 MB/s 2017 MapR Technologies 32
3. MapR Platform 특장점 엔터프라이즈수준의가용성확보 금융업은업의특성상 DW 데이터를포함하여모든데이터가미션크리티컬데이터로분류되는산업으로빅데이터역시데이터의 안전성확보가매우중요. MapR 은이러한기업요건을제품에반영하여제품엔진레벨에서백업및 HA/DR 환경을구성 기존 Hadoop File System 태생적으로 HA/DR 구성이고려되지않은아키텍처 단순파일복제수준의 DR 센터구성으로데이터유실가능 Active Standby 수준의 DR 센터구성 MapR File System 스냅샷 / 미러링기능을통한내 / 외부로의데이터보호 압축기능을통한저비용고성능 DR 센터구축가능 Active Active HA/DR 센터구성으로클러스터효율극대화 Sanpshot Sanpshot? Active Active 2017 MapR Technologies 33
3. MapR Platform 특장점 엔터프라이즈수준의보안기능제공 기업의보안요건을충족하기위해 MapR 은권한, 인증, 암호화, 감사보안기능을제공. 클러스터에서파일단위까지미세한 보안설정으로기업내 / 외부의플랫폼사용자들에대한안전한데이터활용환경을제공 Authorization Access Control Lists (ACLs) 관리 볼륨단위권한제어 MapR Table 접근권한제어 표준 UNIX 파일시스템퍼미션지원 Encryption Wire-level 데이터암호화 NSA Suite B 암호화 (AES-256 및 SHA-256) 를활용하여표준기반기본인증을지원 3 rd Party 솔루션연계를통한파일 / 컬럼레벨 암호화 MapR Ticket 적용 UserID & Password (PAM, LDAP) Kerberos 연동 모든이벤트 JSON 로그파일로저장 데이터액세스및관리포함 SQL과표준 BI툴을통한감시로그질의및커스텀리포트생성 Authentication Auditing 2017 MapR Technologies 34
3. MapR Platform 특장점 MapR Platform 통합 MapR Platform 은기업요건이반영되지않은단순한오픈소스기반의빅데이터플랫폼이아닌엔터프라이즈 환경에서필요로되는안전성, 보안, 성능을강화한업계유일의엔터프라이즈대응이가능한빅데이터플랫폼 스트리밍클러스터 오픈소스에코시스템 Impala 클러스터 NoSQL 클러스터 얀 (YARN) 프레임워크 MapR File System 2017 MapR Technologies 35
3. MapR Platform 특장점 MapR Streams 개요 스트림데이터는아직저장되지는않았으나유입이되고있는데이터로빅데이터환경에서현재발생되고있는상황이나상태를 실시간으로활용하고자하는요건이증가. 하지만오픈소스 Kafka 기반의스트림처리는구조적한계로많은이슈를발생 기존 Kafka 구동방식 MapR Streams 구동방식 Kafka (Java Code) Event Processing Event Processing JVM MapR Streams (C Code) Local File System Hadoop File System (Java Code) 계층 간소화로 MapR File System (C Code) Java Virtual Machine 성능향상 Linux File System Disk Disk 2017 MapR Technologies 36
3. MapR Platform 특장점 스트림데이터의적시성확보 금융업과같은서비스상품성제품들은오퍼링의적시성이매우중요한요소로작용합니다. 특히시장또는개인의상황을실시간으로 파악할수있어야합니다. SNS, IoT, Mobile 데이터에대한유실없는안정적스트림처리와고속처리로적시성확보가가능 기존 Kafka 구동방식 외부모듈인 MirrorMaker 에의한복제구조 메시지오프셋들은새클러스터에저장 메시지루핑을피하기위한복잡한 2-stage 클러스터 MapR Streams 구동방식 코어플랫폼에의한복제구조 메타데이터 / 오프셋들과함께메시지복제 메시지루핑방지기술내장 Producers Producers & Consumers Consumers Producers & Consumers 2017 MapR Technologies 37
3. MapR Platform 특장점 스트림데이터의분산처리와가용성 기존 Kafka 스트림클러스터는 Hadoop 외부에위치하여네트워크통신에의해메시징처리를수행합니다. 만약스트림처리를위한 CEP 와같은스트림분석솔루션의장애가발생시 Kafka 서버내부파일버퍼의사이징한계로데이터의유실가능성이발생합니다. 기존 Kafka 구동방식 파티션을단일디스크에할당 파티션의유입률, 리텐션정책등을고려하지않고할당 수작업에의한파티션이동 MapR Streams 구동방식 파티션을 MapR 파일시스템에분할 / 분산하여할당 분할된파티션을활용율기반으로할당 주기적으로분할된파티션의리밸런싱수행 2017 MapR Technologies 38
3. MapR Platform 특장점 MapR Platform 통합 MapR Platform 은기업요건이반영되지않은단순한오픈소스기반의빅데이터플랫폼이아닌엔터프라이즈 환경에서필요로되는안전성, 보안, 성능을강화한업계유일의엔터프라이즈대응이가능한빅데이터플랫폼 오픈소스에코시스템 Impala 클러스터 NoSQL 클러스터 얀 (YARN) 프레임워크 MapR File System MapR Streams 2017 MapR Technologies 39
3. MapR Platform 특장점 MapR-DB 개요 Hbase 는 Hadoop 환경에서비정형데이터를저장하는 NoSQL 솔루션. 하지만 Hbase 구조적한계로인해성능및안전성확보가매우 큰이슈. MapR-DB 는이러한제약사항을제거하여 MapR FS 와 DB 를결합시켜고속으로 Schema less 데이터를처리 기존 Hbase 구동방식 MapR-DB 구동방식 Hbase (Java Code) MapR-DB (C Code) Java Virtual Machine 다중계층 으로인한 성능저하 Hadoop File System (Java Code) Java Virtual Machine 계층 간소화로 성능향상 MapR File System (C Code) Linux File System Disk Disk 2017 MapR Technologies 40
3. MapR Platform 특장점 기업수준의반정형 NoSQL 데이터를처리하는 MapR-DB 고객대응후생성되는데이터를기존정형 DBMS 로처리하는것은스키마구성및관리에대한부담이가중. 웹이나모바일앱, ARS, VoC 등으로생성되는데이터들에대해고객중심의데이터를구성하기위해서는성능과안전성이확보된 NoSQL DB 가필요. 기존 Hbase 구동방식 MapR-DB 구동방식 마스터노드가단일장애점 (SPOF) 연산영역이독립된영역에서만사용 바이너리테이블만제공, 다큐먼트 NoSQL은별도로구성 HA/DR 위한기능미제공 마스터노드를제거하여단일장애점 (SPOF) 을제거 MapR 클러스터전체를연산영역으로통합하여사용 바이너리테이블뿐만아닌 JSON 다큐먼트테이블제공 HA/DR을위한 Table 레벨동기화기능제공 마스터 노드 마스터 노드 (HA) Hbase 클러스터 MongoDB 클러스터 MapR 클러스터 2017 MapR Technologies 41
3. MapR Platform 특장점 Apache Drill 소개 Hadoop 환경의많은 SQL on Hadoop 기술들이존재. Apache Drill 은 MapR 이주도하는프로젝트로이기종 Hadoop 에코 시스템들에대해동일한 ANSI SQL 을기준으로개발환경을통합하는프로젝트로가장쉽게사용할수있는 SQL on Hadoop 기술 기존 SQL on Hadoop 기술 각각의에코시스템마다독립적인 SQL on Hadoop 엔진 ANSI SQL이아닌독립적인 SQL기반의언어를사용 HDFS의파일을스키마구성없이 SQL 직접접근이불가 Apache Drill Drillbit 이라는동일한 SQL on Hadoop 엔진사용 ANSI 92 표준 SQL을모든소스에대해동일하게사용 MapR FS 파일을스키마구성없이 SQL 직접접근가능 Impala SQL Phoenix SQL HiveQL Apache Drill ( ANSI SQL ) HDFS Hbase Hive HDFS/MapR FS Hbase/MapR-DB Hive 2017 MapR Technologies 42
3. MapR Platform 특장점 Apache Drill 소개 Apache Drill 은상당부분의커미터들이 MapR 소속의개발자들로구성되어코드를기여하고있으며 MapR-FS, HDFS, Hive, MapR- DB, Hbase 등데이터소스와스키마에자유로운 SQL on Hadoop 프로젝트. 자체개발 Web UI 또는 Zeppelin 등과통합하여활용 2017 MapR Technologies 43
3. MapR Platform 특장점 Apache Drill 소개 Apache Drill 은 MapReduce 엔진이아닌 Drillbit 이라는전용데이터처리엔진을보유. 사용자는 Zookeeper 로부터질의를전달할 Drillbit 엔진을할당받고질의를수행하며각엔진은캐시된메타데이터를조회하여데이터지역성을기반으로데이터를탐색 Select device, cust_id, order_id FROM clicks.json t, hive.orders o WHERE t.cust_id=o.cust_id Zookeeper Drillbit Engine Drillbit Engine Drillbit Engine Drillbit Engine Drillbit Engine Yarn Framework MapR File System 2017 MapR Technologies 44
3. MapR Platform 특장점 Apache Drill 소개 질의를파싱하기위한 Drillbit 엔진이선정되면쿼리를 Logical Plan 과 Physical Plan 으로각기수행계획을생성. 이때데이터의 지역성을최대한활용하되기위한정보를수집하고각계획을트리구조로조각내어각분산노드의 Drill 엔진에전달 Drillbit Engine Drillbit Engine Drillbit Engine RPC Endpoint SQL Parser Protobuf 기반 RPC RPC Endpoint SQL Parser RPC Endpoint SQL Parser Logical Plan Optimizer Physical Plan Rule/Cost 기반최적화 데이터지역성 Logical Plan Optimizer Physical Plan Logical Plan Optimizer Physical Plan Execution 질의분산 Execution Execution Storage Engine Interface Storage Engine Interface Storage Engine Interface Distributed Cache Distributed Cache Distributed Cache 2017 MapR Technologies 45
3. MapR Platform 특장점 MapR Platform 통합 MapR Platform 은기업요건이반영되지않은단순한오픈소스기반의빅데이터플랫폼이아닌엔터프라이즈 환경에서필요로되는안전성, 보안, 성능을강화한업계유일의엔터프라이즈대응이가능한빅데이터플랫폼 오픈소스에코시스템 얀 (YARN) 프레임워크 MapR File System MapR Streams MapR-DB 2017 MapR Technologies 46
3. MapR Platform 특장점 MapR Platform 의특장점요약 MapR Platform 은기업이직면하고있는빅데이터문제를해소한업계유일의기업용빅데이터플랫폼입니다 오픈소스기반 Hadoop Platform 네임노드및마스터노드의단일장애점문제 JVM및 OS File System의복잡한단계로인한성능저하 Hadoop 전문가만이시스템운영및개발이가능 HA/DR 및보안기능의취약으로기업수준대응불가 다량의관리노드구성이필요로되어 TCO 증가 MapR Platform 네임노드및마스터노드를제거하여단일장애점제거 JVM 및 OS File System 영역을제거하여성능향상 POSIX, NFS 기능등으로기존의인력으로운영및개발가능 코어레벨로 HA/DR 및보안기능제공으로기업수준대응 간소화된클러스터구성으로노드를감소하여 TCO 절감 2017 MapR Technologies 47
4. 오픈소스에코시스템 2017 MapR Technologies 48
4. 오픈소스에코시스템 하둡에코시스템 데이터수집 다양한원천시스템에있는로우데이터를데이터저장영역인 MapR-FS(HDFS) 와연계하기위해아래와같은기술을사용합니다. 컴포넌트 MapR-NFS 설명 읽기 / 쓰기가가능한 NFS 를제공하여소스데이터시스템에마운트하여신속히데이터를로드할수있음 하둡파일시스템접근에대한 POSIX 사용지원 Apache Sqoop Apache Flume 간단한 CLI(Command Line Interface) 로 Oracle, MySQL 등의 RDBMS의특정테이블또는특정조건에맞는데이터를 HDFS로쉽게옮길수있으며, Hive, Pig, HBase 등으로바로옮겨확인가능 HDFS에저장되어있는데이터를 RDBMS로적재또는 RDBMS 데이터를 HDFS로적재기능 하둡용 ETL 도구 대용량의로그데이터를분산, 안정성, 가용성을바탕으로효율적으로수집, 집계, 이동이가능한로그수집기능 장애가나더라도로그, 이벤트를유실없이전송함을보장 수평확장 (Scale-Out) 이가능하여분산수집이가능한구조로설계됨 다양한소스로부터데이터를수집하여다양한방식으로데이터를전송이가능하지만, 아키텍처가단순하고유연하며확장가능한데이터모델을제공하여, 실시간분석애플리케이션을쉽게개발 각종 Source, Sink등제공으로쉽게확장가능 2017 MapR Technologies 49
4. 오픈소스에코시스템 하둡에코시스템 데이터처리 MapR 은수집된데이터에대한조회및처리를위해 SQL on Hadoop 과같은다양한오픈소스기술들을제공합니다. 컴포넌트 Apache Drill 설명 다양한정형또는비정형데이터 (Hbase, Hive, MongoDB, Json., CSV 등 ) 에서즉각적인데이터탐색을제공 ANSI SQL 사용으로손쉽게쿼리를작성 Apache Spark 하둡기반의고급실시간분석엔진 고속쿼리수행툴, 머신학습라이브러리, 그래프프로세싱엔진, 스트리밍분석엔진제공 Apache Hive 전문적인분석코딩능력이필요없이간편하게, 접근하기쉽도록 RDB 의 SQL 문과유사한 HQL(Hive Query Language) 을제공 테이블과파티션과관련된메타정보를하이브메타스토어에저장 Apache Pig 대용량의데이터집합을분석하기위한플랫폼 특수목적에맞게사용자함수를만들어확장성을제공 2017 MapR Technologies 50
4. 오픈소스에코시스템 하둡에코시스템 데이터보관및워크플로우처리 MapR 은보안과성능이강화된비용효율적인스케일아웃방식의분산저장시스템인 MapR-FS, MapR-DB 를제공합니다. 컴포넌트 설명 MapR-FS (HDFS) 분산데이터처리를위해서데이터를저장하기위한파일시스템 비 NameNode 아키텍처 미러링을통해복제본을원격사이트에생성하여재해복구 (DR) 를지원 대용량데이터 (terabyte 또는 petabyte) 를저장하도록고안. 이를위해서데이터를여러대의컴퓨터에나누어저장. 즉, NFS 보다훨씬큰파일도지원 데이터액세스에대한성능개선도용이하며확장시클러스터에컴퓨터 node 만추가하면됨 MapR-DB (NoSQL) 로그데이터, 센서데이터, 메타데이터, 클릭동향, 사용자프로파일, 세션상태및링크 / 의미 / 관계데이터를포함한광범위한운영데이터형식을관리하기위해열기반 (column-oriented) NoSQL 데이터모델을지원 높은처리량및지속적인짧은대기시간을제공 Apache Oozie 하둡잡을관리하기위한워크플로우스케줄러시스템 우지워크플로우잡은하둡의다양한잡을실행할수있는액션 (action) 으로구성되며, 방향성이있는비순환그래프 (DAG: Directed Acyclic Graph) 를구성 하둡스택의다양한하둡잡과동작하도록통합되었으며, 여기이는자바맵리듀스, 스트리밍맵리듀스, 피그, 하이브, 스쿱, Distcp 등이포함되며자바프로그램이나쉘스크립티와같은특정시스템에특화된잡도실행가능 2017 MapR Technologies 51
4. 오픈소스에코시스템 하둡에코시스템 외부솔루션연계 MapR 은가공된데이터를활용하기위해다양한프로토콜및 API 를제공합니다. 다양한 SW 들과유연한연결성을제공합니다 컴포넌트 설명 HBase-API MapR-DB 에저장된결과데이터를 HBase-API 를이용하여다양한외부도구과연계 Kafka-API MapR Streams 의데이터를 Kafka-API 를통하여활용가능 Hadoop Connector Hadoop Connector 를이용하여다양한외부도구과연계 Apache Drill ODBC/JDBC Driver Apache Drill 의 ODBC 및 JDBC 드라이버를이용하여다양한 UI 툴과연계 JSON Interface MapR-DB, MapR Streams, MapR FS 의데이터를 JSON 기반으로인터페이스 2017 MapR Technologies 52
4. 오픈소스에코시스템 머신러닝도구활용 MapR 플랫폼은 Spark Mllib, Mahout 머신러닝라이브러리를제공하며고객사의요구에따라 Tensorflow, Caffe, H2O 와같은 머신러닝혹은딥러닝과같은 AI 분석도구들을활용함에있어 MapR NFS 기능을통해손쉽게분석도구들과연계 Spark MLlib Tensorflow caffe Spark 의기본머신러닝라이브러리로인메모리기반으로머신러닝알고리즘을분산처리 구글에서개발한딥러닝, 머신러닝라이브러리로 CPU/GPU 모드로수행 버클리대에서개발한딥러닝라이브러리로 CPU/GPU 모드로수행 Classification, Regression, Decision Tree, Recommendation, Clustering, Topic Modeling, Association Rule 등의알고리즘제공 Classification, Regression, Clustering, Markov, Neural Network 등의알고리즘제공 Artificial Neural Network, Convolutional Neural Network 등 Neural Network 중심의딥러닝알고리즘제공 Spark MLlib YARN Tensorflow Server MapR Client NFS Caffe Server MapR Client NFS MapR File System MapR File System MapR File System 2017 MapR Technologies 53
4. 오픈소스에코시스템 Spark 가지원하는기계학습알고리즘 Apache Spark 는인메모리기반의분석을위해 Mllib 라이브러리를통해다양한기계학습알고리즘을제공 Basic statistics Classification and regression Collaborative filtering Clustering Dimensionality reduction Summary statistics SVMs, logistic alternating least k-means Singular value Correlations regression, linear squares (ALS) Gaussian mixture decomposition Stratified sampling regression Power iteration (SVD) Hypothesis testing Naive Bayes clustering (PIC) Principal Random data Decision trees Latent Dirichlet component generation Random Forests allocation (LDA) analysis (PCA) Gradient-Boosted Streaming k-means Trees 2017 MapR Technologies 54
4. 오픈소스에코시스템 ETL 및 Workflow 처리 수집, 처리, 분석등의작업을워크플로우단위로스케줄링하기위해 Apache Oozie 를지원. Apache Oozie 를 HUE 와함께사용하면 GUI 기반의드래그 & 드롭기반으로설계할수있으며작업의시작, 중지, 실패등의모니터링도 GUI 환경에서손쉽게확인 Oozie 시작 Sqoop 작업 수집 Hive 작업 1 Hive 작업 2 Hive 작업 3 처리 Spark 작업 Oozie 종료 Spark 작업 분석 작업의 Workflow 디자인 Email 알람지원 스케줄링방법선택 ( 시간, 데이터 ) 작업의모니터링 실패한작업의재실행설정 < Oozie 작업의논리구조 > < HUE 에서 Oozie 수행 > 2017 MapR Technologies 55
4. 오픈소스에코시스템 분석도구활용 MapR 플랫폼은다양한분석도구활용을지원. 분석환경의목적과특성에따라적절한분석도구를선정하여적용. 인터프리터 종류나시각화방법에따라분석도구의선택이달라질수있으나공통적으로모든도구가 Spark 를적극적으로지원 HUE Zeppelin Jupyter Hadoop 기반의가장대중적인분석도구로쿼리도구및노트북분석제공 가장많은기본인터프리터를제공하며 노트북기반의분석 Python 노트북분석에특화되어있으며 다양한무료 / 유로라이브러리지원 MapR 파일시스템관리, 파일권한관리, Hive, Impala, Spark(Scala, Python, R) 등분석지원 Hive, Drill, Impala, Spark(Scala, Python, R) 등분석지원하며타인터프리터설치지원 Python 인터프리터만기본제공하고타인터 프리터는별도플러그인을설치하여지원 2017 MapR Technologies 56
4. 오픈소스에코시스템 이상징후예측시스템적용예 이상징후포착시점을 1차실시간, 2차비실시간으로구분하여 1차분석에서발견된이상징후를실시간으로리포트하고머신러닝기법이적용된 2차심층분석을통하여발견된징후를리포트하여전체현상을수리적으로분석한결과를이상징후에대한평가기준으로활용. 데이터수집실시간처리및저장데이터전처리데이터분석결과리포트 데이터소스 실시간스트림분석 실시간대시보드 데이터저장 데이터전처리 머신러닝모형대입 고위험군리포트 다양한소스의데이터수집 MapR-Streams 와 Apache 머신러닝분석을위한데이터 모형훈련및평가가완료된 분석완료된결과데이터를 실시간분석데이터분류 Spark 연계를통한룰기반의 정제및가공등의전처리수행 분류모델 (Classification) 에 시각화및리포트로생성 배치분석대상데이터분류 실시간데이터처리및분석 데이터수치화, 정형화수행 새로유입된데이터적용 Apache Drill 기술을활용하여 Apache Sqoop, Apache MapR-DB, MapR-FS 에원본 Apache Hive, Apache Spark Apache Spark 또는 Apache ANSI SQL 기반으로결과 Flume, MapR-NFS 기술활용 및처리된데이터저장 등의처리기술을활용 Mahout 의머신러닝기술활용 데이터조회 2017 MapR Technologies 57
4. 오픈소스에코시스템 개인화마케팅시스템적용예 다양한소스로부터데이터를수집하여클러스터로구성되어있는 MapR 컨버지드데이터플랫폼에데이터를수집, 저장, 처리후 분석서버가저장된데이터를분석. 분석서버는분석목적에따라각기다른서버로구성되어있으면신기술을위한별도서버구성 x86 리눅스서버 / 10G 네트워크 통계분석서버 기간계 RDBMS 텍스트마이닝서버 STT 시스템 MapR Platform 시각화서버 SNS API 오픈소스서버 2017 MapR Technologies 58
4. 오픈소스에코시스템 개인화마케팅시스템적용예 정형데이터와비정형데이터를수집후 ODS 영역에저장후데이터처리를통해데이터마트구성. 구성된마트는기존분석방법으로 정형데이터를분석하고새로운분석방법으로비정형데이터를분석후모델을결합하여보다정확한예측모델을생성 정형데이터 마케팅분석 카드사용이력 카드사용이력 가맹점카드사용현황 타겟마케팅 카드승인이력 카드승인이력 카드론현황 이탈 / 연체예측 콜센터상담이력 콜센터상담이력 고객개인현황 카드론예측 상담이력 / STT 텍스트 민원유형 비정형데이터 웹 / 모바일 /ARS 민원경유현황 민원분석 상담사기록 STT 추출 외부 SNS 텍스트.. ODS 상급기간접촉현황.. 데이터마트 민원분류접촉이력 웹 / 모바일 /ARS MapR 컨버지드데이터플랫폼 민원재기예측 외부 SNS 2017 MapR Technologies 59
4. 오픈소스에코시스템 개인화마케팅시스템적용예 MapR 의다양한데이터처리에코시스템과 SAS 의분석솔루션을연동하여데이터를분석. MapR 의고성능을활용하여기존반년 주기의배치및분석작업을월주기로, 월주기의분석작업을일주기로단축하였고영향변수의수도확장하여분석 정형데이터 마이닝솔루션 Oracle DB 비정형데이터 데이터수집 데이터처리 데이터분석 HUE / MapR MCS Oozie MapR-NFS Spark Sqoop Hive Impala SAS CA SAS EM 오픈소스솔루션 Tensorflow/Cafe R / Python Jupyter/Zeppelin 텍스트파일 / 로그파일 MapR 컨버지드데이터플랫폼 Zookeeper 시각화솔루션 Dashboard Chart/Graph 2017 MapR Technologies 60
4. 오픈소스에코시스템 개인화마케팅시스템적용예 전용커넥터를통해 Impala 와 Hive 를연계하여 SAS 의데이터소스로활용 SAS Data Loader 를통해 Spark 와연계하여 SAS 의데이터정재작업을위임 JDBC 드라이버를통해 Impala 와 Hive 를연계하여 R 의데이터소스로활용하여 R Server 에서분석을수행 MapR Client 를통해 SparkR 의 API 를호출하여 Spark 클러스터에서분산처리 JDBC SAS Enterprise Miner SAS Impala Connector SAS Hive Connector SAS Data Loader JDBC NFS JDBC R Server Impala JDBC Driver Hive JDBC Driver MapR Client JDBC NFS API API Hiveserver2 Hiveserver2 Hive Impala Hive Impala Hive Impala... Hive Impala Hive Impala Hive Impala... Spark Spark Spark SparkR SparkR SparkR MapR File System MapR File System < MapR & SAS 연계아키텍처 > < MapR & R 연계아키텍처 > 2017 MapR Technologies 61
Interface (NFS / httpfs / API / ODBC) Interface (NFS / httpfs / API / ODBC) 4. 오픈소스에코시스템 구성아키텍처예시 하둡기반플랫폼구축 Legacy System RDBMS 데이터적재 (ETL) Data Integration Sqoop Workflow/Devel. Oozie Machine Learning Spark 정형다차원분석 BI Report File System Streaming Data 로그스트림 Flume Event Streaming HUE Batch Processing Mahout Interactive Query 정형데이터시각화 Ad-hoc Report Visualization Sensing Storm Hive Drill Graph Log Spark Streaming Spark Spark SQL Chart Unstructured Data Text Documents 센서스트림 비정형문서적재 MapR Streams MapR File System MapR Platform MapR-DB 비정형데이터시각화 데이터분석 Analytics Search Data Exploration 2017 MapR Technologies 62
Interface (NFS / httpfs / API / ODBC) Interface (NFS / httpfs / API / ODBC) 4. 오픈소스에코시스템 구성아키텍처예시 하둡을사용한하이브리드 DW 데이터적재 (ETL) Data Node DW Appliance Data Node Query Node 데이터적하 (Offload) 쿼리페더레이션 정형다차원분석 Legacy System Data Integration Workflow/Devel. Machine Learning BI RDBMS Flume Oozie Spark Report File System Streaming Data 로그스트림 Sqoop Event Streaming HUE Batch Processing Mahout Interactive Query 정형데이터시각화 Ad-hoc Report Visualization Sensing Storm Hive Drill Graph Log Unstructured Data Text Documents 센서스트림 비정형문서적재 Spark Streaming MapR Streams Spark MapR File System MapR Platform Spark SQL MapR-DB 비정형데이터시각화 데이터분석 Chart Analytics Search Data Exploration 2017 MapR Technologies 63