비투엔은풍부한프로젝트경험과업계최고수준의컨설턴트의역량을바탕으로고객에게최선의가치를제공해왔으며중소기업중유일한 빅데이터전문센터로서기술과경험을보유하고있는대표적인빅데이터구축서비스기업입니다. 3
비투엔은데이터관련기업 200 여곳을회원으로둔국내최대데이터관련단체인한국데이터산업협회 (KODIA: Korea Data Industry Association) 의회장사로서, 공공및민간산업계간상호교류를통해데이터산업의활성화를도모하고, 데이터종사자들의권익보호를 도모하며데이터경제의활성화를위해정책제언과행사들을주최합니다. 4
MapR Technologies 는 2009 년설립되었으며, 엔터프라이즈환경이요구하는신뢰성높은빅데이터플랫폼을제공합니다. 본사는미국 산호세에위치해있으며, 빅데이터플랫폼시장에서가장많은유료고객을확보하고있습니다. MapR Technologies 미국설립 MapR Enterprise Hadoop V2 세계최대빅데이터업체와파트너체결 MapR Enterprise Hadoop V4 MapR 한국지사설립업계유일의하둡버전호환성 (MR1/MR2) 제공 MapR Converged Data Platform V5.2 MapR 단일데이터플랫폼출시분산메시징시스템을포함하는컨버지드데이터플랫폼 MapR 6.1 출시 2009 2011 2012 2013 2014 2015 2016 2018 2019 ENTERPRISE EDITION MapR 엔터프라이즈빅데이터플랫폼출시 MapR Enterprise Hadoop V1 ENTERPRISE DATABASE EDITION MapR 엔터프라이즈데이터베이스에디션출시 MapR Enterprise Hadoop V3 MapR Enterprise Hadoop V5 하둡업체최초로컬지원인력및한국어서비스제공업계유일실시간 NoSQL 데이터베이스복제구현 B2EN MapR 총판 표준 API 를활용한 Unified 하둡플랫폼출시 업계최초하둡파일시스템과 NoSQL 데이터베이스통합 6
MapR 단일데이터플랫폼은데이터의안전성, 성능, 가용성을강화한업계유일의상용데이터플랫폼입니다. 단일 Converged 플랫폼 대용량분산처리성능 업계유일의상용데이터플랫폼 최대 2,000 노드이상의검증된확장성 무중단데이터액세스자동복구지원 01 핵심기술요소 02 고속처리를위한최적화 03 규모에따른확장성 04 엔터프라이즈안정성 최고의성능 저비용확장성 고가용성 안정성 7
MapR 단일데이터플랫폼은기업요건이반영되지않은단순한 Hadoop 오픈소스기반의빅데이터플랫폼이아닌엔터프라이즈환경에서 필요로하는데이터의안전성, 성능, 가용성을강화한업계유일의상용데이터플랫폼입니다. 기존기업용앱배치및분석지능형앱 클라우드규모의데이터저장 분석및머신러닝 운영 DB 글로벌이벤트스트리밍 Web-Scale Storage MapR-FS Database MapR-DB Event Streaming MapR Streams 고가용성실시간통합보안멀티테넌시재해복구글로벌네임스페이스 ON-PREMISE, MULTI-CLOUD, EDGE IOT & EDGE MapR 단일데이터플랫폼은 Hadoop, Apache Drill 및 Spark 와결합하여데이터의종류와상관없이 하나의플랫폼에서처리할수있도록함으로써고객들에게좀더빠르고비용효율적인인사이트를제공합니다. 8
MapR Data Platform 은엔터프라이즈환경에서컴포넌트의완전한결합을통해 Mission Critical 한빅데이터플랫폼운영환경에최적화된 솔루션입니다. MEP 1) MapR Core ( 분산처리프레임워크 + 분산저장소 ) & 2) MEP (MapR Expansion Pack) 데이터수집데이터저장및처리데이터분석개발및관리 기존의 DB 나로그서버로부터데이터를수집 데이터플랫폼에저장되어있는비정형데이터를처리 대량의정형데이터를 SQL 기반으로처리 스트리밍으로생성되는데이터를실시간으로처리 데이터마이닝, 기계학습을통한데이터분석 어플리케이션개발, 클러스터관리 MapR-NFS Drill Spark MLlib HUE Sqoop Spark SQL Spark Steaming Mahout Oozie Flume Pig Hive Storm R/Python/Scala Sentry YARN Framework Zookeeper MapR Core Kafka API OJAI API HBase API JSON API NFS / POSIX HDFS API MapR-ES (Global Event Streaming) MapR-DB (High-Performance NoSQL) MapR-XD MapR 데이터플랫폼 (Read/Write) 엔터프라이즈상호호환성성능동시사용성데이터보호플랫폼관리 9
MapR 단일데이타플랫폼은제공기능수준의관점이아닌엔터프라이즈수준의안정성, 무중단스케일아웃이가능한확장성, 안정적인 파일시스템을기반으로제공하는저장및접근에대한우수한성능, 실시간데이터수집및유연한연계, 데이터적재노드에서의분석수행을 통한빠른실행환경을제공합니다. 10
손쉬운 Deploy 및클라우드확장성, 멀티티어제공, 글로벌네임스페이스제공등다양한기능을제공합니다. 11
MapR Technologies 는고유한특허를바탕으로제품의기획에서부터설계까지철저하게엔터프라이즈시장에서요구하는가용성과안정성에 초점을둔제품을시장에제공하고있으며여러시장조사기관들로부터높은평가를받고있습니다. All scores are based on a scale of 0 (weak) to 5 (strong) Architecture 4.20 3.40 4.80 CURRENT OFFERING Workload Flexibility 3.00 3.00 5.00 Data 4.25 3.50 4.75 Platform integrations 5.00 5.00 5.00 MARKET PRESENSE Customer Base 4.67 4.34 4.67 13
기능 MapR Cloudera Cloudera + Hortonworks 일반 Hadoop Hadoop, Spark, ML, AI 아키텍처 제약없는확장가능한단일플랫폼 중앙집중식 ( 네임노드사용 ) 중앙집중식 ( 네임노드사용 ) 중앙집중식 ( 네임노드사용 ) 엔터프라이즈통합환경 : NFS, POSIX 글로벌재해복구 지원 (since 2011) 로컬및원격미러링을통한 DR 구성 (since 2011) 지원지원미지원 지원지원미지원 데이터보호및특정시점복구 ( 스냅샷 ) 모든파일과테이블에대한특정시점의일관성보장 (since 2011) 미사용중인파일만일관성보장 미사용중인파일만일관성보장 확인된바없음 Hybrid Cloud, Multi-Cloud 환경 지원미지원미지원미지원 단일보안모델 단일플랫폼기반인증, 권한및데이터보호제공 (since 2011) 지원지원미지원 상태기반 App 컨테이너화지원미지원미지원미지원 AI/ML 모델, 버전및 Data Management Global 분산파일및객체저장소 파일, 폴더, 테이블포함하여지정된단일클러스터로관리 단일플랫폼기반파일및객체저장소관리 (Global 네임스페이스 ) 어려움어려움어려움 미지원미지원미지원 IoT 및 Edge 분석을위한실시간스트리밍 단일플랫폼내에서 MapR-ES 제공 (KafkaAPI 지원하며데이터복제및관리포인트없음 ) 지원 지원 Kafka 별도클러스터필요 14
네임노드제거를통한성능향상및안정적인확장성제공 네임노드 네임노드 ( 대기 ) 데이터노드 16
빅데이터의특성상 DW 데이터를포함하여모든데이터가미션크리티컬데이터로분류되며데이터의안전성확보가매우중요하며 MapR 은 이러한기업요건을제품에반영하여제품엔진레벨에서백업및 HA/DR 환경을구성합니다. Snapshot? Snapshot Active Active 17
MapR Data Platform 은기존 Hadoop 의아키텍처를완전히혁신하여적시성확보와 Mission-critical 한운영환경을제공합니다. 또한데이터를효율적으로분류하여그에맞는 replication 방법과맞춤형스토리지공간에적재합니다. 18
19
Data Blocks Hadoop/HBase Applications Read / Write Redirect on Write for Snapshot NFS Applications A B C C D Snapshot 생성및관리기능은엔터프라이즈급시스템에서필수적인기능 특정시점의 Volume 에대한읽기전용이미지 MCS 내지 Command 로쉽고빠르게 Snapshot 생성 ( 스케줄러설정으로자동화 ) 및복구 생성된시점에서변경사항에대하여증분저장방식으로데이터중복은없음 데이터사본저장방식이아니여서증분디스크공간은별도사용하지않음 Redirect-on-write 메소드는데이터보호기능제공 Snapshot 1 Snapshot 2 Snapshot 3 [MCS 설정예시 ] maprcli volume snapshot create volume volume1 snapshotname snapshot1 [maprcli 예시 ] MCS (MapR Control System) 20
MapR 단일데이터플랫폼에는사이트전체의재난발생시데이터손실을방지하는백업및미러링기능이포함되어있으며 MapR 은파일, 데이터베이스및이벤트를위한내장형엔터프라이즈급 DR 을제공하는대형데이터플랫폼입니다. 마스터데이터센터에서다른사이트로연결한다음다른사이트로도미러링지원 Snapshot 활용하여백업과복제의두가지방법으로 DR 지원 파일, 폴더, 테이블포함하여지정된클러스터로복사 원격지마스터데이터방지로읽기권한만부여 재난발생시에원격지클러스터활성화 Promotable Mirrors 기능으로읽기 / 쓰기상태활성화 21
고객대응후생성되는데이터를기존정형 DBMS 로처리하는것은스키마구성및관리에대한부담이가중되기에, 웹이나모바일앱, ARS, VoC 등으로생성되는데이터들에대해고객중심의데이터를구성하기위해서는성능과안전성이확보된 NoSQL DB 가필요합니다. 마스터노드 마스터노드 (HA) Hbase 클러스터 MongoDB 클러스터 MapR 클러스터 22
Hbase 는 Hadoop 환경에서비정형데이터를저장하는 NoSQL 솔루션. 하지만 Hbase 구조적한계로인해성능및안전성확보가매우큰이슈. MapR-DB 는이러한제약사항을제거하여 MapR FS 와 DB 를결합시켜고속으로 Schema-less( 스키마유연성 ) 데이터를처리 Hbase (Java Code) MapR-DB (C Code) Java Virtual Machine 다중계층으로인한성능저하 Hadoop File System (Java Code) Java Virtual Machine 계층간소화로성능향상 MapR File System (C Code) Linux File System Disk Disk 23
MapR-DB 는테이블모니터링의기능을가지고있습니다. 각테이블이위치하는노드를관찰하여지연시간을보여주거나캐시히트나미스값 같은정보도제공하는기능을가집니다. 24
Kafka 는하둡외부에위치하여통신에의해메시징처리를수행하므로 Kafaka 서버내의버퍼사이즈한계로데이터유실가능성이있으나, MapR-ES 는단일클러스터에서처리하므로데이터유실가능성이없습니다. Kafka(Java Code) Event Processing Event Processing JVM MapR-ES (C Code) Local File System HDFS (Java Code) JVM 계층간소화로성능향상 MapR-FS (C Code) Linux File System Disk Disk 25
MapR-ES 는구조의단순화, 장애요소제거및성능이검증된구조로서수집, 처리및보관기능을하나의데이터플랫폼에서실행할수있습니다. Sensor Data Kafka REST API MapR-ES Stream Processing Data Persist ence Social Media Kafka Connect Apps Kafka Connect Database Data Warehouse 26
MapR Hadoop Enterprise Premier 는엔터프라이즈환경에서컴포넌트의완전한결합을통해 Mission Critical 한빅데이터플랫폼운영환경을 만들기위해필요한솔루션들을제공합니다. 기본 Apache Hadoop MapR Analytics 의 Hadoop 27
MapR Spark Enterprise Premier 는대용량데이터처리를위한통합된분석엔진입니다. 기본 Apache Spark MapR Advanced Analytics 의 Spark 28
Apache Drill 은 MapR 이주도하는프로젝트로이기종 Hadoop 에코시스템들에대해동일한 ANSI SQL 을기준으로개발환경을통합하는 프로젝트로가장쉽게사용할수있는 SQL on Hadoop 기술입니다. 기본 Apache Drill MapR Interactive SQL Engine 의 Drill 29
Data Science Refinery(DSR) 는기업용데이터분석환경의단일컨테이너로써, 하나의가상공간에서보다많은엔진을통한작업능력을 제공하며, 아래목록을포함하고있습니다. 30
빅데이터구축사업이란, 빅데이터시스템을구축하는데있어서기존정보계를빅데이터환경으로전환하거나미래에사용될분석의재료가 되는데이터들을우선모아서데이터레이크를구축한후분석프로젝트를진행하는경우로, 일반적인구축단계는준비 분석 설계 이행 운영으로수행할수있다. 32
빅데이터사업의목적은빅데이터플랫폼및분석체계를마련하여디지털서비스고도화를위한인사이트 (insight) 를대내외다양한데이터를 유연하게수집, 분석하여활용할수있도록빅데이터플랫폼및분석체계를구축하는데에있습니다. 33
Big Data 플랫폼은무엇을분석하여유의미한정보를제공할것인가라는질문에서시작하여수집부터저장, 분석, 활용에이르는전과정에대한 체계적인이해를기반으로하여플랫폼을설계하여구성해야합니다. Ⅱ-16 34
제안사는 MapR 상용 Hadoop SW 를중심으로빅데이터시스템을구축하며데이터노드, 분산데이터허브, 분석노드를본사업을통해 구성하며, 추후분석모델생성시효율적인데이터가시화환경을제공하기위한아키텍처구성을지원하여수집부터가시화까지일련의절차를 체계적으로지원하는시스템을구축하겠습니다. 수집서버 2 대 35
836
MapR 을활용하여구축한상용 Hadoop 환경에 Apache NiFi 를활용하여다양한데이터유형, 수집주기에따라유연하게데이터를수집, 저장할 수있는환경을구현하였습니다. JDBC Hive MapR-FS (HDFS) JDBC Ⅰ-13 37
Sqoop, Flume 과연계하여 GUI 기반데이터수집 / 저장에대한워크플로우관리지원 Menu Bar Process Canvas Process Library Configuration Scheduling 38
제안사는검증된데이터수집 / 저장프로세스를활용하여 2 개월내초기데이터수집 / 저장을완료하겠습니다. 이를위해 Apachi NiFi 를 활용하는데, any-to-any 수집파이프라인을설계, 테스트, 배포및관리할수있으며, 다양한빅데이터구성요소 ( 예 : Hadoop, HBase, RDBMS 등 ) 를포함하여데이터의생성과변경내역을추적할수있습니다. Ⅱ-12 39
데이터저장대상에따라데이터조회환경을구성하며, 정형데이터는 Hive 를중심으로데이터조회환경구성 Pig Hive Terminal Metastore Client CLI MapReduce HBase 웹브라우저에서데이터조회지원 HDFS 다양한형태의데이터조회지원 40
MapR 은 docker 컨테이너를이용하여개인화된분석환경을제공합니다. 41
Kubernetes 및 docker 를이용하여컨테이너기반의아키텍처구현 Secondary Environment for DR Centralized Environment per Integrated Delivery Network Containerized Use cases Private/Public Docker Registry Execution & Scheduling Containerized Use cases Data Platform FS, DB, Streams MapR Global Data Fabric Real-time & Global Namespace Edge Environment 1 Edge Environment N Edge Environment 2 42
제안사가활용하는 MapR 상용 Hadoop SW 는별도의네임노드 ( 마스터서버 ) 를활용하지않으므로, 해당서버에 Alluxio 를설치하여메모리 분산스토리지를제공함으로써분석에데이터가져오는시간을현격하게줄여우수한분석환경을제공하고, R/Python 이외다양한분석환경을 제공할수있도록지원합니다. Alluxio Kubernetes, Prometheus Workflow 기반 Sandbox 43
R Language 의특성을반영하여데이터노트와분리하여분석노드를구성하고다양한분석을지원하기위해서 Local CRAN Repository 기반의 라이브러리환경을구성하여 PAM 인증기반의분석노드를구성하였습니다. 44
데이터노드와 (1) 클라이언트연계, (2) 실시간스트리밍연계를지원하여유연한분석환경제공 45
R, Python 을제공하고분석라이브러리를 local repository 를구성하여분석 Sandbox 현행화, 배포지원 R 기반데이터분석 Python 기반데이터분석 데이터처리그래프통계 / 머신러닝 Deep Learning 데이터처리그래프통계분석 Deep Learning plyr Plot ARCH Nnet Numpy Matplotlib SKlearn Gensim ggplot2 GARCH neuralnet Pandas Seaborn Statesmodels CNN LASSO Deepnet NetworkX Hmmlearn RNN Ridge, H2O pydot, R-Studio Anaconda Hadoop Data Node (HDFS, NoSQL) Hadoop Data Node (HDFS, NoSQL) 46
Kubernetes 를활용분석 Sandbox 자원할당, Prometheus 로모니터링및 Jenkins 로이미지를관리 47
멀티테넌시미지원으로운영한계점도달, Mission Critical 응용프로그램에서수차례장애발생하였으며컴플라이언스 (GDPR) 미준수로매출의 10% 에해당하는벌금이부과되어불편함을호소 HA & DR 지원및성능보장으로다운타임손실방지 한계가없는시스템확장으로운영편의성확보 저장공간의효율화를통한낮은총소유비용 (TCO) 글로벌네임스페이스, 멀티테넌시지원통해저장공간효율화, 대규모확장성및운영편의성제공하고 Mission Critical 응용프로그램에서장애점개선 MapR 글로벌네임스페이스 CONTAINER STORE FILE STORE 데이터저장및분석영역 FILE ACUSTOM APPS HADOOP & SPARK APPS MapR 해결방안 컨테이너및멀티클라우드지원 운영프로그램재구성불필요 자동 Data Placement Control (Hot, Warm, Cold Data) 지원 저장공간의효율화 - 데이터비이동 - 데이터복제및중복이없음 무한선형확장성 Topology Nordea 은행 북유럽노르딕지역 1 위은행 최적화된성능보장 저장공간최적화및효율화 비용최적화 20 개국가에진출 / 천만고객 / 3 만직원 95 억유로 ( 약 12.5 조원 ) 운영수입 49
취약계층을위한정부의의료지원프로그램의부정수급방지를위해모든국민을대상으로한인도국민인증생체데이터베이스 정부보조프로그램의부정수급비율 20% 감소 현재약 10 억이상의생체인증등록 기존 Hadoop 기반솔루션윈백 - 성능한계 ( 비일관된응답속도 ) 4 개의데이터센터간 Clustering 구성 (Mirroring) 일관된응답속도 (0.2 초 ) 성능보장 10 개지문, 2 개홍채, 디지털사진매일백만개등록및 1 경개조회 50
분산되고확장가능한플랫폼과데이터분석기능을결합하여단일통합플랫폼에서다양한작업부하를해결합니다. 대규모확장성, Global 네임스페이스, 자동화된데이터배치를제공하여광범위한사례를지원합니다. SPEC SPS Benchmark 결과 2070 개 Stream 처리평균대기시간 34 msec SPEC SPS 세계기록성능보유로스트리밍처리량이 10GB/sec 인 2000 개이상처리 2070 개 Stream 에대하여 12.94 msecs 전체응답시간 평균대기시간 34 msec 9.5 GB/sec 처리 (2017 년 12 월기준 ) 51
하나카드에거버넌스체계와사용자관점의최적분석환경수립및정보계데이터에대한안정적인이관방안수립을통해빅데이터플랫폼의 안정적인기반을마련하고사용자관점에서분석데이터의활용성을높여중장기적관점에서 Digital Transformation 경쟁력을확보하기위한 사업을수행하였습니다. Ⅰ-16 52
OBJECTIVES 글로벌자동차생산기업 CHALLENGES SOLUTION Business Impact 53
미국의 3 대정유소중하나로미국전체의석유, 가스정련능력의 10% 를처리하는규모 OBJECTIVES CHALLENGES SOLUTION Business Impact 54
국내의대형발전소중한곳으로화력발전과친환경에너지발전을수행 OBJECTIVES CHALLENGES SOLUTION Business Impact 55
F100 소매업체가기존고객으로부터수익증대가속화 LARGE RETAILER OBJECTIVES CHALLENGES SOLUTION Business Impact 56
F100 통신회사가스마트폰애플리케이션의로그분석을가속화 smartphone applications LARGE TELECOMMUNICATION S PROVIDER OBJECTIVES CHALLENGES SOLUTION Business Impact 57
comscore 는온라인고객행동에대한인사이트를도출합니다. OBJECTIVES CHALLENGES SOLUTION Business Impact 58
Rubicon Project 는실시간으로자동광고플랫폼을실행시킨바있습니다. OBJECTIVES CHALLENGES SOLUTION Business Impact 59
MapR 은 가장똑똑하고, 잘알고, 정확하고, 사용하기쉽고, 확장성있고보안이좋으며강력한알림메시지 플랫폼 을가능하게합니다. OBJECTIVES CHALLENGES SOLUTION Business Impact 60
빅데이터플랫폼기반의고객의소리 (VoC) 시스템 Large bank, total assets of KRW 176.9 trillion, 13,000 employees, and 1,026 branches OBJECTIVES CHALLENGES SOLUTION Business Impact 61
고객맞춤추천서비스 & 고객의소리시스템 (VoC) Regional bank in South Korea. The bank is based and headquartered in the busy port city of Busan OBJECTIVES CHALLENGES SOLUTION Business Impact 62
대형중개업은고객확보율증대및고객서비스향상 LARGE BROKERAGE OBJECTIVES CHALLENGES SOLUTION Business Impact 63
대형의온라인대부업자들이고객들의경험을향상시킨다. LARGE ONLINE MORTGAGE LENDER OBJECTIVES CHALLENGES SOLUTION Business Impact 64
F100 은행들이로그분석가속화를통해조사및규정준수에응하다. LARGE FINANCIAL SERVICES INSTITUTION OBJECTIVES CHALLENGES SOLUTION Business Impact 65
기업아키텍쳐비용을증대시키지않고고객에게데이터서비스를향상시켰다. FORTUNE 500 TELCO OBJECTIVES CHALLENGES SOLUTION Business Impact 66
Cisco 는통합된고객데이터를사용하여수익을증대하였다. OBJECTIVES CHALLENGES SOLUTION Architecture for Sales Partner Opportunities Business Impact 67
F100 의료인들은부정진료를절감하고불만대응을효율적으로향상시켰다. HEALTH CARE PROVIDER OBJECTIVES CHALLENGES SOLUTION Business Impact 68
고객맞춤형의, 우선순위에따른네트워크대역폭으로고객만족향상 Global 2000 Network Provider for Telco OBJECTIVES CHALLENGES SOLUTION Business Impact 69
디지털미디어제공자들은타겟팅및관련성부분을향상시켰다. DIGITAL MEDIA & COMMUNICATIONS PROVIDER OBJECTIVES CHALLENGES SOLUTION Business Impact 70