A new open source BI platform powerd by Druid Metatron Project Contents 1. Overview 2. Metatron 2.0 3. Use case 4. Technology 5. Roadmap
metatron Overview 1
Self-Service Data Discovery & Analytics Big Data Analysis & Visualize Value OLAP, 시각화, 머신러닝이융합하여비전문가도데이터로부터 상위레벨의가치를손쉽게얻을수있는 Intelligence 솔루션
metatron 소개 Single Solution for Data Discovery 대용량데이터 Preparation 부터시각화기반데이터탐색, 분석까지한번에 워크북 노트북 워크벤치 Data Visualization Data Analytics Workbench Data Preparation 차트 / 대시보드 / 리포트 Embedded Analytics 외부분석툴연동 SQL Query Data 전처리 /Cleansing Management 데이터소스관리, 데이터리니지, 사용자 / 그룹관리, 인증, 공유, 스케줄러, 서비스모니터링등 3
[ 참고 ] metatron End-to-end 기능 4
metatron 소개 워크스페이스 워크스페이스 : 분석공간 ( 개인, 공유 ) 권한설정 워크스페이스내컨텐츠공유대상선택 1 워크북 : 시각화기반분석 2 3 노트북 : ML 기반고급분석 워크벤치 : SQL 기반분석 컨텐츠선택 워크북, 노트북, 워크벤치중택일 분석컨텐츠선택 1 2 3 5
워크스페이스개요 개인워크스페이스 공유워크스페이스 개인이자신만의공간에서작업하기위해기본적으로주어진공간 다수의권한을가진사용자에게공동작업을하고관리하기위한공간 6
METATRON 워크스페이스전체구성도 공유워크스페이스공유워크스페이스공유워크스페이스데이터소스연결데이터소스연결데이터소스연결 사용자사용자사용자 개인워크스페이스개인워크스페이스개인워크스페이스 워크북 Work Board 워크북 워크북 Work Board Work Board Chart Chart Chart Metatron 기본구조 (Workspace) 워크북, 페이지, 워크보드를작성및활용할수있는작업공간 ( 개인 / 공유 workspace) (Workbook) 여러페이지차트와워크보드를포함하는온라인서류 (Dashboard) 동일워크북內차트를조합하여만든차트간연동형분석보드 (Chart) 데이터소스에서조회한데이터를다양한차트를이용하여분석하기위한기본분석단위 7
1 워크북 시각화기반분석 워크북을통해사용자는보기편하고익숙한 PPT UX 환경에서분석 대시보드모음 다양한대시보드를표현 댓글기능 워크북내의공유내용에대한댓글형식의커뮤니케이션수단제공 프리젠테이션뷰기능제공 리포팅및공유를위한프리젠테이션기능제공 8
[ 참고 ] 워크북계층 차트 대시보드 워크북 9
워크북구조 공유워크스페이스 User 개인워크스페이스 공유워크스페이스 개인워크스페이스 공유워크스페이스 Role+Perm. 개인워크스페이스 워크스페이스 Data storage 워크북워크북워크북 데이터소스 (toward Druid) 데이터커넥션 (toward JDBC) 대시보드 대시보드 대시보드 위젯 위젯 위젯 위젯차트텍스트 필터 10
워크북동작 (Data Visualization) 61 Polaris (Data Discovery Agent) 3 Broker Nodes Big Data Cluster Druid Historical Nodes 57 2( 수집형 ) Real-Time Nodes Deep Storage (HDFS) 4 2 ( 임시연결형 ) 2 1 User Command 2 Data Gathering from Big Data Cluster ( 수집형 ) or External DB ( 임시연결형 ) 3 Visual Processing Machine Learning Cluster Spark Cluster External DB Cluster Hive, Presto, etc 4 Execute Machine Learning Algorithm if necessary (Embedded Analytics) 5 User Response 6 Additional Commands with the previously gathered data 7 User Response Server Node 11
2 노트북 ML 기반고급분석 분석대상선택 데이터소스, 대시보드, 차트중택일 분석대상데이터선택 노트북상세정보입력분석 Server type 선택 개발언어선택 (Jupyter : R / PYTHON, Zeppelin : Spark) 노트북명과설명입력 Jupyter notebook 팝업 개발언어분석대상데이터셋로딩코드삽입 분석가가 R 코드를작성후저장 12
노트북 ML 기반고급분석 노트북 API 생성 Return type (html, json) 선택 notebook code response.write(_user_object_) 생성된 URL 을통해 RESTful 서비스제공 Result 클릭하여조회가능 13
노트북구조및지원언어 [ 노트북구조 ] [ 외부분석도구와사용가능언어 ] 14
3 워크벤치 SQL 기반분석 히스토리 쿼리히스토리조회및결과리스트 결과실행 결과전체실행, 블럭실행 다이나믹차트생성 다이나믹하게데이터소스를구성하고차트생성테스트수행가능 데이터소스생성숏패스제공 쿼리결과를바로데이터소스로인제스쳔 스키마뷰 테이블정보, 데이터프리뷰, 컬럼스키마조회 온라인엑셀기능 온라인엑셀프로그램으로연동을통하여결과데이터를표시 15
워크벤치구조및특징 여러서버에분산된다양한외부데이터베이스 (Oracle, MySQL, Hive, Presto, Tibero) 를한꺼번에작업공간에조회가능 연동된데이터베이스의스키마를자유자재로탐색하여테이블과컬럼을쉽게조회및선택 쿼리편집도구가내장되어데이터의조회, 추가, 삭제, 수정이용이 쿼리결과를실시간으로확인하고로컬파일로다운로드가능 출력된데이터를 Druid 엔진으로옮겨서다양한차트로시각화 16
metatron 2.0
V2.0 개선 - UX/UI 2.0 Release 총 120 장의페이지의디자인개편을통한보다개선된 UX 제공 Workspace DashBoard/Chart Workbench SQL Explorer Embedded Analytics Data Lineage Data Prep. Data Transformer 18
V2.0 개선 - Data Preparation 데이터를시각화, 분석하기위한지루하고반복적인 ETL작업을누구나쉽게 서로다른데이터소스 (RDB, Hive, Log file, etc.) 에대해일관성있는추상화레벨제공 샘플데이터로전후결과를빠르게보고비교하면서편집할수있음 (Step-by-step, back-and-forth) 19
V2.0 개선 - Data Preparation 데이터스냅샷생성 온라인엑셀프로그램으로연동을통하여결과데이터를표시 ETL 데이터플로우생성 룰적용 20
V2.0 개선 - Data Management (Lineage & Job Log) Data Lineage : 쿼리로그를이용해데이터전후관계를관리 Job Log : 워크벤치에서발행된질의이력및다양한통계정보관리 그래프표출을통한컬럼히스토리 MDM 의일환으로전체데이터가어떤테이블, 어떤컬럼들과연결되어실행되었는지확인할수있는기능제공 쿼리이력목록조회및검색 쿼리이력상세조회 21
V2.0 개선 - Embedded Analytics 추세 예측 클러스터 22
metatron Use case
Use case Overview SKT TANGO N/W 분석 SKB 옥수수 Log 분석 IBK 빅데이터분석인프라 하이닉스 FDC 사내 ThingPlug 사내 EDAS 사내 NUGU Log 분석 사내 T map 인도 Bharti Airtel 24
Use case - SKT TANGO N/W Analytics 17 년 3 월 Metatron 은 TANGO DW 의데이터분석환경으로상용적용되어기존 Spotfire 를대체하고있음 Spotfire 단점 Sqoop Hadoop DW Cluster Hive On Tez SparkSQL Yarn Thrift Server SparkSQL Hive MetaStore JDBC Driver Thrift Server Spotfire Server 메모리의한계를벗어나는데이터의분석이어려움 - 필요한데이터를 Client PC 또는 Spotfire 서버로조회하여시각화 (CELL 단위분석만하더라도여러가지한계발생 ) HDFS Druid Cluster DW/Mart Data Batch JDBC Driver Visualization 기능 Spotfire Repository DB 기존 Spotfire Data Mart 생성에대한유지보수양의증가 - 기본적으로조회된데이터의편집을허용하지않음 - 따라서, 분석에필요한데이터를 Mart 로구성해둬야하며, 이에따른유지보수어려움증가 Broker Nodes Zookeeper Coordinator Nodes 워크북 워크보드 노트북 리포트 Metaton 사용 Historical Nodes Deep Storage Real-Time Nodes Workbench SQL Query 25
[ 참고 ] SKT TANGO Analytics 적용화면 1. 전국 CEI 현황대쉬보드 2. 본부별 CEI 현황대쉬보드 3. CEI 결과리포트 4. 다양한 Board 를위한네비게이션 26
[ 참고 ] SKT TANGO Analytics 2.0 적용화면 사용자현황 포탈 수도권 VoC 현황 27
상용화 SKB 옥수수 Log 분석 Error monitoring Network error detail board OS device detail board 페이지뷰분석 28
상용화 IBK 빅데이터포탈 ( 영업지원시스템 ) 18 년 5 월정식오픈했으며, 동시사용자 100 명수준의인프라구성 IBK 빅데이터분석인프라 29
metatron Technology
metatron 주요특징 Architecture Key Features Tools Intuitive Analysis 직관적인인터페이스로빅데이터에대해데이터준비단계부터분석차트까지의 End-to-end 기능으로쉽게분석가능 워크북 노트북 Data Processing Engine 실시간대용량 Data 처리엔진 Big OLAP Cube, Pre-aggregation, Accelerator, 제조특화데이터처리등 Hadoop Package (Cloudera, Hortonworks,..) Realtime Streams (Kafka, AMQP, Flink, StreamSets,..) 워크벤치 Data Preparation Management 사용자 / 그룹관리 인증 / 권한 MDM 리니지 분석툴 (Jupyter, Zepplin, R, Spark ML,..) Batch Data (HIVE, Spark, HDFS,..) Prepare Data by Yourself 시각화기반 Data Preparation 기능으로사용자가직접수정, 통합, 변환하여데이터준비 Visualize & Share Your Insights Massive Data 의빠른시각화와실시간모니터링를통해새로운 Insight 를발굴하고, 동료들과공유 Notebook & Model Manager 다양한분석도구연동을지원하며, metatron 에저장된데이터를활용하여분석하고, 동료들과공유 Big OLAP Cube 대용량 Fact 데이터에다양한 Dimension 을결합하여 Big Mart 를생성함으로써 ETL 비용감소, 속도향상및스키마변경가능 Sub-second Processing Engine 시간에따라 In-memory, Local Storage, Deep Storage 로데이터를이관하여 TB 이상의대용량데이터에대해서도빠르게응답 Enhanced Druid Engine 핵심기능고도화, 성능향상등 metatron 에특화된 Druid 탑재 Load from Everywhere 데이터를 metatron 에직접넣는방식 (Insert) 과연결 (Link) 하는방식을지원하여모든데이터소스활용가능 31
주요특징 - Big OLAP Cube 대용량 Fact 데이터를기준으로다양한 Dimension 데이터를결합하여하나의 Big OLAP Cube(Mart) 생성 Fact 데이터 Fact 데이터 상품기본 (Product) contract_id ( 계약아이디 ) contract_id ( 계약아이디 ) contract_date ( 계약일 ) product_01_code ( 제품코드 ) product_02_code ( 제품코드 ) product_03_code ( 제품코드 ) product_04_code ( 제품코드 ) product_01_code ( 상품코드 ) product_02_code ( 상품코드 ) product_03_code ( 상품코드 ) product_04_code ( 상품코드 ) product_name ( 상품명 ) product_01_name ( 상품구분 ) contract_date ( 계약일 ) product_01_code ( 제품코드 ) product_02_code ( 제품코드 ) product_03_code ( 제품코드 ) product_04_code ( 제품코드 ) detail_store_code ( 지점정보 ) customer_id ( 고객아이디 ) 고객 / 부점관계 (Store) store_code ( 부점코드 ) detail_store_code ( 최종관리점코드 ) customer_id ( 고객아이디 ) store_name( 고객아이디 ) detail_store_code ( 지점정보 ) customer_id ( 고객아이디 ) product_name ( 상품명 ) product_01_name ( 상품구분 ) Big OLAP Cube detail_store_name ( 고객아이디 ) store_code ( 부점코드 ) 고객기본 (Customer) customer_id ( 고객아이디 ) birth_date ( 출생일 ) customer_id ( 고객아이디 ) store_name( 고객아이디 ) detail_store_name ( 고객아이디 ) 조인하여 Big OLAP Cube 생성 customer_sex ( 성별 ) birth_date ( 출생일 ) customer_sex ( 성별 ) 32
주요특징 - Sub-second Processing 엔진 (Druid for metatron) Druid 는 12 년부터 ImplyData 社와 MetaMarkets 社가 Open Source 로만든 Time Series 에최적화된 Columnar Store 기반의데이터처리엔진 SKT 는 ImplyData 社와개발협력 ( 16~ 17) 및 Druid Open Source 활동중 ( 16~) Metatron 상용적용에필요한핵심기능을직접개발하여현재는별도 Branch 化하여개발중 Open Eco-system 활동 Druid 사용자모임 (meetup) 한국 Host Druid github, google groups 에의견개진및코드기여 (300+) 실시간과배치모두를지원해배치분석뿐아니라실시간처리가능 시간에따라 in-memory, local-storage, deep storage 로데이터가이관되어 TB 이상의대용량데이터지원 각각의기능 ( 질의처리, 저장, 색인 ) 은별도의서버로분리가능하여사용량증가시에도 Scale out 가능 오픈소스단순사용이아닌핵심기능, 성능향상등직접개발 ( 별도 Branch) 데이터소스간 Join 검색기능 (Lucene index, Spatial index) 쿼리확장 (Sketch query) Query 통계기능 Window functions Virtual column map type Multi-valued metric 33
주요특징 - Notebook/Model Manager ( 외부연동 ) Metataron 은고급분석을위한분석도구연동지원 ( 현재 Jupyter 통한 R, Python 연계 ) Jupyter 에서 metataron 에저장된데이터를활용하여분석하고, 개발한분석코드및실행결과는타인과공유 ( 공유를위해 Jupyter 분석코드는 metatron API 를이용해 Model Manager 에등록되어최신데이터연동 ) REST 기반의 API 를통해사용자정의 UI 개발가능 Visualization metatron UI 3 rd Party UI 분석 metatron 제공모델 3 rd Party 코드 (Tool 연계 ) REST API API Layer 모델등록 ( 모델공유시 ) 시각화 API 분석 API 모델 API Polaris Input Data Polaris 분석코드 / 모델 Output Data Model Manager 3 rd Party 코드 Embedded 모델 Data Sources Data Preparation ( 전처리 /ETL) Druid ( 저장 / 처리 ) 자체개발 Lib Spark ML Spark ML Spark (Machine Learning 알고리즘실행환경 ) 34
metatron Roadmap
Roadmap V1.0 (~ 16.4Q) V2.0 (~ 17.4Q) V3.0 (~ 18.4Q) Core Functions End-to-end Functions Enhanced Functions Short-term Roadmap Chart Dashboard User/Group Management Data Source Management Workbench UX 2.0 Embedded Analytics (Trend, Prediction, Clustering) Analytic Support (Jupyter) Data Management (Lineage & Job Log) Data Preparation Data management (Auto-MDM) Search-based Discovery Vertical-specific Functions Realtime Functions Map Chart Open Source Project 19 ~ 21 Long-term Roadmap Cloud Support Enhanced Analytics (ML/AI) Collaboration Docker Charging High Availability Anomaly Detection Contents-based Analytics Predictive/Prescriptive Instant Messaging Mobile Support 36
Roadmap Automated MDM (Meta-Data Management) Hive, Presto 중심의 Meta 정보관리 Event Hook 기반의 SQL 모니터링을통해 Meta 정보의자동업데이트반영 향후 Advanced Search-based Discovery 에활용 37
Roadmap Open source project https://metatron.app 7 월경오픈소스화예정 38
About us 39
Join us