슬라이드 1

Similar documents
김기남_ATDC2016_160620_[키노트].key

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

Portal_9iAS.ppt [읽기 전용]

슬라이드 1

ETL_project_best_practice1.ppt

Basic Template

Intra_DW_Ch4.PDF

서현수

PCServerMgmt7

슬라이드 1

RUCK2015_Gruter_public

Ç¥Áö


Cloudera Toolkit (Dark) 2018

PowerPoint Presentation

DW 개요.PDF

AGENDA 모바일 산업의 환경변화 모바일 클라우드 서비스의 등장 모바일 클라우드 서비스 융합사례

[Brochure] KOR_TunA

U.Tu System Application DW Service AGENDA 1. 개요 4. 솔루션 모음 1.1. 제안의 배경 및 목적 4.1. 고객정의 DW구축에 필요한 메타정보 생성 1.2. 제품 개요 4.2. 사전 변경 관리 1.3. 제품 특장점 4.3. 부품화형

슬라이드 1

빅데이터시대 Self-BI 전략 이혁재이사 비아이씨엔에스

Cloud Friendly System Architecture

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

Chap7.PDF

CRM Fair 2004

15_3oracle

1217 WebTrafMon II

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

비식별화 기술 활용 안내서-최종수정.indd

빅데이터_DAY key

PlatformDay2009-Hadoop_OSBI-YoungwooKim

Microsoft PowerPoint - Smart CRM v4.0_TM 소개_ pptx

solution map_....

Multi Channel Analysis. Multi Channel Analytics :!! - (Ad network ) Report! -! -!. Valuepotion Multi Channel Analytics! (1) Install! (2) 3 (4 ~ 6 Page

160322_ADOP 상품 소개서_1.0

I. - II. DW ETT Best Practice

Model Investor MANDO Portal Site People Customer BIS Supplier C R M PLM ERP MES HRIS S C M KMS Web -Based

DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx

기술 이력서 2.0

Analyst Briefing

Spring Boot/JDBC JdbcTemplate/CRUD 예제

Backup Exec

PowerPoint 프레젠테이션

Mstage.PDF

Data Industry White Paper

SchoolNet튜토리얼.PDF

about_by5

Axxon_Next_Brochure_1_Lee

PowerPoint 프레젠테이션

Agenda 오픈소스 트렌드 전망 Red Hat Enterprise Virtualization Red Hat Enterprise Linux OpenStack Platform Open Hybrid Cloud

Slide 1

Agenda

빅데이터분산컴퓨팅-5-수정

SQL Developer Connect to TimesTen 유니원아이앤씨 DB 기술지원팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 작성자

歯이시홍).PDF

The Self-Managing Database : Automatic Health Monitoring and Alerting

PowerPoint 프레젠테이션

슬라이드 1

MS-SQL SERVER 대비 기능

ecorp-프로젝트제안서작성실무(양식3)


플랫폼을말하다 2

PowerPoint 프레젠테이션

분산처리 프레임워크를 활용한대용량 영상 고속분석 시스템

歯목차45호.PDF

PowerPoint Presentation

따끈따끈한 한국 Azure 데이터센터 서비스를 활용한 탁월한 데이터 분석 방안 (To be named)

i-movix 특징 l 안정성 l 뛰어난화질 l 차별화된편의성

Oracle Database 10g: Self-Managing Database DB TSC

歯CRM개괄_허순영.PDF

e-spider_제품표준제안서_160516

vm-웨어-01장

I What is Syrup Store? 1. Syrup Store 2. Syrup Store Component 3.

スライド タイトルなし

thesis

untitled


목차 BUG offline replicator 에서유효하지않은로그를읽을경우비정상종료할수있다... 3 BUG 각 partition 이서로다른 tablespace 를가지고, column type 이 CLOB 이며, 해당 table 을 truncate

AI/DL Program

<C0CCBCBCBFB52DC1A4B4EBBFF82DBCAEBBE7B3EDB9AE2D D382E687770>

vm-웨어-앞부속

슬라이드 1

Microsoft Word - 조병호

KDTÁ¾ÇÕ-2-07/03

ucloud daisy 서비스가이드 1 / 23

Special Theme _ 모바일웹과 스마트폰 본 고에서는 모바일웹에서의 단말 API인 W3C DAP (Device API and Policy) 의 표준 개발 현황에 대해서 살펴보고 관 련하여 개발 중인 사례를 통하여 이해를 돕고자 한다. 2. 웹 애플리케이션과 네이

PowerPoint 프레젠테이션

목순 차서 v KM의 현황 v Web2.0 의 개념 v Web2.0의 도입 사례 v Web2.0의 KM 적용방안 v 고려사항 1/29

PowerPoint Presentation

목 차 Ⅰ. 정보기술의 환경 변화 Ⅱ. 차량-IT Convergence Ⅲ. 차량 센서 연계 서비스 Ⅳ. 차량-IT 융합 발전방향

이제는 쓸모없는 질문들 1. 스마트폰 열기가 과연 계속될까? 2. 언제 스마트폰이 일반 휴대폰을 앞지를까? (2010년 10%, 2012년 33% 예상) 3. 삼성의 스마트폰 OS 바다는 과연 성공할 수 있을까? 지금부터 기업들이 관심 가져야 할 질문들 1. 스마트폰은

IPAK 윤리강령 나는 _ 한국IT전문가협회 회원으로서 긍지와 보람을 느끼며 정보시스템 활용하 자. 나는 _동료, 단체 및 국가 나아가 인류사회에 대하여 철저한 책임 의식을 가진 다. 나는 _ 활용자에 대하여 그 편익을 증진시키는데 최선을 다한다. 나는 _ 동료에 대해

슬라이드 1

제목을 입력하세요.

정보기술응용학회 발표

1 전통 소프트웨어 가. ERP 시장 ERP 업계, 클라우드 기반 서비스로 새로운 활력 모색 - SAP-LGCNS : SAP HANA 클라우드(SAP HEC)를 통해 국내 사례 확보 및 아태 지역 진 출 추진 - 영림원 : 아시아 클라우드 ERP 시장 공략 추진 - 더

PowerPoint 프레젠테이션

OUR INSIGHT. YOUR FUTURE. Disclaimer Presentation ( ),. Presentation,..,,,,, (E).,,., Presentation,., Representative.( ). ( ).

PowerPoint 프레젠테이션

Transcription:

A new open source BI platform powerd by Druid Metatron Project Contents 1. Overview 2. Metatron 2.0 3. Use case 4. Technology 5. Roadmap

metatron Overview 1

Self-Service Data Discovery & Analytics Big Data Analysis & Visualize Value OLAP, 시각화, 머신러닝이융합하여비전문가도데이터로부터 상위레벨의가치를손쉽게얻을수있는 Intelligence 솔루션

metatron 소개 Single Solution for Data Discovery 대용량데이터 Preparation 부터시각화기반데이터탐색, 분석까지한번에 워크북 노트북 워크벤치 Data Visualization Data Analytics Workbench Data Preparation 차트 / 대시보드 / 리포트 Embedded Analytics 외부분석툴연동 SQL Query Data 전처리 /Cleansing Management 데이터소스관리, 데이터리니지, 사용자 / 그룹관리, 인증, 공유, 스케줄러, 서비스모니터링등 3

[ 참고 ] metatron End-to-end 기능 4

metatron 소개 워크스페이스 워크스페이스 : 분석공간 ( 개인, 공유 ) 권한설정 워크스페이스내컨텐츠공유대상선택 1 워크북 : 시각화기반분석 2 3 노트북 : ML 기반고급분석 워크벤치 : SQL 기반분석 컨텐츠선택 워크북, 노트북, 워크벤치중택일 분석컨텐츠선택 1 2 3 5

워크스페이스개요 개인워크스페이스 공유워크스페이스 개인이자신만의공간에서작업하기위해기본적으로주어진공간 다수의권한을가진사용자에게공동작업을하고관리하기위한공간 6

METATRON 워크스페이스전체구성도 공유워크스페이스공유워크스페이스공유워크스페이스데이터소스연결데이터소스연결데이터소스연결 사용자사용자사용자 개인워크스페이스개인워크스페이스개인워크스페이스 워크북 Work Board 워크북 워크북 Work Board Work Board Chart Chart Chart Metatron 기본구조 (Workspace) 워크북, 페이지, 워크보드를작성및활용할수있는작업공간 ( 개인 / 공유 workspace) (Workbook) 여러페이지차트와워크보드를포함하는온라인서류 (Dashboard) 동일워크북內차트를조합하여만든차트간연동형분석보드 (Chart) 데이터소스에서조회한데이터를다양한차트를이용하여분석하기위한기본분석단위 7

1 워크북 시각화기반분석 워크북을통해사용자는보기편하고익숙한 PPT UX 환경에서분석 대시보드모음 다양한대시보드를표현 댓글기능 워크북내의공유내용에대한댓글형식의커뮤니케이션수단제공 프리젠테이션뷰기능제공 리포팅및공유를위한프리젠테이션기능제공 8

[ 참고 ] 워크북계층 차트 대시보드 워크북 9

워크북구조 공유워크스페이스 User 개인워크스페이스 공유워크스페이스 개인워크스페이스 공유워크스페이스 Role+Perm. 개인워크스페이스 워크스페이스 Data storage 워크북워크북워크북 데이터소스 (toward Druid) 데이터커넥션 (toward JDBC) 대시보드 대시보드 대시보드 위젯 위젯 위젯 위젯차트텍스트 필터 10

워크북동작 (Data Visualization) 61 Polaris (Data Discovery Agent) 3 Broker Nodes Big Data Cluster Druid Historical Nodes 57 2( 수집형 ) Real-Time Nodes Deep Storage (HDFS) 4 2 ( 임시연결형 ) 2 1 User Command 2 Data Gathering from Big Data Cluster ( 수집형 ) or External DB ( 임시연결형 ) 3 Visual Processing Machine Learning Cluster Spark Cluster External DB Cluster Hive, Presto, etc 4 Execute Machine Learning Algorithm if necessary (Embedded Analytics) 5 User Response 6 Additional Commands with the previously gathered data 7 User Response Server Node 11

2 노트북 ML 기반고급분석 분석대상선택 데이터소스, 대시보드, 차트중택일 분석대상데이터선택 노트북상세정보입력분석 Server type 선택 개발언어선택 (Jupyter : R / PYTHON, Zeppelin : Spark) 노트북명과설명입력 Jupyter notebook 팝업 개발언어분석대상데이터셋로딩코드삽입 분석가가 R 코드를작성후저장 12

노트북 ML 기반고급분석 노트북 API 생성 Return type (html, json) 선택 notebook code response.write(_user_object_) 생성된 URL 을통해 RESTful 서비스제공 Result 클릭하여조회가능 13

노트북구조및지원언어 [ 노트북구조 ] [ 외부분석도구와사용가능언어 ] 14

3 워크벤치 SQL 기반분석 히스토리 쿼리히스토리조회및결과리스트 결과실행 결과전체실행, 블럭실행 다이나믹차트생성 다이나믹하게데이터소스를구성하고차트생성테스트수행가능 데이터소스생성숏패스제공 쿼리결과를바로데이터소스로인제스쳔 스키마뷰 테이블정보, 데이터프리뷰, 컬럼스키마조회 온라인엑셀기능 온라인엑셀프로그램으로연동을통하여결과데이터를표시 15

워크벤치구조및특징 여러서버에분산된다양한외부데이터베이스 (Oracle, MySQL, Hive, Presto, Tibero) 를한꺼번에작업공간에조회가능 연동된데이터베이스의스키마를자유자재로탐색하여테이블과컬럼을쉽게조회및선택 쿼리편집도구가내장되어데이터의조회, 추가, 삭제, 수정이용이 쿼리결과를실시간으로확인하고로컬파일로다운로드가능 출력된데이터를 Druid 엔진으로옮겨서다양한차트로시각화 16

metatron 2.0

V2.0 개선 - UX/UI 2.0 Release 총 120 장의페이지의디자인개편을통한보다개선된 UX 제공 Workspace DashBoard/Chart Workbench SQL Explorer Embedded Analytics Data Lineage Data Prep. Data Transformer 18

V2.0 개선 - Data Preparation 데이터를시각화, 분석하기위한지루하고반복적인 ETL작업을누구나쉽게 서로다른데이터소스 (RDB, Hive, Log file, etc.) 에대해일관성있는추상화레벨제공 샘플데이터로전후결과를빠르게보고비교하면서편집할수있음 (Step-by-step, back-and-forth) 19

V2.0 개선 - Data Preparation 데이터스냅샷생성 온라인엑셀프로그램으로연동을통하여결과데이터를표시 ETL 데이터플로우생성 룰적용 20

V2.0 개선 - Data Management (Lineage & Job Log) Data Lineage : 쿼리로그를이용해데이터전후관계를관리 Job Log : 워크벤치에서발행된질의이력및다양한통계정보관리 그래프표출을통한컬럼히스토리 MDM 의일환으로전체데이터가어떤테이블, 어떤컬럼들과연결되어실행되었는지확인할수있는기능제공 쿼리이력목록조회및검색 쿼리이력상세조회 21

V2.0 개선 - Embedded Analytics 추세 예측 클러스터 22

metatron Use case

Use case Overview SKT TANGO N/W 분석 SKB 옥수수 Log 분석 IBK 빅데이터분석인프라 하이닉스 FDC 사내 ThingPlug 사내 EDAS 사내 NUGU Log 분석 사내 T map 인도 Bharti Airtel 24

Use case - SKT TANGO N/W Analytics 17 년 3 월 Metatron 은 TANGO DW 의데이터분석환경으로상용적용되어기존 Spotfire 를대체하고있음 Spotfire 단점 Sqoop Hadoop DW Cluster Hive On Tez SparkSQL Yarn Thrift Server SparkSQL Hive MetaStore JDBC Driver Thrift Server Spotfire Server 메모리의한계를벗어나는데이터의분석이어려움 - 필요한데이터를 Client PC 또는 Spotfire 서버로조회하여시각화 (CELL 단위분석만하더라도여러가지한계발생 ) HDFS Druid Cluster DW/Mart Data Batch JDBC Driver Visualization 기능 Spotfire Repository DB 기존 Spotfire Data Mart 생성에대한유지보수양의증가 - 기본적으로조회된데이터의편집을허용하지않음 - 따라서, 분석에필요한데이터를 Mart 로구성해둬야하며, 이에따른유지보수어려움증가 Broker Nodes Zookeeper Coordinator Nodes 워크북 워크보드 노트북 리포트 Metaton 사용 Historical Nodes Deep Storage Real-Time Nodes Workbench SQL Query 25

[ 참고 ] SKT TANGO Analytics 적용화면 1. 전국 CEI 현황대쉬보드 2. 본부별 CEI 현황대쉬보드 3. CEI 결과리포트 4. 다양한 Board 를위한네비게이션 26

[ 참고 ] SKT TANGO Analytics 2.0 적용화면 사용자현황 포탈 수도권 VoC 현황 27

상용화 SKB 옥수수 Log 분석 Error monitoring Network error detail board OS device detail board 페이지뷰분석 28

상용화 IBK 빅데이터포탈 ( 영업지원시스템 ) 18 년 5 월정식오픈했으며, 동시사용자 100 명수준의인프라구성 IBK 빅데이터분석인프라 29

metatron Technology

metatron 주요특징 Architecture Key Features Tools Intuitive Analysis 직관적인인터페이스로빅데이터에대해데이터준비단계부터분석차트까지의 End-to-end 기능으로쉽게분석가능 워크북 노트북 Data Processing Engine 실시간대용량 Data 처리엔진 Big OLAP Cube, Pre-aggregation, Accelerator, 제조특화데이터처리등 Hadoop Package (Cloudera, Hortonworks,..) Realtime Streams (Kafka, AMQP, Flink, StreamSets,..) 워크벤치 Data Preparation Management 사용자 / 그룹관리 인증 / 권한 MDM 리니지 분석툴 (Jupyter, Zepplin, R, Spark ML,..) Batch Data (HIVE, Spark, HDFS,..) Prepare Data by Yourself 시각화기반 Data Preparation 기능으로사용자가직접수정, 통합, 변환하여데이터준비 Visualize & Share Your Insights Massive Data 의빠른시각화와실시간모니터링를통해새로운 Insight 를발굴하고, 동료들과공유 Notebook & Model Manager 다양한분석도구연동을지원하며, metatron 에저장된데이터를활용하여분석하고, 동료들과공유 Big OLAP Cube 대용량 Fact 데이터에다양한 Dimension 을결합하여 Big Mart 를생성함으로써 ETL 비용감소, 속도향상및스키마변경가능 Sub-second Processing Engine 시간에따라 In-memory, Local Storage, Deep Storage 로데이터를이관하여 TB 이상의대용량데이터에대해서도빠르게응답 Enhanced Druid Engine 핵심기능고도화, 성능향상등 metatron 에특화된 Druid 탑재 Load from Everywhere 데이터를 metatron 에직접넣는방식 (Insert) 과연결 (Link) 하는방식을지원하여모든데이터소스활용가능 31

주요특징 - Big OLAP Cube 대용량 Fact 데이터를기준으로다양한 Dimension 데이터를결합하여하나의 Big OLAP Cube(Mart) 생성 Fact 데이터 Fact 데이터 상품기본 (Product) contract_id ( 계약아이디 ) contract_id ( 계약아이디 ) contract_date ( 계약일 ) product_01_code ( 제품코드 ) product_02_code ( 제품코드 ) product_03_code ( 제품코드 ) product_04_code ( 제품코드 ) product_01_code ( 상품코드 ) product_02_code ( 상품코드 ) product_03_code ( 상품코드 ) product_04_code ( 상품코드 ) product_name ( 상품명 ) product_01_name ( 상품구분 ) contract_date ( 계약일 ) product_01_code ( 제품코드 ) product_02_code ( 제품코드 ) product_03_code ( 제품코드 ) product_04_code ( 제품코드 ) detail_store_code ( 지점정보 ) customer_id ( 고객아이디 ) 고객 / 부점관계 (Store) store_code ( 부점코드 ) detail_store_code ( 최종관리점코드 ) customer_id ( 고객아이디 ) store_name( 고객아이디 ) detail_store_code ( 지점정보 ) customer_id ( 고객아이디 ) product_name ( 상품명 ) product_01_name ( 상품구분 ) Big OLAP Cube detail_store_name ( 고객아이디 ) store_code ( 부점코드 ) 고객기본 (Customer) customer_id ( 고객아이디 ) birth_date ( 출생일 ) customer_id ( 고객아이디 ) store_name( 고객아이디 ) detail_store_name ( 고객아이디 ) 조인하여 Big OLAP Cube 생성 customer_sex ( 성별 ) birth_date ( 출생일 ) customer_sex ( 성별 ) 32

주요특징 - Sub-second Processing 엔진 (Druid for metatron) Druid 는 12 년부터 ImplyData 社와 MetaMarkets 社가 Open Source 로만든 Time Series 에최적화된 Columnar Store 기반의데이터처리엔진 SKT 는 ImplyData 社와개발협력 ( 16~ 17) 및 Druid Open Source 활동중 ( 16~) Metatron 상용적용에필요한핵심기능을직접개발하여현재는별도 Branch 化하여개발중 Open Eco-system 활동 Druid 사용자모임 (meetup) 한국 Host Druid github, google groups 에의견개진및코드기여 (300+) 실시간과배치모두를지원해배치분석뿐아니라실시간처리가능 시간에따라 in-memory, local-storage, deep storage 로데이터가이관되어 TB 이상의대용량데이터지원 각각의기능 ( 질의처리, 저장, 색인 ) 은별도의서버로분리가능하여사용량증가시에도 Scale out 가능 오픈소스단순사용이아닌핵심기능, 성능향상등직접개발 ( 별도 Branch) 데이터소스간 Join 검색기능 (Lucene index, Spatial index) 쿼리확장 (Sketch query) Query 통계기능 Window functions Virtual column map type Multi-valued metric 33

주요특징 - Notebook/Model Manager ( 외부연동 ) Metataron 은고급분석을위한분석도구연동지원 ( 현재 Jupyter 통한 R, Python 연계 ) Jupyter 에서 metataron 에저장된데이터를활용하여분석하고, 개발한분석코드및실행결과는타인과공유 ( 공유를위해 Jupyter 분석코드는 metatron API 를이용해 Model Manager 에등록되어최신데이터연동 ) REST 기반의 API 를통해사용자정의 UI 개발가능 Visualization metatron UI 3 rd Party UI 분석 metatron 제공모델 3 rd Party 코드 (Tool 연계 ) REST API API Layer 모델등록 ( 모델공유시 ) 시각화 API 분석 API 모델 API Polaris Input Data Polaris 분석코드 / 모델 Output Data Model Manager 3 rd Party 코드 Embedded 모델 Data Sources Data Preparation ( 전처리 /ETL) Druid ( 저장 / 처리 ) 자체개발 Lib Spark ML Spark ML Spark (Machine Learning 알고리즘실행환경 ) 34

metatron Roadmap

Roadmap V1.0 (~ 16.4Q) V2.0 (~ 17.4Q) V3.0 (~ 18.4Q) Core Functions End-to-end Functions Enhanced Functions Short-term Roadmap Chart Dashboard User/Group Management Data Source Management Workbench UX 2.0 Embedded Analytics (Trend, Prediction, Clustering) Analytic Support (Jupyter) Data Management (Lineage & Job Log) Data Preparation Data management (Auto-MDM) Search-based Discovery Vertical-specific Functions Realtime Functions Map Chart Open Source Project 19 ~ 21 Long-term Roadmap Cloud Support Enhanced Analytics (ML/AI) Collaboration Docker Charging High Availability Anomaly Detection Contents-based Analytics Predictive/Prescriptive Instant Messaging Mobile Support 36

Roadmap Automated MDM (Meta-Data Management) Hive, Presto 중심의 Meta 정보관리 Event Hook 기반의 SQL 모니터링을통해 Meta 정보의자동업데이트반영 향후 Advanced Search-based Discovery 에활용 37

Roadmap Open source project https://metatron.app 7 월경오픈소스화예정 38

About us 39

Join us