빅 - 데이터분석에서데이터전 - 처리방법및트리팩타소개 데이터브릭 / 신동원
2
I. 데이터전 - 처리 3
1. 데이터전 - 처리정의및필요성 정의 필요성 4
2. 기존데이터전 - 처리문제점 80 % 5
2. 기존전 - 처리문제점 - IT 중심 이슈 수주에서수개월소요 1. 빠른인 - 사이트생성불가 2. 신속한업무적용불가 3. 결과물의정확성회의 6
2. 기존전 - 처리문제점 : 인 - 사이트생성한계 insight 인 - 사이트정보특징 EDW /DM 한계 Finding Answers for Unexpected Business Question IT 팀의어려움 해결책 : 차세대정보팩토리환경으로전환필요 7
3. 솔루션 :,ML,AI 내부 + 외부데이터 빅 - 데이터플랫폼 다양한타입 대용량데이터 차세대데이터전 - 처리솔루션 분석가가전 - 처리직접수행 Self-Service Data Preparation BIG DATA PLATFORM + #1 Self-service data Preparation technology 8
TRIFACTA II. 트리팩타개요 9
1. 분석가중심전 - 처리 IT 중심 - 데이터사용자분석역량제약 분석가중심 데이터분석가역량의획기적증대 Self service Data Preparation 10
2. ELT 방식 ERP EXTRACT LOAD TRANSFORM CRM EXTRACT TRANSFORM LOAD... 스테이징영역 11
2. 실시간상호작용 작업방식 데이터프로파일링및구조화 전 - 처리작업과정학습 Visual Profile information 소스데이터 Import 데이터탐색및이해 프로파일정보기반전 - 처리시작 현재데이터특성분석다음실행기능제시제시기능실행적용검증저장 (Prepared Data Set) Suggestion Card 프리뷰로결과사전확인 선택 확인 12
3. 제품원칙및적용기술 기본철학 기술 01 시각화 전 - 처리위주인터렉티브 UX 트리팩타데이터도메인지식 02 지능적 03 대화식 04 재미 강력한데이터패턴분석및인식 자체학습후다음작업제시 샘플링기술 13
4. 지원범위 트리팩타는데이터전 - 처리기능뿐아니라전사데이터거버넌스를위한통합기능을함께지원 비즈니스분석 데이터과학자머신러닝인공지능 현업 데이터랭글링 ( 전 - 처리 ) 이해 구조화크린징브랜딩 검증 배포 보안 확장가용리니지통합거버넌스 자동화 IT 프로세싱 저장 정형데이터 반정형데이터 비정형데이터 (txt) 14
5. 주요특징 15
6. 빠른투자회수 (1/2) ROI 분야 $$ 시간비용확장정확도가치창출 고객명 Nodea Fin. Group Bank Neustar PESPICO Nation Builder 적용업무 SEPA 컴플라이언스 고객입체분석 고객입체분석 입고및선적 유권자프로파일분석 결 과 15 DAYS 80 % OR 30 % $7M DELIVERS 1 DAY $20 MILION 60 % 매출증가 SHIPMENT ERROR 60 % FOUND FASTER 16
6. 빠른투자회수 (2/2) 1. H 사 3 일 2. D 사 4 일 17
18
1. 트리팩타를이용한전 - 처리방법 STEP 1 STEP 2 STEP 3 STEP 4 STEP 5 STEP 6 STEP 7?? Business Question Analysis Insight TRIFACTA 19
2. 전 - 처리 : (1) 플로우정의 STEP 1 WHAT 20
2. 전 - 처리 : (2) 이해 STEP 2 WHAT 21
2. 전 - 처리 : (3) 구조화 STEP 3 WHAT 22
2. 전 - 처리 : (4) 크린징 & 변형 STEP 4 WHAT 23
2. 전 - 처리 : (5) 보강 STEP 5 조인키자동발견 WHAT 24
2. 전 - 처리 : (6) 검증 STEP 6 WHAT 25
2. 전 - 처리 : (7) 배포 STEP 7 WHAT 26
27
1. 보안, 거버넌스, 자동화 (1/2) 엔터프라이즈스케줄러 Chronos 및 Tidal 추가지원으로운영자동화범주확대 28
1. 보안, 거버넌스, 자동화 (2/2) Meta data flow between Trifacta and Cloudera navigator [ Cloudera Navigator Integration ] 29
2. 아키텍처 : 스케일 - 업샘플링기술 Trifacta Server Trifacta Server / Hadoop Server N [ 중. 소규모데이터세트인경우 ] [ 대규모데이터세트인경우 ] 30
2. 아키텍처 : 전 - 처리전용엔진탑재 Trifacta Server P H O T O N Wrangling Engine Any Scale Data Processing Spark Work Node Spark Work Node Spark Work Node Small/ Medium Dataset Run Job Run Job Job Distributed Processing in Parallel... HDFS Data Node HDFS Data Node HDFS Data Node Sample Set Large Dataset Photon : High performance in-memory Wrangling Engine 31
3. 아키텍처 : 인텔리전트실행프레임웍 P H O T O N Intelligent Execution Future Technologies P H O T O N In-memory Amazon EMR 32
3. 트리팩타가치 $$$$ 분석 33
34
1. Awards : 최고의전 - 처리제품으로평가 Trifacta Named No. 1 Data Preparation Technology in Ovum Decision Matrix for Self- Service Data Preparation (2018-2019) 2017,2018 #1 End User Data Prep aration Vendor 2015 & 2016 10 Hot Hadoop Startups to W atch 35
1. Awards - 구글클라우드데이터플랩툴로선정 36
2. 참조고객 - 최다고객사용 143 개국에서 12,000+ 회사가트리팩타사용중 37
2. 참조고객 - 트리팩타선택이유? Scalability Sampling Data /Storage Governance Easy Understanding /Manipulation Scheduling 38
3. Case Study 과제 : 웹채팅로그를분석하여개인화서비스및지원 Challenges BUSINESS CASE TECHNICAL CASE 39
3. Case Study Data Architecture Speed Zone Optimized Zone ODS Other Data Source Transactional Data Source History Active Archive Refined Data Analytic SandBox EDW DM DM Business Performance Insight Layer Enterprise Data Integration Downstream Feed 40
3. Case Study RBS 는트리팩타를이용하여개인화된서비스를통한고객관리로 400 만파운드에해당하는금융상품추가판매. 복잡한고객데이터를기존 1% 에서 100% 분석 트리팩타를사용함으로써새로운분석프로젝트를 90% 이상빠르게처리 With Trifacta as a partner, we are on our way to buildi ng a world-class data capability that will help us better understand and better serve our customers. Christian Nelissen, Head of Data and Analytics 웹 - 채팅서비스를이용하는고객인경우 NPS(Net Promoter Score) 획기적증가 41
sales@databrick.co.kr Tel: 02) 553-5230