Cloudera Toolkit (Dark) 2018

Similar documents
김기남_ATDC2016_160620_[키노트].key

DW 개요.PDF

Portal_9iAS.ppt [읽기 전용]

PCServerMgmt7

Model Investor MANDO Portal Site People Customer BIS Supplier C R M PLM ERP MES HRIS S C M KMS Web -Based

슬라이드 1

Data Industry White Paper

ecorp-프로젝트제안서작성실무(양식3)

Oracle Apps Day_SEM

Intra_DW_Ch4.PDF

untitled

Intro to Servlet, EJB, JSP, WS

Service-Oriented Architecture Copyright Tmax Soft 2005

The Self-Managing Database : Automatic Health Monitoring and Alerting

歯목차45호.PDF

PowerPoint Presentation


Oracle Database 10g: Self-Managing Database DB TSC

vm-웨어-앞부속

Microsoft PowerPoint - 3.공영DBM_최동욱_본부장-중소기업의_실용주의_CRM

untitled

빅데이터_DAY key

1.장인석-ITIL 소개.ppt

歯CRM개괄_허순영.PDF

CRM Fair 2004

APOGEE Insight_KR_Base_3P11

Analyst Briefing

ETL_project_best_practice1.ppt

solution map_....

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

hw 2006 Tech guide 64p v5

SW¹é¼Ł-³¯°³Æ÷ÇÔÇ¥Áö2013

FMX M JPG 15MB 320x240 30fps, 160Kbps 11MB View operation,, seek seek Random Access Average Read Sequential Read 12 FMX () 2

untitled

PowerPoint 프레젠테이션

AGENDA 모바일 산업의 환경변화 모바일 클라우드 서비스의 등장 모바일 클라우드 서비스 융합사례

PowerPoint 프레젠테이션

2017 1


_LG히다찌 브로슈어

15_3oracle

スライド タイトルなし


<4D F736F F D205B4354BDC9C3FEB8AEC6F7C6AE5D3131C8A35FC5ACB6F3BFECB5E520C4C4C7BBC6C320B1E2BCFA20B5BFC7E2>

Voice Portal using Oracle 9i AS Wireless

PowerPoint 프레젠테이션

vm-웨어-01장

Azure Stack – What’s Next in Microsoft Cloud

MS-SQL SERVER 대비 기능

세션 3 (오이식).ppt

歯I-3_무선통신기반차세대망-조동호.PDF

슬라이드 제목 없음

ORANGE FOR ORACLE V4.0 INSTALLATION GUIDE (Online Upgrade) ORANGE CONFIGURATION ADMIN O

13 Who am I? R&D, Product Development Manager / Smart Worker Visualization SW SW KAIST Software Engineering Computer Engineering 3

±èÇö¿í Ãâ·Â

歯부장

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

NH 은행빅데이터플랫폼구축사례

istay

Agenda 오픈소스 트렌드 전망 Red Hat Enterprise Virtualization Red Hat Enterprise Linux OpenStack Platform Open Hybrid Cloud


Security Overview

PowerPoint 프레젠테이션

BSC Discussion 1

IBMDW성공사례원고

Microsoft Word - 조병호

Oracle9i Real Application Clusters

Yggdrash White Paper Kr_ver 0.18

Slide 1

thesis

슬라이드 1

PRO1_04E [읽기 전용]

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

IPAK 윤리강령 나는 _ 한국IT전문가협회 회원으로서 긍지와 보람을 느끼며 정보시스템 활용하 자. 나는 _동료, 단체 및 국가 나아가 인류사회에 대하여 철저한 책임 의식을 가진 다. 나는 _ 활용자에 대하여 그 편익을 증진시키는데 최선을 다한다. 나는 _ 동료에 대해

Microsoft Word - s.doc

Domino Designer Portal Development tools Rational Application Developer WebSphere Portlet Factory Workplace Designer Workplace Forms Designer

오늘날의 기업들은 24시간 365일 멈추지 않고 돌아간다. 그리고 이러한 기업들을 위해서 업무와 관련 된 중요한 문서들은 언제 어디서라도 항상 접근하여 활용이 가능해야 한다. 끊임없이 변화하는 기업들 의 경쟁 속에서 기업내의 중요 문서의 효율적인 관리와 활용 방안은 이

F1-1(수정).ppt

<353020B9DAC3E1BDC42DC5ACB6F3BFECB5E520C4C4C7BBC6C3BFA1BCADC0C720BAB8BEC820B0EDB7C1BBE7C7D7BFA120B0FCC7D120BFACB1B82E687770>

목차 BUG offline replicator 에서유효하지않은로그를읽을경우비정상종료할수있다... 3 BUG 각 partition 이서로다른 tablespace 를가지고, column type 이 CLOB 이며, 해당 table 을 truncate

세션 2-2(허태경).ppt

Backup Exec

160322_ADOP 상품 소개서_1.0

<C0CCBCBCBFB52DC1A4B4EBBFF82DBCAEBBE7B3EDB9AE2D D382E687770>

따끈따끈한 한국 Azure 데이터센터 서비스를 활용한 탁월한 데이터 분석 방안 (To be named)

06_ÀÌÀçÈÆ¿Ü0926

이제는 쓸모없는 질문들 1. 스마트폰 열기가 과연 계속될까? 2. 언제 스마트폰이 일반 휴대폰을 앞지를까? (2010년 10%, 2012년 33% 예상) 3. 삼성의 스마트폰 OS 바다는 과연 성공할 수 있을까? 지금부터 기업들이 관심 가져야 할 질문들 1. 스마트폰은

정보기술응용학회 발표

Week13

Windows Embedded Compact 2013 [그림 1]은 Windows CE 로 알려진 Microsoft의 Windows Embedded Compact OS의 history를 보여주고 있다. [표 1] 은 각 Windows CE 버전들의 주요 특징들을 담고

<30362E20C6EDC1FD2DB0EDBFB5B4EBB4D420BCF6C1A42E687770>

Bigdata가 제공하는 구체적인 혜택과 변화 양상 기업의 데이터 기반의 의사결정 시스템 구축 의지 확대 양상 빅데이터를 활용한 경영 및 마케팅 지속적인 증가세 뚜렷 빅데이터를 도입한 기업은 사전 기대를 뛰어넘는 효과를 경험 본 조사 내용은 美 BARC- Researc

I What is Syrup Store? 1. Syrup Store 2. Syrup Store Component 3.

컴퓨터과학과 교육목표 컴퓨터과학과의 컴퓨터과학 프로그램은 해당분야 에서 학문적 기술을 창의적으로 연구하고 산업적 기술을 주도적으로 개발하는 우수한 인력을 양성 함과 동시에 직업적 도덕적 책임의식을 갖는 IT인 육성을 교육목표로 한다. 1. 전공 기본 지식을 체계적으로

금오공대 컴퓨터공학전공 강의자료

Slide 1

서현수

Solaris Express Developer Edition

Interstage5 SOAP서비스 설정 가이드

Transcription:

하둡에날개를달아주는 SAS 엔터프라이즈머신러닝플랫폼 SAS Korea / 김근태이사

CLOUDERA & SAS : OVERVIEW 2

FORCES SHAPING ANALYTICS Analytics embraces open Everyone wants to be a data scientist Changing data landscape Machine learning & Artificial Intelligence Analytics of Things Cloud enabled analytics 개방성 다양한기술연계 분석확산과제 조직의역량 정형, 비정형, 이미지, 영상 센서데이터 4 차산업혁명 인공지능 IoT, 스트림 실시간분석 인프라유연성 비용최적화 3

CLOUDERA & SAS 4

GLOAL TOP LEADER IN HADOOP & MACHINE LEARNING Big Data Hadoop Distributions Predictive Analytics & Machine Learning The Forrester Wave: Big Data Hadoop Distributions, Q1 2016 The Forrester Wave: Predictive Analytics & Machine Learning,Q1 2017 5

INTEGRATED SAS AND CLOUDERA SOLUTION FRAMEWORK AI, 머신러닝, 딥러닝, 텍스트분석, 시각화.. 데이터가공 탐색 모델생성 모델 Deployment 다양한 사용자계층 https://www.sas.com/content/dam/sas/en_us/doc/partners/intel-cloudera-sas-reduce-money-laundering-risks.pdf 6

THE SAS PLATFORM 7

THE ANALYTICS PLATFORM Analytics Requirements Analytics Lifecycle 8

THE SAS PLATFORM CI Risk Analytics Visualization Fraud & Security Data Management Streaming Cloud Hadoop Database Data Access ACCESS engines (Data Connectors) Products / Solutions Application Services (Microservices) Runtime Environments MVA CAS ESP In-DB Security, Governance, Administration APIs / UIs SAS Python R REST Java Lua SAS Studio Jupyter R Studio Enterprise Guide Host Environments On-Premises, Private, Public, Hybrid Cloud 9

MULTIPLE INTERFACES TARGET DIFFERENT USERS 10

Copyright SAS Institute Inc. All rights reserved.

THE SAS PLATFORM 2 Viya - Massively Parallel Processing Pooled RAM & multi-processors 3 Utilize Memory & Disk 1 Parallel Loading Hadoop SAS Viya Web client Fast Multi-threaded Distributed In-Memory Inter-node Communication Scalable Single Machine to Distributed MPP Scale-out On-Premise to Cloud High Availability For mission-critical business Data redundancy Controller fail-over 12

THE SAS PLATFORM : ANALYTICS LIFECYCLE SCALE DIVERSITY 다양한소스데이터를통합가공, 변수추출 트레이닝및테스트를위한데이터파티션 데이터속의미를탐색하고패턴을발굴 다양한분석실행, 최상의알고리즘선택 신뢰할수있는운영시스템으로전환 분석결과의정확성모니터링및유지보수 IoT Database PC Files Hadoop DATA DISCOVERY DEPLOYMENT SAS Python R Lua Java REST APIs TRUST Deployment, Security, Governance, Administration Environments (Cloud and On Premise) Analytics PLATFORM 13

ANALYTICS LIFECYCLE - DATA 14

PREPARING DATA FOR ANALYTICS Source Data: Customers Products Customer info, Branch Channel type Transactions, Demographics, Location, Product, Offers, 3 rd party data Purchase transactions 3 rd party customer demographics Sales territories Transformation Denormalization Promotional history Analytical Base Table Customers Products Stores Channel Promo Territories Demographics Customer spend (last 12 mo) Distance to nearest branch Columns x Thousands Customer spend (last 6 mo) Avgtime b/w transaction 15

DATA MANAGEMENT Point and click GUI SAS Data Preparation Non-Technical User Coding interfaces Data Scientist SAS R Python Lua REST SAS Data Preparation SQL Data Step Transpose Data Quality 16

DATA PREPARATION : PERFORMANCE ACCELERATION 1 데이터로딩성능 1 유연한데이터접근 2 Hadoop MPP 분산병렬프로세싱 서로다른데이터소스통합관리 사용자 Self-service 데이터접근 3 분석사용자, Application 2 인메모리 Query 성능 Serial Loading : 92 분 Parallel Loading : 2 분 DW SAS FedSQL : 2 초 A 사사례, Data 65GB Hadoop 12 / SAS 16 Nodes A 사사례, Data 40+10GB Hadoop 12 / SAS 16 Nodes SAS Platform API 병렬데이터로딩기술 17

ANALYTICS LIFECYCLE - DISCOVERY 18

The New Era of Analytics It s visual. It s analytical. It s automated Copyright SAS Institute Inc. All rights reserved.

Copyright SAS Institute Inc. All rights reserved.

DISCOVERY - KEY ISSUES 탐색과발견 어떻게데이터에숨겨진트랜드나인사이트를빨리얻어내는가? 텍스트정보의활용하고있는가? 여전히많은문서를직접읽고요약하고있는가? 과거 & 미래 보다정확한예측정보를활용할수있는가? 얼마나많은제품 /SKU 단위별로예측이필요한가? 의사결정자와기획자들이부정확한예측에대해불만이있는가? 협업 조직구성원들이정보기반으로협업하는가? PC 기반데이터가정보단절을유발하는가? ` 확률 & 예측 최적의의사결정 서로다른분석기법과데이터에대해, 다른툴을사용하는분석가들이있는가? 최신의머신 / 딥러닝알고리즘활용? 모델의정확성향상에얼마나많은시간을투자해야하는가? 제약이나목표를최소화 / 극대화해야만하는이슈를가지고있는가? 수요, 재고, 투자등계획수립에어려움을겪고있는가? 21

DISCOVERY - KEY ISSUES Ability to analyze various analytics on a single platform Data Preparation Visualization Machine Learning Text Analytics Forecasting Visual Statistics Visual Data Mining & Machine Learning Optimization Reporting Model/Decision Management Model Deployment Visual Forecasting Visual Text Analytics 22

Copyright SAS Institute Inc. All rights reserved.

ANALYTICS LIFECYCLE - DEPLOYMENT 24

MCKINSEY SURVEY - KEY ISSUES Why data and analytics initiatives fail Source: 2016 McKinsey survey of data and analytics leaders at global life insurance and P&C insurance carriers 25

HIDDEN TECHNICAL DEBT 일관적이지않은, 수작업기반의모델검증및적용 모델의운영환경적용에소요되는매우긴시간 시간경과에따른모델성능변화모니터링부재 모델개발 환경과운영 환경고려 다양한 적용 시나리오 머신러닝 & 딥러닝 적용 비즈니스 프로세스 의사결정 보안및관리에필요한정보, 문서, 관리기능부족 담당자부재시, 모델운영을위한노하우및 IP 유지 Deployment = Operationalize 26

FAST IN EXECUTION --> DEVOPS Data/ Discovery Compose and Monitor Data Assemble Deploy Monitor Update Open API, Common Services Model/Decision Management Astore Operational Targets SAS9 Base Execution ( 생성한분석모델을즉시배포 ) Viya CAS In-DB In-Hadoop MAS REST (MM, DM) Streams (ESP) Batch Online Streaming 27

TRAINING AND SCORING DEEP LEARNING MODELS Model Data Data Data 28

Copyright SAS Institute Inc. All rights reserved.

REFERENCE ARCHITECTURE FOR IOT USING SAS Edge Network Infrastructure Device Management ESP Model updates Data Center or Cloud ESP Model updates IoT Analytics, DevOps & SAS Management SAS Visual ESP Studio Analytics PLC / Sensors IoT Gateways ESP Version updates SAS Visual Statistics Other SAS Apps ESP Streams with SAS ESP Edge MSG Broker SAS ESP Server Stream Store OPC AI Data Centor 31

CLOUDERA & SAS : 기술적통합및적용 32

WHAT CAN YOU DO WITH SAS ON CLOUDERA? Access and Manage Hadoop Data 쉽고빠른 Hadoop 데이터접근 (Parallel Loading) 분석가를위한 Hadoop 데이터전처리프로세싱 Interactively Explore and Visualize Hadoop Data 시각적방법으로 Hadoop 데이터를빠르게탐색 Hadoop 대용량데이터기반리포팅및공유 Analyze and Model Hadoop 대용량데이터기반마이닝, 머신러닝, 딥러닝 다양한분석기법, 과제에통합대응 빠르고효율적인모델생성환경 (Visual, Auto Tunning) Deploy & Intergrate 분석모델을별도변환없이 Hadoop 내부에 Deploy 분석모델을별도변환없이실시간엔진에 Deploy 다양한외부환경과 In-Memory 분석연계를위한 API 33

SERIAL TRANSFER viya1.site.com SAS Viya 3.4 Infrastructure services SPRE Serial transfer with SAS Data Connector cas1.site.com cas2.site.com cas3.site.com cas4.site.com CONTROLLER (DC) WORKER (DC) WORKER (DC) WORKER (DC) A C A B B C A B C SAS CAS_DISK_CACHE In memory (RAM) Hadoop JARS & Config HiveServer2 Table A B C DATANODE DATANODE DATANODE Data 65GB Hadoop 12 / SAS 16 Nodes 34

MULTI-NODE TRANSFER Multi-node transfer with SAS Data Connector viya1.site.com SAS Viya 3.4 Infrastructure services SPRE cas1.site.com cas2.site.com cas3.site.com cas4.site.com CONTROLLER( DC) WORKER (DC) WORKER (DC) WORKER (DC) A C A B B C A B C CAS CAS_DISK_CACHE In memory (RAM) Hadoop JARS & Config HiveServer2 Table A B C DATANODE DATANODE DATANODE Data 65GB Hadoop 12 / SAS 16 Nodes 35

PARALLEL TRANSFER Parallel transfer with the SAS In-Database Embedded Process viya1.site.com SAS Viya 3.4 Infrastructure services SPRE cas1.site.com cas2.site.com cas3.site.com cas4.site.com CONTROLLER (DCA) WORKER (DCA) WORKER (DCA) WORKER (DCA) A C A B B C A B C CAS CAS_DISK_CACHE In memory (RAM) SAS Embedded Process HiveServer2 YARN Resource Manager HDFS NameNode Table A B C DATANODE DATANODE DATANODE Hadoop JARS & Config Data 65GB Hadoop 12 / SAS 16 Nodes 36

CO-LOCATED HDFS Parallel transfer of SASHDAT from co-located HDFS viya1.site.com SAS Viya 3.4 Infrastructure services SPRE cas1.site.com cas2.site.com cas3.site.com cas4.site.com CONTROLLER WORKER WORKER WORKER A B C CAS HDFS CAS_DISK_CACHE A C B A C B SASHDAT/CSV file NAME NODE DATA NODE DATA NODE DATA NODE In memory (RAM) SAS Plug-In for Hadoop The fastest, most efficient way to (re-)load data into CAS 37

MODEL DEPLOYMENT (IN-HADOOP) SAS Viya Astore Scoring Accelerator 모델실행 (Scoring) Hadoop 내부에서 머신러닝모델실행 38

ARCHITECTURE TO THE IOT ANALYTICS LIFECYCLE 39

ARCHITECTURE TO THE IOT ANALYTICS LIFECYCLE Cloudera SAS 데이터수집 ( 배치 ) 데이터수집 ( 실시간 ) 분석실행 ( 실시간 ) 데이터관리 프로파일링, 프로토타이핑 SAS 모델실행 AI, 머신러닝, 딥러닝 이미지 / 텍스트분석 데이터탐색시각화, 공유 40

WHY CLOUDERA & SAS? 41

THANK YOU