PowerPoint 프레젠테이션

Similar documents
분산처리 프레임워크를 활용한대용량 영상 고속분석 시스템

김기남_ATDC2016_160620_[키노트].key

PowerPoint 프레젠테이션

DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx

플랫폼을말하다 2

초보자를 위한 분산 캐시 활용 전략

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

출원국 권 리 구 분 상 태 권리번호 KR 특허 등록

빅데이터_DAY key

문서의 제목 나눔고딕B, 54pt

Intra_DW_Ch4.PDF

Global Bigdata 사용 현황 및 향후 활용 전망 빅데이터 미도입 이유 필요성 못느낌, 분석 가치 판단 불가 향후 투자를 집중할 분야는 보안 모니터링 분야 와 자동화 시스템 분야 빅데이터의 핵심 가치 - 트랜드 예측 과 제품 개선 도움 빅데이터 운영 애로 사항

화판_미용성형시술 정보집.0305

따끈따끈한 한국 Azure 데이터센터 서비스를 활용한 탁월한 데이터 분석 방안 (To be named)

PowerPoint 프레젠테이션

오픈데크넷서밋_Spark Overview _SK주식회사 이상훈

PowerPoint 프레젠테이션

J2EE & Web Services iSeminar

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

Oracle9i Real Application Clusters

Bigdata가 제공하는 구체적인 혜택과 변화 양상 기업의 데이터 기반의 의사결정 시스템 구축 의지 확대 양상 빅데이터를 활용한 경영 및 마케팅 지속적인 증가세 뚜렷 빅데이터를 도입한 기업은 사전 기대를 뛰어넘는 효과를 경험 본 조사 내용은 美 BARC- Researc

Web Application Hosting in the AWS Cloud Contents 개요 가용성과 확장성이 높은 웹 호스팅은 복잡하고 비용이 많이 드는 사업이 될 수 있습니다. 전통적인 웹 확장 아키텍처는 높은 수준의 안정성을 보장하기 위해 복잡한 솔루션으로 구현

RED HAT JBoss Data Grid (JDG)? KANGWUK HEO Middleware Solu6on Architect Service Team, Red Hat Korea 1

Portal_9iAS.ppt [읽기 전용]

Basic Template

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

목 차

PowerPoint Presentation


FMX M JPG 15MB 320x240 30fps, 160Kbps 11MB View operation,, seek seek Random Access Average Read Sequential Read 12 FMX () 2

Oracle Apps Day_SEM


AGENDA 모바일 산업의 환경변화 모바일 클라우드 서비스의 등장 모바일 클라우드 서비스 융합사례

Analyst Briefing

PCServerMgmt7

The Self-Managing Database : Automatic Health Monitoring and Alerting

C# Programming Guide - Types

Microsoft Word - 조병호

Ubiqutious Pubilc Access Reference Model

solution map_....

Service-Oriented Architecture Copyright Tmax Soft 2005

PowerPoint 프레젠테이션

비식별화 기술 활용 안내서-최종수정.indd

항목


슬라이드 1

RUCK2015_Gruter_public

MS-SQL SERVER 대비 기능


Æí¶÷4-¼Ö·ç¼Çc03ÖÁ¾š

<4D F736F F F696E74202D C61645FB3EDB8AEC7D5BCBA20B9D720C5F8BBE7BFEBB9FD2E BC8A3C8AF20B8F0B5E55D>

슬라이드 1

スライド タイトルなし

sdf

SECTION TITLE A PURE PRIMER (AI), // 1

vm-웨어-앞부속

< FC8A8C6E4C0CCC1F620B0B3B9DF20BAB8BEC8B0A1C0CCB5E5C3D6C1BE28C0FAC0DBB1C7BBE8C1A6292E687770>


Microsoft PowerPoint - Smart CRM v4.0_TM 소개_ pptx

Intro to Servlet, EJB, JSP, WS

HTML5가 웹 환경에 미치는 영향 고 있어 웹 플랫폼 환경과는 차이가 있다. HTML5는 기존 HTML 기반 웹 브라우저와의 호환성을 유지하면서도, 구조적인 마크업(mark-up) 및 편리한 웹 폼(web form) 기능을 제공하고, 리치웹 애플리케이 션(RIA)을

Backup Exec

DW 개요.PDF

PowerPoint 프레젠테이션

BSC Discussion 1

ecorp-프로젝트제안서작성실무(양식3)

歯이시홍).PDF

Voice Portal using Oracle 9i AS Wireless

빅데이터처리의핵심인 Hadoop 을오라클은어떻게지원하나요? Oracle Big Data Appliance Solution 01 빅데이터처리를위한전문솔루션이 Oracle Big Data Appliance 군요. Oracle Big Data Appliance 와함께라면더이

Microsoft Word - 엄정호

Cloudera Toolkit (Dark) 2018

PowerPoint Template

6주차.key

1217 WebTrafMon II

슬라이드 제목 없음

클라우드컴퓨팅확산에따른국내경제시사점 클라우드컴퓨팅확산에따른국내경제시사점 * 1) IT,,,, Salesforce.com SaaS (, ), PaaS ( ), IaaS (, IT ), IT, SW ICT, ICT IT ICT,, ICT, *, (TEL)

슬라이드 1

No Slide Title

Microsoft PowerPoint - o8.pptx

Week13

0311 Cube PPT_최종.pdf

Agenda 오픈소스 트렌드 전망 Red Hat Enterprise Virtualization Red Hat Enterprise Linux OpenStack Platform Open Hybrid Cloud

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

PowerPoint Presentation

Microsoft Word - KSR2014S042

CRM Fair 2004

SMB_ICMP_UDP(huichang).PDF

I What is Syrup Store? 1. Syrup Store 2. Syrup Store Component 3.

서현수

0125_ 워크샵 발표자료_완성.key

untitled

Chap7.PDF

vm-웨어-01장

U.Tu System Application DW Service AGENDA 1. 개요 4. 솔루션 모음 1.1. 제안의 배경 및 목적 4.1. 고객정의 DW구축에 필요한 메타정보 생성 1.2. 제품 개요 4.2. 사전 변경 관리 1.3. 제품 특장점 4.3. 부품화형

04_오픈지엘API.key

기타자료.PDF

Windows Embedded Compact 2013 [그림 1]은 Windows CE 로 알려진 Microsoft의 Windows Embedded Compact OS의 history를 보여주고 있다. [표 1] 은 각 Windows CE 버전들의 주요 특징들을 담고

요약 1

< C4BFB8AEBEEEC6D0BDBA20BBE7B7CAC1FD5FB0C7C3E02E687770>

SQL Developer Connect to TimesTen 유니원아이앤씨 DB 기술지원팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 작성자

Transcription:

Open Source 를이용한 Big Data 플랫폼과실시간처리분석 한국스파크사용자모임, R Korea 운영자 SK C&C 이상훈 (phoenixlee1@gmail.com)

Contents Why Real-time? What is Real-time? Big Data Platform for Streaming Apache Spark 2 KRNET 2015

Why Real-time? 3 KRNET 2015

Data explode Source : http://cloudtweaks.com/2013/02/whitepaper-big-security-for-big-data/ 4 KRNET 2015

BigData Analysis using Hadoop 5 KRNET 2015

BigData Analysis using Hadoop Source : The Definitive Guide 6 KRNET 2015

Your Data is Absorbed 현재의 Big Data 플랫폼은배치위주분석만가능 배치영역과현재사이에갭이생기고, 이것은새로운요구사항을위한새로운플랫폼이필요하다는것을의미함 7 KRNET 2015

Example IoT, Fintech 가발전함에따라실시간처리에대한 Needs 증가 -> 상품추천, 보안 2014 년하반기농협인출사고이후금감원 FDS 로드맵을발표 -> 실시간처리 / 분석필요 8 KRNET 2015

Use Cases Across Industries 9 KRNET 2015

What is Realtime? 10 KRNET 2015

Realtime processing 빅데이터환경에서의실시간컴퓨팅 엄격히정해진시간내에응답을보장해주는것 즉주어진시간안에필요한프로세싱을해서결과를내주거나처리를하게되면이를실시간이라고말함 이것은 0.1 sec~ 1min 등다양한범위에서가능 11 KRNET 2015

Realtime Processing 실시간처리에는다양한영역이있음 Source : Strata+Hadoop World, Srinath Perera 12 KRNET 2015

MapReduce (Batch) 여러가지단점들 - Job Loading 시간소요 - Job간의데이터교환오버헤드 - 불필요한기록 - 고정된 data flow - 어려움 13 KRNET 2015

Sql On Hadoop 의필요성 Needs 의변화 투자대비저렴한가격으로대용량데이터처리에만족 -> 보다높은처리성능및반응요구 많은사용자가 ad-hoc 질의를위해 db 병행사용에불만 대화형질의 (interactive query) 발견은 [ 질의 -> 결과분석과사고 -> 질의 ] 의순환 : 시스템의빠른반응속도가데이터분석의생산성 빠른의사결정가능 Legacy 시스템의상당수가 SQL 로되어있음 성능보장및사람에의한오류방지 Mapreduce 프로그래밍 개발자역량에의존적 버그가능성높음 질의언어 적절한성능은시스템이보장 버그가능성낮음 14 KRNET 2015

Olap Style in memory computing Interactive Processing (SQL On Hadoop) 15 KRNET 2015

Indexed Storage 16 KRNET 2015

CEP CEP (Complex Event Processing) 다양한실시간이벤트를분석할수있는기술이개발되고이를기반으로다양한솔루션들이나와있음 EPL(Event Processing Language) 또는 EQL(Event Query Langauge) 이라는스크립트언어를통해서 SQL 에익숙한개발자나데이터관리자가직관적으로데이터 ( 이벤트 ) 모델링과프로세스를설계해서적용할수있음 Oracle Complex Event Processing, IBM Websphere, Esper 그러나.. 빅데이터에적합한수평적인확장성 (scale-out) 이불가능함 이벤트스트림별로여러대의서버로부하분산을하거나여러개의네트워크카드가있고수백기가메인메모리를갖춘고성능서버를이용해서대량의이벤트처리 17 KRNET 2015

Big Data Platform for Streaming 18 KRNET 2015

Real Time Streaming Architecture 19 KRNET 2015

Data Collection + Message System Flume + Kafka 20 KRNET 2015

What is Storm? Twitter 로합병된 BackType 에서최초개발 Hadoop 에서는처리하지못하는실시간분석을가능하게해줌 Twitter 에서 Storm 은 Tweet 실시간분석알고리즘최적화 Anti-spam 처리 2013 년 9 월 Apache Incubator Project 로등록 21 KRNET 2015

Storm s Features 1/2 Simple programming model Mapreduce 가병렬처리프로세싱구현의복잡도를낮춰주는것과같이 Storm 또한분산 real-time 프로세싱구현의복잡도를낮춰줌 Runs any programming language 어떤언어든사용자가익숙한언어를이용하여구현을할수있음 Clojure, Java, Ruby, Python 은기본으로제공하고있으며그밖에언어도 Storm communication protocol 의구현만으로도사용이가능 Fault-tolerant Worker process 나 node 의장애를자동으로관리해줌 Horizontally scalable Multiple threads, process, server 를이용하여병렬처리가가능하며추가확장이용이 22 KRNET 2015

Storm s Features 2/2 Guaranteed message processing Fast Hadoop 과같이각각의메시지가유실되지않음. 작업실패시에는데이터의시작단계부터다시재시도하도록 replaying message system 이구현되어있음 Netty (or ZeroMQ) 를사용하여메시지를빠르게처리할수있도록설계되어있음 1M + Messages per second per node Local mode Storm 에서는 Cluster mode 와 Local mode 를제공 Local mode 로테스트하여번거로운배포작업을피하면서단위테스트를용이하게할수있음 Easy to Manage Hadoop 과는달리클러스터를관리하는작업이매우간단함 복잡한설정이나관리포인트가없이매우단순하면서도강인함 23 KRNET 2015

Storm Architecture 24 KRNET 2015

Storm Architecture Storm 의클러스터는마스터노드 (Nimbus) 와워커노드 (Supervisor) 로구성되며 Zookeeper 를이용하여노드관리 Nimbus Nimbus 라는이름의데몬이마스터노드의역할 작업할당, 실패확인등의관리역할 Supervisor Supervisor 데몬이실제적으로워커프로세스의시작과종료, 실행상태모니터링등을수행 Zookeeper Apache 프로젝트 분산되어있는노드간의관리를수행하고시스템의안정성을유지하도록관리 25 KRNET 2015

Key concepts Tuples Ordered list of elements Streams Spout Unbounded sequence of tuples Source of streams Queues, Web logs, API calls, Event data 26 KRNET 2015

Key concepts Tuples Ordered list of elements Streams Unbounded sequence of tuples Spout Bolt Source of streams Queues, Web logs, API calls, Event data Process tuples and create new streams Apply functions/transformations Filter, Aggregation, Streaming joins, access DBs, APIs, etc.. 27 KRNET 2015

Key concepts Tuples Ordered list of elements Streams Unbounded sequence of tuples Spout Bolt Source of streams Queues, Web logs, API calls, Event data Process tuples and create new streams Topologies A directed graph of Spout and Bolts 28 KRNET 2015

Storm vs hadoop Real-Time Storm Batch Hadoop Nimbus 는 Storm 에요청되고실행되는모든잡들을관리 JobTracker Supervisor 가모든워커프로세스들을관리 TaskTracker Worker 는 Spout, Bolt 를실행하는프로세서 Task Multiple stages in processing pipeline 스토리지가필요없음. ( 물론스토리지사용도가능함 ) Only two stages in processing pipeline : map and reduce HDFS 가필요함 작업의끝이없음 (Continuous Processing) Mapreduce 작업은끝이있음 29 KRNET 2015

Fault-tolerance Worker 가죽었을경우 Supervisor 가 worker 를 restart 시켜줌 지속적으로 worker 실행이실패할경우 nimbus 가다른 node 에재할당 Node 가죽었을경우 Time-out 이되면 nimbus 는다른 node 에재할당 Nimbus 나 Supervisor 가죽었을경우 재실행이되면모든작업이정상적으로작동됨 재실행되지않아도작업은정상적으로진행 Nimbus Single point of failure? Nimbus 가죽으면 node 재할당은되지않음 HA 준비중

Trident High-level abstraction for doing realtime computations Stateful stream processing Storm Transactions 의모든기능을상속함 Persistence store 기반으로다양한계산처리가가능 Memory Memcached Cassandra Redis Abstraction like Pig, Hive, Cascading 분산처리와최적의성능자동화 MR Combiner 기능존재 Data 네트워크이동최소화

Lambda Architecture Source : MapR developercentral 32 KRNET 2015

But.. Lambda Architecture 너무많은오픈소스 관리하기어려움 더빠른속도가필요 Etc Window Function Machine Learning Analytics 33 KRNET 2015

34 KRNET 2015

Unified Platform 35 KRNET 2015

Fast 36 KRNET 2015

Simple 37 KRNET 2015

Simple 38 KRNET 2015

How Fast? RDDs (Resilient Distributed Datasets) 클러스터전체에서공유되는데이터형태로대부분메모리에올라가있음 Read Only 데이터를수정할수있게되면데이터유실시복구가어려움. Check Point 등고려하지않아도됨 대신새로운메모리를확보하여새로운값을할당. Update 무시 Cache 39 KRNET 2015

Fault Tolerance? RDDs (Resilient Distributed Datasets) Fault Tolerance Lineage 를이용한데이터복구 Need not exist in physical storage RDDs 는메모리에분산임시저장하기때문에데이터처리시디스크를사용하지않음. 그러나, 데이터복구시매우안정적인저장공간으로부터 (ex> HDFS) 데이터를복원하기시작함 Laziness : 모든작업은여러작업을설정해두고마지막액션함수수행시계산함 40 KRNET 2015

Spark Streaming 41 KRNET 2015

Fault-tolerance and Zero Data Loss 42 KRNET 2015

Fault-tolerance and Zero Data Loss 43 KRNET 2015

Window Operation 44 KRNET 2015

Combine batch 45 KRNET 2015

Combine machine learning 46 KRNET 2015

Combine SQL 47 KRNET 2015

Any Question? 48 KRNET 2015