PowerPoint Presentation

Similar documents
슬라이드 1

들어가는글 2012년 IT 분야에서최고의관심사는아마도빅데이터일것이다. 관계형데이터진영을대표하는오라클은 2011년 10월개최된 오라클오픈월드 2011 에서오라클빅데이터어플라이언스 (Oracle Big Data Appliance, 이하 BDA) 를출시한다고발표하였다. 이와

Intra_DW_Ch4.PDF

DW 개요.PDF

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

김기남_ATDC2016_160620_[키노트].key

슬라이드 1

빅데이터처리의핵심인 Hadoop 을오라클은어떻게지원하나요? Oracle Big Data Appliance Solution 01 빅데이터처리를위한전문솔루션이 Oracle Big Data Appliance 군요. Oracle Big Data Appliance 와함께라면더이

Portal_9iAS.ppt [읽기 전용]

RUCK2015_Gruter_public

1217 WebTrafMon II

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

Oracle Database 10g: Self-Managing Database DB TSC

DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx

HDFS 맵리듀스

ETL_project_best_practice1.ppt

I T C o t e n s P r o v i d e r h t t p : / / w w w. h a n b i t b o o k. c o. k r

No Slide Title

PCServerMgmt7

PowerPoint 프레젠테이션

Basic Template

Model Investor MANDO Portal Site People Customer BIS Supplier C R M PLM ERP MES HRIS S C M KMS Web -Based

Cover Story 빅데이터플랫폼 Big Data 시대의엔터프라이즈인프라스트럭처 ORACLE KOREA MAGAZINE Spring 개요빅데이터를처리하는기술의가장중심기술은아파치하둡기술일것이다. 하둡기술은데이터를취득하고이를구조화시키고분석을하는일련의과정에

untitled

MS-SQL SERVER 대비 기능

리뉴얼 xtremI 최종 softcopy

PowerPoint Presentation

NoSQL

Oracle9i Real Application Clusters

Global Bigdata 사용 현황 및 향후 활용 전망 빅데이터 미도입 이유 필요성 못느낌, 분석 가치 판단 불가 향후 투자를 집중할 분야는 보안 모니터링 분야 와 자동화 시스템 분야 빅데이터의 핵심 가치 - 트랜드 예측 과 제품 개선 도움 빅데이터 운영 애로 사항

PowerPoint Presentation

I. - II. DW ETT Best Practice

AGENDA 모바일 산업의 환경변화 모바일 클라우드 서비스의 등장 모바일 클라우드 서비스 융합사례

PowerPoint Presentation

歯목차45호.PDF

CRM Fair 2004

<C0CCBCBCBFB52DC1A4B4EBBFF82DBCAEBBE7B3EDB9AE2D D382E687770>

vm-웨어-01장

이제는 쓸모없는 질문들 1. 스마트폰 열기가 과연 계속될까? 2. 언제 스마트폰이 일반 휴대폰을 앞지를까? (2010년 10%, 2012년 33% 예상) 3. 삼성의 스마트폰 OS 바다는 과연 성공할 수 있을까? 지금부터 기업들이 관심 가져야 할 질문들 1. 스마트폰은

The Self-Managing Database : Automatic Health Monitoring and Alerting

ORANGE FOR ORACLE V4.0 INSTALLATION GUIDE (Online Upgrade) ORANGE CONFIGURATION ADMIN O

_LG히다찌 브로슈어

빅데이터분산컴퓨팅-5-수정

Voice Portal using Oracle 9i AS Wireless

solution map_....

금융고객 보안 Selling

<4D F736F F D205B4354BDC9C3FEB8AEC6F7C6AE5D3131C8A35FC5ACB6F3BFECB5E520C4C4C7BBC6C320B1E2BCFA20B5BFC7E2>

Web Application Hosting in the AWS Cloud Contents 개요 가용성과 확장성이 높은 웹 호스팅은 복잡하고 비용이 많이 드는 사업이 될 수 있습니다. 전통적인 웹 확장 아키텍처는 높은 수준의 안정성을 보장하기 위해 복잡한 솔루션으로 구현

Integ

ecorp-프로젝트제안서작성실무(양식3)

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

PowerPoint 프레젠테이션

비식별화 기술 활용 안내서-최종수정.indd

Simplify your Job Automatic Storage Management DB TSC

출원국 권 리 구 분 상 태 권리번호 KR 특허 등록

슬라이드 1

Bigdata가 제공하는 구체적인 혜택과 변화 양상 기업의 데이터 기반의 의사결정 시스템 구축 의지 확대 양상 빅데이터를 활용한 경영 및 마케팅 지속적인 증가세 뚜렷 빅데이터를 도입한 기업은 사전 기대를 뛰어넘는 효과를 경험 본 조사 내용은 美 BARC- Researc

J2EE & Web Services iSeminar

PowerPoint Presentation

슬라이드 1

IBM Business Intelligence Solution Seminar 2005 Choose the Right Data Integration Solution ; Best Practices on EII/EAI/ETL IBM DB2 Technical Sales BI

15_3oracle

Analyst Briefing

sdf

슬라이드 1

J2EE Concepts

<49534F C0CEC1F520BBE7C8C4BDC9BBE720C4C1BCB3C6C320B9D D20BDC3BDBAC5DB20B0EDB5B5C8AD20C1A6BEC8BFE4C3BBBCAD2E687770>

歯CRM개괄_허순영.PDF

빅데이터_DAY key

Chap7.PDF

목 차

歯부장

DocsPin_Korean.pages

Microsoft PowerPoint - CNVZNGWAIYSE.pptx

Week13

초보자를 위한 분산 캐시 활용 전략

Connection 8 22 UniSQLConnection / / 9 3 UniSQL OID SET

PowerPoint Presentation

PowerPoint 프레젠테이션

Service-Oriented Architecture Copyright Tmax Soft 2005

Spring Boot/JDBC JdbcTemplate/CRUD 예제

rmi_박준용_final.PDF

untitled

Microsoft PowerPoint - Smart CRM v4.0_TM 소개_ pptx

スライド タイトルなし

dbms_snu.PDF

PlatformDay2009-Hadoop_OSBI-YoungwooKim

Microsoft PowerPoint - 3.공영DBM_최동욱_본부장-중소기업의_실용주의_CRM

당사의 명칭은 "주식회사 다우기술"로 표기하며 영문으로는 "Daou Tech Inc." 로 표기합니다. 또한, 약식으로는 "(주)다우기술"로 표기합니다. 나. 설립일자 및 존속기간 당사는 1986년 1월 9일 설립되었으며, 1997년 8월 27일 유가증권시장에 상장되

Backup Exec

슬라이드 1

最即時的Sybase ASE Server資料庫診斷工具

빅데이터시대 Self-BI 전략 이혁재이사 비아이씨엔에스

쉽게 풀어쓴 C 프로그래밊

목차 1. 제품 소개 특징 개요 Function table 기능 소개 Copy Compare Copy & Compare Erase

결과보고서

Agenda 오픈소스 트렌드 전망 Red Hat Enterprise Virtualization Red Hat Enterprise Linux OpenStack Platform Open Hybrid Cloud

Storage advances and Ne over fabric

오라클 데이터베이스 10g 핵심 요약 노트

CONTENTS CONTENTS CONTENT 1. SSD & HDD 비교 2. SSD 서버 & HDD 서버 비교 3. LSD SSD 서버 & HDD 서버 비교 4. LSD SSD 서버 & 글로벌 SSD 서버 비교 2

Transcription:

빅데이터아키텍쳐소개 임상배 (sangbae.lim@oracle.com) Technology Sales Consulting, Oracle Korea

Agenda 빅데이터아키텍쳐트랜드 빅데이터활용단계별요소기술 사업방향및활용사례 요약 Q&A

빅데이터아키텍쳐트랜드

빅데이터아키텍쳐트랜드 오픈소스와기간계, 정보계시스템과의융합 현재빅데이터의열풍의근원은하둡 (Hadoop) 생태계 오픈소스기반의정보계구축에서상호보완적관계로재정립 오픈소스 ( 하둡 ) 기간계, 정보계 Big Data Enterprise Architecture - NG

빅데이터트랜드 Data 처리절차중심 비정형 / 반정형데이터 SNS Machine Data Log Data OLTP Images Document 정형데이터 ERP CRM Complex Event Processing Decision Making Data Processing (Batch 중심 ) ETL/ELT Data Integration Statistics Data Mining 기존 BI Data 저장 HDFS(batch), NoSQL(RealTime) RDBMS In-Memory Processing Connector Engineered system Machine Learning

빅데이터활용단계별요소기술

OEP Exalytics Big Data Solution Spectrum Data Variety Unstructured Stream Complex Event Processing Acquire HDFS NoSQL Organize Big Data Appliance (Opensource Hadoop) Analyze Hadoop MapReduce Data Integrator Advanced Analytics Data Mining Decide/Visualize Schema-less Event Stream Processing R B.I Schema Simple Event Processing DBMS: OLTP ETL DBMS: DW Exadata Spatial Graph

Acquire : Big Data DECIDE ANALYZE ACQUIRE HDFS, NoSQL ORGANIZE Acquire all available, schema-based and nonrelational data

하둡인프라선택시고려사항 중요기술의빠른진화 Hadoop 전문가에의해구현대형클러스터에필요한것에집중개방적접근방식 대규모환경에서검증되었음 클라우데라가관리및테스트오픈소스컴포넌트관리다기능관리 GUI 툴제공

Cloudera CDH Components Hadoop Hive Pig HBase Zookeeper Flume Sqoop Mahout Whirr Oozie Fuse-DF Hue

Cloudera CDH 도입이유 Normal Hadoop Cloudera Manager

NoSQL Database 적용분야 USE CASES(Data Capture/Services) Web applications Sensor/statistics/network capture Distributed backup service providers Online services, social media Scalable authentication services Personalization QUERIES ARE SIMPLE DYNAMIC SCHEMA HIGH VOLUME OF DATA

Oracle NoSQL DB Request Processing majorcomponents.add("smith"); majorcomponents.add("bob"); minorcomponents.add("phonenumber"); String data = "408 555 5555"; Value myvalue = Value.createValue(data.getBytes()); kvstore.put(mykey, myvalue);

Organize : Big Data DECIDE ANALYZE ACQUIRE HDFS, NoSQL MR, Hive, Pig Oracle Big Data Connectors ORGANIZE Organize and distill data using massive parallelism

Hive(HiveQL 기반 MR 수행 ) FROM (SELECT a.status, b.school, b.gender FROM status_updates a JOIN profiles b ON (a.userid = b.userid AND a.ds= 2009-03-20 )) subq1 INSERT OVERWRITE TABLE gender_summary PARTITION(ds= 2009-03-20 ) SELECT subq1.gender, COUNT(1) GROUP BY subq1.gender INSERT OVERWRITE TABLE school_summary PARTITION(ds= 2009-03-20 ) SELECT subq1.school, COUNT(1) GROUP BY subq1.school 출처 : Hive-A petabyte Scale Data Warehouse Using hadoop, Facebook data Infrastructure Team

GUI 기반의 Hadoop 작업수행 GUI 를통해 Hadoop 기술사용의난이도를낮출수있음.(Oracle Data Integrator)

Oracle Data Integration for Big Data Big data 처리프로세스의생산성및효율성제고 Transforms Via MapReduce Oracle Data Integrator Activates Oracle Loader for Hadoop Loads Oracle Exadata Benefits Big data 처리시생산성향상 Oracle Loader for Hadoop 을이용하여 Big Data 적재작업최적화 GUI 툴을이용하여 Hadoop 처리의복잡도감소

Pig

Pig(MR vs Pig) Users = load users as (name, age); Filtered = filter Users by age >= 18 and age <= 25; Pages = load pages as (user, url); Joined = join Filtered by name, Pages by user; Grouped = group Joined by url; Summed = foreach Grouped generate group, COUNT(Joined) as clicks; Sorted = order Summed by clicks desc; Top5 = limit Sorted 5; store Top5 into top5sites ;

Pig(Performance)

Oracle Loader for Hadoop 고성능의병렬적재제공 (data pre-partitioned &sorted using Hadoop) 성능최대화 (Oracle internal formats) DB CPU 부하감소 (db format, partition, sort)

Oracle Loader for Hadoop 원본 apache log file DB 에저장된결과

Oracle Loader for Hadoop: Online Option 1. Read target table metadata from the database 3. Connect to the database from reducer nodes, load ORACLE LOADER FOR HADOOP into database partitions in parallel (JDBC or OCI) MAP MAP MAP SHUFFLE /SORT REDUCE REDUCE 2. Perform partitioning, sorting, and data conversion MAP REDUCE MAP MAP SHUFFLE /SORT REDUCE REDUCE

Oracle Loader for Hadoop: Offline Option 1. Read target table metadata from the database 3. Write from reducer nodes to Oracle Data Pump files 4. Copy files from HDFS to a location where database can access them MAP MAP MAP SHUFFLE /SORT REDUCE REDUCE DAT A DAT A 5. Import into the database in parallel using external table mechanism ORACLE LOADER FOR HADOOP 2. Perform partitioning, sorting, and data conversion MAP MAP MAP SHUFFLE /SORT REDUCE REDUCE REDUCE DAT A DAT A DAT A 4. 1 Access datapump file in HDFS using ODCH ( will introduce later)

Oracle Loader for Hadoop : Performance 5~20 배성능제공 3 rd 대비 85% CPU 부하감소 3 rd oracle

Oracle Direct Connector for HDFS (ODCH) Directly access data files on HDFS from external tables MAP MAP MAP SHUFFLE /SORT REDUCE REDUCE DAT A DAT A SQL QUERY ANY MAPREDUCE JOB ODC H External Table MAP REDUCE DAT A MAP MAP SHUFFLE /SORT REDUCE REDUCE DAT A DAT A

Oracle Direct Connector for HDFS (ODCH) 5 배의성능향상 3 rd 대비 75% CPU 부하감소

Analyze : Big Data DECIDE ACQUIRE HDFS, NoSQL Analyze all your data together Oracle R ORE ANALYZE MR, Hive, Pig ORGANIZE

데이터분석지원 (Opensource R) 오픈소스랭귀지 & 환경통계계산및그래픽에사용고확장성제공통계분석에서일반화된언어

Oracle R Connector for Hadoop 특징 항목 R 에서 HDFS 에상호접근 Hadoop 과 R 통합 설명 R 함수를이용하여 HDFS 에저정된데이터를다루거나탐색 R 환경에서 HDFS 와 R/Oracle DB, Local FS 간투명한데이터이동 R 사용자가 Hadoop 개념을배울필요없이익숙한 R 환경에서 MR 프로그래밍패러다임활용가능 Mapper, combiner, reducer R 함수들을모두지원하며추가적인메데데이터코딩필요없음

Oracle R Connector for Hadoop import java.io.ioexception; import org.apache.hadoop.io.intwritable; import org.apache.hadoop.io.longwritable; import java.io.ioexception; import org.apache.hadoop.io.text; import java.util.iterator; import org.apache.hadoop.mapred.mapreducebase; import org.apache.hadoop.io.intwritable; import org.apache.hadoop.mapred.mapper; import org.apache.hadoop.io.text; import import org.apache.hadoop.mapred.outputcollector; import org.apache.hadoop.mapred.reporter; import org.apache.hadoop.mapred.mapreducebase; public class import WordMapper org.apache.hadoop.mapred.reducer; extends MapReduceBase implements import org.apache.hadoop.mapred.reporter; Mapper<LongWritable, Text, Text, IntWritable> { public class SumReducer extends MapReduceBase public implements void map(longwritable key, Text value, OutputCollector<Text, Reducer<Text, IntWritable, IntWritable> Text, output, IntWritable> { Reporter reporter) public void reduce(text key, Iterator<IntWritable> throws values, IOException { String s OutputCollector<Text, = value.tostring(); IntWritable> output, for Reporter (String reporter) word : s.split("\\w+")) { if (word.length() throws IOException > 0) { { output.collect(new int wordcount = 0; Text(word), new IntWritable(1)); while (values.hasnext()) { } IntWritable value = values.next(); } wordcount += value.get(); } } } output.collect(key, new IntWritable(wordCount)); } } ontime <- ore.pull(ontime_s[ontime_s$year==2007,]) ontime.dfs <- hdfs.put(ontime, key='dest') res <- hadoop.run( ontime.dfs, mapper = function(key, ontime) { if (key == 'SFO') { keyval(key, ontime) } else { NULL } }, reducer = function(key, vals) { sumad <- 0; count <- 0 for (x in vals) { if(!is.na(x$arrdelay)) { sumad <- sumad + x$arrdelay count <- count + 1 } } res <- sumad / count keyval(key, res) } ) hdfs.get(res)

Oracle R Enterprise Approach 모델을 DB 에저장하고수행 기존 R 과동일한환경제공 R 분석시 DB 서버의성능이용 ( 기존 R 의문제해결 ) Oracle Data Mining 보완 (Advanced Analytics)

Decide : Big Data DECIDE Exalytics Oracle R ORE ANALYZE ACQUIRE HDFS, NoSQL MR, Hive, Pig ORGANIZE Make datadriven, statistical based real-time decisions

Big Data Connectors 구성 Software Oracle Loader for Hadoop Oracle Data Integrator Application Adapters for Hadoop Oracle R-to-Hadoop Connector Oracle DirectHDFS Description Hadoop 시스템에서 Oracle DB 로효율적으로데이터를로딩 ODI 에서사용할수있는새로운 application adapter 로 Hadoop 과통합되어있으며 Hadoop code 생성지원 R 프로그램이 HDFS 데이터위에서직접수행되도록하는 Oracle component SQL 질의와 HDFS 사이의데이터를통합해주어 SQL 결과집합과 HDFS 결과집합을 Direct Join 할수있도록지원

사업방향및활용사례

빅데이터사업방향활용사례기준 이상현상감지 업무에서발생하는다양한이벤트기록을통해정상, 비정 상상태의패턴파악, 새로운이벤트발생시이상현상여부 를판단 (VISA 社, 부정검지이용패턴 Hadoop, 1 개월 ->13 분 ) 가까운 미래예측 현상황분석 Forecast아닌 Nowcast, 사용자의마음이변했다라는사실을인지하는것보다변할것같다는것을파악하여사전대응 ( 일본사이버에이전트社사용자행동패턴분석하여탈퇴예방 ) 일본 Nishitetsu Store 빅데이터기반회계시스템구축진행중, 월단위회계시스템에서일단위로변경하여상품별원가율원가변동추이분석하여이익율높은상품에대한마케팅정책을수립. 출처 : 빅데이터비즈니스활용과과제 참고 ( 한국정보산업연합회 )

요약

빅데이터아키텍쳐의기본은? Hadoop Eco system + RDBMS 상호보완 Big data 의특성이 Acquire, Organize 단계를거치면서 사라졌다면우리가가장잘알고있는 SQL 세상에서처리하는것이가장 빠르고편하고안전합니다.

Oracle Big Data Platform Oracle Big Data Appliance Oracle Big Data Connectors Oracle Exadata Oracle Exalytics Acquire Organize Analyze Analyze

Oracle Big Data Appliance Software Software pre-installed, pre-optimized for optimal performance: Oracle Linux 5.6 Java Hotspot VM Cloudera CDH Cloudera Manager Oracle NoSQL Database CE/EE* Oracle Big Data Connectors* Open Source R Distribution * Separately licensed software

Oracle Big Data Appliance Hardware 18 Sun X4270 M2 Servers per Rack 864 GB memory (48*18) 216 cores (12x18) 648 TB storage (36x18) 40 Gb/s InfiniBand Fabric Inter-rack Connectivity Inter-node Connectivity 10 Gb/s Ethernet Connectivity Data center connectivity Full Rack Configuration Only

Oracle Big Data Platform 의장점 Engineered System H/W, S/W 밀결합을통한최고의성능제공 Big Data 처리시가장안전한 Infra 제공 안정적 기술지원 Oracle, Cloudera support(24x7) Cloudera Hadoop, Oracle NoSQL, Big Data Connectors 전사아키텍쳐 구현지원 기존의 Oracle DB 와의상호연결을통한 Big Data 와 DB Data 의일관된전사통합관리지원

Questions