Slide 1

Similar documents
Hanyang Volunteer Corps volunteer image

김기남_ATDC2016_160620_[키노트].key

RUCK2015_Gruter_public

Portal_9iAS.ppt [읽기 전용]

1217 WebTrafMon II

초보자를 위한 분산 캐시 활용 전략

Intro to Servlet, EJB, JSP, WS

DW 개요.PDF

<C0CCBCBCBFB52DC1A4B4EBBFF82DBCAEBBE7B3EDB9AE2D D382E687770>

06.._ _12...._....


F.

06³â_±â»ÝÀÇ»ù_10¿ùÈ£_À¥Áø


CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

PowerPoint 프레젠테이션

13주-14주proc.PDF

Web Application Hosting in the AWS Cloud Contents 개요 가용성과 확장성이 높은 웹 호스팅은 복잡하고 비용이 많이 드는 사업이 될 수 있습니다. 전통적인 웹 확장 아키텍처는 높은 수준의 안정성을 보장하기 위해 복잡한 솔루션으로 구현

빅데이터처리의핵심인 Hadoop 을오라클은어떻게지원하나요? Oracle Big Data Appliance Solution 01 빅데이터처리를위한전문솔루션이 Oracle Big Data Appliance 군요. Oracle Big Data Appliance 와함께라면더이

PowerPoint Presentation

PowerPoint Presentation

Backup Exec

PowerPoint 프레젠테이션

출원국 권 리 구 분 상 태 권리번호 KR 특허 등록

Simplify your Job Automatic Storage Management DB TSC

확률과통계 강의자료-1.hwp

ETL_project_best_practice1.ppt

Eclipse 와 Firefox 를이용한 Javascript 개발 발표자 : 문경대 11 년 10 월 26 일수요일

SQL Developer Connect to TimesTen 유니원아이앤씨 DB 기술지원팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 작성자

빅데이터분산컴퓨팅-5-수정

PowerPoint 프레젠테이션

DBMS & SQL Server Installation Database Laboratory

PCServerMgmt7

No Slide Title

PowerPoint Presentation

NoSQL

1

윈도우시스템프로그래밍

Analyst Briefing

Oracle Database 10g: Self-Managing Database DB TSC

(......).hwp

Microsoft Word - SAS_Data Manipulate.docx

PowerPoint 프레젠테이션

ecorp-프로젝트제안서작성실무(양식3)

MySQL-Ch10

Remote UI Guide

PowerPoint 프레젠테이션

초보자를 위한 ADO 21일 완성

i-movix 특징 l 안정성 l 뛰어난화질 l 차별화된편의성

Tablespace On-Offline 테이블스페이스 온라인/오프라인

PowerPoint Presentation

untitled

public key private key Encryption Algorithm Decryption Algorithm 1

빅데이터_DAY key

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

Microsoft PowerPoint - 10Àå.ppt

e- 11 (Source: IMT strategy 1999 'PERMISSION ' ) The World Best Knowledge Providers Network

PRO1_02E [읽기 전용]

Connection 8 22 UniSQLConnection / / 9 3 UniSQL OID SET

15_3oracle

Spring Boot/JDBC JdbcTemplate/CRUD 예제

I T C o t e n s P r o v i d e r h t t p : / / w w w. h a n b i t b o o k. c o. k r

Intra_DW_Ch4.PDF

MySQL-Ch05

PowerPoint 프레젠테이션

Macaron Cooker Manual 1.0.key

thesis

목 차

<A4B5A4C4A4B5A4BFA4B7A4B7A4D1A4A9A4B7A4C5A4A4A4D1A4A4A4BEA4D3A4B1A4B7A4C7A4BDA4D1A4A4A4A7A4C4A4B7A4D3A4BCA4C E706466>

CRM Fair 2004

untitled

IPAK 윤리강령 나는 _ 한국IT전문가협회 회원으로서 긍지와 보람을 느끼며 정보시스템 활용하 자. 나는 _동료, 단체 및 국가 나아가 인류사회에 대하여 철저한 책임 의식을 가진 다. 나는 _ 활용자에 대하여 그 편익을 증진시키는데 최선을 다한다. 나는 _ 동료에 대해

표준프레임워크로 구성된 컨텐츠를 솔루션에 적용하는 것에 문제가 없는지 확인

J2EE & Web Services iSeminar

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

PowerPoint 프레젠테이션

untitled

Service-Oriented Architecture Copyright Tmax Soft 2005

Microsoft PowerPoint - 3ÀÏ°_º¯¼ö¿Í »ó¼ö.ppt

FMX M JPG 15MB 320x240 30fps, 160Kbps 11MB View operation,, seek seek Random Access Average Read Sequential Read 12 FMX () 2

PowerPoint 프레젠테이션

untitled

Social Network

목차 BUG 문법에맞지않는질의문수행시, 에러메시지에질의문의일부만보여주는문제를수정합니다... 3 BUG ROUND, TRUNC 함수에서 DATE 포맷 IW 를추가지원합니다... 5 BUG ROLLUP/CUBE 절을포함하는질의는 SUBQUE

슬라이드 1

비식별화 기술 활용 안내서-최종수정.indd

1..

제이쿼리 (JQuery) 정의 자바스크립트함수를쉽게사용하기위해만든자바스크립트라이브러리. 웹페이지를즉석에서변경하는기능에특화된자바스크립트라이브러리. 사용법 $( 제이쿼리객체 ) 혹은 $( 엘리먼트 ) 참고 ) $() 이기호를제이쿼리래퍼라고한다. 즉, 제이쿼리를호출하는기호

Model Investor MANDO Portal Site People Customer BIS Supplier C R M PLM ERP MES HRIS S C M KMS Web -Based

Copyright 2012, Oracle and/or its affiliates. All rights reserved.,.,,,,,,,,,,,,.,...,. U.S. GOVERNMENT END USERS. Oracle programs, including any oper

SchoolNet튜토리얼.PDF

PowerPoint 프레젠테이션

8 장데이터베이스 8.1 기본개념 - 데이터베이스 : 데이터를조직적으로구조화한집합 (cf. 엑셀파일 ) - 테이블 : 데이터의기록형식 (cf. 엑셀시트의첫줄 ) - 필드 : 같은종류의데이터 (cf. 엑셀시트의각칸 ) - 레코드 : 데이터내용 (cf. 엑셀시트의한줄 )

제목을 입력하세요.


교육2 ? 그림

들어가는글 2012년 IT 분야에서최고의관심사는아마도빅데이터일것이다. 관계형데이터진영을대표하는오라클은 2011년 10월개최된 오라클오픈월드 2011 에서오라클빅데이터어플라이언스 (Oracle Big Data Appliance, 이하 BDA) 를출시한다고발표하였다. 이와

¼�¼úÇüÁßÇг»Áö2µµ

Analytics > Log & Crash Search > Unity ios SDK [Deprecated] Log & Crash Unity ios SDK. TOAST SDK. Log & Crash Unity SDK Log & Crash Search. Log & Cras

DocsPin_Korean.pages

Transcription:

<Insert Picture Here> Big Data 분석을위한 Oracle 의전략 Oracle R Enterprise 한승철 (sean.han@oracle.com) Exadata & Appliance Solution Consulting

목 차 R 의소개 R 이란? 오픈소스 R 의제약사항 Oracle 의 Big Data 분석전략 Big Data 분석을위한 Oracle 의 R 전략 Oracle R Enterprise 접근법 Oracle R Enterprise 소개 ORE 특징 ORE 실행절차 Transparency Layer Statistics Engine Embedded R Execution Big Data 분석을위한 ORE 와 Exadata 2

R 이란? 1994년개발 Open Source 상용플랫폼 시각화의용이성 Add-on 패키지설치로기능확장 The community of users and developers around R are 2-million strong. A significant body of their work on R is available freely on The Comprehensive R Archive Network. 두터운사용자층 Names You Need to Know in 2011: R Data Analysis Software, Forbes on Nov 10, 2010 3

오픈소스 R 의제약사항 단일사용자모드 다중쓰레드사용불가 메모리제약 보안문제 Enterprise 환경에 적합하지않음 4

정형 반정형 비정형 Oracle 의 Big Data 분석전략 Master & Reference Transactions Machine Generated Oracle 11g Files Oracle NoSQL Oracle Data Integrator Oracle Golden Gate Oracle 11g Oracle TimesTen Endeca MDEX Oracle Advanced Analytics Option (ORE & ODM) Oracle BI Enterprise Oracle Real Time Decisions Text, Image, Video, Audio Oracle Hadoop HDFS Oracle Hadoop MapReduce Oracle Essbase Oracle Endeca Information Discovery Data Acquire Organize Analyze Decide 5

Big Data 분석을위한 Oracle 의 R 전략 R 작업콘솔 Oracle R Connector for Hadoop MapReduce in R (ORCH) HDFS 파일 Bulk import Oracle R Enterprise Oracle statistics engine External Tables File systems (ORE) Applications, BI, Web Services Database Links Other databases 6

Oracle R Enterprise 접근법 데이터와분석모듈이 DB 에저장되고 DB 내에서실행 R Open Source 기존과동일한 R 개발환경 운영시스템에임베딩가능 Oracle Data Mining 와공유 7

Oracle R Enterprise 의특징 Transparency Layer R 데이터타입 DB 데이터타입 R 스크립트를 SQL로변환 R 만으로 DB내의데이터를직접조작가능 데이터셋의용량에무관 Statistics Engine 자주쓰는통계라이브러리를 DB 에서실행 SQL 확장 운영시스템에서 R 코드를임베딩가능 데이터의이동불필요 보안관련이슈에정답제공 8

Oracle R Enterprise 실행절차 1 2 3 R Engine 추가 R 패키지 Oracle R Enterprise 패키지 SQL 결과 Oracle Database User tables R 결과 R Engine 추가 R 패키지 Oracle R Enterprise 패키지 User R Engine on desktop Transparency 프레임워크는 R 함수를 SQL 로변환 DB 에전체 R 스크립트를전달하여실행 Database Compute Engine 큰용량의데이터에도확장성보장 변환된 SQL 의병렬실행지원 분석및데이터마이닝기능을동시에사용가능 R Engine(s) managed by Oracle DB DB 자체가 R 엔진의병렬실행을보장하기위해다수의 R 엔진을관리 데이터를 MapReduce 방식으로각 R 엔진에병렬전송함으로써효율성증대 R 스크립트를원격으로실행가능 사용자에게결과표시 DB 내에서 R 엔진동시실행 DB 에없는분석방법 9

( 초 ) 0 5 10 15 20 25 30 Transparency Layer 성능비교평가 투명하게 R 함수및데이터타입을 SQL 로변환 데이터처리함수 (select, project, join) 집계함수 (avg, sum, summary) 고급통계분석및함수 (gamma, beta, step-wise regression) 성능의향상뿐만아니라데이터의용량제한문제를효과적으로해결가능 적용사례 ) ONTIME 데이터에서지연도착이심한 36개공항의상자그림그리기메모리부족으로오픈소스 R 실행불가 120K 행 오픈소스 R 120M 행 Oracle R Enterprise 10

Transparency Layer aggdata <- aggregate(ontime$dest, class(aggdata) head(aggdata) by = list(ontime$dest), FUN = length) Client R Engine Transparency Layer Oracle R package with OBJ1_13 as ( select "DEST" NAME001, "DEST" VAL001, count(*) VAL002 from "OREADMIN"."ONTIME" where ("DEST" is not null) group by "DEST" ) select * from OBJ1_13 order by NAME001; Oracle Database ONTIME In-DB Statistics 11

Transparency Layer ontime <- ONTIME delay <- ontime$arrdelay dayofweek <- ontime$dayofweek bd <- split(delay, dayofweek) boxplot(bd, notch = TRUE, col = "red", cex = 0.5, outline = FALSE, axes = FALSE, main = "Airline Flight Delay by Day of Week", ylab = "Delay (minutes)", xlab = "Day of Week") axis(1, at=1:7, labels=c("monday", "Tuesday", "Wednesday", "Thursday", "Friday", "Saturday", "Sunday")) axis(2) 12

Statistics Engine 특수함수 Gamma function Natural logarithm of the Gamma function Digamma function Trigamma function Error function Complementary error function 통계검정 Chi-square, McNemar, Bowker Simple and weighted kappas Cochran-Mantel-Haenzel correlation Cramer's V Binomial, KS, t, F, Wilcox 분포및확률함수 Transparency Layer Beta distribution Binomial distribution Cauchy distribution Chi-square distribution Exponential distribution F-distribution Gamma distribution Geometric distribution Log Normal distribution Logistic distribution Statistics Engine 특수함수통계검정분포함수확률함수 SAS 관련함수 Freq, Summary, Sort Rank, Corr, Univariate Negative Binomial distribution Normal distribution Poisson distribution Sign Rank distribution Student's t distribution Uniform distribution Weibull distribution Density Function Probability Function Quantile 13

Embedded R Execution DB 함수로매핑이되지않는함수인경우에적용 데이터베이스를데이터 Provider 의목적으로활용 데이터레벨의병렬처리가능 SQL 함수 R 함수 함수설명 rqeval() ore.doeval() 독립적으로 R 스크립트실행 rqtableeval() ore.tableapply() 하나의테이블전체를이용한 R 스크립트실행 rqroweval() ore.rowapply() 한번에테이블의일부분만을이용한 R 스크립트실행 rqgroupeval() ore.indexapply() 테이블을특정컬럼값으로파티셔닝한후각파티션에대해 R 스크립트실행 sys.rqscriptcreate() R 스크립트생성 sys.rqscriptdrop() R 스크립트삭제 14

Embedded R Execution R Interface modlist <- ore.groupapply( X = ONTIME, INDEX = ONTIME$DEST, function(dat) { lm(arrdelay ~ DISTANCE + DEPDELAY, dat) }); modlist_local <- ore.pull(modlist) summary(modlist_local$bos) ## return model for BOS 1 Client R Engine Transparency Layer ORE 2 DB R Engine ORE Oracle Database 3 4 User tables DB R Engine ORE rq*apply() interface extproc extproc 5 5 15

Embedded R Execution SQL Interface begin sys.rqscriptdrop('example1'); sys.rqscriptcreate('example1', 'function(dat,datastore_name) { mod <- lm(arrdelay ~ DISTANCE + DEPDELAY, dat) ore.delete(datastore_name) ore.save(mod, name = datastore_name) }'); end; / select * from table(rqtableeval( cursor(select ARRDELAY, DISTANCE, DEPDELAY from ontime), cursor(select 1 "ore.connect", 'mydatastore' as "datastore_name" from dual), 'XML', 'Example1')); begin sys.rqscriptcreate('example2', 'function(dat, datastore_name) { ore.load(datastore_name) prd <- predict(mod, newdata=dat) prd[as.integer(rownames(prd))] <- prd res <- cbind(dat, PRED = prd) res }'); end; / select * from table(rqtableeval( cursor(select ARRDELAY, DISTANCE, DEPDELAY from ontime where year = 2003 and month = 5 and dayofmonth = 2), cursor(select 1 "ore.connect", 'mydatastore' as "datastore_name" from dual), 'select ARRDELAY, DISTANCE, DEPDELAY, 1 PRED from ontime', 'Example2')) order by 1, 2, 3; 16

Big Data 분석을위한 ORE 와 Exadata OREpredict 패키지는 Exadata storage 서버에서 R 모형에대한 Scoring 을지원 다양한표본추출을위한지원이 Database 내에서지원 OREdm 패키지는고성능의 Oracle Data Mining 예측알고리즘지원 17

Big Data 분석을위한 ORE 와 Exadata - Scoring Oracle Database 에서모형스코어링을위한가장빠른방법 R-generated Predictive Model ore.predict() SQL 모형구축에서스코어링까지의절차단순화 현재지원가능한통계모형 glm, glm.nb, hclust, kmeans, lm, multinom, nnet, rpart 개발완료된모형은 ORE 전용 datastore 에저장되어관리됨 Oracle Database R Object Datastore Data 18

Big Data 분석을위한 ORE 와 Exadata - Sampling Simple random sampling Split data sampling Systematic sampling Stratified sampling Cluster sampling Quota sampling Accidental sampling dat <- ore.pull( ) samp <- dat[sample(nrow(x),size,] samp <- x[sample(nrow(x), size),,] samp <- ore.pull( ) Oracle Database Data Oracle Database Data 19

Summary Oracle R Enterprise Oracle R Connector for Hadoop 20

관련자료 블로그 : https://blogs.oracle.com/r/ 포럼 : https://forums.oracle.com/forums/forum.jspa?forumid=1397 Oracle R Distribution: http://www.oracle.com/technetwork/indexes/downloads/r-distribution-1532464.html ROracle: http://cran.r-project.org/web/packages/roracle Oracle R Enterprise: http://www.oracle.com/technetwork/database/options/advanced-analytics/r-enterprise Oracle R Connector for Hadoop: http://www.oracle.com/us/products/database/big-data-connectors/overview 21

22

23