RUCK2015_Gruter_public

Similar documents
Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

Portal_9iAS.ppt [읽기 전용]

NoSQL

1217 WebTrafMon II

Ç¥Áö

목차 BUG 문법에맞지않는질의문수행시, 에러메시지에질의문의일부만보여주는문제를수정합니다... 3 BUG ROUND, TRUNC 함수에서 DATE 포맷 IW 를추가지원합니다... 5 BUG ROLLUP/CUBE 절을포함하는질의는 SUBQUE

10.ppt

PowerPoint 프레젠테이션

Intra_DW_Ch4.PDF

ETL_project_best_practice1.ppt

김기남_ATDC2016_160620_[키노트].key

PCServerMgmt7

untitled

빅데이터분산컴퓨팅-5-수정

품질검증분야 Stack 통합 Test 결과보고서 [ The Bug Genie ]

Chap7.PDF

MySQL-Ch10

비식별화 기술 활용 안내서-최종수정.indd

출원국 권 리 구 분 상 태 권리번호 KR 특허 등록

빅데이터_DAY key

슬라이드 1

ecorp-프로젝트제안서작성실무(양식3)

빅데이터 분산 컴퓨팅 -6

DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx

Web Application Hosting in the AWS Cloud Contents 개요 가용성과 확장성이 높은 웹 호스팅은 복잡하고 비용이 많이 드는 사업이 될 수 있습니다. 전통적인 웹 확장 아키텍처는 높은 수준의 안정성을 보장하기 위해 복잡한 솔루션으로 구현

Basic Template

3 S Q L A n t i p a t t e r n s Trees/intro/parent.sql CREATE TABLE Comments ( comment_id SERIAL PRIMARY KEY, parent_id BIGINT UNSIGNED, comment TEXT

vm-웨어-01장

DocsPin_Korean.pages

13주-14주proc.PDF

Diapositiva 1

CRM Fair 2004

PlatformDay2009-Hadoop_OSBI-YoungwooKim

歯CRM개괄_허순영.PDF

Oracle Database 10g: Self-Managing Database DB TSC

Microsoft PowerPoint - Smart CRM v4.0_TM 소개_ pptx

<4D F736F F D205B4354BDC9C3FEB8AEC6F7C6AE5D3131C8A35FC5ACB6F3BFECB5E520C4C4C7BBC6C320B1E2BCFA20B5BFC7E2>


Microsoft PowerPoint - R-R1-유충현_ ppt [호환 모드]

Polly_with_Serverless_HOL_hyouk

<C0CCBCBCBFB52DC1A4B4EBBFF82DBCAEBBE7B3EDB9AE2D D382E687770>

PowerPoint 프레젠테이션

Analyst Briefing

PowerPoint Presentation

Bigdata가 제공하는 구체적인 혜택과 변화 양상 기업의 데이터 기반의 의사결정 시스템 구축 의지 확대 양상 빅데이터를 활용한 경영 및 마케팅 지속적인 증가세 뚜렷 빅데이터를 도입한 기업은 사전 기대를 뛰어넘는 효과를 경험 본 조사 내용은 美 BARC- Researc

<49534F C0CEC1F520BBE7C8C4BDC9BBE720C4C1BCB3C6C320B9D D20BDC3BDBAC5DB20B0EDB5B5C8AD20C1A6BEC8BFE4C3BBBCAD2E687770>

AGENDA 모바일 산업의 환경변화 모바일 클라우드 서비스의 등장 모바일 클라우드 서비스 융합사례

8 장데이터베이스 8.1 기본개념 - 데이터베이스 : 데이터를조직적으로구조화한집합 (cf. 엑셀파일 ) - 테이블 : 데이터의기록형식 (cf. 엑셀시트의첫줄 ) - 필드 : 같은종류의데이터 (cf. 엑셀시트의각칸 ) - 레코드 : 데이터내용 (cf. 엑셀시트의한줄 )

Voice Portal using Oracle 9i AS Wireless

untitled

컴퓨터과학과 교육목표 컴퓨터과학과의 컴퓨터과학 프로그램은 해당분야 에서 학문적 기술을 창의적으로 연구하고 산업적 기술을 주도적으로 개발하는 우수한 인력을 양성 함과 동시에 직업적 도덕적 책임의식을 갖는 IT인 육성을 교육목표로 한다. 1. 전공 기본 지식을 체계적으로

6주차.key

침입방지솔루션도입검토보고서

Assign an IP Address and Access the Video Stream - Installation Guide

MySQL-Ch05

신림프로그래머_클린코드.key

Global Bigdata 사용 현황 및 향후 활용 전망 빅데이터 미도입 이유 필요성 못느낌, 분석 가치 판단 불가 향후 투자를 집중할 분야는 보안 모니터링 분야 와 자동화 시스템 분야 빅데이터의 핵심 가치 - 트랜드 예측 과 제품 개선 도움 빅데이터 운영 애로 사항

서현수

Copyright 2012, Oracle and/or its affiliates. All rights reserved.,.,,,,,,,,,,,,.,...,. U.S. GOVERNMENT END USERS. Oracle programs, including any oper

歯목차45호.PDF

오늘날의 기업들은 24시간 365일 멈추지 않고 돌아간다. 그리고 이러한 기업들을 위해서 업무와 관련 된 중요한 문서들은 언제 어디서라도 항상 접근하여 활용이 가능해야 한다. 끊임없이 변화하는 기업들 의 경쟁 속에서 기업내의 중요 문서의 효율적인 관리와 활용 방안은 이

Apache Ivy

PowerPoint 프레젠테이션

Microsoft Word - 조병호

untitled

I T C o t e n s P r o v i d e r h t t p : / / w w w. h a n b i t b o o k. c o. k r

PowerPoint 프레젠테이션

FileMaker ODBC 및 JDBC 가이드

vm-웨어-앞부속

github_introduction.key

구축환경 OS : Windows 7 그외 OS 의경우교재 p26-40 참조 Windows 의다른버전은조금다르게나타날수있음 Browser : Google Chrome 다른브라우저를사용해도별차이없으나추후수업의모든과정은크롬사용 한

PowerPoint

歯sql_tuning2

RDB개요.ppt

문서 템플릿

플랫폼을말하다 2

ibmdw_rest_v1.0.ppt


untitled

슬라이드 1

untitled

클라우드컴퓨팅확산에따른국내경제시사점 클라우드컴퓨팅확산에따른국내경제시사점 * 1) IT,,,, Salesforce.com SaaS (, ), PaaS ( ), IaaS (, IT ), IT, SW ICT, ICT IT ICT,, ICT, *, (TEL)

따끈따끈한 한국 Azure 데이터센터 서비스를 활용한 탁월한 데이터 분석 방안 (To be named)

Mstage.PDF

PowerPoint Presentation

Microsoft Word - [2017SMA][T8]OOPT_Stage_2040 ver2.docx

J2EE Concepts

DW 개요.PDF

<C7D1B1B9C7D7B0F8C1F8C8EFC7F9C8B82DBFF9B0A3C7D7B0F8BFEEBCDBBDC3C0E520B5BFC7E228C7A5C1F6BCF6C1A4292E687770>

IPAK 윤리강령 나는 _ 한국IT전문가협회 회원으로서 긍지와 보람을 느끼며 정보시스템 활용하 자. 나는 _동료, 단체 및 국가 나아가 인류사회에 대하여 철저한 책임 의식을 가진 다. 나는 _ 활용자에 대하여 그 편익을 증진시키는데 최선을 다한다. 나는 _ 동료에 대해

Å©·¹Àγ»Áö20p

Connection 8 22 UniSQLConnection / / 9 3 UniSQL OID SET

Ext JS À¥¾ÖÇø®ÄÉÀ̼ǰ³¹ß-³¹Àå.PDF

목 차

목차 BUG offline replicator 에서유효하지않은로그를읽을경우비정상종료할수있다... 3 BUG 각 partition 이서로다른 tablespace 를가지고, column type 이 CLOB 이며, 해당 table 을 truncate

무제-1

untitled

목차 BUG DEQUEUE 의 WAIT TIME 이 1 초미만인경우, 설정한시간만큼대기하지않는문제가있습니다... 3 BUG [qp-select-pvo] group by 표현식에있는컬럼을참조하는집합연산이존재하지않으면결괏값오류가발생할수있습니다... 4

ALTIBASE HDB Patch Notes

Transcription:

Apache Tajo 와 R 을연동한빅데이터분석 고영경 / 그루터 ykko@gruter.com

목차 : R Tajo Tajo RJDBC Tajo Tajo UDF( ) TajoR Demo Q&A

R 과빅데이터분석 ' R 1) R 2) 3) R (bigmemory, snowfall,..) 4) R (NoSQL, MapReduce, Hive / RHIPE, RHive,..) 5) 6) ~

R 과빅데이터기술의역할분담 Hadoop (Hadoop/MapReduce, NoSQL, SQL-on-Hadoop), R

Tajo 소개 Apache Tajo : 대용량분산 Data Warehouse 시스템 (SQL-on-Hadoop) Tajo ( ) SQL MapReduce (M/R, Hive, Pig) 3 (HDFS, S3, Swift, Local filesystem, HBase, ElasticSearch ) (CSV, JSON, Apache log,, ) Tajo API, JDBC (ODBC ) UDF (User-Defined Function) - ( )

Tajo 로처리하기적합한작업 Tajo SQL (eg.,,, JOIN) JSON, Apache log HDFS, Local file, Amazon S3 iterative (eg. machine learning) (eg. )

다양한환경에서 Tajo 사용하기 Tajo Desktop Package ( ) Mac, Linux stand-alone Tajo 엑셀로다루기힘든큰데이터를변환 /Load 없이바로 SQL로분석 mysql, mysql Tajo-as-a-Service (http://taas.gruter.com) Tajo S3 (No ETL) EMR bootstrap action EC2 AMI (Amazon Machine Image) ( ) Tajo DW H/W ( G-DPU)

Tajo 와 R 연동 - 데이터준비 1. Airline $ head /Users/ykko/tajo/data/air2008/air2008.csv 2008,1,3,4,926,930,1054,1100,WN,1746,N612SW,88,90,78,- 6,- 4,IND,BWI,515,3,7,0,,0,NA,NA,NA,NA,NA 2008,1,3,4,1829,1755,1959,1925,WN,3920,N464WN,90,90,77,34,34,IND,BWI,515,3,10,0,,0,2,0,0,0,32 2008,1,3,4,1937,1830,2037,1940,WN,509,N763SW,240,250,230,57,67,IND,LAS,1591,3,7,0,,0,10,0,0,0,47 2008,1,3,4,617,615,652,650,WN,11,N689SW,95,95,70,2,2,IND,MCI,451,6,19,0,,0,NA,NA,NA,NA,NA 2. Tajo CSV External Table CREATE EXTERNAL TABLE ext2008 ( year int, month int, ) USING text with ('csvfile.delimiter'=' ') LOCATION file:///users/ykko/tajo/data/air2008/ ; 3. ( ) CREATE TABLE air2008 AS SELECT year, month,, CASE airtime WHEN 'NA' THEN null ELSE airtime::int END as airtime, FROM ext2008;

RJDBC 로 Tajo 질의실행 library(rjdbc) drv <- JDBC("org.apache.tajo.jdbc.TajoDriver", "/Users/ykko/tajo/tajo_single_jdbc/tajo- jdbc- 0.10.0- SNAPSHOT.jar") conn <- dbconnect(drv, "jdbc:tajo://localhost:26002/default", "", "") sql <- "SELECT concat(origin, ' - > ', dest) as flight, count(*) as delay_cnt FROM airline.air2008 WHERE weatherdelay > 0 GROUP BY flight ORDER BY delay_cnt desc LIMIT 10 " dfrm <- dbgetquery(conn, sql) R> dfrm flight delay_cnt 1 DTW - > LGA 435 2 ORD - > DFW 418 3 ORD - > CVG 383 4 ORD - > MSP 371 5 DTW - > ORD 370

질의결과시각화 library(ggplot2) ggplot(dfrm, aes(flight, delay_cnt)) + geom_bar(aes(fill = flight), stat = "identity") + theme(axis.text.x = element_text(angle = 45))

대용량분산처리 ( 맛보기 ) 4 Tajo (1 master, 3 workers) / TPC-H 100GB conn <- dbconnect(drv, "jdbc:tajo://app01:26002/default", "", "") sql <- "SELECT count(*) as cnt FROM tpch100g.lineitem cnt <- dbgetquery(conn, sql) sql <- "SELECT l_shipdate, count(*) as cnt FROM lineitem GROUP by l_shipdate" dfrm <- dbgetquery(conn, sql)

Tajo 관리 UI - 질의실행상황확인 http://tajo-master-server:26080

다양한저장소지원, : Efficient In-situ Processing of Various Storage Types on Apache Tajo (, Hadoop Summit 2015 )

다양한저장소지원 Hadoop (HDFS), Amazon S3, Local Filesystem CREATE EXTERNAL TABLE ext2008 ( year text, ) USING text with ('csvfile.delimiter'=',') LOCATION 'hdfs://server:9000/airline/''; - - LOCATION 'file:///users/ykko/downloads/'; - - LOCATION 's3://tajo- data- us- east- 1/airline/'; HBase (cf. HBase Integration ) USING hbase WITH ('table'='blog', 'columns'=':key,info:author,info:date,content:title'); OpenStack Swift (cf. Apache Tajo on Swift ) ElasticSearch, Kafka 지원도개발중

다양한데이터포맷지원 CSV, JSON (No ETL) Custom (De)Serializer / SQL ex. Pluggable Scanner Tajo Tuple Tajo Engine JSON JSON JSON file JSON Scanner Tajo Apache Log Apache Log Scanner col1 col1 col2 col2 col3 col1 col2 col3 col3 SQL Result Set My Custom Log My Custom Scanner

다양한데이터포맷지원 - 웹로그분석예제 LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User- Agent}i\"" combined 61.23.4.16 - - [15/Oct/2014:09:00:22 +0900] "GET /main HTTP/1.1" 200 942 "- " "Mozilla/..." 65.13.2.96 - - [15/Oct/2014:09:01:23 +0900] "GET /help HTTP/1.1" 200 242 "- " "Mozilla/..." 65.33.6.10 - - [15/Oct/2014:09:01:23 +0900] "GET /view HTTP/1.1" 200 810 "- " "Mozilla/..." Tajo External Apache Log SerDe CREATE EXTERNAL TABLE web_logs ( remote_addr TEXT, logname TEXT, remote_user TEXT, access_timestamp TIMESTAMP, request_method TEXT, request_path TEXT, http_version TEXT, response_status TEXT, transferred_bytes INT, referrer TEXT, user_agent TEXT ) USING TEXT WITH ( 'text.serde'='org.apache.tajo.storage.text.apacheloglineserde', 'text.delimiter'=' ','text.null'='- ' ) LOCATION 'file:///users/ykko/tajo/tajo- desktop- weblog- 2.0/data/web- log'; SQL (eg. ) SELECT extract(hour from access_timestamp) as hh, count(*) as cnt FROM web_logs GROUP BY hh ORDER by hh * SerDe ( https://github.com/hyunsik/tajo/tree/web_log_parser )

Tajo UDF ( 사용자정의함수 ) Tajo UDF SQL Function UDF (User-Defined Functions) :. Java, Python eg. Pearson Correlation Tajo UDF airline> SELECT corr(actualelapsedtime, crselapsedtime) FROM air2008; Progress: 8%, response time: 1.139 sec Progress: 8%, response time: 1.14 sec Progress: 100%, response time: 1.324 sec?corr - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 0.9798745590752236 (1 rows, 1.324 sec, 19 B selected) * corr UDF : https://issues.apache.org/jira/browse/tajo-1661

TajoR 로드맵 R Tajo CRAN Tajo JDBC (eg. ) Approximate query (eg. time-bound, error-bound) R Tajo UDF, (eg. t-test ) (multi-tenancy, Fair scheduler ) Data Frame API Tajo data frame. SQL.

함께해요 Tajo.. Getting Started Tajo Desktop Package EMR bootstrap action TajoR feedback Tajo. Apache Tajo : http://tajo.apache.org Tajo : /

GRUTER: YOUR PARTNER IN THE BIG DATA REVOLUTION Phone +82-2-508-5911 Fax +82-2-508-5912 E-mail Web contact@gruter.com www.gruter.com