PowerPoint Presentation

Similar documents
김기남_ATDC2016_160620_[키노트].key

빅데이터_DAY key

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

Microsoft PowerPoint - R-R1-유충현_ ppt [호환 모드]

RUCK2015_Gruter_public

Diapositiva 1

Æí¶÷4-¼Ö·ç¼Çc03ÖÁ¾š

확률과통계 강의자료-1.hwp

PowerPoint 프레젠테이션

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

따끈따끈한 한국 Azure 데이터센터 서비스를 활용한 탁월한 데이터 분석 방안 (To be named)

solution map_....


Backup Exec

[Brochure] KOR_TunA

출원국 권 리 구 분 상 태 권리번호 KR 특허 등록

Basic Template

U.Tu System Application DW Service AGENDA 1. 개요 4. 솔루션 모음 1.1. 제안의 배경 및 목적 4.1. 고객정의 DW구축에 필요한 메타정보 생성 1.2. 제품 개요 4.2. 사전 변경 관리 1.3. 제품 특장점 4.3. 부품화형

Slide 1

슬라이드 1

DBMS & SQL Server Installation Database Laboratory

슬라이드 1

빅데이터시대 Self-BI 전략 이혁재이사 비아이씨엔에스

SECTION TITLE A PURE PRIMER (AI), // 1

199

187호최종

슬라이드 1

204

종합물가정보 2016년 4월호

005- 4¿ùc03ÖÁ¾š

2009 April

PowerPoint 프레젠테이션

자율학습

AGENDA 모바일 산업의 환경변화 모바일 클라우드 서비스의 등장 모바일 클라우드 서비스 융합사례

Agenda 오픈소스 트렌드 전망 Red Hat Enterprise Virtualization Red Hat Enterprise Linux OpenStack Platform Open Hybrid Cloud

Microsoft PowerPoint - 알고리즘_5주차_1차시.pptx

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

빅데이터분산컴퓨팅-5-수정

Ç¥Áö-¸ñÂ÷

텀블러514

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

슬라이드 1

PowerPoint 프레젠테이션

PowerPoint Presentation

methods.hwp

Slide 1

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

untitled

사회통계포럼

PowerPoint 프레젠테이션

True number of clusters = 3 V V1 2 군집의수선택 2.1 군집내와군집간제곱합이용 군집분석은각군집의평균의차이를크게하고 ( 군집간의변동을크게하고 ) 군집내의변동을작게하는 것이좋다. 군집의개수가늘어날수록커지고

3 Gas Champion : MBB : IBM BCS PO : 2 BBc : : /45


Output file

공공데이터개방기술동향

vm-웨어-01장

PowerPoint 프레젠테이션

ETL_project_best_practice1.ppt

[Brochure] KOR_LENA WAS_

슬라이드 1

InsertColumnNonNullableError(#colName) 에해당하는메시지출력 존재하지않는컬럼에값을삽입하려고할경우, InsertColumnExistenceError(#colName) 에해당하는메시지출력 실행결과가 primary key 제약에위배된다면, Ins

R

항목

교육정책연구 2005-지정-52 공무원 채용시험이 대학교육, 노동시장에 미치는 영향분석 및 공무원 채용제도 개선방안 연구책임자 : 오 호 영 (한국직업능력개발원 부연구위원) 이 정책연구는 2005년도 교육인적자원부 인적자원개발 정책연구비 지원에 의 한

PlatformDay2009-Hadoop_OSBI-YoungwooKim

리뉴얼 xtremI 최종 softcopy

MS-SQL SERVER 대비 기능

e-spider_제품표준제안서_160516

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

경쟁사 homepage : Splunk

통신회사에서가장중요한데이터자원이라고하면뭐니뭐니해도고객들의통화기록이라할수있다. 이를 Call Detail Record(CDR) 라고하며, 고객들이유선전화나휴대폰을사용하여통화할때마다통화위치, 통화대상, 통화시간등이로그데이터로기록된다. 매통화마다기록되므로 1일발생량은수억건에

MySQL-.. 1

PowerPoint 프레젠테이션

4월호

aws

.

Tech Trends 클라우드 버스팅의 현주소와 과제 아직 완벽한 클라우드 버스팅을 위해 가야 할 길이 멀지만, 하이브리드 클라우드는 충분한 이점을 가져다 준다. Robert L. Scheier Networkworld 매끄러운 클라우드 버스팅(Cloud Bursting

PowerPoint 프레젠테이션

WINDOW FUNCTION 의이해와활용방법 엑셈컨설팅본부 / DB 컨설팅팀정동기 개요 Window Function 이란행과행간의관계를쉽게정의할수있도록만든함수이다. 윈도우함수를활용하면복잡한 SQL 들을하나의 SQL 문장으로변경할수있으며반복적으로 ACCESS 하는비효율역


정답-1-판매용

(Microsoft PowerPoint - vForum_Public Cloud_IBM_v1.0_\271\350\306\367.pptx)

PowerPoint 프레젠테이션

위세아이텍_iOLAP_

목차 R 의소개 R 의정의, R 의역사, R 의철학, R 의특징, R 패키지시스템 빅데이터분석 빅데이터, 데이터과학그리고과학자 The Marriage of Hadoop and R NexR's Way for Big Data Analysis Etc KRUG(Korean R

歯이시홍).PDF

비식별화 기술 활용 안내서-최종수정.indd

제이쿼리 (JQuery) 정의 자바스크립트함수를쉽게사용하기위해만든자바스크립트라이브러리. 웹페이지를즉석에서변경하는기능에특화된자바스크립트라이브러리. 사용법 $( 제이쿼리객체 ) 혹은 $( 엘리먼트 ) 참고 ) $() 이기호를제이쿼리래퍼라고한다. 즉, 제이쿼리를호출하는기호

Tablespace On-Offline 테이블스페이스 온라인/오프라인

Intra_DW_Ch4.PDF

170918_hjk_datayanolja_v1.0.1.

Microsoft PowerPoint - 3.공영DBM_최동욱_본부장-중소기업의_실용주의_CRM

VOL /2 Technical SmartPlant Materials - Document Management SmartPlant Materials에서 기본적인 Document를 관리하고자 할 때 필요한 세팅, 파일 업로드 방법 그리고 Path Type인 Ph

놀이동산미아찾기시스템

슬라이드 1

세상에 읽지 못할 책은 없다 (사이토 다카시 지음/임해성 옮김/21세기북스/2016년 5월/208쪽/14,000원) 책 소개 사이토 다카시 교수가 들려주는 책의 양분 만 흡수하는 방법! 독서의 중요성과 필요성은 누구나 알고 있지만, 손에 책을 들고 읽는 사람을 찾아보기

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

Oracle Database 10g: Self-Managing Database DB TSC

Data Industry White Paper

Transcription:

RHive 와빅데이터분석 - 넥스알

Agenda 1. RHive 의소개 RHive 란? RHive 기능 & 사용법 Enterprise RHive 2. RHive 의운용사례 CloudLog CDR 2

R 분석가를 RHive 탄생배경 RHive 의소개 Big Data 플랫폼의데이터처리능력과 R 의데이터분석기능의결합필요성이대두됨 3

RHive 의정의 RHive 의소개 가장대중적인분석도구인 R 과검증된대용량분산 DW 시스템인 Hive 를결합한 Big Data 고급분석플랫폼 4

시장에서의 RHive RHive 의소개 Big Data 분석시장에서의 Advanced Big Data Analytic 솔루션으로서의가치 장점 장점 단점 특장점 단점 R-Hive Bridge R 기반 Big Data 분석 Visualization 풍부한분석함수 Visualization 전세계사용 1 위솔루션 대용량분석불가 Big Data 처리가능 분산병렬처리 기능확장의용이성 데이터분석기능약함 특징 R 언어및 ANSI-SQL을기반으로하는분산처리플랫폼 - 제공데이터분석가들의 Learning Cost 최소화 R 언어기반분산처리프로그래밍 Framework을제공 - 용량의한계 / 처리시간의한계를극복 분석가들이직접 R Library를분산병렬화 Porting 가능 - 존재하는라이브러리를필요에따라직접 Porting이가능 Global 업체로부터의 Contact 업체 소재지 용도 월마트 미국 분석팀장의분석기능구현요구 엑센츄어 미국 프로젝트에 RHive 사용검토 facebook 미국 사내분석팀의분석도구 MicroStrategy 미국 고객의요구로 RHive 관심 Hortonworks 미국 사내교육과정에 RHive 사용 taobao.com 중국 제품사용에대한문의 5

타솔루션과의비교 RHive 의상세소개 R 을활용한 Big Data 분석시스템 : RHIPE, RHadoop, Riccardo 과의비교 RHive RHIPE, RHadoop, Riccardo R 기본함수제공 분산화모델로이식된 R 기본함수제공 구현된함수가없음 사용자가구현해야함 SQL 지원 ANSI SQL 기반의 HQL 로지원 SQL 미지원 Hadoop Map/Reduce MapReduce Model 을추상화한 Framework 제공 R 개발자가이해하기쉬운구조 MapReduce Model 과 tightly-coupled 됨 R 개발자가 MapReduce 모델을이해해야만개발가능 ( 개발이어려움 ) 분산처리 프로그래밍 Map/Reduce 에대한지식이없이도분산모델의프로그래밍이가능함 Hadoop 등의분산처리시스템에저장된 Big Data 기반으로 R 분산처리를구현함 6

타솔루션과의비교 - 성능 통계계산수행성능의비교 Hadoop env : 1 name node, 2data node 12GB data airline data(http://stat-computing.org/dataexpo/2009/ ) Flight arrival and departure details for all commercial flights within the USA, from October 1987 to April 2008. Test Algorithm colmeans (column mean) RHipe(0.65) RHadoop(1.0) RHive(0.0-5) 8m 3m 1m 7

Agenda RHive 사용 1. 분석방식 Basic Flow 2. 구조 3. 설치 4. 기능 Basic Statistic Functions Big Apply Functions RHive UDF Hive&Hadoop Bridge 8

Basic Flow HIVE or HADOOP (TB ~) R (GB) BIG DATA Data Load from HIVE 9

구조 10

설치 R 클라이언트노드 (Working client) # HIVE 설치 # HADOOP 설정복사 # HADOOP_HOME 환경변수설정 # R 쉘 > install.packages( RHive ) 하둡데이터노드 (Hadoop Cluster) #R 쉘 > install.packages( RServer ) # 커멘드라인 $ R CMD Rserver 11

Basic Statistic Functions Function rhive.basic.by rhive.basic.cut rhive.basic.merge rhive.basic.mode rhive.basic.range rhive.basic.scale rhive.basic.t.test rhive.basic.xtabs rhive.block.sample 기능 특정컬럼을기준으로 group by 를수행 하나의수치데이터 Column 을구간 Column 으로변환 두테이블을공통되는행을기반으로합쳐서새로운데이터셋을 두테이블을공통되는행을기반으로합쳐서새로운데이터셋을 특정숫자행의최대값과최소값을 평균 0 그리고분산이 1 인분포로숫자형데이터를변환시켜주는 Welch 의 t-test 를수행한다 xtabs 산출 Block 레벨의 Random Simple Sampling 수행 12

Basic Statistic Functions > library(rhive) > rhive.connect() > rhive.write.table(iris) > rhive.basic.mode( iris, sepallength ) sepallength freq 1 5 10 13

Big Apply Functions Function Rhive.napply Rhive.sapply rhive.mapapply rhive.mrapply rhive.reduceapply 기능 R의 napply 동일하며빅데이터처리 R의 sapply 동일하며빅데이터처리하이브테이블을 R데이터객체로만든다하이브테이블의데이터정의를조회한다하이브테이블의크기를구한다 14

Big Apply Functions > rhive.napply('iris', function(column1) { column1 * 10}, 'sepallength') [1] "iris_napply1323970435_table" 15

Hive UDF Functions rowname murder assault urbanpop rape 1 Alabama 13.2 236 58 21.2 2 Alaska 10.0 263 48 44.5 3 Arizona 8.1 294 80 31.0 4 Arkansas 8.8 190 50 19.5.. assault 컬럼의최대값 -> Select max(assault ) from USArrests 도시별선택된범죄발생수의합은? -> Select? from USArrests 16

Hive UDF Functions > sumcrimes <- function(column1, column2, column3) { column1 + column2 + column3 } > rhive.assign("sumcrimes", sumcrimes) > rhive.export("sumcrimes") > > rhive.query("select rowname, R('sumCrimes', murder, assault, rape) FROM usarrests") 17

Hive UDF Functions rowname crimes 1 Alabama 270.4 2 Alaska 317.5 3 Arizona 333.1 4 Arkansas 218.3 5 California 325.6 6 Colorado 250.6 7 Connecticut 124.4 8 Delaware 254.2.... rowname murder assault urbanpop rape 1 Alabama 13.2 236 58 21.2 2 Alaska 10.0 263 48 44.5 3 Arizona 8.1 294 80 31.0 4 Arkansas 8.8 190 50 19.5.. 18

Extension Hive Functions Function rhive.list.tables rhive.write.table rhive.load.table rhive.desc.table rhive.size.table rhive.drop.table rhive.query rhive.big.query 내용 Hive 데이블목록조회 R 데이터객체를 Hive 테이블로만든다 Hive 테이블을 R데이터객체로만든다 Hive 테이블의데이터정의를조회한다 Hive 테이블의크기를구한다 Hive 테이블을삭제한다 Hive 쿼리실행시킨다 Hive 쿼리실행결과를 Hive에저장 19

Big Apply Functions > rhive.query('select assert from usarrests') rowname murder assault urbanpop rape 1 Alabama 13.2 236 58 21.2 2 Alaska 10.0 263 48 44.5... > tmp_table <- rhive.load.table(usarrests) > tmp_table rowname murder assault urbanpop rape 1 Alabama 13.2 236 58 21.2 2 Alaska 10.0 263 48 44.5... 20

Bridge to Hadoop rhive.hdfs.cat rhive.hdfs.chgrp rhive.hdfs.chmod rhive.hdfs.close rhive.hdfs.connect rhive.hdfs.du rhive.hdfs.exists rhive.hdfs.get rhive.hdfs.info rhive.hdfs.ls rhive.hdfs.mkdirs rhive.hdfs.put rhive.hdfs.rename rhive.hdfs.rm rhive.hdfs.tail rhive.load rhive.save 21

2. Enterprise RHive 의확장 ENTERPRISE RHIVE 의확장 22

Enterprise RHive RHive 의확장 RHive 의상용버전으로 RHive 의기본기능외에각종편의도구및분산화된분석알고리즘패키지를제공함 KMeans, Sampling, Scatter Plot, Simple Linear Regression 등분산화된분석알고리즘제공 ( 알고리즘셋추가확장중 ) 알고리즘셋 Clustering K-means Prediction Multi-variate linear regression Classification tree Sampling random, stratified, cluster, quota Modeling model parameter tuning feature selection 23

Enterprise RHive RHive 의확장 RHive 및보고서 Action 을기술할수있는웹기반 Workflow 관리기능제공 24

Enterprise RHive RHive 의확장 시스템모니터링 / 관제 / 작업관리 / 설정관리등의기능을제공하는웹기반통합관리콘솔기능제공 25

3. RHive 의운용사례 RHIVE(ENTERPRISE RHIVE) 의 운용사례 26

CDR log 분석 RHive 의분석사례 통신 CDR 로그를분석하여통화품질최적화를위한 Insight 제공 통화품질이상징후 고객 Segment Spatial Statistics 을이용한통화품질지표의공간인식 품질이상기지국의조기검출 Google Map Mash-Up 마케팅관점의고객 Segments 의공간인식 RHive 의 K-means Clustering 알고리즘적용 Google Map Mash-Up 고객무선통화발신이상징후 개인의통화패턴으로부터이상 Traffic 도출함 RHive Anomaly Detection 알고리즘을이용이상통화패턴검출 27

Cloud log 분석 RHive 의분석사례 Cloud 시스템에서생성되는각종시스템로그를분석하여시스템운영의최적화에 Insight 제공 일자 / 시간대 /IP 별 Netflow 집계데이터 일자 / 시간대 /Account/IP 별 Virtual Machine 집계데이터 일자 / 시간대 /Account 별 Disk Volume 집계데이터 RHIVE (Aggregate) IP 별 Netflow 집계데이터 Account/IP 별 Virtual Machine 집계데이터 Account 별 Disk Volume 집계데이터 Account 별통합데이터 R(Plotting) RHIVE (Clustering) ) R(Plotting) scale 된통합데이터 Cluster 별 Netflow 현황 Cluster 별 Netflow 현황 Clustering 결과데이터 군집특성도 Cluster 별 VM 현황 Cluster VM 현황 Cluster 별 Disk Volume 현황 정기보고서 2 8

클라우드로그분석시스템

Contact: rhive@nexr.com github (https://github.com/nexr/rhive) 30