Microsoft PowerPoint - R-R1-유충현_ ppt [호환 모드]

Similar documents
김기남_ATDC2016_160620_[키노트].key

PowerPoint Presentation

Diapositiva 1

빅데이터_DAY key

목차 R 의소개 R 의정의, R 의역사, R 의철학, R 의특징, R 패키지시스템 빅데이터분석 빅데이터, 데이터과학그리고과학자 The Marriage of Hadoop and R NexR's Way for Big Data Analysis Etc KRUG(Korean R

RUCK2015_Gruter_public

PowerPoint 프레젠테이션

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

슬라이드 1

IBMDW성공사례원고

ETL_project_best_practice1.ppt

±èÇö¿í Ãâ·Â

출원국 권 리 구 분 상 태 권리번호 KR 특허 등록

PowerPoint 프레젠테이션

08SW

Basic Template

DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx


<49534F C0CEC1F520BBE7C8C4BDC9BBE720C4C1BCB3C6C320B9D D20BDC3BDBAC5DB20B0EDB5B5C8AD20C1A6BEC8BFE4C3BBBCAD2E687770>

スライド タイトルなし

Backup Exec

IPAK 윤리강령 나는 _ 한국IT전문가협회 회원으로서 긍지와 보람을 느끼며 정보시스템 활용하 자. 나는 _동료, 단체 및 국가 나아가 인류사회에 대하여 철저한 책임 의식을 가진 다. 나는 _ 활용자에 대하여 그 편익을 증진시키는데 최선을 다한다. 나는 _ 동료에 대해

Oracle Apps Day_SEM

Oracle9i Real Application Clusters

I I-1 I-2 I-3 I-4 I-5 I-6 GIS II II-1 II-2 II-3 III III-1 III-2 III-3 III-4 III-5 III-6 IV GIS IV-1 IV-2 (Complement) IV-3 IV-4 V References * 2012.

슬라이드 1

DW 개요.PDF

PCServerMgmt7

비식별화 기술 활용 안내서-최종수정.indd

ecorp-프로젝트제안서작성실무(양식3)

SchoolNet튜토리얼.PDF


사회통계포럼

분산처리 프레임워크를 활용한대용량 영상 고속분석 시스템

Microsoft PowerPoint - Smart CRM v4.0_TM 소개_ pptx

Tech Trends 클라우드 버스팅의 현주소와 과제 아직 완벽한 클라우드 버스팅을 위해 가야 할 길이 멀지만, 하이브리드 클라우드는 충분한 이점을 가져다 준다. Robert L. Scheier Networkworld 매끄러운 클라우드 버스팅(Cloud Bursting

Service-Oriented Architecture Copyright Tmax Soft 2005

歯J PDF

solution map_....

Intra_DW_Ch4.PDF

Microsoft PowerPoint - SVPSVI for LGNSYS_ ppt

SQL Developer Connect to TimesTen 유니원아이앤씨 DB 기술지원팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 작성자

초보자를 위한 C++

고객 지향적인 IT 투자와 운영이 요구되는 시대! 2014년 현재 유통, 서비스 업계의 정보화 화두는 BYOD 수용과 고객의 마음을 읽는 분석 입니다. Market Overview _ Cross Industry 의 정보화 동향 유통과 서비스 업계의 IT 환경은 발 빠르

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

untitled

Æí¶÷4-¼Ö·ç¼Çc03ÖÁ¾š

untitled

Voice Portal using Oracle 9i AS Wireless

2017 1

Bigdata가 제공하는 구체적인 혜택과 변화 양상 기업의 데이터 기반의 의사결정 시스템 구축 의지 확대 양상 빅데이터를 활용한 경영 및 마케팅 지속적인 증가세 뚜렷 빅데이터를 도입한 기업은 사전 기대를 뛰어넘는 효과를 경험 본 조사 내용은 美 BARC- Researc

Intro to Servlet, EJB, JSP, WS

1 전통 소프트웨어 가. ERP 시장 ERP 업계, 클라우드 기반 서비스로 새로운 활력 모색 - SAP-LGCNS : SAP HANA 클라우드(SAP HEC)를 통해 국내 사례 확보 및 아태 지역 진 출 추진 - 영림원 : 아시아 클라우드 ERP 시장 공략 추진 - 더

슬라이드 1

빅데이터시대 Self-BI 전략 이혁재이사 비아이씨엔에스

HTML5가 웹 환경에 미치는 영향 고 있어 웹 플랫폼 환경과는 차이가 있다. HTML5는 기존 HTML 기반 웹 브라우저와의 호환성을 유지하면서도, 구조적인 마크업(mark-up) 및 편리한 웹 폼(web form) 기능을 제공하고, 리치웹 애플리케이 션(RIA)을

MPLAB C18 C

품질검증분야 Stack 통합 Test 결과보고서 [ The Bug Genie ]

vm-웨어-앞부속

PowerPoint 프레젠테이션

R, 그리고빅데이터 2

J2EE & Web Services iSeminar

Chap7.PDF

AGENDA 모바일 산업의 환경변화 모바일 클라우드 서비스의 등장 모바일 클라우드 서비스 융합사례

2007-최종-10월 16일자.hwp

PowerPoint

PowerPoint Presentation

Microsoft Word - zfs-storage-family_ko.doc

Data Industry White Paper


1

Agenda 오픈소스 트렌드 전망 Red Hat Enterprise Virtualization Red Hat Enterprise Linux OpenStack Platform Open Hybrid Cloud

Portal_9iAS.ppt [읽기 전용]

< FC1A6BEC8BFE4C3BBBCAD2E687770>

자동화된 소프트웨어 정의 데이터센터

Microsoft Word - 조병호

vm-웨어-01장

Microsoft PowerPoint - 3.공영DBM_최동욱_본부장-중소기업의_실용주의_CRM

클라우드컴퓨팅확산에따른국내경제시사점 클라우드컴퓨팅확산에따른국내경제시사점 * 1) IT,,,, Salesforce.com SaaS (, ), PaaS ( ), IaaS (, IT ), IT, SW ICT, ICT IT ICT,, ICT, *, (TEL)

목차 개요 3 섹션 1: 해결 과제 4 APT(지능형 지속 위협): 이전과 다른 위협 섹션 2: 기회 7 심층 방어 섹션 3: 이점 14 위험 감소 섹션 4: 결론 14 섹션 5: 참조 자료 15 섹션 6: 저자 소개 16 2

13 Who am I? R&D, Product Development Manager / Smart Worker Visualization SW SW KAIST Software Engineering Computer Engineering 3

Copyright 2012, Oracle and/or its affiliates. All rights reserved.,.,,,,,,,,,,,,.,...,. U.S. GOVERNMENT END USERS. Oracle programs, including any oper

Slide 1

서현수

FMX M JPG 15MB 320x240 30fps, 160Kbps 11MB View operation,, seek seek Random Access Average Read Sequential Read 12 FMX () 2

歯두산3.PDF

Slide 1

Global Bigdata 사용 현황 및 향후 활용 전망 빅데이터 미도입 이유 필요성 못느낌, 분석 가치 판단 불가 향후 투자를 집중할 분야는 보안 모니터링 분야 와 자동화 시스템 분야 빅데이터의 핵심 가치 - 트랜드 예측 과 제품 개선 도움 빅데이터 운영 애로 사항

UML

2009방송통신산업동향.hwp

NCS : ERP(SAP) ERP(SAP) SW IT,. SW IT 01., 05., 06., 08., 15., , 05. SW IT,,,, SAP HR,,, 4,,, SAP ABAP HR SCHEMA, BSP,

DBPIA-NURIMEDIA

ICT03_UX Guide DIP 1605

Solaris Express Developer Edition

월간 SW 산업동향 ( ~ ) Ⅰ. Summary 1 Ⅱ SW 5 2. SW 7 Ⅲ Ⅳ. SW SW Ⅴ : Big Data, 38

Assign an IP Address and Access the Video Stream - Installation Guide

Microsoft Word doc

Microsoft PowerPoint - 알고리즘_1주차_2차시.pptx

빅데이터처리의핵심인 Hadoop 을오라클은어떻게지원하나요? Oracle Big Data Appliance Solution 01 빅데이터처리를위한전문솔루션이 Oracle Big Data Appliance 군요. Oracle Big Data Appliance 와함께라면더이

Transcription:

Next Revolution Toward Open Platform Technology Trends in Big Data Analytics and Introduction to R 넥스알 Data Science Team 유충현 (antony.ryu@nexr.com)

목차 Big Data Analytics의소개 Big Data Analytics의기술및시장환경 Hadoop 기반의 Big Data 분석플랫폼 Appliance DBMS Big Data Analytics 를위한 R 의소개 R RHive R 을이용한데이터분석의비교 Small Data Analytics using Native R Large Data Analytics using R Big Data Analytics using R -2- KRnet 2012

Big Data Analytics 의소개 정의 Big Data 를있는그대로탐색하여숨어있는 Detail 한비즈니스기회를찾아내는기술 Big Data 정의 (1) Big Data Analytics (2) 정의 Advanced Analytics, Discovery Analytics - Discovery of new business facts with plenty of detail (Big Data) Pareto s Law Long-Tail Law - 데이터를가공 (Sampling, Summary) 하면 Long-tail(Detail) 이사라지거나오차발생 Detail 한정보의손실없이 Big Data 를분석하는기술 (1),(2) TDWI RESEARCH 2011 4Q : Big Data Analytics. http://tdwi.org -3- KRnet 2012

Big Data Analytics 의기술및시장환경 춘추전국시대 Hadoop Data Scientist IBM Big Data Analytics RHive Distributed Computing R RHADOOP EMC SAP RHIPE Revolution R Oracle SAS -4- KRnet 2012

Big Data Analytics 의기술및시장환경 Cont Hadoop 기반의 Big Data 분석플랫폼 Product RHIPE RHadoop RHive map 작성 구조 R, Map/Reduce R, Map/Reduce R, Hive(Map/Reduce) [ RHIPE의구조 ] R reduce 작성 RHIPE HADOOP -5- KRnet 2012

Big Data Analytics 의기술및시장환경 Cont Appliance DBMS for Big Data Analytics 벤더제품 Analytics Engine Oracle IBM Big Data Appliance Exadata InfoSphere BigInsights Netezza Appliance Oracle R Enterprise (R) Revolution R, SAS, SPSS 연동 Teradata Aster Discovery Platform SQL-Map/Reduce, SAS, R EMC Greenplum Data Computing Appliance Java, R SAP [ 특징 ] HANA (In memory Appliance) Not Big Data R 연동사례 Appliance DBMS & Hadoop Hadoop보다는 Appliance DBMS에치중 Analytics Analytics Product을 DBMS Product 내부에포함시키고있음 Analytics Engine은공통적으로 R을사용 -6- KRnet 2012

Big Data Analytics 의소개 재정의 물리적제약으로인해다루지못했던데이터리소스들의집합 [ Visualization 의중요성 ] 가치의인식 [ 데이터의질적향상 ] 데이터의질적향상 새로운 Insight 도출 데이터 양 RAW Sample Summary 통합데이터 New Feature 데이터질 -7- KRnet 2012

Big Data Analytics 의소개 성공을위한요인 Big Data Platform 데이터처리의한계극복 수집, 가공, 저장, 분석기능 필요조건, 충분조건은아님 Domain Expert 아이디어, 방향성제시 업무의이해, 데이터의이해 현업담당자 + 시스템담당자 Data Scientist Multiplayer, 도전정신 전처리, 분석, 경험 -8- KRnet 2012

Big Data Analytics 를위한 R 의소개 R RHive -9- KRnet 2012

R 의소개 R 이란 R is a language and environment for statistical computing and graphics. It is a GNU project which is similar to the S language and environment which was developed at Bell Laboratories (formerly AT&T, now Lucent Technologies) by John Chambers and colleagues. R can be considered as a different implementation of S. There are some important differences, but much code written for S runs unaltered under R. 태동전파확산 Bell Lab Commercial GNU/Open source O/S UNIX BSD/System V HP, IBM, SUN LINUX Application Analysis System The S system S-PLUS R Packages 1976 년 Bell Lab 태생 1988 년라이센스양도 1993 년도오픈소스화 -10- KRnet 2012

R 의소개 장단점 R? Free? Free Analytics Software 분석의자유 생각하는분석기법은모두지원한다. (4,000 여개이상의패키지 ) 최신분석기법의제공및자유로운분석환경제공 배포의자유 자유로운 " 실행, 복사, 수정, 배포 " 의권리를갖는사용허가권 비용의자유 무료소프트웨어 ( 단, 소프트웨어업체의 R 을이용한저작물은비용발생가능 ) [ R 의장점및단점 ] 구분장점단점비고 In-Memory 구조연산수행속도빠름대용량데이터분석불가상용 R 시스템 Open Source 저렴한비용 시스템통합용이 교육, 기술지원지원부족 시장형성기 Language 구조 알고리즘구현용이 Detail 분석가능 프로그램능력이필요함 S3, S4 Spec -11- KRnet 2012

R 의소개 statistical computing 주요통계계산기능 통계량 / 기초통계 통계분석 마이닝분석 시뮬레이션 수치해석 EDA(Exploratory Data Analysis) Summary 전통적인통계분석방법론 최신통계분석방법론, Spatial, Bayesian 통계등 Decision Tree, SVM, Clustering, WEKA interface 모형시뮬레이션 Operation Research 미분, 적분, 행렬대수 근사값계산, Optimization 교육대학 / 대학원교육 대학및대학원에서의통계교육의표준으로사용 업계의활용 활용프로젝트 분석업무활용 제품개발 Bioinformatics 프로젝트 Finmatrics 프로젝트 Google : Google Analytics(SaaS) 에 R을사용 Facebook, Yahoo 등회사에서내부분석용도구로활용 Oracle, Teradata, EMC 등업체의 DBMS 내분석툴로제공 BioConductor Project 460 이상의 Packages 게놈, Bio, 신약연구등 Bioinformatics 의표준통계분석언어 금융예측분석에사용, 여러가지금융예측모형구현 -12- KRnet 2012

R 의소개 graphics Edgar Anderson's Iris Data 2.0 3.0 4.0 0.5 1.5 2.5 volcano data: filled contour map Sepal.Length 4.5 5.5 6.5 7.5 1.0 0.8 180 2.0 3.0 4.0 Sepal.Width Petal.Length 1 2 3 4 5 6 7 0.6 0.4 0.2 160 140 120 0.5 1.5 2.5 Petal.Width 0.0 0.0 0.2 0.4 0.6 0.8 1.0 100 4.5 5.5 6.5 7.5 1 2 3 4 5 6 7 SNA SPLOM Contour WordCloud GoogleVis RGL -13- KRnet 2012

R 의소개 Populations Kdnuggets Poll : Language for DM Kaggle : Tool of competitors http://blog.revolutionanalytics.com/2011/ 11/r-still-the-preferred-tool-of-predictivemodelers-competing-at-kaggle.html http://www.kdnuggets.com/2011/08/polllanguages-for-data-mining-analytics.html -14- KRnet 2012

RHive 의소개 Hive http://hive.apache.org A data warehouse system for Hadoop Open Source (Apache License) ANSI SQL Support Facebook의 Main Data Warehousing System -15- KRnet 2012

RHive 의소개 정의 가장대중적인분석도구인 R 과검증된대용량분산 DW 시스템인 Hive 를결합한 Big Data 고급분석플랫폼 Language : R and ANSI-SQL R-Hive Bridge R Package R 기반분산처리 Framework Population Analytic Tool CRAN : 4,000+ Rich R library 용이한 Library 제작 Rich Visualization, IDE ANSI SQL : Low Learning Cost Hadoop 기반분산병렬처리 용이한기능확장 : UDF, UAF NexR Add-on -16- KRnet 2012

RHive 의소개 Architecture -17- KRnet 2012

RHive 의소개 Syntax HDFS interface Hive query interface (SQL) Map/Reduce Programming with R (R) -18- KRnet 2012

RHive 의소개 IDE RStudio -19- KRnet 2012

RHive 의소개 해외컨퍼런스발표 세계최고의국제 R 사용자학술컨퍼런스인 UseR! 2012에채택발표 (2012/06/13, USA, Nashville) http://biostat.mc.vanderbilt.edu/wiki/main/user-2012 The 8 th International R User Conference Vanderbilt University; Nashville, Tennessee, USA12 th -15 th June 2012 Google, Oracle, Revolution Analytics 및제약회사등 R&D 회사들 및분석관련회사의분석솔루션방법론및연구결과등발표 통계, 컴퓨터사이언스등분석관련리딩그룹의청중들이참석 데이터분석의전분야의학술적연구, 현업사례, 분석을위한 R 언 어개선안을함께다루는데이터분석분야의가장주목받는학회 -20- KRnet 2012

R 을이용한데이터분석의비교 Small Data Analytics using Native R Large Data Analytics using R Big Data Analytics using R -21- KRnet 2012

Small Data Analytics using Native R In-Memory Classification Tree Model iris : 150 건, 5 개변수 R Script Tree Chart > library(tree) > ir.tr <- tree(species ~., iris) > summary(ir.tr) Classification tree: tree(formula = Species ~., data = iris) Variables actually used in tree construction: [1] "Petal.Length" "Petal.Width" "Sepal.Length" setosa Number of terminal nodes: 6 Residual mean deviance: 0.1253 = 18.05 / 144 Misclassification error rate: 0.02667 = 4 / 150 > plot(ir.tr) > text(ir.tr) Petal.Length < 2.45 Petal.Length < 4.95 Sepal.Length < 5.15 versicolor versicolor virginica Petal.Width < 1.75 Petal.Length < 4.95 virginica virginica -22- KRnet 2012

Large Data Analytics using R In-Disk / Memory Index Data 를 Disk 에 Load 메모리에는 Disk 의 Data 영역 Index 정보가올라감 Data 를 Loading 하는작업필요, 별도의분석라이브러리개발필요 [ 개념도 (ff Package 예시 ) ] [ 대표적인 Packages ] Package 명 bigmemory ff RevoScaleR 비고 분석용 Package (biganalytics) 분석용 Package (ffbase) 상용 (Revolution Analytics) -23- KRnet 2012

Large Data Analytics using R bigmemory Example Script airline : 123,534,959 건, 29 개변수, 11GB 29 개변수의산술평균구하기 Ubuntu linux 64Bit/ i7(dual) / 8G (Notebook) > library(bigmemory) > airline <- read.big.matrix("/home/antony/anal/airline.csv", header=t, + backingfile="airline.bin", descriptorfile="airline.desc", type="integer", + backingpath="/home/antony/anal/back/") > library(biganalytics) > colmean(airline, na.rm=t) WeatherDelay NASDelay SecurityDelay LateAircraftDelay 7.883406e-01 4.103548e+00 2.670679e-02 4.756176e+00 작업 데이터로드 산술평균 수행속도 33m 17s 2m 38s -24- KRnet 2012

Big Data Analytics using R RHive - Visualization Visualization 으로 Long-Tail 파악한다. XX 데이터 (2011-01-01~2012-04-30, 16 개월로그데이터 ) hivequery 함수, aggregate 함수, heatmap 함수이용 -25- KRnet 2012

Big Data Analytics using R RHive Enterprise Analytics RHive 를이용한 KT Cloud 로그분석의사례 Cloud 시스템운영에필요한모니터링정보제공 자원사용기반사용자군집분석 (RHive KMeans) 사례 -26- KRnet 2012

Q&A -27- KRnet 2012