Diapositiva 1

Similar documents
Microsoft PowerPoint - R-R1-유충현_ ppt [호환 모드]

PowerPoint Presentation

빅데이터_DAY key

김기남_ATDC2016_160620_[키노트].key

RUCK2015_Gruter_public

목차 R 의소개 R 의정의, R 의역사, R 의철학, R 의특징, R 패키지시스템 빅데이터분석 빅데이터, 데이터과학그리고과학자 The Marriage of Hadoop and R NexR's Way for Big Data Analysis Etc KRUG(Korean R

DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

SQL Developer Connect to TimesTen 유니원아이앤씨 DB 기술지원팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 작성자

사회통계포럼


Intra_DW_Ch4.PDF

R, 그리고빅데이터 2

Basic Template

<4D F736F F F696E74202D C61645FB3EDB8AEC7D5BCBA20B9D720C5F8BBE7BFEBB9FD2E BC8A3C8AF20B8F0B5E55D>

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

OP_Journalism

Portal_9iAS.ppt [읽기 전용]

슬라이드 1


I I-1 I-2 I-3 I-4 I-5 I-6 GIS II II-1 II-2 II-3 III III-1 III-2 III-3 III-4 III-5 III-6 IV GIS IV-1 IV-2 (Complement) IV-3 IV-4 V References * 2012.

Apache Ivy

비식별화 기술 활용 안내서-최종수정.indd

PowerPoint 프레젠테이션

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

PowerPoint 프레젠테이션

Intro to Servlet, EJB, JSP, WS

Ç¥Áö

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

PowerPoint 프레젠테이션

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: (LiD) - - * Way to

<B9CCB5F0BEEEB0E6C1A6BFCDB9AEC8AD5F31322D32C8A35FBABBB9AE5FC3CAC6C731BCE25F6F6B5F E687770>

Microsoft PowerPoint - chap01-C언어개요.pptx

Eclipse 와 Firefox 를이용한 Javascript 개발 발표자 : 문경대 11 년 10 월 26 일수요일

분산처리 프레임워크를 활용한대용량 영상 고속분석 시스템

LaTeX. [width=1em]Rlogo.jpg Sublime Text. ..

확률과통계 강의자료-1.hwp

출원국 권 리 구 분 상 태 권리번호 KR 특허 등록

따끈따끈한 한국 Azure 데이터센터 서비스를 활용한 탁월한 데이터 분석 방안 (To be named)

Microsoft PowerPoint - Java7.pptx

3 Gas Champion : MBB : IBM BCS PO : 2 BBc : : /45

슬라이드 1

170918_hjk_datayanolja_v1.0.1.

슬라이드 1

Slide 1

ETL_project_best_practice1.ppt

BMP 파일 처리

소만사 소개

슬라이드 1

DW 개요.PDF

PowerPoint 프레젠테이션

[Brochure] KOR_TunA

빅데이터처리의핵심인 Hadoop 을오라클은어떻게지원하나요? Oracle Big Data Appliance Solution 01 빅데이터처리를위한전문솔루션이 Oracle Big Data Appliance 군요. Oracle Big Data Appliance 와함께라면더이

Oracle Apps Day_SEM

WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성 ( 황수경 ) ꌙ 127 노동정책연구 제 4 권제 2 호 pp.127~148 c 한국노동연구원 WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성황수경 *, (disabi

Ä¡¿ì³»ÁöÃÖÁ¾

046~64


Network Security - Wired Sniffing 실습 ICNS Lab. Kyung Hee University

Microsoft Word - KSR2014S042

빅데이터시대 Self-BI 전략 이혁재이사 비아이씨엔에스

Bigdata가 제공하는 구체적인 혜택과 변화 양상 기업의 데이터 기반의 의사결정 시스템 구축 의지 확대 양상 빅데이터를 활용한 경영 및 마케팅 지속적인 증가세 뚜렷 빅데이터를 도입한 기업은 사전 기대를 뛰어넘는 효과를 경험 본 조사 내용은 美 BARC- Researc

Enterprise Edition, 데이터분석의내일을말하다 지금은모든기업이데이터로부터가치있는통찰력을얻어혁신하기위해노력하는데이터시대입니다. 는이러한시대에기업이보다빠르고쉽게데이터를처리하도록돕는오픈소스기반의데이터통합및분석플랫폼으로, 데이터의통합, 분석, 시각화에이르기까지빅데

PowerPoint Presentation

Spring Boot/JDBC JdbcTemplate/CRUD 예제

ecorp-프로젝트제안서작성실무(양식3)

<31325FB1E8B0E6BCBA2E687770>

02 C h a p t e r Java

Contents Contents 2 1 Abstract 3 2 Infer Checkers Eradicate Infer....

비디오 / 그래픽 아답터 네트워크 만약에 ArcGolbe를 사용하는 경우, 추가적인 디스크 공간 필요. ArcGlobe는 캐시파일을 생성하여 사용 24 비트 그래픽 가속기 Oepn GL 2.0 이상을 지원하는 비디오카드 최소 64 MB 이고 256 MB 이상을 메모리

PowerPoint 프레젠테이션

RED HAT JBoss Data Grid (JDG)? KANGWUK HEO Middleware Solu6on Architect Service Team, Red Hat Korea 1

Oracle9i Real Application Clusters

dbms_snu.PDF

슬라이드 1

PowerPoint 프레젠테이션

PowerPoint Presentation

HTML5* Web Development to the next level HTML5 ~= HTML + CSS + JS API

13 Who am I? R&D, Product Development Manager / Smart Worker Visualization SW SW KAIST Software Engineering Computer Engineering 3

APOGEE Insight_KR_Base_3P11

Microsoft PowerPoint - S4_통계분석시스템.ppt

2017 1

1. 안드로이드개발환경설정 안드로이드개발을위해선툴체인을비롯한다양한소프트웨어패키지가필요합니다 툴체인 (Cross-Compiler) 설치 안드로이드 2.2 프로요부터는소스에기본툴체인이 prebuilt 라는이름으로포함되어있지만, 리눅스 나부트로더 (U-boot)

슬라이드 1

들어가는글 2012년 IT 분야에서최고의관심사는아마도빅데이터일것이다. 관계형데이터진영을대표하는오라클은 2011년 10월개최된 오라클오픈월드 2011 에서오라클빅데이터어플라이언스 (Oracle Big Data Appliance, 이하 BDA) 를출시한다고발표하였다. 이와


기타자료.PDF

1. 자바프로그램기초 및개발환경 2 장 & 3 장. 자바개발도구 충남대학교 컴퓨터공학과

Oracle Database 10g: Self-Managing Database DB TSC

2 PX-8000과 RM-8000/LM-8000등의 관련 제품은 시스템의 간편한 설치와 쉬운 운영에 대한 고급 기술을 제공합니다. 또한 뛰어난 확장성으로 사용자가 요구하는 시스템을 손쉽게 구현할 수 있습니다. 메인컨트롤러인 PX-8000의 BGM입력소스를 8개의 로컬지

PowerPoint Presentation

MPLAB C18 C

클라우드컴퓨팅확산에따른국내경제시사점 클라우드컴퓨팅확산에따른국내경제시사점 * 1) IT,,,, Salesforce.com SaaS (, ), PaaS ( ), IaaS (, IT ), IT, SW ICT, ICT IT ICT,, ICT, *, (TEL)

PowerPoint 프레젠테이션

슬라이드 1

저작자표시 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 이차적저작물을작성할수있습니다. 이저작물을영리목적으로이용할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니

쿠폰형_상품소개서

ORANGE FOR ORACLE V4.0 INSTALLATION GUIDE (Online Upgrade) ORANGE CONFIGURATION ADMIN O

Transcription:

R 전문가로가는길 -- 빅데이터활용바로보기 -- Heewon Jeon (NexR Corp.) - Author/Maintainer of KoNLP package. - Admin of Korea CRAN server

Interactive Data Analysis 레거시데이터분석 컴퓨팅리소스가굉장히비쌌다. 많은입력값많은출력값부담없이여러번수행하기힘듦모든결과를쓰는건아님 현재데이터분석 컴퓨팅리소스가굉장히싸졌다. 어떤분석을수행하든부담이없어짐데이터입력, 변환, 무응답대체, 데이터핸들링, 시각화, 모델링등분석등재반의작업을반복수행하면서알고자하는의문을하나둘씩풀어가는분석이수행가능해짐 역동적인분석에적합한언어 R

일반화된데이터분석과정 데이터핸들링 시각화 모델링

R is an environment for 데이터핸들링 데이터소스에접근하고 데이터핸들링 자르고, 붙이고, 변형하고 모델링 / 시뮬레이션 통계모델 통계시뮬레이션 데이터시각화 일반적인통계시각화시각화모델링 진보되고, 다양한시각화를위한패키지

Why R? R 은공짜다. R 은문서화가잘되어있다. R 은대부분의플랫폼에서잘돌아간다. R 은오픈소스이다. R 은다양한통계패키지를포함하고있다. R 은시각화에강하다. R 은직관적인데이터핸들링을제공한다. R 은복잡한일을처리하기적합하다. R 은재현성을충분히발현할환경을갖추고있다. R 은교과서에나온통계적인용어를그대로사용한다. R 은학생들로하여금프로그래밍을하도록유도한다. R 이배우는데많은시간이걸리지만, 일단학습후에는사용자로하여금다양한분석을할수있는자유로움을준다. R 은빅데이터용분석환경이다. http://robjhyndman.com/researchtips/rvsexcel/

Really R? 개발자도배우기쉽지않은언어 함수형, 절차형언어의혼합 통계용어난무 통계학자도배우기쉽지않은언어 프로그래밍의어려움 자유로운분석추구쉽다.

But R! 해외리서치영역에서는 R 이기본이되었음 Reproducible Research Literate Programming 국내대학에서 R 을가르치기시작 대형벤더에서 R 을인터페이싱함 Oracle, Teradata, SAS, SPSS...

R has simple GUI

RStudio is better

R Package System Total 3,921 Packages 오픈소스라이선스의파워 Fortran, C++, C, Java 등대부분의언어와연동가능한 R 의유연성 리서치영역에서활발한사용

If you want to do twitter analysis. Data Source twitter Data Preprocessing KoNLP Visualization wordcloud 분석방법구상적은시간으로구현 ( 약 30라인 ) 평가 or 리포팅 실제분석가의상상력의한계만있을뿐이며, 어떤분석이든지필요한것대부분은패키지에서커버하고있음

R Packaging System 사용예 - 1

R Packaging System 사용예 - 2

R data structures for DBA - 1

R data structures for DBA - 2

R data structures for DBA - 3

Popularity of R http://flowingdata.com/2010/09/28/poll-results-what-doyou-use-to-analyze-andor-visualize-data/ http://www.kdnuggets.com/polls/2012/analytics-datamining-big-data-software.html

공공데이터를활용한시각화

빅데이터분석에서의 R 의문제점 / 해결책 메모리한계이슈모든데이터를메모리에로딩후처리하는작업방식 ff, bigmemory, RevoScaleR 10GB 이상데이터는처리가능하나너무느리다는단점불필요한데이터저장으로인한메모리부족현상 gc(), rm() 32비트에서표현가능한숫자만이사용, 2^31-1 R 2.15부터 2^51 이상의벡터길이사용가능 No int64 int64 package from Google 메모리단편화 64bit 머신사용더많은메모리 Single Core 이슈멀티코어 CPU에서 1코어만사용한다. R 2.14 부터 parallel 패키지기본탑재 TB급빅데이터는여전히처리하기힘듦

독보적인 Hadoop 기반 Big Data 분석플랫폼 세계적인데이터분석커뮤니티인 Kdnugget 의설문조사 작년에비해 5 배이상빅데이터응답자가늘어났다. 작년에이어 Hadoop 기반의오픈소스플랫폼이 1 위 http://www.kdnuggets.com/polls/2012/analytics-data-mining-big-data-software.html

RHipe RHIPE(R and Hadoop Integrated Processing Environment) 는 Purdue Univ. 의통계학박사과정학생이었던 Saptarshi Guha 에의해개발된 R 라이브러리 R 을 Hadoop 환경에서 MapReduce 개념의분산처리가가능하게해줌 Amazon 의 EC2 에서사용가능함 (http://www.stat.purdue.edu/~sguha /rhipe/doc/html/ec2.html ) 최근에 RHadoop 이라는 Revolution Analytics 에서나온오픈소스패키지출시 Facebook 에서의 R+RHIPE 에대한 Guha s lecture http://www.lecturemaker.com/2011/02/rhipe/

RHive - Hive http://hive.apache.org A data warehouse system for Hadoop Open Source (Apache License) ANSI SQL Support Facebook의 Main Data Warehousing System

RHive Language : R or ANSI-SQL R-Hive Bridge R Export R 기반분산처리 Framework 가장널리사용하는 Analytic Tool CRAN : 4,000+ Rich R library Set 용이한 Library/Procedure 제작다양한 Visualization, IDE 도구 Hadoop 기반분산병렬처리 ANSI SQL : Low Leaning Cost 용이한기능확장 : UDF, UAF > install.package("rhive")

RHive - Demo HDFS interface Hive query interface Map/Reduce Programming with R

RHive - RHive Analytics RHive 위에구현된대용량분산데이터마이닝시스템 Clustering K-means Prediction Multi-variate linear regression Classification tree Sampling random, stratified, cluster, quota, sampling Modeling model parameter tuning feature selection

Data Scientist's way to solve real world problem Raw 포맷은다양하며, 이들을효과적으로처리할수있어야한다. Hive 는분석인원이최적으로운영할수있는정도의컴퓨팅리소스를가져야한다. 최대한많은양의메모리를확보한다. preprocessing for input ETL on Hive R analysis Hive 에입력에맞는포맷으로데이터처리 (using Python or Perl) Aggregate, Filtering 작업혹은샘플링

데이터과학자로서요구되는기술 경험 데이터핸들링능력 (big and small) 컴퓨터공학 통계분석, 시각화, 모델링 통계, 마이닝, 인지심리 데이터시스템활용능력 컴퓨터공학

데이터과학자로서요구되는자질 창의력 : 분석스토리를만드는능력 적극성 : 데이터그리고자신에대한믿음을바탕으로... 커뮤니케이션또는프리젠테이션능력

R 데이터분석가가되기위해서는? R 언어이해 학습 경험혹은연습 통계 / 마이닝능력 통계학 데이터마이닝, 기계학습 시각화 가르쳐주는곳없음 책기반으로독학 / 실습혹은인터넷참고 경험 오픈데이터를이용한분석실습 / 해석 / 호기심필수 데이터마이닝대회를통한노하우습득

마지막한꼭지! 빅데이터가정말도움이되는가?

어떤그래프이길원하시나요?

빅데이터가항상도움이되는건아니다! 빅데이터붐을초래한... We don t have better algorithms. We just have more data. Peter Norvig-- 왜그런가? 많은예측변수는많은데이터를필요로한다. 변수가적 다면? 혹은쓸모없는변수를넣는다면? 결론 큰데이터에적합한접근방법을사용하지않는다면그 데이터는쓰레기밖에되지못한다. 빅데이터를확인하고접근방법을결정하는데이터과학자혹은분석가의역할이무엇보다중요하다.

플랫폼이대체할수없는데이터과학자 데이터과학자 빅데이터플랫폼

빅데이터분석에있어데이터과학자의요구사항 빠르게눈으로직접확인해야될것들이많아졌다. 빠르게다양한포맷의데이터를병합하고쪼개보고꼬 아봐야된다. 빠르게최신의알고리즘부터오래된알고리즘까지적 용가능한지시도해야된다.

Q & A madjakarta@gmail.com http://freesearch.pe.kr