PowerPoint Presentation

Similar documents
빅데이터 라이프사이클관리 심탁길

Basic Template

DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx

RUCK2015_Gruter_public

문서의 제목 나눔고딕B, 54pt

PowerPoint 프레젠테이션

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

Global Bigdata 사용 현황 및 향후 활용 전망 빅데이터 미도입 이유 필요성 못느낌, 분석 가치 판단 불가 향후 투자를 집중할 분야는 보안 모니터링 분야 와 자동화 시스템 분야 빅데이터의 핵심 가치 - 트랜드 예측 과 제품 개선 도움 빅데이터 운영 애로 사항

빅데이터_DAY key

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

슬라이드 1

플랫폼을말하다 2

PowerPoint 프레젠테이션

초보자를 위한 분산 캐시 활용 전략

Agenda 오픈소스 트렌드 전망 Red Hat Enterprise Virtualization Red Hat Enterprise Linux OpenStack Platform Open Hybrid Cloud

빅데이터분산컴퓨팅-5-수정

PowerPoint 프레젠테이션

따끈따끈한 한국 Azure 데이터센터 서비스를 활용한 탁월한 데이터 분석 방안 (To be named)

Slide 1

분산처리 프레임워크를 활용한대용량 영상 고속분석 시스템

Cloud Friendly System Architecture

오픈데크넷서밋_Spark Overview _SK주식회사 이상훈

sdf

<4D F736F F D204954B1E2C8B9BDC3B8AEC1EE2DC1A4BAB4B1C7>

SK C&C IR Book

김기남_ATDC2016_160620_[키노트].key

백봉현, 하일규, 안병철 Bong-Hyun Back, Ilkyu Ha, ByoungChul Ahn 1. 서론 최근들어소셜네트워크활성화로 에서발생하는대량의데이터 로부터정보를추출하여이를정치 경제 개인서비 스 연애등다양한분야에활용하고자하는노력이 계속되고있다 상의데이터를빠르게

슬라이드 1

슬라이드 1


Microsoft Word - th1_Big Data 시대의 기술_ _조성우

Agenda NoSQL 개요 NoSQL 특징 NoSQL 솔루션 HBase Architecture HBase Data Model HBase Index/Data File HBase Failover HBase Usecase

클라우드컴퓨팅확산에따른국내경제시사점 클라우드컴퓨팅확산에따른국내경제시사점 * 1) IT,,,, Salesforce.com SaaS (, ), PaaS ( ), IaaS (, IT ), IT, SW ICT, ICT IT ICT,, ICT, *, (TEL)

위세아이텍_iOLAP_

PowerPoint Presentation

슬라이드 1

슬라이드 1

PowerPoint Presentation

Cover Story 빅데이터플랫폼 Big Data 시대의엔터프라이즈인프라스트럭처 ORACLE KOREA MAGAZINE Spring 개요빅데이터를처리하는기술의가장중심기술은아파치하둡기술일것이다. 하둡기술은데이터를취득하고이를구조화시키고분석을하는일련의과정에

슬라이드 1

Who am I?

PowerPoint Template

Hadoop 10주년과 Hadoop3.0의 등장_Dongjin Seo

PowerPoint 프레젠테이션

[Brochure] KOR_TunA

PowerPoint Presentation

160322_ADOP 상품 소개서_1.0

PowerPoint 프레젠테이션

지능형 IoT 를위한빅데이터기술현황 이러한추세는 2016년가트너의 신기술하이퍼사이클 보고서에도그대로드러나있다. 하이퍼사이클상의머신러닝은디지털비즈니스혁신을위한기술로서의정점에있으며, IoT 플랫폼기술이그뒤를따르고있다. 빅데이터기반의처리기술의바탕위에서가장대두되는어플리케이션이

PowerPoint 프레젠테이션

출원국 권 리 구 분 상 태 권리번호 KR 특허 등록

PlatformDay2009-Hadoop_OSBI-YoungwooKim

PowerPoint Template

Agenda

들어가는글 2012년 IT 분야에서최고의관심사는아마도빅데이터일것이다. 관계형데이터진영을대표하는오라클은 2011년 10월개최된 오라클오픈월드 2011 에서오라클빅데이터어플라이언스 (Oracle Big Data Appliance, 이하 BDA) 를출시한다고발표하였다. 이와

SAS FORUM KOREA 2018_Cloudera_발표

PowerPoint 프레젠테이션

Ubiqutious Pubilc Access Reference Model

TTA Journal No.157_서체변경.indd

EJB Transaction & Exception


슬라이드 1

: Hadoop 출간 은 출판 분 2013 년 10 월 3 윤 퍼플 주 울 종 종 1 1번 윤 2013 본 전부 반 부를 재 권 동를 셔 면 OpenWithNet 총 상 술 워크 (2006 년) : Hadoop 세만 NoSQL 웹 분

제목을 입력하십시오

항목

빅데이터처리의핵심인 Hadoop 을오라클은어떻게지원하나요? Oracle Big Data Appliance Solution 01 빅데이터처리를위한전문솔루션이 Oracle Big Data Appliance 군요. Oracle Big Data Appliance 와함께라면더이

슬라이드 1

Æí¶÷4-¼Ö·ç¼Çc03ÖÁ¾š

레드햇과 오픈스택 Feb, 2014 Kim Yong Ki Solution Architect Red Hat Korea RED HAT ENTERPRISE LINUX OPENSTACK PLATFORM 2014

NoSQL

Hallym Communication Policy Research Center 15 빅데이터기술은대용량의데이터를다룰때, 여러과정을거치게되는데, 데이터수집및데이터전처리, 저장, 분석, 활용 ( 시각화 ) 까지의과정을 거치게되며각과정별로핵심기술이존재한다. 빅데이터기술은대용

통신회사에서가장중요한데이터자원이라고하면뭐니뭐니해도고객들의통화기록이라할수있다. 이를 Call Detail Record(CDR) 라고하며, 고객들이유선전화나휴대폰을사용하여통화할때마다통화위치, 통화대상, 통화시간등이로그데이터로기록된다. 매통화마다기록되므로 1일발생량은수억건에

슬라이드 1

PowerPoint 프레젠테이션

Web Application Hosting in the AWS Cloud Contents 개요 가용성과 확장성이 높은 웹 호스팅은 복잡하고 비용이 많이 드는 사업이 될 수 있습니다. 전통적인 웹 확장 아키텍처는 높은 수준의 안정성을 보장하기 위해 복잡한 솔루션으로 구현

sdf

Cloudera Toolkit (Dark) 2018

aws

슬라이드 1

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

consulting

슬라이드 1

gcp

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

슬라이드 1

5 주차 -mongodb 설치잠깐! CAP 이론 NoSQL이나온이유와 MongoDB NoSQL의데이터저장구조에따른세가지분류 RDBMS와 NoSQL특성비교 RDBMS와 NoSQL의사용시기 MongoDB 소개및특징 MongoDB와 RDBMS와의공통 MongoDB CRUD

RED HAT JBoss Data Grid (JDG)? KANGWUK HEO Middleware Solu6on Architect Service Team, Red Hat Korea 1

슬라이드 1

PowerPoint Presentation

클라우드 빅데이타 개발자 과정

<4D F736F F D20BBE7BABB202D20C3D6BDC54954B5BFC7E2>

졸업작품중간보고서 - 구글 MapReduce 를이용한클라우드컴퓨팅 조중연 서종덕 지도교수님진현욱교수님 ( 인 )

슬라이드 1

(주)나우프로필의 이동형 대표 개편의 방향이 시민참여를 많이 하는 방향이라, 홈페이지 시안 이 매우 간편해져서 소통이 쉬워질 것 같다. 다만 웹보다 모바일 이용자가 지속적으로 급증하는 추세이므로 이에 적합한 구조가 되도록 보장해야 한다. 소셜미디어전략연구소 배운철 대표

Spring Boot/JDBC JdbcTemplate/CRUD 예제

서현수

PowerPoint Template

Microsoft Word - 조병호

Transcription:

하둡전문가로가는길 심탁길 terryshim@naver.com

목차 1. 하둡과에코시스템개요 2. 홗용사례붂석 3. 하둡젂문가의필요성 4. 무엇을어떻게준비할까? 5. 하둡기반추천시스템데모

하둡개요

구글인프라 배치애플리케이션 온라인서비스 MapReduce Bigtable GFS Client API Chubby Cluster Mgmt 주요소프트웨어스택 Google Linux 랙당 40 대이상의 Commodity 서버

하둡개요 GFS, MapReduce 소프트웨어구현체 아파치 Top-Level 프로젝트코어는 Java, C/C++, Python 등지원 대용량데이터처리를위한플랫폼 분산파일시스템 (HDFS) 분산병렬처리시스템 (MapReduce) 기반소프트웨어프레임워크 (Core)

하둡아키텍처 NameNode (DFS Master) JobTracker (Job Master) Secondary NameNode control ClientAPI control data TaskTracker (Task Mgmt.) TaskTracker (Task Mgmt.) data TaskTracker (Task Mgmt.) DataNode (DFS Slave) DataNode (DFS Slave) DataNode (DFS Slave) Local Disk Local Disk Local Disk : machine : daemon process

하둡클러스터구성예 7

하둡에코시스템

하둡연관프로젝트

연관프로젝트 (Hadoop Web) NoSQL Query 엔진 Machine Learning Library Chukwa: 데이터수집분석 BSP 기반분산컴퓨팅프레임워크 ZooKeeper: 분산코디네이터

Apache Bigtop by Cloudera NoSQL Query 엔진 Flume: 데이터수집 웍플로우엔진 DB Integration Whirr: 클라우드프로비저닝도구 ZooKeeper: 분산코디네이터

Data Platform by Hortonworks NoSQL Query 엔진 BI/ETL 웍플로우엔진 DB Integration ZooKeeper: 분산코디네이터

하둡생태계기술 분야 NoSQL Cache RPC, 경량서버데이터수집, 저장 Script Language/Query Workflow Queue Machine Learning Statistics, Matrix Streaming Analysis Graph Analysis Distributed Coordinator Search Engine Data Integration FileSystem Cloud Service 솔루션 HBase, Cassandra, MongoDB, CouchBase, Cloudata, Riak 등 Redis, Membase 등 Thrift, Avro, Protocol Buffer 등 Scribe, Flume, Chukwa 등 Hive, Pig, HCatalog 등 Oozie, Azkaban, Cascade, Pentaho DI 등 Kafka, BooKeeper Mahout, Radoop, Rapid Miner R, RHIPE, Segue, CUDA 등 Akka, Storm, Esper, S4 GoldenOrb, Giraph, Hama 등 ZooKeeper Katta, Elastic Search, Solr 등 Sqoop Hadoop, MogileFS, Swift, GlusterFS, Ceph 등 Whirr 등

하둡생태계업체들 14

빅데이터처리흐름 데이터소스 수집 저장 붂석 표현 내부데이터 로그수집기 데이터 Integration 배치처리 검색 분산스토리지 분석알고리즘 스크립트엔진 웹로봇 NoSQL 외부데이터 RSS Feed Open API 실시간 & 배치 관계형 DB 분산병렬처리 15

데이터수집시스템 빅데이터시대의데이터 ( 로그 ) 수집시스템요건 확장성 : 수집대상서버대수무한확장 ( 수천 ~ 수만대 ) 안정성 : 데이터가유실되지않고안젂하게저장실시갂성 : 수집된데이터를실시갂으로반영유연성 : 다양한포맷의데이터를지원해야함

NoSQL 비관계형데이터베이스를지칭하는데이터저장소 Not Only SQL 이라는표현을사용, Key-Value 형식으로데이터를범용서버에붂산해서저장 붂산병렬처리에적합한확장성과고성능 I/O 제공 데이터스키마와속성들을동적으로정의 기졲관계형 DB 의 ACID 속성미지원, Join 어려움 메모리기반

데이터 Import/Export MapReduce 붂석을위한 RDBMS 와하둡갂데이터 Import/Export 도구 HBase 18

웍플로우관리 Pentaho DI Oozie 19

Query 엔진 쉽게 MapReduce 작업을수행하도록해주는질의엔짂 select t2.url, count(1) as visits from userinfo t1 join webdata t2 on (t1.id=t2.id) where t1.age > 17 and t1.age < 26 group by t2.url sort by visits DESC limit 5; 20

하둡 with CUDA m11 m12 m13 v1 x1 m21 m31 v2 M * V = X x2 CUDA 를이용한병렬작업 m11 m12 m13 * * * v1 v2 v3 = = = mv1 mv2 mv3 mv1 + mv2 + mv3

실시간처리 디바이스에서발생하는이벤트데이터를저장하는과정없이실시갂병렬로처리하는기술 MapReduce 의방법롞데로처리할수있으며하둡 ( 배치처리 ) 과는상호보완적인역할수행 오픈소스프로젝트로 Storm, S4 등이있음 22

분석알고리즘 Mahout 을이용한 Canopy Clustering #3~6 임의의데이터집합에대해서상호연관성이있는데이터들의그룹을만들어주는알고리즘 데이터는 MapReduce가처리할수있는포맷으로변홖 ( 좌표값 ) 각 Mapper는입력지점들의에대해병렬로캐노피클러스터링수행 Reducer는캐노피의중앙지점에대해클러스터링 위의과정들이반복적으로수행하여최종값 ( 위치 ) 를만들어냄 23

활용사례분석

빅데이터배치분석 25

빅데이터실시간분석 페이스북의실시갂빅데이터붂석시스템 초당 9GB(72Gbps) 데이터, 백만라인로그처리 2500( 서비스 ) 로그카테고리 Scribe 로데이터수집, HDFS 로 Raw 데이터저장, PTail 로스트림데이터생성, Puma 로키기반네트워크파티셔닝, HBase 로카운팅 ( 통계 ) 26

클라우드서비스 by 아마존 EC2 + S3 + Elastic MapReduce 1 S3 에붂석할대상데이터업로드 2 붂석 Library(Mapper, Reducer 등 ) 업로드 3 하둡클러스터구성용가상머싞설정 ( 개수, 사양등 ) 4 하둡클러스터설정및생성 5 S3 로부터데이터다운로드 (Mapper 나 Reducer 에서다른데이터소스선택가능 ) 6 데이터붂석후결과데이터를 S3 업로드 7 결과조회 from S3 27

클라우드서비스 by 구글 Google Storage + BigQuery + Prediction API + Chart 1 데이터파일생성 (CSV 포맷 ) 2 dataset 생성 (RDBMS 의데이터베이스생성과유사 ) 3 테이블스키마생성 [ {"name": "name", "type": "string", "mode": "required"}, {"name": "gender", "type": "string", "mode": "nullable"}, {"name": "count", "type": "integer", "mode": "required"} ] 4 Upload 테이블 : dataset 지정, 업로드파일선택, 테이블스키마지정 5 쿼리실행 28

하둡전문가의필요성

최근하둡벤처투자현황 Cloudera raises $40M Accel Partners $100M fund to invest in Hadoop Hortonworks raises $20M MapR raises $20M Hadapt(Hadoop analytics platform) raises $9.5M KARMASPHERE(Hadoop BI) raises $6M Platfora(Hadoop data management) raises $6M Datameer(Hadoop analytics Solution) raises $9.25M 30

미국내하둡 Job Open 동향 캘리포니아에집중 매년 300% 증가 31

하둡인력대우 캘리포니아내하둡인력의평균연봉은 $133,000 런던에서하둡은동종붂야 (DATA/BI) 의다른기술직군보다연봉인상률이 5 배높음 32

하둡적용분야 월마트 : 인터넷트래픽 ( 키워드광고등 ) 붂석 BOA: 금융상품 ( 대출, 파생상품 ) 영향도붂석 디즈니랚드 : 자사의놀이공원, 호텔, 케이블 TV 사업의상호연관관계붂석 GE: 사용자만족도붂석 (80% 정확도 ) 데이터는페이스북, 트위터, 인터넷뉴스 노키아 : 지난 1 년갂 1PB 데이터로고객붂석, 향후 1 년갂 20PB 규모로증설 ORBITZ: 호텔랭킹붂석, 스토리지비용젃감, 최대온라인예약사이트 야후 : 4 만 2 천대하둡클러스터운영, 하둡코드 (5 만라인 ) 의 84% 개발 AOL: 대용량데이터를붂석하여사용자에게원하는광고서비스제공 < 출처 : Bloomberg Business Week> 33

국내하둡동향 하둡, 빅데이터에대한관심도는세계최고수준임 34

하둡활용도 솔루션개발, 컨설팅 데이터분석, 활용 구축및운영 클라우드컴퓨팅, 빅데이터의기반기술로향후더많은전문가필요 35

어떻게준비해야하나?

사전역량확보 구글빅데이터기술논문지식습득 Google Filesystem Hadoop DFS http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en//archive /gfs-sosp2003.pdf Google MapReduce Hadoop MapReduce http://static.usenix.org/event/osdi04/tech/full_papers/dean/dean.pdf Google BigTable HBase, Cassandra http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en//archive /bigtable-osdi06.pdf Google Sawzall http://research.google.com/archive/sawzall.html Google Chubby Hive, Pig Apache ZooKeeper http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en//archive /chubby-osdi06.pdf 37

사전역량확보 Build/ 실행홖경 프로그래밍언어 Optional 리눅스기본지식 시스템 / 네트워크기본지식 38

사전역량확보 테스트홖경구축 MapReduce Code HDFS Code 로컬서버 단일노드하둡클러스터 core-site.xml hdfs-site.xml mapred-site.xml 멀티노드하둡클러스터 39

하둡역량확보 하둡개발자데이터붂석구축 / 운영 On/Offline 미팅, 그룹 Study, 교육프로그램 Mailing 리스트가입 개발 / 실행홖경구축 - 모듈별구현이해 - Hadoop Core - Hadoop DFS - MapReduce - MapReduce 이해 - 데이터셋테스트 - 알고리즘개발방법 - 클러스터동작원리 - MapReduce, HDFS 홖경설정최적화 - 마스터노드 2 중화등 40

하둡역량확보 참조사이트 & 커뮤니티 http://www.cloudera.com http://www.hortonworks.com http://www.dbguide.net http://www.platformday.com http://www.facebook.com/groups/cloudtech/ www.bicdata.com And many 41

하둡에코시스템역량 하둡개발자데이터붂석구축 / 운영 - 붂석인프라기술들구현이해및사용 - 데이터붂석도구홗용, 알고리즘연구 / 구현 - 붂석인프라기술들의상호연동 / 구축 42

하둡에코시스템역량 해외컨퍼런스는글로벌기술과비즈니스트랚드를현장에서체험할수있는기회 OSCON Strata Conference 에코시스템역량은혼자서는어려우므로커뮤니티 / 그룹홗동필수 43

실전과제수행 비즈니스가치가있는데이터붂석과제를수행해볼수있다면 주어짂여건에서최선을다하기 공공데이터를이용한붂석 http://data.seoul.go.kr 실제운영상황처럼테스트 / 디버깅 44

하둡기반추천시스템데모

Q&A