<4D6963726F736F667420506F776572506F696E74202D20B8F9B0EDB5F0BAF15F32B1E220BDC9C8ADB0FAC1A4>

Similar documents

HDFS 맵리듀스

PowerPoint 프레젠테이션

TTA Journal No.157_서체변경.indd

PowerPoint 프레젠테이션

<C0CCBCBCBFB52DC1A4B4EBBFF82DBCAEBBE7B3EDB9AE2D D382E687770>

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

Microsoft PowerPoint - 알고리즘_5주차_1차시.pptx

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx

Oracle9i Real Application Clusters

PowerPoint Presentation

[Brochure] KOR_TunA

빅데이터분산컴퓨팅-5-수정

Microsoft PowerPoint - 04-UDP Programming.ppt

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

PowerPoint 프레젠테이션

졸업작품중간보고서 - 구글 MapReduce 를이용한클라우드컴퓨팅 조중연 서종덕 지도교수님진현욱교수님 ( 인 )

Agenda 오픈소스 트렌드 전망 Red Hat Enterprise Virtualization Red Hat Enterprise Linux OpenStack Platform Open Hybrid Cloud

JMF3_심빈구.PDF

PowerPoint Presentation

PowerPoint 프레젠테이션

API STORE 키발급및 API 사용가이드 Document Information 문서명 : API STORE 언어별 Client 사용가이드작성자 : 작성일 : 업무영역 : 버전 : 1 st Draft. 서브시스템 : 문서번호 : 단계 : Docum

초보자를 위한 분산 캐시 활용 전략

RUCK2015_Gruter_public

소프트웨어 정의 스토리지

RED HAT JBoss Data Grid (JDG)? KANGWUK HEO Middleware Solu6on Architect Service Team, Red Hat Korea 1

SMB_ICMP_UDP(huichang).PDF

Global Bigdata 사용 현황 및 향후 활용 전망 빅데이터 미도입 이유 필요성 못느낌, 분석 가치 판단 불가 향후 투자를 집중할 분야는 보안 모니터링 분야 와 자동화 시스템 분야 빅데이터의 핵심 가치 - 트랜드 예측 과 제품 개선 도움 빅데이터 운영 애로 사항

목차 BUG offline replicator 에서유효하지않은로그를읽을경우비정상종료할수있다... 3 BUG 각 partition 이서로다른 tablespace 를가지고, column type 이 CLOB 이며, 해당 table 을 truncate

Windows Storage Services Adoption And Futures

rmi_박준용_final.PDF

Data structure: Assignment 1 Seung-Hoon Na October 1, Assignment 1 Binary search 주어진 정렬된 입력 파일이 있다고 가정하자. 단, 파일내의 숫자는 공백으로 구 분, file내에 숫자들은

Cloud Friendly System Architecture

신림프로그래머_클린코드.key

Microsoft PowerPoint - 알고리즘_1주차_2차시.pptx

백봉현, 하일규, 안병철 Bong-Hyun Back, Ilkyu Ha, ByoungChul Ahn 1. 서론 최근들어소셜네트워크활성화로 에서발생하는대량의데이터 로부터정보를추출하여이를정치 경제 개인서비 스 연애등다양한분야에활용하고자하는노력이 계속되고있다 상의데이터를빠르게

위세아이텍_iOLAP_

PowerPoint 프레젠테이션

A Hierarchical Approach to Interactive Motion Editing for Human-like Figures

PowerPoint 프레젠테이션

SQL Developer Connect to TimesTen 유니원아이앤씨 DB 기술지원팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 작성자

PowerPoint 프레젠테이션

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

들어가는글 2012년 IT 분야에서최고의관심사는아마도빅데이터일것이다. 관계형데이터진영을대표하는오라클은 2011년 10월개최된 오라클오픈월드 2011 에서오라클빅데이터어플라이언스 (Oracle Big Data Appliance, 이하 BDA) 를출시한다고발표하였다. 이와

Microsoft PowerPoint - 6.pptx

Microsoft PowerPoint - web-part03-ch19-node.js기본.pptx

C# Programming Guide - Types

github_introduction.key

JavaGeneralProgramming.PDF

Interstage5 SOAP서비스 설정 가이드

MS-SQL SERVER 대비 기능

solution map_....

VNX 성능 및 경쟁사 제품 포지셔닝

오픈데크넷서밋_Spark Overview _SK주식회사 이상훈

2 국어 영역(A 형). 다음 대화에서 석기 에게 해 줄 말로 적절한 것은? 세워 역도 꿈나무들을 체계적으로 키우는 일을 할 예정 입니다. 주석 : 석기야, 너 오늘따라 기분이 좋아 보인다. 무슨 좋은 일 있니? 석기 : 응, 드디어 내일 어머니께서 스마트폰 사라고 돈

제이쿼리 (JQuery) 정의 자바스크립트함수를쉽게사용하기위해만든자바스크립트라이브러리. 웹페이지를즉석에서변경하는기능에특화된자바스크립트라이브러리. 사용법 $( 제이쿼리객체 ) 혹은 $( 엘리먼트 ) 참고 ) $() 이기호를제이쿼리래퍼라고한다. 즉, 제이쿼리를호출하는기호

U.Tu System Application DW Service AGENDA 1. 개요 4. 솔루션 모음 1.1. 제안의 배경 및 목적 4.1. 고객정의 DW구축에 필요한 메타정보 생성 1.2. 제품 개요 4.2. 사전 변경 관리 1.3. 제품 특장점 4.3. 부품화형

PowerPoint 프레젠테이션

자바-11장N'1-502

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

Windows Server 8

PowerPoint Template

Transcription:

HDFS, MapReduce 작성자 김성진(황금의미르)

HDFS, MapReduce 문서번호 : HDFS, MapReduce 버전 : 1.0 목차 1. HDFS ----------------- 2 2. MapReduce ----------------- 11 3. 기타 1 2기 심화과정 스터디그룹

1. HDFS 1.1 HDFS는 무엇인가요? 1. HDFS(Hadoop Distributed File System)는 Hadoop에 소속된 프로젝트로 파일 분산 저장기술 중 하나의 아키텍쳐 2. 수대 ~ 수천대의 서버가 클러스터로 구성되어 데이터를 저장할 수 있도록 구현 (야후는 25,000대의 서버가 25Petabyte저장-2010년 발표자료기준) *1PB = 1TB*1024 3. Master, Slave로 구성되며 Master(Name Node)가 메타정보 관리하고 Slave(Data Node)가 실제 데이터를 여러 시스템에 저장 4. JAVA로 개발 5. TCP/IP 프로토콜 사용 6. 웹인터페이스는 50070포트 사용 2 2기 심화과정 스터디그룹

1. HDFS 1.1 HDFS는 무엇인가요? Cluster File System의 종류(http://en.wikipedia.org/wiki/Clustered_file_system) 1. Silicon Graphics (SGI) clustered file system (CXFS) 2. Veritas Cluster File System 3. DataPlow Nasan File System 4. DataPlow SAN File System (SFS) 5. IBM General Parallel File System (GPFS) 6. Microsoft Cluster Shared Volumes (CSV) 7. Oracle Cluster File System (OCFS) 8. PolyServe storage solutions 9. Quantum StorNext FileSystem (SNFS), ex ADIC, ex CentraVision FileSystem (CVFS) 10. Blue Whale Clustered file system (BWFS) 11. Red Hat Global File System (GFS) 12. Sanbolic Melio FS clustered file system 13. Sun QFS 14. TerraScale Technologies TerraFS 15. Tiger Technology metasan clustered file system 16. VMware VMFS 17. Xsan 18. GlusterFS - not strictly a clustered filesystem (storage bricks are not accessed at the block level), but a system for consolidating heterogeneous filesystems into a unique namespace 19.New Dream Network / Open Source Ceph 20.Crowdy Backups [2] 21. For more, see Category:Shared disk file systems or List of file systems, Shared disk file systems section 3 2기 심화과정 스터디그룹

1. HDFS 1.2 HDFS ARCHITECTURE 1. 특징 구분 Data Block Replication Rack Awareness 특징 파일을 블록 단위로 나누어 여러 Datanode에 분산하여 저장하고 각 파일의 기본 정보 및 각 블록들의 위치 정보(메타)를 Name node에서 관리(기본값 : 64MB) Datanode에 장애가 발생하였을 때 데이터가 유실되는 것을 막기 위 해 데이터 블록에 대해서 여러 개의 복제본(Replica)을 유지(기본값 : 3개) 랙 단위의 장애에 대해 최대한 가용성을 높이기 위해 데이터 블록의 복제본을 관리할 때 복제본이 한 군데에 몰려 있지 않도록 관리 복제본 개수가 3인 경우 두 개는 같은 랙의 다른 노드에 저장하고 나 머지 하나는 다른 랙에 있는 노드에 저장 Data Read(Locality) 사용자가 데이터를 읽을 때 먼저 Namenode에 해당 파일 위치 정보 를 요청하고 그 정보를 근거로 Datanode와 통신하여 파일을 읽음 Data Write (Consistency) 먼저 Name node에 해당 파일 쓰기 요청을 하면 Name node에서는 기본적인 유효성 검사를 수행 그후 Name node는 데이터를 저장할 Data node 리스트를 사용자에 게 전달하고 첫번째 Data node에 데이터를 쓰기 시작하고 다른 Data Node에 복 제 데이터를 완료하면 쓰기 작업이 완료 4 2기 심화과정 스터디그룹

1. HDFS 1.2 HDFS ARCHITECTURE 2. 구성 NameNode SecondaryNode Client RACK 1 RACK 2 DataNode01 DataNode02 DataNode03 DataNode04 DataNode05 DataNode06 DataNode07 DataNode08 DataNode09 DataNode10 5 2기 심화과정 스터디그룹

1. HDFS 1.2 HDFS ARCHITECTURE 3. Write 150MB의 파일 저장 (1블록=64MB) Client 1. Write Request 2. Response NameNode SecondaryNode 3. Write Data 5. Write Done RACK 1 RACK 2 DataNode01 DataNode02 DataNode03 DataNode04 DataNode05 1-1 1-2 1-1 1-1 4. Data Replication DataNode06 DataNode07 DataNode08 DataNode09 DataNode10 1-3 1-2 1-3 1-2 1-3 6 2기 심화과정 스터디그룹

1. HDFS 1.2 HDFS ARCHITECTURE 4. Read 150MB의 파일 읽기 (1블록=64MB) Client 1. Read Request 2. Response NameNode SecondaryNode 3. Request Data 4. Read Data RACK 1 RACK 2 DataNode01 DataNode02 DataNode03 DataNode04 DataNode05 1-1 1-2 1-1 1-1 DataNode06 DataNode07 DataNode08 DataNode09 DataNode10 1-3 1-2 1-3 1-2 1-3 7 2기 심화과정 스터디그룹

1. HDFS 1.2 HDFS ARCHITECTURE 5. NameNode -주종관계중주에해당 - 노드 당 하나만 존재 - 메타데이터를 위한 중재자 및 저장소 -NAME SPACE관리 - 클라이언트에 의한 파일 접근 통제 - DataNode의 블록 매핑 판단 - 클라이언트들로부터 읽기와 쓰기 요청을 제공 8 2기 심화과정 스터디그룹

1. HDFS 1.2 HDFS ARCHITECTURE 6. DataNode -주종관계중종에해당 - 노드 당 수개에서 수천까지 존재 가능 - 실질적인 데이터 저장 공간 - NameNode의 지시에 따라 블록의 생성, 삭제, 복제를 수행(기본 64MB) - 계층적 파일 구조로 저장 - NameNode에 주기적으로 블록을 리포트 - Heartbit를 DataNode로 전송(기본 3초) 9 2기 심화과정 스터디그룹

1. HDFS 1.2 HDFS ARCHITECTURE 7. SecondaryNode, Checkpoint & Editlog - NameNode에 문제 발생시 사용 - SecondaryNode는 주기적으로 NameNode에 Checkpoint 요청 (메타정보를 디스크에 파일로 씀:FsImage) => Checkpoint - Editlog는 Checkpoint 사이의 모든 HDFS 트랜잭션을 저장하고 Checkpoint시 마다 Editlog는 Reset - NameNode에 복구시 1. SecondaryNode에서 마지막 Checkpoint 파일 위에 NameNode에 있는 Editlog를 Replat해서 HDFS 최종 상태로 복구 2. Checkpoint나 Editlog에 문제 있으면 복구 불가능 3. Hadoop 2,0에서는 NameNode 다중화 10 2기 심화과정 스터디그룹

1. HDFS 1.2 HDFS ARCHITECTURE 8. Command -cat -chgrp -chmod -chown - copyfromlocal - copytolocal - count -cp -du -dus - expunge -get -getmerge -ls -사용예 hadoop fs ls / hadoop fs mkdir /data hadoop fs put /test/abc.txt /data -lsr -mkdir - movefromlocal - movetolocal -mv -put -rm -rmr -setrep -stat -tail -test -text -touchz 11 2기 심화과정 스터디그룹

2. MapReduce 2.1 MapReduce는 무엇인가요? 1. MapReduce는 구글에서 2004년 발표한 분산 병렬처리를 위한 프레임워크 2. Petabyte이상의 대용량 데이터를 신뢰할 수 없는 컴퓨터로 구성된 클러스터 환경에서 병렬처리 하기 위해 개발 3. 함수형 프로그램밍에서 사용되는 Map과 Reduce 함수가 기반으로 주로 구성 4. Map()함수는 대량입력을 받아서 작은 단위로 분할한 후 다른 프로세스에 전달 5. Reduce()함수는 Map()함수의 개별 웅답을 하나의 최종출력으로 작성하는 역할 구글 맵리듀스 스택과 이에 대응하는 하둡 프로젝트 12 2기 심화과정 스터디그룹

2. MapReduce 2.1 MapReduce는 무엇인가요? Key Value 1. 쪼개기: 전체 문서를 작은 단위로 나눈다 2. 계산하기: 나누어진 하나의 단위에서 단어의 갯수를 센다 3. 합치기: 각각의 계산을 summarize한다. 13 2기 심화과정 스터디그룹

2. MapReduce 2.1 MapReduce는 무엇인가요? 제목 : 삼성 노조, '불법도청 의혹' 이건희 회장 고소 내용 : 삼성일반노동조합은 19일 노조원들에 대한 불법 도 감청을 지시한 혐의(통신비밀보호법 위반 등)로 이건희 삼성전자 회장과 김순택 전 미래전략실장 등 9명을 서울중앙지검에 고소했다. 삼성노조는 고소장을 통해 "삼성 그룹 전략실의 지시를 받고 전국 각 지역대책협의회에서 노조원들에 대해 미행 감시와 도 감청한 사실이 확인됐다"며 "1990년대부터 최근까지 수백 건으로 추산된다"고 주장했다. 삼성노조는 삼성SDI에서 근무한 최모 인사 차장으로부터 노조 관계자들에 대한 도 감청 사실을 확인했다. 최 차장은 김 전 실장이 삼성SDI 대표이사로 근무한 2009년까지 이런 도청이 이뤄졌다고 인정했다. 노조는 또 "무노조 경영을 위해 언론사와 행정관청, 경찰서, 국정원에 정기적인 뇌물을 주면서 정보를 입수했다"며 "불법적인 무노조 노동자탄압을 은폐하고 심지어 해고 구속하기 위해 향응을 제공하며 로비를 했다"고 의혹을 제기했다." 결과 ----------------------- 노조 7 삼성 5 고소 5 노조원 4 뇌물을 1 불법적인 1 감청 1 미래전략실장 1 경영 1......... ----------------------- ------------------------ 노조 7 => 부정적 삼성 5 => 긍정적 고소 5 => 부정적 노조원 4 => 부정적 뇌물을 1 => 부정적 불법적인 1 => 부정적 감청 1 => 부정적 미래전략실장 1 => 긍정적 경영 1 => 긍정적 ------------------------ 14 2기 심화과정 스터디그룹

2. MapReduce 2.1 MapReduce는 무엇인가요? map() 샘플 public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{ private final static IntWritable one = new IntWritable(1); public void map(longwritable key, Text value, Context context) throws IOException, InterruptedException { StringTokenizer itr = new StringTokenizer(value.toString()); while (itr.hasmoretokens()) { context.write(new Text(itr.nextToken()), one); } } } reduce() 샘플 public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> { private IntWritable result = new IntWritable(); public void reduce(text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } result.set(sum); context.write(key, result); } } 15 2기 심화과정 스터디그룹

2. MapReduce 2.1 MapReduce는 무엇인가요? Worker Node 1 Task Tracker Problem data Map Worker Node 2 Task Tracker Solution data Master Node Job Tracker Reduce Worker Node 3 Task Tracker.. Worker Node n Task Tracker 16 2기 심화과정 스터디그룹

2. MapReduce 2.1 MapReduce는 무엇인가요? 1. 준비 과정에서 데이터를 확보하고 사용자가 자신의 목적 에 따라 Mapper와 Reducer를 구현한 jar 파일을 준비한 후 데이터를 HDFS에 로드 (64MB 청크 단위로 분산되어 저장) 하게 되는 과정이 선행된다. 2. 이후 분산처리 수행을 위해 해당 jar 파일을 실행하면 - job tracker가 mapper를 각 task tracker로 배분 - task tracker는 자신이 보유한 데이터 청크를 대상으로 map 작업을 수행 - 중간 결과는 로컬 스토리지에 저장 (partitioned, sorted) - 중간 결과를 reducer의 입력으로 전달 - task tracker가 reducer를 수행 -reducer 실행후결과저장 17 2기 심화과정 스터디그룹

3. 기타 3.1 하둡 서브프로젝트 리스트 1. Hadoop-Core : 분산 파일시스템(HDFS)와 맵리듀스 및 기타 I/O을 제공하는 기본 요소 2. Avro : 최근 공식 서브프로젝트로 승인됨. 외부 모듈과의 RPC를 지원하거나 외부 스토리지와 입/출력을 지원하기 위한 직렬화 기능 제공 3. Zookeeper : 분산 환경에서 노드들 간의 정보 공유, 락, 이벤트 등 보조 기능을 제공 4. Pig : 스크립트를 통해서 맵리듀스 기능을 수행하는 환경 제공 5. HBase : 분산환경 기반의 컬럼 기반 데이터베이스로, [Key-Value] 쌍을 저장 및 조회하는 기능 제공. 자체 문법의 쿼리를 지원 6. Hive : 대량의 데이터에 대한 집계, 질의, 분석 쉽게 하는 데이터웨어하우스 용 기능 제공, SQL-like 쿼리 지원 7. Oozie : 워크플로우를 관리 8. CloudBase : 맵리듀스 기반 유사 RDB 18 2기 심화과정 스터디그룹

3. 기타 3.2 하둡을 활용한 응용분야 대규모 글로벌 서비스를 위해 대규모 데이터처리가 필요한 구글, 야후, SNS 페이스북, 트위터 등을 중심으로 사용 기업이 늘어나고 있고 인터넷서비스 분야를 기본으로 비즈니스 인텔리전스, 바이오인포매틱스, 과학 계산 등 그 응용분야가 확장되고 있다 1. 인터넷 소매업: 보완 상품 추천, 유통 채널 분석, 판촉 이벤트 분석 2. 금융 서비스업: 규정 준수 및 규제 보고, 위험 분석 및 관리, 사기 탐지 및 보안 분석, CRM 및 고객 충성도 프로그램, 신용 측정 과 분석, 무역 감시 3. 정부기관: 사기탐지 및 사이버보안, 규정준수 및 규제분석, 에너지 소비와 탄소배출 관리 4. 의료 및 생명과학 분야: 캠페인 및 판매 프로그램 최적화, 브랜드 관리, 환자 진료의 품질과 프로그램 분석, 공급망 관리, 신약 발견 및 개발 분석 5. 소매업/포장재소매업: 판촉과 시장바구니 분석, 캠페인 관리와 고객 충성도 프로그램, 공급망 관리와 분석, 판매 이벤트 및 행태기반 타게팅, 시장/고객 세분화 6. 통신업: 매출 보장 및 가격 최적화, 고객 이탈 방지, 캠페인 관리와 고객 충성도, 통화 상세 레코드 분석, 네트워크 성능분석과 최적화 7. 웹 및 디지털 미디어 서비스업: 광고 타게팅과 최적화, 클릭수 과장/속이기 방지, 소셜 그래프 분석 및 프로파일 세분화, 캠페인 관리 및 충성도 프로그램 19 2기 심화과정 스터디그룹

End Of Document 20 2기 심화과정 스터디그룹