백서 EMC ISILON 스케일아웃 NAS 기반의 HADOOP 구축 요약 이백서에서는 EMC Isilon 스케일아웃 NAS 를활용하여기업의 Hadoop 데이터분석워크플로우를지원하는방법을자세히설명합니다. 또한관련된핵심아키텍처구성요소를소개하고기업에서진화하는빅데이터분석워크플

Similar documents
아이콘의 정의 본 사용자 설명서에서는 다음 아이콘을 사용합니다. 참고 참고는 발생할 수 있는 상황에 대처하는 방법을 알려 주거나 다른 기능과 함께 작동하는 방법에 대한 요령을 제공합니다. 상표 Brother 로고는 Brother Industries, Ltd.의 등록 상

EMC Isilon NL 시리즈

SANsymphony-V

EMC Isilon X 시리즈

vRealize Automation용 VMware Remote Console - VMware

[Brochure] KOR_TunA

Copyright 2014 EMC Corporation. All Rights Reserved. 본문서의정보는발행일현재정확한것으로간주되며모든정보는예고 없이변경될수있습니다. 본문서의정보는 있는그대로 제공됩니다. EMC Corporation은본문서의정보와관련하여어떠한진술이나

810 & 는 소기업 및 지사 애 플리케이션용으로 설계되었으며, 독립 실행형 장치로 구성하거 나 HA(고가용성)로 구성할 수 있습니다. 810은 표준 운영 체제를 실행하는 범용 서버에 비해 가격 프리미엄이 거의 또는 전혀 없기 때문에 화이트박스 장벽 을

OneFS 운영체제 : EMC Isilon 스케일아웃스토리지솔루션의핵심 EMC Isilon OneFS 운영체제는모든 Isilon 스케일아웃스토리지솔루션의핵심입니다. OneFS 와첨단엔지니어링, 엔터프라이즈산업표준하드웨어가유기적으로결합된 EMC Isilon 은뛰어난확장성

s

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

항목

s

Office 365, FastTrack 4 FastTrack. Tony Striefel FastTrack FastTrack

경우 1) 80GB( 원본 ) => 2TB( 복사본 ), 원본 80GB 는 MBR 로디스크초기화하고 NTFS 로포맷한경우 복사본 HDD 도 MBR 로디스크초기화되고 80GB 만큼포맷되고나머지영역 (80GB~ 나머지부분 ) 은할당되지않음 으로나온다. A. Window P

라우터

Storage_for_Megapixel_Video01

Cisco FirePOWER 호환성 가이드

User Guide

1,000 AP 20,000 ZoneDirector IT 5, WLAN. ZoneFlex AP ZoneDirector. WLAN. WLAN AP,,,,,,., Wi-Fi. AP. PSK PC. VLAN WLAN.. ZoneDirector 5000 WLAN L

RHEV 2.2 인증서 만료 확인 및 갱신

EMC Isilon 스케일 아웃 스토리지 제품군

4th-KOR-SANGFOR HCI(CC)

View Licenses and Services (customer)


Windows 8에서 BioStar 1 설치하기

Microsoft Word - release note-VRRP_Korean.doc

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

Microsoft Word - windows server 2003 수동설치_non pro support_.doc

Hitachi Content Platform 클라우드 & 소프트웨어정의클라우드오브젝트플랫폼 Hitachi Content Platform Hitachi Data Ingestor Hitachi Content Platform Anywhere REVISION NO

6. 설치가시작되는동안 USB 드라이버가자동으로로드됩니다. USB 드라이버가성공적으로로드되면 Setup is starting( 설치가시작되는중 )... 화면이표시됩니다. 7. 화면지침에따라 Windows 7 설치를완료합니다. 방법 2: 수정된 Windows 7 ISO

Cloud Friendly System Architecture

Microsoft Word - wiseCLOUD_v2.4_InstallGuide.docx

2 노드

koreanhalf.indd

Dell EMC XtremIO X2: 차세대 올 플래시 스토리지

ThinkVantage Fingerprint Software

PowerPoint Presentation

MF Driver Installation Guide

오브젝트 스토리지를 통한 검색의 신속 정확성 확보 HDS는 계속 증가하고 장기간 존속하는 고정 콘텐츠 관리를 위 해 실제 검증을 마친 수단으로서 오브젝트 스토리지 솔루션 에 주목하고 있다. 그 가장 기본적인 레벨로서 오브젝트 스토리지 기기는 오브젝트의 스토리지를 관리하

상호연결 업계표준 RapidIO Fabric Virtual Matrix Architecture 는다른표준접속구성으로 확장이가능합니다. 접속구성 Symmetrix VMAX 10K 시스템은최대 64개의프런트엔드포트로최대 4개의 VMAX 10K 엔진을지원하도록구성할수있습니다

PowerPoint 프레젠테이션

상호연결 업계표준 RapidIO Fabric - Virtual Matrix Architecture 는다른표준접속구성으로 확장이가능합니다. 접속구성 VMAX 10K 시스템은최대 64 개의프런트엔드포트로최대 4개의 VMAX 10K 엔진을지원하도록구성할수있습니다. 최적화된하

© Rohde & Schwarz; R&S®CDS Campus Dashboard Software

Samsung SDS Enterprise Cloud Networking CDN Load Balancer WAN

슬라이드 1

PowerPoint Presentation

Install stm32cubemx and st-link utility

Microsoft SQL Server 그림 1, 2, 3은 Microsoft SQL Server 데이터베이스소프트웨어의대표적인멀티플렉싱시나리오와라이선싱요구사항을나타냅니다. ( 참고 : Windows Server와 Exchange Server CAL 요구사항은해당서버에대

IRISCard Anywhere 5

사용설명서를 읽기 전에 안드로이드(Android)용 아이디스 모바일은 네트워크 연결을 통해 안드로이드 플랫폼 기반의 모바일 기기에서 장치 (DVR, NVR, 네트워크 비디오 서버, 네트워크 카메라) 에 접속하여 원격으로 영상을 감시할 수 있는 프로그램입니다. 장치의 사

네이버블로그 :: 포스트내용 Print VMw are 에서 Linux 설치하기 (Centos 6.3, 리눅스 ) Linux 2013/02/23 22:52 /carrena/ VMware 에서 l

사용설명서를 읽기 전에 ios용 아이디스 모바일은 네트워크 연결을 통해 ios 플랫폼 기반의 모바일 기기(iOS 버전 6.0 이상의 ipod Touch, iphone 또는 ipad)에서 장치(DVR, 네트워크 비디오 서버 및 네트워크 카메라)에 접속하여 원격으로 영상을

Microsoft Word - zfs-storage-family_ko.doc

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

소개 Mac OS X (10.9, 10.10, 10.11, 10.12) 와 OKI 프린터호환성 Mac OS X 를사용하는 PC 에 OKI 프린터및복합기 (MFP) 제품을연결하여사용할때, 최고의성능을발휘할수있도록하는것이 OKI 의목 표입니다. 아래의문서는 OKI 프린터및

SIGIL 완벽입문

소프트웨어 정의 스토리지

PowerPoint 프레젠테이션

상호접속 업계표준 RapidIO Fabric Virtual Matrix Architecture 는다른표준접속구성으로확장 이가능합니다. 접속구성 Symmetrix VMAX 10K 시스템은최대 64개의프런트엔드포트로최대 4개의 VMAX 10K 엔진을지원하도록구성할수있습니다

쓰리 핸드(삼침) 요일 및 2405 요일 시간, 및 요일 설정 1. 용두를 2의 위치로 당기고 반시계방향으로 돌려 전날로 를 설정합니다. 2. 용두를 시계방향으로 돌려 전날로 요일을 설정합니다. 3. 용두를 3의 위치로 당기고 오늘 와 요일이 표시될 때까지 시계방향으로

들어가는글 2012년 IT 분야에서최고의관심사는아마도빅데이터일것이다. 관계형데이터진영을대표하는오라클은 2011년 10월개최된 오라클오픈월드 2011 에서오라클빅데이터어플라이언스 (Oracle Big Data Appliance, 이하 BDA) 를출시한다고발표하였다. 이와

01

Operating Instructions

H3250_Wi-Fi_E.book

열거형 교차형 전개형 상승형 외주형 회전형 도해패턴 계층형 구분형 확산형 합류형 대비형 상관형 (C) 2010, BENESO All Rights Reserved 2

<4D F736F F D FC0E7C7D8BAB9B1B8C0C720B0E8C8B9B0FA20C5D7BDBAC6AE2E646F63>

U.Tu System Application DW Service AGENDA 1. 개요 4. 솔루션 모음 1.1. 제안의 배경 및 목적 4.1. 고객정의 DW구축에 필요한 메타정보 생성 1.2. 제품 개요 4.2. 사전 변경 관리 1.3. 제품 특장점 4.3. 부품화형

자동화된 소프트웨어 정의 데이터센터

목차 전략적 우위 달성... 3 비즈니스 응용 프로그램 프레임워크의 중요성... 3 비즈니스 응용 프로그램의 가치 측정... 3 xrm의 기능... 4 xrm은 어떻게 가치를 제공하는가... 4 위험의 완화... 4 고객 사례... 5 개발 기간의 단축... 5 고객

PathEye 공식 블로그 다운로드 받으세요!! 지속적으로 업그래이드 됩니다. 여러분의 의견을 주시면 개발에 반영하겠 습니다.

< 목차 > Ⅰ. 개요 3 Ⅱ. 실시간스팸차단리스트 (RBL) ( 간편설정 ) 4 1. 메일서버 (Exchange Server 2007) 설정변경 4 2. 스팸차단테스트 10

애플리케이션별통합지원 Microsoft VSS(Volume Shadow Copy Services) 와같은공급업체가제공하는 API 를활용하는애플리케이션통합기능 (Oracle, VMware, Microsoft Hyper-V 등 ) 을통해로컬및 / 또는원격복제를위한지능적인북

[ 컴퓨터시스템 ] 3 주차 1 차시. 디렉토리사이의이동 3 주차 1 차시디렉토리사이의이동 학습목표 1. pwd 명령을사용하여현재디렉토리를확인할수있다. 2. cd 명령을사용하여다른디렉토리로이동할수있다. 3. ls 명령을사용하여디렉토리내의파일목록을옵션에따라다양하게확인할수

슬라이드 1

Microsoft Word - src.doc

SPECIFICATION SHEET 프로토콜 8Gb/s Fibre Channel 호스트 /SAN 포트 8Gb/s Fibre Channel 원격복제포트 8Gb/s FICON 호스트포트 4Gb/s Fibre Channel 호스트 /SAN 포트 4Gb/s Fibre Chan

consulting

H2568.2_avamar_ds.qxd

Microsoft Word - ntasFrameBuilderInstallGuide2.5.doc

Straight Through Communication

The Pocket Guide to TCP/IP Sockets: C Version

Microsoft Word _whitepaper_latency_throughput_v1.0.1_for_

Isilon SmartPools를 사용한 차세대 스토리지 계층화

VNX 성능 및 경쟁사 제품 포지셔닝

No Slide Title

DATA S H E E T EMC Data Domain 제품 개요 백업 및 복구를 위한 차세대 데이터 중복 제거 스토리지 솔루션 고속 인라인 데이터 중복 제거 및 네트워크 사용량을 최소화하는 복제 기능 주요 특징 확장성이 뛰어난 데이터 중복 제거 스 토리지 신속한 인라

Tablespace On-Offline 테이블스페이스 온라인/오프라인

RecoverPoint CDP 는블록레벨에서데이터변경내용을추적하고이러한변경내용을저널에기록합니다. 이기능을활용하면서버가동중단, 데이터손상, 소프트웨어오류, 바이러스, 일반적인사용자의실수와같은물리적장애또는논리적장애로부터중요한데이터를안전하게보호할수있습니다. 또한이기능은기존백

Windows Server 2012

EMC NetWorker 8.5를 활용한 VMware 보호

Enterprise Cloud Storage Block Storage 서버에직접할당하여사용하는스토리지 서버내저장공간이필요한경우사용할수있는고가용성스토리지서비스로데이터베이스서버, 메일서버등대용량의데이터저장이요구되는애플리케이션환경에적합합니다. 성능요구수준에따라고성능스토리지를

이제까지 경험해보지 못한 방식으로 공동 작업하고 상호작용하십시오. 여러분은 얼마나 연결되어 있습니까? 이것이 바로 기업이 직원과 사업 파트너, 클라이언트 간의 일관적인 통신을 추구하는, 오늘날의 가상 모바일 기업 환경에서 경험하는 어려움입니다. 원격 재택 근무를 하는

Microsoft Word - Korean_뷰어 메뉴얼_공용_ADVR&SWi_.doc

HLS(HTTP Live Streaming) 이용가이드 1. HLS 소개 Apple iphone, ipad, ipod의운영체제인 ios에서사용하는표준 HTTP 기반스트리밍프로토콜입니다. 2. HLS 지원대상 - 디바이스 : iphone/ipad/ipod - 운영체제 :

Endpoint Protector - Active Directory Deployment Guide

목차 윈도우드라이버 1. 매뉴얼안내 운영체제 (OS) 환경 윈도우드라이버준비 윈도우드라이버설치 Windows XP/Server 2003 에서설치 Serial 또는 Parallel 포트의경우.

자동화된 소프트웨어 정의 데이터센터

F120L(JB)_UG_V1.0_ indd

ISP and CodeVisionAVR C Compiler.hwp

Transcription:

백서 EMC ISILON 스케일아웃 NAS 기반의 HADOOP 구축 요약 이백서에서는 EMC Isilon 스케일아웃 NAS 를활용하여기업의 Hadoop 데이터분석워크플로우를지원하는방법을자세히설명합니다. 또한관련된핵심아키텍처구성요소를소개하고기업에서진화하는빅데이터분석워크플로우의스토리지요구사항을충족할수있는간편성을유지하면서빠르고효율적으로신뢰할수있는비즈니스통찰력을얻는데도움이되는여러가지이점을중점적으로설명합니다. May 2012

Copyright 2012 EMC Corporation. All rights reserved. 본문서의정보는발행일현재정확한것으로간주되며모든정보는예고없이변경될수있습니다. 본문서의정보는 " 있는그대로 " 제공됩니다. EMC Corporation 은본문서의정보와관련하여어떠한진술이나보증도하지않으며, 특히상품성이나특정목적을위한적합성에대하여어떠한묵시적인보증도부인합니다. 본문서에설명된 EMC 소프트웨어를사용, 복사및배포하려면해당소프트웨어라이센스가필요합니다. EMC 제품에대한최신목록은 korea.emc.com 의 EMC Corporation 상표정보부분을참조하십시오. VMware 는미국및기타국가에서 VMware, Inc. 의등록상표또는상표입니다. 본문서에사용된기타모든상표는해당소유주의자산입니다. Part Number h10528 2

목차 서론... 4 Hadoop 소프트웨어개요... 5 Hadoop MapReduce... 5 HDFS(Hadoop Distributed File System)... 6 Hadoop 배포판... 6 Hadoop 환경... 7 Hadoop 아키텍처... 7 EMC Isilon OneFS 개요... 8 Isilon 아키텍처... 8 OneFS 소프트웨어모듈옵션... 10 Isilon 기반의 Hadoop 구축... 10 간편성... 12 효율성... 13 유연성... 14 신뢰성... 15 파일시스템저널... 16 노드 / 디바이스장애의사전예방... 16 Isilon 데이터무결성... 17 프로토콜체크섬... 17 동적섹터복구... 17 MediaScan... 17 IntegrityScan... 17 데이터고가용성... 18 무중단업무운영... 18 결론... 22 Isilon 소개... 22 3

서론 기업에서는빅데이터 (Big Data) 라고도하는빠르게증가하는대용량의데이터를저장하고관리하는문제를지속적으로처리해왔습니다. 드라이브용량은컴퓨팅데이터의용량증가에맞게확장되었지만빅데이터를분석하고귀중한통찰력을얻기위한툴은이러한증가속도를따라잡지못했습니다. 기존의분석아키텍처는속도가느린데다가격이너무비쌌으며, 유지보수하고관리하기도매우어려웠습니다. Hadoop 은기업의데이터세트에서귀중한통찰력을얻는데드는시간을최소화하도록고안된혁신적인오픈소스기반의빅데이터분석엔진입니다. Hadoop 은 MapReduce 와 HDFS(Hadoop Distributed File System) 라고하는두개의주요구성요소로이루어집니다. MapReduce 는다중노드에서병렬로작업을실행하여대규모데이터세트에서보다빠르게결과를도출하는분산작업처리프레임워크입니다. HDFS 는분석해야하는모든입력데이터와 MapReduce 작업으로생성된모든출력데이터를저장하기위해 Hadoop 컴퓨팅팜에서사용하는분산파일시스템입니다. Hadoop 은스케일아웃원칙에따라구축되었으며상용하드웨어클러스터에서실행되는지능형소프트웨어를사용하여빠르고경제적으로귀중한통찰력을이끌어냅니다. Hadoop 이빅데이터분석성능이뛰어난이유는분산병렬작업처리엔진을기반으로하기때문입니다. 기업들은다양한빅데이터스토리지요구사항을충족하기위해 EMC 의 Isilon 스케일아웃 NAS(Network Attached Storage) 에계속의존해왔습니다. OneFS 는 EMC Isilon 스케일아웃 NAS 를구성하는다중노드에서실행되는기본분산파일시스템이자운영체제입니다. OneFS 는시스템측면뿐만아니라인력측면에서도확장이용이하도록설계되었습니다. 따라서일반적인스토리지시스템관리에필요한것보다적은수의직원으로대규모시스템을관리할수있습니다. OneFS 는복잡성을없애며, 스토리지관리에따른부담을획기적으로줄여주는자가복구및자가관리기능을포함하고있습니다. 또한 OneFS 는 OS 의아주핵심적인레벨에병렬화가통합되어있어모든주요시스템서비스가여러하드웨어장치로분산됩니다. 이러한특징을바탕으로인프라스트럭처가확장될때 OneFS 도거의모든차원으로확장될수있으므로데이터세트가커지고워크플로우가달라져도현재의작업방식을계속유지할수있습니다. 인프라스트럭처및데이터용량수요의변화뿐만아니라진화하는워크플로우에맞게손쉽게변화하고대응할수있는장점을지닌 EMC Isilon 스케일아웃 NAS 를 Hadoop 을사용하는빅데이터스토리지및분석워크플로우솔루션과함께활용할경우상당한효과를얻을수있습니다. 4

Hadoop 소프트웨어개요 Hadoop 은기업데이터세트에서귀중한통찰력을얻는데드는시간을최소화하도록고안되었으며업계에서가장혁신적인오픈소스기반의빅데이터분석엔진입니다. Hadoop 의주요구성요소는다음과같습니다. Hadoop MapReduce: 컴퓨팅노드클러스터에서대규모데이터세트작업을병렬로실행하여더빠르게결과를도출하는분산작업처리프레임워크입니다. HDFS(Hadoop Distributed File System): Hadoop 에서분석할모든데이터를저장하기위해 Hadoop 컴퓨팅팜에서사용하는분산파일시스템입니다. MapReduce 는일종의컴퓨팅패러다임으로서 Google 에의해처음소개되었으며 Hadoop 은이러한패러다임을구현하기위해 Yahoo 에서제작하여오픈소스로제공한것입니다. Hadoop MapReduce Hadoop MapReduce 는상용컴퓨팅노드의대규모클러스터에서대량의데이터를병렬로처리하는애플리케이션을손쉽게작성하기위한소프트웨어프레임워크입니다. MapReduce 프레임워크는다음으로구성됩니다. JobTracker: 작업및해당구성요소작업을스케줄링하고모니터링하고관리하는클러스터노드기준단일마스터입니다. TaskTracker: JobTracker 의지시에따라작업의작업구성요소를실행하는클러스터노드기준단일슬레이브 TaskTracker 입니다. MapReduce 작업 ( 쿼리 ) 은클러스터전체에서완전히병렬로분산및처리되는여러맵작업으로구성됩니다. 프레임워크는맵출력을정렬하며이러한맵은작업수를줄이기위한입력으로사용됩니다. 일반적으로작업의입출력내용은모두 HDFS 를사용하여컴퓨팅노드클러스터에저장됩니다. 프레임워크는작업의스케줄링과모니터링및실패한작업의재실행관리를담당합니다. 일반적으로 Hadoop 클러스터에서 MapReduce 컴퓨팅노드및 HDFS 스토리지계층 (HDFS) 은동일한노드세트에있습니다. 이러한프레임워크구성을바탕으로데이터가이미존재하는노드에서작업이수행되도록스케줄링할수있기때문에노드클러스터내에서데이터가이동할때발생하는네트워크병목현상을효과적으로방지할수있습니다. 이러한방식으로 HDFS 계층의데이터인접성을적절히조정하면컴퓨팅계층에서보다효율적으로핵심통찰력을도출할수있습니다. Hadoop 은완전히 Java 로작성되지만 MapReduce 애플리케이션은그럴필요가없습니다. MapReduce 애플리케이션은 Hadoop 스트리밍인터페이스를활용하여특정작업에대한 Mapper 또는 Reducer 로사용되는실행파일을지정할수있습니다. 5

HDFS(Hadoop Distributed File System) HDFS 는클러스터의여러노드로확장이가능하고사용자데이터를파일에저장할수있는블록기반파일시스템입니다. HDFS 는사용자나애플리케이션이파일및디렉토리를조작 ( 생성, 이름변경, 이동또는제거 ) 할수있는일반적인계층형파일조직을제공합니다. 그뿐만아니라 MapReduce 프레임워크를사용하여선택한애플리케이션을실행하는데사용될수있는스트리밍인터페이스도제공합니다. HDFS 는하드또는소프트링크설정을지원하지않으며특정블록을검색할수없고파일을덮어쓸수도없습니다. HDFS 는프로그래밍방식의액세스를요구하므로파일시스템으로마운트할수없습니다. 모든 HDFS 통신은 TCP/IP 프로토콜위에서계층화됩니다. HDFS 의주요구성요소는다음과같습니다. NameNode: 모든파일, 파일위치및파일내의모든블록과이들이위치하는 DataNode 의메모리내부맵을포함하는단일마스터메타데이터서버입니다. DataNode: NameNode 의지시에따라블록생성, 삭제및복제를수행할뿐만아니라읽기 / 쓰기요청을처리하는클러스터노드기준단일슬레이브 DataNode 입니다. HDFS 는 MapReduce 작업이실행되기위해모든데이터가먼저위치해야하는스토리지계층입니다. HDFS 는여러컴퓨팅노드에서보호및데이터인접성을제공하기위해블록미러링을사용하여 Hadoop 클러스터에데이터를분산시킵니다. 기본블록크기는 64MB 이고기본복제배율은 3 배입니다. Hadoop 배포판 오픈소스 Apache Foundation 은 apache.org 를통해 Apache Hadoop 을릴리스하고있습니다. 다른모든배포판은 Apache Hadoop 을기반으로구축되었거나이를확장하는파생버전입니다. 현재사용가능한일반적인 Hadoop 배포판은다음과같습니다. Apache Hadoop Cloudera CDH3 Greenplum HD Hortonworks Data Platform 위목록은현재제공되는모든 Hadoop 배포판중에서널리사용되는배포판만나열한것입니다. 현재제공되는 Hadoop 배포판의전체목록은다음사이트에서확인할수있습니다. http://wiki.apache.org/hadoop/distributions%20and%20commercial%20support 다음은고객이 Hadoop 으로데이터를분석하기위해실행하는소프트웨어스택입니다. 6

Hadoop 환경 다음은고객이 Hadoop 으로데이터를분석하기위해실행하는소프트웨어스택입니다. 이환경구성요소는분석워크플로우에추가적인기능과이점을제공하기위해 Hadoop 스택위에서작동하는추가구성요소입니다. 이영역에서자주사용되는몇가지옵션은다음과같습니다. Hive: HDFS 에저장된데이터를위한임시쿼리인터페이스로, SQL 과유사함 HBase: HDFS 위에서작동하는고성능랜덤읽기 / 쓰기가능열기반정형스토리지시스템 Pig: 병렬컴퓨팅을위한상위데이터흐름언어및실행프레임워크 Mahout: Hadoop 을사용한확장가능한기계학습알고리즘 R(RHIPE): 대규모복합데이터세트를위한분리 / 재결합통계분석 위목록에는 Hadoop 환경구성요소의일부분만나와있습니다. Hadoop 의전체구성요소 Hadoop 아키텍처아래의아키텍처다이어그램은 Hadoop 컴퓨팅클러스터에서실행되는핵심 Hadoop 구성요소를모두보여줍니다. 7

이컴퓨팅환경에서발생하는일반적인상호작용은다음과같습니다. 1. 데이터가 HDFS 계층으로수집됩니다. 2. MapReduce 를사용하여데이터에대해컴퓨팅및분석이수행됩니다. 3. 전체 Hadoop 워크플로우를수용할수있는다른인프라스트럭처또는 HDFS 로결과를저장하거나내보냅니다. 위의아키텍처에서는 NameNode 가환경에서단일개체로나타나며, 문제가있는경우결과적으로전체 Hadoop 환경을사용할수없게됩니다. EMC Isilon OneFS 개요 OneFS 는일반적인스토리지아키텍처의세가지계층인파일시스템, 볼륨관리자, RAID 를단일통합소프트웨어계층으로결합하여 Isilon 스토리지클러스터에서실행되는지능형단일분산파일시스템을구축합니다. OneFS 는파일시스템, 볼륨관리자, 보호기능을하나의지능형분산시스템으로결합 이러한특징은기술혁신의핵심으로서오늘날기업들이작업환경에서스케일아웃 NAS 를성공적으로활용할수있도록합니다. 또한스케일아웃, 지능형소프트웨어, 상용하드웨어및분산아키텍처의핵심원칙을철저하게따릅니다. OneFS 는운영체제일뿐만아니라 Isilon 스토리지클러스터에데이터를저장하는기본파일시스템이기도합니다. Isilon 아키텍처 OneFS 는 " 클러스터 " 라고도하는다수의 Isilon 스케일아웃스토리지노드와배타적으로작동합니다. 단일 Isilon 클러스터는메모리, CPU, 1GB 또는 10GB 네트워킹, NVRAM, 대기시간이짧은 Infiniband 상호연결, 디스크컨트롤러, 스토리지미디어와같은구성요소를포함하는랙마운트형엔터프라이즈어플라이언스로구성된여러 " 노드 " 로이루어집니다. 따라서분산클러스터의각노드는처리능력과스토리지능력을모두갖고있습니다. 8

Isilon 클러스터는최소 3 개의노드로구성할수있으며현재 144 개노드까지확장이가능합니다. 여러다른유형의노드가있을수있으며, 모든노드는여러다른노드가여러다른비율의처리량또는 IOPS 를제공하는단일클러스터로통합될수있습니다. 이론적으로 OneFS 는단일시스템에포함될수있는노드수에제한이없습니다. 클러스터에노드가추가될때마다디스크, 캐시, CPU 및네트워크용량의총합이늘어납니다. OneFS 는각각의하드웨어구성요소를모두활용하므로전체가부분의합보다큰효과를가져옵니다. RAM 이정합성을보장하는단일캐시로그룹화되므로클러스터의모든부분에서발생하는입출력이모든위치에서캐싱된데이터를활용할수있습니다. NVRAM 도그룹화되므로전원장애발생시에도안전하고처리성능이뛰어난쓰기작업이가능합니다. 디스크와 CPU 가결합되므로클러스터증가에따라처리량, 용량, IOPS 도커지며, 단일파일또는여러파일에액세스할수있습니다. 단일파일시스템에서한클러스터의스토리지용량은최소 18TB( 테라바이트 ) 에서최대 15.5PB( 페타바이트 ) 까지다양하게구성할수있습니다. EMC Isilon 노드유형은그기능에따라다음과같이여러클래스로세분화됩니다. S 시리즈 : IOPS 가많은애플리케이션 X 시리즈 : 동시처리량이많은워크플로우 NL 시리즈 : 테이프와비슷한비용수준으로운영스토리지수준의빠른액세스성능제공 Performance Accelerator: 최고수준의성능을위해독립적으로확장가능 Backup Accelerator 노드 : 확장성이뛰어난고속백업 / 복구솔루션 고객환경에서작동하는 OneFS 의전체구성요소 위그림은고객환경에서워크로드및용량요구사항이나처리량요구사항이달라질때동적으로확장가능하며완전하게분산된단일파일시스템을제공하기위해서버와함께작동하는소프트웨어, 하드웨어, 네트워크접속구성이모두포함된전체아키텍처를나타냅니다. 9

OneFS 소프트웨어모듈옵션 OneFS 는고객의요구사항에따라사용할수있는추가라이센스방식의소프트웨어모듈을제공합니다. 아래목록에는사용가능한모든모듈과해당기능에관한간단한설명이나와있습니다. SnapshotIQ - 간단하고확장가능하며유연한스냅샷기반의로컬데이터보호 SmartConnect - 정책기반데이터액세스, 고가용성보장을위한페일오버기능을갖춘로드밸런싱 SmartQuotas - 클러스터스토리지용할당량관리및씬프로비저닝기능을사용한데이터관리 SyncIQ - 빠르고유연한파일기반의비동기식데이터복제 SmartPools - 다양한디스크계층을사용하고파일속성에기반한 ILM( 정보수명주기관리 ) 정책을적용하는데이터관리 SmartLock - 기업용 WORM 규격형식으로데이터저장 InsightIQ - 추세, 핫스팟및핵심클러스터통계 / 정보를식별하기위한강력하면서도간편한분석플랫폼 위의모든소프트웨어모듈에대한자세한내용은해당제품설명서를참조하십시오. Isilon 기반의 Hadoop 구축 HDFS 의모든통신은 TCP/IP 프로토콜위에서계층화되므로 Isilon 은 OneFS 에대한네트워크 (over-the-wire) 프로토콜로 HDFS 계층을통합했습니다. 이러한통합을통해고객은스케일아웃 NAS 플랫폼을 Hadoop 핵심구성요소에대한 Hadoop 아키텍처의기본부분으로서뿐만아니라환경구성요소로서활용할수있습니다. 또한전체 Hadoop 워크플로우에서 OneFS 가지닌간편성, 유연성, 신뢰성, 효율성의이점을누릴수있습니다. 10

Hadoop( 컴퓨팅계층 ) 에연결된 Isilon 스케일아웃 NAS( 스토리지계층 ) 위의다이어그램은 Isilon 스케일아웃 NAS 가네트워크 (over-the-wire) 프로토콜 (HDFS) 을통해 Hadoop 컴퓨팅클러스터에통합될때의아키텍처를보여줍니다. 이렇게통합될경우 Isilon 스케일아웃 NAS 는기업의 Hadoop 워크플로우에서가장중요한기능을수행하는 Hadoop 구성요소가됩니다. 또한 Hadoop 워크플로우의두가지핵심구성요소인컴퓨팅을담당하는 MapReduce 계층과스토리지를담당하는 HDFS(Hadoop Distributed File System) 계층을분리할수있습니다. 현재가용네트워크대역폭이크게증가한상황에서분산병렬화를핵심기능으로구축한 OneFS 를활용할경우엔터프라이즈고객은 Hadoop 을사용하여데이터분석워크플로우에공유스케일아웃스토리지모델을구축및활용할수있습니다. 다음은 Isilon 스케일아웃 NAS 에서작동하는 Hadoop 의환경구성요소와전체핵심구성요소를세부적으로보여줍니다. Hadoop 환경에서 Isilon 스케일아웃 NAS 와함께작동하는전체 Hadoop 구성요소 현재 EMC Isilon OneFS 파일시스템은단일파일시스템및단일글로벌네임스페이스에서 15PB 이상까지확장될수있습니다. 또한이러한대규모용량에서초당 85GB 의동시처리량까지확장이가능합니다. Hadoop 워크플로우의 11

용량및성능요구사항에비례하여 OneFS 를확장하는방법에대한자세한내용은 SPECsfs2008 벤치마킹결과 (www.spec.org) 를참조하십시오. 이어지는섹션에서는 Hadoop 워크플로우에서 EMC Isilon 스케일아웃 NAS 를활용할때얻을수있는다양한이점에대해자세히소개합니다. 간편성 EMC Isilon OneFS 는디스크풀의랙관리, 파일시스템프로비저닝, 적절한데이터보호메커니즘적용등에수반되는모든복잡성을없애엔터프라이즈데이터세트에대한액세스를상시보장하는한편장애가발생해도데이터세트가안전하게보호되도록합니다. OneFS 는 Hadoop 구축과관리에간편성을더하므로기업에서는데이터분석및활용에집중하여비즈니스가속화를위한통찰력을빠르게도출할수있습니다. 따라서기업은 Hadoop 환경을위한스토리지인프라스트럭처관리에많은시간을소비하지않으면서 Hadoop 을유용하게활용하여비즈니스를가속화하는데도움이될수있는핵심추세를파악하고기회를포착하는데주력할수있습니다. Isilon 스토리지확장은소요시간이대개 60 초이내이고클러스터를온라인상태로유지하면서버튼하나만누르면완료할수있습니다. 기존클러스터에 Isilon 노드를추가하는작업은랙에설치한후에전원을켜고기존 Isilon 스케일아웃클러스터에연결되도록지시하면완료될정도로간단합니다. 이러한 " 연결 " 프로세스를통해추가용량을즉시사용할수있게되며, 연결되는 Isilon 노드에서올바른 OneFS 버전및구성이실행됩니다. 60 초이내에추가용량을사용할수있을뿐만아니라현재작업량을 Isilon 클러스터에서균등하게재조정하여데이터의핫스팟을방지하기위한작업을백그라운드에서실행할수있습니다. 이러한모든용량확장을스케일아웃스토리지가온라인상태이고 MapReduce 작업을처리하는중에도성능에아무런영향을미치지않고수행할수있습니다. OneFS 는 HDFS 프로토콜외에도다음과같은프로토콜을모두지원합니다. NFS CIFS/SMB FTP HTTP iscsi REST Isilon HDFS 구축은 OneFS 파일시스템과 HDFS 클라이언트간의최소구성프로토콜계층입니다. 즉, 파일은 Isilon 클러스터의표준 POSIX 호환파일시스템에저장됩니다. 결과적으로조직에서는위에언급된프로토콜을사용하여아주간편하게 Hadoop 워크플로우용데이터를수집하거나 Hadoop 에서추출한비즈니스핵심통찰력정보를데이터분석워크플로우의다른구성요소로내보낼수 12

있습니다. 데이터가이미 EMC Isilon 스케일아웃 NAS 에저장된경우고객은 Hadoop 워크플로우에대해시간과리소스가많이소요되는로드작업을수행할필요없이 OneFS 의 Hadoop 컴퓨팅팜을지정하기만하면됩니다. OneFS 를통해기업에서는 Hadoop 환경에서그성능이입증된진정한파일시스템으로 HDFS 계층을사용할수있게됩니다. 효율성 Isilon 스케일아웃 NAS 를통한 Hadoop 워크플로우간소화 Isilon 스케일아웃클러스터에서 80% 이상의용량활용도를지원하도록설계된 OneFS 는 Hadoop 데이터분석워크플로우의효율성을한층높여줍니다. 일반적으로파일시스템에있는모든블록에대해 3 배미러링을사용하는일반적인 Hadoop 아키텍처와비교할때 OneFS 는용량대비효율성이매우뛰어날뿐아니라엔터프라이즈고객이기대하는최상의 ROI 및 TCO 를제공할수있습니다. 예를들어기업에서 12PB 의 Hadoop 데이터저장이필요한경우기본 3 배미러링을사용하여데이터를저장하는일반적인 Hadoop 클러스터라면 36PB 가넘는물리적데이터용량을구입해야합니다. 하지만 OneFS 의경우에는동일한용량의 Hadoop 데이터 12PB 를 Isilon 클러스터에저장하는데 15PB 의물리적디스크용량만있으면충분하며추가적인데이터보호기능도제공합니다. 따라서엄청난자본비용 (CAPEX) 절감효과를얻을수있으며관리해야하는인프라스트럭처환경도훨씬간소화됩니다. Isilon 이운영비용 (OPEX) 절감효과를높이기위해제공하는운영편의성및관리간편성에따라환경에서추가적인효율성향상효과도얻을수있습니다. 예를들어 Isilon 노드는용량측면에서집적도를매우크게향상시킬수있습니다. 결과적으로 DAS(Direct Attached Storage) 를사용하여 36PB 용량의일반적인 Hadoop 클러스터를실행하는데필요한것보다훨씬적은전력과랙공간으로 15PB Isilon 클러스터에서동일한용량의데이터요구사항을충족할수있습니다. 이러한 Isilon 클러스터의장점은추가적인비용절감효과를제공합니다. 13

Hadoop 환경에대한공유스토리지계층으로 Isilon 스케일아웃 NAS 를사용함으로써고객은 Hadoop 컴퓨팅팜을융합하고소요되는리소스를최소화할수있습니다. 로컬스토리지관리, 로컬스토리지의데이터보호, 로컬스토리지에있는데이터분석등과같은모든스토리지관련 HDFS 오버헤드를 Isilon 스케일아웃 NAS 로오프로드함으로써분석작업을수행하는데에만 Hadoop 컴퓨팅팜을집중적으로활용할수있습니다. OneFS 덕분에 Hadoop 컴퓨팅팜이이러한 HDFS 관련작업을모두수행하지않게되므로 Hadoop 컴퓨팅팜설치공간을줄이는데도움이되고, 보다중요한데이터분석워크플로우작업에기존 Hadoop 컴퓨팅인프라스트럭처를활용할수있습니다. 기타표준프로토콜을통해공유스토리지에효율적으로액세스가가능하기때문에 Hadoop 에서얻은핵심통찰력정보를데이터분석워크플로우의다른부분에서도활용함으로써전체데이터분석워크플로우에이익이됩니다. 전체데이터분석워크플로우를효율화하는데도움을주는이러한융합형스토리지접근방식을채택하는기업은자본비용 (CAPEX) 과운영비용 (OPEX) 을대폭절감할수있습니다. 유연성 DAS(Direct Attached Storage) 를사용하는일반적인 Hadoop 클러스터에서는컴퓨팅계층과스토리지계층이밀접하게결합되어있어한쪽계층만별도로확장하는것이불가능합니다. 이러한단점으로인해고객은컴퓨팅용량은충분하고스토리지용량만부족한경우에도 Hadoop 클러스터를일괄적으로확장해야합니다. 클러스터를일괄적으로확장하면컴퓨팅인프라스트럭처뿐만아니라네트워크인프라스트럭처도부수적으로확장되고복잡성이증가합니다. 이러한방법은전반적인활용도측면에서상당히비효율적이고유연성이떨어집니다. Hadoop 컴퓨팅계층과스토리지계층을분리하면기업에서는필요할때한쪽 ( 스토리지 ) 또는다른쪽 ( 컴퓨팅 ) 을개별적으로확장할수있습니다. 비즈니스성장속도에맞춰유연하게확장가능한이러한아키텍처를통해고객들은필요할때필요한용량만구입할수있으므로전체적으로복잡한 Hadoop 환경의운영효율성을보다높일수있습니다. 이러한장점을통해조직은필요한만큼만소규모로구축을시작한다음 OneFS 를사용하여 Hadoop 스토리지계층에서초당 85GB 까지동시처리량을확장할수있습니다. Hadoop 스토리지요구사항을충족하기위해 OneFS 를사용할때얻을수있는또하나의중요한이점은 Apache Hadoop 규격을준수한다는점입니다. 따라서조직에서는 Hadoop 데이터분석워크플로우에서사용할 Hadoop 배포판을원하는대로유연하게선택할수있습니다. EMC Isilon 스케일아웃 NAS 는다음 Hadoop 배포판과의호환성테스트를완벽하게통과했습니다. Apache Hadoop 0.20.203 Apache Hadoop 0.20.205 EMC Greenplum HD 1.1 14

신뢰성 Hadoop 분석에대한투자가치를극대화하기위해기업에서는복구성능이뛰어난빅데이터스토리지인프라스트럭처를필요로합니다. Isilon 스케일아웃 NAS 및 OneFS 운영체제는데이터자산을보호하고가용성이높은데이터환경을제공하기위해강력한데이터보호기능을갖추고신뢰성도높은인프라스트럭처를제공합니다. 일반적인 Hadoop 클러스터를사용하는경우기업들은특정수준의데이터이중화가유지되도록 HDFS 계층에서는미러링기술을제공하고, 하드웨어계층에서는데이터보호기능을제공하기위해맞춤형하위블록 CRC 체크섬에의존해야합니다. 그러나이방법은확장할때매우많은비용이든다는단점이있습니다. Isilon 의데이터보호는 OneFS 파일시스템레벨에서구현되므로하드웨어 RAID 컨트롤러에의존할필요가없습니다. 이러한방식은시장상황이나하드웨어의속성및특성이변화함에따라새로운데이터보호체계를원활하게추가할수있는기능을비롯한여러가지이점을제공합니다. 보호기능이파일레벨에서적용되므로 OneFS 소프트웨어만업그레이드하면새로운보호및성능체계를곧바로사용할수있습니다. OneFS 는패리티보호계산을위해이미그성능이입증된 Reed-Solomon 삭제코딩알고리즘을사용합니다. 보호기능이파일레벨에서적용되므로클러스터의데이터를빠르고효율적으로복구할수있습니다. inode, 디렉토리및기타메타데이터는참조하는데이터블록과동일하거나더높은레벨에서보호됩니다. 모든데이터, 메타데이터및 FEC(Forward Error Correction) 블록이여러노드에서스트라이핑되므로전용패리티드라이브가필요하지않습니다. 이러한두가지기능모두단일장애지점및병목현상의발생을방지하므로파일을고도의병렬프로세스로재구성하는데도움이됩니다. 현재 OneFS 는 N+1 ~ N+4 패리티보호레벨을제공하며각각최대 4 개의동시구성요소장애에대한보호기능을수행할수있습니다. 단일장애가개별디스크장애수준에머물수도있지만한편으로는전체노드의장애를유발할수있다는점을고려해야합니다. 또한 OneFS 는여러하이브리드보호체계를지원합니다. 여기에는각각두개의드라이브장애또는단일노드장애와세개의드라이브장애또는단일노드장애에대해보호기능을제공하는 N+2:1 과 N+3:1 이포함됩니다. 이러한보호체계는테라바이트급의용량을지닌최대 36 개의 SATA 드라이브가각노드에포함되는고집적노드구성에서특히유용합니다. 이러한구성에서는전체노드에장애가발생할가능성보다다수의드라이브에장애가발생할가능성이훨씬높습니다. 여러디바이스에서동시에장애가발생하여파일이 " 보호상태를벗어나는 " 드문경우에도 OneFS 는가능한모든대상을적절한보호상태로되돌리고 Isilon 클러스터로그에영향을미치는개별파일오류를보고합니다. 15

파일시스템저널 OneFS 하이브리드패리티보호체계 (N+M:x) 모든 Isilon 노드에는이중배터리를통해전원공급을유지하는 512MB NVRAM 카드가장착되어있어노드의파일시스템저널을보호합니다. 각저널은 OneFS 에서안정적인스토리지로사용되며갑작스러운전원공급중단이나기타재해상황에서쓰기트랜잭션을보호합니다. 저널은파일시스템의정합성을보장하며충전된배터리로최장 3 일간전원이공급됩니다. Isilon 클러스터의각멤버노드에는 NVRAM 컨트롤러가포함되어있어전체 OneFS 파일시스템이완전히저널링됩니다. 노드 / 디바이스장애의사전예방 OneFS 는감지된 ECC 오류의특정임계값에도달하는드라이브를사전예방차원에서제거하거나 SmartFail 조치하며해당드라이브에서데이터를자동으로재구성한후클러스터의다른위치로이동합니다. SmartFail 및후속복구프로세스는완전히자동화되어있어관리자의개입이필요하지않습니다. OneFS 는파일레벨에서데이터를보호하므로비정합성이나데이터손실이사용할수없거나장애가있는디바이스로한정되고나머지파일시스템은결함이없이원활하게사용가능한상태를유지합니다. OneFS 는고도의분산아키텍처를기반으로구축되어있기때문에여러노드의 CPU, 메모리및드라이브를활용하여효율적인병렬방식으로장애드라이브의데이터를재구성할수있습니다. Isilon 스토리지시스템자체가특정드라이브속도의영향을받지않으므로 OneFS 는드라이브장애로부터아주빠르게복구가가능하며이러한효율성은클러스터크기에비례하여커집니다. 따라서 Isilon 클러스터내에서장애가발생한드라이브는하드웨어 RAID 기반스토리지디바이스보다훨씬더빠르게, 몇시간이나며칠이걸리지않고몇분또는몇시간이내에재구축됩니다. 또한 OneFS 에는전용 핫스페어 드라이브가필요하지않습니다. 16

Isilon 데이터무결성 OneFS 는 32 비트 CRC 체크섬을통해파일시스템구조의손상을방지하는 IDI(ISI Data Integrity) 프로세스를채택하고있습니다. 파일용및메타데이터용을비롯한모든 Isilon 블록은체크섬확인을거칩니다. 메타데이터체크섬은메타데이터블록자체에포함되어있지만파일데이터체크섬은메타데이터로저장되므로참조무결성을제공합니다. 모든체크섬은특정읽기를제공하는노드인이니시에이터가요청이있을때마다재계산합니다. 재계산된체크섬이저장된체크섬과일치하지않는경우 OneFS 는시스템경고를생성하고이벤트를로깅하고해당패리티블록을클라이언트에반환한다음의심스러운데이터블록에대해자동복구를시도합니다. 프로토콜체크섬 OneFS 는블록및메타데이터외에, RBM(Remote Block Management) 프로토콜데이터에대한체크섬확인기능도제공합니다. RBM 은백엔드클러스터상호연결에서사용하기위해 Isilon 에서개발한유니캐스트 RPC 기반프로토콜입니다. RBM 프로토콜의체크섬은네트워크계층에서제공되는 Infiniband 하드웨어체크섬외에추가로제공되는기능으로, 특정장애하드웨어구성요소가있거나다른장애상태를나타내는시스템을감지하고격리하는데사용됩니다. 동적섹터복구 OneFS 에는파일시스템을통해불량디스크섹터의사용을차단하고양호한상태의데이터를리디렉션하여다른위치에재기록하는 DSR(Dynamic Sector Repair) 기능이포함되어있습니다. OneFS 가정상작동중에블록을읽지못하면 DSR 이호출되어누락된데이터를재구성한다음드라이브의다른위치나노드의다른드라이브에씁니다. 이러한과정을통해해당블록에대한후속읽기의실패가방지됩니다. DSR 은완전하게자동으로작동하며최종사용자에게영향을미치지않습니다. 디스크섹터오류및 CRC 불일치는드라이브재구성프로세스와거의동일한메커니즘을사용합니다. MediaScan OneFS 내에서 MediaScan 은디스크섹터를검사하고위의 DSR 메커니즘을사용하여디스크드라이브가간혹발생하는섹터 ECC 오류를강제로수정하도록합니다. OneFS 의통합구성요소로구현된 MediaScan 은미리정의된스케줄에따라자동으로실행됩니다. 다른작업에미치는영향이적도록백그라운드프로세스로설계된 MediaScan 은완전한분산실행이가능하므로 Isilon 의고유한병렬아키텍처의이점을활용할수있습니다. IntegrityScan OneFS 의또다른구성요소인 IntegrityScan 은전체파일시스템에서비정합성을검사합니다. 이기능은모든블록을체계적으로읽고관련체크섬을확인하는 17

방식으로진행됩니다. 일반적인 'fsck' 방식의파일시스템무결성검사툴과달리, IntegrityScan 은클러스터가완전히작동하는동안실행되도록설계되었으므로이기능의작동을위해다른업무를중단할필요가없습니다. IntegrityScan 이체크섬불일치를감지하면시스템경고가생성된후 syslog 에기록되며 OneFS 는의심스러운블록의복구를자동으로시도합니다. 데이터고가용성 DAS(Direct Attached Storage) 를사용하는일반적인 Hadoop 클러스터에는파일시스템네임스페이스작업을관리하는 NameNode 가하나만있습니다. 그러나 Isilon 스토리지를사용할경우모든 Isilon 노드가 NameNode 또는 DataNode 요청에응답할수있습니다. Hadoop 컴퓨팅클라이언트가 Isilon OneFS 스케일아웃 NAS 에파일요청을전송하면해당요청은다른 Isilon 노드주소로전송됩니다. Hadoop 환경에서클러스터의모든 Isilon 노드는 NameNode 와 DataNode 역할을모두수행할수있습니다. 따라서여러 Hadoop 컴퓨팅노드에서실행되는여러 Mapper 및 Reducer 작업에서입출력이발생할때그러한입출력이여러 Isilon 노드에서수행되도록하는로드밸런싱이가능합니다. 이러한방식으로 OneFS 는일반적인 Hadoop 클러스터에서나타나는단일장애지점발생을방지하며로드밸런싱을구현합니다. Isilon SmartConnect 모듈은 Hadoop 컴퓨팅클라이언트에대해동적페일오버및페일백을지원하여데이터가용성을한층향상합니다. 한노드에서장애가발생하면 MapReduce 작업과연관된모든전송중인읽기및쓰기가 Isilon 클러스터의다른노드로전달되므로 MapReduce 작업이중단되지않고완료될수있습니다. 이러한기능은 SmartConnect 존 (zone) 이름을 Hadoop core-site.xml 구성파일의구성매개변수와 Isilon 클러스터의동적 IP 주소로사용할때구현됩니다. SmartConnect 존 (zone) 구성에대한자세한내용은 Isilon User Guide 를참조하십시오. 이기능은 HDFS 스토리지계층을제공하는 Isilon OneFS 에서 Hadoop MapReduce 작업을실행할때장애가발생하는경우에도지속적인데이터가용성과로드밸런싱을제공합니다. 무중단업무운영 OneFS 는엔터프라이즈환경에서무중단업무운영에필요한신뢰성이높은데이터백업전략을제공하는강력한메커니즘입니다. Isilon 의 SnapshotIQ 는 OneFS 내에서디렉토리또는하위디렉토리의읽기전용시점복제본을가져와가장빠른로컬백업으로제공할수있습니다. OneFS 스냅샷은확장성이뛰어날뿐아니라생성하는데 1 초도걸리지않습니다. OneFS 스냅샷은파일시스템의활동수준, 파일시스템의크기또는복제되는디렉토리의크기에관계없이성능오버헤드를거의발생시키지않습니다. 또한스냅샷을업데이트할때파일의변경된블록만저장하므로효율성이뛰어난스냅샷스토리지사용률이보장됩니다. 각파일시스템디렉토리아래의 /.snapshot 숨김디렉토리를통해사용가능한스냅샷에액세스할수있습니다. 또한 Isilon SnapshotIQ 는하나의클러스터에서개수에제한없이 18

스냅샷을생성할수있습니다. 스냅샷간격이훨씬세밀하여향상된 RPO 시간을제공하므로대부분의다른스냅샷구현보다훨씬더많은이점을제공합니다. SnapshotIQ 를사용한사용자주도파일복구 SnapshotIQ 는손실되었거나손상된파일을사용자가직접복구할수있는중요한이점과함께파일시스템에미치는영향을최소화하면서백업을수행할수있는강력한기능을제공합니다. 스냅샷에서백업을시작하면여러가지이점을얻을수있습니다. 가장중요한이점은읽기전용스냅샷에서직접백업을가져오므로파일시스템을일시중지할필요가없다는것입니다. 따라서열려있는파일에대한잠금경합문제가해소되며백업작업기간동안에도사용자가데이터에언제든지액세스할수있습니다. 또한 SnapshotIQ 는클러스터에있는각스냅샷의최신버전을가리키는별칭을자동으로생성하여백업이항상해당별칭을참조하도록함으로써백업프로세스가원활하게진행되도록합니다. 스냅샷은원래시점복제본이므로스냅샷으로부터백업을수행하면파일시스템또는하위디렉토리의정합성이완벽하게유지됩니다. NDMP 스냅샷기능을통해 NDMP 백업작업의일부로스냅샷을생성한다음백업이성공적으로완료된후에삭제하도록하면이러한프로세스의효율을더욱높일수있습니다. OneFS 는보편적으로사용되는 NDMP(Network Data Management Protocol) 를지원함으로써백업및복구를보다원활하게수행할수있도록합니다. NDMP 는주요데이터백업제품과의상호운용성이검증된개방형표준프로토콜입니다. Isilon 은 NDMP 버전 3 과 4 를모두지원합니다. OneFS NDMP 모듈은다음과같은기능을포함합니다. NDMP 를사용한전체및증분백업 / 복구 직접액세스복구 (DAR/DDAR), 단일파일복구및 3-Way 백업 임의시스템으로의복구 ACL(Access Control List), 대체데이터스트림및리소스포크와의긴밀한통합 19

선택적파일복구 복제후백업 스냅샷및 NDMP 가국지적으로발생하는장애시나리오에대한이상적인해결책을제공하지만, 보다심각한장애나자연재해가발생할경우에는지리적으로멀리떨어진위치에별도의데이터세트복제본을두는것이도움이됩니다. Isilon SyncIQ 모듈은광범위한 RPO( 복구시점목표 ) 및 RTO( 복구시간목표 ) 를달성하기위해고성능의비동기식데이터복제기능을제공합니다. 이를통해고객은재해가발생할경우에인프라스트럭처비용과데이터손실가능성간에적절한절충점을모색할수있게됩니다. SyncIQ 는복제된파일시스템크기를엄격하게제한하지않으므로조직의데이터성장에비례하여페타바이트단위의대용량으로파일시스템을확장할수있습니다. SyncIQ 를통해로컬또는지리적으로멀리떨어진 Isilon OneFS 클러스터에 Hadoop 데이터를복제 SyncIQ 는 LAN 또는 WAN 접속구성에맞게간단히최적화되므로장거리또는단거리사이트간에복제를수행하여사이트별재해와지역적재해에모두대비할수있는보호기능을제공합니다. 또한 SyncIQ 는클러스터스토리지의성능과효율성을충분히활용하도록설계된정책기반의고도병렬화복제아키텍처를이용합니다. 따라서용량에따라전체처리량이증가하며데이터세트가확장되어도 RPO 가일관되게유지될수있습니다. 결론적으로볼때 EMC Isilon 스토리지를 HDFS 스토리지계층에포함할경우아래설명과같이일반적인 Hadoop 스토리지구축의여러가지단점이해소될수있습니다. 일반적인 Hadoop 스토리지구축 전용스토리지인프라스트럭처 Hadoop 용도로만활용 단일장애지점 Namenode EMC Isilon 스토리지구축 스케일아웃스토리지플랫폼 여러애플리케이션및워크플로우에활용 완벽한이중화 분산 Namenode 20

일반적인 Hadoop 스토리지구축 불충분한엔터프라이즈데이터보호 스냅샷, 복제, 백업지원안함 스토리지효율저하 3 배미러링 고정된확장성 컴퓨팅과스토리지의비율고정 수동가져오기 / 내보내기 지원되는프로토콜없음 EMC Isilon 스토리지구축 완벽한데이터보호 SnapshotIQ, SyncIQ, NDMP 백업지원 업계최고의스토리지효율성 80% 이상의스토리지활용도지원 독립적인확장성 컴퓨팅및스토리지를필요에따라별도로추가 멀티프로토콜 업계표준프로토콜지원 NFS, CIFS, FTP, HTTP, HDFS 등 21

결론 Hadoop 은기업이빅데이터자산에서귀중한통찰력을얻는데필요한시간과리소스를획기적으로절감할수있는업계최고의혁신적인분석엔진입니다. 본백서에서자세하게설명한것처럼 EMC Isilon 스케일아웃 NAS 및 Isilon OneFS 운영체제는네트워크 (over-thewire) HDFS 계층역할을수행함으로써놀라운이점을제공합니다. 이러한통합을통해조직은스케일아웃 NAS 플랫폼을 Hadoop 핵심구성요소에대한 Hadoop 아키텍처의기본부분으로서뿐만아니라환경구성요소로서활용할수있습니다. 또한전체 Hadoop 워크플로우에서 OneFS 의간편성, 유연성, 신뢰성, 효율성의이점을누릴수있습니다. 조직에서는 HDFS 를네트워크 (over-the-wire) 프로토콜로활용하여업계표준 Apache Hadoop 배포판을 Isilon 스케일아웃 NAS 스토리지시스템과결합하여강력하면서효율성과유연성이뛰어난빅데이터스토리지및분석환경을구축하는빅데이터분석솔루션을사용할수있습니다. 이러한접근방식을통해조직은 DAS(Direct-Attached Storage) 를사용하는일반적인 Hadoop 배포판의복잡성과많은리소스낭비를방지할수있습니다. 또한 Isilon 스케일아웃 NAS 를사용하여복구성능이뛰어난스토리지인프라스트럭처를 Hadoop 환경에제공함으로써진화하는빅데이터분석워크플로우의요구사항을간단히충족하면서데이터보호효과를높이고신뢰성을향상시킬수있습니다. Isilon 소개 EMC 내의사업부인 Isilon 은스케일아웃 NAS 분야에서전세계시장을선도하고있습니다. EMC 는단순한데이터저장이아닌완벽한데이터관리를원하는기업을위한강력하고간편한솔루션을제공합니다. Isilon 제품은규모에관계없이간편하게설치, 관리및확장할수있습니다. 또한기존의엔터프라이즈스토리지와는달리추가되는스토리지수, 요구되는성능수준또는향후비즈니스요구사항의변화에관계없이탁월한사용편의성을보장합니다. EMC 는스토리지에대한기존의고정관념을바꾸고자끊임없이노력하고있습니다. EMC Isilon 을만나는순간한층더효율적이고간편하게스토리지를관리할수있습니다. Isilon 에대한보다자세한내용은 http://www.isilon.com 에서확인하실수있습니다. 22