백서 데이터이동없는 HADOOP 데이터분석을위한 EMC ISILON 스케일아웃 NAS 요약 이백서에서는 EMC Isilon 스케일아웃 NAS 에데이터를저장하여 Hadoop 분석용데이터의관리를최적화하는방법을설명합니다. HDFS 클라이언트에서데이터를분리하여 Isilon 클러스터에저장하면확장성, 효율성및워크플로우유연성극대화라는이점을실현할수있습니다. 2013 년 11 월
Copyright 2014 EMC Corporation. All Rights Reserved. 본문서의정보는발행일현재정확한것으로간주되며모든정보는예고 없이변경될수있습니다. 본문서의정보는 있는그대로 제공됩니다. EMC Corporation은본문서의정보와관련하여어떠한진술이나보증도하지않으며, 특히상품성이나특정목적을위한적합성에대하여어떠한묵시적인보증도부인합니다. 본문서에설명된 EMC 소프트웨어를사용, 복사및배포하려면해당소 프트웨어라이센스가필요합니다. EMC 2, EMC, EMC 로고, Greenplum, Isilon, InsightIQ, OneFS, SmartConnect, SmartLock 및 SmartPools는미국및기타국가에서 EMC Corporation의등록상표또는상표입니다. 본문서에사용된기타모든상표는해당소유주의자산입니다. PN H12532 2
목차요약... 4 스케일아웃스토리지및빅데이터분석... 5 저장된데이터와데이터분석의융합... 5 컴퓨팅에서데이터분리... 6 빅데이터용스케일아웃스토리지... 7 Isilon 스케일아웃 NAS에서 Hadoop의작동방식... 9 지원되는배포판... 10 가용성... 11 하드웨어... 11 네트워크... 12 파일시스템... 12 데이터보호개요... 12 효율적인데이터보호... 12 NameNode 이중화... 13 DataNode 로드밸런싱... 13 아키텍처... 14 Isilon 스토리지아키텍처... 14 랙지원... 14 OneFS의 HDFS 아키텍처... 15 결론... 16 3
요약 EMC Isilon 은데이터과학의핵심툴을빅데이터에가장적합한스토리지인스케일아웃 NAS 와결합하여데이터분석을혁신합니다. 비정형데이터는그특성상주로 SMB(Server Message Block) 와 NFS(Network File System) 를통해대용량스토리지시스템으로전송됩니다. 한편, 비정형데이터를분석하기위해 Hadoop을사용하는데이터과학자와기타데이터분석가가점차늘어나고있습니다. NFS, HTTP, FTP 또는 SMB 를사용하여 Hadoop 클라이언트가 HDFS(Hadoop Distributed File System) 를통해 Isilon 클러스터에저장된데이터를직접액세스할수있도록함으로써 EMC Isilon 클러스터는데이터과학의표준툴을확장성이뛰어난스토리지시스템과결합합니다. 업계를선도하는여러조직에서는데이터분석을통해데이터에서가치를이끌어내려는근본적인변화에직면해있는데, Hadoop 을스케일아웃 NAS 와결합하면이와같은노력을원활하게지원할수있습니다. Isilon 을사용하면 Hadoop 애플리케이션개발자에크게의존하거나 HDFS 에데이터를수집하지않아도되므로데이터분석을촉진할수있습니다. EMC Isilon 클러스터는데이터를컴퓨팅에서분리함으로써가치를제공합니다. EMC Isilon 클러스터에서는기존워크플로우와 SMB, HTTP, FTP, REST(Representational State Transfer), NFS 등의표준프로토콜을사용하여엔터프라이즈스토리지플랫폼에데이터를저장할수있습니다. 하지만데이터를저장하는데 SMB 를사용하든, NFS 를사용하든관계없이 HDFS 를통해 Hadoop 컴퓨팅그리드로데이터를분석할수있습니다. 별도의 HDFS 를설정한후번거로운 HDFS 복사명령이나전용 Hadoop 커넥터를사용하여 HDFS 로이동할필요가없습니다. 데이터를 Hadoop 으로이동하지않고즉시데이터를분석할수있습니다. Isilon 클러스터는데이터관리를간소화하면서경제적인방식으로데이터의가치를극대화합니다. Hadoop 을사용한 HPC(High Performance Computing) 의경우일반적으로컴퓨팅클라이언트의 HDFS 구축환경에로컬로데이터가저장되지만, 다음활용사례에서는 MapReduce 프로그래밍모델을 Isilon 스케일아웃 NAS 와결합하는것이매우유용합니다. SMB 및 NFS 워크플로우를사용하여 POSIX 호환파일시스템에데이터를저장하고 HDFS 를통해이를액세스하여 MapReduce 작업처리 데이터세트증가에따라컴퓨팅과독립적으로스토리지확장 데이터를복제하지않고한층더신뢰할수있고효율적인방식으로데이터보호 데이터수집을위한 HDFS 복사작업과데이터관리를위한 Hadoop FS(FileSystem) 명령을사용하지않음 NameNode 이중화구현 데이터중복제거및스냅샷과같은엔터프라이즈스토리지기능을사용하여데이터관리 이백서에서는 HDFS 클라이언트대신 Isilon 스케일아웃 NAS 클러스터에데이터를저장함으로써 Hadoop 분석용빅데이터의관리를최적화하는방법을설명합니다. Isilon 클러스터를사용하면 MapReduce 클라이언트에서파일시스템확장성, 스토리지효율성및워크플로우유연성을극대화할수있습니다. 4
스케일아웃스토리지및빅데이터분석 비정형데이터와디지털정보의양과속도, 다양성이급증하고있다는점은주지의사실입니다. 이러한증가로인해그규모에관계없이모든기업이데이터활용과관련하여압박감에시달리고있습니다. SAN(Storage-Attached Network), DAS(Direct-Attached Storage) 및스케일업 NAS(Network-Attached Storage) 같은기존의스토리지시스템을사용해서는이와같은당면과제를해결할수없으며, 적어도높은확장성과효율성은기대할수없습니다. 이러한기존스토리지시스템은수많은개별볼륨, 조각모음및볼륨관리를사용해야하므로운영부담이과도하게커져서효율성이떨어집니다. LUN(Logical Unit Number) 또는볼륨을사용하는기존스토리지시스템의전반적인효율성비율은약 55%~65% 입니다. 따라서진입장벽이낮아널리사용되며안정적이지만비효율적인 RAID 기술을채택한기존스토리지시스템은 CAPEX(Capital Expenditure) 비율이높고 OPEX(Operating Expense) 가높아기업에부담을줍니다. 데이터의폭발적인증가로인해많은기업이다른방식을시도해야한다는압박을받고있는실정입니다. 규모와상관없이데이터급증을겪지않는업종에속한기업도일부있지만모든기업에걸쳐컨텐츠증가수준은상당하다. 데이터증가문제를해결하고아카이브데이터를활발하게액세스하기위한새로운방식을아직고려하지않은기업은속히이러한방식을고려해야할것 이라고 Richard L. Villars 씨는 IDC 백서에서피력합니다. 1 급속한데이터증가로스케일아웃스토리지의필요성이점차증가하고있습니다. IDC 백서에서는빅데이터의압박과파일서버및스케일업스토리지디바이스의한계로인해 빠른데이터수집, 효율적인스토리지관리및안정적인액세스를위해최적화된새로운차원의스토리지솔루션 ( 스케일아웃스토리지솔루션 ) 을구축해야한다 고주장합니다. 저장된데이터와데이터분석의융합 저장된데이터의마이닝이관리만큼중요해지고있습니다. 대개분산된스토리지에저장되어있는데이터의급증과함께데이터에서가치를이끌어내기위한분석을수행하는기업이늘어나고있습니다. 다시말해서, 기업은행동을예측하거나, 더나은제품을만들거나, 혁신을가속화하거나, 매출을증대하거나, 비용을절감하기위해데이터에서패턴을찾으려합니다. 실제로데이터는올바른마음가짐으로현명하게재사용할때혁신과새로운서비스의원천이될수있다. 겸손과의지력, 경청을위한툴을보유한사람들은데이터에서비결을찾을수있다 라고 Viktor Mayer- Schonberger 씨와 Kenneth Cukier 씨는 2013 년에저술한서적 Big Data: A Revolution That Will Transform How We Live, Work, and Think 에서이야기합니다. 이러한툴중하나가 Hadoop 이며, Hadoop 의사용은현재널리확산되고있습니다. 1 Villars, Richard L. Managing Data Growth and Monetizing Information Value: The Role of Scale-Out Storage Solutions in the Expanding Universe of Digital Information and Big Data, IDC 백서, 2012 년 7 월 5
데이터분석은데이터저장과융합되는추세입니다 가까운시일내에대규모컨텐츠풀의관리, 구성및지속적인마이닝이많은데이터센터관리자모두에게중요한작업이될것이다. 강력한 빅데이터 솔루션을지속적인비즈니스프로세스에더많이사용하려면이두가지가함께발전해야한다 2 라고 Richard L. Villars 씨와 Benjamin Woo 씨는새로운빅데이터환경에서의경쟁상황에대한 IDC 백서에서지적합니다. 그런데현재데이터의가치를인지하고있는기업은별도의엔지니어를고용해 Hadoop 을실행할수있는독립실행형클라이언트컴퓨터그리드를구축하고데이터중심의컴퓨팅분석처리패러다임인 MapReduce 로데이터를분석하는경우가많습니다. 하지만엔지니어가데이터를분석하려면먼저하나이상의스토리지시스템에서 Hadoop 을실행하는시스템으로데이터를이동해야합니다. 데이터를클라이언트로가져오는작업은 HDFS 복사를여러번실행하거나전용 Hadoop 커넥터를사용해야하는복잡한작업이며시간이많이소모될뿐만아니라, 데이터확장또는변경시컴퓨팅그리드의시스템에다시데이터를로드해야하므로반복적으로수행해야합니다. 게다가일부데이터중심의워크로드는스토리지시스템에서추출한후 HDFS 에로드하기전에다른시스템에서데이터를처리해야합니다. 즉, ETL(Extract/Transform/Load) 워크플로우가필요합니다. 아울러데이터를 HDFS 에가져와서분석한후에결과를다른시스템으로내보내야합니다. 따라서이와같은방법으로분석용데이터를준비하는데는많은시간과비용이소모됩니다. 특히데이터저장, 보호및액세스와관련하여분산형스케일아웃아키텍처를구현하는것은조직이애플리케이션 중심에서데이터 / 정보중심의기업으로발전하기위한핵심토대이다. 데이터증가관리및정보가치를통한수익창출에대한 IDC 백서 2 컴퓨팅에서데이터분리 EMC Isilon 스케일아웃 NAS 는저장된데이터와데이터분석의융합을촉진합니다. 저장된데이터에서가치를이끌어내려는경우 Isilon 클러스터에구축된 HDFS 를사용하여데이터분석툴에스토리지시스템을알려줄수있습니다. 따라서애플리케이션개발자가데이터를컴퓨팅그리드로이동할필요없이데이터가있는스토리지에서바로컴퓨팅기능을실행할수있습니다. 저장된데이터와데이터분석이융합되면전체분석워크플로우의효율성이대폭향상됩니다. 스토리지시스템에서데이터를추출하여기존 Hadoop 구축환경에로드할필요가없고, 분석후에데이터를내보낼필요도없습니다. 경제적인방식으로분석워크플로우의효율성을향상시키면데이터중심적인기업으로보다신속하게전환할수있습니다. 한층더간편하고유연하게데이터를분석하는것은물론, CAPEX 와 OPEX 도절감할수있습니다. 2 Villars, Richard L. 및 Benjamin Woo. Managing Data Growth and Monetizing Information Value: Competing in the Expanding Universe of Digital Information and Big Data, IDC 백서, 2011 년 10 월 6
빅데이터용스케일아웃스토리지 EMC Isilon 스케일아웃플랫폼은모듈식하드웨어와통합소프트웨어를결합하여데이터이동없이데이터를분석하기위한스토리지토대를제공합니다. Isilon 스케일아웃 NAS는완벽한분산형시스템으로, 클러스터에배치된모듈식하드웨어노드로구성됩니다. 분산형 EMC Isilon OneFS 운영체제는노드의메모리, 입출력, CPU 및디스크를유기적인스토리지유닛으로결합하여글로벌네임스페이스를단일파일시스템으로표시합니다. 노드는비공유 (shared-nothing) 하드웨어아키텍처에서피어로함께작동하며완벽한이중화를구현합니다. 클러스터의각노드를통해용량, 성능및복구성능이추가되며각노드는 Hadoop NameNode 와 DataNode 의역할을수행합니다. NameNode 데몬은분산형프로세스로, 클러스터의모든노드에서실행됩니다. 노드가추가됨에따라파일시스템이동적으로확장되고데이터가재분배되기때문에디스크파티셔닝및볼륨생성작업이필요없습니다. 따라서엔터프라이즈스케일아웃 NAS 시스템의모든이점을제공하며효율성과복구성능이뛰어난스토리지아키텍처에분석용데이터를저장할수있습니다. Isilon 클러스터는다차원적으로확장되며, 데이터보호를최적화하고, SMB 및 NFS 같은표준네트워크프로토콜을통해기존워크플로우를지원하는동시에지능적으로데이터를관리하므로빅데이터를처리하기에매우적합합니다. 다차원적으로확장되는 Isilon 클러스터 : Hadoop 의경우확장성이하드웨어에만해당되는것이아니라처리량, 파일볼륨및 RAM 에도해당됩니다. Isilon 노드가추가될때마다메모리, 용량및 10GbE 네트워크연결이추가되고데이터보호의효율성이향상됩니다. Isilon 클러스터는운영중단없이 MapReduce 작업을계속실행하면서확장할수있습니다. 기존스토리지와달리 Hadoop 의 CPU, RAM 및디스크공간비율은워크로드에따라달라집니다. 이로인해 MapReduce 워크로드를측정하지않고는 Hadoop 클러스터를사이징하기가어렵습니다. 또한대개 Hadoop 을사용하여분석하는데이터는나날이점점빠른속도로증가하기때문에사전에사이징과관련한결정을내리는것이문제가됩니다. Isilon 스케일아웃 NAS 는노드를추가하여 CPU, RAM 및디스크공간을늘릴수있어동적인 Hadoop 워크로드의스토리지용량및성능요구사항을유연하게충족할수있습니다. 데이터보호를최적화하는 Isilon 클러스터 : Hadoop 을통해분석되는데이터는보호가필요한자산입니다. Isilon 클러스터에는이러한데이터보호요구사항을충족하는엔터프라이즈기능이포함되어있습니다. OneFS 운영체제는 HDFS 보다한층더효율적이고안정적으로데이터를보호합니다. 기본적으로 HDFS 프로토콜은데이터블록을세번복제합니다. 반면, OneFS 는클러스터전체로데이터를스트라이핑하며 FEC(Forward Error Correction) 코드를사용하여데이터를보호하므로복제보다공간을적게사용하고보호효과가뛰어납니다. 또한 Isilon 클러스터에는데이터를백업하고고가용성을제공하는엔터프라이즈기능이포함되어있습니다. 예를들어 DataNode 데이터를관리할때기존 Hadoop 시스템에서는데이터를다른시스템으로백업하는것이권장방안인데, 이작업은 Hadoop RCP 와같은툴을사용하여무작위로수행해야합니다. 한편, OneFS 의가용성기능으로는클론, NDMP 백업, 동기화, 자동화된클러스터복제및페일오버, 스냅샷, 파일시스템저널, 가상핫스페어, 바이러스백신, IntegrityScan, 동적섹터복구, 신속한드라이브재구축기능등이있습니다. OneFS 의데이터가용성기능에대한자세한내용은 Isilon: Data Availability & Protection 백서를참조하십시오. 7
기존워크플로우를지원하는 Isilon 클러스터 : HDFS 복사작업을실행하여컴퓨팅그리드의 Hadoop 클라이언트로데이터를이동하는대신기존워크플로우를사용하여데이터를저장할수있습니다. EMC Isilon 클러스터는 HDFS 뿐만아니라 SMB, NFS, HTTP, REST, FTP 를사용한멀티프로토콜데이터액세스기능을제공합니다. 기존워크플로우를지원하는것은조직의데이터분석역량을발전시키는데있어매우중요합니다. 이경우비즈니스부서에서 IT 에크게의존하지않고데이터를분석할수있기때문입니다. Hadoop 애플리케이션개발자를통해번거롭게 HDFS 를구축하고 HDFS 로데이터를이동할필요없이비즈니스부서의담당자가기존워크플로우, 특히 SMB 및 NFS 를사용하여분석할데이터를취합하고관리할수있습니다. 이러한변화를통해기업차원에서미래에대비하여데이터기반분석역량을갖추는것은물론핵심비즈니스에데이터분석을즉시활용할수있습니다. 예를들어기술지원담당자가 1 년분량의지원케이스에서로그데이터를취합한후로그파일을파일서버에저장한경우, 지원관리자가데이터를이동하지않고바로분석하여반복적인문제의패턴을파악함으로써문제가발생할수있는경우를예측하고시스템에영향을미치기전에문제를해결할수있습니다. 2012 년 MITSloan Management Review 에게재된한문서는이러한변화에대해다음과같이요약하고있습니다. 앞서가는조직은분석작업을 IT 부서에서핵심비즈니스및운영부서로이관하고있다. 빅데이터의대두와함께끊임없이정보를공유하고의사결정을최적화하며결과를전달하고비즈니스를위한새로운통찰력을창출하는네트워크인새로운정보생태계가대두되고있다. 3 Isilon 클러스터는 POSIX 파일시스템에대한 HDFS 액세스를지원함으로써이러한생태계를위한토대를마련합니다. 지능적인데이터관리를지원하는 Isilon 클러스터 : OneFS 는스토리지풀, 데이터중복제거, 자동계층화, 할당량, 고성능 SSD, 용량이최적화된 HDD, EMC Isilon InsightIQ 를사용한모니터링기능등을제공합니다. 예를들어데이터중복제거기능은데이터를저장하는데필요한공간을줄여줍니다. OneFS 의사후처리중복제거기능은디스크에저장된동일한데이터의중복블록을제거하고해당블록을섀도우저장소에대한포인터로대체하며, 쓰기작업중이아니라데이터가디스크에저장된후에데이터를분석하여동일한블록을파악하므로데이터쓰기또는수정과같은파일작업의성능에영향을미치지않습니다. OneFS 에서는보안을위해 Kerberos 프로토콜을사용하여 HDFS 접속을인증할수있습니다. EMC Isilon SmartLock 은실수로, 성급한판단으로또는악의적으로중요데이터를변경하거나삭제하는것을방지하여 SEC 17a-4 규정을준수할수있도록지원합니다. OneFS 의엔터프라이즈기능에대한자세한내용은 EMC Isilon 스케일아웃 NAS 기반의 Hadoop 구축 백서를참조하십시오. 3 Davenport, Thomas H., Paul Barth, Randy Bean. How Big Data Is Different, MITSloan Management Review. 2012 년가을 8
생명과학분야의활용사례실제활용사례는 Isilon 클러스터가변화하는워크로드에맞춰동적으로확장된다는점을잘보여줍니다. 생명과학분야의조직은게놈데이터분석에적합한 Hadoop을조기에도입하고있지만, 과학자들은데이터폭증문제로곤혹감을나타내고있습니다. Will Computers Crash Genomics 라는문서에서는게놈시퀀싱시장의총용량이기하급수적으로증가하고있다고지적합니다. 2010년에약 200PB였던총용량이 2012년후반에약 1EB로증가했습니다. 4 이러한데이터급증으로신속하고효율적으로확장할수없는스토리지기술은외면당하고있습니다 ( Hadoop in the Life Sciences: An Introduction, EMC Isilon 참조 ). 생명과학워크플로우에서는게놈변이파악을위한데이터처리및분석에 HPC(High Performance Computing) 인프라스트럭처를사용해야하며데이터보존을위해스토리지를적절히확장할수있어야합니다. 매주시퀀서를실행할때마다원시이미지를제외하고최대 2TB의데이터가생성되는차세대게놈시퀀싱워크플로우에서는 HPC와손쉽게통합할수있는스케일아웃스토리지가필수입니다. EMC Isilon은현존하는거의모든차세대 DNA 시퀀싱워크플로우를위한스케일아웃스토리지를제공했습니다. 생명과학분야에서 300여고객이 EMC Isilon 스케일아웃 NAS를사용하고있으며, 생명과학분야에서설치된 EMC Isilon 스토리지용량은 65PB에달합니다. Isilon 스케일아웃 NAS 에서 Hadoop 의작동방식 Isilon 클러스터는데이터를컴퓨팅에서분리합니다. Hadoop 클라이언트가 MapReduce 작업을실행할때클라이언트는 HDFS 를통해 Isilon 클러스터에저장된데이터를액세스합니다. OneFS 는 MapReduce 클라이언트의기본 HDFS 구축환경이됩니다. OneFS 는모든노드에 HDFS 프로토콜의서버측작업을구현하며, 각노드는 NameNode 와 DataNode 의역할을모두수행합니다. 그러나 Isilon 노드는 Job Tracker 또는 Task Tracker 의역할을수행하지않으며, 이러한기능은계속 Hadoop 클라이언트에서수행됩니다. OneFS 에는보조 NameNode 의개념이없습니다. 모든 Isilon 노드가 NameNode 역할을수행하기때문에내부 NameNode 트랜잭션로그를확인하는보조 NameNode 의역할이필요없습니다. 클러스터는포함된노드전체로 HDFS 접속을로드밸런싱합니다. OneFS 는 Hadoop 데이터를클러스터전체로스트라이핑하고파일레벨에서패리티블록을사용하여보호하기때문에모든노드에서 DataNode 트래픽과파일블록에대한 NameNode 요청을동시에처리할수있습니다. 가상랙기능은데이터인접성원리와유사합니다. 예를들어성능최적화나네트워크토폴로지구성을위해필요한경우가상노드랙을생성하여컴퓨팅클라이언트를클라이언트의네트워크스위치와가장가까운노드에할당할수있습니다. Hadoop 클라이언트는 MapReduce 작업을실행할때 HDFS 를통해클러스터에연결되지만데이터는 SMB, HTTP, FTP, REST, NFS 를비롯한다른일반적인애플리케이션계층네트워크프로토콜을통해클러스터에저장하고관리할수있습니다. 예를들어 NFS 를통해데이터를로드하고, HDFS 를통해분석한후, SMB 를통해내보내거나공유할수있습니다. HDFS 를통해시간이많이소모되는복사작업을사용하여데이터를저장하거나, 번거로운 Hadoop FS 명령을사용하여데이터를관리할필요가없습니다. 대신 chmod, chown, ls, cp 같은표준 Linux 명령을사용하여파일을관리할수있습니다. 즉, 익숙한 Linux 명령으로사용하여 Hadoop 파일을관리함으로써시간을절약하고데이터관리를간소화할수있습니다. 4 Pennisi, Elizabeth. Science 331 No. 6018 (2011 년 2 월 ): 666-668. 9
지원되는배포판 EMC Isilon 클러스터는컴퓨팅을위한플랫폼종류를구분하지않으므로특정공급업체에종속되지않습니다. Apache Hadoop, Hortonworks Data Platform, Cloudera, Pivotal HD 를비롯한일반적인 Hadoop 배포판의대부분을 Isilon 클러스터에서실행할수있습니다. Isilon Hadoop 라이센스가활성화되면클러스터에서자동으로클라이언트의 Hadoop 배포판을감지합니다. 서로다른 Hadoop 배포판또는버전을실행하는클라이언트에서클러스터에동시에연결할수있습니다. 예를들어 Cloudera 와 Pivotal HD 모두가 Isilon 클러스터에있는동일한데이터를가리키도록할수있으며, 두배포판에서동시에 MapReduce 작업을실행할수있습니다. OneFS 7.0.2.2 이상을실행하는 EMC Isilon 클러스터는다음 Hadoop 배포판및프로젝트를지원합니다. 이전버전의 OneFS 도이러한배포판및프로젝트의대부분을지원합니다. 자세한내용은 EMC Isilon 담당자에게문의해주십시오. Apache Hadoop 0.20.203 Apache Hadoop 0.20.205 Apache Hadoop 1.0.0~1.0.3 Apache Hadoop 1.2.1 Apache Hadoop 2.0.x Cloudera CDH3u2 Cloudera CDH3u3 Cloudera CDH3u4 Cloudera CDH3u5 Cloudera CDH4.2 Cloudera Manager CDH4 Greenplum HD 1.1 Greenplum HD 1.2 Hortonworks Data Platform/Apache 1.0.3 Pivotal HD 1.0.1 HAWQ 1.1.0.1 Apache HBase Apache Hive Apache Pig 10
가용성 Isilon 아키텍처는뛰어난복구성능을위한토대를제공함으로써데이터가용성및데이터보호를보장합니다. 2013 년보고서 Critical Capabilities for Scale-Out File System Storage 에서 Gartner 는 EMC Isilon 을복구성능이가장우수한스토리지로평가했습니다. 복구성능은높은수준의시스템가용성과업무가동시간을제공하는데필수적인플랫폼의기능입니다. 5 Isilon 클러스터에는가용성을보장하기위해다음과같은기능이포함되어있습니다. 완벽한이중화독보적인수준의데이터보호여러장애가동시에발생하는시나리오에서도가용성유지완벽한분산형단일파일시스템사전예방적장애감지신속한드라이브재구축유연하고효율적인데이터보호저널을통해파일시스템전체보호일시적인높은가용성 NameNode 이중화 DataNode 로드밸런싱 Hadoop 을위한 OneFS 의가용성기능에대한자세한내용은 EMC Isilon 스케일아웃 NAS 기반의 Hadoop 구축 백서를참조하십시오. 하드웨어 Isilon 클러스터는고도로이중화된아키텍처를기반으로, 하드웨어를공유하지않는것을전제로하여구축됩니다. 클러스터의기본빌딩블록은플랫폼노드입니다. 랙마운트형어플라이언스인노드에는 2U 또는 4U 랙마운트형섀시가포함되며이섀시에는메모리, CPU, RAM, NVRAM(Non-Volatile RAM), 네트워크인터페이스, InfiniBand 어댑터, 디스크컨트롤러, 스토리지미디어와같은구성요소가포함되어있습니다. 이중화된 InfiniBand 어댑터는모든노드를접속하는분산시스템버스를제공하며, 각노드에는배터리로작동하는파일시스템저널디바이스가장착되어있습니다. NVRAM 은전원장애가발생할경우쓰기작업을보호하도록그룹화됩니다. Hadoop 환경에서는 RAM 이중요합니다. Hadoop 작업은일반적으로많은순차읽기스레드로구성됩니다. Isilon 클러스터의대용량 L2 캐시는각노드의 DRAM 의대부분을사용하며순차읽기스레드를갖는 MapReduce 작업을지원합니다. 5 Critical Capabilities for Scale-Out File System Storage, Gartner, Inc. 2013 년 1 월 24 일 11
네트워크 클라이언트컴퓨터는이중 1GbE 또는 10GbE 네트워크연결을통해클러스터의모든노드를액세스할수있습니다. 클라이언트접속은기본적으로라운드로빈 (round-robin) 로드밸런싱을통해클러스터전체에분산됩니다. 네트워크측면에서는 Isilon 의 LNI(Logical Network Interface) 프레임워크를통해여러인터페이스를손쉽게결합하고관리할수있는강력하고동적인추상화환경을제공함으로써네트워크복구성능을보장합니다. LACP(Link Aggregation Control Protocol) 와 LAGG 를활용하여여러네트워크인터페이스를함께트렁킹함으로써대역폭을통합할수있습니다. EMC Isilon SmartConnect 라이센스를사용하면단일서브넷에서여러 DNS 존 (zone) 을지원하는 IP 주소풀과 IP 페일오버를통해네트워크복구성능을한층더강화할수있습니다. 파일시스템 클러스터의확장성이뛰어난파일시스템은플래시드라이브에저장된 root 및 /var 볼륨에대한미러링된볼륨을제공합니다. 또한 OneFS 는마지막으로확인된정상부팅파티션을저장하여복구성능을더욱향상시킵니다. 데이터보호개요 OneFS 는 HDFS 보다한층더효율적인방식으로데이터를보호합니다. 기본적으로 HDFS 프로토콜은데이터블록을세번복제하여데이터블록을보호하고그가용성을높입니다. 한편, OneFS 는데이터를복제하는대신내부 InfiniBand 네트워크를통해클러스터전체로데이터를스트라이핑하여 FEC(Forward Error Correction) 코드로보호합니다. FEC 를사용하면데이터보호의효율성과신뢰성을극대화할수있습니다. FEC 는파일데이터를분산기호세트로인코딩하여공간효율성이뛰어난이중화를추가합니다. OneFS 는기호세트의일부만사용하여원본파일데이터를복구할수있습니다. 5 개이상의노드가있는클러스터에서는 FEC 가최대 80% 의효율성을제공합니다. 또한클러스터에노드를추가함에따라데이터보호의효율성이증가합니다. FEC 코드를사용하여데이터를스트라이핑하면데이터를세번복제하는경우보다스토리지공간이훨씬더적게사용됩니다 ( 드라이브를최대 2.5 배더적게사용 ). 데이터를스트라이핑하면노드에접속되는 Hadoop 클라이언트에서전체클러스터의성능을활용하여데이터를읽거나쓸수있습니다. 효율적인데이터보호 OneFS 와기존 HDFS 구축환경의데이터보호효율성은그차이가매우큽니다. 4PB 의유효용량목표지원과관련하여기존 HDFS 와 OneFS 간의차이가다음표에정리되어있습니다. 파일시스템용량목표오버헤드를포함한사용량설명 HDFS 4PB 12PB 의디스크공간 4PB + 각블록의복제본 3 개 OneFS 4PB 5PB 의디스크공간 4PB + FEC 보호 Isilon 데이터보호체계를사용하면 Isilon 클러스터용량의 80% 이상을활용할수있어데이터분석워크플로우의효율성이향상됩니다. 모든블록을세번복제하는 HDFS 와달리, Isilon 의데이터보호방식은매우효율적이므로 ROI(Return on Investment) 와 TCO(Total Cost of Ownership) 가최적화됩니다. 12
예를들어기업에서 4PB 의 Hadoop 데이터저장이필요한경우기본 3 배미러링을사용하여데이터를저장하는일반적인 Hadoop 클러스터라면 12PB 가넘는물리적데이터용량을구입해야합니다. 하지만 OneFS 의경우에는동일한용량의 Hadoop 데이터 4PB 를 Isilon 클러스터에저장하는데 5PB 의물리적디스크용량만있으면충분하며추가적인데이터보호기능도제공합니다. 따라서상당한 CAPEX 절감효과를얻을수있으며관리해야하는인프라스트럭처환경도훨씬간소화됩니다. HDFS 클라이언트에서복제레벨을설정하는경우 OneFS 가이를무시하고대신 Hadoop 데이터가포함된디렉토리또는파일풀에설정된보호수준을사용합니다. 기본적으로 OneFS 는동시액세스를위해스트라이핑을최적화합니다. 하지만 Hadoop 을사용할때는주요데이터액세스패턴이스트리밍이될수있습니다. MapReduce 작업의순차읽기성능을높이기위해 OneFS 가스트리밍액세스패턴에맞춰데이터를배치하도록설정할수있습니다. 스트리밍액세스처리를향상시키기위해 OneFS 는더많은드라이브에데이터를스트라이핑합니다. 스트리밍은대용량파일을제공하거나대규모컴퓨팅작업을처리하는디렉토리또는하위풀에서가장효과적입니다. NameNode 이중화 각 Isilon 노드는 NameNode 와 DataNode 의역할을모두수행합니다. 모든노드에서 OneFS HDFS 서비스를실행하기때문에각노드에서파일블록에대한 NameNode 요청과 DataNode 트래픽을동시에처리할수있습니다. 따라서 Isilon 의표준 Best Practice 를따라클라이언트가클러스터의 SmartConnect 존 (zone) 에포함된 DNS 항목에접속되도록설정하는한, 클러스터에서기본적으로 NameNode 이중화를제공합니다. 결과적으로완벽한이중화를실현할수있습니다. SmartConnect 는라운드로빈라우팅을통해 NameNode 세션을분산시킵니다. 방법은다음과같습니다. Hadoop 클라이언트가 NameNode 에처음접속하면 OneFS 가트래픽을특정노드로라우팅하여해당노드가클라이언트의 NameNode 역할을수행합니다. 클라이언트의후속 NameNode 요청은동일한노드로전달됩니다. 두번째 Hadoop 클라이언트가해당클러스터의 SmartConnect DNS 항목에접속하면 OneFS 가기본적으로라운드로빈을사용하여트래픽을밸런싱하고접속을이전클라이언트에서사용한것과다른노드로라우팅합니다. 이런식으로 OneFS 는 NameNode 접속을클러스터전체로균일하게분산함으로써 TeraSort 와같은읽기 / 쓰기가많은트래픽의성능을대폭향상시킵니다. 클라이언트가 NameNode 로사용하는노드의작동이중지될경우 SmartConnect 가해당접속의 IP 주소를다른노드로이동하고, 이동한노드에서작동중지된노드에접속된 Hadoop 클라이언트의 NameNode 트래픽을처리합니다. NameNode IP 주소를다른노드로재할당하면실행중인접속이일시적으로중단될수있지만 MapReduce 작업은계속실행됩니다. 하지만체크포인트에서재시작해야하는작업이있을수있습니다. DataNode 로드밸런싱 OneFS 는라운드로빈라우팅을사용하여 DataNode 전체로접속을로드밸런싱합니다. 컴퓨팅클라이언트에서 Isilon 노드에요청을제출하면해당노드가 NameNode 역할을수행하며동적으로 DataNode 에응답합니다. 13
아키텍처 Isilon 스토리지아키텍처 OneFS HDFS 서비스는클러스터의스케일아웃아키텍처와분산형파일시스템을사용합니다. 각노드는리소스를클러스터에추가합니다. 각노드는전체적인정합성을갖는 RAM 을포함하고있기때문에클러스터가확장될때 MapReduce 작업을위한데이터를더욱신속하게처리할수있습니다. 컴퓨팅클라이언트는모든노드에접속하여 MapReduce 작업을위한데이터를액세스할수있습니다. OneFS 는 Hadoop 클라이언트접속을클러스터의모든노드로분산시킵니다. 클러스터에노드를추가하면클러스터의디스크, 캐시, CPU, RAM 및네트워크의총용량이늘어납니다. OneFS 는 RAM 을정합성이보장되는단일캐시로그룹화하므로노드에데이터요청이발생하면어디서든캐시에저장된데이터를가져옵니다. NVRAM 은높은처리속도로데이터를쓰고전원장애가발생할경우 HDFS 쓰기작업을보호하도록그룹화됩니다. 클러스터가확장됨에따라결합되는디스크와 CPU 가늘어나처리량, 용량및 IOPS 가증가합니다. 한편, Hadoop 파일시스템은동적으로확장되고컨텐츠를재분배하므로컴퓨팅클라이언트에스토리지를추가할필요가없습니다. MapReduce 작업을중단하지않고클러스터에 Isilon 노드를추가할수있습니다. 따라서스케일아웃 Isilon 클러스터를사용하면 Hadoop 데이터의스토리지관리가대폭간소화되어더적은인력으로더많은스토리지를관리할수있습니다. 무엇보다, Isilon 클러스터에데이터를저장하면 Hadoop 애플리케이션개발자가스토리지관리자에게업무를이관하여스토리지관리에서해방될수있고, 그에따라본연의업무인데이터분석용애플리케이션개발에집중할수있습니다. Hadoop 클라이언트에데이터를저장하는경우와달리, Isilon 클러스터에데이터를저장하면스토리지와관련된전력, 냉각및기타비용이절감됩니다. 결과적으로 DAS(Direct Attached Storage) 를사용하여 12PB 용량의일반적인 Hadoop 클러스터를실행하는데필요한것보다훨씬적은전력과랙공간으로 5PB Isilon 클러스터에서동일한양의데이터저장요구사항을충족할수있습니다. 현재 EMC Isilon OneFS 파일시스템은단일파일시스템및단일글로벌네임스페이스에서 20PB 이상까지확장할수있습니다. 또한이러한대규모용량에서초당 85GB 의동시처리량까지확장이가능합니다. Hadoop 워크플로우의용량및성능요구사항에비례하여 OneFS 를확장하는방법에대한자세한내용은 SPECsfs2008 벤치마킹결과 (www.spec.org) 를참조하십시오. 랙지원 OneFS 에서는가상노드랙을생성하여 Hadoop 컴퓨팅클라이언트의풀을클라이언트의주네트워크스위치와가장가까운 DataNode 풀에할당할수있습니다. 또한가상랙을사용하면 OneFS 가접속이원활하지않은네트워크에있어연결할수없는 DataNode 로컴퓨팅클라이언트를라우팅하는것을방지할수있습니다. 가상랙은데이터인접성의원리와유사합니다. 가상랙은클라이언트가클러스터에접속할때 OneFS 에서풀에있는 DataNode 중하나에접속을할당하도록클라이언트의 IP 주소를 DataNode 풀과연결합니다. 예를들어가상랙은이와같은방식을사용하여최적의네트워크스위치를통해클라이언트의접속을라우팅할수있습니다. 이는 TOR(Top of Rack) 스위치를통한트래픽을최소화하는동시에읽기처리지연시간을줄여성능을향상시킵니다. 구체적으로설명하면, 가상랙은랙의두 DataNode 를시뮬레이션하고다른랙의세번째 DataNode 를시뮬레이션하여네트워크스위치토폴로지의 DataNode 배치를최적화합니다. NameNode 는 3 개의 IP 주소를 Hadoop 클라이언트의데이터읽기요청으로반환할때 DataNode 를선택합니다. OneFS HDFS 데몬은접속중인클라이언트를확인한후한랙에서첫번째및두번째 DataNode 의 IP 주소와다른랙에서세번째 DataNode IP 주소를반환합니다. 14
Pivotal Data Computing Appliance 와같은 Hadoop 클라이언트는가상랙을사용하여네트워킹스위치에장애가발생한경우에도노드에접속할수있습니다. 예를들어클라이언트가두개의네트워킹스위치 ( 주스위치하나와 TOR 스위치하나 ) 에접속할경우, TOR 스위치에장애가발생하더라도가상랙을통해클라이언트가 DataNode 에접속할수있습니다. 이러한경우클라이언트는주스위치를통해 Isilon 클러스터로접속합니다. Hadoop 클라이언트는풀에할당된인터페이스를사용하여 HDFS 를통해 DataNode 에접속합니다. EMC Isilon SmartPools 를사용하여풀을추가한후에는클러스터에접속되는클라이언트의 IP 주소할당을변경할수있습니다. 자세한내용은 OneFS Command Reference 또는 OneFS Administration Guide 를참조하십시오. OneFS 의 HDFS 아키텍처 OneFS 는모든노드에 HDFS 프로토콜의서버측작업을구현합니다. OneFS 의 HDFS 아키텍처는 isi_hdfs_d 라는데몬을통해단일스레드풀을사용합니다. 이데몬은각 HDFS 접속에스레드를할당하여 NameNode 에대한 RPC 호출과 DataNode 에대한읽기 / 쓰기요청을처리합니다. NameNode 는클러스터의모든노드에상주합니다. HDFS 클라이언트는 NameNode 에접속하여 OneFS 파일시스템의메타데이터를쿼리하거나수정합니다. 메타데이터에는파일스트림을위한데이터의논리적위치, 즉블록이상주하는 DataNode 의주소가포함되어있습니다. HDFS 클라이언트는 NameNode 의 RPC 인터페이스를통해메타데이터를수정할수있습니다. OneFS 는 HDFS 파일데이터와동일한보호수준으로 HDFS 메타데이터를보호합니다. 실제로 OneFS 에서모든메타데이터를처리하므로메타데이터관리나백업에신경쓸필요가없습니다. Isilon 에서는 NameNode 데몬이 HDFS 의미체계와데이터레이아웃을 OneFS 의미체계와파일레이아웃으로변환합니다. 예를들어 NameNode 는파일의경로, 오프셋및 LEN 을블록 ID 목록및생성스탬프로변환합니다. 또한 NameNode 는클라이언트의상대경로요청을 LIN 으로변환한후 DataNode 주소와블록위치를클라이언트에반환합니다. DataNode 는파일블록을저장합니다. 구체적으로, DataNode 는블록을블록데이터에매핑합니다. HDFS 에서는블록이파일의일부를참조하는 inode-offset 쌍입니다. OneFS 를사용하면 HDFS 블록의크기를설정하여성능을최적화할수있습니다. Hadoop 클라이언트는 DataNode 에접속하여블록을읽거나쓸수있지만블록을두번쓰거나블록을삭제할수는없습니다. 블록을 DataNode 로전송하기위해 HDFS 클라이언트는블록을패킷으로캡슐화하여 TCP/IP 접속을통해전송합니다. Isilon HDFS 데몬은제로 (0) 복제시스템호출을수행하여파일시스템에서블록을읽거나씁니다. OneFS 에서는 DataNode 가디스크에서패킷을읽고씁니다. 쓰기작업을관리하기위해 OneFS 는 HDFS 의 Apache 와동일한쓰기의미체계를구현합니다. 즉, 파일이추가만가능하고한번에한클라이언트에서만쓸수있습니다. 동시쓰기는서로다른파일에만수행됩니다. Apache 와마찬가지로 OneFS 는파일당한번의잠금을허용하며만료된클라이언트의잠금해제또는리스 (lease) 를위한메커니즘을제공합니다. 15
결론 EMC Isilon 클러스터는데이터분석용빅데이터스토리지를최적화합니다. Hadoop 클라이언트와함께 Isilon 스케일아웃 NAS 및 OneFS 로구현된 HDFS 를사용하면다음과같은이점을얻을수있습니다. HDFS 를사용하여데이터를가져오고내보내느라시간을소모하지않고 NFS, HTTP, SMB 같은기존워크플로우와프로토콜을사용하여분석데이터저장 세번의복제작업을거치는대신 FEC(Forward Error Correction) 를사용하여효율적이고안정적이며경제적인방식으로데이터보호 스냅샷, 데이터중복제거, 클론, 복제와같은엔터프라이즈기능을사용하여데이터관리 분산된 NameNode 데몬을사용한 NameNode 이중화를통해완벽한이중화구현 데이터를마이그레이션하거나메타데이터를수정하지않고도 HDFS 1.0 과 2.0 을동시에지원 Cloudera, Pivotal HD, Apache Hadoop, Hortonworks Data Platform 을비롯한여러 Hadoop 배포판을동일한데이터세트에대해동시에실행 Kerberos 를통해 HDFS 클라이언트의보안을구현하고 Hadoop 데이터의 WORM(Write Once Read Many) 보호를통해규정준수요건충족 컴퓨팅과독립적으로스토리지를확장하며급증하는데이터세트처리 기하급수적으로증가하는빅데이터를처리하도록다차원적으로확장가능한 EMC Isilon 클러스터를 Hadoop 에사용하면데이터분석과엔터프라이즈스케일아웃스토리지의이점을동시에누릴수있습니다. 이를통해변화하는스토리지요구사항을충족하며용량과성능을경제적인방식으로운영중단없이추가하는한편스토리지오버헤드를최소화하고즉각적인분석을통해데이터를활용할수있습니다. 16
EMC 소개 EMC Corporation 은전세계모든기업과서비스공급업체가기존운영환경과업무수행방식을혁신하고새로운 ITaaS(IT as a Service) 를실현할수있도록지원하는세계적인기업입니다. 이러한변화와혁신의중심에는바로클라우드컴퓨팅이자리잡고있습니다. EMC 는혁신적인제품과서비스를제공함으로써클라우드컴퓨팅환경으로의전환을보다빠르게실현할수있도록돕는동시에, 모든 IT 조직이빠르게변화하는오늘날의비즈니스환경에능동적으로대처하며비즈니스에중요한정보자산을더욱안전하고신뢰할수있으며경제적인방식으로저장하고관리하며보호및분석할수있도록지원하고있습니다. EMC 에대한자세한정보는 korea.emc.com 을참조하십시오. 17