4 차산업혁명시대, AI 업계가스토리지에대한고정관념을바꿔야하는 이유 로이킴 (URoy Kim) 2017.07.20 4 차산업혁명으로인한변화가 AI( 인공지능 ) 및머신러닝기술발전에힘입어다양한산업 분야와실생활속으로빠르게확대되고있다. 1 차산업혁명을거치며농경사회가산업사회로 바뀌었고, 2 차산업혁명으로산업사회는대량생산의시대에접어들었으며, 이어진 3 차 산업혁명에서는디지털시대로의전환이이루어졌다. 지능형기계및서비스를중심으로한 4 차 산업혁명은여러기술들의통합으로새로운비즈니스와산업을주도하며다시한번사회를 대대적으로변화시킬전망이다. 모든산업이데이터분석을통한통찰력으로부터혜택을얻고있다. 데이터를통찰력으로 전환하는역량이이제기업경쟁력을가늠하는척도가되고있다. 헬스케어분야를예로들면, 미국의대형병원사업자마요클리닉 (Mayo Clinic) 의신경방사선의들은 MRI 스캔을통해 질병과관련된특정한유전자패턴을알아내는데 AI 를사용하고있다. 이를통해종양조직샘플 및유전자데이터채취를위한뇌수술의필요성을없애고있다. 소비재분야에선아마존이 자율주행차에서사용되는센서와 AI 기술을활용해계산대가필요없는오프라인자동화식료품 매장인아마존고 (Amazon Go) 를운영하고있다. 농업분야에선미국의스마트농기계제공 기업인블루리버테크놀로지 (Blue River Technolog) 가 AI 엔진을장착한레터스봇 (LettuceBot) 을 개발하고미국총상추생산량의 10% 를수확하고있다. 이로봇은밭에서상추를식별하고 실시간으로수확량을측정및최적화할수있다.
[ 그림 1] 블루리버테크놀로지의레터스봇은머신러닝기술을적용하여농약사용량을 감소시키고수확량을극대화한다. AI 의 3 가지핵심기술은딥러닝, 그래픽처리장치 (GPU) 및빅데이터다. 딥러닝은인간의뇌를 형상화한방대한병렬신경망에기반한새로운컴퓨팅모델이다. 딥러닝은전문가들이 소프트웨어를만드는것이아니라, 딥러닝모델자체가다양한예시들을학습하여스스로 소프트웨어를개발하고향상시킨다. GPU 는수천개의코어로구성된최신프로세서로, 인간 뇌의병렬적인특성을본딴알고리즘을실행하는데필요한강력하고도높은성능을제공한다. 이러한딥러닝및 GPU 는 AI 에대한접근방식을혁신적으로변화시키고있다. 업계전문가들에따르면, 향후 2 년안에주요딥러닝알고리즘을실행하는데요구되는 처리능력은 15 배증가하며, GPU 가제공하는처리성능은 10 배향상될것으로예상된다. 이는 AI 의세번째중요기술인빅데이터와도연결된다. 현재비정형데이터의양이폭증하고있는 반면, 이러한데이터를보관하고있는기존의스토리지는수십년전에개발된프로토콜및 소프트웨어를사용하고있다. 딥러닝및 GPU 는대규모병렬처리를이용하지만, 레거시 스토리지아키텍처는직렬연결방식에맞춰설계됐다. 이로인해 CPU 와레거시스토리지간의 성능격차가점점더벌어지고있다.
[ 그림 2] 2015 년마이크로소프트 (Microsoft) 의레스넷 (Resnet) 과 2017 년구글 (Google) NMT 간의딥러닝학습에필요한연산성능비교 Tesla M40 피크 FLOPS vs Tesla V100 피크 FLOPS 컴퓨트비교 데이터는 4 차산업혁명시대기업들의비즈니스에가장중요한자산이되고있으며, 이에대규모 데이터를빠르게전송및분석하도록지원하는최신기술에대한수요가점차증가하고있다. 하지만시장에는아직수십년전에개발된시스템이존재하며, 기업들이이러한오래된 시스템으로최신데이터를공유및분석한다는것은우려할만한일이다. 레거시스토리지는 기업들의데이터를매우느리게전송하고분석하여기업들이최신머신러닝의성능을 활용하는데장애요소가되고있다. 레거시스토리지의직렬방식은방대한양의데이터를 가느다란빨대와같은매우좁은연결통로로전송하는것과같으며, 이로인해빅데이터분석을 통한인사이트도출이불가능해질수도있다. 지능형분석을위한현대적인데이터플랫폼은 기존스토리지와다르게처음부터재구성되어야한다. 4 차산업혁명시대에적합한스토리지 플랫폼은빅데이터분석을위해앞서언급한모든요소들을충족시켜야한다. AI 를위한모든요구사항을충족시키는플래시블레이드 (FlashBlade)
플래시블레이드는세계최고의퓨어스토리지엔지니어들이 AI 의방대한병렬처리요구를 충족시킬목적으로설계한혁신적인스케일 - 아웃데이터플랫폼이다. 엔지니어들은 페타바이트 (PB) 급용량은물론, 가장쉬운구축및운영을제공하면서레거시스토리지의한계를 벗어난초고속성능을갖춘스토리지아키텍처를고안하고자했다. 이를통해퓨어스토리지는 딥러닝에필요한모든요소를충족시키도록설계됐다. 딥뉴럴네트워크 (Deep Neural Network) 는하나의문제를해결하기위해수백에서수십억개의 신경세포들이상호연결될수있도록지원하는대규모병렬처리모델이다. 기존의 CPU 와 비교해, GPU 는방대한병렬프로세서로수천개의컴퓨트코어가느슨하게연결되어 CPU 대비 10 배에서 100 배높은성능을제공한다. 플래시블레이드는높은가용성과성능을동시에 보장하는단일한운영체제인퓨리티 (Purity) 소프트웨어로가동되며, 방대한병렬처리가가능한 플랫폼이다. 수만대의클라이언트에수십억개의오브젝트및파일에대한액세스를동시에 고성능으로제공한다. [ 그림 3] 모든 AI 플랫폼설계에는방대한병렬처리가핵심이되야한다.
15 개의블레이드로구성된플래시블레이드의 4U 랙공간에는 120 개제온 (Xeon) D CPU 코어및 45 개 FPGA 가최첨단엘라스틱패브릭모듈 (Elastic Fabric Module) 에연결돼있다. 이를통해 3 밀리초미만의레이턴시, 초당 17GB 의읽기성능및 150 만 IOPS 를제공한다. 또한 플래시블레이드는최대 75 개의블레이드까지확장가능하며, 8PB 용량에서최대초당 75GB 의 읽기, 초당 25GB 의쓰기및 750 만 IOPS 까지성능을선형적으로확장시킬수있다. 또한 3:1 의 데이터압축기술을적용하여이러한모든성능을 ½ 랙에구현가능하다. [ 그림 4] 75 개의블레이드를하나의시스템으로운영할수있도록지원하는플래시블레이드 [ 그림 4] 는 75 개의블레이드로구성된플래시블레이드를어떻게확장시킬수있는지, 그리고 사용자애플리케이션은이러한확장성을어떻게인식하는지를잘보여준다. 그러나실제 데이터센터에서플래시블레이드는표준랙마운트를사용해 5 개의섀시에각 15 개블레이드씩 구현되고있다.
[ 그림 5] 8PB 플래시블레이드 플래시블레이드를구동하는엔진은퓨리티소프트웨어다. 방대한분산시스템을위해설계된 퓨리티는효율적으로확장가능한스케일 - 아웃아키텍처에기반하고있다. 플래시블레이드의 데이터는키 - 값스토어아키텍처로저장되어수천개의병렬에이전트를가능하게한다. 각 에이전트는글로벌네임스페이스 (Global Namespace) 를보유하고있으며, 대규모파일및 오브젝트를처리할수있도록최적화되어성능을대폭향상시킬수있다. [ 그림 6] 플래시블레이드의퓨리티운영체제는현대적인키 - 값페어아키텍처를기반으로진정한 스케일 - 아웃성능을제공한다. 플래시블레이드의핵심, 병렬성 현대적인스토리지시스템에있어병렬아키텍처는매우중요한요소다. 글로벌파티션파일 시스템 (GPFS), 러스터 (Lustre) 파일시스템에및다른기존의고성능컴퓨팅 (HPC) 스토리지를
구현하는작업은마치딥러닝학습을위해수백대의상용서버를구축하는과정에비유할수 있다. 이렇게힘든과정을거쳐구축된환경은엔비디아 DGX-1(NVIDIA DGX-1) 만큼의 고성능을제공하기도한다. 수백개의부품과케이블로구성된복잡한데이터센터인프라는 시스템장애가발생할가능성이높으며, 어떠한데이터과학자들도이러한시스템을원하지않을 것이다. 플래시블레이드는 DGX-1 과같이전례없는성능및효율성을제공하며, 하드디스크드라이브 (HDD) 5,000 개에달하는 IOPS 성능및 10 개의랙으로구성된스토리지에 준하는성능을제공한다. 다른공급업체들은수많은상용솔리드스테이트드라이브 (SSD) 와 HDD 를사용해자사의스토리지를개조하고있다. 퓨어스토리지는스케일 - 아웃스토리지를 처음으로개발하진않았지만플래시블레이드출시로스토리지확장의효율성및단순성을 획기적으로향상시켰다. 플래시블레이드의중심엔퓨어스토리지의다이렉트플래시 (DirectFlash) 기술로조율되는원시낸드플래시들이다수존재한다. 모든플래시는퓨어스토리지만의방대한 병렬처리아키텍처상의하드웨어및소프트웨어와함께작동한다. 또한, 이러한혁신적인 아키텍처를통해현대적인분석작업의처리를가속화한다. 테슬라모델 S(Tesla Model S) 는전기를사용할목적으로특별히제작된차량이다. 페라리 812(Ferrari 812) 는초고속주행을목적으로제작됐다. 이러한전기차및고속주행차량들과 같이시스템이특정사용목적을위해구축된경우, 놀라운결과를낼수있다. 플래시블레이드는딥러닝또는하둡 (Hadoop) 과같은현대의데이터분석워크로드를지원하기 위해특별히설계됐다. 선도적인정보서비스및시장데이터분석기업들은과거에 20 개 랙으로구성된하드디스크환경에서워크로드를처리했다. 하지만이제 4U 크기의 플래시블레이드한대로모든랙을대체하여전력, 냉각, 상면공간, 가동시간및스토리지관리
비용을획기적으로절감시킬수있게됐다. 또한, 플래시블레이드는모든규모의기업들이보다 합리적인비용으로데이터분석을수행하고비즈니스에 AI 를활용할수있도록지원한다. 7] 퓨어스토리지고객은랙 20 개규모의기계식디스크를매우작은 4U 크기의단일한 [ 그림 플래시블레이드로교체했다. 현대적인스토리지의필요성 사용자들은보통엔비디아 DGX-1 과같은강력한성능을제공하는슈퍼컴퓨터로자사의 AI 여정을시작하며, 보통모든데이터를로컬 SSD 스토리지에저장한다. 이러한구성은다양한 프레임워크와네트워크를테스트하고딥러닝을실험하는사용자들에게적합하다. 그러나보다 많은양의데이터를기반으로했을때딥러닝의무한한잠재력을보다잘실현할수있다. 뿐만 아니라딥러닝에기반한데이터세트의분석은컴퓨터용량에의해제한되지않아야한다. 스탠포드대학의앤드류응 (Andrew Ng) 교수가진행한연구결과에따르면, 딥러닝모델의 정확성및성능은방대한규모의학습데이터세트를통해지속적으로향상될수있다는점에서 다른학습알고리즘과차이가있는것으로조사됐다.
[ 그림 8] 방대한규모의데이터가기반이되어야딥러닝의무한한가능성을실현할수있다. ( 출처 : 앤드류응교수 ) 100TB 의데이터세트로학습한모델이 1TB 의데이터세트로학습한모델보다훨씬높은 정확도를보인다. 차세대스토리지는파일의용량크기에관계없이랜덤액세스패턴을감안해 GPU 시스템에매우넓은데이터전송대역폭을제공해야한다. 여러처리장치들에걸쳐분산된 스토리지는방대한데이터세트처리에적합하지않다. 세계에서가장강력한 AI 슈퍼컴퓨터지원 AI 를도입해활용하고자하는고객들은플래시블레이드에많은관심을보이고있다. 퓨어스토리지의주요고객인업계선두적인글로벌웹스케일기업을예로들수있다. 이 기업은엔비디아 DGX-1 및플래시블레이드시스템을기반으로세계에서가장빠른시스템으로 꼽히는대규모슈퍼컴퓨터를구축했다. 이슈퍼컴퓨터시스템은플래시블레이드부터 GPU 로 구성된딥러닝트레이닝프로세서까지매우빠른데이터전달을통해딥러닝학습을가속화시켜 준다.
[ 그림 9] 플래시블레이드가효율적인딥러닝을위해 DGX-1 와같은 GPU 시스템에데이터를 전송하는구조 딥러닝트레이닝클러스터구현시전체시스템을고려하여균형잡힌솔루션을도입하는것이 중요하다. 알렉스넷 (AlexNet) 을사용하여마이크로소프트의코그니티브툴킷 (Cognitive Toolkit; CNTK) 프레임워크를구동하는 DGX-1 시스템의예를살펴보면, 엔비디아는 DGX-1 가초당 13,000 개의이미지를처리할수있도록딥러닝모델을학습시킬수있다고발표한바있다. 평균 이미지사이즈를 115KB 라고가정했을때 10 개의 DGX-1 은지속적인학습을위해초당 15GB 의 데이터처리성능을제공해야한다. 또한, 작은용량의파일에대한읽기성능및 IOPS 도문제 해결속도에중대한영향을미친다. 스토리지시스템의처리량이데이터처리를위해필요한 성능의절반밖에제공해주지못할경우데이터과학자는작업이완료될때까지두배의시간을 기다려야한다. 이는데이터과학자들이해당딥러닝과제를해결할수있느냐없느냐를 판가름할수도있다. 만약딥러닝을통해주요과제를해결하지못한다면인사이트확보를통해 잠재적인혁신을이룰수있는기회를놓칠수도있다. 마치며 AI 의혜택을극대화하기위해필요한기술요소는딥러닝, GPU 및빅데이터다. GPU 와 빅데이터는각각딥러닝모델향상에핵심적인처리능력및다양한대규모데이터세트를
지원한다. 플래시블레이드는딥러닝워크로드를위한이상적인데이터플랫폼이다. 현대딥러닝 신경망또는 GPU 로가속되는시스템들과마찬가지로, 플래시블레이드는방대한병렬아키텍처로 이루어져확장이가능하고, 사용이매우간단하며, 속도가빠르다. 또한고도의모듈형설계를 기반으로학습데이터세트가증가함에따라용량및성능을동시에확장시킬수있다. 이제 AI 를활용하고자하는기업들은플래시블레이드를통해새로운가능성을광범위하게모색해야 할때다.