IBM MINSKY 전문가와함께하는찾아가는세미나안내 IBM Minsky로구현되는세상에서가장빠른딥러닝프레임워크를직접경험하고싶으신가요? IBM 전문가가직접고객사를방문하여맞춤세미나를제공해드립니다. 맛있는도시락과함께찾아가는세미나를놓치지마세요! 찾아가는세미나를 QR 코드를통해신청하세요 문의 한국 IBM 마케팅총괄본부 02-3781-7900 mktg@kr.ibm.com Minsky 핫라인 김태영영업대표 010-4995-7672 taykim@kr.ibm.com
Copyright IBM Corporation 2017 한국아이비엠주식회사 (07326) 서울시영등포구국제금융로10 서울국제금융센터 (Three IFC) TEL : (02) 3781-7900 www.ibm.com/kr 2017 년 2 월 Printed in Korea All Rights Reserved IBM, IBM 로고, ibm.com은미국및 / 또는다른국가에서 IBM Corporation의상표또는등록상표입니다. 상기및기타 IBM 상표로등록된용어가본문서에처음나올때상표기호 ( R 또는 ) 와함께표시되었을경우, 이러한기호는본문서가출판된시점에 IBM이소유한미국등록상표이거나관습법에의해인정되는상표임을나타냅니다. 해당상표는미국외의다른국가에서도등록상표이거나관습법적인상표일수있습니다. IBM의최신상표목록은 ibm.com/legal/copytrade.shtml 웹페이지의 저작권및상표정보 부분에서확인할수있습니다. 기타다른회사, 제품및서비스이름은다른회사의상표또는서비스표시일수있습니다. 이문서에는 IBM 제품과서비스를참조한경우에도 IBM 이비즈니스를수행하고있는모든국가에서해당제품과서비스를제공함을의미하는것은아닙니다.
IBM MINSKY NVIDIA 의최신 GPU 기술을탑재한 IBM 딥러닝서버솔루션
딥러닝, 인공지능의봄 을알리다 딥러닝 (Deep Learning) 이란? 인공신경망을기반으로한머신러닝방법론중하나로, 인간의두뇌가수많은데이터속에서패턴을발견한뒤사물을구분하는정보처리방식을모방해컴퓨터가사람처럼스스로학습하여판단하는기술입니다.
IBM MINSKY
인공지능의핵심기술그중심에는 딥러닝 이있습니다 자율주행차, 실시간금융사기방지및신약개발과같은새로운산업의발전은예전과는다른차원의인공지능기술을필요로합니다. 이러한기술의핵심에 딥러닝 이있습니다. IBM 딥러닝서버솔루션 최신, 최고의 GPU PASCAL P100 NVIDIA 의최신 PASCAL 아키텍처 P100 GPU 장착 딥러닝을위한 Half- precision 성능 21TFLOPS 기존의 3 배에달하는 GPU 메모리대역폭 신기술에의한기존문제의해결 Unified Memory 로 GPU 메모리한계극복, P2P 문제해결 NVLink 기술로 GPU-CPU 간병목해결, 획기적성능향상 04
업계최초의혁신! IBM 딥러닝서버솔루션 IBM MINSKY IBM Minsky는인공지능에서부터딥러닝, 첨단빅데이터분석그리고연산집약적인작업을더욱빠르고효율적으로처리해줍니다. IBM Minsky 4 대장점 세상에서가장빠른딥러닝프레임워크 PowerAI IBM 의딥러닝소프트웨어툴킷 PowerAI 제공 CAFFE, Torch, TensorFlow 등주요딥러닝프레임워크를최적화하여패키지로제공 진정한오픈아키텍처 OpenPOWER 플랫폼 POWER 아키텍처공개에의한진정한오픈아키텍처 IBM / Mellanox / NVIDIA 협업을통한굳건한 GPU 솔루션로드맵 NVIDIA - IBM Acceleration Lab 지원 05
IBM Minsky 도입사례 _ 한국전력연구원 MISSION IBM Minsky 드론데이터분석의최전방에서활약하다! 한국전력연구원은전국의고압송전탑시설점검에드론을활용하여안전하고비용효율적인점검작업을진행하게되었으며, 드론이수집한대량의영상데이터를신속하고정확하게분석하기위해서딥러닝기반의 IT 인프라를구축하게되었습니다. STEP 1 >> 전국의고압송전탑시설점검효율성제고필요 STEP 4 >> 대량의데이터를분석할딥러닝기반의인프라구축필요 STEP 2 >> 드론을띄워송전탑의핵심설비점검시행 STEP 3 >> 드론이촬영한다량의영상 / 이미지데이터수집 06
SOLUTIONS 빅데이터의가치를높여주는딥러닝기술의핵심, IBM Minsky IBM Minsky NVIDIA PASCAL GPU P100 과최신 NVLink 기술이탑재된세계유일의상용서버구축 PowerAI Caffe, Theano, Torch, TensorFlow 등오픈소스딥러닝프레임워크최적화툴킷제공 OpenPOWER NVIDIA, Mellanox 협업을통해구축한공고한딥러닝로드맵제공 End - to - End Solutions 엔터프라이즈인메모리서버 (E870), 고성능파일시스템 (Elastic Storage Server), 100Gb EDR Infiniband 를포함한전방위적아키텍처제공 Architecture Diagram > 100Gb EDR IB 36-port switch IBM E870 (In-memory SunDB) IBM ESS GS1 1.6 TB SSD *24 IBM Minsky (PowerAI, Tensorflow) IBM Minsky를비롯한딥러닝시스템의도입으로인해한국전력공사전력연구원은수집된빅데이터를진단, 분석하여전력설비의점검비용절감은물론노후화및고장률감소효과를기대할수있었습니다. 07
IBM Minsky 장점 1 : 최신, 최고의 GPU PASCAL P100 누구도따라갈수없는 NVIDIA PASCAL P100 아키텍처의신기술 Big 5 ML/DL 을위한새로운 Half-precision 성능 21TFLOPS 성능 16nm FinFET 기술에의해 효율 향상된에너지효율 PCIe Gen3 속도의한계를극복한 NVLink 기술 속도 확장 무한 CoWoS HBM2 로 3 배향상된메모리대역폭 PME 와 UM 을통해 사실상해제된 GPU 메모리한계 * FinFET (Fin Field Effect Transistor) CoWoS (Chip-on Wafer-on-Substrate) HBM2 (High Bandwidth Memory 2) PME (Page Migration Engine) UM (Unified Memory) Tesla P100 vs. 기존 GPU 사양비교 Tesla Products Tesla K40 Tesla K80 Tesla M40 Tesla P100 (NVLink) GPU / Form Factor KeplerGK110 / PCIe KeplerGK210 / PCIe MaxwellGM200 / PCIe PascalGP100 / SXM2 Stream Processors 2880 2 * 2496 3072 3584 Base Clock 745 MHz 562 MHz 948 MHz 1328 MHz GPU Boost Clock 810/875 MHz 875 MHz 1114 MHz 1480 MHz FP16 TFLOPs[1] 4.29 8.74 6.84 21.2 FP32 TFLOPs[1] 4.29 8.74 6.84 10.6 FP64 TFLOPs[1] 1.43 2.91 0.21 5.3 Memory Interface 384-bit GDDR5 384-bit GDDR5 384-bit GDDR5 4096-bit HBM2 Memory Bandwidth 288 GB/s 480 GB/s 288 GB/s 732 GB/s *Source https://devblogs.nvidia.com/parallelforall/inside-pascal/ http://www.anandtech.com/show/8729/nvidia-launches-tesla-k80-gk210-gpu http://www.anandtech.com/show/10222/nvidia-announces-tesla-p100-accelerator-pascal-power-for-hpc 08
IBM Minsky 장점 2-1 : 신기술에의한기존문제의해결 Unified Memory GPU 를 full peer 로취급하여 P2P 문제해결 Unified Memory (up to 1TB) 115GB/s 115GB/s CPU CPU 80 GB/s NVLink 80 GB/s NVLink 80 GB/s NVLink 80 GB/s NVLink GPU NVLink GPU GPU NVLink GPU 80GB/s 80GB/s Minksy 는 두껍고도수평적으로 (both fat and flat) 설계된시스템 어느 link 에서도 data 병목이생기지않도록설계 GPU 에서도 CPU 처럼시스템메모리를취급 ( 시스템메모리최대 1TB) 보편적업무와알고리즘에잘맞는구조 Startup/teardown 시폭발적인성능 두 GPU 간의안정적 transfer 부족한대역폭으로인한 host-device 간의 bus transfer 문제해소 09
IBM Minsky 장점 2-2 : 신기술에의한기존문제의해결 NVLink 기존 GPU 컴퓨팅의병목을해결하는 NVLink 세계유일 GPU-GPU 뿐만아니라 GPU-CPU 도 NVLink 로연결가능 기존 PCIe Gen3 대비약 2.5 배대역폭제공 딥러닝프레임워크성능테스트결과 140 120 100 Training time (minutes) : AlexNet and Caffe to top-1, 50% Accuracy (Lower is better) 2.2X Faster 8:24 7:12 6:00 BVLC Caffe vs IBMCaffe / VGGNet Time to Top-1 50% accuracy : (Lower is better) 80 60 40 20 4:48 3:36 2:24 1:12 24% Faster 0 x86 with 4x M40/PCle Power8 with 4x P100/NVLink 0:00 x86 with 4x M40/PCle Power8 with 4x P100/NVLink * IBM S822LC 20-cores 2.86GHz 512GB memory / 4 NVIDIA Tesla P100 GPUs / Ubuntu 16.04 / CUDA 8.0.44 / cudnn 5.1 / IBMCaffe 1.0.0-rc3 / Imagenet Data * Intel Broadwell E5-2640v4 20-core 2.6 GHz 512GB memory / 8 NVIDIA Tesla M40 GPUs / Ubuntu 16.04 / CUDA 8.0.44 / cudnn 5.1 / BVLC Caffe 1.0.0-rc3 / Imagenet Data NVLink vs. PCIe Gen3 - GPU DB 의 query 테스트결과 NVLink 로 data copy 시속도 3 배향상 (73tick 25tick) K80 w/ PCIe on Broadwell 73 ticks 73% 27% 27 ticks Query time : 100 ticks Data Transfer GPU Compute P100 w/ NVLink on Minsky 65% 25 ticks 35% 13 ticks Query time : 38 ticks 전체속도 2.6 배향상 전체소요시간감축수치 : 62 tick (1 tick = 0.01 sec) Data Transfer 에서의감축 : 48 ticks 전체감소치의 77% GPU 계산에서의감축 : 14 ticks 전체감소치의 23% 10
IBM Minsky 장점 3 : PowerAI 세상에서가장빠른딥러닝프레임워크, PowerAI 최적화된주요딥러닝프레임워크를패키지로제공 인터넷을통한손쉬운설치와엔터프라이즈수준의지원 NVLink 를통해하드웨어수준의최적성능설계 PowerAI 는 딥러닝 SW 툴킷 으로가장많이사용되는오픈소스딥러닝프레임워크를 IBM Minsky 에최적화하여제공합니다. Framework 딥러닝프레임워크와빌딩블록 CAFFE Torch NVCaffe IBMCaffe TensorFlow DL4J Theano DIGITS OpenBLAS Bazel Distributed Frameworks NCCL NVLink 서버로구성되는클러스터 Spectrum Scale: 고성능병렬파일시스템 연산가속서버와확장가능한인프라 Compute Storage 12
IBM Minsky 세부사양 IBM Minsky 세부규격및하드웨어구조 IBM POWER8 CPU 와 NVIDIA P100 GPU 의조합 최신 Pascal 아키텍처의 P100 4 장장착 양방향 40+40GB/sec 의대역폭을가지는 NVLink 를통해 GPU-GPU 는물론, CPU-GPU 도연결 물리적 core 1 개당 8 개의 HW thread (SMT-8) 를가지는 POWER8 프로세서 2U 공간안에강력한 GPU 컴퓨팅파워를압축하여성능대비상면적및전력소비량에서월등한이점 IBM Minsky(IBM Power System S822LC for HPC) 개요 시스템구성 (8335-GTB) 마이크로프로세서 L2(Level 2) 캐시 L3(Level 3) 캐시 L4(Level 4) 캐시 메모리최소 / 최대 프로세서 - 메모리대역폭 스토리지및입출력 (I/O) 표준백플레인 미디어베이 RAID 옵션 어댑터슬롯 I/O 대역폭 GPU 액셀러레이터 8 코어 3.25GHz POWER8 프로세서카드 2 개또는 10 코어 2.86GHz POWER8 프로세서카드 2 개 코어당 512KB L2 캐시 코어당 8MB L3 캐시 소켓당최대 64MB 4GB, 8GB, 16GB, 32GB DDR4 모듈, 128GB ~ 1TB 총메모리 소켓당 115GB/ 초, 시스템당 230GB/ 초 (SCM 에서 L4 캐시까지의최대지속메모리대역폭 ) 소켓당 170GB/ 초, 시스템당 340GB/ 초 (L4 캐시에서 DIMM 까지최대피크메모리대역폭 ) 하드디스크드라이브 (HDD) 또는솔리드스테이트디스크 (SDD) 를위한 SFF(small form factor) 베이 2 개 해당없음 통합 PCIe 어댑터에서하드웨어 RAID 지원 PCIe Gen3 슬롯 3 개 : x16 PCIe Gen3 2 개, x8 PCIe Gen3 1 개. 모두 CAPI 지원 64GBps 최대 4 개의 NVIDIA Tesla P100(NVLink GPU) 전원, RAS, 시스템소프트웨어, 물리적특성과보증 전원 RAS 기능 200V ~ 240V 프로세서명령재시도 선택동적펌웨어업데이트 Chipkill 메모리 ECC L2 캐시, L3 캐시 결함모니터링기능이있는서비스프로세서 핫스왑가능디스크베이 핫플러그및이중전원 / 냉각팬 (GPU 설치시전원이중화없음 ) 운영체제 * 시스템크기 Linux on POWER 441.5W x 86H x 822D mm 13