Copyright IBM Corporation 2017 한국아이비엠주식회사 (07326) 서울시영등포구국제금융로10 서울국제금융센터 (Three IFC) TEL : (02) 3781-7900 www.ibm.com/kr 2017 년 2 월 Printed in Korea All Rights Reserved IBM, IBM 로고, ibm.com은미국및 / 또는다른국가에서 IBM Corporation의상표또는등록상표입니다. 상기및기타 IBM 상표로등록된용어가본문서에처음나올때상표기호 ( R 또는 ) 와함께표시되었을경우, 이러한기호는본문서가출판된시점에 IBM이소유한미국등록상표이거나관습법에의해인정되는상표임을나타냅니다. IBM MINSKY 해당상표는미국외의다른국가에서도등록상표이거나관습법적인상표일수있습니다. IBM의최신상표목록은 ibm.com/legal/copytrade.shtml 웹페이지의 저작권및상표정보 부분에서확인할수있습니다. 기타다른회사, 제품및서비스이름은다른회사의상표또는서비스표시일수있습니다. 이문서에는 IBM 제품과서비스를참조한경우에도 IBM 이비즈니스를수행하고있는모든국가에서해당제품과서비스를제공함을의미하는것은아닙니다. NVIDIA 의최신 기술을탑재한 IBM 딥러닝서버솔루션
IBM MINSKY 딥러닝, 인공지능의봄 을알리다 딥러닝 (Deep Learning) 이란? 인공신경망을기반으로한머신러닝방법론중하나로, 인간의두뇌가수많은데이터속에서패턴을발견한뒤사물을구분하는정보처리방식을모방해컴퓨터가사람처럼스스로학습하여판단하는기술입니다.
인공지능의핵심기술그중심에는 딥러닝 이있습니다 업계최초의혁신! IBM 딥러닝서버솔루션 IBM MINSKY 자율주행차, 실시간금융사기방지및신약개발과같은새로운산업의발전은예전과는다른차원의인공지능기술을필요로합니다. 이러한기술의핵심에 딥러닝 이있습니다. IBM Minsky는인공지능에서부터딥러닝, 첨단빅데이터분석그리고연산집약적인작업을더욱빠르고효율적으로처리해줍니다. IBM 딥러닝서버솔루션 IBM Minsky 4 대장점 최신, 최고의 PASCAL P100 쉽고빠른딥러닝프레임워크제공 PowerAI 신기술에의한기존문제의해결 진정한오픈아키텍처 OpenPOWER 플랫폼 NVIDIA 의최신 PASCAL 아키텍처 P100 장착 딥러닝을위한 Half- precision 성능 21TFLOPS 기존의 3 배에달하는 메모리대역폭 IBM 의딥러닝소프트웨어툴킷 PowerAI 제공 CAFFE, Torch, TensorFlow 등주요딥러닝프레임워크를최적화하여패키지로제공 Unified Memory 로 메모리한계극복, P2P 문제해결 기술로 -CPU 간병목해결, 획기적성능향상 POWER 아키텍처공개에의한진정한오픈아키텍처 IBM / Mellanox / NVIDIA 협업을통한굳건한 솔루션로드맵 NVIDIA - IBM Acceleration Lab 지원 04 05
IBM Minsky 장점 1 : 최신, 최고의 PASCAL P100 그무엇도따라갈수없는 NVIDIA PASCAL P100 아키텍처의신기술 Big 5 IBM Minsky 장점 2 : PowerAI 딥러닝프레임워크를사용하는가장쉽고빠른방법, PowerAI PCIe Gen3 속도의한계를극복한 기술 ML/DL 을위한새로운 Half-precision 성능 21TFLOPS 성능 16nm FinFET 기술에의해 효율 향상된에너지효율 최적화된주요딥러닝프레임워크를패키지로제공 인터넷을통한손쉬운설치와엔터프라이즈수준의지원 를통해하드웨어수준의최적성능설계 속도 확장 무한 CoWoS HBM2 로 3 배향상된메모리대역폭 PME 와 UM 을통해 메모리한계를극복 * FinFET (Fin Field Effect Transistor) CoWoS (Chip-on Wafer-on-Substrate) HBM2 (High Bandwidth Memory 2) PME (Page Migration Engine) UM (Unified Memory) PowerAI는오픈소스딥러닝프레임워크를 IBM Minsky에최적화하여제공하기에누구나쉽고빠르게설치하도록지원합니다. Framework Tesla P100 vs. 기존 사양비교 Tesla Products Tesla K40 Tesla K80 Tesla M40 Tesla P100 () / Form Factor KeplerGK110 / PCIe KeplerGK210 / PCIe MaxwellGM200 / PCIe PascalGP100 / SXM2 Stream Processors 2880 2 * 2496 3072 3584 Base Clock 745 MHz 562 MHz 948 MHz 1328 MHz Boost Clock 810/875 MHz 875 MHz 1114 MHz 1480 MHz FP16 TFLOPs[1] 4.29 8.74 6.84 21.2 FP32 TFLOPs[1] 4.29 8.74 6.84 10.6 FP64 TFLOPs[1] 1.43 2.91 0.21 5.3 Memory Interface 384-bit GDDR5 384-bit GDDR5 384-bit GDDR5 4096-bit HBM2 Memory Bandwidth 288 GB/s 4 288 GB/s 732 GB/s 딥러닝프레임워크와빌딩블록 연산가속서버와확장가능한인프라 CAFFE Torch 서버로구성되는클러스터 NVCaffe IBMCaffe TensorFlow DL4J Theano DIGITS OpenBLAS Bazel Distributed Frameworks NCCL Spectrum Scale: 고성능병렬파일시스템 [Source] https://devblogs.nvidia.com/parallelforall/inside-pascal/ http://www.anandtech.com/show/8729/nvidia-launches-tesla-k80-gk210-gpu http://www.anandtech.com/show/10222/nvidia-announces-tesla-p100-accelerator-pascal-power-for-hpc Compute Storage 06 07
IBM Minsky 장점 3-1 : 신기술에의한기존문제의해결 Unified Memory 를 full peer 로취급하여 P2P 문제해결 IBM Minsky 장점 3-2 : 신기술에의한기존문제의해결 기존 컴퓨팅의병목을해결하는 Unified Memory (up to 1TB) 세계유일 - 뿐만아니라 -CPU 도 로연결가능 기존 PCIe Gen3 대비약 2.5 배대역폭제공 115GB/s 115GB/s 딥러닝프레임워크성능테스트결과 CPU 80GB/s CPU 80GB/s Minksy 는 두껍고도수평적으로 (both fat and flat) 설계된시스템 어느 link 에서도 data 병목이생기지않도록설계 에서도 CPU 처럼시스템메모리를취급 ( 시스템메모리최대 1TB) 140 120 100 80 60 40 20 Training time (minutes) : AlexNet and Caffe to top-1, 50% Accuracy (Lower is better) 0 x86 with 4x M40/PCle 2.2X Faster Power8 with 4x P100/ * IBM S822LC 20-cores 2.86GHz 512GB memory / 4 NVIDIA Tesla P100 s / Ubuntu 16.04 / CUDA 8.0.44 / cudnn 5.1 / IBMCaffe 1.0.0-rc3 / Imagenet Data 8:24 7:12 6:00 4:48 3:36 2:24 1:12 0:00 BVLC Caffe vs. IBMCaffe / VGGNet Time to Top-1 50% accuracy : (Lower is better) x86 with 8x M40/PCle 24% Faster Power8 with 4x P100/ * Intel Broadwell E5-2640v4 20-core 2.6 GHz 512GB memory / 8 NVIDIA Tesla M40 s / Ubuntu 16.04 / CUDA 8.0.44 / cudnn 5.1 / BVLC Caffe 1.0.0-rc3 / Imagenet Data 보편적업무와알고리즘에잘맞는구조 Startup/teardown 시폭발적인성능 두 간의안정적 transfer 부족한대역폭으로인한 host-device 간의 bus transfer 문제해소 vs. PCIe Gen3 - DB 의 query 테스트결과 로 data copy 시속도 3 배향상 (73tick 25tick) K80 w/ PCIe on Broadwell 73 ticks 73% 27% Query time : 100 ticks 27 ticks Data Transfer Compute P100 w/ on Minsky 65% 25 ticks 35% 13 ticks Query time : 38 ticks 전체속도 2.6 배향상 전체소요시간감축수치 : 62 tick (1 tick = 0.01 sec) Data Transfer 에서의감축 : 48 ticks 전체감소치의 77% 계산에서의감축 : 14 ticks 전체감소치의 23% 08 09
IBM Minsky 세부사양 IBM Minsky 세부규격및하드웨어구조 IBM MINSKY 전문가와함께하는찾아가는세미나안내 IBM Power8 CPU 와 NVIDIA P100 의조합 최신 Pascal 아키텍처의 P100 4 장장착 양방향 40+40GB/sec 의대역폭을가지는 를통해 - 는물론, CPU- 도연결 물리적 core 1 개당 8 개의 HW thread (SMT-8) 를가지는 Power8 프로세서 2U 공간안에강력한 컴퓨팅파워를압축하여성능대비상면적및전력소비량에서월등한이점 IBM Minsky(IBM Power System S822LC for HPC) 개요 시스템구성 (8335-GTB) 마이크로프로세서 L2(Level 2) 캐시 L3(Level 3) 캐시 L4(Level 4) 캐시 메모리최소 / 최대 프로세서 - 메모리대역폭 스토리지및입출력 (I/O) 표준백플레인 미디어베이 RAID 옵션 어댑터슬롯 I/O 대역폭 액셀러레이터 8 코어 3.25GHz Power8 프로세서카드 2 개또는 10 코어 2.86GHz Power8 프로세서카드 2 개 코어당 512KB L2 캐시 코어당 8MB L3 캐시 소켓당최대 64MB 4GB, 8GB, 16GB, 32GB DDR4 모듈, 128GB ~ 1TB 총메모리 소켓당 115GB/ 초, 시스템당 230GB/ 초 (SCM 에서 L4 캐시까지의최대지속메모리대역폭 ) 소켓당 170GB/ 초, 시스템당 340GB/ 초 (L4 캐시에서 DIMM 까지최대피크메모리대역폭 ) 하드디스크드라이브 (HDD) 또는솔리드스테이트디스크 (SDD) 를위한 SFF(small form factor) 베이 2 개 해당없음 통합 PCIe 어댑터에서하드웨어 RAID 지원 PCIe Gen3 슬롯 3 개 : x16 PCIe Gen3 2 개, x8 PCIe Gen3 1 개. 모두 CAPI 지원 64GBps 최대 4 개의 NVIDIA Tesla P100( ) 전원, RAS, 시스템소프트웨어, 물리적특성과보증 전원 RAS 기능 운영체제 * 시스템크기 200V ~ 240V 프로세서명령재시도 선택동적펌웨어업데이트 Chipkill 메모리 ECC L2 캐시, L3 캐시 결함모니터링기능이있는서비스프로세서 핫스왑가능디스크베이 핫플러그및이중전원 / 냉각팬 ( 설치시전원이중화없음 ) Linux on POWER 441.5W x 86H x 822D mm IBM Minsky로구현되는업계최초의혁신 IBM 딥러닝서버솔루션을직접경험하고싶으신가요? IBM 전문가가직접고객사를방문하여맞춤세미나를제공해드립니다. 맛있는도시락과함께찾아가는세미나를신청해보세요! QR코드를통해찾아가는세미나를신청하세요. 문의 한국IBM 마케팅총괄본부 02-3781-7900 mktg@kr.ibm.com Minsky 핫라인 김태영영업대표 010-4995-7672 taykim@kr.ibm.com 12