Welcome to the Waitless World Pascal GPU 를탑재한세계최초의상용서버 IBM Minsky IBM Power Systems
1.Minsky 특징개요 최신, 최고의 GPU PASCAL P100 PASCAL 아키텍처 GPU 를장착한유일한상용서버 Half-precision 성능 21 TFLOPS 기존의 3 배에달하는 GPU 메모리대역폭 신기술에의한기존문제의해결 Page Migration Engine + Unified Memory = 한결단순해진개발업무 기존 GPU 서버의 P2P 문제를해결하는 NVLink 기술 진정한오픈아키텍처 OpenPOWER Google, IBM, NVIDIA, Mellanox, 삼성전자등플랫폼 200여회원사가함께하는 OpenPOWER 파운데이션 POWER 아키텍처공개에의한진정한오픈아키텍처 1
2. 제안장비세부규격 > GPU 서버 IBM Minsky 코드네임 Minsky Pascal GPU 를탑재한세계최초의상용서버 2016 년현재, GPU-GPU 는물론 GPU-CPU 도 NVLink 로연결된유일한상용서버 IBM GPU 서버코드네임 Minsky 항목 POWER8 processor (3.3GHz 8-core or 2.9GHz 10-core) 2 ( 제안은 3.3GHz 8-core) HDD (1TB 7.2k rpm SATA) 2 PCIe card (1G, IB, NVMe) 3 GPU (PASCAL P100) 4 IBM POWER8 CPU 와 NVIDIA P100 GPU 의조합 최신 Pascal 아키텍처의 P100 4 장장착 양방향 40+40GB/sec 의대역폭을가지는 NVLink 를통해 GPU-GPU 는물론, CPU-GPU 도연결 물리적 core 1 개당 8 개의 HW thread (SMT-8) 를가지는 POWER8 프로레서 2U 공간안에강력한 GPU 컴퓨팅파워를압축하여성능대비상면적및전력소비량에서월등한이점 Total Power Supply AC input (W) Form Factor Width Height Depth Weight ( 추정최대치 ) 2223 W 2U 442 mm 86 mm 822 mm 29.4kg 2
2. 제안장비세부규격 > Minsky 시스템 HW 세부구조 GPU 최적화구조 2-socket POWER8, 4 장의 P100 GPU, 32 개의 DDR4 DIMM slot, 3 개의 PCIe slot NVidia GPU SXM2 form factor NVLink 1.0 300 W POWER8 with NVLink (2x) 190W Integrated NVLink 1.0 PCIe slot (3x) Gen3 PCIe Service Controller Card BMC Content Max of 2 per socket Memory DIMM s Riser (8x) 4 IS DDR4 DIMMs per riser Single Centaur per riser 32 IS DIMM s total 32-1024 GB memory capacity Power Supplies (2x) 1300W Common Form Fact or Supply Cooling Fans (4x) 80mm Counter- Rotating Fans Hot swap Storage Option (2x) 0-2, SATA HDD.SSD Tray design for install/removal Hot Swap 3
3. 제안시스템특장점 > P100 vs. M40 의사양비교 더많은 CUDA core 더빠른 clock speed 새로운 half-precision instruction 에의한 3 배의성능 NVLink 에의해 2.5 배향상된 P2P 대역폭 CoWoS HBM2 메모리의 M40 대비 2.5 배의 메모리대역폭 항목 P100 M40 Architecture Pascal Maxwell SMs 56 24 FP32 CUDA Cores / SM 64 128 FP32 CUDA Cores / GPU 3584 3072 FP64 CUDA Cores / SM 32 4 FP64 CUDA Cores / GPU 1792 96 Base Clock 1328 MHz 948 MHz GPU Boost Clock 1480 MHz 1114 MHz CPU-GPU link NVLink PCIe Gen3 Peak FP16 GFLOPs 21200 N/A Peak FP32 GFLOPs 10600 6840 Peak FP64 GFLOPs 5300 210 Memory Interface 4096-bit HBM2 384-bit GDDR5 Memory Size 16 GB Up to 24 GB L2 Cache Size 4096 KB 3072 KB Memory bandwidth 720 GB/s 288 GB/s TDP 300 Watts 250 Watts Transistors 15.3 billion 8 billion Manufacturing Process 16-nm FinFET 28-nm FinFET (Fin Field Effect Transistor) CoWoS (Chip-on Wafer-on-Substrate) HBM2 (High Bandwidth Memory 2) 4
3. 제안시스템특장점 > Pascal 아키텍처의 5 가지신기술 16 nm FinFET CoWoS HBM2 New FP16 instrn PME + UM NVLink FinFET (Fin Field Effect Transistor) CoWoS (Chip-on Wafer-on-Substrate) HBM2 (High Bandwidth Memory 2) PME (Page Migration Engine) UM (Unified Memory) Source : http://www.nvidia.com/object/gpu-architecture.html#utm_source=shorturl&utm_medium=referrer&utm_campaign=pascal http://www.nvidia.com/object/tesla-p100.html 5
3. 제안시스템특장점 > CoWoS 와 HBM2 GPU 메모리 메모리 BW 3 배향상 4 개의 HBM2 stack 에의한총 720GB/sec 의메모리대역폭 기존 GDDR5 GPU 설계에서처럼많은메모리 chip 이 GPU 를둘러싸는대신, HBM2 는여러메모리 die 를입체적으로쌓고그것들을 through-silicon via 와 microbump 로연결 메모리 stack 은 passive silicon interposer 를통해 GPU die 에연결 메모리대역폭이 HBM1 이 stack 당 125GB/s 이었던것에비해, HBM2 는 180GB/s P100 은 4-die HBM2 stack, 총 16GB 를장착 P100 HBM2 stack 과 GP100 GPU 의단면 6
3. 제안시스템특장점 > P100 의메모리지원 단순해지는개발작업 Page Migration Engine & Unified Memory 에의한 GPU 메모리의한계극복 Page migration engine Virtual Memory Demand Paging 지원으로, 49- bit 가상주소를통해 GPU 메모리는물론 48-bit 의 CPU 주소까지통제 GPU page faulting 지원으로수천개의동시 page fault 를처리 2MB page size 지원으로 GPU 메모리의 TLB (Translation Look-Aside Buffer) 효율향상 Unified memory Kepler 와 Maxwell 의 unified memory 에걸려있던 GPU 메모리크기내로의제한이 Pascal 에서는제거되어, 전체시스템메모리를다 unified memory 로사용가능함 이제개발자들이 GPU 메모리내의 data 이동관리보다컴퓨팅자체에집중하는것이가능 7
NVLink 40+40 GB/s 3. 제안시스템특장점 > NVLink NVLink GPU-GPU 뿐만아니라 GPU-CPU 도 NVLink 로연결가능한것은 POWER8 뿐 Graphics Memory GPU GPU Graphics Memory 기존 PCIe Gen3 대비 2.5 배 System Memory NVLink 를통해연결된 GPU 들은 local memory 뿐만아니라다른 GPU 의메모리도직접 access 가능 Pascal 의 atomic operation fully 지원 NVIDIA 의새로운 High-Speed Signaling interconnect (NVHS) 를사용 1 개연결 pair 가 20GB/s, 8 개연결이 sub-link 를구성하고 2 개의 sub-link 가양방향통신을수행 하나의 link 는양방향 40GB/s 대역폭을지원 P100 은 4 개의 link 를지원하여총 160GB/sec 지원 POWER8 도 4 개의 link 를지원하여 GPU-GPU 뿐만아니라 GPU-CPU 도 NVLink 로연결 8
~2.79X 3. 제안시스템특장점 > CPU:GPU 간 NVLink NVLink 의효과 기존 K40 에비해 2.79 배빨라진대역폭성능테스트결과 POWER8 은 CPU-GPU 간 NVLink 기술이적용되는유일한플랫폼 미래가아닌지금당장의테스트의결과로도 2.5 배가넘는대역폭을구현 NVLink bus 는 PCIe link 보다더높은효율을달성 (82.5% vs 74% of peak) NVLink 의혜택을얻기위해필요한 code 수정은없음 (CUDA 8 and go) 예측되는미래를위한대역폭을필요로하는개발자들에필요한플랫폼 2016 년부터 NVLink 를탑재한 POWER8 을공급 Xeon E5-2600 Series CPU 는 PCI-E x16 3.0 을 2017 년중에도유지할계획 * 35 30 25 20 15 10 5 0 Unidirectional Device Bandwidth Test 11.8 33 Link Bandwidth, Ping-pong (GB/sec) Tesla K40, PCI-E Tesla P100, NVLink Typical Ping-pong PCI-E device bandwidth: ~74% of theoretical 16GB unidirectional max http://www.nextplatform.com/2015/05/26/intel-lets-slip-broadwell-skylake-xeon-chip-specs/ http://wccftech.com/intel-14nm-skylake-ep-10nm-cannonlake-ep-supported-purley-platform-160w-tdp-48-pcie-lanes-6-channel-ddr4/ 9
3. 제안시스템특장점 > GPU 를 full peer 로취급 P2P 문제의해소 NVLink 와 Unified Memory 를통해병목을최소화 Minksy 는 두껍고도수평적으로 (both fat and flat) 설계된시스템 어느 link 에서도 data 병목이생기지않도록설계 GPU 에서도 CPU 처럼시스템메모리를취급 ( 시스템메모리최대 1TB) 같은 socket 의 GPU 간 두꺼운 pipe 구현 보편적업무와알고리즘에잘맞는구조 Startup/teardown 시폭발적인성능 Host-device 간의안정적인 data stream 두 GPU 간의안정적 transfer ( 부족한대역폭으로인한 ) hostdevice 간의 bus transfer 문제를해소 DDR4 115GB/s CPU I B Fabric GPU I B CPU 115GB/s GPU NVLink GPU NVLink GPU 80 GB/s 80 GB/s DDR4 Unified Memory Space up to 1TB 10
3. 제안시스템특장점 > Page Migration Engine 과 POWER8 NVLink 단순해진프로그래밍 기존 GPU 프로그래밍의어려움을신기술을통해해결 Data 이동이너무복잡너무많은 date 이동 Page faulting 지원필요 너무큰 memory space가필요 GPU data 이동에너무많은 custom 코딩이필요 SW적 UVM 기능은너무제한적 새로운애플리케이션개발과포팅에가장편리한시스템 NVIDIA Page Migration Engine 에의해편리해지는 unified memory space Unified memory: 메모리 address 가 CPU 와 GPU 를가로질러 1TB 이상으로확장됨 Hardware managed transfers: Explicit data transfer 의필요성을제거 POWER8 with NVLink 를통한빠른 data throughput 더큰메모리는더빠른 CPU-GPU 간 data 이동속도를요구 11
Job Throughput (GFLOPS) 3. 제안시스템특장점 > Minsky 에서의성능향상 약 4 배의성능향상 K80 2 장 (GPU 4 장 ) vs. P100 4 장 NVLink 장착 POWER8 의성능향상 : 기존프로세서에비해 Lattice QCD code 성능약 4 배향상 P100 을장착한 x86 서버 : 같은 code 에대해통상적으로기존보다약 2.5 배성능향상 IBM 연구팀 : Application 이 bus 속도를따라가지못한다 MILC 는 refactoring 필요 x86 Platform Speedup, vs CPU, 2x Tesla K80 2500 2000 1500 1000 Minksy Performance Increase vs 2x Tesla K80 System: MILC/LQCD ~3.74X ~3.90X ~3.97X 500 ~2.5X 2xTesl a K80 0 32x32x32x128 32x32x32x256 32x32x32x512 Lattice Size 2x Tesla K80 4x Tesla P100 12
3. 제안시스템특장점 > POWER8 의 Machine Learning 지원 간편한 MLDL 설치 OpenPOWER 에서내놓은주요 MLDL 프레임워크의배포판 MLDL Distro Source : https://developer.nvidia.com/cuda-release-candidate-download Source : http://openpowerfoundation.org/blogs/openpower-deep-learning-distribution/ 13
3. 제안시스템특장점 > POWER8 의 Tensorflow 지원 Tensorflow 지원 간단한 tool config 수정에의한 Tensorflow 지원 git clone -b r0.8 --recurse-submodules https://github.com/tensorflow/tensorflow.git cd tensorflow Add the following lines to third_party/gpus/crosstool/crosstool default_toolchain { cpu: "ppc" toolchain_identifier: "local_linux" }./configure bazel build -c opt --config=cuda //tensorflow/tools/pip_package:build_pip_package My team ported TensorFlow and we're working with Google to include support in the source distribution. The next release of the MLDL distro will include TensorFlow. Michael Gschwind, PhD Chief Engineer, Machine Learning and Deep Learning Fellow, IEEE - Member, IBM Academy of Technology - IBM Master Inventor 14
3. 제안시스템특장점 > POWER8 vs. E5-2690 v4 의성능차이 POWER8 의성능 공식 SPEC Floating Point 벤치마크에서입증된 POWER8 의성능 Vendor Model SPECfp_rate2006 Threads Cores Chips Peak Peak/Core Dell PowerEdge R730 (Intel Xeon E5-2690 v4, 2.60 GHz) 56 28 2 888 31.7 HP ProLiant DL380 Gen9 (2.60 GHz, Intel Xeon E5-2690 v4) 56 28 2 952 34.0 IBM Power S822LC (2.92 GHz, 20 core, Ubuntu) 80 20 2 888 44.4 IBM Power S824 (3.5 GHz, 24 core, RHEL) 192 24 4 1130 47.1 Source : http://www.spec.org/cpu2006/results/rfp2006.html 15
3. 제안시스템특장점 > 오픈시스템을위한 OpenPOWER Foundation 진정한개방형시스템 POWER 아키텍처자체의공개를통한, Google, IBM, Nvidia, Mellanox 등의협업 2016 4 월, OpenPOWER 플래티넘멤버인구글의 POWER 아키텍처서버개발과 SW 포팅에대한공개 OpenPOWER 와의협업으로설계 / 생산된새로운 POWER8 OpenPOWER Foundation 결성목적 IT 업계전반의폭넓은혁신유도 현재의데이타센타기술의문제점을해결하는보다나은대안을제시 POWER 기술관련생태계활성화 OpenPOWER Foundation 현황 2013 년 IBM / Google / Mellanox / NVIDIA / TYAN 5 개회사로시작 2016 년 3 월현재 200 개이상으로확대및강화 한국에서는삼성전자 / SK Hynix 2 개사가메모리분야에서참여 16
3. 제안시스템특장점 > IBM POWER 프로세서로드맵 탄탄한로드맵 POWER 아키텍처는지난 20 년간꾸준한로드맵을준수 프로세서자체개발및제조기술보유 POWER9 까지굳건한로드맵제시 POWER 9 POWER 5/5+ 130/90 nm 2004 POWER 6/6+ 65 nm 2007 Dual Core High Frequencies Virtualization + Memory Subsystem + Altivec Instruction Retry Dynamic Energy Mgmt SMT + Protection Keys POWER 7/7+ 45/32 nm 2010 Eight Cores On-Chip edram Power-Optimized Cores Memory Subsystem ++ SMT++ Reliability + VSM & VSX Protection Keys+ POWER 8 22 nm 2014 12 Cores SMT+++ Reliability ++ FPGA Support Transactional Memory PCIe Acceleration L4 cache Future Extreme Analytics Optimization Extreme Big Data Optimization On-chip accelerators 17
3. 제안시스템특장점 > IBM / Mellanox / NVIDIA 협업로드맵 Programming Model CUDA 5.5 CUDA 7 Open MP 4.0 CUDA 8 Open ACC Open MP 4.0 CUDA 9 OpenMP 4.x Road to Exascale Power Systems P8 Tuleta - 4U 2 P8 (+ 2 GPU) PCIe Gen3 CAPI Firestone - 2U 2 P8 + 2 GPU PCIe Gen3 CAPI HPC Next - 2U CAPI NVLink HPC Future- 2U Enhanced CAPI Enhanced NVLink Air Cooled Air/Water Cooled HPC Future - 2U Enhanced CAPI Enhanced NVLink Mellanox Interconnect Technology Adapters Switches CPU Links Connect-IB (dual ports) FDR InfiniBand PCI-express Gen3 ConnectX-4 (dual ports) EDR InfiniBand CAPI over PCI-express Gen3 ConnectX-5 (dual ports) HDR InfiniBand Enhanced CAPI over PCI-express Gen4 Chip Technology GPUs CPU JDA 2014 2015 2016 2017 NVIDIA GPU (GK210) NVIDIA GPU (GP100) NVLink NVIDIA GPU (GV100) Power8 Power8 Power8 Power Future Enhanced NVLink 2014 2015 2016 2017 18
3. 제안시스템특장점 > NVIDIA - IBM Acceleration Lab 지원 전문적인기술지원 Team up with IBM, NVIDIA on Advanced Acceleration Advanced Acceleration 이미 GPU 가속을사용하시는고객 NVLink를이용한성능향상을실현 Going to POWER x86에서만 GPU를사용하셨던고객 ppc64로의포팅및성능테스트 Going Parallel POWER 및 GPU 경험이아직없으신고객 GPU 가속및 ppc64 포팅의동시진행 Email for more information: accellab@us.ibm.com 19
4. Minsky 제안특장점요약 미래를위한투자 MAXWELL 대신, 최신의 PASCAL 에투자할최적의기회 POWER8 과 Tesla P100 의강력한조합 NVLink 의대역폭을통해 x86 이낼수없는업무성능을실현 기존과신규 HPC 업무에대해더편리해진프로그래밍 낡은 Maxwell 대신새로운 Pascal 에투자할기회 Tesla P100 의 3 배성능과 5 배메모리대역폭 2.5 배의 CPU-GPU 대역폭 CPU-GPU 간 NVLink 가가능한유일한플랫폼 IBM/OpenPOWER 에서만낼수있는성능향상 지금당장실현되는성능 Page Migration Engine 을 NVLink 가탑재된 POWER8 과결합 기존업무에대해서도성능병목을해결 Tesla P100 과 NVLink 를탑재한플랫폼을이번에구매가능 20 2