SX-Aurora TSUBASA Brand-new Vector Supercomputer 한국 NEC 주식회사
2 NEC Corporation 2019
SX-Aurora 영역 NEC 벡터기술을핵심으로시뮬레이션 (HPC) 과 AI 빅데이터해석기술 이과학기술의발전과산업고도화를가속시켜새로운사회가치를창조 금융 경제 생명 (Bio) 보안 에너지 통계해석 화상해석 음향해석 과학기술의진전 유전자해석 제조 유체해석 지구과학 재난방지 구조해석 시뮬레이션 (HPC) 빅데이터해석 기상 기후 벡터기술 3 NEC Corporation 2019
4 NEC Corporation 2019
History of Vector computing Good, but large expensive special likevector dinosaurs Engine PCI card) Performance NEC has always provided high sustained performance by vector supercomputer SX series Earth Simulator 3 Earth Simulator 2 SX-ACE SX-9 Earth Simulator SX-8 SX-7 SX-6 SX-5 Packed vector technologies accumulated over 35 years into PCI card SX-4 SX-3 SX-2 1990 5 NEC Corporation 2019 Fast Strong Compact Economical like falcons 2000 2010
Project Aurora Vector Accelerator Card NEC s 35 years vector technology is packed into Vector Engine card Project Aurora (x86 server + Vector Engine) PCIe Vector Engine (PCIe card) Compact and flexible Hybrid architecture (standard x86 + Vector) Economically deliver supercomputer technology 6 NEC Corporation 2019
PCIe 카드형벡터엔진 신개발벡터프로세서 (8코어) PCIe규격준수 GPGPU와는다른실행모델 Fortran/C/C++ 의표준환경 연산성능 : 2.45TF( 倍정밀도 ),4.91TF( 単정밀도 ) 7 NEC Corporation 2019 메모리대역폭 1.22TB/s( 세계 No.1) Xeon CPU 의 10 배!! 메모리용량 48GB
SX-Aurora TSUBASA 의특징 ( 종래의슈퍼컴퓨터 ) 벡터기술로대량데이터의일괄처리를실현하여 Xeon 대비 10 배이상성능실현 전문지식필요없이, 컴파일하여실행하는것만으로높은성능기대가능 C/C++/Fortran 프로그래밍 슈퍼컴퓨터를 NEC 의기술로다운사이징 고객의필요에따라, 서버 / 엔진선택구성가능적응업무다양 8 NEC Corporation 2019
고성능 : 세계에서제일빠른벡터프로세서 벡터프로세서 세계최속코어 307GFlops(DP) 614GFlops(SP) 세계최속데이터엑세스성능 1.2TB/s 테크놀로지 HBM2 x6 실장 2017 년 10 월현재 NEC 조사 2017 년 10 월현재 NEC 조사 코어코어코어코어 코어코어코어코어 cache 16MB 1.2TB/s 세계최초 CPU 와 6 개의 3 차원적층메모리 HBM2 탑재기술을개발, 탑재 9 NEC Corporation 2019
VE 타입 3종류의벡터엔진 : Type 10A/10B/10C - 주파수 (Hz): 1.6GHz or 1.4GHz - 메모리대역폭 : 1.22TB/s or 0.75TB/s - 메모리용량 : 48GB or 24GB VE Type Freq. (GHz) core processor Memory GF cores DP TF BW size TB/s GB Type 10A 1.6 307 2.45 1.22 48 Type 10B 8 1.4 269 2.15 Type 10C 0.75 24 10 NEC Corporation 2019
벡터연산처리특징 벡터프로세서에의해한번에방대한처리실행가능대규모데이터의고속처리를실현 범용프로세서 작은단위로데이터처리실행업무처리 web 서버등에적합 데이터 벡터프로세서한번에방대한데이터처리실행시뮬레이션 /AI/ 빅데이터등에적합 데이터 256 스칼라계산 벡터계산 결과 결과 256 11 NEC Corporation 2019
Vector Execution 32e 256e 32e 8e A vector register 256e x 64 B 64e (128kB) D FMA x3 C Vector Length = 256e (32e x 8 cycle) 307.2G = (32Flop x 2(FMA)) / cycle x 3 x 1.6GHz 12 NEC Corporation 2019
고성능 : 벡터아키텍쳐에의한고속화 GPGPU 가가지는성능병목현상 (Bottleneck) 해소 엑셀레이터형 (GPGPU) 데이터전송이빈발하면성능 Bottleneck 발생 SX-Aurora TSUBASA 어플리케이션을전부벡터엔진상에서실행하기때문에 Bottleneck 없음 어플리케이션 일부처리 일부처리일부처리 어플리케이션 일부처리 Linux OS Linux OS x86 프로세서 엑셀레이터 (GPGPU) x86 프로세서 벡터엔진 13 NEC Corporation 2019
편리성 : 프로그래밍 SX-Aurora TSUBASA 는 C/C++/Fortran 로개발가능컴파일러의자동병렬화기능으로편리성과고성능을보장 GPGPU Step 1 Step 2 Step 3 통상의프로그램 특별사전준비작업불필요 GPGPU 전문언어이용 소스코드수정필요 실행부분추출 프로그래밍어려움하드웨어구성을이해해야코딩가능 SX-Aurora TSUBASA Step 1 Step 2 컴파일 NEC 자체컴파일러 실행 컴파일 실행 14 NEC Corporation 2019
편리성 : 생산성을높이는 NEC 의벡터화컴파일러 GPGPU 에상대적으로압도적인소프트웨어개발효율제공 NEC 의다년간축적한컴파일러기술에의해높은성능실현 프로그램수정규모와성능비교 +1300 행 프로그램규모 오리지날프로그램 352 행 GPGPU 1/20 의수정량 +66 행 처리시간 43.5ms SX 보다 20 배수정하더라도, SX 보다성능이낮음 8.9ms Xeon 의 5.6 배성능 7.7ms Xeon GPGPU Vector Xeon GPGPU Vector GPGPU 전용프로그램언어로수작업에의한대폭적인코딩의수정이필수고속화를위해서는시행착오가불가피 ( 수개월걸리는것도 ) 대폭의성능향상을위해서는커다란코드수정작업필요 Vector 전문지식을필요로하지않는강력한자동벡터화 병렬기능작은코딩의수정으로큰성능향상 15 NEC Corporation 2019
편리성 : 오픈환경대응 이전 SX 시리즈는전용 OS, SX-Aurora 제품은범용 OS, Linux OS 로오픈환경에서의풍부한자산이용가능 Linux OS 에의한오픈이용환경 Linux 기존자원이용 고성능계산 사용자 라이브러리 Linux OS 환경 벡터엔진 툴 어플리케이션 x86 주변장치 Linux OS 환경에서 벡터엔진의고성능이용가능 16 NEC Corporation 2019
다양한용도를상정한폭넓은제품의라인업 벡터엔진의초고성능을, 임베디드용도부터대규모데이터센터대응까지폭넓게제공하여, 이용범위를확대 데이터센터모델데이터센터 계산센터에서의거대처리예 : 대규모 AI 빅데이터 대규모시뮬레이션등 온사이트모델제조업등의시뮬레이션 AI 빅데이터이용예 : 대규모수요예측 제조시뮬레이션등 엣지모델 & 임베디드솔루션 AI 빅데이터 시스템임베디드용도예 : 제품검사 의료화상처리 수요예측 레이더해석등 데이터센터모델 ( 수냉식 ) 64VE 搭載온사이트모델 2VE 搭載 4VE 搭載 8VE 搭載엣지모델 1VE 搭載 임베디드솔루션 17 NEC Corporation 2019 유저고객전용시스템 SX-Aurora TSUBASA
제품모델 엣지모델 온사이트모델 데이터센터모델 A100-1 A300-2 A300-4 A300-8 A500-64 제품이미지 VE 카드 VE SKU C B,C A,B 탑재VE수 1 ~2 ~4 ~8 ~64 모양 타워 1U랙마운트 4U랙마운트 전용랙 (DLC) 냉각방식 공랭식 ( 空冷 ) 수냉식 ( 水冷 ) 대응 OS Red Hat Enterprise Linux 7.3/CentOS7.3 18 NEC Corporation 2019
A100 Series A100-1 1VE Tower Xeon Intel Xeon Gold 6100, Silver 4100 VE VE1.0 Type 10C 19 NEC Corporation 2019
A300 Series A300-2 2VE Server IB Xeon Intel Xeon Gold 6100, Silver 4100 VE VE VE1.0 Type 10B/10C A300-4 4VE Server IB Xeon Xeon IB VE VE VE VE VE1.0 Type 10B/10C 20 NEC Corporation 2019
A300 Series A300-8 8VE Server 01 02 03 04 05 06 07 08 09 10 IB VE IB VE VE VE VE VE VE VE IB IB PCIe Gen.3 x16 PCIe SW PCIe SW PCIe Gen.3 x16 Xeon Xeon Intel Xeon Gold 6100, Silver 4100 21 NEC Corporation 2019
A500 Series 4U A500-64 Supercomputer VE Performance (SKU-A) 2.45TF 42U 32U M Bandwidth Rack 1.2TB/s # of VEs 32/48/64 x8 Performance 157TF M Bandwidth 76.8TB/s w/ DLC Size H:42U, W: 19in. 10U Others IB switch, power etc. Power Consumption Cooling < 30KW Hot/Cold water subject to change 22 NEC Corporation 2019
Large Scale Configuration Large scale system by using the 8VE server Infiniband MPI operations are directory executed between VEs without memory coping to x86 memory 23 NEC Corporation 2019
STREAM 24 NEC Corporation 2019
Performance/Node (SKL=1) Performance/power (SKL=1) HPCG Performance/power of Aurora shows 7 times better than SKL 3 2.5 2 1.5 1 0.5 0 HPCG/Node HPCG/power (W) 8 7 6 5 4 7x 3 2 1 0 Aurora SKL Aurora SKL Aurora is Vector Engine Type 10-B (1.4GHz, 8core) SKL is Intel Skylake 6148 Xeon x2/node 25 NEC Corporation 2019
Library performance : Random Generation (MT) Library performance : Random Generation (MT) 26 NEC Corporation 2019
Training Time [sec] Throughput Use case: Financial Option Pricing European option pricing (Monte Carlo) Using Intel MKL financial option pricing example https://software.intel.com/en-us/mkl_cookbook_samples Xeon VE 30 14 12 12.38 25 20 10 8 6 4 x3.3 faster 3.77 15 10 5 0 x3.9 faster (socket comparison) xeon VE 2 0 4 8 12 16 0 Number of Cores Xeon Gold 6126 (12c, 2.6GHz/1.7GHz): 652.8GFlops(DP) VE(8c, 1.4GHz): 2150.4 GFlops(DP) 27 NEC Corporation 2019
실행시간 ( 초 ) Frovedis/Aurora 의기본성능 X86 상의 Spark 와머신러닝에소요되는실행시간을비교 : 시제품상에서의평가 :Xeon (Gold 6126) 1소켓対벡터엔진1기 ( 基 ) 미들웨어효율의장점과, 벡터형컴퓨터를이용한고속화로인해, 40배이상고속화를확인 통신고속화의핵심기술이있기에, 서버대수가늘어나면차이가커진다라고가정 113 倍 43 倍 57 倍 로지스틱회귀 (Web 광고최적화등 ) K-means ( 문서분류등 ) 특이값분해 (Recommend 등 ) 28 NEC Corporation 2019 [*] 로지스틱회귀는 Criteo가공개하고있는데이터의 ¼을이용함 (6GB) K-means와특이값분해는영문Wikipedia전문 (10GB). I/O시간포함하지않음
예비평가 (1/2) X86 상의 Spark 와머신러닝에걸리는실행시간비교 : Xeon (Gold 6126) 1 소켓対벡터엔진 1 基 미들웨어효율의장점과, 벡터형컴퓨터를사용한고속화로인한, 40 배이상의고속화확인 [*] 로지스틱회귀는 Criteo 가공개하고있는데이터의 ¼ 를사용함. (6GB) K-means 와특이값분해는영문 Wikipedia 전문 (10GB) I/O 시간을포함하지않음 29 NEC Corporation 2019
예비평가 (2/2) 동일조건으로 Data Frame 의속도를비교 약 10 배이상의고속화를확인 [*] TPC-H SF100 의데이터일부를추출해이용 30 NEC Corporation 2019
Usability Programing Environment Vector Cross Compiler automatic vectorization automatic parallelization Fortran: F2003, F2008(partially) C: C11 $ vi sample.c $ ncc sample.c Execution Environment C++: OpenMP: MPI: C++14 OpenMP4.5 MPI3.1 x86 $./a.out execution 31 NEC Corporation 2019
SX-Aurora TSUBASA system software 32 NEC Corporation 2019
Programming Environment C/C++ ISO/IEC 9899:2011 (aka C11) ISO/IEC 14882:2014 (aka C++14) Fortran ISO/IEC 1539-1:2004 (aka Fortran 2003) ISO/IEC 1539-1:2010 (aka Fortran 2008) OpenMP Version 4.5 Libraries libc MPI Version 3.1 (fully tuned for Aurora architecture) Numeric libraries (BLAS, FFT, Lapack, etc) Tools GNU Profiler (gprof) GNU Debugger (gdb), Eclipse Parallel Tools Platform (PTP) FtraceViewer/ PROGINF 33 NEC Corporation 2019
Vector programming 34 NEC Corporation 2019
Libraries 35 NEC Corporation 2019
OSS/ISV support plan OSS/ISV Calculation Status BLAS, LAPACK, FFTW (OSS) Math library Supported Spark (OSS) Machine learning (Frovedis is supported) MKL-DNN (OSS) Machine learning (GEN-DNN is supported) Gaussian (Gaussian Inc) Chemistry Ported. Waiting to be certified. VASP (university of Vienna) Ab inito Now optimizing. Support by 2019/Jan PHASE Ab inito Support by 2019/Jan Quantum ESPRESSO Molecular Dynamics Support by early 2019 pytorch (OSS) Machine learning Now running Torch (OSS) Machine learning Now running Tensorflow (OSS) Machine learning Now running Caffe (OSS) Machine learning Plan to support LS-DYNA (LSTC) Crash/Structure analysis Now optimizing. PAM-CRASH (ESI) Crash/Structure analysis Vendor now porting FieldView (Intelligent Light) Visualization Vendor now porting Frovedis is Spark compatible middleware (OSS) for VE GEN-DNN is MKL-DNN compatible library (OSS) for VE 36 NEC Corporation 2019
OSS/ISV support plan OSS/ISV Calculation Status STAR-CCM+ (Siemens) CFD OpenFoam (OSS) CFD Now porting SCRYU/Tetra (Cradle) CFD Vendor now porting FLUENT (ANSYS) NASTRAN (MSC) ABAQUS (Dassault) AMBER ABINIT-MP (Advanced soft) LAMMPS (OSS) Gromacs (OSS) NAMD (OSS) NWChem (OSS) MATLAB (MathWorks) GNU Octave (OSS) CFD, Structure analysis Structure analysis FEM Molecular dynamics Molecular dynamics Molecular dynamics Molecular dynamics Molecular dynamics Chemistry Numerical programming Numerical programming Python 37 NEC Corporation 2019
Vector type Supercomputer 38 NEC Corporation 2019