FT Server of NEC Korea

Similar documents
NX Nastran brochure (Korean)

김기남_ATDC2016_160620_[키노트].key

Integ

Microsoft PowerPoint - eSlim SV [080116]

Microsoft PowerPoint - eSlim SV [ ]

Microsoft Word - s.doc

[Brochure] KOR_TunA

<4D F736F F D20C5EBC7D5C7D8BCAEBDC3BDBAC5DB5F D2BC0C720424D54B0E1B0FABAB8B0EDBCAD2E646F63>

PowerPoint Presentation

<31325FB1E8B0E6BCBA2E687770>

Microsoft Word - DELL_PowerEdge_TM_ R710 서버 성능분석보고서.doc

3.Bladesystem

슬라이드 1

Dell과 함께라면 가능합니다. 처음 도입하는 서버 또는 두 번째로 도입하는 서버이거나 네트워크를 확장시키거나 관리 기능을 강화하는 등의 모든 요구 사항을 Dell은 지원할 수 있습니다. Dell은 특성이 각기 다른 모든 조직과 회사마다 서로 다른 시점에 서로 다른 요

<4D F736F F D F5357BAB05FC5EBC7D5C7D8BCAEBDC3BDBAC5DB5FBCBAB4C920BAD0BCAE20B0E1B0FABAB8B0EDBCAD5F F

CONTENTS CONTENTS CONTENT 1. SSD & HDD 비교 2. SSD 서버 & HDD 서버 비교 3. LSD SSD 서버 & HDD 서버 비교 4. LSD SSD 서버 & 글로벌 SSD 서버 비교 2

Microsoft PowerPoint - Infiniband 20Gb 40Gb Switch HCA (??_1).ppt [Compatibility Mode]

<목 차 > 제 1장 일반사항 4 I.사업의 개요 4 1.사업명 4 2.사업의 목적 4 3.입찰 방식 4 4.입찰 참가 자격 4 5.사업 및 계약 기간 5 6.추진 일정 6 7.사업 범위 및 내용 6 II.사업시행 주요 요건 8 1.사업시행 조건 8 2.계약보증 9 3

FMX M JPG 15MB 320x240 30fps, 160Kbps 11MB View operation,, seek seek Random Access Average Read Sequential Read 12 FMX () 2

solution map_....

비디오 / 그래픽 아답터 네트워크 만약에 ArcGolbe를 사용하는 경우, 추가적인 디스크 공간 필요. ArcGlobe는 캐시파일을 생성하여 사용 24 비트 그래픽 가속기 Oepn GL 2.0 이상을 지원하는 비디오카드 최소 64 MB 이고 256 MB 이상을 메모리

KDTÁ¾ÇÕ-2-07/03

강의10


APOGEE Insight_KR_Base_3P11

Microsoft Word - zfs-storage-family_ko.doc

P2WW HNZ0

pseries, Systems Group pseries 2003 Corporation (p) Systems Group POWER4/POWER4+ pseries! +! + + The Only Complete UNIX on Demand

untitled

AGENDA 모바일 산업의 환경변화 모바일 클라우드 서비스의 등장 모바일 클라우드 서비스 융합사례

슬라이드 1

PRO1_04E [읽기 전용]

Oracle9i Real Application Clusters

Storage advances and Ne over fabric

02( ) CPL14-10.hwp

untitled

<4D F736F F D205B4354BDC9C3FEB8AEC6F7C6AE5D3131C8A35FC5ACB6F3BFECB5E520C4C4C7BBC6C320B1E2BCFA20B5BFC7E2>

Microsoft PowerPoint Q AMD DT channel training Nov.ppt

SchoolNet튜토리얼.PDF

KDTÁ¾ÇÕ-1-07/03

Windows Embedded Compact 2013 [그림 1]은 Windows CE 로 알려진 Microsoft의 Windows Embedded Compact OS의 history를 보여주고 있다. [표 1] 은 각 Windows CE 버전들의 주요 특징들을 담고

Session XX-XX: Name

Æí¶÷4-¼Ö·ç¼Çc03ÖÁ¾š

<4D F736F F D F5357BAB05FC5EBC7D5C7D8BCAEBDC3BDBAC5DB5FBCBAB4C920BAD0BCAE20B0E1B0FABAB8B0EDBCAD F444C F767

Master presentation template three line maximum — First Lastname Job Title

Microsoft Word - Generic_Gas_Simulation_BMT 결과 보고서.doc

femap brochure (Korean)

Microsoft Word _whitepaper_latency_throughput_v1.0.1_for_

Dell Overview Dell,, CAD, VR., ISV. Dell,. 28% Tower 28%. 60% MHz DDR 60%. 159% 2 Quadro P Tower CATIA 159%, 28, , 56 6

Office Office Office 365,,,,,. Microsoft Microsoft

슬라이드 1

PowerPoint 프레젠테이션

HPC Azure - Scalable, Distributed Applications in Windows Azure

00-Intro

대표이사등의확인서명( ) I. 회사의 개요 1. 회사의 개요 1. 연결대상 종속회사 개황(연결재무제표를 작성하는 주권상장법인이 사업보고서, 분기ㆍ 반기보고서를 제출하는 경우에 한함) (단위 : 백만원) 상호 설립일 주소 주요사업 직전사업연도말 자산총액 지배

PowerPoint Presentation

°ø°³¼ÒÇÁÆ®-8È£

초보자를 위한 분산 캐시 활용 전략

<C1F6BFAA5357BBEABEF7C0B0BCBAC1A4C3A5BFACB1B E616C292E687770>

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

°í¼®ÁÖ Ãâ·Â

Agenda 오픈소스 트렌드 전망 Red Hat Enterprise Virtualization Red Hat Enterprise Linux OpenStack Platform Open Hybrid Cloud

(특수선) 장치 ㆍ 장치 /젂자/ ㆍ 장치도 경력 보유자 ㆍ 장비 배치 가능자 ㆍ배기관 배치 및 상세 철의장 ㆍ함정 및 상선의 배기관 및 배치, ㆍ배기관 상세/생산 가능자 기관실 통풍량 계산 및 덕트 배치 ㆍ기관실 통풍계통 경력자 기장 ㆍ수상함, 잠수함, 특수선박의 배

< FC1A6BEC8BFE4C3BBBCAD2E687770>

Appendix B


P2WW HNZ0

vm-웨어-01장


歯경영혁신 단계별 프로그램 사례.ppt

클라우드컴퓨팅이란? WHAT IS CLOUD COMPUTING? 2

Microsoft PowerPoint - chap01-C언어개요.pptx

PowerPoint 프레젠테이션

슬라이드 1

슬라이드 1

<4D F736F F D20C7F6B4EBC0DAB5BFC2F75F44454C4C5FC5EBC7D5C7D8BCAEBDC3BDBAC5DB5F424D54B0E1B0FABAB8B0EDBCAD5F434C554E49585FB3BBBACEBFE

Microsoft PowerPoint - 발표_090513_IBM세미나_IPTV_디디오넷_완료.ppt

Copyright 2012, Oracle and/or its affiliates. All rights reserved.,.,,,,,,,,,,,,.,...,. U.S. GOVERNMENT END USERS. Oracle programs, including any oper

±èÇö¿í Ãâ·Â

ODS-FM1

Title Slide with Name

ii 2008 Advanced Micro Devices Inc. 판권 본사 소유. 이 문서의 내용은 Advanced Micro Devices, Inc.( AMD ) 제품과 함께 제공됩니다. AMD 는 이 간행물 내용의 정확 성 또는 완전성에 대해 진술 및 보증을 하지


_LG히다찌 브로슈어

Oracle Database 10g: Self-Managing Database DB TSC

6.24-9년 6월

PowerPoint Presentation

chapter4

MAX+plus II Getting Started - 무작정따라하기

\\tsclient\C\Users\User\Deskto...

Copyright 2012, Oracle and/or its affiliates. All rights reserved.,,,,,,,,,,,,,.,..., U.S. GOVERNMENT END USERS. Oracle programs, including any operat


2 / 26

SW¹é¼Ł-³¯°³Æ÷ÇÔÇ¥Áö2013

<353420B1C7B9CCB6F52DC1F5B0ADC7F6BDC7C0BB20C0CCBFEBC7D120BEC6B5BFB1B3C0B0C7C1B7CEB1D7B7A52E687770>

Think Z HP Z 워크스테이션이 세상에 나온 지 벌써 30년이 넘었습니다. 다방면의 요구를 충족하도록 설계된 HP Z 워크스테이션은 최신 혁신과 업계 선도적 기술을 도입하여 뛰어난 성능과 신뢰성을 제공합니다. 워크스테이션이 아니라 작업 자체에 더욱 집중할 수 있도

ESP1ºÎ-04

CONTENTS 목차 1. 전원 및 설치시 주의사항 2 2. 시스템 사용시 바른 자세 4 3. 시스템 구성품 확인 5 슬림형 케이스1 6 슬림형 케이스2 7 타워형 케이스1 8 타워형 케이스2 9 일체형 케이스1 10 망분리형 케이스 시스템 시작 및 종료

PowerPoint 프레젠테이션


Transcription:

SX-Aurora TSUBASA Brand-new Vector Supercomputer 한국 NEC 주식회사

2 NEC Corporation 2019

SX-Aurora 영역 NEC 벡터기술을핵심으로시뮬레이션 (HPC) 과 AI 빅데이터해석기술 이과학기술의발전과산업고도화를가속시켜새로운사회가치를창조 금융 경제 생명 (Bio) 보안 에너지 통계해석 화상해석 음향해석 과학기술의진전 유전자해석 제조 유체해석 지구과학 재난방지 구조해석 시뮬레이션 (HPC) 빅데이터해석 기상 기후 벡터기술 3 NEC Corporation 2019

4 NEC Corporation 2019

History of Vector computing Good, but large expensive special likevector dinosaurs Engine PCI card) Performance NEC has always provided high sustained performance by vector supercomputer SX series Earth Simulator 3 Earth Simulator 2 SX-ACE SX-9 Earth Simulator SX-8 SX-7 SX-6 SX-5 Packed vector technologies accumulated over 35 years into PCI card SX-4 SX-3 SX-2 1990 5 NEC Corporation 2019 Fast Strong Compact Economical like falcons 2000 2010

Project Aurora Vector Accelerator Card NEC s 35 years vector technology is packed into Vector Engine card Project Aurora (x86 server + Vector Engine) PCIe Vector Engine (PCIe card) Compact and flexible Hybrid architecture (standard x86 + Vector) Economically deliver supercomputer technology 6 NEC Corporation 2019

PCIe 카드형벡터엔진 신개발벡터프로세서 (8코어) PCIe규격준수 GPGPU와는다른실행모델 Fortran/C/C++ 의표준환경 연산성능 : 2.45TF( 倍정밀도 ),4.91TF( 単정밀도 ) 7 NEC Corporation 2019 메모리대역폭 1.22TB/s( 세계 No.1) Xeon CPU 의 10 배!! 메모리용량 48GB

SX-Aurora TSUBASA 의특징 ( 종래의슈퍼컴퓨터 ) 벡터기술로대량데이터의일괄처리를실현하여 Xeon 대비 10 배이상성능실현 전문지식필요없이, 컴파일하여실행하는것만으로높은성능기대가능 C/C++/Fortran 프로그래밍 슈퍼컴퓨터를 NEC 의기술로다운사이징 고객의필요에따라, 서버 / 엔진선택구성가능적응업무다양 8 NEC Corporation 2019

고성능 : 세계에서제일빠른벡터프로세서 벡터프로세서 세계최속코어 307GFlops(DP) 614GFlops(SP) 세계최속데이터엑세스성능 1.2TB/s 테크놀로지 HBM2 x6 실장 2017 년 10 월현재 NEC 조사 2017 년 10 월현재 NEC 조사 코어코어코어코어 코어코어코어코어 cache 16MB 1.2TB/s 세계최초 CPU 와 6 개의 3 차원적층메모리 HBM2 탑재기술을개발, 탑재 9 NEC Corporation 2019

VE 타입 3종류의벡터엔진 : Type 10A/10B/10C - 주파수 (Hz): 1.6GHz or 1.4GHz - 메모리대역폭 : 1.22TB/s or 0.75TB/s - 메모리용량 : 48GB or 24GB VE Type Freq. (GHz) core processor Memory GF cores DP TF BW size TB/s GB Type 10A 1.6 307 2.45 1.22 48 Type 10B 8 1.4 269 2.15 Type 10C 0.75 24 10 NEC Corporation 2019

벡터연산처리특징 벡터프로세서에의해한번에방대한처리실행가능대규모데이터의고속처리를실현 범용프로세서 작은단위로데이터처리실행업무처리 web 서버등에적합 데이터 벡터프로세서한번에방대한데이터처리실행시뮬레이션 /AI/ 빅데이터등에적합 데이터 256 스칼라계산 벡터계산 결과 결과 256 11 NEC Corporation 2019

Vector Execution 32e 256e 32e 8e A vector register 256e x 64 B 64e (128kB) D FMA x3 C Vector Length = 256e (32e x 8 cycle) 307.2G = (32Flop x 2(FMA)) / cycle x 3 x 1.6GHz 12 NEC Corporation 2019

고성능 : 벡터아키텍쳐에의한고속화 GPGPU 가가지는성능병목현상 (Bottleneck) 해소 엑셀레이터형 (GPGPU) 데이터전송이빈발하면성능 Bottleneck 발생 SX-Aurora TSUBASA 어플리케이션을전부벡터엔진상에서실행하기때문에 Bottleneck 없음 어플리케이션 일부처리 일부처리일부처리 어플리케이션 일부처리 Linux OS Linux OS x86 프로세서 엑셀레이터 (GPGPU) x86 프로세서 벡터엔진 13 NEC Corporation 2019

편리성 : 프로그래밍 SX-Aurora TSUBASA 는 C/C++/Fortran 로개발가능컴파일러의자동병렬화기능으로편리성과고성능을보장 GPGPU Step 1 Step 2 Step 3 통상의프로그램 특별사전준비작업불필요 GPGPU 전문언어이용 소스코드수정필요 실행부분추출 프로그래밍어려움하드웨어구성을이해해야코딩가능 SX-Aurora TSUBASA Step 1 Step 2 컴파일 NEC 자체컴파일러 실행 컴파일 실행 14 NEC Corporation 2019

편리성 : 생산성을높이는 NEC 의벡터화컴파일러 GPGPU 에상대적으로압도적인소프트웨어개발효율제공 NEC 의다년간축적한컴파일러기술에의해높은성능실현 프로그램수정규모와성능비교 +1300 행 프로그램규모 오리지날프로그램 352 행 GPGPU 1/20 의수정량 +66 행 처리시간 43.5ms SX 보다 20 배수정하더라도, SX 보다성능이낮음 8.9ms Xeon 의 5.6 배성능 7.7ms Xeon GPGPU Vector Xeon GPGPU Vector GPGPU 전용프로그램언어로수작업에의한대폭적인코딩의수정이필수고속화를위해서는시행착오가불가피 ( 수개월걸리는것도 ) 대폭의성능향상을위해서는커다란코드수정작업필요 Vector 전문지식을필요로하지않는강력한자동벡터화 병렬기능작은코딩의수정으로큰성능향상 15 NEC Corporation 2019

편리성 : 오픈환경대응 이전 SX 시리즈는전용 OS, SX-Aurora 제품은범용 OS, Linux OS 로오픈환경에서의풍부한자산이용가능 Linux OS 에의한오픈이용환경 Linux 기존자원이용 고성능계산 사용자 라이브러리 Linux OS 환경 벡터엔진 툴 어플리케이션 x86 주변장치 Linux OS 환경에서 벡터엔진의고성능이용가능 16 NEC Corporation 2019

다양한용도를상정한폭넓은제품의라인업 벡터엔진의초고성능을, 임베디드용도부터대규모데이터센터대응까지폭넓게제공하여, 이용범위를확대 데이터센터모델데이터센터 계산센터에서의거대처리예 : 대규모 AI 빅데이터 대규모시뮬레이션등 온사이트모델제조업등의시뮬레이션 AI 빅데이터이용예 : 대규모수요예측 제조시뮬레이션등 엣지모델 & 임베디드솔루션 AI 빅데이터 시스템임베디드용도예 : 제품검사 의료화상처리 수요예측 레이더해석등 데이터센터모델 ( 수냉식 ) 64VE 搭載온사이트모델 2VE 搭載 4VE 搭載 8VE 搭載엣지모델 1VE 搭載 임베디드솔루션 17 NEC Corporation 2019 유저고객전용시스템 SX-Aurora TSUBASA

제품모델 엣지모델 온사이트모델 데이터센터모델 A100-1 A300-2 A300-4 A300-8 A500-64 제품이미지 VE 카드 VE SKU C B,C A,B 탑재VE수 1 ~2 ~4 ~8 ~64 모양 타워 1U랙마운트 4U랙마운트 전용랙 (DLC) 냉각방식 공랭식 ( 空冷 ) 수냉식 ( 水冷 ) 대응 OS Red Hat Enterprise Linux 7.3/CentOS7.3 18 NEC Corporation 2019

A100 Series A100-1 1VE Tower Xeon Intel Xeon Gold 6100, Silver 4100 VE VE1.0 Type 10C 19 NEC Corporation 2019

A300 Series A300-2 2VE Server IB Xeon Intel Xeon Gold 6100, Silver 4100 VE VE VE1.0 Type 10B/10C A300-4 4VE Server IB Xeon Xeon IB VE VE VE VE VE1.0 Type 10B/10C 20 NEC Corporation 2019

A300 Series A300-8 8VE Server 01 02 03 04 05 06 07 08 09 10 IB VE IB VE VE VE VE VE VE VE IB IB PCIe Gen.3 x16 PCIe SW PCIe SW PCIe Gen.3 x16 Xeon Xeon Intel Xeon Gold 6100, Silver 4100 21 NEC Corporation 2019

A500 Series 4U A500-64 Supercomputer VE Performance (SKU-A) 2.45TF 42U 32U M Bandwidth Rack 1.2TB/s # of VEs 32/48/64 x8 Performance 157TF M Bandwidth 76.8TB/s w/ DLC Size H:42U, W: 19in. 10U Others IB switch, power etc. Power Consumption Cooling < 30KW Hot/Cold water subject to change 22 NEC Corporation 2019

Large Scale Configuration Large scale system by using the 8VE server Infiniband MPI operations are directory executed between VEs without memory coping to x86 memory 23 NEC Corporation 2019

STREAM 24 NEC Corporation 2019

Performance/Node (SKL=1) Performance/power (SKL=1) HPCG Performance/power of Aurora shows 7 times better than SKL 3 2.5 2 1.5 1 0.5 0 HPCG/Node HPCG/power (W) 8 7 6 5 4 7x 3 2 1 0 Aurora SKL Aurora SKL Aurora is Vector Engine Type 10-B (1.4GHz, 8core) SKL is Intel Skylake 6148 Xeon x2/node 25 NEC Corporation 2019

Library performance : Random Generation (MT) Library performance : Random Generation (MT) 26 NEC Corporation 2019

Training Time [sec] Throughput Use case: Financial Option Pricing European option pricing (Monte Carlo) Using Intel MKL financial option pricing example https://software.intel.com/en-us/mkl_cookbook_samples Xeon VE 30 14 12 12.38 25 20 10 8 6 4 x3.3 faster 3.77 15 10 5 0 x3.9 faster (socket comparison) xeon VE 2 0 4 8 12 16 0 Number of Cores Xeon Gold 6126 (12c, 2.6GHz/1.7GHz): 652.8GFlops(DP) VE(8c, 1.4GHz): 2150.4 GFlops(DP) 27 NEC Corporation 2019

실행시간 ( 초 ) Frovedis/Aurora 의기본성능 X86 상의 Spark 와머신러닝에소요되는실행시간을비교 : 시제품상에서의평가 :Xeon (Gold 6126) 1소켓対벡터엔진1기 ( 基 ) 미들웨어효율의장점과, 벡터형컴퓨터를이용한고속화로인해, 40배이상고속화를확인 통신고속화의핵심기술이있기에, 서버대수가늘어나면차이가커진다라고가정 113 倍 43 倍 57 倍 로지스틱회귀 (Web 광고최적화등 ) K-means ( 문서분류등 ) 특이값분해 (Recommend 등 ) 28 NEC Corporation 2019 [*] 로지스틱회귀는 Criteo가공개하고있는데이터의 ¼을이용함 (6GB) K-means와특이값분해는영문Wikipedia전문 (10GB). I/O시간포함하지않음

예비평가 (1/2) X86 상의 Spark 와머신러닝에걸리는실행시간비교 : Xeon (Gold 6126) 1 소켓対벡터엔진 1 基 미들웨어효율의장점과, 벡터형컴퓨터를사용한고속화로인한, 40 배이상의고속화확인 [*] 로지스틱회귀는 Criteo 가공개하고있는데이터의 ¼ 를사용함. (6GB) K-means 와특이값분해는영문 Wikipedia 전문 (10GB) I/O 시간을포함하지않음 29 NEC Corporation 2019

예비평가 (2/2) 동일조건으로 Data Frame 의속도를비교 약 10 배이상의고속화를확인 [*] TPC-H SF100 의데이터일부를추출해이용 30 NEC Corporation 2019

Usability Programing Environment Vector Cross Compiler automatic vectorization automatic parallelization Fortran: F2003, F2008(partially) C: C11 $ vi sample.c $ ncc sample.c Execution Environment C++: OpenMP: MPI: C++14 OpenMP4.5 MPI3.1 x86 $./a.out execution 31 NEC Corporation 2019

SX-Aurora TSUBASA system software 32 NEC Corporation 2019

Programming Environment C/C++ ISO/IEC 9899:2011 (aka C11) ISO/IEC 14882:2014 (aka C++14) Fortran ISO/IEC 1539-1:2004 (aka Fortran 2003) ISO/IEC 1539-1:2010 (aka Fortran 2008) OpenMP Version 4.5 Libraries libc MPI Version 3.1 (fully tuned for Aurora architecture) Numeric libraries (BLAS, FFT, Lapack, etc) Tools GNU Profiler (gprof) GNU Debugger (gdb), Eclipse Parallel Tools Platform (PTP) FtraceViewer/ PROGINF 33 NEC Corporation 2019

Vector programming 34 NEC Corporation 2019

Libraries 35 NEC Corporation 2019

OSS/ISV support plan OSS/ISV Calculation Status BLAS, LAPACK, FFTW (OSS) Math library Supported Spark (OSS) Machine learning (Frovedis is supported) MKL-DNN (OSS) Machine learning (GEN-DNN is supported) Gaussian (Gaussian Inc) Chemistry Ported. Waiting to be certified. VASP (university of Vienna) Ab inito Now optimizing. Support by 2019/Jan PHASE Ab inito Support by 2019/Jan Quantum ESPRESSO Molecular Dynamics Support by early 2019 pytorch (OSS) Machine learning Now running Torch (OSS) Machine learning Now running Tensorflow (OSS) Machine learning Now running Caffe (OSS) Machine learning Plan to support LS-DYNA (LSTC) Crash/Structure analysis Now optimizing. PAM-CRASH (ESI) Crash/Structure analysis Vendor now porting FieldView (Intelligent Light) Visualization Vendor now porting Frovedis is Spark compatible middleware (OSS) for VE GEN-DNN is MKL-DNN compatible library (OSS) for VE 36 NEC Corporation 2019

OSS/ISV support plan OSS/ISV Calculation Status STAR-CCM+ (Siemens) CFD OpenFoam (OSS) CFD Now porting SCRYU/Tetra (Cradle) CFD Vendor now porting FLUENT (ANSYS) NASTRAN (MSC) ABAQUS (Dassault) AMBER ABINIT-MP (Advanced soft) LAMMPS (OSS) Gromacs (OSS) NAMD (OSS) NWChem (OSS) MATLAB (MathWorks) GNU Octave (OSS) CFD, Structure analysis Structure analysis FEM Molecular dynamics Molecular dynamics Molecular dynamics Molecular dynamics Molecular dynamics Chemistry Numerical programming Numerical programming Python 37 NEC Corporation 2019

Vector type Supercomputer 38 NEC Corporation 2019