<322D BDC5B1E2BCFA2DC7D1C1F8C8A32E687770>

Similar documents
<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

Ⅱ. Embedded GPU 모바일 프로세서의 발전방향은 저전력 고성능 컴퓨팅이다. 이 러한 목표를 달성하기 위해서 모바일 프로세서 기술은 멀티코 어 형태로 발전해 가고 있다. 예를 들어 NVIDIA의 최신 응용프 로세서인 Tegra3의 경우 쿼드코어 ARM Corte

6.24-9년 6월

Ch 1 머신러닝 개요.pptx

Microsoft PowerPoint - 30.ppt [호환 모드]

목 차 1. 연구 목적 2. 컴퓨팅 파워와 병렬 컴퓨팅 3. AlphaGo의 계산량 분석 4. 결 론

01이국세_ok.hwp

Microsoft PowerPoint - eSlim SV [ ]

ARM01

PowerPoint Presentation

Microsoft Word - 최신IT동향.doc

<C7D1B1B9C1A4BAB8BBEABEF7BFACC7D5C8B82D535720C7C3B7A7C6FB20C7D8B9FD20536F4320C0B6C7D5C0B8B7CE2DB3BBC1F62E687770>

<BFB5BBF3C1A4BAB8C3B3B8AEBDC3BDBAC5DB20BFACB1B82E687770>

Microsoft PowerPoint Q AMD DT channel training Nov.ppt

Microsoft PowerPoint - eSlim SV [080116]

Integ

슬라이드 1

KDTÁ¾ÇÕ-2-07/03

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 25(11),

엔비디아 Nvidia (NVDA US) 4차 산업혁명의 BRAIN 미래에셋대우 리서치센터 글로벌 포트폴리오 GPU(Graphic Processing Unit)는 무엇인가? GPU (Graphic Processing Unit) NVIDIA는 GPU 설계를 메인 사업으로

°í¼®ÁÖ Ãâ·Â

[ReadyToCameral]RUF¹öÆÛ(CSTA02-29).hwp

Microsoft Word - 정병권


<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

Microsoft Word - zfs-storage-family_ko.doc

<4D F736F F D203036B1C7BFF8BFC128C6AFC1FD292DC3D6C1BE>

<목 차 > 제 1장 일반사항 4 I.사업의 개요 4 1.사업명 4 2.사업의 목적 4 3.입찰 방식 4 4.입찰 참가 자격 4 5.사업 및 계약 기간 5 6.추진 일정 6 7.사업 범위 및 내용 6 II.사업시행 주요 요건 8 1.사업시행 조건 8 2.계약보증 9 3

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

Microsoft Word - KIS_Touchscreen_5Apr11_K_2.doc

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

Microsoft Word - ICT Reprot

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

ºÎ·ÏB

Chapter ...

Microsoft PowerPoint - CHAP_03 - 복쇬본.pptx

2 : (Seungsoo Lee et al.: Generating a Reflectance Image from a Low-Light Image Using Convolutional Neural Network) (Regular Paper) 24 4, (JBE

비디오 / 그래픽 아답터 네트워크 만약에 ArcGolbe를 사용하는 경우, 추가적인 디스크 공간 필요. ArcGlobe는 캐시파일을 생성하여 사용 24 비트 그래픽 가속기 Oepn GL 2.0 이상을 지원하는 비디오카드 최소 64 MB 이고 256 MB 이상을 메모리

1_12-53(김동희)_.hwp

Microsoft PowerPoint - 권장 사양

Microsoft PowerPoint - 알고리즘_5주차_1차시.pptx

-

User Guide

기관별 공동 Template

결과보고서

untitled

Microsoft Word 반도체-아이폰.doc

Microsoft Word doc

AGENDA 모바일 산업의 환경변화 모바일 클라우드 서비스의 등장 모바일 클라우드 서비스 융합사례

서보교육자료배포용.ppt

그림 2. 5G 연구 단체 현황 앞으로 다가올 미래에는 고품질 멀 티미디어 서비스의 본격화, IoT 서 비스 확산 등의 변화로 인해 기하 급수적인 무선 데이터 트래픽 발생 및 스마트 기기가 폭발적으로 증대 할 것으로 예상된다 앞으로 다가올 미래에는 고품질 멀티미디어 서

Chap 6: Graphs

Microsoft PowerPoint - Infiniband 20Gb 40Gb Switch HCA (??_1).ppt [Compatibility Mode]

19_9_767.hwp

3 : OpenCL Embedded GPU (Seung Heon Kang et al. : Parallelization of Feature Detection and Panorama Image Generation using OpenCL and Embedded GPU). e

Appendix B

16X Tesla V100 SXM 3GB NVIDIA DGX- 16x Tesla V100 SXM 3GB 81,90 CUDA cores / 10,40 Tensor Cores FP16 : 1,90 TFLOPS / FP3 : 40 TFLOPS / FP64 : 10 TFLOP

Microsoft PowerPoint - 발표_090513_IBM세미나_IPTV_디디오넷_완료.ppt

KDTÁ¾ÇÕ-1-07/03

<333820B1E8C8AFBFEB2D5A B8A620C0CCBFEBC7D120BDC7BFDC20C0A7C4A1C3DFC1A42E687770>

63-69±è´ë¿µ

리뉴얼 xtremI 최종 softcopy

Data Industry White Paper

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Sep.; 26(10),

레이아웃 1

00내지1번2번

[ 마이크로프로세서 1] 1 주차 1 차시. 마이크로프로세서개요 1 주차 1 차시마이크로프로세서개요 학습목표 1. 마이크로프로세서 (Microprocessor) 를설명할수있다. 2. 마이크로컨트롤러를성능에따라분류할수있다. 학습내용 1 : 마이크로프로세서 (Micropr

슬라이드 1

클라우드컴퓨팅이란? WHAT IS CLOUD COMPUTING? 2

2 PX-8000과 RM-8000/LM-8000등의 관련 제품은 시스템의 간편한 설치와 쉬운 운영에 대한 고급 기술을 제공합니다. 또한 뛰어난 확장성으로 사용자가 요구하는 시스템을 손쉽게 구현할 수 있습니다. 메인컨트롤러인 PX-8000의 BGM입력소스를 8개의 로컬지

歯홍원기.PDF

전파방송통신저널 는 가격으로 출시될 것으로 예상된다. 구글도 HTC와 손잡고 크롬 OS를 탑재한 태블릿 PC 크 로미움 을 선보일 예정이다. 마이크로소프트도 쿠리어(Courier) 라는 이름으로 양면 스크린 북 클릿 형태의 새로운 태블릿 PC를 올해 안으로 출 시할 예

Microsoft Word - DELL_PowerEdge_TM_ R710 서버 성능분석보고서.doc

Microsoft PowerPoint - User Manual pptx

Level 학습 성과 내용 1수준 (이해) 1. 기본적인 Unix 이용법(명령어 또는 tool 활용)을 습득한다. 2. Unix 운영체계 설치을 익힌다. 모듈 학습성과 2수준 (응용) 1. Unix 가상화 및 이중화 개념을 이해한다. 2. 하드디스크의 논리적 구성 능력

Contents I. 칼라스 네트워크 플레이어란 1. Pc-Fi를 넘어서 발전한 차세대 음악 플레이어 칼라스 네트워크 플레이어의 장점 3. 시스템 기본 구성

untitled

SW테스트베드 장비 리스트

(JBE Vol. 23, No. 5, September 2018) (Special Paper) 23 5, (JBE Vol. 23, No. 5, September 2018) ISSN

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Oct.; 27(10),

슬라이드 1

안전을 위한 주의사항 제품을 올바르게 사용하여 위험이나 재산상의 피해를 미리 막기 위한 내용이므로 반드시 지켜 주시기 바랍니다. 2 경고 설치 관련 지시사항을 위반했을 때 심각한 상해가 발생하거나 사망에 이를 가능성이 있는 경우 설치하기 전에 반드시 본 기기의 전원을

hlogin2

3.Bladesystem


Think Z HP Z 워크스테이션이 세상에 나온 지 벌써 30년이 넘었습니다. 다방면의 요구를 충족하도록 설계된 HP Z 워크스테이션은 최신 혁신과 업계 선도적 기술을 도입하여 뛰어난 성능과 신뢰성을 제공합니다. 워크스테이션이 아니라 작업 자체에 더욱 집중할 수 있도


[한반도]한국의 ICT 현주소(송부)

논단 : 제조업 고부가가치화를 통한 산업 경쟁력 강화방안 입지동향 정책동향 <그림 1> ICT융합 시장 전망 , 년 2015년 2020년 <세계 ICT융합 시장(조 달러)> 2010년 2015년 2020년 <국내 ICT

CONTENTS 목차 1. 전원 및 설치시 주의사항 2 2. 시스템 사용시 바른 자세 4 3. 시스템 구성품 확인 5 슬림형 케이스1 6 슬림형 케이스2 7 타워형 케이스1 8 타워형 케이스2 9 일체형 케이스1 10 망분리형 케이스 시스템 시작 및 종료

BJFHOMINQJPS.hwp

1. GigE Camera Interface를 위한 최소 PC 사양 CPU : Intel Core 2 Duo, 2.4GHz이상 RAM : 2GB 이상 LANcard : Intel PRO/1000xT 이상 VGA : PCI x 16, VRAM DDR2 RAM 256MB

PowerPoint 프레젠테이션

Microsoft Word - 21_반도체.doc

NX Nastran brochure (Korean)

À¯Çõ Ãâ·Â

<91E6308FCD5F96DA8E9F2E706466>

untitled


Transcription:

주간기술동향 2020. 9. 16. chapter 2 병렬컴퓨팅기반인공지능프로세서기술동향 * 한진호 권영수 한국전자통신연구원실장한국전자통신연구원본부장 I. 서론 : 병렬컴퓨팅의대중화 컴퓨터의클럭속도는 1980년도중반부터 2004년까지컴퓨터성능을향상시키는데가장영향력있는요소였다. 실행시간은명령어수를명령어당평균시간 (1/IPC) 을곱한것과같았는데클럭수를늘리면명령을실행하는평균시간은짧아진다. 그러나칩의전력소모량은 P=C V 2 F의공식에따른다. 여기서, C는전기용량, V는전압이고, F는주파수이다. 주파수수를높이면전력사용량이늘어나게되고, 이는전력의증가는동작시많은문제를일으키고있다. 그래서무어의법칙은 18에서 24개월동안집적도가 2배씩늘어난다는것을예측하는것이지만, 이는주파수척도가아닌병렬컴퓨팅에의해계속해서유효하게된다. 병렬컴퓨팅은동시에많은계산을하는연산방법으로크고복잡한문제를작게나눠동시에병렬적으로해결하는데에주로사용된다. 그러나병렬화로인한속도향상은병렬화할수없는작은부분이전체적인병렬화에영향을가져온다는암달의법칙에의해그 * 본내용은한진호실장 ( 042-860-6558, soc@etri.re.kr) 에게문의하시기바랍니다. ** 본내용은필자의주관적인의견이며 IITP 의공식적인입장이아님을밝힙니다. *** 인공지능프로세서연구실원 : 김병조, 이미영, 정재훈, 김현미, 함제석, 김혜지, 전인산, 조용철, 최민석, 신경선, 여준기, 양정민, 김찬, 석정희, 전영득, 조민형, 박기혁, 김진규, 김주엽, 이주현, 김성민 16 www.iitp.kr

Log Scale < 자료 > David Patterson, 50 Years of Computer Architecture: From the Mainframe CPU to the Domain-Specific TPU and the Open RISC-V Instruction Set, ISSCC 2018. [ 그림 1] Haswell, K80, TPU 의 Roofline 성능모델비교 한계도있다. 또한, 병렬화는자료의종속성에의해병렬화에한계를가지기도한다. 인공지능알고리즘을수행하기위해서는많은연산량을요구하고있으며, 이러한연산성능을내기위해서는병렬컴퓨팅의방법을사용할수있다. [ 그림 1] 은 CPU, GPU, Google TPU의성능을나타내는 Roofline 성능모델그래프이다 [1]. nvidia K80 GPU는 SIMT 구조로 Intel Haswell CPU보다병렬컴퓨팅을이용하여성능을높이고있다. 그리고, Google TPU AI Processor는 K80보다더높은 97TOP/ sec의성능을내고있고, Operational Intensity인하나의 weight를읽어와서더많은연산을수행할수있도록하고있다. 즉, 읽어온오퍼랜드로더많은연산을수행할수있도록병렬컴퓨팅성능을높이고있다. 인공지능프로세서는이렇게인공지능알고리즘을빠르게수행하기위해병렬컴퓨팅성능을극대화하고있으며, 외부메모리대역폭한계를극복하기위해읽어온 Weight 값을최대한재활용하여 Operational Intensity를높이고있다. 정보통신기획평가원 17

주간기술동향 2020. 9. 16. II. 인공지능프로세서 인공지능프로세서인 Google TPU는다음과같은구조로일반적인 CPU, GPU보다 30~50배높은에너지효율성으로 Deep Neural Network 연산의 15~30배의추론성능을높이고있다 [2]. [ 그림 2] 에서오른쪽중앙에있는 Matrix Multiply Unit은매사이클당 256 256의 8비트곱셈및덧셈을할수있는 MAC을포함하고있다. 그리고 16비트곱셈결과는 4MiB Accumulator에저장이된다. 그리고 Matrix Multiply Unit은매사이클당 256 개의 partial product 값을출력하고이를 Accumulator에의해누적한다. 또한, Weight FIFO에의해 30GiB/s의대역폭으로 Weight 값을공급한다. 연산을위한입력값은 14GiB/s의대역폭을가지는 PCIe Gen3 16 인터페이스를통해 Unified Buffer 에전송되고, 24MiB 용량을가지는 Unified Buffer는 167GiB/s의대역폭으로 Matrix Multiply Unit에공급된다. < 자료 > Norman P. Jouppi et al., In-Datacenter Performance Analysis of a Tensor Processing Unit, In Proceedings of the 44th Annual International Symposium on Computer Architecture, 2017. [ 그림 2] 구글 TPU v1 아키텍처 18 www.iitp.kr

TPU 는 18 코어로이루어진 Intel Haswell CPU 또는 Nvidia Kepler K80 GPU 면적 의약절반을가지고, 절반의전력을소모하지만, 25 배의 MAC 연산성능을내고, 3.5 배의 온칩메모리를가지고있다. III. 인공지능프로세서개발동향 1. 모바일인공지능프로세서 스마트폰회사들이 2019년발표한모바일 AP들은다수의혼종 CPU 코어와 GPU 이외에인공지능프로세서인 NPU(Neural Processing Unit) 를대부분포함하고있는구조이다. 퀄컴은이와는다르게전용 NPU를적용하지않고텐서 (tensor) 가속기로 DSP를채용하고있다. 애플, 화웨이, 삼성, 퀄컴, 미디어텍의 2019년발표된모바일 AI 프로세서의특징은다음과같다 [3]-[9]. 화웨이 Kirin 칩은 3D 텐서계산구조에서착안한 DaVinci 아키텍처를신경망연산코어로적용했다. DaVinci 코어는 3D 텐서계산방식에맞게구조화된 16 16 16 MAC 연산기큐브 (cube) 를포함하며, 각 MAC 연산기는사이클당 1개의 FP16 연산이나 2개의 INT8 연산을수행한다. DaVinci 코어는 MAC 연산기큐브이외에스칼라 ALU, 벡터 ALU, load/store 유닛등을포함한다 [7]. 삼성 Exynos 990에적용된 NPU의구조는 NPU 제어기와 2개의 NPU 코어로구성되고, NPU 제어기는 CPU, DMA, SRAM, 네트워크제어기를포함한다 [6]. NPU는 1,024개 MAC 연산기로구성되며, Weight의희소성을활용하여필요한연산만을수행할수있는 NPU 구조를제안했다. Inception-v3 신경망으로 3.4 TOPS/W 결과를보였다. 모바일용저전력 CPU, GPU IP를주력으로하는 ARM사는다양한 AI 응용에적용할수있도록 3가지사양의 Ethos-N NPU를발표했다 [10]. Ethos-N37, N57, N77은각각 512개, 1,024개, 2,048개의 8 8 MAC 연산기로구성되며 1~4 TOPS 성능을보인다. DSP IP가주력인 CEVA사는인공지능프로세서 NeuPro-S를발표했다 [11]. AI 엔진인 NeuPro-S 엔진과벡터연산용 CEVA-XM DSP로구성되어있다. NeuPro-S 엔진은신경망의대표적레이어들인콘볼루션 (convolution), 액티베이션 (activation), 풀링 (pooling) 정보통신기획평가원 19

주간기술동향 2020. 9. 16. 레이어처리기능을내부에포함하고있으며, 12.5 TOPS 처리성능결과를발표했다. Gyrfalcon사는매트릭스연산전용엔진을구현한 Ligthspeeur 2801, 2803을출시했다 [12]. 168 168 MAC 연산기로구성된매트릭스연산엔진을포함하며, 300mW의저전력으로 2.8 TOPS의성능으로 9.3 TOPS/W의높은에너지효율결과를발표했다. PIM(Procssing In Memory) 구조로설계하여, 전력을많이소모하는외부메모리로부터의데이터전송을없애서저전력으로동작할수있도록설계하였다. 이스라엘스타트업 Hailo사는자체개발코어 8개로구성된 Hailo-8로 CES 2020 Innovation Award를수상했다 [13]. 5W 이하의전력으로 26 TOPS의높은성능을발표했다. ResNet-50(224 224) 신경망에대해 672 FPS, 1.7W로 NVIDIA Xavier 대비 1/15 전력으로동등한신경망수행능력을보였다. 2. 서버인공지능프로세서 NVIDIA는 1990년대인텔에맞서서 CPU를개발하기위해설립된기업이다. CPU 시장에서 x86을내세운인텔의시장지배자로서의위치를확인한후 2000년대초에 GPU 에서 Geometry Processing과 Pixel Processing을통합한최초의 GPU를출시하면서그래픽스시장의최강자로자리잡는다. 이후그래픽스카드시장이정체되면서 NVIDIA 는 GPU를 Parallel Processing을위한칩으로이용하는 GPGPU라는개념을내어놓는다. GPGPU의근본구조는 Stream Processor(SP) 를기반으로하는 Single Instruction Multiple Thread(SIMT) 구조의프로세서로구성되어있다는점에서 NVIDIA는병렬컴퓨팅을개발하는회사로급속히성장하기시작했고, 아키텍처의구조를변화, 향상시키면서 Tesla(2007년 ), Fermi (2010년), Kepler(2012년 ), Maxwell(2014), Pascal(2016), Volta(2017), Ampere(2020) 라는코드명을붙이면서발전해왔다 [14]-[18]. 2020년 5월 GPU Technology Conference(GTC) 2020에서차세대 GPU 아키텍처인 Ampere 기반의데이터센터용 AI 프로세서 A100을공개하였다 [19]. A100에는 8개의 GPU processing cluster(gpc), GPC당 8 Texture processing cluster(tpc), 그리고 TPC 별로 2개의 SM으로구성되어총 128개 SM이집적되어있다. A100은 3세대 Tensor core 기술로서 FP32데이터가속용 TensorFloat-32(TF32) Tensor core, HPC용 IEEE 호환 FP64 Tensor Core, FP16과동일한처리량을가지는 20 www.iitp.kr

BF16 Tensor core와 INT8/INT4 및 Binary 등의모든데이터유형에대한가속을지원하면서희소성연산기능을제공한다. Tensor Core의 TF32연산은 V100의 FP32 FMA보다 10배빠르며희소성연산에서는 20배빠른가속성능을나타낸다. FP16/FP32 혼합정밀딥러닝연산에서는 V100보다 2.5배높은성능을, 희소성연산에서는 5배높은성능을보인다. 그리고 A100은 40GB HBM2 메모리를적용하여 V100보다 1.7배이상의메모리대역폭을지원하고 3세대 NVLIN와 NWSwith 기술로 600GB/s 대역폭을구현하였으며, Multi GPU, Multi node 및 Multi-Instance GPU(MIG) 를통해다중 GPU 시스템연결을위한확장성을제공한다. GTC 2020에서는 A100 프로세서를기반으로한 5페타플롭급의 DGX A100 데이터센터용플랫폼과 700페타플롭의 140개 DGX A100 시스템으로구성된차세대 DGX 슈퍼 POD(DGX SuperPOD) 를함께공개하였다. DGX A100은 8개의 A100으로구성되어 6개의 NV 스위치와 NV 링크기술을통해초당 4.8TB의양방향대역폭을지원하여 Mellanox사의네트워킹기술과함께데이터센터확장에편리하도록설계되었다. GTC 2020 키노트를통해 Nvidia는 Ampere 아키텍처를바탕으로공통 GPU 아키텍처를개발하고 HPC부터엣지까지다양한제품군에공통적용하는전략을펼치고있음을알수있다. 퀄컴은온디바이스 AI 기술력을바탕으로 5세대 AI 엔진을탑재한서버전용 AI 가속기솔루션인추론용 cloud AI 100을 2019년 4월에개발하였고, AI 반도체용 SW 및개발툴인 Qualcomm Neural Processing SDK를함께제공하였다. 퀄컴은데이터센터용 AI 프로세서맞춤용라이브러리, 컴파일러등 SW 통합개발환경을제공하여서버용 AI 생태계에서도시장주도권을장악하려고노력하고있다. Cloud AI 100은 350 TOPS 이상의연산성능과경쟁 AI 추론솔루션기술대비 10배이상의와트당성능을가지고있다고발표하였다. 2020 CES에서는 Cloud AI 100을기반으로한첫제품인 Smart Edge Box를 2020년하반기대규모상용을목표로개발중에있다고발표하였다. 중국은프로세서기술개발을위해서 CAS(Chinese Academy of Science, 중국의정부출연연구소 ) 를통해상당한투자를해왔다 [16]. 자체개발한프로세서인 SW26010을격자구조의대규모멀티프로세서로구성한 Taihulight 라는슈퍼컴 (Top 500 Supercomputer list에서 1위를차지 ) 을개발하였으며, CAS의 ICT(Instutite of Computing Technology) 정보통신기획평가원 21

주간기술동향 2020. 9. 16. 에서는인퍼런스가속기인 DianNao, DaDianNao, ShiDianNao를개발하였다. 중국의 Cambricon Technologies 스타트업이개발한 Cambricon-X는 6.38mm2의반도체면적에서 544GOPS의성능을내고 [5], Sparse matrix 가속성능이있다. 중국 Huawei의스마트폰내에있는 Kirin 970 프로세서내에서 Cambricon-X는 NPU IP로활용되고있다. 인텔은인공지능을위한반도체개발을위해인수합병을통해매우다양한시도를하고있다. Movidius의 Myriad, Nervana 학습용 AI 프로세서 (NNP-T) 와추론용 AI 프로세서 (NNP-I) 2종의 Nervana AI 프로세서를공개하였다 [20]. NNP-T는 Nervana가 2년간 Lake Crest 라는코드명으로개발한 1세대기술후속인스프링크레스트 (Spring Crest) 기반으로 TSMC의 16nm 공정에서설계되었다. NNP-T는 Bfloat16 데이터유형을지원하여최대 108TOPS 성능을보여주었고, 4개의 32GiB급 HBM2 스택과함께 PCIe Gen3 및 OCP OAM 가속기카드 2가지의폼팩터를제공하였다. 인텔은 2019년 12월에데이터센터용 AI 프로세서강화를위해이스라엘 AI 반도체스타트업인 Habana Labs를인수하여 AI 추론프로세서고야 (Goya) 및학습용 AI 프로세서가우디 (Gaudi) 를출시하였다 [21]. 가우디칩은 3배뛰어난학습연산성능을보였고 640개가우디프로세서기반서버시스템은 ResNet-50 학습연산처리기준으로 640개의 Nvidia V100 기반시스템보다 3.8배높은처리성능을나타냈다. 이는대규모 HLS-1 기반클러스터가 Nvidia의 DGX-1 AI 서버시스템의처리량보다 3.8배높은성능을보여줌을말한다. 가우디는텐서프로세서코어 (TPC), GEMM 및 DMA의 3가지이기종컴퓨팅구조기반으로동작을하며, FP32, BF16, INT32, INT16, INT8, UINT32, UINT16 및 UINT8 등다양한혼합정밀데이터유형을지원하여높은연산성능을보여준다. 데이터센터확장성을위해 8개의 100GB 이더넷을지원하면서이더넷네트워크를통한원격직접메모리액세스기술인 RDMA over Converged Ethernet(ROCE V2) 을지원하였다. RoCE는학습과정에서필요한프로세서간통신에서최대 2Tb/s의양방향처리량을지원한다. 인텔은결국 2020년 2월에 Nervana AI 프로세서개발중단을발표하였고, 가우디, 고야로데이터센터와클라우드시장에집중하려는전략을펼치고있다. 22 www.iitp.kr

Xeon Phi 등과같이 68개의 x86 CPU를한개의반도체칩에집적한제품을개발하였지만, 300Watt 이상의소모전력으로많은활용처를찾지못하고있다. 인공지능반도체에대한관심이증대되면서글로벌기업들은매우다양한제품들을발표하였고, 국내에는 UX factory, Furiosa A.I., Mobiliant 등의스타트업이인공지능알고리즘이요구하는높은연산성능을내기위한독창적인구조로인공지능반도체를개발하고있다. IV. 국내인공지능프로세서개발 1. VIC VIC은한국전자통신연구원에서시각지능 AI 알고리즘의저전력고속처리를위해개발되었다. 저전력동작을위한아날로그맥 (MAC) 연산기를포함한 Neural Network Processing 부분, AI Algorithm 처리부분, 외부장치연결제어및애플리케이션처리부분으로구성된다. 신경망의주요연산을담당하는 Neural Network Processing 부분은 [ 그림 3] 과같이신경망의대량커널연산을수행하는병렬어레이구조인 Neural Kernel Processing Array(Kernel PA) 를기반으로한다. AI Algorithm 처리부분은로열티프리인 RISC-V CPU로 AI 알고리즘의다양한변종을처리할수있도록구성하고, 애플리케이션처리 < 자료 > 한국전자통신연구원자체작성 [ 그림 3] Neural Kernel PA 구조 정보통신기획평가원 23

주간기술동향 2020. 9. 16. 부분도 RISC-V CPU로구성하였다. VIC 칩은고속 USB3 인터페이스, 대용량외부메모리와의고속병렬인터페이스, 칩제어를위한 I2C, UART 인터페이스등을지원한다. 신경망연산의핵심을담당하는 Neural Network Processing 부분을좀더자세히들여다보면, Kernel PA, 메모리와메모리컨트롤러, 고속데이터전송을담당하는 Neural Network Direct Memory Access Controller(NDMAC) 와신경망연산기전용캐시기능을담당하는 NCU(Neural Cache Unit) 를포함한다. Kernel PA는신경망의대량커널연산을처리하는병렬 Kernel Unit들로이루어져있다. Kernel Unit은로컬메모리인 Tiling Cache Memory와 MAC 연산기들로구성되어있다. 저전력 MAC 연산동작을위해 [ 그림 4] 와같이아날로그신경망연산기인 Analog Basic Linear Algebra Circuit(ABLAC) 을개발하였다. ABLAC는 2.36pJ(1.21mW, 512MSOP/s) 의저전력동작성능을보인다. 저전력동작을위한 ABLAC 연산기와고속모드를위한디지털 MAC 연산기를공통으로적용한아날로그 / 디지털혼종의 MAC 연산기구조를최종채택하여 Kernel Unit을설계했다. Kernel Unit의 MAC은저전력동작을위해 Sparse 신경망처리기능을지원한다. < 자료 > 한국전자통신연구원자체작성 [ 그림 4] ABLAC core 24 www.iitp.kr

신경망의웨이트중제로 ( 0 ) 인웨이트에대한연산을회피하여, 고속저전력 MAC 연산을가능하게하는 Sparse 처리기능을 MAC 연산기에서제공한다. 모든웨이트연산을처리하는 Dense 연산방식이유리한신경망에대비하여 Sparse/Dense 연산을동시에지원하는 MAC 연산기를개발하였다. 신경망에따라유리한 MAC 연산모드로고속, 저전력으로동작시킬수있는장점이있다. VIC 칩은신경망의웨이트나입출력데이터의일반적구조인 3D 텐서형태의데이터를외부메모리로부터고속전송하는 NDMAC를포함한다. 3D 텐서구조의데이터는보통연속된메모리주소에위치하지않는데, 이를각각분리된메모리전송명령으로처리하는일반적 DMAC로처리할경우, 연속된데이터전송과비교하면, 대역폭이현저히떨어진다. 이를 해결하기위해 3D 텐서구조의데이터에대한전송을일괄처리할수있는 NDMAC를개발하여데이터전송대역폭을개선하였다. 메모리의데이터전송병 < 자료 > 한국전자통신연구원자체작성 [ 그림 5] VIC 목현상을해결하기위한신경망연산기전용캐시기능을담당하는 Neural Cache Unit 을포함한다. 최신신경망의다양한콘볼루션커널에대한처리를검증하기위해 SSD, ResNet, MobileNet, Inception, MobileNet, GoogLeNet 등다양한신경망으로 VIC 칩을검증했다. VIC 칩은 TSMC 40nm공정으로제작하였다. 커스텀레이아웃설계한 PLL, ALBAC을포함하여전체크기는 5.5 5.5mm2이다. 전체게이트카운트는 17,551,342 규모이고, 소비전력최적화를위해 Multi-VT 기술을적용하여제작하였다 ([ 그림 5) 참조 )]. 2. AB9 AB9은한국전자통신연구원에서개발한 AI 알고리즘을가속하기위한인공지능프로세서로서, Convolutionary Layer의처리속도를향상시키기위한 Matrix 연산가속기인 Super Thread Core(STC) 와이를제어하고 Pre-processing, Post-processing을위한 SPARC Instruction Set Architecture기반의 General Purpose CPU인쿼드코어로 정보통신기획평가원 25

주간기술동향 2020. 9. 16. MM0 MM1 AG FC NCSEQTBL : Control flow : Data flow DC DC NC NC NC NC NC NC NC NC DC NC NC NC NC 128x128 DC NC NC NC NC < 자료 > 한국전자통신연구원자체작성 [ 그림 6] STC 아키텍처 구성된알데바란프로세서로구성된다 [19]. STC는 [ 그림 6] 과같이 32MB의 Data Control(DC) Memory와 Nano Core(NC) 로구성된 Systolic Array(SA) 로구성되어있다. SA는 128 128의 NC로구성이되어 Deep Neural Network를위한병렬연산을하게되고, SA를위한웨이트와 IFM(Input Feature Matric) 을공급하는역할을 DC 메모리가담당하게된다. 그리고연산된결과는다시 32MB의 DC 메모리에저장을하게된다. 그리고 MM0, MM1은외부메모리로부터필요한웨이트와 Input Feature Matric (IFM) 을읽어오고, 연산된결과인 Output Feature Matric(OFM) 을저장하는역할을한다. 그리고 Flow Control(FC) 은외부메모리에저장된 STC를위한명령어를읽어와웨이트, IFM, 그리고 OFM을위한저장주소를제어하거나, NC를위한명령어를 NC Sequence Table(NCSEQTBL) 에저장하고, 이를 NC에전송하는역할을하게된다. SA를구성하는 NC는최대 1.25GHz로동작하며, 16-bit floating-point Data Type 으로연산을한다. 이러한 SA는 128 128 NC로구성이되어있고, 모두동작을할경우최대 40TFLOPS의성능을가진다. NC는 16-bit floating-point multiply, add, comparison, max 연산을지원한다. 또한, SA는동작하지않을때는 Power Gating (PG) 기능을통해대기전력소모를차단한다. 이때, SA의 Power Domain을 16개로나누어병렬적인 PG 제어가가능하도록설계함으로써전력공급 / 차단시의지연시간을최소화한다. 26 www.iitp.kr

DC Memory는 32MB 크기의내부 SRAM과이의제어를위한로직들로구성되어있다. SA의행개수와동일하게 128개의행으로이루어져있고, 각행은 8개의독립적인 256KB SRAM 뱅크들로구성되어있어, 128 8개의읽기 / 쓰기를병렬적으로수행할수있다. FC의 Address Generation(AG) 으로부터 IFM과웨이트주소가전달되면, 모든행의 DC 메모리는해당위치의데이터를 NC들에게공급한다. DC로부터읽혀나온 IFM 이좌하향의 NC에전달된다면, 웨이트는 feed-through path를거쳐우상향의 NC에전달된다. IFM과웨이트가모두단일 DC에저장되므로효율적으로사용할수있다. MM0와 MM1은 256비트의읽기 / 쓰기를지원하는 Direct Memory Access 기능을함으로써외부 LPDDR4/PCIe와 DC 간인터페이스를담당한다. MM0는외부로부터읽어들인 IFM을 DC에저장하거나, DC에저장된출력데이터를다시외부로전송한다. MM1은외부로부터웨이트만을읽어들여 DC에저장한다. FC는 NCSEQTBL과 AG로구성된다. NCSEQTBL(NC Sequence Table) 은 32비트의 NC 명령어를 1,024개까지저장할수있는 FIFO 구조로이루어져있으며, NC 명령어는 NC까지 5단파이프라인 (pipeline) 을거쳐전달된다. NC 명령어를통해각 NC의다양한연산기를재구성할수있어 CNN(Convolutionary Neural Network), FCN(Fully- Connected Network), LSTM 등다양한종류의 Deep Neural Network에필요한연산을가속할수있다. DC 주소는 DNN의 Tiled 연산을위해다양한 Dimension 연산을지원하며, 폭 (Width), 높이 (Height), 깊이 (Depth) 에대한총 7가지조합을지원한다. 이러한구성은 AG(Address Generation) 를통해 7차원의네스트루프 (nested loop) 로구성될수있으며, 시작주소, offset, 루프수행횟수등의 parameter 에의해주소가생성된다. TSMC 28nm 공정에서제작된칩의 Layout 은 [ 그림 7] 과같이면적은 19 26mm2이며, Gate Count 수는약 2.85억개에달한다. 1V 동작전 압, -40~125 도동작온도에서최대 1.25GHz 로 동작하며, power/ground 를포함하여, 1,599 개 < 자료 > 한국전자통신연구원자체작성 [ 그림 7] AB9 정보통신기획평가원 27

주간기술동향 2020. 9. 16. 의 IO Pin 을가지는칩이다 ([ 그림 7] 참조 ). V. 결론 병렬컴퓨팅은암달의법칙에의한한계가있지만, 인공지능알고리즘에서요구하는높은연산성능을달성하기위한인공지능프로세서의기본설계방향이되고있으며, SIMT(Single Instruction Multi Thread) 기반의구조와달리 Systolic Array의구조로 Operational Intensity를높여주어진외부메모리대역폭에서높은연산성능을내는구조를달성하고있다. 차세대인공지능프로세서는더높은연산성능을요구하는학습연산성능향상을위한구조로연구가되고있고, 학습을위한연산성능을달성하기위해서는반도체의한계로인해단위전력당더높은연산성능을요구하는구조로가야할것이다. [ 참고문헌 ] * [1] David Patterson, 50 Years of Computer Architecture: From the Mainframe CPU to the Domain-Specific TPU and the Open RISC-V Instruction Set, ISSCC 2018. [2] Norman P. Jouppi et al., In-Datacenter Performance Analysis of a Tensor Processing Unit, In Proceedings of the 44th Annual International Symposium on Computer Architecture, 2017. [3] Andrei Frumusanu, The Apple iphone 11, 11 Pro & 11 Pro Max Review: Performance, Battery, & Camera Elevated, anandtech.com, October 16, 2019, [4] Ignatov, Andrey, et al. AI Benchmark: All About Deep Learning on Smartphones in 2019, arxiv preprint arxiv:1910.06663(2019). [5] www.samsung.com/semiconductor/minisite/exynos/products/mobileprocessor/exynos-990/ [6] Song, Jinook, et al. 7.1 An 11.5 TOPS/W 1024-MAC butterfly structure dual-core sparsity -aware neural processing unit in 8nm flagship mobile SoC, 2019 IEEE International Solid-State Circuits Conference-(ISSCC). IEEE, 2019. [7] consumer.huawei.com/en/campaign/kirin-990-series/ * 본논문은과학기술정보통신부, IITP 에의해지원받은인공지능프로세서전문연구실 ( 과제번호 2018-0-00195) 과제를통해이루어졌습니다. ** This research was supported by Institute of Information & communications Technology Planning & Evaluation (IITP) grant funded by the Korea government(msit) (No. 2018-0-00195, Artificial Intelligence Processor Research Laboratory) 28 www.iitp.kr

[8] Heng Liao et al., DaVinci: A Scalable Architecture for Neural Network Computing, Hot Chips Conference 2019. [9] Sophia Windsor, Snapdragon 865 vs Kirin 990 5G vs Exynos 990(Exynos 9830) vs MediaTek Dimensity 1000(MT6889): which one is the best 5G processor?, Dec. 10. 2019. [10] www.arm.com/products/silicon-ip-cpu/ethos/ ethos-n77, n57, n37 [11] www.ceva-dsp.com/product/ceva-neupro/ [12] www.gyrfalcontech.ai/solutions/2801s, 2801s [13] Orr Danon, Introducing Hailo-8: The Most Efficient Deep Learning Processor for Edge Devices, 2019 Embedded Vision Summit, May 2019. [14] 권영수, 인공지능프로세서기술동향, ETRI, 전자통신동향분석 33권 5호, pp.121-134. [15] E. Lindholm et al., NVIDIA Tesla: A Unified Graphics and Computing Architecture, IEEE Micro, Vol.28, No.2, 2008, pp.39-55. [16] nvidia.com. [17] Andrew Yang, Deep Learning Training At Scale Spring Crest Deep Learning Accelerator (Intel Nervana NNP-T), Hot Chips Conference 2019. [18] Eitan Medina, habana, Hot Chips Conference 2019. [19] Y. Kwon et al., Function-Safe Vehicular AI Processor with Nano Core-In-Memory Architecture, In Proceedings of the 1st Annual International Conference on Artificial Intelligence Circuits and Systems, 2019. 정보통신기획평가원 29