목 차 1. 연구 목적 2. 컴퓨팅 파워와 병렬 컴퓨팅 3. AlphaGo의 계산량 분석 4. 결 론

Similar documents
본보고서는 미래창조과학부정보통신진흥기금 을지원받아제작한것으로미래창조과학부의공식의견과다를수있습니다. 본보고서의내용은연구진의개인견해이며, 본보고서와관련한의문사항또는수정 보완할필요가있는경우에는아래연락처로연락해주시기바랍니다. 소프트웨어정책연구소 SW융합연구실추형석선임연구원 (

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

<4D F736F F F696E74202D203034BECBB0EDB8AEC1F228BECBC6C4B0ED20BECBB0EDB8AEC1F220C0CCBEDFB1E2292E >

untitled

집필기관및참여인원 : 소프트웨어정책연구소 추형석

Ch 1 머신러닝 개요.pptx

PowerPoint 프레젠테이션

Copyright IBM Corporation 2017 한국아이비엠주식회사 (07326) 서울시영등포구국제금융로10 서울국제금융센터 (Three IFC) TEL : (02) 년 2 월 Printed in Korea

Microsoft PowerPoint - Infiniband 20Gb 40Gb Switch HCA (??_1).ppt [Compatibility Mode]

Ⅱ. Embedded GPU 모바일 프로세서의 발전방향은 저전력 고성능 컴퓨팅이다. 이 러한 목표를 달성하기 위해서 모바일 프로세서 기술은 멀티코 어 형태로 발전해 가고 있다. 예를 들어 NVIDIA의 최신 응용프 로세서인 Tegra3의 경우 쿼드코어 ARM Corte

딥러닝 첫걸음

Copyright IBM Corporation 2017 한국아이비엠주식회사 (07326) 서울시영등포구국제금융로10 서울국제금융센터 (Three IFC) TEL : (02) 년 2 월 Printed in Korea

본보고서는 과학기술정보통신부정보통신진흥기금 을지원받아제작한것으로과학기술정보통신부의공식의견과다를수있습니다. 본보고서의내용은연구진의개인견해이며, 본보고서와관련한의문사항또는수정 보완할필요가있는경우에는아래연락처로연락해주시기바랍니다. 소프트웨어정책연구소기술 공학연구실추형석선임연

PowerPoint Presentation

[한반도]한국의 ICT 현주소(송부)

CUDA Programming Tutorial 2 - Memory Management – Matrix Transpose

01이국세_ok.hwp


<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

Microsoft PowerPoint - NV40_Korea_KR_2.ppt

<4D F736F F F696E74202D20C4C4C7BBC5CDB9D7C8B8B7CEBCB3B0E8C6AFB7D02DB3EBBFF8BFEC>

위클리 초이스

Microsoft Word - 정병권

Microsoft Word - 산업분석리포트 doc

목차 포인터의개요 배열과포인터 포인터의구조 실무응용예제 C 2

Microsoft Word doc

Microsoft PowerPoint - 실습소개와 AI_ML_DL_배포용.pptx

16X Tesla V100 SXM 3GB NVIDIA DGX- 16x Tesla V100 SXM 3GB 81,90 CUDA cores / 10,40 Tensor Cores FP16 : 1,90 TFLOPS / FP3 : 40 TFLOPS / FP64 : 10 TFLOP

Dell Overview Dell,, CAD, VR., ISV. Dell,. 28% Tower 28%. 60% MHz DDR 60%. 159% 2 Quadro P Tower CATIA 159%, 28, , 56 6

(Microsoft Word - \274\366\301\244Edit _Hynix.doc)

Parallel Computation of Neural Network

Microsoft PowerPoint Q AMD DT channel training Nov.ppt

<4D F736F F D20C5EBC7D5C7D8BCAEBDC3BDBAC5DB5F D2BC0C720424D54B0E1B0FABAB8B0EDBCAD2E646F63>

Microsoft PowerPoint - Industry_Semicon_IT Divergence_ final

<313620B1E8BFB5BFF52E687770>

Microsoft PowerPoint - CUDA_NeuralNet_정기철_발표자료.pptx

Ch 8 딥강화학습

PowerPoint 프레젠테이션

Microsoft Word - DELL_PowerEdge_TM_ R710 서버 성능분석보고서.doc

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론


CONTENTS 목차 1. 전원 및 설치시 주의사항 2 2. 시스템 사용시 바른 자세 4 3. 시스템 구성품 확인 5 슬림형 케이스1 6 슬림형 케이스2 7 타워형 케이스1 8 타워형 케이스2 9 일체형 케이스1 10 망분리형 케이스 시스템 시작 및 종료

<BDBAB8B6C6AEC6F95FBDC3C0E55FC8AEB4EB5FC0CCC1D6BFCF5F E687770>

AGENDA 모바일 산업의 환경변화 모바일 클라우드 서비스의 등장 모바일 클라우드 서비스 융합사례

Integ

<4D F736F F D20B0B6B3EBC6AE33C3E2BDC3C8C45FC3D6C1BE5F2D2E646F63>

기관별 공동 Template

08이규형_ok.hwp

Think Z HP Z 워크스테이션이 세상에 나온 지 벌써 30년이 넘었습니다. 다방면의 요구를 충족하도록 설계된 HP Z 워크스테이션은 최신 혁신과 업계 선도적 기술을 도입하여 뛰어난 성능과 신뢰성을 제공합니다. 워크스테이션이 아니라 작업 자체에 더욱 집중할 수 있도

<4D F736F F D20C7F6B4EBC0DAB5BFC2F75F44454C4C5FC5EBC7D5C7D8BCAEBDC3BDBAC5DB5F424D54B0E1B0FABAB8B0EDBCAD5F434C554E49585FB3BBBACEBFE

<4D F736F F D203036B1C7BFF8BFC128C6AFC1FD292DC3D6C1BE>

<4D F736F F D F5357BAB05FC5EBC7D5C7D8BCAEBDC3BDBAC5DB5FBCBAB4C920BAD0BCAE20B0E1B0FABAB8B0EDBCAD5F F

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

클라우드컴퓨팅이란? WHAT IS CLOUD COMPUTING? 2

클라우드컴퓨팅확산에따른국내경제시사점 클라우드컴퓨팅확산에따른국내경제시사점 * 1) IT,,,, Salesforce.com SaaS (, ), PaaS ( ), IaaS (, IT ), IT, SW ICT, ICT IT ICT,, ICT, *, (TEL)

Appendix B

슬라이드 1

김기남_ATDC2016_160620_[키노트].key

<목 차 > 제 1장 일반사항 4 I.사업의 개요 4 1.사업명 4 2.사업의 목적 4 3.입찰 방식 4 4.입찰 참가 자격 4 5.사업 및 계약 기간 5 6.추진 일정 6 7.사업 범위 및 내용 6 II.사업시행 주요 요건 8 1.사업시행 조건 8 2.계약보증 9 3

비디오 / 그래픽 아답터 네트워크 만약에 ArcGolbe를 사용하는 경우, 추가적인 디스크 공간 필요. ArcGlobe는 캐시파일을 생성하여 사용 24 비트 그래픽 가속기 Oepn GL 2.0 이상을 지원하는 비디오카드 최소 64 MB 이고 256 MB 이상을 메모리

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

슬라이드 1

SOSCON-MXNET_1014

Slide 1

Master presentation template three line maximum — First Lastname Job Title

Microsoft PowerPoint - 휴대폰13년전망_ _IR협의회.ppt

Ä¡¿ì³»ÁöÃÖÁ¾

Microsoft PowerPoint - CHAP_03 - 복쇬본.pptx

<30312DC2F7BCBCB4EBC4C4C7BBC6C32DBED5BACEBAD B1C731C8A3292E687770>

SuaKITBrochure_v2.2_KO

Flute-GR_BV199_DOS.indb

04_오픈지엘API.key

Microsoft PowerPoint - 30.ppt [호환 모드]

Microsoft Word - Generic_Gas_Simulation_BMT 결과 보고서.doc

1 : (Sunmin Lee et al.: Design and Implementation of Indoor Location Recognition System based on Fingerprint and Random Forest)., [1][2]. GPS(Global P

PowerPoint 프레젠테이션

슬라이드 1

[Summary] 그래픽처리의핵심프로세서인 GPU는다수코어에의한병렬연산의장점을바탕으로일반적인데이터처리에도활용되는 GPGPU( 범용 GPU) 로발전 GPU는 3천개이상의코어 (cores) 로구성, 여러개의연산을동시에처리하는 병렬컴퓨팅 (Parallel Computing)


레이아웃 1

PowerPoint Presentation

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 25(11),

. 고성능마이크로프로세서 LU 와레지스터 파일의구조 (2.). 직접디지털주파수합성기 (FS) 의구조 3. 고성능마이크로프로세서부동소수점연산기 (Floating-Point Unit) 구조 (2) (2.) (2.) 2. 암호화를위한 VLSI 구조와설계의개요 (2.) 다음참

Slide 1

204

Microsoft Word - KIS_Touchscreen_5Apr11_K_2.doc

안전을 위한 주의사항 제품을 올바르게 사용하여 위험이나 재산상의 피해를 미리 막기 위한 내용이므로 반드시 지켜 주시기 바랍니다. 2 경고 설치 관련 지시사항을 위반했을 때 심각한 상해가 발생하거나 사망에 이를 가능성이 있는 경우 설치하기 전에 반드시 본 기기의 전원을

<B1D7B7A1C7C8C4ABB5E5BBE7BEE72E786C7378>

Microsoft PowerPoint - eSlim SV [080116]

소성해석

PowerPoint Presentation

solution map_....

Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

Microsoft PowerPoint - eSlim SV [ ]




( 분류및특징 ) 학습방법에따라 1 지도학습 (Supervised 2 비지도 학습 (Unsupervised 3 강화학습 (Reinforcement 으로구분 3) < 머신러닝의학습방법 > 구분 지도학습 (Supervised 비지도학습 (Unsupervised 강화학습 (

Microsoft Word - IBM이 POWER9 칩 대신 AI 플랫폼을 출시한 이유_2018.doc

제4차 산업혁명과 인공지능 차 례 제4차 산업혁명과 인공지능 2 제46회 다보스포럼이 2016년 1월 21일~24일 4차 산업혁명의 이해 라는 주제로 개최 되었습니다. 4차 산업혁명은 인공지능에 의해 자동화와 연결성이 극대화되는 단계 로서 오늘날 우리 곁에 모습을 드러

Transcription:

인공지능 컴퓨팅 환경 확보 방안 및 전략 2016. 08. 25. 2016 정보과학회 HPC연구회 하계 워크샵 추형석 소프트웨어정책연구소 선임연구원 신기술확산연구팀

목 차 1. 연구 목적 2. 컴퓨팅 파워와 병렬 컴퓨팅 3. AlphaGo의 계산량 분석 4. 결 론

1. 연구목적

배경및필요성 컴퓨팅환경확보는인공지능연구를위해선결되어야하는과제 인공지능연구에왜 컴퓨팅파워 가중요한지에대한논리적근거마련 최신컴퓨팅하드웨어에대한현황과분석 구체적인인공지능성공사례분석 ( 딥러닝 ) 인공지능컴퓨팅환경확보전략연구 중소기업, 스타트업, 대학의인공지능연구활성화를위한컴퓨팅환경확보방안 국내외클라우드 GPU instance 분석 4

2. 컴퓨팅파워와병렬컴퓨팅

부동소수점연산수 (floating-point operations, flop) 알고리즘을실제로구현했을때필요한연산수를나타냄 한개의연산은일반적으로덧셈, 곱셉, 비교로간주하나, 계산자원구조에따라덧셈과곱셈을하나의연산으로보기도함 FMA(Fuzed Multiply and Add) 는곱셈과덧셈을한번에처리하는유닛 유효숫자 (Precision) 에따른성능차이가존재 32-bit 부동소수점 (float, 유효숫자 7자리 ) 과 64-bit 부동소수점 (double, 유효숫자 16자리 ) 에대한연산성능이다름 ( 일반적으로 float에대한성능이높음 ) 초당부동소수점연산수 (floating-point operations per second, FLOPS or FLOP/s) 연산처리장치의연산능력을표현하는지표로슈퍼컴퓨터의성능비교등에사용됨 2016년 6월세계에서가장빠른슈퍼컴퓨터의성능은 93 PetaFLOP/s ( 중국국립슈퍼컴퓨터센터 ) 선웨이타이후라이트 : 10,649,600 cores ( 한국기상청, 36위 ) 누리 : 2.4PetaFLOPS, 69,600 cores 6

Samsung Galaxy S7 Processing Power AP : Exynos 8890 (4+4 core, 2.3+1.6GHz) GPU : Mali-T880 MP12 (265.2 GFLOPS) Top500.org Performance Development 1996/06 1 st supercomputer University of Tokyo SR2201/1024 ($50M) Peak Performance (220.4 GFLOPS) 7

CPU (Central Processing Unit) GPU Accelerator Intel Xeon Processor E5-2699 v4 NVIDIA Tesla P100 Intel Xeon Phi 7120P 22 cores (hyper-threading 44cores) Clock Speed : 2.2GHz(Turbo 3.6GHz) Price : $4,115 Performance : 1549 GFLOPS (single) 744 GFLOPS (double) 3584 cores Clock Speed : 1.3GHz (Turbo 1.4GHz) Price : TBA (around $5000) Performance : 10608 GFLOPS (single) 5304 GFLOPS (double) * NVlink : 160 GB/s (CPU-GPU) 61 cores (244 threads) Clock Speed : 1.3GHz Price : $4,129 Performance : 2416 GFLOPS (single) 1208 GFLOPS (double) 8

Roofline model 계산량과메모리전송량을대비하여달성할수있는성능을나타냄 일반적으로계산성능 (clock speed) 이메모리대역폭 (memory bandwidth) 보다높음 계산강도 (arithmetic intensity) 가높을수록효율이증대 알고리즘의병렬화 병렬화가불가능한알고리즘은 many-core 기반계산자원에서성능이급격히저하 HW 아키텍쳐에따라병렬화의효율이결정 이론성능은달성하기어려움 9

for loop 의병렬화 // Simple saxpy operation for(j = 0 ; j < n ; j++) y[j] = alpha * x[j] + y[j]; // idx is assigned randomly from 0 to n idx = myid; y[idx] = alpha * x[idx] + y[idx]; Parallelization Memory : 4*(2*n+1) byte Computation : n operations Arithmetic Intensity : 1/8 피보나치수열의경우병렬화? // Fibonacci series for(j = 2 ; j < n-1 ; j++) x[j] = x[j-2] + x[j-1]; 10

BLAS 3 SGEMM // C = A*B where each matrix is n by n matrix for(j = 0 ; j < n ; j++) for(k = 0 ; k < n ; k++) for(l = 0 ; l < n ; l++) C[j][k] += A[j][l] * b[l][k] Arithmetic Intensity 메모리전송량 : 4 4byte n 2 = 12n 2 계산량 : n 3 Arithmetic Intensity : n/12 행렬이커질수록이론성능에가까워짐 11

Source : https://crd.lbl.gov/departments/computer-science/par/research/roofline/ 12

3. AlphaGo 계산량분석

Source : https://spri.kr/post/14725 14

바둑세계챔피온을꺾은최초의인공지능바둑프로그램 딥러닝으로바둑프로기사의기보 16만개를학습 무한대에가까운바둑의경우의수를프로바둑기사의관점으로좁힘 정책네트워크 : 프로바둑기사들의착수선호도 + 스스로대국하여튜닝 가치네트워크 : 현재바둑판상태의승률을근사 정책과가치네트워크를활용한경로탐색으로최적의수를결정 몬테카를로트리탐색 (MCTS) 알고리즘활용 정책네트워크가치네트워크 MCTS 알고리즘 Source: Mastering the game of Go with deep neural networks and tree search, Nature 15

AlphaGo 의딥러닝구조 콘볼루션뉴럴네트워크 콘볼루션뉴럴네트워크는이미지를학습하는데탁월한성능을가짐 이미지의국지적인패턴을인식하여전체를재구성 AlphaGo에서는바둑판상태를 48가지특징맵으로전환하여국지적형세를판단함 13 층의콘볼루션층을활용하여프로기사들의기보를성공적으로학습 16

이미지분석에특화된딥러닝기법 컨볼루션필터 를학습 컨볼루션이란? f g t = f τ g t τ dτ Source : ios Developer Library vimage Programming Guide https://developer.apple.com/library/ios/documentation/performance/conceptual/vimage/c onvolutionoperations/convolutionoperations.html Source: https://en.wikipedia.org/wiki/convolution Source: https://en.wikipedia.org/wiki/kernel_(image_processing) 17

특징맵 컨볼루션필터 TO BE TRAINED 특징맵 Rectifier Nonlinearity 18

Source : http://cs231n.github.io/convolutional-networks/ 19

20

AlphaGo Fm : 192 x 9 D : 9 x 69312 F3 F2 F1 F0 F3 F2 F1 F0 F3 F2 F1 F0 G3 G2 G1 G0 G3 G2 G1 G0 G3 G2 G1 G0 21

ConvNet Inference (estimation) 1층 : 19x19 바둑판 * 48개특징맵 * 5x5 콘볼루션 * 25 덧셈 * 192개필터 * 2개연산 ( 활성함수계산 ) = 4.159 GFLOP 2~13층 : 19x19 바둑판 * 192개특징맵 * 3x3 콘볼루션 * 9 덧셈 * 192개필터 * 2개연산 ( 활성함수계산 ) * 11층 = 23.715 GFLOP 약 30 GFLOP ( 학습시는반복한번에필요한계산량 ) NVIDIA K40 GPU의 cudnn( 딥러닝패키지 ) 의성능은 1.2 TFLOP/s GPU 한개당 1초에약 40번의 inference 가능 Memory 16 만개의기보 : 1.85 Tbyte(single), 58 Gbyte(boolean) 13 층의 ConvNet weights : 약 3Mbyte 22

CPU Intel Xeon CPU E5-2643 v2 @ 3.5 GHz GPU GeForce GTX Titan Black Source : http://www.amazon.com/hp-712775-l21-e5-2643-3-5ghz-processor/dp/b00pytvvwi 코어수 / 스레드수 : 6 cores / 12 threads 성능 : 66.61 GFLOP/s 최대 CPU 구성 : 2 가격 : $ 1552 발매일 : Q3 2013 Source : http://www.nvidia.co.kr/gtx-700-graphics-cards/gtx-titan-black/ 코어수 : 2880 cores 성능 : 5.1 Tera FLOP/s (single), 1.7 Tera FLOP/s (double) 가격 : $ 999 발매일 : March 25, 2014 Source : Maddison, Chris J., et al. "Move evaluation in go using deep convolutional neural networks." arxiv preprint arxiv:1412.6564 (2014). CPU Performance, https://setiathome.berkeley.edu/cpu_list.php List of NVIDIA Graphics Processing Units, https://en.wikipedia.org/wiki/list_of_nvidia_graphics_processing_units 23

분산 머신 싱글 머신 CPU cores : 48 개 CPU cores : 1202 개 12cores(with HTT) x 4 CPUs, or 8cores x 6 CPUs GPU 개수 : 176 개 약 40대 내외의 싱글머신으로 구성 GPU 개수 : 8 개 노드 구성은 (4 CPU sockets + 8 PCIes)를 탑 재한 고성능 계산서버로 추정 (최대1920) (최대280) 한화 약 22 ~ 25억 원 or (6 CPU sockets + 8 PCIes) 가격은 약 5만불 정도이고 시간당 소비전력은 2500 Watt 수준 Supermicro MB 4CPUs + 4PCIe + (4PCIe) $1,278 8 VGAs 예시 24

인공지능연구에왜컴퓨팅파워가중요한가? 인공신경망학습에필요한계산량이막대함 경험적으로추정가능한 hyper-parameter 존재 ( 여러번시도하는것이최상책 ) AlphaGo 의인공신경망학습은 50 개의 GPU 를사용하여 3 주동안학습함 약 5MWh, 가정집에서소모할경우누진세가적용되어약 330 만원의전기요금소요 GPU 는인공지능연구에최적화된장비 인공신경망학습방법인오류역전파법 (Error Backpropagation Method) 는기본적인선형대수루틴 (Basic Linear Algebra Subroutines) 으로이루어짐 BLAS는 GPU에최적화된라이브러리중하나 국내인공지능연구활성화를위한컴퓨팅환경확보전략 가성비가좋은 GPU 컴퓨팅환경을확보할필요성이있음 25

4. 결론

인공지능연구를위한컴퓨팅환경조성 : 클라우드 GPU 클러스터구성시하중, 전력공급, 쿨링등설계상의많은제약이존재 또한 GPU의교체주기가매우짧음 따라서직접구축하는것보다클라우드형태로계산하는것이효율적 클라우드 GPU 서비스관련동향 해외글로벌 IT 기업을필두로 GPU instance 보급 세부내용 Amazon AWS G2 - CPU : Intel Xeon E5-2670 - GPU : NVIDIA GRID K520 (1,536 core, 4GB GDDR) - 클러스터네트워킹지원 - GRID GPU 는 CAD 와같은 3D 작업에적합 SOFTLAYER IBM Cloud Aliyun - CPU : Intel Xeon E5-26xx - GPU : NVIDIA Tesla M60, K80 지원 - CPU : Intel Xeon E5-26xx - GPU : NVIDIA Tesla M40, K40 지원 * 중국내서비스만가능 국내에는 SK C&C 가 SOFTLAYER 측과협력하여데이터센터오픈예정 ( 16.9 월중 ) 27

컴퓨팅환경확보관련현황조사 Compute Canada 기타해외선진사례분석 국내중소기업및스타트업의수요조사 클라우드 GPU instance 조사및분석 ( 계속 ) 국내외현황파악 인공지능컴퓨팅환경확보방안제시 28