[Summary] 그래픽처리의핵심프로세서인 GPU는다수코어에의한병렬연산의장점을바탕으로일반적인데이터처리에도활용되는 GPGPU( 범용 GPU) 로발전 GPU는 3천개이상의코어 (cores) 로구성, 여러개의연산을동시에처리하는 병렬컴퓨팅 (Parallel Computing)

2017. 06. 26 (17-49 호 ) : 4 차산업혁명과 GPU(Graphics Processing Unit) 의성장 GPU 의성장배경과 GPGPU GPU 시장의경쟁양상 시사점

[Summary] 그래픽처리의핵심프로세서인 GPU는다수코어에의한병렬연산의장점을바탕으로일반적인데이터처리에도활용되는 GPGPU( 범용 GPU) 로발전 GPU는 3천개이상의코어 (cores) 로구성, 여러개의연산을동시에처리하는 병렬컴퓨팅 (Parallel Computing) 가능 방대한양의데이터, 스스로학습하는알고리즘등을특징으로하는 4차산업혁명 의등장과함께대용량데이터를효율적으로처리하는 GPU의사용량급증 외장형 GPU 시장의 70% 이상을점유하고있는 NVIDIA는 GPU가그래픽처리뿐만아니라일반데이터분석까지범용적으로활용되기시작하면서빠르게성장 딥러닝 (Tesla) 및클라우드컴퓨팅 (NVIDIA GRID) 솔루션개발을통해관련 GPU 매출이 2년만에 360% 이상증가하였으며, 자율주행차시장선점을위해개발플랫폼 (DRIVE PX) 을선제적으로출시, 다양한기업들과전략적협업관계구축 Intel은인공지능관련솔루션기업들을 M&A하고, Google은자사딥러닝플랫폼에최적화된 GPU인 TPU 를자체개발하는등 인공지능 패러다임변화에대응 GPU 의성장배경과 GPGPU( 범용 GPU, General Purpose GPU) GPU란그래픽처리장치 (Graphics Processing Unit) 의약자로, 이미지와영상을처리하는역할을담당하는그래픽카드의핵심반도체 CPU( 중앙처리장치, Central Processing Unit) 와 GPU 모두데이터를읽고, 이를연산 (operation) 해결과를출력하는기능을수행하나, CPU는다양한명령을순차적으로처리 ( 직렬 ) 하는강력한小數의코어 (cores, 칩의처리영역 ) 로구성된반면, GPU는특정연산을동시에처리 ( 병렬 ) 하는多數의코어로구성 - Intel의개인용 PC CPU는코어수가 8개 (i7-6900k), 서버용 CPU는 28개 (Xeon Platinum 8180) 정도인반면, NVIDIA 의최고사양 GPU(Titan X) 는 3,584개의코어를보유 - CPU는속도가빠른소수의비행기를통해여러번짐을운송하는것이라면, GPU 는속도는다소느리지만수천대의기차를동시에움직여운송하는것 그래픽처리분야에만사용되던 GPU 가다수코어에의한병렬연산의장점을기반으로 일반적인데이터처리에도활용되는 GPGPU( 범용 GPU) 로발전 1

진공관-트랜지스터-집적회로 (Integrated Circuit) 로이어지는반도체의집적도향상이한계에다다르며, 다수코어를통해여러개의연산을동시에처리하는 병렬컴퓨팅 (Parallel Computing) 의중요성증대 - 반도체의집적도 ( 동일크기내집적되는트랜지스터수 ) 가 18개월마다 2배로증가한다 는무어의법칙 (Moore s law) 1 의속도가감소하는반면, 병렬컴퓨팅에기반한 GPU 의성능은빠르게증가하는추세 부동소수점 (floating point) 2 으로표현돼계산량이매우많은 3D그래픽등을병렬처리해오던 GPU를응용, 일반데이터에병렬연산을적용할수있는 GPGPU (General Purpose GPU) 개발 - 기존의 CPU와 GPGPU를결합, 기본적인컴퓨팅환경은 CPU가담당하고대량의데이터에대한신속한연산이필요한영역은 GPU에게맡기는방식이확대되고있는데, 이를 GPU 가속컴퓨팅 (GPU-accelerated computing) 이라함 [ 그림 1] CPU vs. GPU 구조비교 [ 그림 2] GPU 컴퓨팅성능향상추이 ( 트랜지스터수 ) GPU 컴퓨팅성능 1.5X / year 2025 년 1000X 1.1X / year VS 싱글코어칩성능 1.5X / year 자료 : MathWorks 자료 : NVIDIA(2017. 5) 인공지능, 빅데이터등 4차산업혁명 으로대변되는새로운기술의발전이대용량의데이터를효율적으로처리하는 GPU의성장을견인 방대한양의데이터, 스스로학습하는알고리즘, 온 / 오프라인의구분없는연결성등을특징으로하는 4차산업혁명 의등장과함께 GPU의사용량이급격히증가 - 2016년들어전세계 GPU 매출이전년대비 40% 이상증가하는등기존게임및엔터테인먼트영역뿐만아니라, 빅데이터 / 인공지능 / 자율주행차등새롭게성장하는시장에서 GPU 사용이보편화 1 Intel 의공동설립자 Gordon Moore 가 1965 년발표한예측, 이후 반도체집적도는 1 년에 2 배씩증가한다 는 황의법 칙 (2002 년황창규당시삼성전자반도체총괄사장발표 ) 으로발전 2 소수점의위치를고정하지않고그위치를나타내는수를따로표시하여, 보다넓은범위 ( 정밀한 ) 의수를표현가능 2

- 외장형 GPU 3 시장최대기업인 NVIDIA 의경우, 대용량데이터분석및클라우드 컴퓨팅 (cloud computing) 관련 GPU 매출이 2 년만에 360% 이상증가하였으며, 자율 주행차시장관련매출도 82% 증가 [ 그림 3] CPU/GPU 글로벌매출성장률 [ 그림 4] NVIDIA 의시장별수익비중 CPU GPU 40 18.9 20 ( 단위 : %, YoY) 6.7 FY16. Q1 51.0 7.6 (%) 15.7 7.2 8.1 0 게이밍 (Gaming) 기업용시각화 ( 건축 / 의료등 ) 21.1 FY18. Q1 (%) 53.0 데이터센터 (Datacenter) -20 2012 2013 2014 2015 2016 자동차 (Automotive) OEM & 지적재산권 (IP) 10.6 자료 : IDC 자료 : NVIDIA(FY18.Q1: 2017.2~2017.4) 병렬연산을통한 GPU의데이터처리능력으로인해, 방대한데이터를이용해기계를학습시키는 머신러닝 (Machine learning) 의성능및비용효율성제고 - 최근각광받고있는 딥러닝 4 은다수의노드 (node) 로구성된다층의네트워크 (deep neural network) 를빠르게학습시켜야하기때문에, 1데이터및 2알고리즘뿐만아니라 3병렬연산이가능한하드웨어인 GPU의역할이중요 - 2012 ImageNet Challenge 5 에서딥러닝기반의 AlexNet 알고리즘이 GPU를활용해이미지인식의오류율을비약적으로개선함에따라, 인공지능분야에서 GPU가보편적으로사용되기시작 Google Brain Project 와 알파고(AlphaGo) 의 GPU 활용 2011년 Google 은인공지능알고리즘개발프로젝트 Google Brain 출범. 2012년 1천만장의고양이사진을학습한딥러닝알고리즘을구현하였으나, 이를위해서는 2,000개의서버용 CPU를탑재한데이터센터가필요했음. 이후 12개의 GPU가 2,000개의 CPU에맞먹는성능을낼수있음이확인되면서, 2016년이세돌과대결한 Google DeepMind 의 알파고 는 176개의 GPU를탑재 3 CPU 자체또는메인보드에 GPU 기능이내장되어있는것을내장형, 추가로장착하는것을외장형 GPU 로구분 4 머신러닝방법론중하나로, 다층신경망 (deep neural network) 을학습시켜특정데이터에대한결과를예측하는연산모델 5 동일이미지데이터셋 (dataset) 에대해인식정확도가가장높은알고리즘을선정하는경진대회 3

- 최근비트코인, 이더리움 (Ethereum) 등가상화폐의가격이급증하면서이를채굴 (mining, 거래타당성을검증하는절차로그대가로가상화폐획득 ) 하는과정에서요구되는복 잡한연산을수행하기위해 GPU 의활용이증가, GPU 가격폭등 [ 그림 5] 딥러닝 학습프로세스 [ 그림 6] ImageNet 참가자의 GPU 활용 Layer 30 ( 단위 : %) 100 25 80 20 15 최우수알고리즘오류율 ( 좌 ) 60 Node 10 40 5 GPU를사용한참가자의비중 ( 우 ) 20 0 2010 2011 2012 2013 2014 0 자료 : Youtube 자료 : NVIDIA 클라우드컴퓨팅, 자율주행차등 4차산업혁명을특징짓는새로운산업의발전이 GPU의확산을촉진 - 클라우드서비스는사용자가필요한시점에가상화된 (virtualized) 컴퓨팅환경을제공하는것으로, 최근서비스제공기업들은고객들이대용량의데이터를효율적으로처리할수있도록 GPU 가상화 (GPU Virtualization) 서비스강화추세 - 자율주행차는주변환경을 1인지, 주행방식을 2판단하고, 자동차를실제로 3제어해야하는데, 자율주행차의 판단 과정에서데이터를통해학습하는딥러닝알고리즘이적용됨에따라 GPU의활용이확대 GPU 시장의경쟁양상 [NVIDIA] 1993년설립된 NVIDIA 는외장형 GPU 시장의 70% 이상을점유하고있는세계 1위기업으로, GPU가그래픽처리뿐만아니라일반데이터분석까지범용적으로활용되기시작하면서빠르게성장 NVIDIA 는밸류체인 (value chain) 상가장부가가치가높은 GPU 설계에집중, AMD와함께외장형 GPU 시장을양분 - 단순이미지처리는 CPU 자체또는메인보드에그래픽기능이부가된내장형 GPU를통해가능하나, 고화질그래픽처리및대규모데이터연산등에대한니즈가커지면서외장형 GPU에대한수요증가 4

- NVIDIA 는외장형 GPU 밸류체인중 GPU의설계만담당하고, 생산은파운드리 (Foundry, 반도체생산전문기업 ) 에위탁하는팹리스 (Fabless) 형태로운영 고화질의그래픽처리가필요한게임, 전문그래픽디자인시장뿐만아니라대용량데이터를다루는데이터센터및자동차전장 ( 전자장비 ) 시장으로제품군확대 - 전체매출의절반이상이게임시장에서발생하고있으며, 최근빅데이터분석및자동차시장용제품군의성장이두드러지면서최근분기매출 ($2.2B) 이전년동기대비 55%, 주가는최근 1년간 3배 (47.09 157.09, 17.6.20 기준 ) 증가 [ 표 1] NVIDIA의주요 GPU 제품포트폴리오 6 상품군브랜드명주사용처주요사양 ( 최고스펙기준 ) GeForce Quadro Tesla DRIVE PX 게이밍 (Gaming) (VR 디바이스포함 ) 전문시각화 (Pro Viz) ( 웹디자인 / 건축 / 의료등 ) 데이터센터 (Datacenter) ( 기업 / 연구용슈퍼컴퓨터 ) 자동차 (Automotive) ( 자율주행차등 ) [TITAN X] 4.4"(H)ⅹ10.5"(W), 3584 코어, Pascal 아키텍처, 소모전력 250W, VR( 가상현실 )-ready [P6000] 4.4"(H)ⅹ10.5"(W), 3840 코어, OpenGL 등그래픽 API 적용, 소모전력 250W, 24GB 메모리 [P100] 3.4"(H)ⅹ17.4"(W), 3584 코어, Pascal 아키텍처, 부동소수점연산속도 10.6TFLOPS( 단정밀도 ) [DRIVE PX2] 2개의 Tegra GPU와 12개 CPU 코어결합, 10W의전력으로카메라 / 센서데이터딥러닝 - 가상현실 (VR) 컨텐츠는대규모그래픽연산을요구하기때문에 GPU가필수적이며, NVIDIA 는 VR 화면의왜곡을최소화하는 Lens Matched Shading 기술, 새로운오디오기술인 PTA(Path Traced Audio) 등시각뿐아니라청각, 촉각적요소까지현실감을구현하는가상현실솔루션제공 [ 그림 7] 외장형 GPU 밸류체인 [ 그림 8] NVIDIA 세부시장별매출 GPU 설계 (Fabless) NVIDIA, AMD Gaming (+35%) Pro Viz (+12%) 웨이퍼생산 (Foundry) 조립 테스트 팩키징 TSMC( 대만 ), 삼성 ASE( 대만 ), Ibiden( 일본 ) 등 $2,500 $1,500 $500 $2.7B 15.12 16.12 $600 $400 $200 $610M 15.12 16.12 반도체수령 QA 출하 NVIDIA, AMD Datacenter (+121%) Auto (+58%) 그래픽카드생산 CEMs - ASUS, MSI 등 $500 $300 $534M $300 $200 $359M 소비자 유통경로 ( 판매업자, OEM 등 ) $100 15.12 16.12 $100 15.12 16.12 자료 : SMIC Research 자료 : NVIDIA( 해당연도 11 개월매출 ) 6 NVIDIA 의 GPU 설계구조 ( 아키텍처 ) 는 Kepler Maxwell Pascal 로발전하면서코어당성능및소비전력당성능향상 5

병렬연산이가능한 GPU뿐만아니라연구자들이이를편리하게활용할수있는솔루션을함께제공함으로써인공지능, 빅데이터분석등범용GPU 시장선점 - NVIDIA 는 GPU 하드웨어와개발자가제작하는애플리케이션사이를연결해주는소프트웨어인 CUDA 를제공함으로써사용자친화적컴퓨팅환경구현 NVIDIA의 GPU 프로그래밍툴 CUDA(Compute Unified Device Architecture) GPU에서수행하는병렬연산알고리즘을 C, Python 등일반프로그래밍언어를사용하여작성할수있도록지원하는소프트웨어. 2009년인공지능분야의대가인 Andrew Ng 교수가 CUDA를사용해 GPU가딥러닝속도를비약적으로높일수있음을발표. 현재 CUDA를지원하는애플리케이션의수는 Google 의 Tensorflow( 딥러닝 ) 등 400개이상 - 클라우드서비스회사들이 GPU 컴퓨팅환경을제공할수있도록 GPU 관리 / 보안모듈등을통합한 NVIDIA GRID 솔루션을출시, Amazon(Amazon Web Services), Microsoft(Azure) 등대다수의클라우드서비스기업들이이를채택 인공지능 / 통신 / 센서기술등다수기술이융합되는자율주행차시장을선점하기위해관련플랫폼을선제적으로출시, 다양한기업들과전략적협업관계구축 - NVIDIA 는 2016년 CPU와 GPU를결합한하드웨어 (Tegra) 7 와데이터수집 / 딥러닝분석등이가능한소프트웨어 (DriveWorks) 등이탑재된자율주행차개발플랫폼 DRIVE PX2 를출시, 다수의자동차기업들과개발파트너십진행 [ 표 2] NVIDIA의자율주행차개발협력현황 8 기업명 Tesla(US) Toyota(JP) Audi(EU) Volvo(EU) Baidu(CH) SK텔레콤 (KR) 협력내용 전체모델 (Model S/Model X/Model 3) 에 DRIVE PX2 플랫폼과 Tegra 프로세서탑재예정 DRIVE PX2 플랫폼을통해자율주행차전용소프트웨어및인포테인먼트시스템설계 NVIDIA와 10년간협력관계를형성중, Tegra X1 모바일슈퍼칩을자율주행차에탑재 DRIVE PX2를 Volvo XC90 SUV에탑재 Drive Me 자율주행차파일럿프로그램 진행 Baidu의클라우드기술을 DRIVE PX2 플랫폼에결합, 클라우드기반자율주행플랫폼구축 3D 초정밀지도 (HD맵), 자율주행플랫폼, V2X(Vehicle to Everything) 기술등개발협력 [AMD Intel] AMD 는그래픽처리중심의외장형 GPU 개발에서탈피, 인공지능 / 머신 러닝에특화된 GPU 를출시하였으며, CPU 시장의절대강자인 Intel 은최근인공지능관 련솔루션기업들을 M&A 함으로써시장의급격한변화에대응 7 NVIDIA 의 256 코어 GPU 와 ARM(Advanced RISC Machine) 의 4 코어 CPU 를결합한모바일프로세서 8 SMIC Research 6

CPU/GPU 사업을모두영위하는 AMD는범용GPU 로의시장변화에빠르게대응하지못하면서위기에직면했으나, 최근딥러닝시장에특화된 GPU를출시하면서 GPGPU 시장경쟁력강화 - 가성비 ( 가격대비성능 ) 높은제품으로반도체시장의핵심플레이어였던 AMD는 CPU 시장에서는 Intel에게, GPU 시장에서는 NVIDIA 에게밀리며 2014년 4분기순손실이 3.6억달러에달하는등위기에직면 - 2014년 10월 CEO 교체 (Lisa Su) 후게임기용 CPU 시장에서경쟁력을회복한 AMD 는 2016년말딥러닝전용 GPU인 Radeon Instinct 를출시, 범용 GPU 시장진출 9 머신지능 (Machine Intelligence) 시대와 AMD의 GPU Radeon Instinct AMD는기계가스스로학습하는트렌드의변화를 머신지능 시대로정의, 이에최적화된 GPU인 Radeon Instinct 를발표. 딥러닝의경우정밀한계산보다대용량데이터에대한학습속도가중요. Radeon Instinct 는계산의정확성을다소희생하는대신연산속도를타사 GPU 대비 20% 이상증가 (FP16기준 25TFLOPS 수준 ) 9 Intel은 CPU의 GPU 기능통합에집중해왔으나, 인공지능연구의활성화와함께보다강력한하드웨어에대한니즈가커지면서인공지능관련기업에대한적극적인수및 R&D 강화 - Intel은병렬연산수요에대응하기위해하나의제품에작은 CPU를여러개투입, GPU와비슷한연산능력을가진반도체를제조하는전략을채택, Xeon Phi 시리즈를출시하였으나시장확대에한계 - 딥러닝연구에서 CPU와 GPGPU를함께사용하는 GPU 가속컴퓨팅 이보편화됨에따라, Intel은 2016년 8월인공지능플랫폼개발스타트업 Nervana 를약 4억달러에인수하는등역량강화에집중 FPGA(Field-Programmable Gate Array) 와 Intel의 Altera 인수 FPGA 는재프로그래밍이가능한반도체로, 사용자요구에따라유연하게최적의성능구현. 특히 CPU와병렬로작동, 전체컴퓨팅파워의향상가능. 2015년 Intel은 FPGA 개발회사인 Altera 를 167억달러에인수, 기존서버용 CPU Xeon 에 FPGA 기술을결합한모델을출시해딥러닝등병렬컴퓨팅수요에대응할계획 9 FLOPS 는 1 초동안수행가능한부동소수점 (FP) 연산의횟수로컴퓨터의성능지표, 1TFLOPS = 1*10 12 FLOPS 7

[ 非반도체회사 ] 빅데이터, 인공지능등의기술발전이산업구조전반에큰영향을미칠것으로예상됨에따라, 개별서비스기업들이자사시스템에최적화된반도체를직접개발하는사례증가 Google은 우리는모바일-First 에서인공지능-First 로의전환을목격중 10 이라밝히며, 자체딥러닝프레임워크 (Tensorflow) 에최적화된반도체 (TPU) 직접개발 - Google TPU(Tensor Processing Unit) 는자체플랫폼에최적화된주문형칩 (ASIC, application-specific Integrated circuit) 으로, TPU 64개로구성된머신러닝슈퍼컴퓨터 (TPU Pod) 를구성할경우최대 11.5PetaFLOPS 의연산속도구현 - 올해 5월중국바둑기사커제와대국한 알파고 Master 는 GPU 대신자체개발한 TPU 4개를사용하고 CPU도 10분의 1로줄여, 경량화및소비전력개선 Apple, 삼성전자등의스마트폰제조기업들은 AP(Application Processor) 11 에포함된모바일용 GPU를자체개발하려는시도 - Apple은 AP용 GPU 공급사 Imagination 사와결별, 자사제품의 GPU를독자개발할계획을밝혔으며, 삼성전자또한 NVIDIA 와의위탁생산 (Foundry) 체결과함께자체 GPU 개발노력 [ 표 3] Intel 의인공지능기업 M&A 사례 [ 그림 9] Google 의 TPU 및 TPU Pod 기업명 기업개요 인지컴퓨팅 (cognitive computing) 전문기업, 머신러닝기술적용 FPGA 개발기업, CPU와병렬로작동, 사용자맞춤화된성능구현하드웨어 / 소프트웨어를통합한딥러닝프레임워크 (Neon) 구현자율주행차용충돌감지시스템및지도소프트에어기술개발 자료 : 기사요약및 KB 경영연구소재구성 자료 : Google 시사점 스스로학습하는 ( 머신러닝 ) 인공지능기술은금융을포함한서비스업전반에근본적변 화를야기할것으로예측되며, 이와함께 GPU 의활용도크게증가 10 Sundar Pichai Google CEO (Google I/O 2017 Conference, 2017. 5. 17) 11 스마트폰용 CPU 로, 주연산을위한 CPU 뿐만아니라영상처리를위한 GPU, 통신칩, 메모리등이통합된프로세서 8

Q1.'12 Q2.'12 Q3.'12 Q4.'12 Q1.'13 Q2.'13 Q3.'13 Q4.'13 Q1.'14 Q2.'14 Q3.'14 Q4.'14 Q1.'15 Q2.'15 Q3.'15 Q4.'15 Q1.'16 Q2.'16 Q3.'16 Q4.'16 Q1.'17 (2017-28 호 ) 과거의서비스자동화는사람의노하우를기계에게알려주는 Rule-based 방식으로인간보다우수한서비스를제공할수없었지만, 기계도스스로학습할수있다 는 머신러닝 패러다임전환은데이터에근거한맞춤금융서비스구현가능 NVIDIA 가헤지펀드등에서복잡한금융상품가격예측등에그래픽 GPU를사용하는것을발견하고범용GPU(GPGPU) 및소프트웨어 CUDA 개발에집중한사례와같이, 머신러닝 의확산은금융산업에서의 GPU 컴퓨팅활용을촉진 IBM Watson 은 NVIDIA GPU(Tesla K80) 를통해자연어처리성능및주요소프트웨어를향상시켰다고밝히고있으며, JPMorgan 은리스크모델링및실시간위험진단시스템에 GPU 컴퓨팅적용중 인공지능시장선점을위해핵심인재확보를경쟁이격화되고있으며, 데이터의지속적수집및적시분석을위해인공지능인프라및하드웨어관련역량을가진인재의중요성증대 Google은딥러닝분야의대가 Geoffrey Hinton 교수영입을위해그가설립한회사 (DNNresearch) 를, Demis Hassabis 등의인재영입을위해 DeepMind 를인수하는등인공지능관련핵심인재확보에총력 효과적인인공지능시스템을구축하기위해서는데이터축적 / 관리를위한분산파일시스템 (Distributed File System), 대용량데이터분석을위한 GPU 컴퓨팅등인프라및하드웨어관련내부역량확보가필수적 [ 그림 10] IBM Watson 자산관리서비스 [ 그림 11] 인공지능관련기업 M&A 현황 ( 단위 : 개 ) 28 34 19 1 2 2 4 5 4 6 4 11 9 8 8 9 16 6 10 16 14 자료 : IBM Watson 자료 : CBINSIGHTS < 연구위원김예구 (yeigoo.kim@kbfg.com) 02)2073-5764> 9