빅데이터분석을가속화하는 GPU 데이터베이스활용을 위한제안 이보란과장 (brlee@kr.ibm.com) IBM Systems-HW, Cognitive Systems
BIG DATA, 얼마나활용하고계신가요? <10% 90% Data Analyzed BI Lost
그렇다면, 앞으로더욱늘어날데이터들은? DATA EXPLOSION IBM Partner Ecosystem / DOC ID / Month XX, 2018 / 2018 IBM Corporation
If it s possible? 분석 20x 더 많은데이터 G P U D ATA W A R E H O U S E 쿼리처리 100x 더 빠르게 FOR MASSIVE DATA ANALYTICS 가격 10% 의 리소스로
기존의분석계시스템은 Petabyte 급의대용량데이터를분석할수없습니다. NoSQL & Hadoop GPU Database Relational DB 1970s-1990s 1990-2010 2005-2010 2010 Classical Relational MPP In-Memory Massive Data Oracle Teradata Mongo DB Map D Kinetica SQREAM DB DB2 SQL Server Vertica Redshift Oracle Exadata IBM Netezza VoltaDB Aerospike IBM DB2 BLU Mem SQL + IBM AC922 GPU 전용시스템공유파일시스템
Massive DATA 처리에최적화된 SQreamDB on POWER9
한계를넘어서, DATA EXPLORATION 사용자의데이터분석범위를확대하여새로운 Insight를도출합니다. 페타바이트급의 RAW DATA 분석가능 표준 SQL Syntax (ODBC, JDBC,.NET, Node.js, ANSI-92) 및 Python Connectivity 지원 기존에사용중인다양한 BI Tool과연계
SQream DB 를더빠르게! 최적의플랫폼 IBM AC922 최신 Tesla V100 GPU 대용량메모리 Scale-up, Scale-out 확장성 CPU-GPU 전용인터커넥트기술 데이터중심의오픈시스템아키텍처 x4 NVLink CPU 2TB/Server V100 150GB/S V100 https://openpowerfoundation.org/wp-content/uploads/2018/10/david-leichner.ibm-openpower-sqream-power9.pdf
PCIe Gen4 CAPI 가속화컴퓨팅플랫폼의문제 IBM POWER9 AC922 의 High Throughput 아키텍처 Data Copy 시간 메모리제약 PCIe 병목 RAM RAM 170GB/s per CPU Power9 CPU IBM SMP bus Power9 CPU NVLink 300GB/s (BiDi) Tesla V100 GPU Tesla V100 GPU Tesla V100 GPU Tesla V100 GPU 900GB/s VRAM VRAM VRAM VRAM
연산중심의워크로드처리에필수적인 I/O 강화 PCIe Gen4 및 CAPI 2.0 은기존 PCIe Gen3 대비 2 배향상 NVLink 2.0 및 OpeCAPI 는기존 NVLink 1.0 (20Gb/s) 대비링크당 1.25 배향상 최신 I/O 및 accelerator 연결기술 PCIe Gen 4 x 48 lanes 192 GB/s duplex 25G Link CAPI x 48 1.0lanes 300 GB/s duplex P8 PCIe Gen3 CAPI 2.0 PCIe Gen4 NVLink 2.0 개방형표준에NVLink 따른견고한가속컴퓨팅생태계 1.0 OpenCAPI CAPI 2.0 POWER8 대비 4배의대역폭 (PCIe Fast PowerAccel Faster PowerAccel Gen4) Interconnects for Interconnect for NVLink Accelerators 2.0 차세대 GPU/CPU Accelerators interconnect NVLink1.0 OpenCAPI / NVLink 2.0 대비 2배의대역폭 PCIe Gen 4 단순해지는 programming model Coherency, virtual addressing, 낮은 overhead P9 1 0 Source : https://openpowerfoundation.org/wp-content/uploads/2016/11/jeff-stuecheli-power9-chip-technology.pdf
POWER9 에서제공하는 CPU-GPU 간 NVLink 2.0 기술 차세대 POWER9 + Volta GPU 서버 POWER9 PCIe Gen3 대비 4.6 배대용량대역폭 NVLink 2.0 링크당 25GB/s 최대 6 개링크연결 (150GB/s, 공랭식기준 ) NVLink 2.0 NVLink 1.0 (now) GPU NVLink 2.0 GPU 75+75 GB/s
2 배더확장된 I/O 대역폭, PCIe Gen4 AC922 상세 I/O Path 2 배더확장된인피니밴드연결성확보 GPU & NVLink CPU & Memory I/O slots etc (management, usb)
4 배더빠른쿼리처리속도 TPC-H Query 를 Sqream DB on IBM POWER9 에서수행시, x86 대비약 2.7 배에서 3.7 배정도더빠르게쿼리를처리했습니다. IBM Power9 AC922: 2x POWER9 16C @ 3.8GHz 256 GB DDR4 2666 MHz SSD storage 4x NVIDIA Tesla V100 (SXM2 NVLINK - 16GB) Dell PowerEdge R740: 2x Intel Xeon Silver 4112 CPU @ 2.60GHz 256GB DDR4 2666MHz SSD storage 4x NVIDIA Tesla V100 (PCIe - 16GB)
2 배더빠른데이터로딩속도 약 60억건 (10TB) 의 TPC-H 레코드를로딩했을때, 약 1.7배더빨리데이터로딩이완료되는것을확인하였습니다. 데이터로딩시, POWER9 CPU와 GPU를모두사용합니다. IBM Power9 AC922: 2x POWER9 16C @ 3.8GHz 256 GB DDR4 2666 MHz SSD storage 4x NVIDIA Tesla V100 (SXM2 NVLINK - 16GB) Dell PowerEdge R740: 2x Intel Xeon Silver 4112 CPU @ 2.60GHz 256GB DDR4 2666MHz SSD storage 4x NVIDIA Tesla V100 (PCIe - 16GB)
Load-and-Go, 쉽고빠른 GPU 기반 SQream DB Dat a Dat Dat a Dat Dat a Dat adat a adat a adat a Data Data Data Data Data Data Data Data Data Raw data Columnar process Chunking + Metadata tagging Automatic adaptive compression GPU Data Data Data Parallel chunk processing Data Skipping
간편하고빠른멀티 -GPU 데이터로드및압축 Data Data Data Data Data Data Data Data Data Source Data 100TB raw Write to disk ~20TB Data Data Data Data Data Data Data Data Data \\ Metadata Data ready ~20.1 TB with metadata SQream DB s GPU compression doesn t make you choose between compression or performance Less data read = less I/O = faster query
GPU 메모리사용을최적화하는 Chunking GPU 리소스를효율적으로사용할수있도록 Chunk 단위데이터 Store 및 Read
유연한 Ad-hoc 쿼리를위한스마트메타데이터
강력한 Querying 성능 SQL 컴파일러및최적화도구로변경없이실행 (ANSI-92) GPU 에서처리가능한관계형대수연산용쿼리로변환 Filter, Join 등복잡한연산의수학적대치
HP SN6000B 16Gb FC Switch 0 4 1 5 2 6 3 7 8 12 9 13 10 14 11 15 16 20 17 21 18 22 19 23 24 28 25 29 26 30 27 31 32 36 33 37 34 38 35 39 40 44 41 45 42 46 43 47 무제한의확장성, Scale-out 아키텍처 컴포넌트별 Scale-out 확장 GPU 리소스 BI fabric 스토리지 Compute 노드 Storage fabric AC922 서버및 Flash System 9100 구성예제 (60 users, 3PB Usable Storage)
최신의 GPU 서버, 고성능스토리지및네트워크기반의 Data-centric 환경을구성합니다. GPU 서버 (AC922) 1. IBM GPU 서버 (IBM POWER9 AC922) Query Execution ETL ML/DL 테스트및분석용 2. Massive I/O 처리를위한인피니밴드네트워크 100G EDR 인피니밴드스위치 공유파일서버 3. 공유파일시스템 #1, #2 (Spectrum (IBM L922) Scale, 구 GPFS) SAN 스위치 (16Gb 이상 ) 4. 고성능 NVMe 기반스토리지 IBM Storage * 위구성도는참조를위한예시이며, 실제구성시상세구성은변경될수있습니다.
데이터로딩 국내도입사례 기존 SAS 시스템의메모리의한계에서벗어나, 새로운분석과제수행 RAM IBM AC922 (V100 GPU) Spectrum Scale Flash System 9100
AD-TECH(PubMatic) 도입사례 기존시스템대비 Query 성능 60 배향상, 4.23 배더많은데이터분석 AD-TEC H 85 TB/day 360 TB/day in ad impressions ingested to enhance for constructing bid histogram bidding accuracy histograms Data Acquisition Sources Extra ct X Queries Not feasible take 5 hours Data Ingest 8x 2x NVIDIA Tesla GPU s Queries take 5 minutes
Retail(Wholesale) 도입사례 Query 수행시간 60 배개선 WHOLESALE $30 Billion Company - Supply Chain Use Case Vast insights uncovered from untapped data Query Time 이 30 분에서 30 초로감소