엔터프라이즈데이터레이크와 Scale-Out 데이터스토리지 서영일차장한국이엠씨컴퓨터시스템즈 1
목차 Data Lake 전략의필요성 Enterprise Data Lake 정의 EMC의 EDLP(Enterprise Data Lake Platform) 전략 EMC Scale-Out NAS Isilon 성공사례 2
전통적인분석을위한 Data Flow 전통적인분석방식의한계점 수집 (Ingest) 저장 (Store) 분석 (Analyze) 정보제공 (Surface) 실행 (Act) 기존소스와새로운소스를포함한다양한소스에서데이터캡처 교차데이터분석을위해모든데이터를한환경에저장 고급알고리즘을사용하여새로운예측패턴발견 각비즈니스영역전문가와분석결과공유 데이터중심애플리케이션을구축하여비즈니스요구사항충족 데이터섬 / 사일로화 시스템전반의비효율성 보안과규제준수 유연하지못한아키텍처 3
Enterprise Data Lake Platform Data Lake 컨텐츠저장소 (content depot, content repository), 오브젝트저장소 (object store), 빅데이터 EDLP(Enterprise Data Lake Platform) Data Lake 를지원하는스토리지플랫폼 EDLP 는기업에서사용하는향상된빅데이터솔루션을의미 4
VOLUME VARIETY VELOCITY Data Lake 전략 데이터소스 수집 저장 분석 File Shares Analytics 정보제공 HPC Mobile 실행 Backup/Archive Data Lake Cloud Apps 5
언제 Data Lake 가필요한가? 누구에게 Data Lake 가필요한가? DB Dumps File Shares Archive VMware Splunk, Cloudera, Hortonworks, Pivotal, RainStor, Teradata, Netezza, Exadata 와같은여러솔루션을사용하는가? BLOBS Splunk Hadoop 의데이터증가를걱정하는가? Cloud/Object Remote Office Video Surveillance 데이터처리에도움이필요한가? Hadoop & Data Analytics Video Surveillance Call Recording Sync n Share Ticker Data 대용량데이터베이스덤프, 로그파일, 아카이브등의용도로스토리지가필요한가? 6
Data Lake 플랫폼선택시고려사항 7
Data Lake 필수요소 1 여러가지워크로드와어플리케이션지원을통한효율적인데이터통합 2 관리의단순화및비용절감 3 엔터프라이즈급의데이터보호및보안및컴플라이언스요구사항준수 4 무한한 확장성과효율성을제공하는심층스토리지 8
EMC 의 EDLP 전략 EMC DATA LAKE FOUNDATION Scale-Out File / HDFS Scale-Out Object / HDFS 9
Performance Cost EMC 의 EDLP 비교 Extreme (<50uS) PERFORMANCE WORKLOADS ($ / GB) GENERAL PURPOSE WORKLOADS CAPACITY WORKLOADS Good (~100mS) ( / GB) Terabytes Petabytes Capacity Exabytes 10
배치실시간 (batch) HDFS 기반스토리지멀티프로토콜액세스를통해데이터스토리지통합 공유 Isilon, ViPR ECS 컴퓨팅및스토리지를필요에따라별도로확장 HPC Hadoop 기존데이터에대해 HDFS 지원 완벽한이중화 차세대통신기술을통해간편하게가져오기및내보내기수행 ( 예 : HDFS, S3, Swift API 지원 ) 모바일 분석 장애에대비한완벽한데이터보호 셀프서비스프로비저닝 정보제공 스토리지하드웨어선택 : 엔터프라이즈급, 상용, ECS 어플라이언스 아카이브 클라우드 실행 11
EMC Scale-Out NAS Isilon 6,000+ Customers World Wide 100PB+ Biggest Single Storage Purchase ISILON Enterprise Scale Data Lake Foundation Next Gen Access HDFS, OpenStack #1 MARKET LEADER Hadoop Shared Storage Massive Scale 50 PB in a single cluster 12
효율적인데이터통합 스토리지사일로구조 Data Lake 구조 BALANCED 16TB 50TB 100TB 16TB 60TB 50TB 30TB 50TB UNBALNCED 16TB 50TB 100TB 16TB 60TB 50TB 30TB 50TB UNBALNCED 60 초이내증설 EMPTY FULL BALANCED EMPTY FULL BALANCED EMPTY 16TB 50TB 100TB 16TB 16TB 50TB 100TB 16TB FULL BALANCED 60TB 50TB 30TB 50TB 60TB 50TB 30TB 50TB UNBALNCED UNBALNCED 불균등한사용률 자동용량재분배 EMPTY FULL BALANCED EMPTY 13
뛰어난데이터보호기능 Virtual HotSpare Data Protection SMART FAILURE X N+1 보호모드 FAILED FAILED FAILED N+4 보호모드 FAILED 14
자동계층화를통한비용절감 Isilon SmartPools 관리포인트단일화 단일파일시스템 / 단일볼륨 최대 4 단계 (SSD, S 시리즈, X 시리즈, NL 시리즈 ) 계층화구성가능 자동데이터이동 정책기반의계층화관리 원본데이터의재배치 어플리케이션변경없음 스토리지자원최적화 자동으로정책에맞는스토리지데이터최적화 데이터마이그레이션없음 S-Series Performance Reduced cost/tb X-Series Collaboration NL-Series Active archives 15
Job Duration (seconds) Teragen 벤치마크테스트결과 2500 2000 1500 1000 (10) Compute + (10) X400 (5) Compute + (10) X400 (10) Compute + (5) X400 (5) Compute + (5) X400 (10) DAS 500 0 1 TB data set size teragen terasort teravalidate 16
선형적인성능증가 컴퓨트노드와 Isilon 노드를같은비율로늘리는경우, 성능이선형적으로증가 원형모양은실측데이터 선모양은실측데이터기반의예상치 S200 클러스터와 Teragen 을이용 17
빅데이터를활용하여혁신을꾀하는기업들모든업계의기업들이획기적인결과경험 Monsanto 지속가능한농업기업 기계화와과학을통해수확량 2 배증가를두차례달성한바있음 97 억명에게농산물을공급하기위해서는 2 배의수확량을다시 2 배로증가시켜야함 빅데이터가핵심 4 억에이커이상의농지에서들어오는데이터처리 다양한데이터소스 : 토양, 날씨, 위성, 위치, 농지크기 / 형태 University of Southern California 신경촬영실험실 세계최대뇌검사데이터저장소사용 : 뇌의특징을신경성질병과연결 파킨슨병, 헌팅턴병, 알츠하이머병등의질병치료법개발 DNA 데이터와뇌검사데이터를조합하여개별치료계획수립 18