BIG DATA LAKE 구축사례 굿모닝아이텍 / 박근봉상무
AGENDA 1. BIGDATA 현황 2. Cloudera Bigdata Lake 3. BIG DATA LAKE 구축사례 2
BIGDATA 현황 3
BIGDATA 현황 2020 년국내빅데이터시장약 9 억달러 2006 년 빅데이터 (Big Data) 가구글검색어로처음등장한이래 2012 년다보스포럼에선그해가장중요한기술중하나로빅데이터를꼽았다. 21 세기원유 라고불리며새로운성장동력으로자리잡은빅데이터. 4
BIGDATA 현황 기업에서의활용도 5
BIGDATA 현황걸림돌 6
BIGDATA 현황 가트너그룹 The Big data Value Model(2015) Customer Insight, Product & Process Efficiency, Digital Products & Service, Operational Excellence, Digital Marketing, Risk Management & Compliance 7
BIGDATA 현황 전체도입기업의 95% 는향후에도빅데이터활용범위와수준을최대한늘려나가겠다는의사를표시하였으며향후에빅데이터활용을줄이겠다는반응을보이는기업은 5% 정도로나타나많은기업들이빅데이터활용에대해서는성과를내거나기대하고있는것으로나타남 빅데이터활용단계를 Experimental( 실험적활용수준 ), Strategic( 전략적활용수준 ), Transformational( 혁신적활용수준 ) 으로구분할때, 2016 년부터 2018 년에이르기까지 Transformational( 혁신적활용수준 ) 비중이크게증가 8
BIGDATA 현황 전체빅데이터활용기업의 66% 는업계의판도를바꾸려는의도를가지고고급데이터분석및결과를비즈니스에활용하고있음. 반면실험적이거나소규모형태의활용이주요활용목적이라고응답한기업은 34% 로나타남 빅데이터활용의핵심목적은 전략적대비 또는 업계판도교체 라고응답 9
BIGDATA 현황 데이터기반의의사결정. 10
BIGDATA 현황 빅데이터가核心역활 IoT, 인공지능 AI ICT 의중심에빅터이터!! 데이터기반의사전예측 2017.07.05 10:11:56 / 박기록 rock@ddaily.co.kr ( 발췌 ) Connected Vehicles Industrial IoT Smart Cities Oil & Gas Usage Based Insurance Predictive Maintenance Aerospace & Aviation Smart Healthcare 11
CLOUDERA DATA LAKE 12
CLOUDERA DELIVER THE MODERN PLATFORM Bigdata 적용업무의변화 New workloads expanding Hadoop's enterprise appeal Phase I : Early Adopters Phase II : Early Enterprise Phase III : Line of Business Phase IV : Advanced Enterprise Real-time Streaming, Machine Learning, Predictive Analytics 하둡사용처 : 데이터변환및 ETL 작업및일부배치업무에적용 Data profiling, Data Cleansing 및 Data matching 업무로 Hadoop 적용확산 BI 및시각화도구를활용한빅데이터분석시대도래 빅데이터기반의새로운비즈니스 Insight 도출로업무확산 We are here * Source: Ovum Decision Matrix : Selecting a Hadoop Platform, 2015 13
CLOUDERA DELIVER THE MODERN PLATFORM General Things of Big Data 영업시스템 거래, 매매내역등 88% 전통적인쿼리및모니터링 88% 로그데이터 웹로그등 73% 이벤트데이터 59% 이메일 57% 소셜미디어 43% 데이터마이닝 77% 데이터시각화 71% 예측모델링 67% 최적화 65% 센서 42% 외부데이터 42% RFID & POS 데이터 41% 텍스트파일 41% 빅데이터소스 시뮬레이션 56% 검색 자연어텍스트 52% 지리공간적분석 43% 스트리밍분석 35% 위치정보 40% 오디오 / 비디오 38% 비디오분석 26% 음성분석 25% 빅데이터분석영역 14
CLOUDERA DELIVER THE MODERN PLATFORM Evolution of the Hadoop Platform Core Hadoop (HDFS, MapReduce) Solr Pig Core Hadoop HBase ZooKeeper Solr Pig Core Hadoop Hive Mahout HBase ZooKeeper Solr Pig Core Hadoop Sqoop Avro Hive Mahout HBase ZooKeeper Solr Pig Core Hadoop Flume Bigtop Oozie HCatalog Hue Sqoop Avro Hive Mahout HBase ZooKeeper Solr Pig YARN Core Hadoop Spark Tez Impala Kafka Drill Flume Bigtop Oozie HCatalog Hue Sqoop Avro Hive Mahout HBase ZooKeeper Solr Pig YARN Core Hadoop Parquet Sentry Spark Tez Impala Kafka Drill Flume Bigtop Oozie HCatalog Hue Sqoop Avro Hive Mahout HBase ZooKeeper Solr Pig YARN Core Hadoop Knox Flink Parquet Sentry Spark Tez Impala Kafka Drill Flume Bigtop Oozie HCatalog Hue Sqoop Avro Hive Mahout HBase ZooKeeper Solr Pig YARN Core Hadoop Kudu RecordService Ibis Falcon Knox Flink Parquet Sentry Spark Tez Impala Kafka Drill Flume Bigtop Oozie HCatalog Hue Sqoop Avro Hive Mahout HBase ZooKeeper Solr Pig YARN Core Hadoop 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 15
CLOUDERA DELIVER THE MODERN PLATFORM Cloudera Enterprise Cloudera Enterprise 는제품업그레이드를 Major, Minor, Dot patch 의체계로가져갑니다. Major 업그레이드는 18 ~ 3 년을주기로, Minor 업그레이드는 3 개월을주기로, Dot Patches 필요시수시로진행됩니다. 16
CLOUDERA DELIVER THE MODERN PLATFORM Data Warehouse Vision ~1999 Oracle Data Mart BI ERP ETL Enterprise Data Warehouse ETL Data Mart BI Mainframe Data Mart BI 17
CLOUDERA DELIVER THE MODERN PLATFORM Data Warehouse Reality: Today 20% of Flows cause 80% of issues Oracle Data Mart BI Files ERP ETL Enterprise Data Warehouse(s) ETL Data Mart 6-9mths BI Mainframe Real-Time Data Mart BI Impossible to Govern 18
CLOUDERA DELIVER THE MODERN PLATFORM Traditional EDW VS Hybrid EDW w/t Cloudera Traditional EDW ~ Today Hybrid EDW ~ Tomorrow 비즈니스요구사항및더많은데이터를수용하기위해서는지속적인초기투자비용을요구하고있습니다. 전통적인 EDW Architecture 를 Hadoop 을활용하여 Modernization 하면, TCO 을최소화하면서다양한요구사항을수용할수있습니다. EDW Cloudera 100% + 100 TB Data Growth 100 TB 100 TB 100 TB Lower Value Data High value Data 50 TB 100 TB 50 TB 범용하드웨어사용으로 TCO 최적화 데이터증가에따른능동적대처가능 Data Warehouse Data Warehouse 증설 Keep the Right Data in EDW Use Hadoop for More Business Value added $xx ~ $xxx / TB Total Investment : x2 배증가 Latest Data Operational Analytics Historical Data Data Processing Reporting Ad-hoc Exploratory Business Analytics Transformation / Batch 경제적인가격으로증가되는데이터를수용할수있습니다. 19
CLOUDERA DELIVER THE MODERN PLATFORM CLOUDERA ENTERPRISE The modern platform for machine learning and analytics optimized for the cloud Core Services DATA SCIENCE DATA WAREHOUSE OPERATIONAL DATABASE DATA ENGINEERING EXTENSIBLE SERVICES SECURITY GOVERNANCE WORKLOAD MANAGEMENT INGEST & REPLICATION DATA CATALOG Storage Services Amazon S3 Microsoft ADLS HDFS KUDU 20
CLOUDERA DELIVER THE MODERN PLATFORM Cloudera Data Lake 관리체계 21
CLOUDERA DELIVER THE MODERN PLATFORM Cloudera Manager Key Features Backup & Disaster Recovery Zero Downtime Rolling Updata 22
CLOUDERA DELIVER THE MODERN PLATFORM Big Data Meets Data Governance Cloudera Navigator Minimize risk and maintain compliance with the only native end-to-end data governance solution for Apache Hadoop. Unique Capabilities: Auditing Lineage Metadata Tagging and Discovery Lifecycle Management 23
CLOUDERA DELIVER THE MODERN PLATFORM Machine Learning / DeepLearning Process Ingest Sqoop, Flume, Kafka Transform MapReduce, Hive, Pig, Spark Discover Analytic Database Impala Search Solr Model Machine Learning SAS, R, Spark, Mahout Security and Administration Serve NoSQL Database HBase Streaming Spark Streaming YARN, Cloudera Manager, Cloudera Navigator Unlimited Storage HDFS, HBase Batch, Interactive, and Real-Time. Leading performance and usability in one platform. End-to-end analytic workflows Access more data Work with data in new ways Enable new users 24
DATA LAKE _USE CASE 구분사업명사업기간비고 빅데이터플랫폼구축 2018.07~2018.09 금융 빅데이터플랫폼구축 2017.06 ~ 2017.09 빅데이트플랫폼구축 2017.07~2017.09 금융분야 9~20 여대노드사용 빅데이터플랫폼구축 2017.09~2017.10 빅데이터플랫폼구축 2018.05 실시간영상처리빅데이터개발장비도입 2016.05~2016.11 바이오빅데이터플랫폼구축및유지보수 2016.02~ 현재 공공 검사실업무프로세스분석컨설팅 2016.08~2016.09 의약품의료정보연계분석사업 2016.06~2016.07 공공분야 36대이상노드구축및운영 공간정보빅데이터인프라구축 2017.12 빅데이터하둡관리소프트웨어연간라이센스계약 2017.12 부산창조혁신센터빅데이터플랫폼구축 2017.04 Smart Factory Hadoop Tuning Consulting 2016.01 Smart Factory License 연간라이센스공급 2017.11 기업 슈퍼컴빅데이터분석기법개발 2015.12~2016.06 기업분야 250대노드운영중 빅데이터 SW 도입구축 2015.01~2015.03 DW 모델링및 ETL 개발 2016.03~2017.10 로그데이터분석을위한빅데이터플랫폼유지보수 2017.04~ SSG.Com ETL 개발용역 2017.04 로그분석을위한빅데이터플랫폼구축 2018.04 25
DATA LAKE _USE CASE Public 마이크로그리드시스템운영자데이터관리자시설팀관리자연구자일반사용자시스템운영자 에너지빅데이터센터수집기반구축 수집데이터의다양한분석환경제공 에너지빅데이터포탈구축 연구원 A 사에너지빅데이터포털 일반사용자 이기종센서전력사용량예측인공지능데이터분석사용자권한인증분석정보제공및활용데이터저장소활용 센서데이터분석환경 [Data Analysis System] WorkBench JDBC Python ( 개발언어 ) R ( 분석 TOOL) SCALA ( 개발언어 ) Mahout ( 기계학습 ) Tensorflow 데이터 데이터 이기종센서및외부데이터 센서데이터 센서데이터 D 사 D 사센서데이터수집 B 사센서데이터 외부데이터소스 Data Repository System API API API FTP 데이터수집 Flume ( 비정형 ) Monitoring System 시설팀 Microgrid System Monitoring System API Hue HUE 데이터목록조회및검색데이터다운로드 MapReduce ( 분산처리 ) Spark ( 인메모리 ) Cloudera Manager( 클러스터관리 ) Impala ( 질의 ) YARN( 리소소관리 ) Solr ( 검색 ) Hive ( 질의 ) 데이터입출력및편집 입력 출력 (API지원) 수정 삭제 사용자보안및작업관리 Ozzie ( 작업관리 ) Kerberos ( 사용자인증 ) 메타데이터관리 Sentry ( 권한관리 ) 26
DATA LAKE _USE CASE Public 에너지센서정보의분석 (Dash Board) 27
DATA LAKE _USE CASE Banking 실시간데이터수집활용빅데이터표준아키텍처도입및분석환경제공분석모델링고도화및신규개발 데이터소스 외부 소셜 (SNS) 통신 제휴 / 비식별 비정형 고객상담 웹 / 모바일로그 정형 모델 실시간데이터처리 대용량배치처리 빅데이터통합인프라 실시간데이터적재 고속색인데이터처리 빅데이터허브 ( 저장소 ) 하둡기반 Data Lake 통합데이터사이언스플랫폼 빅데이터허브 ( 저장소 ) 사용자별머신러닝 / 딥러닝통합분석환경및포털제공 모델 머신러닝모델링 분석모델링 통합 VOC 모델 개인화추천모델 개인별맞춤형마케팅 가맹점추천 카드추천 고객 가맹점 ( 소상공인 / 개인사업자포함 ) 경영진 / 일반사용자 데이터엔지니어 데이터사이언티스트 활용영역챗봇 CRM 스마트오퍼링 Biz 분석가 28
DATA LAKE _USE CASE Telco 공통빅데이터플랫폼 논리아키텍처 공통플랫폼 Analytical Sandbox 서비스발굴이나기존서비스개선을위한 Offline Pilot 환경제공 Data Dictionary 관리 데이터의정의 / 위치 / 관계를관리하고현업에게데이터검색제공 Data Lake 전사데이터에대한통합적인수집 / 정제 / 제공 서비스별원천데이터수집및 2 차결과데이터장기보관 데이터수집 전사 / 서비스별정제 / 분석데이터 신규시스템 L1: Ad-Hoc, 외부연계 API L2: Data Dictionary, Portal L3: Data Lake(Data Mart, Analytic Model) L4: Data 인터페이스 L5: N/W 토폴로지 전용선 L6: Sand Box(Pilot 분석, 신규분석레이어연동 ) L7: 표준분석도구 - BI 서비스별플랫폼 #th 서비스 대고객서비스제공 최소한의분석만제공 서비스별발생하는데이터의 1 차수집및서비스제공을위한단기보관 기존시스템 29
DATA LAKE _USE CASE Telco 프로젝트목적 : 이전현황모니터링중심의리포트활용에서통합 ALL 데이터에대한분석과제중심으로데이터활용및 Raw 데이터탐색으로프로세스가변경하여데이터중심으로업무를개선하고자함 주개선 : 기존 DW 및분석환경유지 기존기술적제약사항해결 기시스템변경최소화 Archiving 데이터활용 분석모델변경에능동적대처 데이터기반신규서비스발굴 Data Lake Layer 제공 전사데이터에대한통합적인수집 / 정제 / 제공계층구축 서비스별원천데이터및 2 차결과데이터에대한장기보관 AS-IS TO-BE 단발성의표준화되지않은데이터분석및활용 일, 주, 월단위의주기적이고표준화된데이터분석및활용 가구화분석 VoC 분석해지방어 가구화 DB VoC DB 해지방어 DB Batch Batch Batch 주시스템 EDW 기타시스템 분석과제 DBM, 가구화 VOC, 해지방어 빅데이터플랫폼 DBM 모형 고객모형 통합분석플랫폼 상품모형 + 잠재고객 맞춤형검색. 통합 DW 플랫폼 기타모형 분석과제 ( 신규 ) DB File Haddop IT 서비스네트워크.. 고객빌링과금 CDR 고객. 빌링과금 CDR. LQM xcdr... 30
DATA LAKE _USE CASE FDS & RMS Challenges 금융환경변화에따른데이터폭증 엄격해지고늘어나는규제의준수어려움 이상거래방지 : 신규금융상품, 거래에서발생되는데이터를기존시스템으로추적 / 탐지하기어려움 위험관리 : 증가하는리스크모델링에대한수요를기존샘플링기반으로충족되지않음 Business Objectives 기업내존재하는다양한데이터의통합필요 변화하는규제및관리예측모델에대한신속한대응체계구축 모든고객및거래대상 Detection 지속적인 Fraud 의심대상추적관리필요 대용량데이터수용및처리가능 : 기존시스템에서수용하지못했던다양한데이터사용가능 구축효과 이상징후정확도개선 : 샘플링기법에서전수조사방식으로 Fraud Detection 전환및이상징후탐지율개선 통합환경제공 : 시스템연계를위한별도솔루션도입없이, Hadoop Ecosystem 컴포넌트를활용하여 40 여개의연계시스템과연계통합구축 빠른이상징후감지및위험예측가능 : 기존배치기반의데이터사용지연현상탈피및 Near-Real Time 분석가능 지속 Fraud 의심대상추적가능 : 200 여개의분석기능구현을통해다양한서비스로진화 31
DATA LAKE _USE CASE Logistic Challenges Business Objectives 데이터 Silo: 전세계다양한점포에서생성되는데이터가이기종환경에산재되어존재 분산분석환경 : 기존이기종환경을통합한분석플랫폼구축어려움 데이터손실현상발생 : 이기종환경에서데이터통합처리시, 성능 bottleneck 구간존재및이로인한데이터유실발생 데이터통합환경개선 : 일평균 500 백만 TLOG 처리시발생된병목현상을제거한데이터통합환경구축 데이터확장성 : 최초 200TB 규모의개방형데이터플랫폼으로출발하여, 연평균 50TB 수용가능한구조 Legacy 시스템부하완화 : 기존인프라의부하를 20% 이상완화 구축효과 Customer 360 실현 : 전세계 점포별회원별성향분석환경 필요 : 상품전열등활용 통합분석플랫폼 : 이기종 시스템에서생성되는다양한 데이터의통합요구 분석성능 : 기존 16~24 시간 소요되는쿼리성능개선필요 분석환경제공 : 점포별 Product Manager 에게맞춤형분석환경 제공 구축비용절감 : 기존 Infra 확장대비 100% 절감된비용으로데이터플랫폼구축 분석시간단축 : 기존 16~24 시간소요된분석업무를 14 분으로단축 1,000 배개선 다양한분석데이터활용 : 회원별 5 년치사용패턴을분석하여상품전시로수익개선 32
DATA LAKE _USE CASE Logistic_EDW offloading Challenges 데이터증가에따른비용증가 : 추가데이터를수용하기위해 EDW appliance 노드증설에따른비용부담 협업부서요구사항증가 : 기존시스템의성능저하에따른빈번한불만접수및추가데이터수용에대한요구증대 Business Objectives 비용절감 : 운영및자본비용을절감하여 고객에게더좋은오퍼링제공을목표로함 단계별접근요구 : 최초 EDW Offload 로시작하여최종 Hadoop 기반의분석시스템구축요구 구축효과 비용절감 : 기존 Infra 확장대비 $9.3M 절감 (3 년간데이터누적에따른투자비용 ) EDW Offload: 데이터처리부하를제거하여분석업무효과개선 (Phase I) DW Modernization: Hadoop 기반의분석시스템구축을통한다양한데이터수용및분석업무효율성증대 33
DATA LAKE _USE CASE Retails Challenges 정형데이터기반분석한계 : 제한된데이터기반분석한계로잦은재고부족으로인한품절및재고관리문제발생과같은이슈발생 분산분석환경 : 기존이기종환경을통합한분석플랫폼구축어려움 데이터손실현상발생 : 이기종환경에서데이터통합처리시, 성능 bottleneck 구간존재및이로인한데이터유실발생 Business Objectives 마켓바스켓분석및가격최적화 : 고객성향에맞는판매제품선정및가격책정자동화시스템도입목표 통합분석플랫폼구축 : 실시간제품판매데이터, 공급만재고수준, 광고지출정보등의통합하여분석할수있는심층분석시스템구축을목표로함 구축효과 다양한데이터수용 : 자사 300 여브랜드와 100 여지역거점에서발생되는모든데이터통합 데이터확장성 : 최초 200TB 규모의개방형데이터플랫폼으로출발하여, 연평균 50TB 수용가능한구조 Legacy 시스템부하완화 : 기존인프라의부하를 20% 이상완화 실시간의사결정시스템활용 : 기업내 / 외대량데이터를통합하여분석해주는시스템을활용해, 임직원회의시전사운영분석및실시간의사결정가능한환경제공 Geographic 확대적용 : 전세계주요 50 개거점별브랜치에통합분석시스템을활용 34
DATA LAKE _USE CASE Healthcare EDW Optimization Challenges 데이터제약 : 정보계시스템제약사항으로인해모든정보저장불가 ( 아카이빙 ) 성능이슈 : 배치작업의성능이슈로인해애플리케이션및리포트생성지연현상발생 Business Objectives EDW 최적화 : 오래된데이터및 ETL 워크로드를 Hadoop으로전환하여운영시스템최적화 Active-Active : Archive 데이러를 Hadoop으로마이그하여과거데이터를활용 구축효과 다양한데이터를활용한분석가능 : 아카이빙정보들에대한접근 / 분석가능 데이터확장성 : 더많은데이터셋을통한향후 Use Case 확장가능플랫폼제공 EDW 개선 : EDW 성능제약사항을해소하여분석계시스템개선 분석계활용도개선 : 데이터수집후접근이기존 1 일에서 Near-Real Time 으로개선되어협업사용량증가 Technology ROI : 기존시스템대비비약적성능개선 (20ms VS 1 시간 ) 비용절감 : 기존시스템확장대비연간 $250K 비용절감 35
THANK YOU