Hadoop EcoSystem 을홗용한 Hybrid DW 구축사례 2013-05-02 KT cloudware / NexR Project Manager 정구범 klaus.jung@{kt nexr}.com
KT의대용량데이터처리이슈 적재 Data의폭발적인증가 LTE 등초고속무선 Data 통싞 : 트래픽이예상보다빨리 / 많이증가 비통싞 ( 컨텐츠 / 플랫폼 /Bio/ 금융등 ) 영역의대용량 Data 처리수요증가 비용젃감 주력매출의정체 : 비싼장비와 SW에계속투자해서는이득이없음 내재화를통한자체역량확보및구축 / 확대 / 유지보수비용젃감 보다정밀해지는분석처리 정밀한분석 : 분석에필요한 Data의크기와종류의증가 교차분석대상및관계요건복잡성의대폭증가 처리결과의적시성확보 Data의크기와복잡성이증가해도처리결과는항상일정한시간에제공 처리시간의여유부족 = 처리중사소한문제라도발생되면적시제공불가 1
상용 DW 기반의기졲분석시스템 Network System High Scale-up UNIX Machine BI tool ODS ETL DW ETT Data Mart Service System 업무시스템 원천데이터의지속적증가 Bottleneck 다양한데이터제공요구처리젃차및결과의복잡성증가 적재량의증가 처리프로세스의증가 구축및유지비용의증가 스토리지용량증설불가피 장비증설 / 대개체불가피 다른투자기회의상실 2
상용 DW 대체의젂제조건 경제성확보 데이터와성능증가목표에대응하여단계별적기투자가가능한비용합리성확보 Commodity Hardware에서운용가능한비용효율성확보 동일한처리결과확보 기존의 SQL을최대한홗용하여적용할수있는호홖성확보 기존의업무처리결과와동일한처리결과확보 확장성과 Real-time 성능확보 지속적으로증가하는데이터의수용이가능한적재확장성확보 장비추가에따른처리성능의선형적확장성확보 원하는조건의데이터를 Real-time 이내에확인가능한성능확보 새로운데이터 / 분석기법에대한수용력확보 기존시스템통합으로데이터포맷등의추가적용이가능한비정형데이터수용력확보 새로운분석기법 / 알고리즘의추가적용이용이한분석기능수용력확보 3
요구사항분석 주요요건 세부요건 Solutions Reference 경제성확보 단계별투자 Sclale-out Commodity HW 저사양구동 Hadoop 동일한처리결과확보 SQL 호홖성 동일한처리결과 Distributed Search 적재확장성 HBase 확장성 & 성능확보 선형적성능확장성 Near Real-time 검색 Hive 싞규데이터새로운분석수용 비정형데이터수용력 새로운분석기능수용력 R 4
Hadoop EcoSystem 구글은방대한데이터의수집 / 적재 / 처리를보다저렴한비용으로현실화 범용부품기반의맞춤 / 조립식저비용하드웨어기반, 모듞문제를소프트웨어로해결 Hadoop = 구글의비공개기술을모방, 오픈소스에기반한집단지성의결정체 기술 / 서비스 Google Eco-System Hadoop Eco-System 분산파일시스템 Google File System Apache Hadoop (HDFS) 분산데이터처리 Map-Reduce Apache Hadoop (MapReduce) 분산락킹, 이벤트통지 Chubby Apache Zookeeper 분산데이터저장 (Row-level ACID) BigTable Apache HBase SQL 기반데이터처리 BigQuery ( 외부서비스제공. 최대 70TB) Apache Hive 분산데이터베이스 (Full ACID) Spanner - 5
Hadoop EcoSystem based Realization Architecture Log Repository Apache Zookeeper 업무시스템 Log / Data Collection Searching Apache Flume Apache Chukwa Facebook Scribe Storing Apache Hadoop Storing Apache Solr ElasticSearch Apache HBase Access HDFS Access HDFS Map-Reduce Execution Apache Sqoop Integration Executing Apache Oozie LinkedIn Azkaban Cascading Hamake Scheduled Querying Apache Hive Apache Pig Data Import/Export Ad-hoc Querying DBMS Querying BI Tool Query Tool 6
NDAP (NexR Data Analytics Platform) Big Data 처리를위한 All-in-One 솔루션 : Big Data 의수집 / 저장 / 분석 / 검색 / 변홖등모듞처리를하나의솔루션기반으로수행 Massive Data Store 비용효율성 SQL Processing Real-time Search NDAP Management & Monitoring Data Collection 수평적확장성 Workflow & Workbench 7
Provisioning & Monitoring & Management NDAP Software Stack AdHoc Query R Scheduled Query Workbench RHive Workflow Hive HBase Table HDFS Table JDBC Table RDBMS HBase Map Reduce SSH Import JDBC Import/Export Remote Files RDBMS ODS HBase Data Data Warehouse Data Mart HDFS 8
KT 의주요분석시스템구축현황 무선 유선 Main DW 무선 NMS 분석 ( 총 3 종류개별운영 ) Main DW 유선 NMS 분석 ( 총 9 종류개별운영 ) 통합 BI/DW KDAP 통합 NMS 분석 경영정보중심의분석 ( 상용 DW) xxx TB 통합분석 (Hadoop) x PB 장비중심의분석 ( 상용 DBMS) xxx TB 통합 (2013 년 ) 9
Platform Architecture Operational Sources Staging Layer Original Data Convert & Load Store & Process Layer + Node-n Export Mart Layer Summary End User UI BI Tool Original Data Original Data Convert & Load Convert & Load Node-7 Node-6 Node-5 Node-4 Node-3 Node-2 Node-1 Job Execute Search Layer + Node-2 Node-1 웹포탈 Source 증가대응력확보 단계별노드증설 ETL 처리부하분산 선형적처리성능확장 실시간처리성능확보 기졲 DB 홗용 Mart 젂용성능확보 저비용범용장비기반으로 CAPEX 최소화성능및용량확장무제한 ( 단계별투자가능 ) 10
KDAP Architecture BSS DW NMS R BI/DW 포탈 RHive ODS HBase 실시간 Hive Mart DB Validation, Converting, Normalizing 배치 ETL Hadoop Export Workflow KDAP (KT Data Analytics Platform) DW NMS 11
Data 수용및확대적용계획 KT Platforms KT Data Analytics Platform 3G Voice/data LTE data/volte SMS / MMS 2013 년통합 olleh Wibro olleh Wifi Packet Data Log Wifi Call / VoIP 2014 년확대 Wired Internet olleh TV 2011 년부터 NDAP 을기반 SW 로사용하여구축수행 2013 년 100 TB 규모 2014 년 1 PB 이상확대 12
Thank you contact@ktcloudware.com 13