White Paper Big Data Case Study
통신회사에서가장중요한데이터자원이라고하면뭐니뭐니해도고객들의통화기록이라할수있다. 이를 Call Detail Record(CDR) 라고하며, 고객들이유선전화나휴대폰을사용하여통화할때마다통화위치, 통화대상, 통화시간등이로그데이터로기록된다. 매통화마다기록되므로 1일발생량은수억건에달하는그야말로대표적인빅데이터라고할수있다. KT는 10여년전부터 CDR 데이터를수집 / 저장 / 분석할수있는가입자분석시스템을구축하여, 통화품질관리, 기지국별통화량분석, 통화장애조회등통신사업의가장핵심적인업무에활용하고있다. 데이터급증에따른데이터베이스기반시스템의한계 KT 가입자분석시스템은전형적인기업데이터웨어하우스 (DW) 형태로고가의하이엔드급유닉스서버와상용관계형데이터베이스제품을기반으로구축되어있다. 원시 CDR 데이터와이를정제한마트데이터를모두포함하여 40~50 TB 가량의데이터 ( 약 3개월치보관 ) 를저장하고약 3,000 여개의 SQL 쿼리로데이터처리를하고있다. 수행하는주요업무는다음과같다. 원시 CDR 데이터배치분석 : 가입자통화품질분석을위한데이터집계및요약 주간실시간고객대응 : 고객 VOC 대응을위한근실시간로그검색 OLAP 및정형 / 비정형리포트 : 가입자분석, 종합품질현황, 종합리포트등제공 하지만스마트폰의등장과함께무선데이터로그가급증하면서, 이로인하여데이터처리프로세스의전구간에서병목현상이 일어나게되었다. ( 그림 1) 이런병목현상은시스템성능저하뿐아니라, 분석업무에차질을주고데이터활용도를크게저하시켰다. 데이터증가로인해생긴이슈들은다음과같다. 데이터유입속도의증가로변환 / 적재과정병목으로일부로그데이터유실 데이터저장공간부족으로수용가능한데이터제한되고, 장기보관불가능 일배치작업의지연으로리포트생성마감시간을맞추지못함 시스템포화로인하여가입자행태분석등의추가분석불가능 1
그림 1. KT 가입자분석시스템데이터처리프로세스와병목현상 비용효율성을고려한하둡과데이터베이스의하이브리드시스템필요 스마트폰시대폭발적으로증가하는데이터를보다효율적으로수용하고활용하기위해시스템에대한전면적인검토가요구되었고 KT 는그림 2 와같이요구사항들을정리하였다. 그림 2. KT 가입자분석시스템의빅데이터요구사항 2
KT 가가장쉽게선택할수해결책은서버장비의부품교체나추가로성능을향상시키거나 (Scale-up) 동일한형상의시스템을하나 더구축하여확장하는방법이다. 하지만 KT 는이러한방식이추가비용이크고임시방편적인조치로, 데이터증가에대한궁극적인 해결책이아니라는판단에보다근본적인방안을찾기시작했다. 하둡 (Hadoop) 이최적의솔루션으로서채택되었다. 하둡은고가의유닉스서버대신 x86 서버를사용함으로써, 하드웨어비용을현격히낮추고, 데이터나성능의확장이필요한경우서버를추가하여손쉽게선형확장성을얻을수있는장점때문에확장성과비용효율성이라는두마리토끼를한번에잡을수있다. 하지만하둡만으로 KT 요구사항을모두충족시키지는못한다. 하둡이지원하는인터페이스는기존 SQL과약간상이하며주요 BI 도구들 (OLAP, 리포팅등 ) 과연동성이떨어진다.( 최근많은 BI 도구들이하둡연동을지원하기시작함 ) 또한 OLAP과같이빈번하고빠른응답성을요구하는쿼리성능을지원하기에는아직미흡한점이있다. KT Cloudware는하둡과데이터베이스의하이브리드 DW 모델을제안함으로써 KT의요구사항을모두충족시킬수있는방안을제시했다.( 그림 3) 하이브리드 DW 모델은데이터양이큰원시데이터와계산량이많이걸리는배치작업은하둡에서수용하고, 마트데이터와같이작고중요한데이터와 BI 도구연동작업은데이터베이스에서처리하는것이다. KT 가입자분석시스템에서는데이터양이가장큰원시 CDR 데이터는하둡에저장하고, 일배치처리작업을수행하여요약 / 집계테이블과마트데이터등을만들어내서데이터베이스에적재한다. 기존 OLAP과리포팅도구들은하둡대신데이터베이스를접근함으로써우수한연동성을보장하는것이다. 하이브리드 DW 모델은하둡의확장성과비용효율적인장점을활용하면서도데이터베이스와의역할분배를통해기존시스템과의연동과인터랙티브한작업을가능케한다. 그림 3. 하둡과데이터베이스의하이브리드 DW 모델 3
빅데이터시대의하이브리드 DW 솔루션으로서 NDAP 적용 KT 가입자분석시스템을하이브리드 DW 모델로전환하기위해 NDAP(NexR Data Analytics Platform) 이도입되었다. NDAP은빅데이터의수집부터, 저장, 처리, 검색까지전체프로세스를수행하는올인원솔루션으로, 데이터급증에대응할수있는비용효율적인해결책을제공한다. NDAP은하둡의장점을활용하여, 데이터증가시 x86 서버를추가함으로써저장공간을쉽게늘리고, 동시에데이터처리성능의선형적인확장성을제공한다. 또한통계소스트웨어 R 의분산버전인 RHive와의연계를통해빅데이터고급분석을가능케한다. 하이브리드 DW 모델로서, NDAP에서집계및요약된데이터는데이터베이스로적재하여, 기존 OLAP/ 리포팅도구를그대로연동할수있게도와준다. 그림 4는 KT 가입자분석시스템에 NDAP 적용된모습을보여준다. 그림 4. NDAP 적용후 KT 가입자분석시스템 그림 4에서처럼 NDAP은각기능별모듈구조로구성되어있기때문에특정기능만독립적으로수평확장이가능하고, 하둡을기반으로하기때문에정형데이터뿐아니라비정형데이터까지 NDAP내에통합하여담고분석할수있다. ANSI-SQL 쿼리를지원하여기존배치작업을이식하는데수월하고, 데이터의수집과동시에인덱싱을하기때문에근실시간성의검색이가능하다. 이와같이대용량데이터의저장과배치작업을 NDAP이떠맡음으로써고가데이터베이스의추가투자와비용을최소화시켜데이터증가에대해경제적으로대응할수있다는점에서하이브리드 DW 모델의장점이라고할수있다. 4
성능 / 확장성과 TCO 측면에서대폭적인개선효과 전통적인데이터베이스기반 DW 구조를 NDAP 중심의하이브리드 DW 구조로대체함으로써데이터수용능력과처리능력이대폭개선되었다. 특히, 기존에병목구간이었던, 수집, 배치처리, 검색등의작업들에대해월등히개선된성능을얻었다. 무엇보다중요한것은, 향후데이터증가시에도병목이발생하는구간만하드웨어를추가증설하여손쉽게해결할수있는시스템을확보했다는점이다. 이는지속적으로데이터가증가하는모바일시대에통신회사의핵심경쟁력으로작용할전망이다. 자세한성능향상효과는다음과같다. 수집처리성능 : 단일 x86 서버만으로기존수집성능확보. 수집서버 2 배증설시처리량 2 배로선형적인성능향상 데이터처리성능 : 기존보다평균 5~10 배정도의성능향상. 서버 2 배증설시약 1.5 배의선형적성능향상 검색응답성개선 : 데이터양이증가하더라도 3 초이내의빠른응답성확보 KT 가입자분석시스템은향후 5 년내에약 1PB 이상의데이터가쌓일것으로예상되며, 이후추가적으로다양한소스의데이터를담을 예정이다. 이와같이 5 년 TCO(Total Cost of Ownership) 관점에서전통적인방식의하이엔드서버 / 스토리지와데이터베이스기반 DW 를구성했을때비용과비교하면, 최소 567 억원의비용절감효과가예상되며, 이는데이터증가속도에따라더욱증가할수있다. 기업의차세대정보계와데이터웨어하우스의혁신을주도할 NDAP 빅데이터시대기업의 IT 인프라담당과정보계는새로운도전에직면하고있다. 모바일환경의확대로데이터의유입속도와양이증가하고있다. 강화된보안과 IT 컴플라이언스이슈로인해데이터보관주기와종류가점점늘어나고있다. 또한기업내외부에산재해있는데이터를통합하고분석하여차별화된통찰력 (Insight) 을도출하려는요구가빈번해지고있다. 이러한환경변화로인해기존데이터베이스기반의데이터웨어하우스시스템들은한계에직면하고있다. 하지만, 기존시스템을버리고전면적으로신기술을도입하는것은상당한리스크를안고있는것이사실이다. 그렇다고, 기존시스템을동일한형상으로확장하는것은근본적인해결책이될수없다. 이시점에서하이브리드 DW 모델을적용하여새로운니즈에대응하고, 기존시스템과의상생을모색하는것이가장적절한대안이될수있다. NDAP은하이브리드 DW 모델을가능케해주는검증된솔루션으로미래데이터웨어하우스의혁신을이끌것으로확신한다. 5
( 주 ) KT cloudware 서울서초구서초동 1321-6 동아타워 4층대표번호 : 02-565-7650 contact@ktcloudware.com www.ktcloudware.com Copyright : kt cloudware 2012, All Rights Reserved 본설명서는정보제공목적으로제공되는것이며, 별도의통보없이내용이변경될수있습니다.