통신회사에서가장중요한데이터자원이라고하면뭐니뭐니해도고객들의통화기록이라할수있다. 이를 Call Detail Record(CDR) 라고하며, 고객들이유선전화나휴대폰을사용하여통화할때마다통화위치, 통화대상, 통화시간등이로그데이터로기록된다. 매통화마다기록되므로 1일발생량은수억건에

Similar documents
I D G C a s e S t u d y KT 가입자분석시스템 NDAP 구축 KT, 하둡기반의빅데이터플랫폼 구축으로비용절감 olleh EDW 와빅데이터간의전략적결합을통한전사데이터에대한듀얼인프라전략 증폭하는대용량데이터에대한인프라의효율성및비용절감의절대적효과 Sponsor

Æí¶÷4-¼Ö·ç¼Çc03ÖÁ¾š

810 & 는 소기업 및 지사 애 플리케이션용으로 설계되었으며, 독립 실행형 장치로 구성하거 나 HA(고가용성)로 구성할 수 있습니다. 810은 표준 운영 체제를 실행하는 범용 서버에 비해 가격 프리미엄이 거의 또는 전혀 없기 때문에 화이트박스 장벽 을

빅데이터시대 Self-BI 전략 이혁재이사 비아이씨엔에스

No

Cloud Friendly System Architecture

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

데이터베이스-4부0816

2002 Game White paper 2002 Game White paper

Basic Template

Beyond Relational SQL Server, Windows Server 에디션비교 씨앤토트 SW 기술팀장세원

*금안 도비라및목차1~9

Ç¥Áö

歯박지원-구운몽.PDF

*금안14(10)01-도비라및목차1~12

음악부속물

음악부속물

음악부속물

*캐릭부속물

*금안 도비라및목차1~17

문서의 제목 나눔고딕B, 54pt

만화부속물

만화부속물

토익S-채용사례리플렛0404

DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx

따끈따끈한 한국 Azure 데이터센터 서비스를 활용한 탁월한 데이터 분석 방안 (To be named)

PowerPoint Presentation

들어가는글 2012년 IT 분야에서최고의관심사는아마도빅데이터일것이다. 관계형데이터진영을대표하는오라클은 2011년 10월개최된 오라클오픈월드 2011 에서오라클빅데이터어플라이언스 (Oracle Big Data Appliance, 이하 BDA) 를출시한다고발표하였다. 이와

Microsoft Word - th1_Big Data 시대의 기술_ _조성우

e-spider_제품표준제안서_160516

2002 KT

위세아이텍_iOLAP_

[Brochure] KOR_TunA

*2009데이터_3부

KT Community Relations White Book

PowerPoint 프레젠테이션

슬라이드 1

*금안 도비라및목차1~15

<4D F736F F D20BBE7BABB202D20C3D6BDC54954B5BFC7E2>

슬라이드 제목 없음


진정한토종벤처를꿈꾸는기업 저희시큐레이어는최근사회적화두로부각되고있는빅데이터를기반으로한통합로그수집 / 분석및통합보안관제분야에순수국산기술적자립으로외산과당당히겨루는소프트웨어를만들자는이념의전문소프트웨어기업입니다. 이러한이념을달성하기위한치열한열정과노력으로주요시장에서긍정적으로 평가

Bind Peeking 한계에따른 Adaptive Cursor Sharing 등장 엑셈컨설팅본부 /DB 컨설팅팀김철환 Bind Peeking 의한계 SQL 이최초실행되면 3 단계의과정을거치게되는데 Parsing 단계를거쳐 Execute 하고 Fetch 의과정을통해데이터

<4D F736F F D204954B1E2C8B9BDC3B8AEC1EE2DC3D6B1D4C7E5>

빅데이터처리의핵심인 Hadoop 을오라클은어떻게지원하나요? Oracle Big Data Appliance Solution 01 빅데이터처리를위한전문솔루션이 Oracle Big Data Appliance 군요. Oracle Big Data Appliance 와함께라면더이


PowerPoint 프레젠테이션

H3250_Wi-Fi_E.book

쉽게 풀어쓴 C 프로그래밊

*연차(2015)01-도비라및목차1~15

PowerPoint 프레젠테이션

게임백서-상하-색인 목차

IBMDW성공사례원고

게임백서-상하-색인 목차

게임백서-상하-색인 목차

< B1E8C7F6C1D65FC7CFB5D3B1E2B9DDBAF2B5A5C0CCC5CDB1E2B9FDB8A6C0CCBFEBC7D128BCF6C1A4292E687770>

pdf

³»Áö_1È£_0107L

아이콘의 정의 본 사용자 설명서에서는 다음 아이콘을 사용합니다. 참고 참고는 발생할 수 있는 상황에 대처하는 방법을 알려 주거나 다른 기능과 함께 작동하는 방법에 대한 요령을 제공합니다. 상표 Brother 로고는 Brother Industries, Ltd.의 등록 상

슬라이드 1

자동화된 소프트웨어 정의 데이터센터

121220_워키디_상세설명서.indd

슬라이드 1

<4D F736F F D204954B1E2C8B9BDC3B8AEC1EE2DB1E8B5BFC7D1>

초보자를 위한 분산 캐시 활용 전략

Cover Story 빅데이터플랫폼 Big Data 시대의엔터프라이즈인프라스트럭처 ORACLE KOREA MAGAZINE Spring 개요빅데이터를처리하는기술의가장중심기술은아파치하둡기술일것이다. 하둡기술은데이터를취득하고이를구조화시키고분석을하는일련의과정에

Cloudera Toolkit (Dark) 2018

비식별화 기술 활용 안내서-최종수정.indd

RHEV 2.2 인증서 만료 확인 및 갱신

SANsymphony-V




PlatformDay2009-Hadoop_OSBI-YoungwooKim

Print

PowerPoint 프레젠테이션


*금안 도비라및목차1~16

2 노드

이동전화요금체계개선방안(인쇄본).hwp

歯3-한국.PDF

Microsoft PowerPoint - 3장-MS SQL Server.ppt [호환 모드]

데이터자격시험소개 한국데이터베이스진흥원은산업수요에부응하는인재양성을위해기업의데이터에관한모든구조를체계화하여설계하는능력을검정하는데이터아키텍처 (Data Architecture) 자격시험과데이터베이스개발의필수언어인 SQL(Structured Query Language) 활용능

일제.PDF

Slide 1

WINDOW FUNCTION 의이해와활용방법 엑셈컨설팅본부 / DB 컨설팅팀정동기 개요 Window Function 이란행과행간의관계를쉽게정의할수있도록만든함수이다. 윈도우함수를활용하면복잡한 SQL 들을하나의 SQL 문장으로변경할수있으며반복적으로 ACCESS 하는비효율역

마사코.PDF

804NW±¹¹®

Bigdata가 제공하는 구체적인 혜택과 변화 양상 기업의 데이터 기반의 의사결정 시스템 구축 의지 확대 양상 빅데이터를 활용한 경영 및 마케팅 지속적인 증가세 뚜렷 빅데이터를 도입한 기업은 사전 기대를 뛰어넘는 효과를 경험 본 조사 내용은 美 BARC- Researc

자동화된 소프트웨어 정의 데이터센터

<4D F736F F D F5357BAB05FC5EBC7D5C7D8BCAEBDC3BDBAC5DB5FBCBAB4C920BAD0BCAE20B0E1B0FABAB8B0EDBCAD5F F

Windows 10 General Announcement v1.0-KO

4 꼬부랑 이라는 말이 재미있습니다. 5같은 말이 반복이 되어서 지루합니다. 4 꼬부랑 은 굽은 모양을 재미있게 흉내 낸 말입니다. 꼬부랑 을 빼고 읽는 것보다 넣어서 읽 으면 할머니와 엿가락, 강아지의 느낌이 좀 더 실감 나서 재미가 있습니다. 국어2(예습) / 1.

네트워크통신연결방법 네트워크제품이통신을할때, 서로연결하는방법에대해설명합니다. FIRST EDITION

마닝

Straight Through Communication

PowerPoint Presentation

이문서는인포매티카의기업대외비, 독점및상거래상의기밀정보를포함하며인포매티카의사전서면동의없이복사, 배포, 중복또는어떤방식으로도복제될수없습니다. 본문서정보의정확성과완전성을기하기위한노력을다했음에도불구하고일부오식또는기술적부정확성이있을수있습니다. 인포매티카는본문서에포함된정보의사용으

SSD, TCO(Total Cost of Ownership) 관점 수요 확대 동인 확보 TCO(Total Cost of Ownership) 관점 수요 증가 동인 확대 3D NAND의 응용처는 향후 PC에서 엔터프라이즈로 확대될 것으로 판단된다. 엔터 프라이즈 시장에서는

오토10. 8/9월호 내지8/5

Transcription:

White Paper Big Data Case Study

통신회사에서가장중요한데이터자원이라고하면뭐니뭐니해도고객들의통화기록이라할수있다. 이를 Call Detail Record(CDR) 라고하며, 고객들이유선전화나휴대폰을사용하여통화할때마다통화위치, 통화대상, 통화시간등이로그데이터로기록된다. 매통화마다기록되므로 1일발생량은수억건에달하는그야말로대표적인빅데이터라고할수있다. KT는 10여년전부터 CDR 데이터를수집 / 저장 / 분석할수있는가입자분석시스템을구축하여, 통화품질관리, 기지국별통화량분석, 통화장애조회등통신사업의가장핵심적인업무에활용하고있다. 데이터급증에따른데이터베이스기반시스템의한계 KT 가입자분석시스템은전형적인기업데이터웨어하우스 (DW) 형태로고가의하이엔드급유닉스서버와상용관계형데이터베이스제품을기반으로구축되어있다. 원시 CDR 데이터와이를정제한마트데이터를모두포함하여 40~50 TB 가량의데이터 ( 약 3개월치보관 ) 를저장하고약 3,000 여개의 SQL 쿼리로데이터처리를하고있다. 수행하는주요업무는다음과같다. 원시 CDR 데이터배치분석 : 가입자통화품질분석을위한데이터집계및요약 주간실시간고객대응 : 고객 VOC 대응을위한근실시간로그검색 OLAP 및정형 / 비정형리포트 : 가입자분석, 종합품질현황, 종합리포트등제공 하지만스마트폰의등장과함께무선데이터로그가급증하면서, 이로인하여데이터처리프로세스의전구간에서병목현상이 일어나게되었다. ( 그림 1) 이런병목현상은시스템성능저하뿐아니라, 분석업무에차질을주고데이터활용도를크게저하시켰다. 데이터증가로인해생긴이슈들은다음과같다. 데이터유입속도의증가로변환 / 적재과정병목으로일부로그데이터유실 데이터저장공간부족으로수용가능한데이터제한되고, 장기보관불가능 일배치작업의지연으로리포트생성마감시간을맞추지못함 시스템포화로인하여가입자행태분석등의추가분석불가능 1

그림 1. KT 가입자분석시스템데이터처리프로세스와병목현상 비용효율성을고려한하둡과데이터베이스의하이브리드시스템필요 스마트폰시대폭발적으로증가하는데이터를보다효율적으로수용하고활용하기위해시스템에대한전면적인검토가요구되었고 KT 는그림 2 와같이요구사항들을정리하였다. 그림 2. KT 가입자분석시스템의빅데이터요구사항 2

KT 가가장쉽게선택할수해결책은서버장비의부품교체나추가로성능을향상시키거나 (Scale-up) 동일한형상의시스템을하나 더구축하여확장하는방법이다. 하지만 KT 는이러한방식이추가비용이크고임시방편적인조치로, 데이터증가에대한궁극적인 해결책이아니라는판단에보다근본적인방안을찾기시작했다. 하둡 (Hadoop) 이최적의솔루션으로서채택되었다. 하둡은고가의유닉스서버대신 x86 서버를사용함으로써, 하드웨어비용을현격히낮추고, 데이터나성능의확장이필요한경우서버를추가하여손쉽게선형확장성을얻을수있는장점때문에확장성과비용효율성이라는두마리토끼를한번에잡을수있다. 하지만하둡만으로 KT 요구사항을모두충족시키지는못한다. 하둡이지원하는인터페이스는기존 SQL과약간상이하며주요 BI 도구들 (OLAP, 리포팅등 ) 과연동성이떨어진다.( 최근많은 BI 도구들이하둡연동을지원하기시작함 ) 또한 OLAP과같이빈번하고빠른응답성을요구하는쿼리성능을지원하기에는아직미흡한점이있다. KT Cloudware는하둡과데이터베이스의하이브리드 DW 모델을제안함으로써 KT의요구사항을모두충족시킬수있는방안을제시했다.( 그림 3) 하이브리드 DW 모델은데이터양이큰원시데이터와계산량이많이걸리는배치작업은하둡에서수용하고, 마트데이터와같이작고중요한데이터와 BI 도구연동작업은데이터베이스에서처리하는것이다. KT 가입자분석시스템에서는데이터양이가장큰원시 CDR 데이터는하둡에저장하고, 일배치처리작업을수행하여요약 / 집계테이블과마트데이터등을만들어내서데이터베이스에적재한다. 기존 OLAP과리포팅도구들은하둡대신데이터베이스를접근함으로써우수한연동성을보장하는것이다. 하이브리드 DW 모델은하둡의확장성과비용효율적인장점을활용하면서도데이터베이스와의역할분배를통해기존시스템과의연동과인터랙티브한작업을가능케한다. 그림 3. 하둡과데이터베이스의하이브리드 DW 모델 3

빅데이터시대의하이브리드 DW 솔루션으로서 NDAP 적용 KT 가입자분석시스템을하이브리드 DW 모델로전환하기위해 NDAP(NexR Data Analytics Platform) 이도입되었다. NDAP은빅데이터의수집부터, 저장, 처리, 검색까지전체프로세스를수행하는올인원솔루션으로, 데이터급증에대응할수있는비용효율적인해결책을제공한다. NDAP은하둡의장점을활용하여, 데이터증가시 x86 서버를추가함으로써저장공간을쉽게늘리고, 동시에데이터처리성능의선형적인확장성을제공한다. 또한통계소스트웨어 R 의분산버전인 RHive와의연계를통해빅데이터고급분석을가능케한다. 하이브리드 DW 모델로서, NDAP에서집계및요약된데이터는데이터베이스로적재하여, 기존 OLAP/ 리포팅도구를그대로연동할수있게도와준다. 그림 4는 KT 가입자분석시스템에 NDAP 적용된모습을보여준다. 그림 4. NDAP 적용후 KT 가입자분석시스템 그림 4에서처럼 NDAP은각기능별모듈구조로구성되어있기때문에특정기능만독립적으로수평확장이가능하고, 하둡을기반으로하기때문에정형데이터뿐아니라비정형데이터까지 NDAP내에통합하여담고분석할수있다. ANSI-SQL 쿼리를지원하여기존배치작업을이식하는데수월하고, 데이터의수집과동시에인덱싱을하기때문에근실시간성의검색이가능하다. 이와같이대용량데이터의저장과배치작업을 NDAP이떠맡음으로써고가데이터베이스의추가투자와비용을최소화시켜데이터증가에대해경제적으로대응할수있다는점에서하이브리드 DW 모델의장점이라고할수있다. 4

성능 / 확장성과 TCO 측면에서대폭적인개선효과 전통적인데이터베이스기반 DW 구조를 NDAP 중심의하이브리드 DW 구조로대체함으로써데이터수용능력과처리능력이대폭개선되었다. 특히, 기존에병목구간이었던, 수집, 배치처리, 검색등의작업들에대해월등히개선된성능을얻었다. 무엇보다중요한것은, 향후데이터증가시에도병목이발생하는구간만하드웨어를추가증설하여손쉽게해결할수있는시스템을확보했다는점이다. 이는지속적으로데이터가증가하는모바일시대에통신회사의핵심경쟁력으로작용할전망이다. 자세한성능향상효과는다음과같다. 수집처리성능 : 단일 x86 서버만으로기존수집성능확보. 수집서버 2 배증설시처리량 2 배로선형적인성능향상 데이터처리성능 : 기존보다평균 5~10 배정도의성능향상. 서버 2 배증설시약 1.5 배의선형적성능향상 검색응답성개선 : 데이터양이증가하더라도 3 초이내의빠른응답성확보 KT 가입자분석시스템은향후 5 년내에약 1PB 이상의데이터가쌓일것으로예상되며, 이후추가적으로다양한소스의데이터를담을 예정이다. 이와같이 5 년 TCO(Total Cost of Ownership) 관점에서전통적인방식의하이엔드서버 / 스토리지와데이터베이스기반 DW 를구성했을때비용과비교하면, 최소 567 억원의비용절감효과가예상되며, 이는데이터증가속도에따라더욱증가할수있다. 기업의차세대정보계와데이터웨어하우스의혁신을주도할 NDAP 빅데이터시대기업의 IT 인프라담당과정보계는새로운도전에직면하고있다. 모바일환경의확대로데이터의유입속도와양이증가하고있다. 강화된보안과 IT 컴플라이언스이슈로인해데이터보관주기와종류가점점늘어나고있다. 또한기업내외부에산재해있는데이터를통합하고분석하여차별화된통찰력 (Insight) 을도출하려는요구가빈번해지고있다. 이러한환경변화로인해기존데이터베이스기반의데이터웨어하우스시스템들은한계에직면하고있다. 하지만, 기존시스템을버리고전면적으로신기술을도입하는것은상당한리스크를안고있는것이사실이다. 그렇다고, 기존시스템을동일한형상으로확장하는것은근본적인해결책이될수없다. 이시점에서하이브리드 DW 모델을적용하여새로운니즈에대응하고, 기존시스템과의상생을모색하는것이가장적절한대안이될수있다. NDAP은하이브리드 DW 모델을가능케해주는검증된솔루션으로미래데이터웨어하우스의혁신을이끌것으로확신한다. 5

( 주 ) KT cloudware 서울서초구서초동 1321-6 동아타워 4층대표번호 : 02-565-7650 contact@ktcloudware.com www.ktcloudware.com Copyright : kt cloudware 2012, All Rights Reserved 본설명서는정보제공목적으로제공되는것이며, 별도의통보없이내용이변경될수있습니다.