SAS - TERADATA In-Database Analytics 최적화전략 Teradata Yoo, Mee SAS Korea Changik Lee
Agenda 회사소개및 SAS-Teradata Partnership SAS - Teradata 최적화전략 In-Database Analytics 핵심기술 사례및기대효과
회사소개및 SAS - Teradata Partnership
Teradata 소개 Teradata 는 End-to-End DW/CRM 솔루션을제공하는 DW/CRM 전문솔루션회사로국내 / 외 DW/CRM 시장을선도하고있음. Teradata 본사 한국 Teradata 회사소개 1884. 미국오하이오주 Dayton 에세계최초의금전등록기제조사 The National Cash Register Co. 설립 1906. 세계최초의전기동력금전등록기개발 1982. 최초의 NCR 타워슈퍼마이크로컴퓨터개발 1991. AT&T 와합병. 회사명 AT&T-GIS 변경 1996. AT&T 사 3 개부문으로분리후사명 NCR 로재변경 2004. 美인포매이션위크誌, 월마트의 423 테라바이트급 Teradata 소개 2005. Teradata Warehouse 8.1 과 TRM 6.0 론칭 2007. NCR 로부터성공적인 Spin-off 마이크코엘러, 초대 Teradata 회장및 CEO 취임기업데이터웨어하우징분야선두기업 2007 가트너매직쿼드런트데이터웨어하우스 DBMS 분야선두미국 10 대소프트웨어기업및 S&P 500 대기업 1969. 한국외환은행에국내최초의온라인시스템구축 1980. 의료보험관리공단온라인시스템구축 / 금융결제원어음교환시스템가동 1982. 광주, 전북, 경기은행온라인시스템구축 1989. 한국 NCR 현지법인출범 1992. Teradata 합병으로 MPP 시스템개발강화초병렬처리 (MPP) 시스템 NCR3600 발표 1995. 통산부 RIACT( 국산대형컴퓨터공동개발계획 ) 선정 2000. CRM/DW 부문시장점유율국내 1 위 2004. 테라데이타, 메타그룹선정 EDW' 부문 1 위 2006. Teradata Warehouse 8.1 과 TRM 6.0 론칭 2007. Spin-off 로인한한국테라웨어하우스 ( 유 ) 설립콘바스사장, 초대한국지사장취임 2008. 상암동 DMC 누리꿈스퀘어비즈니스센터로사옥이전 재무현황 총매출 현금보유율 자사 직원수 일일 DW 사용자수 약 17 억불 ( 전년대비 10% 성장 ) 약 2 억 7 천만달러 전세계 60 여개국 약 6 천여명 전세계 850 고객 1900건백만명이상 연구개발 Application R&D NC, Rally DW Platform R&D Sandiego Consulting Service GA, Atlanta
Teradata Data Warehouse Leadership Teradata 는 SAS 의 In-DB Analytics 을위한첫번째 RDBMS 파트너 이유? Teradata 는 10 년이상 indatabase analytics 경험보유 In-database Analytics 을위한 DB 요건 : 집중화된 EDW 다수의사용자와대용량데이터 In-database analytic 처리능력 Mixed Workload Workload Management This MQ answers the question, What is the best DBMS software for data warehousing? Gartner Magic Quadrant for Data Warehouse Database Management System, 2007
Teradata 소개 16 of the Top 30 Global Retailers 13 of the Top 20 Global Communications Companies 15 of the top 30 Global Food Distributors use Teradata 6 of the Top 20 Global Banks 10 of the Top 20 Global Airlines 32% of the top 50 most admired global companies use Teradata 70% of the most admired U.S. companies use Teradata
SAS 소개 SAS 는세계최고의 IT 솔루션 Provider 중의하나로서, 다양한고객사를대상으로경영전반에걸친 Business Application 을제공하고있습니다. SAS Institute Inc. ( 본사 ) SAS 코리아 ( 한국지사 ) Dr. James H. Goodnight 대표자 조성식 ( 대표이사 ) 100 SAS Campus Drive, Cary, North Carolina, USA 주 소 서울특별시강남구대치 4 동 889-11 대치빌딩 8 층 -10 층 Business Intelligence 솔루션공급및컨설팅 1976 년 약 2 조원 ($2.15 billion) (2007 년기준 ) 약 2 천 6 백억원 ($260Million) 약 1 만여명 (100 여국현지화지사 ) http://www.sas.com/ 비상장 ( 세계 1 위의독립소프트웨어업체 ) 주사업분야설립년도매출액자본금종업원수 Website 상장구분 Business Intelligence 솔루션공급및컨설팅, 기술지원, 교육서비스 1990 년 4 월 26 일 약 300 억원 (2006 년도관리회계기준 ) 약 17 억원 145 명 (2008 년 1.1 기준 ) http://www.sas.com/korea/ 비상장 ( 세계 1 위의비상장소프트웨어업체 ) 7 Fortune 지 " 가장일하기좋은 100 대기업 " 기타국내 R&D 센터보유
SAS Advanced Analytics & EIP Leadership SAS dominates in advanced analytic solutions. No other vendor in the Magic Quadrant has its range of capabilities or can point to the same number of advanced analytic deployments. Gartner: Magic Quadrant Business Intelligence Platforms, 2008
SAS 소개 주요글로벌고객사 주요국내고객사
SAS-Teradata Strategic Partnership 2007 년 10 월 8 일전략적제휴발표 주요전략적제휴발표내용 TD-SAS 의핵심솔루션을고객사에적극적으로제공하기위한전략적파트너쉽 제품들간의긴밀한기술적통합뿐만아니라마케팅, 세일즈및서비스활동에공동협력 공동로드맵을통해향후 SAS 의금융솔루션과유통솔루션들을테라데이타에최적화 기존고객사들뿐아니라신규고객사들까지도테라데이타의데이터베이스엔진을통해 SAS 의솔루션과분석기능을최대한활용할수있는기초마련 공동우수연구집단 (Center of Excellence: COE) 을구축하여양사의솔루션아키텍트및기술컨설턴트가협력하여기존의 SAS, Teradata 의 IT 인프라뿐아니라향후도입하게될인프라까지감안하여더욱향상된성능을얻을수있도록여러고객사들을지원할계획 Teradata is the only vendor that we are working with right now to move SAS computation directly inside the database computation engine. This will give incredible additional speed and performance and also make jobs that use to run many hours be reduced to a matter of minutes - Dr. Jim Goodnight, CEO SAS
SAS Teradata 최적화전략
Paradigm 이동 Distributed vs. In-Database Analytics DW v s. 원천분석데이터결과 DW 분석 ( 마이닝 ) 솔루션개발 분석 ( 마이닝 ) 솔루션개발 Distributed Analytics 복잡한운영환경 제한된성능 데이터중복및데이터이동필요 시간 / 비용 / 노력이많이소요 In-Database Analytics 간단한운영환경 대용량데이터의고속처리 데이터중복및데이터이동불필요 마이닝결과를모든사용자와애플리케이션에서바로사용 시간 / 비용 / 노력이덜소요 DW 에서데이터통합관리
전통적인분석환경에서의 Issues Hardware Costs 서버구입, 업그레이드비용, 네트워크트래픽증가, 서버관리, 감가상각, 서버용량 (disk) ETL Costs( 데이터이동 ) 데이터이동및통합, 데이터품질평가, 데이터변환, 데이터중복, 데이터불일치사람의조작오류가능성존재.. 비즈니스기회의상실 분석서버의용량제한으로시기적절한상품및고객분석이어려움 비즈니스환경변화에빨리대응하기어려움 마이닝 & 분석 Servers/Marts Call Center Mining Customers Executive Presentation Layer Marketing EDW Finance Campaign/OLAP Marketing RISK
In-Database Analytics 접근방법 전통적인방법 SAS In-Database 방법 SAS Modeling Data SAS Scoring Data SQL Request ODBC, FastExport Teradata Parallel Transporter JDBC SAS Access to Teradata SAS Scoring Accelerator for Teradata SAS Modeling SAS Scoring
Resource & Opportunity Costs - Analytical Process Chain Model Deployment Data Extraction Business Value Business Understanding Data Extraction Data Understanding Data Preparation Model Development Development ADS Production ADS 70% of the Development Process Time to Value Time to Build & Deploy Models: Weeks to Months
Gain Agility, Speed and Quality - Leverage SAS and Teradata Model Deployment Data Extraction Business Value EDW Analytical Sandbox Production Training ADS ADS Business Understanding Data Extraction Data Understanding Data Preparation Model Development Training ADS Production ADS 70% of the Development Process Time to Value Time to Build & Deploy Models: Hours/Days!
In-Database analytics 장점 X1. 각서버로의데이터추출 분산된데이터마트생성 Target Marketing Fraud Detection Enterprise ADS POS Efficiency Product Cross-sell 2. In-Teradata 에분석용데이터생성 불필요한데이터이동감소 Teradata parallelism Sampling error 제거 50% 시간감소효과 Customer Segmentation Customer Acquisition Customer Value Attrition Prevention 3. 공유가능하고재사용가능한분석데이터생성 1 회생성, 다수사용 공동작업환경제공 데이터준비작업감소
SAS - Teradata 운영환경 모형개발에필요한데이터만 1 회에한해이동되고모형적용은 Teradata DB 의성능을바로이용하여적용함으로써최고의개발및운영환경을제공 모형개발 모형운영 분석가 사용자 Data Exploration DB내의데이터를바로탐색 CUSTOMER CUSTOMER NUMBER CUSTOMER NAME CUSTOMER CITY CUSTOMER POST CUSTOMER ST CUSTOMER ADDR CUSTOMER PHONE CUSTOMER FAX ORDER ORDER NUMBER ORDER DATE STATUS ORDER ITEM SHIPPED QUANTITY SHIP DATE Teradata ADS Generator ORDER ITEM BACKORDERED QUANTITY ITEM QUANTITY DESCRIPTION 1. 모델해석 2. 데이터준비 3. 모델실행 Data Preparation DB내에서데이터변환과요약 ADS metadata Production ADS Development ADS Teradata Model Manager Data Preparation 스코어링을위한데이터셋생성 ODBC, FastExport Teradata Parallel Transporter JDBC SAS Access Tdat Model Development & Evaluation 모형개발 (TWM/SAS/SPSS etc.) SQL Model Scores SAS E-Miner PMML or SQL Model Model Scoring in-database PMML(Predictive Model Markup Language) models orsas Scoring Accelerator for Teradata
In-Database Analytics 핵심기술
SQL 을통해 SAS procedure 실행 Proc Freq로기초통계량을구하는경우 9 백만고객의신용점수 (By State) Table Credit_data State Credit_score AZ 678 CA 680 AL 670 WA 720 OK 681 HI 698 ND 740 NY 750 CA 721 OR 669 FL 760 NC 795 NJ 685
SQL 을통해 SAS procedure 실행 -> Procs Rank, Standard, Summary etc Traditional Technique SAS Session Proc Freq table state*credit; SQL Pushdown Request all rows Select state, credit from credit_data; Calculate frequency count SAS Access to Teradata SQL Select Teradata SQL Select Select count(*), state, credit from.. group by state, credit; Return only count Node Node Node Amps Amps Amps Node Amps Node Node Node Node Amps Amps Amps Amps Node Node Node Node Node Node Node Node Amps Amps Amps Amps Amps Amps Amps Amps Rows Returned Time to Process Traditional 9,000, 000 55 seconds SQL Pushdown 51 2 seconds
SAS Function 을 UDFs 로변환 : Format Functions Change data from one format to another Numeric to currency or date/time format Leveraged by most SAS solutions User custom format Ex: Customer states into geographic region: $REGION SAS Session Select count (*), put(state, $region. ) as regions ; SAS Access to Teradata Replace: put(state, $region. ) with sas_udf_put(state, $region. ) Traditional SQL Pushdown Rows Returned 9,000,000 8 Time to Process 151 seconds 11 seconds SQL Teradata Formatted Results Node Node Node Node Node Node Node Node Node Node Node Node Node Node Node Node Amps Amps Amps Amps Amps Amps Amps Amps Amps Amps Amps Amps Amps Amps Amps Amps SAS UDF: $REGION
Scoring Accelerator Topology SAS 9.1.3SP4 SAS 9.2C Client Application SAS Enterprise Miner 5.3 Export Extension %indtd_publish_model Proc TSPLTRAN C bteq score UDF score.sas score.xml Format Catalog ACCESS to Teradata SAS Formats Teradata EDW Data Miner Scoring Director / Admin DBA
In-Database 모델스코어링 Traditional Technique data out; set cust; <<score code>> SAS Session proc sql create table out as (select a,b,c, score(a,b,c).. SAS Access to Teradata Score via UDFs Request all rows Select * from cust Score data SQL Select SQL Select Teradata Create table Select parameters Invoke score UDF across all nodes Node Node Node Node Node Node Node Node Node Node Node Node Node Node Node Node Amps Amps Amps Amps Amps Amps Amps Amps Amps Amps Amps Amps Amps Amps Amps Amps SAS TSPL* Library & Score () UDFs * TSPL : Table store procedural language
The SAS Scoring Accelerator for Teradata E-Miner에서생성된스코어링모델을 Teradata환경에서바로실행될수있도록 Teradata Function으로변환. SAS 9.1.3SP4 SAS 9.2 5. Scoring UDF available for client execution Client Application SAS Enterprise Miner 5.3 Publishing Translation Export 3. Translate the model into C code Extension C score bteq UDF 1. Export Enterprise Miner Models as external files SAS Formats score.sas 4. Compile and Register as a UDF in TD Libraries score.xml SAS/ACCESS to Teradata Teradata EDW (V2R6.2, TD12) Format Catalog 2. Make models available to the Publishing Client Data Mining Client SAS Scoring Accelerator Teradata Deliverables Publishing Client Install Script
The SAS Scoring Accelerator for Teradata Score Code Export Extension Node
Teradata - SAS 통합아키텍처 Teradata 시스템과연계된 node에서실행되는 SAS 모든SAS 프로그램 / 솔루션 / 애플리케이션실행 AMP없는 Parsing Engine (Quad core Intel on Linux) 기대효과 정보보안 단일인터페이스를통한작업관리 Teradata and SAS에의해공인된아키텍처 SAS object는 Teradata 툴과 SQL programs을통해호출가능 하드웨어구성 2 internal OS drives 73 Gig each Up to 4 300 Gig drives for data Gigabit ethernet connection between the box and the Teradata Quad Ethernet adapter for connection to this box. GB Ethernet SAS AMPS AMP S Teradata System BYNET AMPS AMPS AMPS AMP S
Teradata - SAS 통합시스템 1 3 1 3 1 3 1 3 1 3 1 3 1 3 1 3 1 3 1 3 1 3 1 3 1 3 1 3 1 3 1 3 SAS 서버와 Teradata 번들링 Teradata 플렛폼내에통합된 Pre-loaded and certified SAS 솔루션 Independent SAS Servers Fraud Dept Teradata Warehouse Customer Analytics Dept Integrated Servers Teradata & SAS Servers 고객분석 AML Credit Risk 재무관리 사기방지 Risk Dept Financial Management Dept SAS software Pre-packaged For Teradata Teradata Database 전사 DW 병렬처리 Managed Ethernet Servers 관리비용감소 성능향상을위한전용 in-cabinet Ethernet 서버관리 단순한서버관리 하드웨어중복제거 신뢰성과가용성증가
벤치마크 : SAS Regression Model Bynet Win32 SAS GB Network PE SAS AMPS AMPS AMPS AMPS AMPS AMPS UDF UDF UDF UDF UDF UDF 800,000 700,000 750000 Obs / Second Scored 600,000 500,000 400,000 300,000 200,000 250000 375000 500000 625000 100,000 0 125,000 1 2 3 4 5 6 Number Teradata Nodes 77,040 16,400 External Process Non-TPA Process In place via UDF
Teradata & SAS - Enterprise Architecture Roadmap Data Preparation Layer Data Management Layer Exploitation Layer Mainframe SAS Data Integration SAS BI Structured High Volume Batch OLAP SAS Analytics SAS Solutions ERP UNIX Semi- Structured Appliances Windows Real Time Web Services Data Quality Transformations TERADATA EDW Analytical Structures Analytical Structures Un- Structured Message Queues Other Sources SAS and TERADATA Shared Metadata Environment
사례및기대효과
Warner Home Video DVD 수요예측 데이터준비 / 데이터마이닝작업 DVD 타이틀 / 이력데이터식별장르 box office, 극장수등급, 수상여부 DVD 속성데이터별 POS merge 모형생성을위한파생변수생성 마이닝모델링생성 ( 회귀분석 / 군집분석등 ) 정확성 & 신속성 데이터마이닝과데이터관리작업을위한최적의아키텍처는무엇인가?
Warner Home Video 평가 DVD 타이틀 / 이력데이터식별복잡한 join 작업 -- Teradata DVD 속성데이터별 POS merge 수백만건의 POS 데이터 -- Teradata 모형생성을위한파생변수생성대량데이터처리 -- Teradata 마이닝모델링생성및평가정교한모델링 SAS SAS Server Teradata SQL 추출데이터생성 Scoring 1 15 36 약 29 배 0 10 20 30 40 Hours 67 분 8 분 Teradata SAS
In-Database Analytics 의기대효과 비즈니스기회확보 ( 투자효과의극대화 ) 각각의고유한장점을최대한활용 (Teradata 의성능과 SAS 의우수한분석 / 솔루션통합 ) 다수의사용자들에게보다빠른의사결정정보제공 편리하고강력한분석환경분석에필요한최소한 / 최적의데이터생성 Teradata 에서상세데이터즉시분석 비용절감분석서버의개수와용량감소불필요한데이터이동제고 In-database scoring 으로성능향상 Teradata 의성능을최대한활용함으로써 Scoring 시간단축과자동화구현 Call Center Customers 다양한 3 rd party 분석 tools 상세데이터 Executive Presentation Layer Finance Ad Hoc Query 데이터마이닝통계분석데이터탐색데이터시각화 Teradata Warehouse (TWM) 최적화된분석데이터 Marketing Mining & Analytics