SAS High-Performance Analytics : Big Data Analytics 를위한기술혁신 SAS Korea 김근태
빅데이터가과거에는불가능했던새로운기회를제공합니다. 수일또는수주일이소요되었던분석인사이트를수분또는수초내에 확보할수있습니다.
What if you could. Big Data 를경쟁사보다며칠더빠르게가망 고객의구매행위와의사결정기준을예측할수 있다면 누구도시도하지못했던초세분화된마켓을 타겟으로하는상품및서비스를출시함으로써 시장선점우위를가져갈수있다면 마케팅캠페인효과를즉시평가하여, 실시간에 가깝게전략수정을할수있다면
Big Data 시대의분석과제 분석속성 Big Data 분석요건데이터크기 Giga Bytes 수백 Tera ~ Peta Bytes 데이터종류구조화된데이터 비정형 Text Data로확장데이터성격 Legacy Data SNS, Log, CDR, FDC, Packet, Meter... 분석시간수시간이상 (Batch) 수초, 수분이내 (Near Real-time) 수행할분석의양수십개의모델 수천 ~ 수만개이상의세분화된모델사용자환경전문가환경 Data Visualization, 분석모델링자동화
ANALYST REPORTS - FORRESTER WAVE (Q1 2013) BIG DATA PREDICTIVE ANALYTICS GLOBAL TOP 벤더 The Forrester Wave : Big Data Predictive Analytics Solutions, Q1 2013, Forrester Research, Inc., January 3, 2013. The Forrester Wave is copyrighted by Forrester Research, Inc. Forrester and Forrester Wave are trademarks of Forrester Research, Inc. The Forrester Wave is a graphical representation of Forrester's call on a market and is plotted using a detailed spreadsheet with exposed scores, weightings, and comments. Forrester does not endorse any vendor, product, or service depicted in the Forrester Wave. Information is based on best available resources. Opinions reflect judgment at the time and are subject to change.
Big Data Analytics FORECASTING TEXT ANALYTICS 과거데이터를활용하여보다예측력이높은비즈니스인사이트확보및미래에대한의사결정에활용 소셜미디어, 설문조사등의비정형데이터에서고객의감성등, 밝혀지지않은인사이트획득 BIG DATA DATA MINING 데이터에숨겨져있는유용한상관관계를발견하여, 미래에실행가능한정보를추출해내고의사결정에활용 INFORMATION MANAGEMENT STATISTICS OPTIMIZATION 가장많은수익을낼수있는최적의영역을정확하게정의하기위해빅데이터를분석하는것
DEPARTMENTAL CORPORATE Big Data 분석을위한기술혁신 BIG DATA 발생할일에대한최선의대안은? 다음에발생할일은무엇인가? 이추세가어떻게이어질것인가? 이결과가나타난이유는? 시장의목소리는어떠한가? 정형, 계획적 정형리포팅 비정형리포팅 OLAP / 드릴다운 결과반응적 (REACTIVE) DBMS DW Appliance, Hadoop 예측 텍스트분석 결과 선제대응적 (PROACTIVE) 통계분석 시계열예측 데이터마이닝 최적화 Advanced Analytics 서버 새로운구조필요 비정형, 실험적 문제의원인이어디에있는가? 얼마나많이, 자주, 어디에서발생? 무슨일이발생했는가? REACTIVE PROACTIVE
Big Data 분석 1 세대 Big Data 저장 Platform 과고급분석기능연계 MPP Architecture (Multi-Node) DBMS Appliance / Hadoop SMP Analytic Architecture (Single-Node) Analytics Functions FORECASTING TEXT ANALY TICS I N F O R M A T I O N M A N A G E M E N T Teradata 700 appliance EMC Greenplum DCA Oracle Exadata IBM ISAS Access Interface / ETL DATA MINING STATISTICS OPTIMIZATION MPP (Massively Parallel ing) SMP (Symmetric Multi-ing)
Big Data 분석 2 세대 Analytic Platform 혁신 Business Analytics Functions FORECASTING TEXT ANALYTICS I N F O R M A T I O N M A N A G E M E N T DATA MINING STATISTICS OPTIMIZATION MPP Hardware (Multi-Node) Teradata 700 appliance EMC² Greenplum DCA Oracle Exadata
Analytic Platform 혁신 - SAS High-Performance Analytics Business Analytics Functions FORECASTING TEXT ANALYTICS SAS High-Performance Analytics I N F O R M A T I O N M A N A G E M E N T DATA MINING OPTIMIZATION STATISTICS
SAS Big Data Analytics Platform 내부데이터 Data Predictive Analytics Enterprise Model Manager End User Analytics Integration ODS E-DW M2M 데이터 외부데이터 Social Data Service Data Quality Crawler DataFlux@ Event Streaming ESP Engine Big Data Farm FDC ATM CDR Web Log Visual Visualization Analytics A-DW Packed-Model Analytic Sandbox E-Miner Text Analytics Customer Link Analysis Grid In-Database In-Memory + Text Analytics + Customer Link Analytics EG+RPM Rule & Model Cloud Computing System Monitoring Data Management
In-Memory Analytics 로 10 억건데이터에대해로지스틱회귀분석실행 결과 : proc logistic ( 기존 20 시간 ) proc hplogistic (50 초 ) 32 개 node 의 DW Appliance (32 * 24 = 768 units of parallelism)
Big Data 분석을위한실체적인 End-to-End 기능제공 SAS High-Performance Analytics - Procedures 데이터가공 HPDS2 HPDMDB HPSAMPLE 시계열분석 HPNLIN, HPCOUNTREG, HPSEVERITY Mid-term: HPSIMILARITY Long Term: HPSIMULATE, HPCOPULA, HPQLIM, HPPANEL, HPMDC 데이터탐색 HPSUMMARY HPDMDB HPSAMPLE HPREDUCE HPIMPUTE* HPBIN* 변수변환 HPREDUCE HPIMPUTE HPBIN HPDS2 텍스트분석 Integrate text into DM processes: Pattern Discovery, Predictive Modeling HPDM nodes for Text: Parse Node, Transform node HPDM procedures for Text: HPTXTPARSE, HPSVD 예측모델링 HPREG HPLOGISTIC HPNLIN HPNEURAL HPLMIXED HPFOREST HPSVM HPDECIDE 최적화 HPMO (Marketing Optimization Solver) HPOPTGRAPH (Graph-algorithms & Network analysis) 모델선정, 테스트, 적용 HPDS2 HP4SCORE SAS Scoring Accelerator SAS Model Manager HP Data Mining
High-Performance Analytics 기술이필요한이유 #1 기존환경 Softwa re 데이터획득, 전처리 데이터 분석 Softwa re 변수 선정 Platfor m 모델링 스코어링 분석프로세스 (ex. 4 주 ) Appliance, Hadoop, CEP 데이터획득, 전처리 데이터 분석 Softwa re 변수 선정 Platfor m 모델링 스코어링 분석프로세스 (ex. 2 주 ) SAS HPA 데이터획득, 전처리 데이터분석 변수선정 모델링 스코어링 분석프로세스 (ex. 0~3 일 ) HPA Value : Analytic Appliance로 Big Data 분석싸이클을획기적으로단축 복잡해지고세분화되는비즈니스문제에빠르게대응 분석가가보다가치있는비즈니스인사이트발굴에집중
High-Performance Analytics 기술이필요한이유 #2 기존품질관리, 캠페인, Risk, Fraud, 최적화모델의한계 HPA 는어떻게해결하는가? HPA Value 샘플링기반.. Big Data (col/row) 활용예측분석의정확도 세분화되지않은.. 더많은모델생성 세부단위모델 분석의깊이와적용범위 유통기한없는.. Biz. 환경변화에빠르게대응 (model life cycle 단축 ) 분석의적시성
SAS High-Performance Analytics : In-Memory Analytics
HPA 1.0 HPA 2.0 High-Performance Analytic Server 의진화
proc hplogistic data=mpplib.mytable; class A B C D ; model y = a b c b*d x1-x100; output out=mpplib.logout pred=p; run; Hadoop Cluster 기반 SAS Analytic Appliance SAS STAT Client SAS Enterprise Miner Server 1 Server 2 Server N Multiple Threads MPI Multiple Threads MPI Multiple Threads SAS High Performance Deployment SAS In-Memory Analytics HDFS Storage HDFS Storage HDFS Storage SAS High- Performance Analytics Plattform
proc hplogistic data=mpplib.mytable; class A B C D ; model y = a b c b*d x1-x100; output out=mpplib.logout pred=p; run; DB Appliance 기반 SAS Analytic Appliance SAS STAT Client SAS Enterprise Miner Server 1 Multiple Threads MPI Server 2 Multiple Threads MPI Server N Multiple Threads SAS High Performance Deployment SAS In-Memory Analytics Database Server Embedded Database Storage Database Server Embedded Database Storage Database Server Embedded Database Storage EMC Greenplumor Teradata SAS Embedded SAS High Performance Analytics Plattform Analytic Appliance
HPA 1.0 HPA 2.0 HPA 1.0 Fit to Appliance HPA 2.0 (SAS 9.4) Now Fit to Data Center As Well 데이터중복, 동기화문제해결보다유연한아키텍처보다많은 H/W Platform 지원
SAS Analytic Appliance Symmetric / Asymmetric 구조비교 HPA 1.0 (Symmetric Mode) HPA 2.0 (Asymmetric Mode) Root SAS HP CONTROL Data Feeder SAS es Workers MPI SAS HP MPI SAS HP MPI MATH MATH Data Feeder SAS HP MATH Data Feeder.. Root SAS HP CONTROL MPI SAS es SAS HP MATH Workers MPI SAS HP MATH 병렬전송. SAS EP SAS EP SAS EP SQL /MR SQL/MR SQL/MR SQL/MR.. SQL /MR SQL/MR SQL/MR SQL/MR Data Storage es Data Storage es
SAS Analytic Appliance Symmetric / Asymmetric 구조 HPA 1.0 (Symmetric Mode) HPA 2.0 (Asymmetric Mode) Root SAS HP CONTROL SAS es Workers MPI SAS HP MPI SAS HP MPI MATH MATH Data Feeder Data Feeder SAS HP MATH Data Feeder.. Root SAS HP CONTROL MPI SAS es SAS HP MATH Workers MPI SAS HP MATH 병렬전송. SAS EP SAS EP SAS EP SQL /MR Blade Server SQL/MR Teradata 700 appliance SQL/MR Data Storage es EMC Greenplum DCA SQL/MR.. SQL /MR Oracle Exadata SQL/MR SQL/MR Teradata 700 appliance Data Storage es SQL/MR EMC Greenplum DCA Hadoop HDFS, Greenplum, Teradata + Oracle Exadata, Common Hadoop
High-Performance Analytic Server - 적용사례
SAS HPA : 산업별 Big Data Analytics 적용사례 산업 금융 공공 통신 유통 제조 기업 활용사례 리스크관리 탈세적발 캠페인최적화 재고관리 Warranty Analysis 가치 365 배빠른리스크값산출 신속한시장변화대응 정교한탈세적발 부정환급적발 15% 향상된캠페인응답률 매장, 상품속성별최적화 30 시간 2 시간 워런티, 콜센터텍스트데이터분석 문제점사전해결을통한품질확보및고객만족
CUSTOMER CASE STUDY Large Financial Services Business Problem Analysis Before HPA Server After HPA Server 대출연체가능성예측 10 억건데이터에대한회귀분석 11 ~ 20 시간 54 초소요 리스크익스포저산출 회귀분석 167 시간시간 (1 주 ) 84 초소요 신규오퍼링을위한고객타겟팅 뉴럴네트웍 5 시간 한 Model 수행 하루에 1 모델처리 단일알고리즘 뉴럴네트웍트레이닝 7 회 모델리프트 :1.6% 3 minutes 한 Model 수행 1 모델에 30 분소요 다양한알고리즘 : Random Forest, SVM, Logistic Regression, NN 뉴럴네트웍트레이닝 5000 회 모델리프트 : 2.5%
United Healthcare Group BUSINESS ISSUE 전자의료기록 (Electronic medical records :EMRs) 이데이터폭증을가져옴. 모든비정형텍스트데이터활용 ( 레코드, 임상노트, 이메일, 처방내용등 ) 어떻게의료서비스의질을높이고비용을줄일것인가? 처방전을쓰기전에그내용이환자에게줄부작용파악 고객을잃기전에그고객의불만을이해 비용청구금액지불전에허위청구여부적발 SOLUTION SAS High-Performance Analytics Server with Greenplum (HP Text Mining 포함 ) RESULTS 모델프로세싱시간이 4 시간에서 10 초로단축 오분류비율이 30% 에서 10% 로줄었으며, 분석정확도향상 (more than 10% lift) 발전방향 : HPA 로최적화된분석싸이클로전사에다양한분석서비스제공 (DAAS : Data Analytics as a Service)
High-Performance Analytic Server - Wrap Up
Big Analytics 를설명하는새로운관점들.. 결과반응적선제대응적 분석능력 대용량데이터 DATA SIZE BIG DATA
IN-MEMORY DB Big Analytics 를설명하는새로운관점들.. BIG ANALYTICS BIG DATA ANALYTICS BI BIG DATA BI 대용량데이터 DATA SIZE BIG DATA
IN-MEMORY ANALYTIC SERVER IN-MEMORY DB Big Analytics 를설명하는새로운관점들.. BIG ANALYTICS BIG DATA ANALYTICS BI BIG DATA BI 대용량데이터 DATA SIZE BIG DATA
Big Analytics 를설명하는새로운관점들.. BIG ANALYTICS BIG DATA ANALYTICS 결과반응적선제대응적 분석능력 BI BIG DATA BI Visual Analytics 대용량데이터 DATA SIZE BIG DATA
Big Analytics 를설명하는새로운관점들.. 결과반응적선제대응적 분석능력 BIG ANALYTICS BI BIG DATA ANALYTICS High-Performance Analytics BIG DATA BI 대용량데이터 DATA SIZE BIG DATA
Big Data Analytics 를위한기술혁신, SAS High-Performance Analytics 기존에처리할수없었던 Big Data 를유용한비즈니스가치로전환합니다. 세계최고의분석을통해정확한통찰력을제공합니다. 훨씬빨라진대응을통해비즈니스운영방식을혁신시켜줍니다. 미래지향적이고확장가능한분석인프라로진화시킵니다.
See Your Big Results with SAS Visual Analytics