<4D F736F F F696E74202D20C0E5BCBABFEC5F4442BBF3BFA1BCADC0C720C1A4BAB8BAD0BCAE2DC3D6C1BEBABB2E707074>

Similar documents
Microsoft PowerPoint - T4S3_허준영.ppt

Microsoft PowerPoint - S4_통계분석시스템.ppt

Intra_DW_Ch4.PDF

김기남_ATDC2016_160620_[키노트].key

Oracle Apps Day_SEM

Portal_9iAS.ppt [읽기 전용]

ETL_project_best_practice1.ppt

Slide 1

DW 개요.PDF

歯목차45호.PDF

오라클의 RTE전략-최종욱.ppt

oracle9i_newfeatures.PDF

SAS Customer Intelligence SAS Customer Intelligence Suite은 기업이 당면한 다양한 마케팅 과제들을 해결하기 위한 최적의 통합 마케팅 제품군으로 전사적 마케팅 자원관리를 위한 Marketing Operation Manageme

PowerPoint 프레젠테이션

(Exposure) Exposure (Exposure Assesment) EMF Unknown to mechanism Health Effect (Effect) Unknown to mechanism Behavior pattern (Micro- Environment) Re

untitled

DBMS & SQL Server Installation Database Laboratory

ecorp-프로젝트제안서작성실무(양식3)

MS-SQL SERVER 대비 기능

J2EE & Web Services iSeminar

WINDOW FUNCTION 의이해와활용방법 엑셈컨설팅본부 / DB 컨설팅팀정동기 개요 Window Function 이란행과행간의관계를쉽게정의할수있도록만든함수이다. 윈도우함수를활용하면복잡한 SQL 들을하나의 SQL 문장으로변경할수있으며반복적으로 ACCESS 하는비효율역

E-BI Day Presentation

PowerPoint Presentation

G Power

dbms_snu.PDF

<31372DB9DABAB4C8A32E687770>

PowerPoint 프레젠테이션

歯CRM개괄_허순영.PDF

Microsoft Word - [2017SMA][T8]OOPT_Stage_2040 ver2.docx

빅데이터시대 Self-BI 전략 이혁재이사 비아이씨엔에스

methods.hwp

13 Who am I? R&D, Product Development Manager / Smart Worker Visualization SW SW KAIST Software Engineering Computer Engineering 3


untitled

RUCK2015_Gruter_public

PowerPoint 프레젠테이션

<30362E20C6EDC1FD2DB0EDBFB5B4EBB4D420BCF6C1A42E687770>

Microsoft PowerPoint - Session2.ppt

Oracle Database 10g: Self-Managing Database DB TSC

SAP ERP SAP Korea / Public &

PowerPoint Presentation

FD¾ØÅÍÇÁ¶óÀÌÁî(Àå¹Ù²Þ)-ÀÛ¾÷Áß

서론 34 2

?

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

Chap7.PDF

슬라이드 1

슬라이드 1

Title of the presentation This is the subtitle

歯sql_tuning2

Integ

비식별화 기술 활용 안내서-최종수정.indd

예제 1.1 ( 관계연산자 ) >> A=1:9, B=9-A A = B = >> tf = A>4 % 4 보다큰 A 의원소들을찾을경우 tf = >> tf = (A==B) % A

PowerPoint Presentation

Oracle9i Real Application Clusters

세션 3 (오이식).ppt

PRO1_09E [읽기 전용]

Model Investor MANDO Portal Site People Customer BIS Supplier C R M PLM ERP MES HRIS S C M KMS Web -Based

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

SQL Developer Connect to TimesTen 유니원아이앤씨 DB 기술지원팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 작성자

Copyright 2012, Oracle and/or its affiliates. All rights reserved.,.,,,,,,,,,,,,.,...,. U.S. GOVERNMENT END USERS. Oracle programs, including any oper

Slide 1

vm-웨어-앞부속

ORANGE FOR ORACLE V4.0 INSTALLATION GUIDE (Online Upgrade) ORANGE CONFIGURATION ADMIN O

PCServerMgmt7

Beyond Relational SQL Server, Windows Server 에디션비교 씨앤토트 SW 기술팀장세원

Simplify your Job Automatic Storage Management DB TSC

고객 지향적인 IT 투자와 운영이 요구되는 시대! 2014년 현재 유통, 서비스 업계의 정보화 화두는 BYOD 수용과 고객의 마음을 읽는 분석 입니다. Market Overview _ Cross Industry 의 정보화 동향 유통과 서비스 업계의 IT 환경은 발 빠르

CRM Fair 2004

IBM SPSS Statistics 제품 소개 (2017 Aug)

BSC Discussion 1

thesis

歯부장

untitled

확률과통계 강의자료-1.hwp

PowerPoint 프레젠테이션

슬라이드 1

10.ppt

Basic Template

회사소개 대 표 : James H. Goodnight 설립년도 : 1976 년 소 지 SAS Institute Inc. 재 : 미국노스캐롤라이나캐리시 사 : 전세계 51 개국의지사및 대리점보유 종업원수 : 약 4,500 명 사용자수 : 119 개국 30,000 사이트의

Analyst Briefing

목차 BUG 문법에맞지않는질의문수행시, 에러메시지에질의문의일부만보여주는문제를수정합니다... 3 BUG ROUND, TRUNC 함수에서 DATE 포맷 IW 를추가지원합니다... 5 BUG ROLLUP/CUBE 절을포함하는질의는 SUBQUE

13주-14주proc.PDF

The characteristic analysis of winners and losers in curling: Focused on shot type, shot accuracy, blank end and average score SungGeon Park 1 & Soowo

Copyright 0, Oracle and/or its affiliates. All rights reserved.,.,,,,,,,,,,,,.,...,. U.S. GOVERNMENT RIGHTS Programs, software, databases, and related

Chapter 5 비즈니스인텔리젼스의기초 : 데이터베이스와정보관리

Orcad Capture 9.x

Slide 1

U.Tu System Application DW Service AGENDA 1. 개요 4. 솔루션 모음 1.1. 제안의 배경 및 목적 4.1. 고객정의 DW구축에 필요한 메타정보 생성 1.2. 제품 개요 4.2. 사전 변경 관리 1.3. 제품 특장점 4.3. 부품화형

03여준현과장_삼성SDS.PDF

Microsoft PowerPoint - 10Àå.ppt

1 전통 소프트웨어 가. ERP 시장 ERP 업계, 클라우드 기반 서비스로 새로운 활력 모색 - SAP-LGCNS : SAP HANA 클라우드(SAP HEC)를 통해 국내 사례 확보 및 아태 지역 진 출 추진 - 영림원 : 아시아 클라우드 ERP 시장 공략 추진 - 더

<352EC7E3C5C2BFB55FB1B3C5EBB5A5C0CCC5CD5FC0DABFACB0FAC7D0B4EBC7D02E687770>

PowerPoint Presentation

PowerPoint Presentation

abstract.dvi

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

열거형 교차형 전개형 상승형 외주형 회전형 도해패턴 계층형 구분형 확산형 합류형 대비형 상관형 (C) 2010, BENESO All Rights Reserved 2

nonpara1.PDF

Transcription:

In-Database Analytics : DB 상에서의효율적인 정보분석방안 장성우 Oracle 10g DB Data Warehousing ETL BI/DW 팀장한국오라클 OLAP Data Mining Statistics

목차 Flashback : RTE 개요및대응방안 정보분석개요 효율적인정보분석방안고찰 오라클의정보분석전략 : In-Database Analytics DB 상에서의정보분석방안 In-Database Statistics OLAP Option Data Mining Option 요약및 Q&A

Flashback : RTE 개요및대응방안

RTE(Real-Time Enterprise) 란? an enterprise that competes by using up-todate information to progressively remove delays to the management and execution of its critical business processes - Gartner, Definition of Real Time Enterprise Real-Time Enterprise 기업환경의변화속도에대응하기위한새로운전략의필요성에의해출현 중요업무의관리와프로세스의실행간의지연최소화가가장중요한요소 ( Remove delays ) 이를위한가장최신 ( Up-to-date ) 정보를제공하고활용하는기업

RTE 대응방안 RTE 에대한데이터관점의대응 개별구성요소성능최적화와함께구성요소간의연결최적화 개별시스템의성능여부는기본적검토사항 시스템간의실시간연결을통한 정보전달지연의최소화 가대응의핵심. 정보전달체계의체계사전수립및이에대한적합한정보전달방안을설계및구축 실시간연결 반드시실시간화해야함을의미하지는않음 비즈니스요건에맞는정보전달방법을선택함에있어서시스템의제약요소로인해비즈니스요구조건을만족시키지못하는사태를미연에방지할수있는대응방안이중요 시스템장애및업그레이드등에효과적대응하는고가용성의자원확보 시스템의장애발생으로인한불필요한업무지연예방

DW Renovation 소스시스템 양방향정보처리로분석의효과극대화및업무개선달성 통합정보시스템 중요정보의실시간모니터링및 KPI 요소들의상시관리체제구축 Fin MFG 인사 MES 실시간 ETL ODS 실시간가공 RTDW (OLAP + OLTP) 검색실 BI Portal 외부정보 행 필요시분석요약정보를운영계로반영 ( 실시간 ETL 과동일한방안으로 ) 핵심가치 : 정보전달체인의시스템적연결을통한업무처리주기단축및회전율의증대 분석정보를활용하여곧바로후속업무지시및실행

효율적인정보관리의요구조건 단순화 정보의통합 최상의방안은단일데이타베이스로모든정보를통합하고공유하는것 : Data in One Place 표준화 전사정보의의미및표현형태의표준을수립하고이를기반으로중복성제거 자동화 정보관리프로세스를최대한자동화 단순화 자동화 Information Driven Enterprise 표준화 목표 : 정보관리의 Gap 을최소화하여실시간대응성을극대화

정보분석개요

정보분석개요 Query and Reporting OLAP Data Mining 상세정보의추출 요약및경향분석 숨겨진패턴의발견을통한지식획득 정보 분석 통찰 & 예측 지난 3 년간펀드를구입한사람들은누구인가? 펀드구매자들의지역별, 연도별평균이득은얼마인가? 다음 6 개월동안펀드를구매할것으로예측되는사람들은누구이며그이유는? Business Intelligence

정보분석관련주요트렌드 정보의크기는점점커지는추세 3년전전세계에서가장큰 DW : 30TB 작년세계에서가장큰 DW : 100TB 2,3년내로PB급 DW가나올것으로예상됨 정보의저장은이제큰문제가아님. 진짜문제는정보분석방법임 차원이 4000 개이고크기가 2TB 인정보를어떻게분석할것인가?

현재의정보분석프로세스 분석업무의분리 서로다른곳에서분석수행 : 다른시스템, 다른담당자 개별적인분석애플리케이션사용 업무별전문패키지사용 : 전문성은좋으나통합성은? 주요고찰이슈 : 구축및유지비용, 실시간대응성 Data Integration Engine Data Warehouse OLAP Engine Mining Engine

현재프로세스의문제점 데이터의빈번한이동 데이터의크기가적을때는별문제가없음. 하지만, 분석해야할데이터의크기가커진다면?( 예 :TB 급의고객정보분석 ) 데이터의크기가커질수록중요한이슈로대두됨 데이터중복저장비용 데이터이동에따르는시간손실 전문패키지의정보확장성및성능이슈 업무프로세스의분리 전체분석프로세스의지연 실시간분석및대응이불가능

바람직한정보분석프로세스 한곳에서정보관리및분석수행 데이터이동을최소화하여서버간이동에따르는불필요한시간지연제거 중복저장불필요 안전하고효율적인정보관리 Security, Scalability, Availability 정보분석업무의유기적연결및차별화 일반정보분석업무의상시 & 실시간화 단일 SQL 로정보분석업무처리 필요시전문패키지를통한고급분석수행

오라클의정보전략 : In-Database Analytics Oracle 10g DB Data Warehousing OLAP ETL Statistics Data Mining 단일 DB 내에서통합된정보분석업무지원 Data Warehouse Built-in Statistics OLAP Option Data Mining Option

Oracle Business Intelligence Know More, Do More, Spend Less! Query & Reporting Oracle BI Solution BI Beans Oracle Reports Oracle 10g DB Data Warehousing OLAP ETL Statistics PRODUCT TIME REGION Drill for Detail OLAP Option Spreadsheet Add-In Data Mining Access & Assemble Data Oracle Warehouse Builder Mine for New Insights Oracle Data Mining Option Spreadsheet Add-In Statistics Text Mining

In-Database Analytics 의장점 Oracle 10g DB 기술적인측면 데이터는항상적절한제어하에 DB 상에존재함 복합질의를통해직관적인분석처리가능 확장의용이성및우수한처리성능 Data Warehousing ETL OLAP Statistics Data Mining Fast scoring : 단일 CPU 시스템에서 250 만개의레코드를단 6 초만에점수부여작업을마침 비즈니스적인측면 실시간의정보분석처리가능 TCO 의절감가능

In-Database Analytics : 사례 예제 : DVD 마케팅캠페인시행결과의통계적검정 사전정의된분류방법에의해반응모델이만들어져있을때, 이를이용하여어떤고객이마케팅캠페인에응할것인가를예측 각각의고객들이캠페인시행이전 3개월과이후 3개월동안얼마만큼 DVD를구매했는가를분석 예측된고객들의캠페인성공률과반응하지않은고객들의구매율을서로다른지역과회사별로비교하고, 이정보들의통계적으로유의한지의여부를검정

In-Database Analytics : 사례기존의처리방법 1 단계 : 데이터마이닝프로그램 DB 로부터고객데이터를전달받음 프로그램상에서예측작업수행 예측된사용자정보를 DB 에재전송 2 단계 : DB 검색 예측된고객정보를로딩 해당고객들의캠페인전후구매상황을검색 캠페인성공여부정보를검색하여정리 3 단계 : 통계패키지 캠페인성공률정보를 DB 로부터받음 통계적검증작업을수행

In-Database Analytics : 사례오라클상에서의처리방법 하나의 SQL 로수행가능 select responder, cust_region, count(*) as cnt, sum(post_purch pre_purch) as tot_increase, avg(post_purch pre_purch) as avg_increase, stats_t_test_paired(pre_purch, post_purch) as significance from ( select cust_name, prediction(campaign_model using *) as responder, sum(case when purchase_date < 15-Apr-2005 then purchase_amt else 0 end) as pre_purch, sum(case when purchase_date >= 15-Apr-2005 then purchase_amt else 0 end) as post_purch from customers, sales, products@proddb where sales.cust_id = customers.cust_id and purchase_date between 15-Jan-2005 and 14-Jul-2005 and sales.prod_id = products.prod_id and contains(prod_description, DVD ) > 0 group by cust_id, prediction(campaign_model using *) ) group by rollup responder, cust_region order by 4 desc; 통계 : 유의성검증 마이닝 : 캠페인예측 기본 DB 정보검색

In-Database Analytics : 사례 사례를통해본오라클방법의장점 데이터이동이전혀없음 (SQL 안에서 pipelining) 분석프로세스가단순해짐 실시간분석이가능 고려사항 DB와 DM, 통계를모두아는전문가필요 일반및고급분석프로세스의분리 일반분석 : 상시화및실시간화 고급분석 : 전문화

DB 상에서의정보분석방안

10g 가제공하는통계처리기능들 Ranking functions rank, dense_rank, cume_dist, percent_rank, ntile Window Aggregate functions (moving and cumulative) Avg, sum, min, max, count, variance, stddev, first_value, last_value LAG/LEAD functions Direct inter-row reference using offsets Reporting Aggregate functions Sum, avg, min, max, variance, stddev, count, ratio_to_report Statistical Aggregates Correlation, linear regression family, covariance Linear regression Fitting of an ordinary-least-squares regression line to a set of number pairs. Frequently combined with the COVAR_POP, COVAR_SAMP, and CORR functions. Note: Statistics and SQL Analytics are included in Oracle Database Standard Edition Descriptive Statistics average, standard deviation, variance, min, max, median (via percentile_count), mode, group-by & roll-up DBMS_STAT_FUNCS: summarizes numerical columns of a table and returns count, min, max, range, mean, stats_mode, variance, standard deviation, median, quantile values, +/- n sigma values, top/bottom 5 values Correlations Pearson s correlation coefficients, Spearman's and Kendall's (both nonparametric). Cross Tabs Enhanced with % statistics: chi squared, phi coefficient, Cramer's V, contingency coefficient, Cohen's kappa Hypothesis Testing Student t-test, F-test, Binomial test, Wilcoxon Signed Ranks test, Chi-square, Mann Whitney test, Kolmogorov- Smirnov test, One-way ANOVA Distribution Fitting Kolmogorov-Smirnov Test, Anderson-Darling Test, Chi- Squared Test, Normal, Uniform, Weibull, Exponential Pareto Analysis (documented) 80:20 rule, cumulative results table

In-Database Statistics 통계패키지로의데이터이동없이단순통계분석처리가능 ( 예 : 가설검정 ) Note: Statistics and SQL Analytics are included in Oracle Database Standard Edition

OLAP 개요 OLAP 의중요성 SQL로처리가힘든 Ad-Hoc 질의의효율적인처리 다차원정보모델의효율적인처리 빠른처리성능 별도 OLAP 서버구성의단점 구축과유지에따르는고비용 가용성과확장성문제 임의적 API에따른애플리케이션호환성문제

10g OLAP Option DW 상에서 OLAP 동시구현 하나의 DB 상에서대규모의관계형데이터와다차원데이터집합동시지원 별도의데이터구축작업없이매핑작업만으로다차원큐브의신속한구축가능 압축, 파티션, 병렬처리를통한신속한 Ad-Hoc 질의처리 다차원데이터타입에대한일반적인 SQL 인터페이스지원 OLAP API 를통한최적화및확장지원 주요장점 빠른데이터처리성능 큐브구축및질의실행모두빨라짐 손쉬운사용 SQL 및 OLAP API 를통한손쉬운개발및검색가능

Oracle OLAP Platform Oracle HTML DB OracleBI Reports OracleBI Discoverer OLAP OracleBI Spreadsheet Add-In Oracle BI Beans Oracle Demand Planning Oracle Enterprise Planning & Budgeting Database OLAP Option: Query Analysis Planning Oracle Warehouse Builder Analytic Workspace Manager

Case Study: Simple Queries 120 100 80 Time to build Time to execute simple queries 98 60 40 20 17 14 10 16 17 14 23 0 Analytic Workspace 14 MVs 214 MVs 518 MVs

Case Study: OLAP Queries 450 400 350 300 250 411 Time to build Time to execute OLAP queries 200 150 100 126 98 147 50 0 17 23 10 17 Analytic Workspace 14 MVs 214 MVs 518 MVs

Data Mining 개요 대량의데이터안에서숨겨진패턴들과새로운통찰적지식을찾아가는프로세스 Data Mining 이제공할수있는가치 목표속성과밀접히연관된요인들의파악 (Attribute Importance) 고객행위의예측 (Classification) 목표고객혹은물품의프로화일구축 (Decision Trees) 샘플정보의세그먼트화 (Clustering) 대상체내에존재하는중요한관련성의탐색 (Associations) 사기등과같은드문사건의파악 (Anomaly Detection)

Data Mining 응용사례 금융 경쟁감손 (churn) 사기적발 대출부도 (Basel II) 판매기회파악 통신 이탈고객예측및일생가치를가지는목표고객탐색 교차판매기회파악 DB 마케팅 목표고객대상제품캠페인 교차및상향판매기회파악 보험, 공공 회계이상체크 (Sarbanes-Oxley) 의심되는업무의감사를통한비용절감 유통 충성고객프로그램 교차판매 시장바스켓분석 사기적발 생명과학 환자들과연관된의심요인들분석 목표유전자및단백질발견 신약개발의주도물질파악

Oracle Data Mining Oracle mining platform PL/SQL API Java API Oracle Data Miner (GUI) Spreadsheet Add-In 지원하는알고리즘 Attribute importance Classification, regression & prediction Anomaly detection Association rules Clustering Nonnegative matrix factorization BLAST

Oracle Data Mining 알고리즘과응용예제 Attribute Importance 목표속성에가장큰영향을미치는속성들을파악함 고비용과가장밀접히연관된요인의파악 Classification & Prediction 다음의경향이가장큰고객을예측 캠페인혹은제안에반응 가장많은이익을제공 최고의고객을파악하고프로파일개발 Regression 수치적예측을수행 평균구매금액및비용예측 A1 A2 A3 A4 A5 A6 A7 Married >$50K Gender Income <=$50K Age M F >35 <=35 Status Gender HH Size Single F M >4 Buy = 0 Buy = 1 Buy = 0 Buy = 1 Buy = 0 <=4 Buy = 1

Oracle Data Mining 알고리즘과응용예제 Clustering 자연스럽게발생하는그룹을발견 시장세그먼테이션 질병유발그룹파악 정상및비정상행위의구분 Association Rules 시장바스켓에서동시발생물품파악 물품결합을제안 보다효율적인제품전시지원 Feature Extraction 대표적인속성몇가지로축약 clustering 및 text mining 에활용 F1 F2 F3 F4

Oracle Data Mining 10g R2 Improve ease of use 데이터마이닝모델의구축, 평가및적용을위한 GUI 제공 Wizards 방식 Mining 가이드지원 응용개발을위한 SQL & Java 코드생성을지원 데이터마이닝을통해얻은지식을다른 BI 도구및애플리케이션과연계시켜줌

metagroup.com Copyright 2004 META Group, Inc. All rights reserved. METAspectrum 60.1

오라클의정보분석전략의이점 In-Database Analytics 분석애플리케이션을위한플랫폼제공 넓은범위마이닝및통계처리알고리즘제공 복수의 H/W, O/S 에서운용가능 오라클 DB 기술을최대한활용가능 Benefit 데이터이동을없애고보안이슈에의노출을최소화할수있음 빠른정보관리체인제공 대부분의정보분석문제에대한해결방안을제공 다양한운영환경에서분석애플리케이션수행가능 Grid, RAC, 통합 BI, SQL & PL/SQL 사용가능 기존의 DB 기술최대한활용

요약 DB 는더이상단순데이터관리의장소가아니며, 실시간정보분석의핵심요소임 데이터측면의 RTE 구현방안 DB 의통합 단순화, 표준화, 전문화 정보전달체인의효율화 통합 DB 상에서의정보분석 정보분석업무의개선 단순분석의실시간화, 고급분석의전문화 핵심가치 : 정보관리및분석의실시간화및이를통한정보회전율증대