한국어센셜소프트웨어배상균
데이터품질의중요성 급변하는비즈니스환경에부응하는시스템의개발및유지보수에가장커다란장애중하나는저품질의데이터임 The TDWI estimates that poor quality customer data costs U. S. businesses $611 billion a year in postage, printing, and staff overhead. The most serious problems of all occur when poor quality data is used to report corporate financials or to make strategic business planning decisions. Problems Due to Poor Quality Data Extra time to reconcile data 87% Delay in deploying a new system 64% Lost credibility in a system 81% Lost revenue 54% Extra costs (e.g. duplicate mailings) Customer dissatisfaction 67% 72% Compliance problems 38% 0% 25% 50% 75% 100% Source: TDWI Data Quality Survey, December, 2001
데이터품질의장애요소 소스데이터의문제, 현실에부합하지못하는데이터모델링, 개발 / 운영의편의성을위한설계변경, 시시각각변하는업무등이모두데이터품질을저해하는요소 Duplicate Attributes Missing Data Lack of Referential Integrity Invalid Values Invalid Date Dependencies Invalid Computations Business Rule Violations Duplicate Keys Invalid Ranges Mis-matched Data Between Multiple Source Systems Lack of Synchronization Between Source and Target Unreasonable Relationships Non-standard Formats Poor Entity Construction
데이터품질관리개요 Gartner 에서는데이터품질관리를위해계획수립, 분석, 실행, 조정의 4 단계방법론을제시하였으며, 데이터품질의정확한측정과평가를강조함 It s NOT a one-time effort Technology alone will fail Monitor Results Identify & Plan Ongoing Efforts Tune Deploy Deploy Processes, Training, Tools Set Goals For Improvement Allocate Resources End Users Plan Analyze Measure Data Quality Calculate Potential ROI Quantify The Pain Can t Manage What You Can t Measure Make it visible and obvious
데이터품질관리를위한어센셜의통합플랫폼 어센셜은전사적차원의데이터통합을위한단일플랫폼하에서데이터품질관리기능을구현함 실시간통합서비스 내장된데이터분석기능, 품질관리및가공기능 Enterprise Connectivity DISCOVER 소스데이터분석을통한구조찾기, 데이터품질의계량화 ProfileStage & AuditStage PREPARE 표준화, 매칭, 최적의데이터생성 QualityStage 병렬처리엔진 메타데이터관리 TRANSFORM 추출, 가공, 데이터전송 DataStage Enterprise Connectivity 선형적확장성을보장하는병렬처리 재사용가능한구성요소들및비즈니스룰 서비스지향아키텍처 (Service-Oriented Architecture) 에기반 IT 표준지원 Web Services, XML, J2EE, JMS 기업용어플리케이션과의상호연동기능
Real Time Enterprise IT 부서관점에서 RTE 를구현하기위한핵심요소중의하나는가장적절한시간에시스템간산재하는데이터를통합해서기업이필요로하는양질의데이터를생성할수있는방법과기술 Ascential 실시간데이터통합인프라 Transactional Operational Analytical DM DM Product Sales Trading Partners Electronic Marketplace Consumer Portals CRM ERP SCM DM Shipments Sales Report EDW ODS Historical Operational Trends in Late Payment Message-centric Real-time transactions In-flight validation Ascential Enterprise Integration Platform Complex message formats Conditional Routing Complex data Transformations Current data Current and historical data Data-centric Right-time Large volume of data Aggregations
어센셜의데이터품질관리로드맵 어센셜은데이터품질향상을위한장기적인로드맵에기반한체계적이고실제구현가능한방법론과이를적용할수있는툴을제공? 데이터품질관리 Roadmap Initial Discovery Data Content Assessment 슬ㄹ Data Reconciliation Solution Implementation iterative iterative Initial discovery Business Requirements 에근거한각종데이터소스분류로다음단계의작업대상설정 Data Content Assessment 데이터품질평가를통한데이터변환, 정제, 조절등에대한방법, 요구사항정의 데이터품질에대한계량화 Data Reconciliation 전사적차원에서각종비즈니스룰과데이터간의상관관계에부합되는데이터구현방법에대한결정 Solution Implementation 저품질의데이터로인한각종문제를근본적으로해결하기위한구현작업 운영시스템에데이터표준화, 정제작업의적용 ETL, 메타데이터관리시스템, 데이터품질 Audit/Monitoring 시스템등데이터품질향상을위한인프라구축
데이터에대한이해 Data 품질향상을위한첫번째단계는현재데이터의내용과구조에대한이해 Data Sources MetaData Domain Value Structural Integrity Relational Integrity AuditStage Business Rule Validation ProfileStage MetaData Access Column Analysis Table Analysis Key Analysis Cross-table Analysis QualityStage Pattern Analysis Duplicate Data Ongoing Metrics AuditStage Metrics & Reporting QualityStage Duplicate Analysis 데이터품질계량화품질모니터링및감사 소스 DB 의구조파악적합한타겟 DB 구조 자유형필드텍스트분석데이터표준화
데이터품질측정및계량화 데이터의품질을측정, 평가하고모니터링하기위해체계적방법론이필요 품질측정 데이터의품질을측정, 평가하고모니터링하기위해 Principals of Total Quality Management 활용 Level 0 에서 Level 4 에이르는다섯가지유형의품질측정방법제시 L0 Domain Analysis L1 Completeness and Validity Assessment L2 Structural Integrity Assessment L3 Business Rule Compliance L4 Transformation Rule 프로세스 현행데이터구조분석 품질측정대상선정 L0, L1, L2, L3, L4 측정및각종리포팅 품질개선안제시및실행 지속적인모니터링
데이터구조에대한이해 구조발견 데이터구조의정확한이해는전체프로젝트의성패를결정짓는가장주요한요소중하나 메타데이터를통한데이터구조이해뿐만아니라실제데이터에대한자동화된분석 Step by step 을통한데이터구조에대한이해 데이터구조파악을위한 6 가지스텝 Column Analysis Table Analysis Primary Key Analysis Cross Table Analysis Relationship Analysis Normalization Analysis 현재데이터에적합한정규화된 Target DB 생성 Source to Target 매핑 정규화를통한중복제거 모델링툴과연동 소스소스데이터의데이터의분석분석 / 검토 / 검토 / 적용의 / 적용의반복반복작업작업후정확한정확한결과를결과를데이터데이터모델에모델에반영 Analyze Review Accept Create Data Model Normalize and Generate Source/Target Mappings Generate ETL Job
데이터표준화및단일뷰생성 기업내단일표준으로통합, 표준화된내용의검증, 단일한뷰생성을위한최적데이터생성을위한일관적인방법론의제공 데이터표준화 기업내데이터품질평가및표준화, 정제를위한 Data Re-Engineering 제시 Customers Investigation ( 검사 ) Standardization ( 표준화 ) Matching ( 통합 ) Survivorship ( 우선적용 ) 데이터패턴분석에기반한데이터품질 Assessment 방법제공 Transaction Materials 1. Investigation 2. Standardization 3. Matching 4. Survivorship 통합된뷰가적용된타겟 DB 이름, 주소뿐만아니라일반텍스트에정보분석가능 특정한업무규칙에맞는패턴매칭 Vendor/ Supplier 데이터를업무또는산업표준과통합 Localization 과정을통해모든사이트에가장필수적인국내주소데이터정제를위한 Rule Set 을기본제공
데이터표준화상세방법론 Data Quality Assessment Data Re-Engineering (Solution Implementation) Investigation Standardization Matching Survivorship 자유형필드분석 자유형필드파싱 일반데이터값에따른레코드그룹핑 데이터의가장적절한표현생성 단일도메인필드분석 데이터표준화 외부참조파일과링크 가장적절한값으로데이터파일에적용 도메인값의발생건수생성 비즈니스또는산업표준을통합 중복레코드식별 관련키의참조파일개발 자유형필드의패턴발견 음성값에키워드적용 매치된레코드의가능성을결정하기위한점수화 예외리포트생성
Investigation 자유형필드분석을통한 Domain 값확인 유형횟수 Percentage 예 bbbbbbbbbbbb 5657 56.570% nnnbnnnbnnnn 3554 35.540% 011 232 2323 nnnbnnnnnnnn 781 7.810% 011 99152365 nnnbnnbnnnnb 2 0.020% 011 88 9941 nnnbnnnnbbbb 2 0.020% 578 9442 패턴 횟수 Percentage 예 C_SG_BK 5151 51.510% 서울마포구성산동 C_ST_BK 1663 16.630% 경기용인시기흥읍 C_B_BK 1048 10.480% 광주서구치평동 C_ST_DG_BK 862 8.620% 경기성남시분당구이매동 C_SG_SK 339 3.390% 전남보성군보성읍 유형 횟수 Percentage 예 bbbbbbbbbbbbbbb 9404 94.040% aaaaaaa.aaabbbbb 184 1.840% hanmail.net aaaaa.aa.aabbbbbb 80 0.800% lycos.co.kr aaaaa.aaabbbbbbb 59 0.590% orgio.net aaaaaa.aaabbbbbb 52 0.520% kornet.net 각종도메인값에대한분석을통해데이터자체를이해함 새로운 Rule Set 을정의하거나기존 Rule Set 을수정, 보완하기위한검사작업 데이터에대한정확한이해 데이터의규칙과잠재적인예외사항확인 문서화되지않은업무규칙확인 단어및패턴분석 데이터유형및값에대한분석모두가능 발생건수및분포도확인
Standardization 정의된룰셋을통한데이터정제작업 룰셋을통한데이터표준화 자유형필드에대한패턴분석작업 표준화된 Reference DB 적용 필요한업무규칙을적용 표준화이전데이터예 시도표현이나번지및통, 반표현방법에일관성부족 행정동, 법정동이혼합됨 검증되지않은아파트명과건물명 표준화를적용한데이터예 작성된룰셋과 Reference DB 를적용한표준화
Matching 매칭알고리즘을통한동일또는유사한데이터그룹핑 중복된각종데이터를단일한뷰로만들기위해동일한아이덴터티를가지는레코드를그룹핑하는과정 Matching 의 3 단계 1. Blocking 2. Scoring 3. Cutoff 각레코드를가장정확히구분할수있는필드를통해 1 차적인그룹핑 각필드별로가중치부여해서레코드별점수산정 기준점아래인레코드를 Matching 대상에서제외 Blocking 결과 ( 동일한그룹 ID) Blocking 필드 그룹 ID 유형 Score 전화번호주소회사 37 MP 41.09 02 76X 700X.. 한강로 2 191 삼일회 XXX 37 DA 41.09 02 76X 700X.. 한강로 2 191 삼일회 XXX 37 DA 31.09 02 76X 700X.. 한강로 3 191 삼일회 XXX Cutoff (20 점 ) 37 DA 11.09 02 76X 700X.. 한강로 2 193 삼정회 XXX Scoring
Survivorship Matching 된레코드들내에서최적의데이터선택 시스템최종갱신일시군구주소거주형태차종취미 마케팅 1/1/03 도곡동청솔아파트자가승용차골프인터넷 10/10/02 도곡동청솔우성아파트자가그랜져콜센터 6/3/99 도곡 3 동청솔우성아파트전세그랜져 XG SOURCE 시스템최종갱신일시군구주소거주형태차종취미 인터넷 10/10/02 도곡동청솔우성아파트자가그랜져 RECENCY 시스템최종갱신일시군구주소거주형태차종취미 최적의데이터적용 Best-of-breed 방식을적용해서가장적합한데이터를선택 레코드나필드단위의수행 데이터의통합된뷰 (Consolidated view) 또는마스터데이터제공 마케팅 1/1/03 도곡동 청솔아파트 자가 승용차 골프 FREQUENCY 시군구 주소 거주형태 차종 취미 도곡동 청솔우성아파트자가 그랜져 골프 LENGTH 시군구 주소 거주형태 차종 취미 도곡3동 청솔우성아파트자가 그랜져XG 골프
Household 처리를위한흐름도 INPUT Format Converter - Fixed File Format ETL 툴 DataMart/ DW Investigation - Free form 필드의패턴분석 Standardization - 고객프로파일표준화 소스 DB STAN Matching - 주소, 연락처, 고객번호등을기반으로 Household Matching 작업실시 통합된뷰가적용된타겟 DB Report UNDUP OUTPUT ETL 툴 Target Survivorship - Consolidated view SURV DB
데이터품질향상을위한어센셜의툴 각 Phase 별작업기법의체계적수행, 산출물작성의자동화, 품질의계량화및반복작업을위해데이터품질관리의각영역별작업에툴을사용 Can t Manage What You Can t Measure Data Sources It s NOT a one-time effort ProfileStage Full Volume Profiling Report Review MetaStage Metadata Gathering, Management AuditStage Ongoing Metrics iterative iterative subset subset MetaData Metadata Rep. MetaData QualityStage Targeted Columns, Entities AuditStage Targeted Columns, Entities QualityStage Data Cleansing, Standardization DataStage Data ETL Make it visible and obvious Data Reconcilation/Alignment Decisions Technology alone will fail
Telstra Address DBOR Australia s largest Telco (one of the world s top 20) creates unique address verification system Problem Solution Result 170 여개의 Front-end 시스템에서고객주소관련정보가입력 / 변경 100 여개가넘는 Back-end 시스템에서고객정보활용 부정확한주소정보로인한 Billing 및마케팅비용낭비 QualityStage Standardization, Matching 솔루션으로활용 1 천 2 백만건의고객주소를 6 백 5 십만건으로통합 Telstra Address Database of Record (ADBoR) Real Time API 적용 실시간서비스를통해데이터생성시점에데이터정제 단일화된뷰를제공하는통합된고객정보제공 Telstra 의가장성공적인프로젝트로평가됨
JP Morgan Chase A leading global financial services company Problem Solution Result 4000 만의개인고객, 170 만의투자자및다양한서비스, 시스템 다양한시스템에존재하는고객정보의상이함 각시스템마다고객정보의단일한뷰의부재 표준화되지않은고객정보 은행, 투자, 신용카드사업부분의시너지효과창출의어려움 Ascential 의통합플랫폼 DataStage, QualityStage, AuditStage, MetaStage Parallel Engine, Real- Time 초기고객정보정제및로드 JPMC 의업무표준에따른이름, 주소정보의표준화 Net Change Process 모델구축 초기고객정보정제이후고객정보관리절차체계화 20,000 여명의사용자가 JPMC 표준에부합하는고객정보활용 수익을극대화할수있는분석자료및의사결정을위한정보제공
Profit from Intelligent Information 감사합니다 더욱자세한정보를원하시면 http://www.ascential.com/kr 를방문해주십시오.