Microsoft PowerPoint - 310_4_p28.ppt

Similar documents
PowerPoint 프레젠테이션

ETL_project_best_practice1.ppt

DW 개요.PDF

untitled

ecorp-프로젝트제안서작성실무(양식3)

DBMS & SQL Server Installation Database Laboratory

Oracle Apps Day_SEM

歯목차45호.PDF

슬라이드 1

Microsoft PowerPoint - 3.공영DBM_최동욱_본부장-중소기업의_실용주의_CRM

歯CRM개괄_허순영.PDF

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

<4D F736F F F696E74202D C55535FBBE7B7CAB9DFC7A55FB5A5C0CCC5CD20C7B0C1FAB0FCB8AEB8A620C0A7C7D120C0FCBBE720B8DEC5B8B5A5C0CCC5CD20BDC3BDBAC5DB2E707074>

U.Tu System Application DW Service AGENDA 1. 개요 4. 솔루션 모음 1.1. 제안의 배경 및 목적 4.1. 고객정의 DW구축에 필요한 메타정보 생성 1.2. 제품 개요 4.2. 사전 변경 관리 1.3. 제품 특장점 4.3. 부품화형

문서 템플릿


USER GUIDE

목차 1. 데이터품질관리필요성 2. 데이터품질관리 3. 데이터표준기반의데이터품질관리 4. 데이터표준관리체계 2

CRM Fair 2004

슬라이드 1

BSC Discussion 1

Model Investor MANDO Portal Site People Customer BIS Supplier C R M PLM ERP MES HRIS S C M KMS Web -Based

쉽게 풀어쓴 C 프로그래밊

Microsoft PowerPoint - 10Àå.ppt

PowerPoint 프레젠테이션

실적 및 전망 09년 하반 PECVD 고객 다변화에 따른 실적개선 10년 태양광 R&D 장비 매출을 반으로 본격적인 상업생산 시작 1. 09년 3Q 실적 동사는 09년 3Q에 매출과 영업이익으로 각각 142 억원(YoY 16.7%, QoQ 142%), 6 억원(흑전환)

정보기술응용학회 발표

Service-Oriented Architecture Copyright Tmax Soft 2005

Manufacturing6

Microsoft PowerPoint - SVPSVI for LGNSYS_ ppt

歯두산3.PDF

PowerPoint Template

11. 일반 10 김린 지니 3(cwr).hwp

강의 개요

< FC1A4BAB8B9FDC7D D325FC3D6C1BEBABB2E687770>

슬라이드 제목 없음

......(N)

MySQL-.. 1


PowerPoint Presentation


Ç¥Áö

금오공대 컴퓨터공학전공 강의자료

차세대 DB 보안 관리기술및구축사례 Fresh Start, Data Quality Initiative - 다시생각해보는데이터품질관리

PowerPoint 프레젠테이션

김기남_ATDC2016_160620_[키노트].key

I 1 1) TESCO, 1993, ( 96, 98, 99) - : : 354 (19993 ~ , 1 =1737 ) - : 845 ( : 659 ) - : ) CM 9 (CM), CM , 2 CM, -

Orcad Capture 9.x

untitled

Microsoft Word - [2017SMA][T8]OOPT_Stage_2040 ver2.docx

The Self-Managing Database : Automatic Health Monitoring and Alerting

열거형 교차형 전개형 상승형 외주형 회전형 도해패턴 계층형 구분형 확산형 합류형 대비형 상관형 (C) 2010, BENESO All Rights Reserved 2

[Brochure] KOR_TunA

DBPIA-NURIMEDIA

untitled

SW¹é¼Ł-³¯°³Æ÷ÇÔÇ¥Áö2013

3Æí2Àå¨éÀç

<5BC3D6C1BE5DC7D1B9CEC1B7BEEEB9AEC7D03537C1FD2E687770>

ORANGE FOR ORACLE V4.0 INSTALLATION GUIDE (Online Upgrade) ORANGE CONFIGURATION ADMIN O

감사칼럼 (제131호) 다. 미국과 일본의 경제성장률(전기 대비)은 2010년 1/4분기 각각 0.9%와1.2%에서 2/4분기에는 모두 0.4%로 크게 둔화 되었다. 신흥국들도 마찬가지이다. 중국, 브라질 등 신흥국은 선진국에 비해 높은 경제성장률을 기

untitled

5장 SQL 언어 Part II

Æí¶÷4-¼Ö·ç¼Çc03ÖÁ¾š

, Analyst, , Table of contents 2

Intro to Servlet, EJB, JSP, WS

APOGEE Insight_KR_Base_3P11

IBM blue-and-white template

04-다시_고속철도61~80p

about_by5

다른 JSP 페이지호출 forward() 메서드 - 하나의 JSP 페이지실행이끝나고다른 JSP 페이지를호출할때사용한다. 예 ) <% RequestDispatcher dispatcher = request.getrequestdispatcher(" 실행할페이지.jsp");

Intra_DW_Ch4.PDF

......CF0_16..c01....

Microsoft Word - [Unioneinc] 특정컬럼의 통계정보 갱신_ _ldh.doc

1.장인석-ITIL 소개.ppt

I (34 ) 1. (10 ) 1-1. (2 ) 1-2. (1 ) 1-3. (2 ) 1-4. (2 ) 1-5. (1 ) 1-6. (2 ) 2. (8 ) 2-1. (3 ) 2-2. (5 ) 3. (3 ) 3-1. (1 ) 3-2. (2 ) 4. (6 ) 4-1. (2 )

InsertColumnNonNullableError(#colName) 에해당하는메시지출력 존재하지않는컬럼에값을삽입하려고할경우, InsertColumnExistenceError(#colName) 에해당하는메시지출력 실행결과가 primary key 제약에위배된다면, Ins

Spring Boot/JDBC JdbcTemplate/CRUD 예제

PowerPoint Presentation

소프트웨어개발방법론

Microsoft Word - src.doc

기타자료.PDF

ISP and CodeVisionAVR C Compiler.hwp

슬라이드 1

How we create value? 안전경영 조직 및 시스템 강화 위원장 위원 간사 CEO 전략사장, CFO, 인사지원실장, 사업부장, 사업장장 안전환경인프라팀장 삼성SDI는 안전사고의 위험성에 대비하고 안전한 근무환경을 조성하기 위해 전담부서 개 편과 업무 관리범위

WINDOW FUNCTION 의이해와활용방법 엑셈컨설팅본부 / DB 컨설팅팀정동기 개요 Window Function 이란행과행간의관계를쉽게정의할수있도록만든함수이다. 윈도우함수를활용하면복잡한 SQL 들을하나의 SQL 문장으로변경할수있으며반복적으로 ACCESS 하는비효율역

<4D F736F F D20955C955C8E8682C697A0955C8E8693E091A42E646F63>

슬라이드 제목 없음

Agenda I. What is SRM? II. Why SRM? Trend, III. Function / To-be - IV. V. Critical Success Factor 2

DBPIA-NURIMEDIA

@OneToOne(cascade = = "addr_id") private Addr addr; public Emp(String ename, Addr addr) { this.ename = ename; this.a

온라인게임 투자의견 종목 투자의견 목표주가(원) 투자포인트 엔씨소프트 (036570) Buy 420, B&S 4월 27일 1차 CBT 성공적으로 실시 : 게임성과 흥행성 검증 2. B&S 5월 16일 중국 현지업체(텐센트)와 퍼블리싱 계약 체결 : 아이온보다

Tablespace On-Offline 테이블스페이스 온라인/오프라인

Secure Programming Lecture1 : Introduction

서현수

연간전망_통신 1215

내지출력

에너지경제연구 Korean Energy Economic Review Volume 9, Number 2, September 2010 : pp. 1~18 가격비대칭성검정모형민감도분석 1

늘푸른세상4월-136호

<C1A62038B0AD20B0ADC0C7B3EBC6AE2E687770>

Transcription:

September, 2005 공공기관의데이터품질진단사례및 고품질데이터 확보방안 발표자 : 아이티플러스 오경조 Kjoh@itplus.co.kr Agenda 2. 공공기관데이터품질진단방법및현황 4. 해외데이터품질관리사례 5. 데이터품질관리솔루션 Page.2 1

1.1 데이터품질관리영역 데이터품질이란, 지식작업자가데이터를활용하여업무목적을달성할수있도록지속적으로기대수준을만족시키는것 - Larry English Definition( 정의 ) Contents( 값 ) Presentation( 활용 ) 데이터사양및메타데이터에대한품질 표준화 & 모델링관점 데이터값이업무를수행할수있도록정의되어있는가? 데이터값의정확성에대한품질은? 완전성, 정확성관점 데이터값이정확하게정의된업무규칙을준수하는가? 지식작업자에게전달되는정보제품으로서의품질은? 적시성, 편리성, 활용성관점 필요할때즉시제대로된정보를얻을수있는가? 데이터품질관리란? 초기데이터의품질을획득하고이를지속적으로유지 / 개선시키는프로세스및시스템 Page.3 1.2 데이터품질활동의의의 데이터품질관리는기업의전사적인데이터흐름에있어발생할수있는데이터리스크를줄이는활동 따라서대규모프로젝트의성공을위해서는반드시 Risk Hedging (DQM) 이선행되어야함. Enterprise Flows Legacy Application Expense Order End-User-Developed Application adds budget data Customer Order-to-cash Budget and expense Operational Store Order-to-cash data Daily orders Warehouse Order history Orders by Product/ region Mart Order history By product/region Purchased Package adds payment details * 출처 : Gartner Risk 내제위험 Inherent Risk 탐지위험 Detection Risk 사용자입력오류 데이터이관시과거오류데이터 업무적예외처리허용 통제위험 Control Risk 애플리케이션사전점검미비 운영상 DB 구조변경허용 애플리케이션수정후데이터반영미처리 관리자및사용자의미발견 정제작업의어려움 데이터품질점검활동부재 Page.4 2

1.3 IT 환경변화와데이터 6 시그마 IT 환경의변화 데이터입력채널의다양화 내외부시스템간데이터이동증가 기업의모든기능부서및영역에 6 시그마철학도입확대 내부대응시스템 데이터중심관리체계미흡 데이터품질관리솔루션의미성숙 직관및과정중심의추상적인개선활동 체계적인데이터품질관리필요 Approaches to Quality 1 세대 Inspection and Rework, to find and correct defects We are here 2 세대 Prevention of defects, at their source 3 세대 Design, Defects impossible Six-Sigma Level Source : Quality The Field Guide Page.5 1.4 시장및기술동향 가트너그룹은데이터품질기술시장을고객정보향상, 레코드관계파악, 데이터품질분석등에사용되는패키지로분류하였으며 2007 년까지 DW 프로젝트에서데이터품질이슈를사전에대처하지않는다면 50% 이상이실패를경험할것이라전망 Market Segment Description Quality Firewall and Auditing Process Contact efficiency Relationship Identification Source Non-customer Quality Analysis Source Source Source Quality Firewall Integration Process Warehouse Auditing and Reconciliation Process Source : Gartner Research Source : Gartner Research April 2004. Page.6 3

1.5 低品質데이터로인한피해 A Supply Chain Debacle 2001 A war between Nike Inc. and i2 Technologies, Nike blames these system problems for a $80 million to $100 million cut in ¾ quarter sales Nike announced this, its stock price dropped 25 percent in value from $49.17 to $38.80. The Presidential Election 2000 The lack of a clear winner, directly resulting from poor data quality, immediately led to a drop in stock prices during the days after the election. At least four data quality issues are evident from the Florida election Voter confusion because of poor data presentation Validating data before it is verified Confusion based on conflicting data sources Built-in margin of error Bombing of the Chinese Embassy during the Kosovo War - 1999 USAF bombing of the Chinese Embassy killed 3 Chinese and wounded 20 Secretary Cohen visited China to apologize US paid $28M compensation to the Chinese government An out-of-date address that CIA picked one target, thought to be an armory of Yugoslav weapons. This was not the only time the United States mistargeted a weapon. The true total cost of date poor quality is incalculable. Page.7 1.6 품질평가영역 데이터품질관리프레임워크 데이터 ( Value) 공공기관품질진단에활용된진단방법 유일성 데이터 [] 데이터구조 ( Structure) 데이터흐름 ( Flow) 데이터관리정책 Stage 1 Threshold 를활용한단일컬럼별분석 유효범위 Null 단일, 다중값 요구사항관리 기준패턴 데이터관리프로세스 (Process) 데이터표준관리데이터모델관리데이터베이스관리데이터생성 / 가공관리 Stage 2 DQ Profiler 활용한컬럼간데이터분석 참조무결성코드날짜유형컬럼표준화 하드웨어 비정형패턴 시스템 (System) 소프트웨어 네트워크 Stage 3 DR, BR 을활용한테이블간데이터분석 Stage 4 데이터관리프로세스점검 Page.8 4

100.00% 99.00% 98.00% 97.00% 96.00% 95.00% 94.00% 93.00% 92.00% 91.00% 90.00% 1 차 2 차 3 차 4 차 1.7 품질평가모델 평가기준 데이터값 데이터구조 데이터흐름 완전성 데이터크기 데이터범위 데이터값누락여부 중요속성누락여부 필수속성설계반영여부 데이터생성가공시누락 일관성 데이터속성정의와값의일치여부 데이터제약조건과값의일치여부 테이블정의와레코드일치여부 동일데이터의상호일관성 데이터표준정의의적절성 도메인정의의적절성 코드정의의적절성 데이터생성가공시데이터표준적용여부 최신성 최신데이터제공여부 - 데이터갱신주기 정확성 데이터의오탈자여부 실제사실과의일치여부 레코드중복 참조무결성 속성중복및유일성보장여부 외부원천데이터의신뢰성 데이터생성가공시오류및중복 Page.9 2.1 품질진단방법론 2. 공공기관데이터품질진단방법및현황 품질측정대상 선정 1 BR 도출및변경 (BR 설계서 ) 2 CRIF 작성및변경 (BR Source) CRIF 0 데이터프로파일링 통계적기법을활용한데이터전수검사 BR 도출항목선정 BR 도출가이드 업무규칙에따라 BR 도출및변경 BR 정의서 품질점검시스템을통해도출된 DR 를정형화된폼작성및변경 Integration 데이터품질평가 평가결과통계 평가결과 Review / 개선안권고 5 품질점검결과통합 4 통합된결과를업무별로계량화 분석된개선안및오류리포트피드백 품질점검결과를데이터품질관리시스템의저장소에통합 BR 정의서 (Business Rule 정의서 ) 업무규칙, 데이터점검규칙으로활용 CRIF : Check Rule Input Format Page.10 5

2.2 품질진단프로세스 2. 공공기관데이터품질진단방법및현황 Business Perspective System Perspective Remark 데이터품질지표의설정 대상선정 Repository Setup 완전성 / 일관성 / 최신성 / 정확성 업무중요도에따라평가지표의추가설정 품질지표별대상분류항목별중요도설정도큐먼트수집 Meta Impact Threshold Setup Column Weight Setup Profiling Column Weight - Internal Process Prospecting - Legal Prospective - Customer Prospective - Financial Prospective 데이터프로파일링 통계적기법을활용한데이터단면도이해 필수데이터 Rule 검증 (Format,RI, 표준화등 ) 데이터오디팅 업무규칙에의한점검기준의도출 업무규칙의품질지표화 Business Rule 도출 Filtering Second Assessment Auditing Scoring Reporting First Assessment Filtering - 실제오류여부판단 - 표준화위해추출 - 모델링검토 Reporting - 오류유형별보고서 - Score Board Summary - 통합보고서 데이터품질평가 결과에대한기술적 / 비즈니스적해석 서비스품질에대한영향도분석 데이터품질개선활동 Cleansing (/App/Model) 데이터품질개선가이드제공 정비작업으로인한영향분석정보를활용하여개선활동의수행및수행결과의검증 데이터품질관리체계의수립 Page.11 2.3 공공기관진단결과요약 2. 공공기관데이터품질진단방법및현황 [ 개선급 / 개선요 / / 우수 / 매우우수 ] 품질지표 세부품질지표 품질진단내역 품질평가 유일성 데이터값의유일성분석 Stage 1 (Threshold 를활용한단일칼럼별분석 ) 유효범위 Null 단일, 다중값 데이터유효범위분석 (Min, Max) 유효하지않은 Null,Space 데이터포함여부분석데이터값의유효값목록의분석 기준패턴 숫자, 영문자, 한글데이터등에대한기준패턴분석 참조무결성 테이블의 RI(Reference Integration) 분석 Stage 2 (DQ Profiler 를활용한컬럼간데이터분석 ) 코드날짜유형컬럼표준화 개별코드, 통합코드에대한데이터값분석년월일, 년월, 시간데이터에대한값분석컬럼길이, 데이터유형, 한글명등이표준화분석 비정형패턴 영문자, 한글등이혼재한비정형데이터패턴분석 Stage 3 (DR,BR 을활용한테이블간데이터분석 ) Rule, Business Rule 을적용한테이블간데이터품질점검 데이터표준 ( 용어사전, 명명규칙등 ), 도메인표준, 코드표준을변경, 관리하는데이터표준관리수행여부 Stage 4 ( 데이터관리프로세스점검 ) Case Tool 을이용한모델 (LDB,PDB) 관리여부 ( 데이터구조가변경됨에따라 DB 의구조와동일하게되도록데이터모델관리 ) 사용자의요구사항 ( 데이터값변경, 데이터구조변경 ) 에대한프로세스수립여부 데이터관리프로세스별로정기적인문제점파악및개선작업수행여부 Page.12 6

3.1 오류유형별원인분석 _Indicator 항목의오류 테이블 전체테이블 오류추정내역 여부정보를가지는데이터의값은 1, 0 ( 또는 Y, N ) 둘중의하나의값만을가져야하나품질점검을실시한전체테이블에걸쳐 1, 0, Y, N 값이혼재하고있으며, Null, 2 등 Garbage 또는오류데이터가일부존재하고있음 [ 원인분석 ] 동일테이블의항목에대하여입력하는프로그램이다수존재하며, 각프로그램마다처리방식이상이 (Case1 : 입력하지않으면 Null 처리, Case2 : 입력하지않으면 0 으로저장등 ) [ 조치사항 ] 누적된데이터변경및관련 Application 수정 [ 예방방법 ] 2 개의값만을가지는 Indicator 항목에대하여입력처리프로그램에서정해진값이외에는등록이 불가능하도록프로그램변경 [ 권고개선방향 ] 1. 전체데이터베이스에서 Indicator 항목에대한정책을결정하고, 정합성이유지될수있도록 Application, 데이터베이스모델에반영하여원천적으로오류데이터가입력되지않도록반영 2. 기존누적된데이터는변경하고관련프로그램을동시에조사하여수정 3. 중요속성에대해서는데이터베이스제약사항을주어데이터베이스에서원천적으로오류데이터가입력되지않도록반영 Page.13 3.2 오류유형별원인분석 _ 데이터 Format 오류 테이블 전체테이블 오류추정내역 일자, 시각등시간과관련된항목의경우일정한데이터 Format 이유지되어야하나, 자릿수가맞지않은값, 의미없는값등이혼재하고있음, 특히 Null, Space 값등이혼재, Default Value 표준화가전체시스템에미존재 [ 원인분석 ] 초기의테스트데이터가지워지지않았으며, 임의의데이터에대하여기본값이불명확함 [ 조치사항 ] 테스트데이터에대한 Cleansing 을실시하고, 시간관련항목에대한기본값정의및 Format 을준수할수있도록각프로그램에반영 [ 예방방법 ] 중요속성컬럼에대해입력시유효한 Format 여부확인 Logic 반영 [ 권고개선방향 ] 1. 시간관련항목은향후통계및 DW 구축시중요한 Factor 가되므로반드시정합성이유지되어야하며, 데이터베이스설계시점에 Type, Null 허용여부, 자릿수등에대하여정의하고 Application 에서유효한값만입력되도록보완하여야함 Page.14 7

3.3 오류유형별원인분석 _ 코드데이터참조오류 #1 테이블 전체테이블 오류추정내역 개별코드, 통합코드테이블을사용하고있는개별컬럼의데이터중유효하지않은데이터값을포함하고있음 [ 원인분석 ] 1. 도메인정의서자체의정합성이확보되지못하여잘못된도메인값사용 2. 입력실수또는임의의기본값, 테스트데이터가지워지지않고남아있음 3. 개별데이터는최신코드값을참조하나코드값자체가최신데이터로 Update 되어있지않음 ( DW, CRM 등등 2 차가공데이터 ) [ 조치사항 ] 오류데이터삭제및수정 [ 예방방법 ] 1. 코드데이터의경우수작업입력방식이아닌참조입력방식으로전환 [ 권고개선방향 ] 2. 향후프로그램개선시코드데이터를참조하여오류코드자료가원천적으로입력되지않도록조치 3. 시스템적인코드데이터갱신작업 1. 온라인, 배치프로그램등모든프로그램에서는코드데이터를참조하도록프로그램수정 2. 정기적데이터점검을통해중요코드데이터에대한데이터정합성체크 3. 테스트자료관리 ( 실장비에서테스트시에는임시코드를부여하여테스트권장, 테스트종료시임시코드관련데이터를일괄삭제 ) Page.15 3.4 오류유형별원인분석 _ 코드데이터참조오류 #2 테이블 전체테이블 오류추정내역 개별시스템으로개발된후시스템통합이이루어진경우코드의표준화및구코드와신코드를혼용하여유효하지못한코드값을가짐 [ 원인분석 ] 1. 시스템및데이터베이스통합시도메인통합이완벽하게되지못하여구코드와신코드를혼용 2. 설계서 ( 도메인정의서 ) 에대한현행화관리미흡 3. 코드의통폐합은이루어졌으나사용데이터에대한변경은미조치 [ 조치사항 ] 1. 오류데이터삭제및수정 2. 시스템간의도메인통일화추진 [ 예방방법 ] 1. 코드데이터의경우수작업입력방식이아닌참조입력방식으로전환 2. 향후프로그램개선시코드데이터를참조하여오류코드자료가원천적으로입력되지않도록조치 [ 권고개선방향 ] 1. 온라인, 배치프로그램등모든프로그램에서는코드데이터를참조하도록프로그램수정 2. 정기적데이터점검을통해중요코드데이터에대한데이터정합성체크 Page.16 8

3.5 오류유형별원인분석 _ 데이터유일성오류 테이블 전체테이블 오류추정내역중요데이터에 PK 미설정으로인해데이터중복건발생물리적인유일성은보장되나논리적인유일성이보장되지못함예 ) 년도 + 단체 + 일련번호 는유일해야한다 [ 원인분석 ] 1. 테이블의물리적인 PK 설정, 논리적유일성보장데이터유일성을미설정 2. 테이블의물리적인 PK 미설정 [ 조치사항 ] 1. 오류데이터삭제및수정 2. 논리유일성을분석하여재설정 [ 예방방법 ] 1. 데이터중복을방지하기위해 PK 설정 2. 논리적유일데이터에유일성설정 [ 권고개선방향 ] 1. 물리데이터생성시논리적유일성데이터에대한유일성설정혹은 Application 입력시사전에유일성확인후데이터입력 Page.17 3.6 오류유형별원인분석 _ 컬럼표준화오류 테이블 전체테이블 오류추정내역 동일영문컬럼명에대하여데이터타입및길이를상이하게사용 예 ) 성명 : 고객 Varchar2(50), 기타테이블 Varchar2(30) 등등 [ 원인분석 ] 1. 물리데이터설계시 Domain 처리를하지않음 2. 개별적으로필요에의해물리적데이터변경 [ 조치사항 ] 1. 물리데이터변경시변경프로세스확립 2. 물리데이터설계시 Domain 처리 3. Modeling 관리 Case Tool 사용 ( 여전히 Paper 수준의 Model 관리 ) [ 예방방법 ] 1. 고객의물리데이터생성표준을세움 2. 모델 Case Tool 사용및생성, 변경, 삭제에관련된프로세스확립 [ 권고개선방향 ] 1. 향후특정컬럼이변경시 Case Tool 울미사용시수작업으로대량의물리 DB 를변경해야되고, 프로세스미수립시원칙과기준에의해서변경이되는것이아니라외적요인에의해변경이이루어짐 Page.18 9

3.7 오류유형별원인분석 _ 기타 (1) 1) Range 오류 - 데이터의속성상유효한데이터범위를벗어난경우 2) 참조무결성오류 - 부모자식간의 RI 미설정으로인해부모잃은자식, 자식잃은부모데이터가존재 - 중요데이터간에는 RI 를설정한다 - 오류추정원인 : 테이블간의데이터변경시 Application 모든영향도를미치는데이터에대한일괄수정및삭제기능이지원되지않음 3) 비정규화로인한데이터값의일치성오류 - 코드명, 성명등과값이비정규화된컬럼에대한데이터불일치성이발생 - 오류추정원인 : 비정규화컬럼에대한정확한영향도분석이되어있지않고데이터의 Ownership 부여가 4) 기준패턴오류 되어있지않음 오류추정내역 예 ) 100 점만점에 100 점이상점수데이터가존재, (-) 값이존재할수없는데이터에 (-) 값이존재 - 영문명에한글데이터존재, 한자명에한글데이터존재, 번호의부여패턴을준수하지않음 XX 번호 : 한글 2 자리 + 숫자 4 자리 + 특수기호 (-) + 숫자 3 자리 Page.19 3.8 오류유형별원인분석 _ 기타 (2) 5) 동일의미의데이터가다수존재 오류추정내역 - 성명중간에 Space 데이터가존재하여동일인이다수의데이터로조회 6) 데이터이행시총합계건수는일치하나세부데이터가불일치 - 구시스템 100만건이행하여신시스템에 100만건데이터생성세부데이터확인 : 년도별데이터가잘못이행특정년도데이터가타년도로이행됨데이터이행검증시 : 1:1 검증, 통계적검증 반드시주요속성별데이터확인 ( 년도별, 계약상태코드별등 ) 7) Null 에대한미정의 - 개별시스템구축시한쪽시스템개발에는데이터가없음을 0으로설계, 타시스템에는없음을 Null로정의향후시스템통합시많은어려움이예상됨 Null 에대한정확한정의를수립하고모든시스템에적용 8) 마스터와트랜젝션데이터값불일치 - 합계, 평균등과같이마스터에존재하는값과트랜젝션데이터의값이서로불일치함 Page.20 10

4.1 해외데이터품질관리사례분석 _1 4. 해외데이터품질관리사례 데이터품질부정 임기응변적대처 저품질데이터는부정확성 ( 잘못된이름, 필드누락, 주소불완전등 ) 의문제로정제활동만하면된다. 단위어플리케이션내의데이터처리 특정어플리케이션에최적화된데이터가다른어플리케이션에서사용될때는다른의미를갖게된다. 데이터품질수용 새로운사고로인식전환 ( 데이터품질개선은지속적인과정 ) 의료분야의경우, 환자의정확한신원확인을못했을경우허위의료비청구에서부터오진에이르기까지의많은데이터리스크를가지고있다. 보험분야의경우, 전사데이터통합과정에서각사업부사이에많은상충되는데이터가발생한다. 데이터표준화작업시작 (3,000 여개의데이터에대한모든사업부의합의도출 ) TB 급의 DW 로부터수십개의 DM 까지단일데이터 Viewer 체계확립 데이터품질활용 비즈니스활동창출및저품질데이터의사전예방 CRM 활동의근간은고품질데이터의확보에서부터시작한다. 각데이터입수채널의정보를통합하여단일마케팅정보 View 를확보해야한다. Page.21 4.2 해외데이터품질관리사례분석 _2 4. 해외데이터품질관리사례 대상기관프로젝트배경데이터품질활동품질활동결과대상기관데이터품질활동배경데이터품질활동품질활동결과 영국국방부 / 통합 SCM ( 공급망관리 ) 데이터품질향상프로젝트사례 어떤시스템에서군수품번호 99 000 1111 은 24 시간냉동보관해야하는비상식량이지만, 이것이다른시스템에서는전자무선밸브를의미한다. 1 단계 : 데이터분류및대상선정가장큰영향을미칠것으로예상되는 6 개의핵심적인데이터필드선택 2 단계 : 데이터프로파일링데이터프로파일링 Tool 을이용해데이터검증 / 그것이유효한나토식별번호인지체크 => 결과 : 11 만 9 천개의번호 (10 개가운데 1 개 ) 가유효하지않은것나타남 3 단계 : 정제 & 예방작업소프트웨어를이용해키보드입력시의중복또는오류검색 ( 예, 구두점, 3&8 입력오류등 ) 4 년간 1,100 만달러투입 국방부평가 3,600 만달러비용절감 / 작전성공을위한후선업무의승리 미국교도국 / 데이터품질프로세스개선컨설팅사례 시스템노후화로인한미연방정부보고서에많은데이터오류제공 IS 조직수작업으로임시방편조치 1 백만달러의연방정부지원금삭감위기직면 데이터품질전문컨설팅업체와 TFT 구성업무처리과정재검토, 데이터책임자의개념설정소수의어플리케이션개발자의책임에서다수의데이터책임관리체계로변경 연방정부및감사원에정확한보고서제출가능으로문제해결 Page.22 11

4. 해외데이터품질관리사례 4.3 美예산국 (OMB) 의 Information Quality Act 데이터품질관리적용프로세스 미예산국 (OMB) 의가이드라인을바탕으로, 각기관의특성에맞는데이터품질관리지침을개발예산국의최종승인을받아야하며, 지속적인품질관리활동을수행및관리함. 감독자에대한정기적보고의무관리지침에의한각기관의정보민원요소에대한정의및수량정보민원요소에대한처리방안 Page.23 5.1 Profiling 을통한기초데이터분석 5. 데이터품질관리솔루션 데이터의값및구조분석을위하여메타데이터정보를등록한후데이터의기본적인정보를진단한다. 업무별 테이블별 컬럼별 분석대상의선정 데이터프로파일링실시 데이터의분포도제공 메타정보와위배되는오류추정데이터제시 단일칼럼 테이블간의상관성 코드성데이터 날짜데이터 표준화정보 비정형데이터 데이터분석유형 프로파일링결과해석 오류데이터분포파악 중점점검데이터유형의파악 Page.24 12

5.2 Auditing 을통한 Biz Rule 분석 5. 데이터품질관리솔루션 개별데이터에대한업무규칙을반영한점검기준을도출하고, 이를통한데이터정합성분석을수행한다. 업무규칙의품질지표화 애플리케이션로직속의업무규칙을지표화 업무지식의공유 업무규칙 (BR) 의작성관리 CRIF 를통한업무규칙의손쉬운도출 SQL Generation BR 의변경이력관리 점검대상데이터의통합 View 점검기준별해당 BR 및프로파일링 정보의연동제공 단순오류의일괄정제제공 단순오류데이터의정제처리 Page.25 5.3 결과보고서를통한품질개선활동 5. 데이터품질관리솔루션 데이터품질점검결과에대한오류데이터보고서를통하여데이터품질관리활동을수행한다. 점검기준별보고서생성 총건수대비에러추정데이터리스트제공 에러데이터와관련된테이블정보 (P.K) 도제공으로정비대상데이터의명확화 점검결과에대한재검및관리 점검기준 / CRIF 의이상유무 코드성데이터의경우통합코드마스터와의이상유무 오류데이터가명확한경우조치방안에대한기술및관리 품질개선활동의할당및검증 오류데이터정비계획수립 계획대비수행결과의검증 Page.26 13

5.4 품질정제활동을위한영향분석정보제공 5. 데이터품질관리솔루션 오류데이터와서비스어플리케이션간의영향분석정보를자체적으로제공함으로써, 정확한정비활동을수행할수있도록지원한다. 또한업무서비스어플리케이션과의영향정보를 CRUD Matrix 형태로제공한다. 데이터정비를위한영향분석 점검기준 ( 업무규칙 ) 간의영향도 해당점검기준의파일소스와의영향도 점검기준위배데이터 ( 오류추정 ) 의해당애플리케이션수정시영향도제공 서비스품질과의영향분석 저품질데이터로인한서비스품질저해영향도에대한기초데이터제공 향후서비스품질측면의데이터품질개선효과검증모델의개발제공 정제활동의우선순위도출적용 Page.27 Q&A 질의응답시간입니다 Leading EA & IT Asset Management Company www.itplus.co.kr 서울시구로구구로동 197-12 신세계아이앤씨빌딩 7 층 TEL. 02-2126-3700 Page.28 14