데이터표준기반의 데이터품질관리 2011.10
목차 1. 데이터품질관리필요성 2. 데이터품질관리 3. 데이터표준기반의데이터품질관리 4. 데이터표준관리체계 2
저품질데이터피해사례 1. 데이터품질관리필요성 피해사례 1 개인연금가입자의정보오류 30 만 9,825 건, 보험료징수오류는 690 억원 (09 년한국일보 ) 피해사례 2 데이터오류로인해과세를할수없고마케팅손실비용을감당해야하는등피해사례속출 (08 년전자신문 ) 피해사례 3 사회복지통합망개통 ( 10.1) 후데이터오류 (20 만건 ) 로서비스제공지연초래 피해사례 4 08 년 6 만 7 천여명의주민 - 호적간자료불일치정비작업에 17 억원소요 3
필요성 1. 데이터품질관리필요성 4
동향 1. 데이터품질관리필요성 행정정보데이터베이스표준화지침 행정안전부고시제 2008-47 호 ( 제정 2008-11-25) 행정및공공기관이행정정보데이터베이스를구축, 운영, 폐기및품질관리를하는경우준수하여야할절차및산출물을규정 제 7 장행정 DB 의품질관리 (28 조 ~31 조 ) 행정안전부 공공기관의데이터관리지침개발 법제도개선을통해의무화 특허청데이터품질관리규정 특허청훈령제 643 호 ( 제정 2009-11-13) 특허청데이터품질관리에관한사항을규정함으로써특허행정의신뢰성증진과고객만족도향상에이바지함을목적 총 5 장 21 조와부칙으로구성 서울시데이터품질관리지침 데이터품질관리지침마련 (2009 년 ) 데이터관리지침, 데이터품질관리지침, 데이터보안관리지침, 데이터표준화지침으로구성 공공기관 DB품질확보 한국데이터베이스진흥원 데이터베이스품질인증제도운영지침 ( 문화체육관광부고시제 2010-33 호 ) 데이터베이스품질인증기관지정 ( 문화체육관광부고시제 2010-39 호 ) 5
데이터관리구성요소 2. 데이터품질관리방법 6
데이터품질관리절차 2. 데이터품질관리방법 데이터품질관리 ( 식스시그마방법론 ) 의각단계별활동 정의 측정 분석 개선 통제 품질관리대상과지표를정의하고, 업무규칙을정의한다. 측정환경및측정계획을수립하고, 품질측정후측정결과를보고한다. 오류추정데이터에대한현상을분석한다. 오류데이터의개선을위해캠페인, 클린징, 시스템로직개선, 표준화등의개선활동을수행한다. 활동을수행한다. 다. 품질이슈관리 / 성과평가 / 지침및업무기준의제ㆍ개정 / 정기적감사활동을수행한다. 대상선정 품질측정환경준비 원인분석요청 대상선정 품질개선평가 기준정보정의 측정계획수립 원인분석계획수립 개선방안수립 품질목표관리 DQI 정의 품질측정 원인분석 정제및개선 품질지침관리 CTQ 정의 품질측정결과보고 품질관리감사 업무규칙정의 이슈관리 7
업무규칙의 정의 2.데이터품질 관리 방법 데이터품질 진단은 데이터에 대한 기술적 접근과 업무적 접근 방법으로 업무규칙을 정의하여 데이터 를 검증 기술적 접근에 의한 정의 (Inside - Out) 업무적 요구사항에 의한 정의 (Outside - In) Profiling&Auditing 분석 자료 업무적 관점 분석 요구사항 분석 변환 100.00% 99.00% 98.00% 97.00% 96.00% 업무규칙 정의 데이터 이슈 조 사 도출 95.00% 94.00% 93.00% 92.00% 91.00% 90.00% 1차 2차 3차 4차 업무규칙 설계 데이터 분석으로부터 시작(프로파일링 결과 활용) 데이터 구조나 허용 값, 다른 데이터와의 관계 등의 정보를 파악하기 위해 메타 데이터 활용 업무 관점의 이슈나 현업 담당자의 인터뷰 등을 통해 업무 수행에 핵심이 되는 요건으로부터 시작 추출된 부정확한 데이터에서도 검증규칙 도출 가능 재 작업, 고객 불만 등의 핵심 업무 프로세스 로부터 업무규칙 도출 8
데이터품질지표 2. 데이터품질관리방법 데이터품질지표를적용하여관리 대분류소분류지표내용 완전성 유효성 단독완전성조건완전성범위유효성날짜유효성형식유효성코드유효성 컬럼값이항상존재 (Not Null) 조건에따라컬럼값이항상존재 (Not Null) 컬럼값이유효값목록에존재하여야하거나유효범위내에존재하여야한다컬럼정의가날짜일때값은유효한날짜값을가져야한다정해진포맷에맞게값이존재하여야한다컬럼값이단일코드또는통합코드내에정의된값을가져야한다 유일성유일성 PK, UK, 업무적으로유일해야하는데이터는 1 건만존재하여야한다 최신성최신성마스터테이블의데이터는이력데이터의최근데이터와동일하여야한다 일관성 참조무결성테이블간일관성컬럼간일관성레코드간일관성데이터흐름일관성 모델링단계에서설계된테이블과테이블간의참조무결성이 DBMS 에서도일관되게유지되어야한다 테이블간의컬럼값이업무규칙을준수해야한다 동일테이블또는 2 개이상의테이블간의 column 값이서로모순되지않아야한다 동일테이블에 2 개이상의 Row 간의값이일관성 데이터를생성하거나가공하여시스템간데이터가이동되는경우데이터누락여부, 오류로잘못생성, 가공된데이터나중복생성된데이터가있는지를평가 9
데이터품질관리의시작 2. 데이터품질관리방법 데이터품질관리는데이터식별부터시작 ü 어떤데이터인가? ü 문제데이터의관련항목은어떤것들이있는가? ü 어떤데이터가정확한데이터인가? ü 오류데이터를어떻게발견하고조치할수있는가? ü 지속적인데이터품질관리를위해서어떻게해야하는가? 10
메타데이터란? 3. 데이터표준기반의데이터품질관리 메타데이터의이해? 데이터의사용성과관리효율성을향상시키기위해필요한데이터에관한데이터를메타데이터 (Metadata) 라하며이러한메타데이터를통합관리하는시스템을메타데이터관리시스템이라함. Customer Table 데이터의구조 Metadata CUST_NO CUST_NAME SEX CUST_ADDRESS CUST_COMMI ACT_OPEN_DATE 4321888 홍길동 F 경기도고양시 A 아파트 500,000,000 원 30/11/05 Data 1234567 이하늘 M 경기도안양시범계동 56 30,000,000 원 12/11/04 업무수행과관련된모든데이터예 ) 고객번호, 계약번호, 청구일자, 청구금액등 3456900 김한국 F 서울시여의도동도화동 1,000,000,000 원 11/12/03 Master Data 자주동일한의미로, 시간의흐름에따라변하지않는업무수행을위한기반데이터예 ) 인사마스터 : 군번, 고객명, 성별, 생년월일등조직마스터 : 조직코드, 조직명, 상위조직코드등 Code 전체업무프로세스에서사용되는코드성데이터예 ) 장비구분, 성별코드, 직위코드등 11
민주명성 별성령연 혼기념결일편번호우 ( 자 ) 화번호전 ( 자 ) 맹가맹점명가 종업급등 수료율수불방법지 불주기지 민주명성 별성령연 혼기념결일편번호우 ( 자 ) 화번호전 ( 자 ) 맹가맹점명가 종업급등 수료율수불방법지 불주기지 출매드카 민주맹가 인승수영업접소 품구분상 인승인승 인승드번호카 맹점번가호부개월할 동자 출매드카 민주맹가 인승수영업접소 품구분상 인승인승 인승드번호카 맹점번가호부개월할 동자 동/ 수 동/ 수 드카민번호주 드구분카원등급회 치영업유소제일결 제구분결 구청월금 / 입 드카금반영입일 품구분상정상청구원금 연체청구원금미도래입금원금 드카민번호주 드구분카원등급회 치영업유소제일결 제구분결 구청월금 / 입 드카금반영입일 품구분상정상청구원금 연체청구원금미도래입금원금 민주명성 별성령연 혼기념결일편번호우 ( 자 ) 화번호전 ( 자 ) 맹가맹점명가 종업급등 수료율수불방법지 불주기지 민주명성 별성령연 혼기념결일편번호우 ( 자 ) 화번호전 ( 자 ) 맹가맹점명가 종업급등 수료율수불방법지 불주기지 출매드카 민주맹가 인승수영업접소 품구분상 인승인승 인승드번호카 맹점번가호부개월할 동자 출매드카 민주맹가 인승수영업접소 품구분상 인승인승 인승드번호카 맹점번가호부개월할 동자 동/ 수 동/ 수 드카민번호주 드구분카원등급회 치영업유소제일결 제구분결 구청월금 / 입 드카금반영입일 품구분상정상청구원금 연체청구원금미도래입금원금 드카민번호주 드구분카원등급회 치영업유소제일결 제구분결 구청월금 / 입 드카금반영입일 품구분상정상청구원금 연체청구원금미도래입금원금 데이터표준화란? 3. 데이터표준기반의데이터품질관리 DATA 표준화? 데이터표준화란데이터요소의생성에규칙을적용하여데이터의품질을향상시키는계속적인활동이다. 데이터표준화원칙과표준관리체계를수립하고, 반복적인표준화활동을통해데이터표준을생성 검증 통제하는일련의프로세스이다. AS-IS TO-BE 데이터베이스 연구마루 통합성과관리 성과누리 표준데이터 데이터관리표준 데이터아키텍처원칙 12
데이터표준의정의 3. 데이터표준기반의데이터품질관리 13
표준데이터구성요소 3. 데이터표준기반의데이터품질관리 표준용어표준단어표준도메인표준항목 표준단어 + 복합어 + 유사어 분리하여자립적으로쓸수있는최소한의말 유사한유형의데이터를그룹화하여공통데이터의유형과길이를정의한것 표준단어 + ( 표준단어 ) +..+ 도메인 VAT 납입일 부가가치세납부일자 부가가치세납부일자 부가가치세납부일자 VAT_PAY_DT ( 애트리뷰트 ) ( 컬럼 ) 14
도메인정의 3. 데이터표준기반의데이터품질관리 도메인관련항목허용값 번호 주민번호, 계좌번호, 고객번호접수번호 * 주민번호형식 : 999999-9999999 ( 숫자 6 자리 - 숫자 7 자리구성 ) 율, 금액, 수량 대출이자율, 진척율감가상각금, 수수료, 거래횟수 대출이자율최소값 : 0 최대값 : 49 명칭 상호명, 고객명, 논문한글제목, 논문영문제목 논문한글제목 : 필수입력항목논문영문제목 : 필수입력항목 날짜 접수일자, 거래일시 ( 년월, 년월일, 년월일시분초 ) 일자형식 : Y Y Y Y -MM-DD 일시형식 : Y Y Y Y MMDDHH24MISS 내용 상품설명, 반려사유 ( 설명, 비고, 사유 ) 반려사유 : 검토결과반려시필수입력항목 분류, 코드 계정코드, 상품코드, 계약상태코드 15 계약상태코드코드종류 : 공통코드코드 ID : C0014
도메인기반의데이터품질진단 3. 데이터표준기반의데이터품질관리 품질지표 완전성 관련항목 고객주민번호 진단방법 주민번호는숫자 6 자리 - 숫자 7 자리구성 조건완전성 대출이자율 대출이자율은법정최고이율은 49% 이므로 0~ 49 사이의값을가져야함 범위유효성 논문영문제목 제목은반드시입력되어야한다. 영문명은알파벳으로입력되어야한다. 날짜유효성 접수일자 거래일시는 Y Y Y Y -MM-DD HH:MM:SS 로구성되어야한다. 형식유효성 반려사유 기안반려시반려사유는반드시입력되어야한다. 코드유효성 계약상태코드 계약상태코드는공통코드테이블의코드 ID C0014 의코드값중에하나를가져야한다. 16
절차 ( 프로세스 ) 4. 데이터표준관리체계 17
조직 / 역할 / 책임 (1) 3. 데이터표준화소개 데이터관리를위한명확한역할및책임을정의 모델러 데이터구조관리 데이터아키텍트 데이터구조생성통제하는사전데이터관리 데이터모델설계 데이터요구사항관리 데이터표준적용 데이터모델통합관리 데이터사용자 비표준 /DB GAP 개선 데이터표준관리 데이터관리위원회 데이터요구사항요청 데이터관리에대한 데이터생성의주체 전략적의사결정을 데이터품질이슈제기 데이터오너 데이터품질관리자 하는최고의사결정기구 데이터발생후오류를발견하여조치하는사후데이터관리 데이터품질이슈관리 품질관리활동에대한 데이터품질관리책임자전반적인관리 데이터품질개선의주체 - 대상, 업무규칙평가 - 측정결과평가 데이터품질관리 18
조직 / 역할 / 책임 (2) 4. 데이터표준관리체계 19
데이터표준의활용 4. 데이터표준관리체계 데이터표준정의데이터구조설계데이터베이스구현 데이터표준적용 DB 반영통제 표준단어 논리모델 주제영역 물리모델 개발계 도메인 엔티티 테이블 테스트계 표준항목 어트리뷰트 컬럼 운영계 표준준수여부검증 설계 vs 구현 GAP 분석 20
통합데이터관리시스템 4. 데이터표준관리체계 데이터베이스 품질관리대상 데이터품질관리시스템 품질지표 업무규칙 품질현황품질추이 DB #1 오류데이터측정 / 개선 측정결과 데이터흐름 오류데이터 개선활동내역 결과분석 개선평가 품질현황품질추이 경영층 DB #2 DB #3 데이터구조관리 표준데이터 데이터베이스정보 데이터흐름 메타데이터관리시스템 데이터모델 ETL 메타정보 영향도분석 As-Is 현행모델정보 BI 정보 관리정보 표준정보모델 /APP 정보 표준준수도데이터의미 데이터품질관리자 DA 영향도분석 형상관리 OLAP/ 레포팅 ETL ETCL 프로세스 매핑...... 모델링도구 IT 사용자 App 개발 보고서개발 ETLJOB 개발 모델링 현업사용자 APP 개발자 OLAP 개발자 ETL 개발자모델러 21
위세아이텍 / DM 사업부 최용준부장 cyj337@wise.co.kr 22