4 차산업혁명의성공 " 데이터품질 " Data Quality management 2016.11.4 이해곤이사
Contents 1. AI시대데이터품질관리동향 2. 정형 / 비정형데이터품질관리방법 3. 관측데이터품질관리사례 4. 빅데이터품질관리접근방안 5. 결언 2014 c B2EN Consulting All Rights Reserved
Waston can t beat 007 1. AI 시대데이터품질관리동향 The CDO s Top 10 Surprises of a Successful Enterprise Data Office > James Tyo Executive Vice President and Enterprise Chief Data Officer BB&T 1
Machine Learning 1. AI 시대데이터품질관리동향 Rock, Paper, Scissors Machine Learning with Apache Spark [Apache Spark)] 빅데이터분석을위한 SW - 빅데이터분산처리시스템인하둡 MapReduce 의한계점을극복하기위한기술 2
Data Governance 영역구분 (9 개 ->10 개 ) 1. AI 시대데이터품질관리동향 The DAMA-DMBOK Guide Knowledge Area Wheel The DAMA-DMBOK2 Guide Knowledge Area Wheel DQM DAM DD DA DQ DM/DD META DOM META DS/DO DG DG DSM DCM DW/BI DS MDM ED/MD DI DW/BI DC < Guide to the Data Management Body of Knowledge, 2009 > < Guide to the Data Management Body of Knowledge, 2015 > 출처 : WWW.DAMA.ORG 3
Data Quality Management 1. AI 시대데이터품질관리동향 Ten Steps to Quality Data and Trusted Information 계획 인지 Climbing the Data Quality Maturity Curve - Danette McGilvray 실행 4
Data Quality Management-VALUE 1. AI 시대데이터품질관리동향 5
The Age of the Quality 1. AI 시대데이터품질관리동향 ~90 년대 용서 ~ 현재 미래 ~ 재난 6
우리의노력 1. AI 시대데이터품질관리동향 100-1 =?0 7
정형데이터품질관리 2. 정형 / 비정형데이터품질관리방법 데이터품질기준 품질기준 정의 완전성 (Completeness) 필수항목에누락이없어야한다. 유일성 (Uniqueness) 데이터항목은유일해야하며중복되어서는안된다. 유효성 (Validity) 데이터항목은정해진데이터유효범위및도메인을충족해야한다. 일관성 (Consistency) 데이터가지켜야할구조, 값, 표현되는형태가일관되게정의되고, 서로일치해야한다. 정확성 (Accuracy) 실세계에존재하는객체의표현값이정확히반영이되어야한다는것을의미한다. 데이터품질진단대상및진단방법 진단대상진단방법정의 값 (Value) 프로파일 (Profiling) 업무규칙 (BR:Business Rule) 필수항목에누락이없어야한다. 정의된표준 ( 도메인 ) 에맞게저장되어야한다. - 칼럼분석, 패턴분석, 코드분석 업무 ( 규정 ) 에정의된의미의값 ( 산출식 ) 으로저장되어있어야한다. - 프로파일에의한도출, VOC/ BOC 에의한도출, 순수규정기반도출 구조 표준 / 구조정규화 데이터표준준수진단, 논리 / 물리모델표준에맞게설계되어야한다. ERD 관리, 데이터베이스구조일관성등 프로세스 품질관리체계 데이터의품질관리를위한절차요소별관리정도를진단한다. - 요구사항 / 표준 / 오너십 / 구조 /DB/ 흐름 / 활용 / 뷰관리, 진단및개선관리 출처 > 한국데이터베이스진흥원데이터품질진단절차및기법 (Ver1.0) 8
비정형데이터품질관리 2. 정형 / 비정형데이터품질관리방법 텍스트 대상자료유형 메타데이터 직접입력방식 OCR 변환방식 한자자료 이미지 사운드 동영상 3D GIS 항공사진 기상위성사진 지도제작위성사진 내용 콘텐츠에대한각종정보를가지고있는데이터로구축되는 DB 형 문자의직접입력작업으로구축되는 DB 형태 문자의 OCR 변환작업으로구축되는 DB 형태 고문서, 고도서등과같이한자로만쓰여진자료를입력작업으로구축되는 DB 형태 스캐닝또는카메라촬영을통하여구축되는 DB 형태 녹음또는보유자료 (tape) 의편집으로구축되는 DB 형태 촬영또는보유자료 (reel tape, 베타 tape, 비디오 tape) 의편집으로구축되는 DB 형태 디지털촬영을통하여나온이미지를 3 차원데이터로구축하는이미지기반모델링및렌더링방식과 3D 스캐닝을통해 3 차원데이터로구축되는 DB 형태 기제작된지도의스캐닝및속성정보를입력등으로구축되는 DB 형태 필름및사진형태로보관되어있는항공사진에촬영정보및공간정보를수록하여구축되는 DB 형태 과거위성원시자료및지구관측위성이진자료를표준포맷으로전환하여구축되는 DB 형태 위성사진에속성정보를입력하고수치정사영상자료로구축되는 DB 형태 진단방법 데이터의중요도를산정하여측정기준간의가중치를정의하는방법적용 - 사전정의 (predefined) 방식 - 임의적 (ad-hoc) 방식 (AHP) 기술진화 Machine learning, deep learning, R,SCORING 로직, 유사성분석등적용 SNS, 센서등순수빅데이터로 DB 에저장되어지지않은데이터 출처 > 한국데이터베이스진흥원데이터품질진단절차및기법 (Ver1.0) < 표 2-4> 콘텐츠유형분류사례 9
OO 관측데이터품질모니터링체계 3. 관측데이터품질관리사례 1. 댐 -> 취수장 -> 정수장 -> 가압장 - > 배수지 -> 수용가제공까지단계별관측센서장비설치를통해측정 2. 측정값 : 수질, 수위, 유량, 압력등 database 저장 공유, 활용 품질도움이 품질도움이 10
유효범위설정적용로직 3. 관측데이터품질관리사례 이상수치 ( 오측, 결측 ) 확인및적용절차 1 분데이터일별 MIN,MAX 일 MAX 평균산출 일 MIN 평균산출 유효범위도출 유효범위측정방안 헌팅예상데이터추출 1. 원인분석 2. 제거또는표준값보정 유량 3 분 3 분간유지하는경우 MAX 값에서제외 15 분 5 분이상유지하는경우 MAX 값에포함 시간 11 적용기준 5 분이상측정값이유지되면정상데이터로간주하여 MAX 값으로설정함 ( 예외조건 ) 5 분이상이상데이터발생경우 기준치를설정하여제외하는로직필요 5 분미만측정값이유지되어데이터가튀는경우 ( 이상데이터 ) 는비정상데이터로간주하여제외함 ( 예외조건 ) 5 분미만인경우에도정상데이터존재함 5 분미만인경우라도일 MAX 평균 *2 보다작으면유효값으로설정 5 분유량의경우 60000 이상을상회하는경우재검증
데이터품질모니터링시스템 3. 관측데이터품질관리사례 필요성 데이터취득프로그램가동여부및상태확인이안되적시조치의어려움 오측 ( 헌팅등 ), 결측현상이자주발생함 데이터품질모니터링시스템 데이터취득프로그램가동상태 본사프로그램가동경고대시보드 오 결측보정현황 사례 12
Big Data 수집활용유형 ( 예시 ) 4. 빅데이터품질관리접근방안 CASE1 : 발생후바로소멸되는빅데이터정보활용 DB 저장 활용방법 선별 / 통계정보추출 HDFS 별도의정보로저장하지않고추출과동시에조건에의해활용 CASE2 : 빅데이터단독활용 선별 / 통계정보추출 HDFS 추출 / 변환 빅데이터정보중활용도가있는정보 DB로저장하 저장 여활용 CASE3 : 빅데이터 + 정형데이터정보융합활용 선별 / 통계정보추출 HDFS 추출 / 변환 기존데이터 필요정보를추출하여 DB에저장하고기존정보와융합하여활용 13
Big Data 활용절차단계별품질관리요소 4. 빅데이터품질관리접근방안 선별 / 통계정보추출 HDFS 기존데이터 품질관리영역 품질관리영역 품질관리영역 품질관리영역 데이터생성시품질관리요소 데이터수집시품질관리요소 데이터저장시품질관리요소 데이터제공시품질관리요소 적시에제공되었는가? 발생 ( 생성 ) 기준 ( 표준 ) 이맞게정의되어있는가? 발생 ( 생성 ) 기준 ( 표준 ) 에맞게저장되어있는가? - 누락데이터가있는가? - 충분성 ( 정보, 량 ) 이확보되고있는가? 품질검증방법 - 샘플링, 프로파일링 - 추이분석 ( 누락분파악 ) 수집기준의타당성 ( 근거, 통계적유의성 ) 이확보되었는가? 추출조건에맞는정보의관련항목모두추출되었는가? - 필수정보항목누락여부 악의적유포데이터 (abuse) 제거방법 (ex, 알바댓글, 고의적업무방해 ) 저장시누락 ( 중복 ) 된데이터는없는가? 저장을위한키구성이적절한가? 품질검증방법 - File 검증방법 - 저장 layout 에따른검증 최신의데이터인가? 충분한정보가제공되고있는가? 사용자가원하는정보가제공되었는가? 방법 - 내부사용자설문조사 - feedback - 만족도조사 - 사후고객만족도분석 14
5. 결언 4 차산업혁명의도래는 IOT, 빅데이터를이용가능한신기술의개발로 광대한데이터 의분석이가능함에따라급속도로발전하고있다. 여기서간과해서안될사실하나는수집, 활용되어지는데이터의정확성과유의미성이라고볼수있으며, 기존의정형데이터위주의품질관리의영역에서비정형 / 빅데이터로확대하여품질관리기술도개발되어야한다. 2000 년초반 DW/CRM 초기에저품질데이터로인한시행착오를우리는기억하고있다. 2016 년현재그동안버려졌던관측센서데이터, SNS 데이터, 통신데이터등을기반으로하는 AI(Artificial Intelligence) 가가까운미래에우리에게새로운문명의혜택으로다가올지, 아니면잘못된데이터수집이나정확하지않은저장관리, 감시소홀, 누군가 (person, machine) 의왜곡으로인해사회각분야 ( 의료, 항공, 기업경영등 ) 에엄청난정보의재앙으로닥쳐올지, 선택은지금준비하는자의책임이될것이다. 데이터품질분야에활동하는있는한사람으로서최근의데이터품질관리동향과관측데이터품질관리사례를공유하고발전해나갔으면한다. > 15
감사합니다! B2EN becomes a main role player to make KOREA the best practice in Database as the first class Database Solution provider and grows up with ensuring the realistic solutions for such problems of customers