데이터아키텍처데이터모델링 강연 (요약)

Similar documents
PowerPoint 프레젠테이션

Bigdata가 제공하는 구체적인 혜택과 변화 양상 기업의 데이터 기반의 의사결정 시스템 구축 의지 확대 양상 빅데이터를 활용한 경영 및 마케팅 지속적인 증가세 뚜렷 빅데이터를 도입한 기업은 사전 기대를 뛰어넘는 효과를 경험 본 조사 내용은 美 BARC- Researc

데이터베이스-4부0816

ETL_project_best_practice1.ppt

Data Industry White Paper

5-03-Â÷¼¼´ëÀ¥Iš

周 縁 の 文 化 交 渉 学 シリーズ 3 陵 墓 からみた 東 アジア 諸 国 の 位 相 朝 鮮 王 陵 とその 周 縁 머리말 조선시대에 왕(비)이 사망하면 그 육신은 땅에 묻어 陵 을 조성하고, 삼년상이 지나면 그 혼을 국가 사당인 종묘에 모셔 놓았다. 양자는 모두 국가의

第 1 節 組 織 11 第 1 章 檢 察 의 組 織 人 事 制 度 등 第 1 項 大 檢 察 廳 第 1 節 組 대검찰청은 대법원에 대응하여 수도인 서울에 위치 한다(검찰청법 제2조,제3조,대검찰청의 위치와 각급 검찰청의명칭및위치에관한규정 제2조). 대검찰청에 검찰총장,대

<C1F6B8AEC1A4BAB82DC3D6C1BEC0CEBCE E687770>

제 31회 전국 고교생 문예백일장 산문 부문 심사평.hwp

DBPIA-NURIMEDIA

감정원-0506

개정판 서문 Prologue 21세기 한국경제를 이끌어갈 후배들에게 드립니다 1부 인생의 목표로써 CEO라는 비전을 확고히 하자 2부 인생의 비전을 장기 전략으로 구체화하라 1장 미래 경영환경 이해하기 20p 4장 장기 실행 전략 수립하기 108p 1) 미래 환경분석이

동산병원소식지-6월

23

SW

1 SW

Global Bigdata 사용 현황 및 향후 활용 전망 빅데이터 미도입 이유 필요성 못느낌, 분석 가치 판단 불가 향후 투자를 집중할 분야는 보안 모니터링 분야 와 자동화 시스템 분야 빅데이터의 핵심 가치 - 트랜드 예측 과 제품 개선 도움 빅데이터 운영 애로 사항

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

JP작업

김기남_ATDC2016_160620_[키노트].key

Yggdrash White Paper Kr_ver 0.18

내지출력

자식농사웹완

표1.4출력

003-p.ps

중앙도서관소식지겨울내지33

양성내지b72뼈訪?303逞


표1~4


chungo_story_2013.pdf

*중1부

2

Çѱ¹ÀÇ ¼º°øº¥Ã³µµÅ¥

...._


전반부-pdf

<4D F736F F F696E74202D20312E20B0E6C1A6C0FCB8C15F3136B3E2C7CFB9DDB1E25F325FC6ED28C0BA292E >

_

12월월간보고서내지편집3

에너지포커스 2007년 가을호


01_당선자공약_서울

인권문예대회_작품집4-2




목차

A°ø¸ðÀü ³»Áö1-¼öÁ¤

±¹³»°æÁ¦ º¹»ç1

¿¡³ÊÁö ÀÚ¿ø-Âü°í ³»Áö.PDF

전반부-pdf

뉴스레터6호

Microsoft PowerPoint 하반기 크레딧 전망_V3.pptx

50차 본문 최종

³»Áöc03âš

fsb9¿ù³»ÁöÃÖÁ¾Ãâ

¾ç¼º-¾÷¹«Æí¶÷-³»¿ëÃà¼Ò4

전도대회자료집

< DBAB4B9ABC3BB5FBAB9B9ABB0FCB8AEB8C5B4BABEF32D33B1C72E706466>

<3344C7C1B8B0C6C320BFE4BEE02D E706466>

µ¶ÀÏÅëÀÏÁý1~2Æíq36£02Ð




CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

15_3oracle

???德嶠짚

FD¾ØÅÍÇÁ¶óÀÌÁî(Àå¹Ù²Þ)-ÀÛ¾÷Áß

슬라이드 1

목 차 Ⅰ. 사업개요 5 1. 사업배경및목적 5 2. 사업내용 8 Ⅱ. 국내목재산업트렌드분석및미래시장예측 9 1. 국내외산업동향 9 2. 국내목재산업트렌드분석및미래시장예측 목재제품의종류 국내목재산업현황 목재산업트렌드분석및미래시

160322_ADOP 상품 소개서_1.0

슬라이드 1

Á¦3ºÎ-6Àå

*2009데이터_3부

1 전통 소프트웨어 가. ERP 시장 ERP 업계, 클라우드 기반 서비스로 새로운 활력 모색 - SAP-LGCNS : SAP HANA 클라우드(SAP HEC)를 통해 국내 사례 확보 및 아태 지역 진 출 추진 - 영림원 : 아시아 클라우드 ERP 시장 공략 추진 - 더

0312젠-가이드라인-표지최종.ps, page Normalize

U.Tu System Application DW Service AGENDA 1. 개요 4. 솔루션 모음 1.1. 제안의 배경 및 목적 4.1. 고객정의 DW구축에 필요한 메타정보 생성 1.2. 제품 개요 4.2. 사전 변경 관리 1.3. 제품 특장점 4.3. 부품화형

PowerPoint 프레젠테이션

OCW_C언어 기초

wheel+32_ pdf

Oracle Apps Day_SEM

BSC Discussion 1

Contents SEOUL NATIONAL UNIVERSITY FUTURE INTEGRATED-TECHNOLOGY PROGRAM FIP 13 FIP

SEOUL NATIONAL UNIVERSITY FUTURE INTEGRATED-TECHNOLOGY PROGRAM 13 : (IoT), 4.0,,,,,, CEO. 13 : ( ) ~ 11 1 ( ) : 310

À̵¿·Îº¿ÀÇ ÀÎÅͳݱâ¹Ý ¿ø°ÝÁ¦¾î½Ã ½Ã°£Áö¿¬¿¡_.hwp

?털恬묵

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

ºñ¸¸1Àå

. 1, 3,,., ICT(),,.. 2 3,.. Player (, ) IT,. 3,...,.

¼Ò½ÄÁö21È£

리텀 백서 새로저장-작은용량

빅데이터_DAY key

USER GUIDE

Poison null byte Excuse the ads! We need some help to keep our site up. List 1 Conditions 2 Exploit plan 2.1 chunksize(p)!= prev_size (next_chunk(p) 3

월간 CONTENTS 3 EXPERT COLUMN 영화 점퍼 와 트로이목마 4 SPECIAL REPORT 패치 관리의 한계와 AhnLab Patch Management 핵심은 패치 관리, 왜? 8 HOT ISSUE 2016년에 챙겨봐야 할 개인정보보호

세션 Tutorial 1 강연 시간 5/11(수) 09:30-11:30 주 제 5G System: Vision & Enabling Technologies 성 명 강충구 소속기관명 고려대학교 부서/학과명 전기전자공학부 직 위 교수 5G 이동통신의 응용 분야에 따른 기술

아날로그표지b61?절

¼Ò»ó°øÀΰܿïÈ£_³»Áö

Transcription:

4 차산업혁명의성공 " 데이터품질 " Data Quality management 2016.11.4 이해곤이사

Contents 1. AI시대데이터품질관리동향 2. 정형 / 비정형데이터품질관리방법 3. 관측데이터품질관리사례 4. 빅데이터품질관리접근방안 5. 결언 2014 c B2EN Consulting All Rights Reserved

Waston can t beat 007 1. AI 시대데이터품질관리동향 The CDO s Top 10 Surprises of a Successful Enterprise Data Office > James Tyo Executive Vice President and Enterprise Chief Data Officer BB&T 1

Machine Learning 1. AI 시대데이터품질관리동향 Rock, Paper, Scissors Machine Learning with Apache Spark [Apache Spark)] 빅데이터분석을위한 SW - 빅데이터분산처리시스템인하둡 MapReduce 의한계점을극복하기위한기술 2

Data Governance 영역구분 (9 개 ->10 개 ) 1. AI 시대데이터품질관리동향 The DAMA-DMBOK Guide Knowledge Area Wheel The DAMA-DMBOK2 Guide Knowledge Area Wheel DQM DAM DD DA DQ DM/DD META DOM META DS/DO DG DG DSM DCM DW/BI DS MDM ED/MD DI DW/BI DC < Guide to the Data Management Body of Knowledge, 2009 > < Guide to the Data Management Body of Knowledge, 2015 > 출처 : WWW.DAMA.ORG 3

Data Quality Management 1. AI 시대데이터품질관리동향 Ten Steps to Quality Data and Trusted Information 계획 인지 Climbing the Data Quality Maturity Curve - Danette McGilvray 실행 4

Data Quality Management-VALUE 1. AI 시대데이터품질관리동향 5

The Age of the Quality 1. AI 시대데이터품질관리동향 ~90 년대 용서 ~ 현재 미래 ~ 재난 6

우리의노력 1. AI 시대데이터품질관리동향 100-1 =?0 7

정형데이터품질관리 2. 정형 / 비정형데이터품질관리방법 데이터품질기준 품질기준 정의 완전성 (Completeness) 필수항목에누락이없어야한다. 유일성 (Uniqueness) 데이터항목은유일해야하며중복되어서는안된다. 유효성 (Validity) 데이터항목은정해진데이터유효범위및도메인을충족해야한다. 일관성 (Consistency) 데이터가지켜야할구조, 값, 표현되는형태가일관되게정의되고, 서로일치해야한다. 정확성 (Accuracy) 실세계에존재하는객체의표현값이정확히반영이되어야한다는것을의미한다. 데이터품질진단대상및진단방법 진단대상진단방법정의 값 (Value) 프로파일 (Profiling) 업무규칙 (BR:Business Rule) 필수항목에누락이없어야한다. 정의된표준 ( 도메인 ) 에맞게저장되어야한다. - 칼럼분석, 패턴분석, 코드분석 업무 ( 규정 ) 에정의된의미의값 ( 산출식 ) 으로저장되어있어야한다. - 프로파일에의한도출, VOC/ BOC 에의한도출, 순수규정기반도출 구조 표준 / 구조정규화 데이터표준준수진단, 논리 / 물리모델표준에맞게설계되어야한다. ERD 관리, 데이터베이스구조일관성등 프로세스 품질관리체계 데이터의품질관리를위한절차요소별관리정도를진단한다. - 요구사항 / 표준 / 오너십 / 구조 /DB/ 흐름 / 활용 / 뷰관리, 진단및개선관리 출처 > 한국데이터베이스진흥원데이터품질진단절차및기법 (Ver1.0) 8

비정형데이터품질관리 2. 정형 / 비정형데이터품질관리방법 텍스트 대상자료유형 메타데이터 직접입력방식 OCR 변환방식 한자자료 이미지 사운드 동영상 3D GIS 항공사진 기상위성사진 지도제작위성사진 내용 콘텐츠에대한각종정보를가지고있는데이터로구축되는 DB 형 문자의직접입력작업으로구축되는 DB 형태 문자의 OCR 변환작업으로구축되는 DB 형태 고문서, 고도서등과같이한자로만쓰여진자료를입력작업으로구축되는 DB 형태 스캐닝또는카메라촬영을통하여구축되는 DB 형태 녹음또는보유자료 (tape) 의편집으로구축되는 DB 형태 촬영또는보유자료 (reel tape, 베타 tape, 비디오 tape) 의편집으로구축되는 DB 형태 디지털촬영을통하여나온이미지를 3 차원데이터로구축하는이미지기반모델링및렌더링방식과 3D 스캐닝을통해 3 차원데이터로구축되는 DB 형태 기제작된지도의스캐닝및속성정보를입력등으로구축되는 DB 형태 필름및사진형태로보관되어있는항공사진에촬영정보및공간정보를수록하여구축되는 DB 형태 과거위성원시자료및지구관측위성이진자료를표준포맷으로전환하여구축되는 DB 형태 위성사진에속성정보를입력하고수치정사영상자료로구축되는 DB 형태 진단방법 데이터의중요도를산정하여측정기준간의가중치를정의하는방법적용 - 사전정의 (predefined) 방식 - 임의적 (ad-hoc) 방식 (AHP) 기술진화 Machine learning, deep learning, R,SCORING 로직, 유사성분석등적용 SNS, 센서등순수빅데이터로 DB 에저장되어지지않은데이터 출처 > 한국데이터베이스진흥원데이터품질진단절차및기법 (Ver1.0) < 표 2-4> 콘텐츠유형분류사례 9

OO 관측데이터품질모니터링체계 3. 관측데이터품질관리사례 1. 댐 -> 취수장 -> 정수장 -> 가압장 - > 배수지 -> 수용가제공까지단계별관측센서장비설치를통해측정 2. 측정값 : 수질, 수위, 유량, 압력등 database 저장 공유, 활용 품질도움이 품질도움이 10

유효범위설정적용로직 3. 관측데이터품질관리사례 이상수치 ( 오측, 결측 ) 확인및적용절차 1 분데이터일별 MIN,MAX 일 MAX 평균산출 일 MIN 평균산출 유효범위도출 유효범위측정방안 헌팅예상데이터추출 1. 원인분석 2. 제거또는표준값보정 유량 3 분 3 분간유지하는경우 MAX 값에서제외 15 분 5 분이상유지하는경우 MAX 값에포함 시간 11 적용기준 5 분이상측정값이유지되면정상데이터로간주하여 MAX 값으로설정함 ( 예외조건 ) 5 분이상이상데이터발생경우 기준치를설정하여제외하는로직필요 5 분미만측정값이유지되어데이터가튀는경우 ( 이상데이터 ) 는비정상데이터로간주하여제외함 ( 예외조건 ) 5 분미만인경우에도정상데이터존재함 5 분미만인경우라도일 MAX 평균 *2 보다작으면유효값으로설정 5 분유량의경우 60000 이상을상회하는경우재검증

데이터품질모니터링시스템 3. 관측데이터품질관리사례 필요성 데이터취득프로그램가동여부및상태확인이안되적시조치의어려움 오측 ( 헌팅등 ), 결측현상이자주발생함 데이터품질모니터링시스템 데이터취득프로그램가동상태 본사프로그램가동경고대시보드 오 결측보정현황 사례 12

Big Data 수집활용유형 ( 예시 ) 4. 빅데이터품질관리접근방안 CASE1 : 발생후바로소멸되는빅데이터정보활용 DB 저장 활용방법 선별 / 통계정보추출 HDFS 별도의정보로저장하지않고추출과동시에조건에의해활용 CASE2 : 빅데이터단독활용 선별 / 통계정보추출 HDFS 추출 / 변환 빅데이터정보중활용도가있는정보 DB로저장하 저장 여활용 CASE3 : 빅데이터 + 정형데이터정보융합활용 선별 / 통계정보추출 HDFS 추출 / 변환 기존데이터 필요정보를추출하여 DB에저장하고기존정보와융합하여활용 13

Big Data 활용절차단계별품질관리요소 4. 빅데이터품질관리접근방안 선별 / 통계정보추출 HDFS 기존데이터 품질관리영역 품질관리영역 품질관리영역 품질관리영역 데이터생성시품질관리요소 데이터수집시품질관리요소 데이터저장시품질관리요소 데이터제공시품질관리요소 적시에제공되었는가? 발생 ( 생성 ) 기준 ( 표준 ) 이맞게정의되어있는가? 발생 ( 생성 ) 기준 ( 표준 ) 에맞게저장되어있는가? - 누락데이터가있는가? - 충분성 ( 정보, 량 ) 이확보되고있는가? 품질검증방법 - 샘플링, 프로파일링 - 추이분석 ( 누락분파악 ) 수집기준의타당성 ( 근거, 통계적유의성 ) 이확보되었는가? 추출조건에맞는정보의관련항목모두추출되었는가? - 필수정보항목누락여부 악의적유포데이터 (abuse) 제거방법 (ex, 알바댓글, 고의적업무방해 ) 저장시누락 ( 중복 ) 된데이터는없는가? 저장을위한키구성이적절한가? 품질검증방법 - File 검증방법 - 저장 layout 에따른검증 최신의데이터인가? 충분한정보가제공되고있는가? 사용자가원하는정보가제공되었는가? 방법 - 내부사용자설문조사 - feedback - 만족도조사 - 사후고객만족도분석 14

5. 결언 4 차산업혁명의도래는 IOT, 빅데이터를이용가능한신기술의개발로 광대한데이터 의분석이가능함에따라급속도로발전하고있다. 여기서간과해서안될사실하나는수집, 활용되어지는데이터의정확성과유의미성이라고볼수있으며, 기존의정형데이터위주의품질관리의영역에서비정형 / 빅데이터로확대하여품질관리기술도개발되어야한다. 2000 년초반 DW/CRM 초기에저품질데이터로인한시행착오를우리는기억하고있다. 2016 년현재그동안버려졌던관측센서데이터, SNS 데이터, 통신데이터등을기반으로하는 AI(Artificial Intelligence) 가가까운미래에우리에게새로운문명의혜택으로다가올지, 아니면잘못된데이터수집이나정확하지않은저장관리, 감시소홀, 누군가 (person, machine) 의왜곡으로인해사회각분야 ( 의료, 항공, 기업경영등 ) 에엄청난정보의재앙으로닥쳐올지, 선택은지금준비하는자의책임이될것이다. 데이터품질분야에활동하는있는한사람으로서최근의데이터품질관리동향과관측데이터품질관리사례를공유하고발전해나갔으면한다. > 15

감사합니다! B2EN becomes a main role player to make KOREA the best practice in Database as the first class Database Solution provider and grows up with ensuring the realistic solutions for such problems of customers