4 차산업혁명시대의기본 데이터품질 1
산업혁명 4.0 : 데이터의연결화 What is industry 4.0 The invention of microprocessors brought Automaion into plants on a large scale. 3 차산업혁명자동화 (S/W) 4.0 Water and steam power ushered in the era of mechanized production. 1 차산업혁명기계화 2.0 3.0 데이터의연결화 ( Data) 4차산업혁명데이터의연결화 Ubiquitous sensors and big data analytics connected together into cyber-physical systems. 1.0 2 차산업혁명대량화 Era of division of labor and mass production, Epitomized most famously by Henry Ford. 대량화 (H/ W)
데이터혁명 농업혁명 제조혁명 의료혁명 전통기업의데이터혁명 물류혁명 유통혁명 금융혁명 DNA 데이터분석 이상감지, 데이터분석 데이터가공 / 유통 스타트업기업의데이터혁명 O2O 개인자산관리 트위터뉴스
Data Science vs. AI vs. Big Data(IOT) INSPIRES ANALYTICS BUSINESS INTELLIGENC E 데이터과학 STATISTICS DATA VIZ 자동화 DATA 머신러닝 EMPLOYS ENABLES 데이터마이닝 INSIGHT 기계화 인공지능 DNN (Deep Neural Network ) FACILITATES 딥러닝 데이터연결화 빅데이터 PUSHES POST FUTHER Computer vision Natural language processing General models 대량화
데이터활용 5 단계 1 단계 2 단계 3 단계 4 단계 5 단계 비전 (Vision) 없음 생산성과비전시도 각영역별채널의효율성 전사내부통합 연결된가치부여및인식 전략 (Strategy) 없음 고립적프로젝트, 아래로부터시도 좀더협력적생각, 여전히사일로존재 전사적통합 CRM 프로그램 서로의이익을위해협력하는가치인식 고객경험 (Customer Experience) 협력 (Collaborati on) 프로세스 (Process) 개념없음 내부영역별로집중, 사일로 (Silo) 구조 내부영역별로집중, 사일로적 개념없음 초기편협적고객위주, 사일로적 초기자동화시기, 사일로적 이해하는사일로수준에서집중 문화나동기의변화, 여전히사일로적 사일로수준에서비용과가치의최적화 각영역별연결된비즈니스로이해하고집중 한국고객중심, 분야별, 영역별기업, 내재구조조정데이터전사수준에서통합비용과가치의최적화 좀더넓은영역이해, 협력 고객중심공유, 목표연합적산업간협력데이터초기부터융합끝까지실제적최적화프로세스 정보공유 (Information) 기본적정보의산재팀기준, 산재, 최소의인사이트 사일로수준정보공유, 인사이트발전과정 전사관여정보공유및인사이트 미국기업을넘어선인사이트와정보공유, 외부데이터활용 기술 (Technology) 몹시산재되고미미한기술 산재존재, 한정된역할과집중 사일로내에서높은수준의역할 전사통합수준의높은수준의역할 기업을넘어선높은수준의역할 집중영역 (Metrics) 적은내부적집중영역 산재되고한정된집중영역, 운영내부적집중 사일로내에서효율적, 고객집중부족 전사적고객집중 / 균형있는구조 목표공유, 균형있는구조, 잘연결, 정리된 미국 2000 년초빅데이터 (IOT, 외부데이터, 소셜 )
데이터경제시스템 데이터사용자 Purchase market data directly (solid arrows) or indirectly (dashed arrows) Data contributors By sending bids and offers to trading venues Brokers Data consumers Purchase market directly or indirectly Data vendors Data compilers Aggregate and publish data from multiple trading venues 오픈데이터 민간데이터 Post-trade Data products Data consumers Constructors of pre- and post-trade data Accept, verify, aggregate and match orders to construct market data
빅데이터활용의대부분의문제 통합과가공의문제 DATA Value 1. 데이터통합, 관계, 원인또는분산등의복잡성 2. 빅데이터기술수행하기위한전문가의부족 3. 활용과정의고비용 4. 빅데이터기술의디자인 ( 기획 ) 과적용을위한긴시간 5. 분석전문가의부족 6. 방대한데이터에서활용가능한데이터의선택 7. 낮은데이터품질 8. 기존의분석시스템과의통합의어려움 9. 충분하지않은컴퓨팅자원 ( 분석처리 )
데이터품질관리의필요성 (1/2) 360 8
데이터품질관리의필요성 (2/2) 데이터기반비지니스분석. 활용의증가 9
현행데이터관리체계이슈사례 10
데이터품질관리체계구축을위한 Roadmap 데이터관리기반구축 데이터품질기반구축 전사정보활용기반구축 데이터관리정책수립 데이터표준구축 데이터관리조직, 프로세스 전사표준코드관리 전사코드표준화 전사차원의코드관리체계구축 MDM 체계구축 마스터데이터관리체계구축 기존 APP 수정보완 데이터분류체계수립현행데이터분류체계수립목표데이터분류체계수립데이터아키텍쳐수립현행 DA 구축목표개념 DA 구축데이터관리시스템구축데이터표준, 구조관리데이터베이스통합관리 데이터품질관리체계구축 데이터품질기준정의 데이터품질측정및분석 데이터품질관리시스템구축 데이터품질인증획득 ( DQC-M,V ) 마스터데이터관리방안수립 MDM 대상선정및방안수립 MDM 구축이행계획수립 통합정보활용환경조성빅데이터거버넌스구축데이터과학자육성데이터분석모델구축통합정보활용인프라구축전사 Data Hub 구축전사 EDW,DM 구축데이터분석 Portal 구축
데이터품질관리체계 DA 관리비전 / 전략 DA 관리원칙 전략 DA 관리역량강화 데이터신뢰성과품질확보 조직 CDA 정책 DA DA 관리지침 데이터표준가이드 데이터모델링가이드 데이터품질가이드 데이터흐름가이드 이행시스템담당자 데이터표준관리프로세스 데이터모델관리프로세스 프로세스 데이터품질관리프로세스 데이터흐름관리프로세스 데이터모델러 콘텐츠 DBA 분류체계 통합개념모델 데이터모델개념모델논리모델물리모델 DQI/ CTQ/ BR 메타정보 USER 데이터표준 ( 단어 / 용어, 도메인, 코드등 ) 데이터품질관리자 기반시스템 데이터모델링툴 메타데이터관리시스템 영향도분석시스템 데이터품질관리시스템 모니터링및성능최적화 데이터흐름관리시스템 단일 / 통합 Repository 12
데이터품질관리기능 데이터표준 단어 / 용어 도메인코드 명명규칙 항목 준수도충실도 프로세스 이력 데이터모델 개괄모델 ( 분류체계 ) 개념모델논리모델물리모델프로세스모델뷰어 이력 검증 DB 카탈로그 TABLE COLUMN INDEX VIEW Constraints STO- RAGE DB PROGRAM 이력 검색 추적성 데이터품질 DQI CTQ 프로파일링 BR 관리구조품질프로세스이력 통계 영향도 AP 표준 UI Application 표준전문 Interface 검증규칙프로세스이력 분석 시각화 응용영향도 기본정보 호출 / 사용관계 언어별특성 CRUD Matrix FUNCTION POINT 변경영향 이력 보고서 데이터흐름 SOURCE TARGET MAP- PING TRANS- FORMATION JOB 변경영향이력 통제 / 관리 Portal, 사용자 / 권한, 프로그램관리, Job Scheduler, Monitoring, 연계
데이터관리시스템적용사례
정보분석활용환경진화필요성 -Enterprise DW 도입 - 응용분석초석마련 - 마케팅지원 DW 기반 CRM (`05) - 관리표준화 - 채널통합 -Down sizing DW Rebuilding( 11) 개방형 DW 고도화 ( 14) -DW 환경의한계극복 - 데이터거버넌스정착 - 융합데이터분석환경 - 실시간성의사결정 Massive parallel based Storage & Computing( 17) + Enterprise Data Service IBM DB2 Data Warehouse (20 Partition + 10 DM) 분석 CRM Data Mining IBM ISAS (Appliance 도입 ) DW 리모델링 ETL 고도화 DM 활용분석기능향상 배치성능향상 Oracle Exadata 채널통합관리 로그및데이터표준화 UI 및 Application 고도화 준실시간조회 / 분석 Hybrid Enterprise DW (Hadoop+MPPDW+Cloud) 융합형데이터통합관리 즉각적의사결정환경 고품질데이터수집 / 가공 차세대 BI 기술로서지향할 4 가지요소에부합하는데이터저장 / 분석환경요구의수용 1. 기존인프라와의융합 ( 상호운용성, 확장성 ) 2. 운영및유지보수의간편성 ( 안정성, 가용성 ) 3. 비용 ( 효율성, 재사용성 ) 4. 의사결정을위한쿼리에대한응답 ( 성능, 적응성 )
데이터분석 / 활용환경의변화 데이터분석의방향이기존의 Sample Data, 또는특정중요시스템위주의분석환경에서전사의모든데이터를분석환경으로변화하 고있다. 이에투자대비효과 (ROI) 를극대화할수있는 Hybrid 형태의데이터분석환경의도입이보편화되고있는실정이다. As-is Client-Server & Web To-be Hybrid - Datawarehouse ERP, CRM 등주요시스템 Only All System, All Data Scale-up / High-end Server & Storage Scale-out / x86 Server Relational Database 기존 RDB + Big Data Platform
정보활용 / 분석환경 - Hybrid 데이터분석의방향이기존의 Sample Data, 또는특정중요시스템위주의분석환경에서전사의모든데이터를분석환경으로변화하 고있다. 이에투자대비효과 (ROI) 를극대화할수있는 Hybrid 형태의데이터분석환경의도입이보편화되고있는실정이다. Traditional Sources 속보성데이터 Enterprise BI/DW Platform ( 기존 RDB 환경 + Appliance 환경 ) 비즈니스분석가영역 BI Portal OLTP, ERP, 계좌이체, 지로, 지급결재, 현금결재, 기업정보 Emerging & Non-Traditional Sources Click Strem, 소셜데이터, 센서데이터, Log Data, Network Data 전체데이터 전체데이터 Staging EDW Raw Data ETL 정제 Data Mart Enterprise Bigdata Platform ( No-SQL, 병렬분산시스템기반 ) 1 차가공된데이터 R Hive 분석데이터 EIS OLAP ( 시각화 ) 보고서관리체계 Data Scientist 영역 예측분석 Business Analytics 자금조달추이분석 법인부도징후분석 자금흐름패던분석 Casual User 분석된결과를보고서, Portal 시각화 Power User 기존데이터와빅데이터를운용하는데이터통제, 품질체제제공 Data Governance Framework
전사관점의최적의사결정을위한가공융합, 분석 유기적인플랫폼활용을위해서운영관점만이아닌데이터활용관점에서의데이터흐름의각구간별영역을전담하는담당자가필수 적입니다. 특히분석경쟁력을가지고있는기업들의특징은데이터과학자, 데이터엔지니어, 데이터분석가를구별하여이들의전문성 을극대화하고있습니다. DA, DBA, S/W 개발자 Data Analyst Data Source Collect Enterprise DW 분석 활용 Traditional 정형 Silo 접촉이력, 거래 DB 내부데이터 전통 DW 인구통계, 분야별, 고객세분화, 보고서분석 Silo 적홍보, 캠페인, 보고서, 전략 분석경쟁력기업 정형, 비정형디지털고객의견, 평가, 상태, 통합접촉이력 내 외부데이터 하이브리드 EDW 고급예측화, 최적화, 개인화, 추천, 신규시장개척등 기존분석 + 전방위고급분석, 신사업및신상품개발 [ 업무관련전문가그룹구성 ] DA, DBA, Data Engineer, Big data Engineer Data Scientist Data Scientist : 데이터활용을고려하여 Data 항목부터모델구성에이르는데이터전반에대한코디네이터역할 Data Engineer : 데이터수집부터실제 Analyst 들이활용할수있는데이터구성까지데이터운영의전반을담당 Data Analyst : 구축된분석모델을기반으로주기적인리포트및분석수행을담당
감사합니다. 19