성공하는 빅데이터거버넌스및 모델링전략 신정길 2014.9.30 1
contents I. Big Data governance II. Data Governance III. Efficient Data Modeling IV. Wrap up 2
contents I. Big Data governance II. Data Governance III. Efficient Data Modeling IV. Wrap up 3
*Big Data Why? 4
Insight! 5
데이터의과거, 현재, 미래 데이터의과거 - 현재 - 미래 저장검색관리공유분석추론 DB 검색엔진 KMS Web2.0 빅데이터 상황인식 축적활용확산및공유가치창출 < 사람을이긴컴퓨터 ' 왓슨 ' 의힘은 ' 분석능력 > 2011. 2 제퍼디 (Jeopardy!) 최종전 IBM 슈퍼컴퓨터 ' 왓슨 (Watson) 압승 인공지능수퍼컴퓨터 왓슨, 의료계와금융계에적용 6
빅데이터활용 7
빅데이터생성원천? 비즈니스데이터 Tesco : 매달 15 억건이상의고객관련데이터를수집 Social Data 생체정보 YouTube, CC 카메라의료장비동영상 사물인터넷 2014 년 500 억개무선단말기 (Ericsson) 8
빅데이터활용 분석대상의확대 9
빅데이터활용과거버넌스 성공적인빅데이터프로젝트수행 지속가능한빅데이터업무혁신 ( 최적화, 지능화 ) 현업전문가 빅데이터재교육 IT 전문가 (IT 업체 ) 정부 3.0 빅데이터프로젝트 빅데이터거버넌스 통계분석전문가 10
빅데이터거버넌스 -데이터의품질보장, 프라이버시보호, 데이터수명관리, 전담조직과규정정립, 데이터소유권과관리권명확화등을통하여 -빅데이터가적시에필요한사람에게제공되도록체계를확립하는것 11
빅데이터거버넌스 빅데이터거버넌스가확립되지못하면 : -품질낮은데이터를중요한의사결정에사용함으로써심각한문제야기 -개인프라이버시관련데이터로인해빅브라더의우려현실화 -폭증하는데이터의수명관리소홀로 IT 비용급증 -데이터관련문제를전담하고책임지는조직과인력이없다면빅데이터효과는일회성에그칠것임 12
빅데이터거버넌스사례 과학기술분야 데이터품질 화성탐사선 1999 년예정된궤도보다 170km 아래에진입, 폭발미국 - 영국과학자들이 ( 복잡한수식에서 ) 수치의단위를 newton 대신에 pound 로사용한것이원인 폭발 9 개월간의항해 3 억 3000 만달러손실우주산업후퇴 리스크, 재난, 의료등다양한빅데이터분야에서복잡하고방대하며, 실시간으로발생하는데이터를오해하거나잘못적용하여오판을일으킨다면? : 빅데이터거버넌스의중요성 13
빅데이터거버넌스프레임웍 IT & Data 거버넌스 3Vs 로더욱중요 IT 거버넌스 Data 거버넌스 정형 3Vs BigData 거버넌스 IT 자원의관리체계 - HW, SW, 인력, 제도 - Data? 효과성 : IT 가전사적목표달성에기여? 투명성 : IT 활동이원칙과기준에따라수행? 책임성 : IT 성과에대한책임자? 전사적데이터에관하여관리정책, 지침, 표준, 전략및방향을수립하고, 관리할수있는조직과인력을배치하는데이터관점에서의 IT 관리체계 데이터의통합 / 정제프라이버시품질 / 표준화 MDM 수명주기지침과규정 14
빅데이터거버넌스프레임웍 빅데이터거버넌스의특징 3Vs 특징으로인해 BDG 가더욱어렵고중요함 Volume 수명주기관리로비용절감필요성 Variety Metadata 관리, 품질관리, 프라이버시보호의중요성 Velocity 더욱빠른통제및관리체계필요 빅데이터에대한거버넌스는현재정립중 데이터거버넌스 Data 품질과표준화프라이버시보호메타데이터관리데이터수명관리관련인력, 조직, 규정 빅데이터 + 3Vs = 15
Industries EMBARCADERO TECHNOLOGIES 빅데이터거버넌스프레임워크 BDG 는산업 / 데이터유형 / 데이터거버넌스세가지측면에서관리해야함 Government? Public? Risk Mgt. Security Marketing & HR Healthcare Utilities Retail Telco Insurance Customer Service IT Sentiment Analysis Facebook Royalty Program Customer Chun Analytics Investigate Claims VOC Web & Social IT Log Analysis IT Log Analysis IT Log Patient IT Log Analysis Analysis IT Log Claims Monitorin Analysis IT Analytics Log g IT Log Analysis Smart Analysis IT Log Parts Meters Analysis IT Log Desc. IT Log Analysis IT Log RFID Analysis Tags Analysis IT Log IT Log Analysis Locationbased Analysis IT Log Customer Analysis IT Log Services profiles IT Log Analysis Vehicle Analysis IT Log Customer Telematics Analysis IT profiles Log IT Log Analysis Analysis IT Log Analysis IT Log IT Analysis Log Analysis M2M & IoT Transaction Data Big Data Types Genetic Testing Facial Recognitio n Underwriting Bio Metrics Electronic Medical Records Call Quality Assurance Human Generated Information Lifecycle Mgt. Master Data Integration Biz. Process Integration Data Quality/standard Privacy Metadata Organization 16
빅데이터유형과거버넌스 다양한유형의데이터가생성됨 카카오톡블로그, 상품게시판등 Big data type 홍체, 지문, 필체, 17
빅데이터거버넌스항목 조직 (Organization) 데이터거버넌스항목 데이터거버넌스위원회에데이터과학자추가 기존데이터관리자에게추가적인책임을할당 예를들어, 고객데이터관리자에게마스터데이터리파지토리안에서페이스북, 블로그, 트위트계정에대한책임을부과함 18
빅데이터거버넌스항목 메타데이터관리 빅데이터의종류를파악하여목록을작성하고관리함 다양한빅데이터의소스, 추출 - 정제 - 변환 - 통합규칙, 저장형식, 관리자, 관련용어등관리대상을정하고, 표준화함 메타데이터 저자 : 홍길동출판일 : 1980.02.02 출판사 : 홍릉출판사연락처 : 보관부수 : 10 19
빅데이터거버넌스항목 프라이버시보호중요성증대 규제리스크 평판리스크 법적리스크 M2M, IoT SNS 생체정보 위치정보 20
빅데이터거버넌스항목 데이터품질관리 데이터에관한품질측정, 품질개선, 품질인증과무결성보장, 표준화등의규정을정하는것 데이터품질저하로인한문제사례 금융계좌주민번호 398 만개오류로이자소득금융과세못해 ( 조선일보, 2004 년 1 월 4 일 ) 빅데이터의활성화와데이터품질문제 재난, 위험관리, 의료등에서저품질로인한문제발생가능성 미국의경우 Data Quality Act( 데이터품질법 ) 제정 공공목적으로배포되는일체의데이터는신뢰성, 안전성, 정확성, 이용편의성을일정수준이상으로유지해야함 2014-10-01 21
빅데이터거버넌스항목 정보수명주기관리 방대한데이터를운영시스템이나분석시스템에언제까지유지할것인지를결정하고, 나머지는보관소 (archive) 에저장하거나폐기하도록해야함 : IT 비용절감 & 위험감소 데이터수명관리 생체정보 트랜잭션 data M2M IoT 22
지속가능한빅데이터가되려면? 빅데이터의활용보다데이터거버넌스가먼저 빅데이터거버넌스는데이터의품질보장, 프라이버시보호, 데이터수명관리, 전담조직과규정정립, 데이터소유권과관리권명확화등을통하여빅데이터가적시에필요한사람에게제공되도록체계를확립하는것 빅데이터거버넌스가확립되지못하면 - 품질이낮은데이터를중요한의사결정에사용함으로써심각한문제를야기 - 개인프라이버시관련데이터로인해빅브라더의우려가현실화 - 폭증하는데이터의수명관리소홀로인해 IT 비용이급증 - 데이터관련문제를전담하고책임지는조직과인력이없다면빅데이터효과는일회성에그칠것임 23
contents I. Big Data governance II. Data Governance III. Efficient Data Modeling IV. Wrap up 24
*Data Governance Why? 25
IT 환경에대한도전 IT Challenges Evolving Database Ecosystems Volume, Velocity, Variety Agile Development Cycles Data Architecture Data Quality Data Development Compliance Organizational Transparency Maximizing IT Infrastructure Meta Data Enabling Governance Data Operations 빠른 DB 환경변화 폭발적으로증가하는데이터 빈번한요구사항변경및개발 Document & Content DW & BI Reference & Master Data Data Security 정보 ( 데이터 ) 의중요성부각 출처 : Data Management International (www.dama.org) IT 중요성및투자증대 26
DATA Governance 데이터사용 지식근로자가정보를조회하고획득하는시간단축 데이터생산 중복작업제거 중복되거나불필요한인프라통합및응용프로그램제거 데이터품질 재작업제거및경영합리화 분석및리포팅오류감소 운영효율성 향상된캠페인타게팅 정확한제안및프라이싱 변화에대한향상된대응 27
Data Management Challenges Going beyond native database tools Embarcadero Data Governance enabling cross-platform database tools 비즈니스와데이터연결 DB 관리생태계 메타데이터리파지토리 아키텍처 / 모델링툴통합 툴표준화 크로스플랫폼기능 버전컨트롤통합 Vendor Tools Productive database tools for your database platform Database Administration Performance Tuning 생산성향상 향상된분석통계와뷰 상세한비교및롤백기능 Change Management Evolving Database Ecosystems Volume, Velocity, Variety Agile Development Cycles Compliance Organizational Transparency Maximizing IT Infrastructure 28
Data Governance 29
Data Governance 30
contents I. Big Data governance II. Data Governance III. Efficient Data Modeling IV. Wrap up 31
Efficient Data Modeling Utility of Data Modeling? Relational vs. NoSQL 객체모델지향 vs. 쿼리결과지향 정규화 vs. 비정규화 HW 리소스절감 vs. 쿼리 / 질의 / 읽기최적화 물리모델링 - DBMS에대한지식필요 효과적인모델링도구 Conceptual Logical Physical EDW MART MART Hadoop OLTP OLTP NoSQL OLTP 32
Efficient Data Modeling Utility of Data Modeling? 다양한 DBMS 탄생 수많은응용시스템 빈번한요구사항변경 데이터중요성부각 협업필요 툴의기능확대 ( 데이터통찰력 ) 다양한 DB 객체설계 데이터의생성, 변경, 흐름관리 다양한 DBMS 지원 협업기능강화 33
Efficient Data Modeling 주요모델링툴 구분제조사제품명 CA Technologies Erwin 국외 Embarcadero Technologies ER/Studio SAP Sybase PowerDesigner 국내 편의성 사용용도 엔코아 DA# 토마토시스템 exerd 기술지원 예산 지원DBMS 제품신뢰성 Source : KDB 2014 데이터베이스백서 표준표기법 모델링기능 업데이트 34
ER/Studio XE6 엔터프라이즈급데이터모델링 DB 환경변화에대응하는빠른업데이트 DBMS 지원 DBMS 환경변화 ( 신규버전, 새로운 DB 등 ) 에빠른대응 Firebird, Interbase, Greenplum, Hitachi HiRDB IBM DB2, Informix Online and SE, Informix dynamic server MS Access, MS SQL Server 2014 Oracle 12c, Sybase ASE / ASA / IQ / Watcom SQL Teradata, MySQL, PostgreSQL Netezza, Hadoop Hive, Mongo DB, Cloudera 등 35
ER/Studio XE6 엔터프라이즈급데이터모델링 데이터의생성과소멸까지 ( 데이터통찰력제공 ) 데이터통찰력 ETL 사각지대제거 Data Lineage 시각화및탐색 ( 주요 ETL 툴 Import/Export) Informatica Power Center SAB Business Objects Data Integrator IBM Data Stage Oracle ODI and OWB Microsoft SSIS 등 Introducing 노동집약적인문서작업자동화 손쉬운데이터거버넌스리포팅 ER/ETL 36
ER/Studio XE6 엔터프라이즈급데이터모델링 현시대 IT 요구사항반영 기업 IT 환경반영 단일논리모델에여러가지물리모델생성 예 : 논리모델 인사 (Oracle 용물리모델 ), 회계 (Sybase 용 물리모델 ) 등 다단계생성가능한서브모델 예 : 전사모델 학사행정SubModel( 입학sub, 등록sub ) 다양한매크로및 API 범용언어를이용한매크로 (SAX BASIC) 다양한 API 제공으로타응용프로그램에서손쉬운연동 다양한자동화기능구현으로생산성극대화 37
ER/Studio XE6 엔터프라이즈급데이터모델링 데이터모델 / 표준용어에대한협업강화 협업 Repository Object 단위 Check In/Out 으로다수유저가동시작업 다양한권한관리 Team Server 웹을통한모델공유및비즈니스용어관리 IT 담당자와업무담당자간협업활성화 DB 개발툴과메타데이터연동 웹을통한모델조회및의견공유 쿼리작성시 비즈니스용어제공 38
ER/Studio XE6 엔터프라이즈급데이터모델링 데이터의생성과소멸까지 ( 데이터통찰력제공 ) 신뢰성 엠바카데로의주력솔루션으로지속적인발전 본사의강력한기술지원조직 빠른업데이트 ( 매년최소 1 회 Major 업그래이드 ) DB 설계 / 개발에서부터응용프로그램개발까지 Line Up 39
ER/Studio XE6 엔터프라이즈급데이터모델링 데이터의 Architecture 생성과 and Modeling 소멸까지 ( 데이터 Application 통찰력 Dev. 제공 ) ER/Studio ER/Studio Metawizard RAD Studio Database Management DB PowerStudio ER/Studio Data Architect 신뢰성 ER/Studio Team Server ER/Studio Data Lineage ER/Studio Business Architect 엠바카데로의주력솔루션으로지속적인발전 ER/Studio Repository Delphi 본사의강력한기술지원조직 빠른 ER/Studio 업데이트 Viewer ( 매년최소 1C++Builder 회 Major 업그래이드 ) DBArtisan Rapid SQL DB 설계 / 개발에서부터응용프로그램개발까지 Line Up All-Access All-Access XE Databases HTML5 Builder Jbuilder DB Optimizer DB Change Manager ER/Studio Software Architect InterBase J Optimizer Design Develop Deliver Heterogeneous, cross-platform tools to design, develop, and deliver your data and applications 40
Wrap up! 41
질문 _? 42
감사합니다!!! 43
신정길 02-595-4288 ask@embarcadero.kr 010-3294-3829 jingles@naver.com 44