I. Microsoft Data 전략 II. DW 구축 A. Azure Trends B. Azure Data Services - Relational Data - Non-Relational Data - Data Analytics C. Azure Machine Learning A. Why DW? B. DW 구축방법 C. Microsoft DW & Hybrid
Microsoft Data 전략
들어올리고이동시켜서구름으로 I. Microsoft Data 전략 On-Premise Lift Azure Cloud Shift 이미지출처 Migration https://post.naver.com/viewer/postview.nhn?volumeno=8682564&memberno=3597691# https://alexandrebrisebois.wordpress.com/2014/12/14/lift-and-shift-of-a-console-appication-to-microsoft-azure/
A. Azure Trends - Migration 클라우드로마이그레이션전략 I. Microsoft Data 전략 Lift Shift Cloud Do it yourself Azure Migrate: Unified, Extensible experience On-premises Azure Assisted
A. Azure Trends Cloud for All 모든플랫폼에대한 Hybrid 전략 I. Microsoft Data 전략 OSS 를포함한 Cloud 전략 디렉토리 서비스 IaaS PaaS 데이터 보안 관리 Unified cloud platform Data platform Security and management
A. Azure Trends Data Services 클라우드에서데이터관리를위한인텔리전스솔루션 I. Microsoft Data 전략 입수 저장 분석 & 학습 모델 & 제공 Intelligence Business apps Data Factory (Data movement, pipelines & orchestration) Custom apps Sensors and devices Kafka Event Hubs IoT Hub 10 01 Blobs Data Lake Data Lake Analytics HDInsight / Spark Machine Learning SQL Cosmos DB SQL Database SQL Data Warehouse Analysis Services Predictive apps Operational reports Analytical dashboards DATA INTELLIGENCE ACTION
데이터유형 I. Microsoft Data 전략 Relational data 연산이가능한고정된값 도메인, 속성, 타입, 크기정의 관계형스키마 RDBMS, 엑셀등 구조화데이터 ER Diagram Non-Relational data 비구조화데이터 해시태그 동영상 IoT 센서 사진 구조가일정하지않은데이터 규격화된데이터필드에저장되지않은데이터 해시태그, IoT 센서데이터, 동영상, 사진등
Data virtualization PolyBase B. Azure Data Services 분석을위한데이터관리플랫폼 I. Microsoft Data 전략 Relational Data warehousing Any BI tool data Dashboards Reporting Mobile BI Cubes OLTP ERP CRM LOB Non-Relational data Web Media Social media Devices SQL Server Fast Track; SQL Server DW in VMs; Azure SQL DW Big Data processing Azure HDInsight; Spark for HDInsight; Azure Data Lake; Azure Cosmos DB Advanced Analytics Machine Learning Stream analytics Cognitive AI Any language.net Java R Python Ruby PHP Scala On-premises Cloud
B. Azure Data Services Relational Data Azure 에서동작하는관계형데이터베이스 I. Microsoft Data 전략 Azure SQL Data Warehouse Azure SQL Database Azure Database for PostgreSQL Azure Database for MySQL Database Services Platform Intelligent Advisors, tuning, monitoring Flexible On-demand scaling, resource governance Trusted HA/DR, backup/restore, security, audit, isolation Azure compute Azure storage
B. Azure Data Services Relational Data Azure SQL Database 배포선택 I. Microsoft Data 전략 공유 낮은 비용 On-premises Hybrid Cloud PaaS SaaS SQL Database (PaaS) IaaS Azure SQL Server 가상데이터베이스 Managed Instance 가상화 SQL Server (Azure 가상머신 ) 가상머신 물리적 SQL Server Private Cloud 가상머신 + 어플라이언스 Singleton 전용 높은 비용 SQL Server 물리머신 (row iron) Off-premises Elastic Pool 높은관리소요 낮은관리소요
B. Azure Data Services Relational Data I. Microsoft Data 전략 AZURE 에서동작하는 OSS DB - MYSQL, POSTGRESQL Managed community MySQL, PostgreSQL More choices and full integration into Azure s ecosystem and ser vices Languages and frameworks of your choice Scale in seconds with built-in high availability Secure and compliant Industr y- leading global reach My Easy Lift and Shift Enterprise Ready MySQL, PostgreSQL: Lift and shift Azure 데이터베이스 PostgreSQL: 최근성장률이가장높은데이터베이스
B. Azure Data Services Non-Relational Data Big Data 특징 I. Microsoft Data 전략 Petabytes Click stream Wikis/blogs Sensors/RFID/ devices Social sentiment Audio/video Big Data (schema agility) Terabytes Gigabytes Advertising Mobile Payables Payroll Collaboration ecommerce Relational (highly modeled schema) Contacts Deal Tracking Web Logs Digital Marketing Search Marketing Recommendations Log files Spatial & GPS coordinates Data market feeds egov feeds Weather Text/image Megabytes Inventory Sales Pipeline Data complexity: variety and velocity
B. Azure Data Services Non-Relational Data I. Microsoft Data 전략 Azure Cosmos DB로운영중인마이크로소프트서비스 Skype Exchange Windows Phone Windows Live Microsoft Stores Legal Yammer Bing IT CRM/Dynamics Xbox Live Office365 Malware Protection Table API
데이터호수로 I. Microsoft Data 전략 구조화데이터 1. Transactional 2. Rows & Columns 3. Ordered 4. Organized 반구조화데이터 1. Data Feed 2. Text 비구조화데이터 1. Text 2. Email 3. Images 4. Video 5. Social Data Lake Analytics 데이터소비자 동일한저장소 (Data Lake) 모든데이터분석 Data Lake Store Data Warehouse 파이프라인 일반접속보안
B. Azure Data Services Data Analytics I. Microsoft Data 전략 Data Lake - Typical Analytics Pipeline 데이터원천 온라인서비스 장치및센서 원본입력 병렬데이터로드 데이터입수 Azure Data Lake Cooking U-SQL 개발 구조화및성능을위한처리 Data Lake Store Export Export Interactive query via ODBC SQL DW csv 정보소비 Power BI reports SSRS reports Live dashboards Excel Data Lake Analytics ML Models 다른데이터들과연결 ML 학습 Export 온라인서비스제공 사용 Browsers
AS-IS Approach TO-BE Approach 데이터분석트렌드 I. Microsoft Data 전략 Backward Looking Forward Looking Reporting Data Science Aggregation ML Model Training & Cognition Parts & Suppliers Images, Audio, Video Slowly-changing Schemas I know the questions. I have to answer Schemas change every day Explore. Experiment. Test Hypothesis.
C. Azure Machine Learning Azure ML 구성 I. Microsoft Data 전략 Azure 플랫폼의다양한데이터소스활용, 직관적인그래프기반 ML Studio 로학습및웹 API 기반퍼블리쉬기능제공 파워 BI 와엑셀등에서웹 API 로머신러닝기능이용
C. Azure Machine Learning Azure ML 기법 I. Microsoft Data 전략 회귀분석 (Regression) 분류 (Classification) 이상탐지 (Anomaly detection) 군집 (Clustering) 추천 (Recommendation) 빌딩내시설물진단및예측 자동차부품의표준범주여부검사 고객맞춤형제품분류및마케팅 e- 북추천시스템 자동차성능테스트시뮬레이션 유통채널에서의모조품감지 IT 비즈니스시스템마이그레이션 (migration) 후보선별및맞춤형지원 학술참조 (reference) 추천및네트워크서비스
Data Warehouse 구축
Why Data Warehouse? 도입이유 II. Data Warehouse 구축 Product 시스템영향제거 다양한데이터통합 이력데이터축적 데이터구조표준 / 일반화 (MDM, DQ) BI 솔루션데이터제공 도입효율 OLTP 데이터분석보다쉬워짐 시스템별중복데이터측면비용효율 데이터수집의효율화 (Daily ETL) DM생성편의성제공 빠른보고서생성
A. Why DW? 모델선택 II. Data Warehouse 구축 DW vs DM 비교 Relational Dimensional DW DM 관계형모델 차원모델 전사적데이터 일반화 ( 정규화 ) 규칙 값 (Fact), 차원 (Dimension), 스타스키마 다양한주제영역 일부주제영역 ( 재무, 영업, 마케팅 ) 원본및이력키 적은테이블, 데이터중복, 차원변경느림 상세데이터포함 DW 의서브셋 ( 모든 DM 의논리적조합 = DW) 최종사용자간접접속 최종사용자직접접속 DM 에데이터제공
A. Why DW? Modern Data Warehouse II. Data Warehouse 구축 Traditional Data Warehouse SQL Data Source ETL SQL SQL SQL Data Warehouse BI and analytics Modern Data Warehouse Data Source (eg. Azure Blob) Extract Data Integration (eg. Data Factory) Load Transform Visualize Data Store (eg. Data Lake Store) Data Analytics & predict (eg. Data Lake Analytics & Azure ML) Data Insight (eg. Power BI)
B. DW 구축방법 Data Warehouse 아키텍처 II. Data Warehouse 구축 Source 1. Gather 2. Clean/Master 3. Store 4. Model/Present 5. Analyze 6. Share CRM Operational Systems ERP SSIS External Data Staging Tables Dimensional SSIS DQS ODS MDM SSIS Transactional SSIS 3NF Data Warehouse Sales Schema Finance Schema Marketing Schema SSIS Data Mart Star Schema SSAS Tabular Multi- Dimensional PowerPivot For SharePoint SQL Server Reporting Services PerformancePoint Services Excel Power BI Excel Services PerformancePoint Services Excel Data Platform Publish PowerPivot For Excel
B. DW 구축방법 단계별구축내용 II. Data Warehouse 구축 분석 설계 구축 구현 테스트 분석과제검토 업무요건상세화 구축논리모델설계 시스템구현계획수립 구축모델설계및검증 통합 DW 설계 데이터추출디자인 차원큐브설계 사용자화면설계 개발표준작성 개발표준템플릿작성 통합 DW 구축 - ERP 자료추출 - 외부자료추출 - 데이터크린징 OLAP 큐브생성 - 차원, 큐브생성 경보, 시뮬레이션 레포트화면구현 OLAP 화면구현 시뮬레이션구현 조기경보구현 운영환경구축 TEST 및데이터검증 교육진행 프로그램배포 데이터정합성확인 프로그램변경관리 설계 Step 1 Step 2 Step 3 Step 4 Step 5
B. DW 구축방법 단계별산출물연계도 업무요건분석 II. Data Warehouse 구축 시스템설계및구축 현행분석자료 경영보고자료 기존시스템 타사사례 계략화면정의 화면설계 화면구현 정보요구사항 분석관점정의서 Cube 설계 DM 논리모델 OLAP Cube WEB BROWSER 경영층 DM 논리모델 데이터추출설계 DM Database 관리자 데이터추출 현행 System 데이터모델 코드및마스터데이터 코드및마스터테이블목록 코드값 경영계획시스템 DW 시스템
C. Microsoft DW & Hybrid Azure SQL Data Warehouse - MPP 아키텍처 II. Data Warehouse 구축 Data Warehouse Database Application or User connection Data Loading Application or User connection PolyBase, ADF, SSIS, REST, OLE, ODBC, AZCopy, PS) Control Node SQL DMS 주용도 분석 빅데이터 보고서작성 트랜잭션처리 Massively Parallel Processing (MPP) Engine SQL SQL SQL SQL Compute Node DMS Compute Node DMS Compute Node DMS Compute Node DMS 여러데이터원천 특징 정규화된통합 I/O 최소화 처리량최대화 단일시스템데이터 정규화된데이터 소규모읽기 / 쓰기 Blob storage [ WASB(S)] Azure Infrastructure and Storage 대량고속쿼리성능
C. Microsoft DW & Hybrid Azure Hybrid 클라우드를통해서비즈니스연속성증대 II. Data Warehouse 구축 SQL Server DR to Azure Enhanced Always On Cross-region connectivity Geo-replication Azure Secondary replica DR location Azure Secondary replica DR location Azure ExpressRoute (optional) Azure VPN tunnel Asynchronous commit BI scale-out On-premises network SQL Server Primary replica Synchronous commit On-premises network Secondary replica 쉽게배포하고관리 빌트인된지리적복제기능 복구 on-premises 또는 Azure 글로벌, 읽기전용복제, 낮은복구목표시간 직접연결 글로벌 BI 를위한복제
Resource Microsoft 자료참고 Azure Migration Big Data & DW Data Estate Modernization Azure Data Lake http://azure.com/datalake Azure Databricks https://docs.microsoft.com/en-us/azure/azure-databricks/what-is-azure-databricks Azure SQL Database https://docs.microsoft.com/en-us/azure/sql-database/sql-database-paas-vs-sql-server-iaas Azure SQL Data Warehouse https://docs.microsoft.com/en-us/azure/sql-data-warehouse/massively-parallel-processing-mpp-architecture DB Engines Ranking https://db-engines.com/en/ranking Data Warehousing 자료참고 https://www.jamesserra.com/archive/2014/08/presentation-slides-for-modern-data-warehousing-3/ Azure Machine Learning https://www.slideshare.net/jamserra/overview-on-azure-machine-learning https://azure.microsoft.com/en-us/case-studies/?service=machine-learning-overview&industry=discrete-manufacturing