DMExpress 소개자료
누구나쉽게사용 (Ease of Use) 1. 회사소개 2. DMExpress 개요 3. DMExpress 소개 - 개발방식 - 핵심기능 4. DMExpress 적용분야 - SQL Migration - DI Acceleration - Batch Solution - Big Data Solution 5. 레퍼런스 2
About Syncsort Multinational Software Company 1968 년설립, 북미, 유럽및아시아지역에서영업 50 년이상성능혁신 25 개이상의특허출원및발급 투자자 : DATA SERVICES FINANCE Large Global Customer Base 기업및전세계의정부에대한데이터통합및데이터보호솔루션선두업체 68 개국에서 15,000 개이상제공 Fortune 100 기업 95% 이상, Dow Jones 상장사 80% 이상 Syncsort Data Integration Offerings 빅데이터의통합, 최적화및마이그레이션을위한고성능, 특수용도의데이터통합솔루션 DMExpress 제품군 z/os 및 SAS 메인프레임환경을위한 MFX 고성능정렬솔루션 INSURANCE & HEALTHCARE PUBLIC SECTOR TELECOMMUNICATIONS RETAIL 3
About 한국비지네스써비스 회사명 : 한국비지네스써비스 설립년도 : 1973년 5월본사 : 서울시서초구반포본동직원 : 50 명국내최초의 SW 전문판매지원회사 - 1992 년최초로국내 SyncSort Solution 공급지원 - 풍부한경험과기술축적 - 30 여개이상의 SyncSort 고객사 4
DMExpress Overview DMExpress 는데이터통합을스마트하게지원하는솔루션입니다. (DMExpress is Smarter Data Integration!) 더작은시스템자원을가지고다양한데이터를초고속으로수집하고처리하여업무전반의작업을지원하며 성능을개선할수있습니다. Smarter Data Integration - Free Up Your Database! Smarter Data Transformations for 10x Faster Performance Smarter Optimizer No Tuning Required, Simply Faster! 5
DMExpress Overview ( 예시 ) ( 데이터추출 ) ( 데이터가공 ) ( 데이터저장 ) 6
DMExpress 데이터처리방식 Flat Files RDBMS Tables / files Fixed / variable Flat Files Flat Files RDBMS Flat Files Flat Files Flat Files RDBMS Tables / files Fixed / variable Flat RDBMS Files Flat Files RDBMS RDBMS Tables / files Fixed / variable Flat RDBMS Files RDBMS Flat Files 7
DMExpress Overview 5분안에설치간단한관리템플릿중심개발튜닝불필요 2 일교육으로누구나사용 8
DMExpress 구성 GUI SAM File TGT DBMS 윈도우 PC 에서 GUI 로개발후테스트할수있으며 PC 의자원을사용하여작업도가능. 서버에서직접실행가능하며전문스케줄러 SW 와연동도가능. GUI 방식과 Sciprt 방식모두지원원하는방식으로편리하게개발가능. ADM SRC SAM File 9
고성능 ETL 구현을위한완전히통합된아키텍처 Install in Minutes. Deploy in Weeks. Never Tune Again. Shared File-based Metadata Repository Impact Analysis Task Editor Job Editor User Interface Data Lineage Metadata Interchange Appliances Global Search High Performance Connectivity Real Time SDK DMExpress Server Engine High Performance Transformations Cloud Hadoop High Performance Functions Automatic Continuous Optimization Files / XML Mainframe Template-driven Design Small Footprint ETL Engine Self-tuning Optimizer Native, Direct I/O Access 10
Connect All Data Sources. Deploy Everywhere. Clients DMExpress Workstations Windows based GUI Server Flat File Based Metadata Repository Check-in Check-out DMExpress Server Engine 3 rd Party Version Control Tool Sources & Targets Appliances Cloud Hadoop Mainframe Files / XML Real Time Relational DB2 Informix MySQL Oracle SQL Server Sybase Teradata Native ODBC DataDirect Real Time MQ SOAP Other / ERP Files / XML FTP / SFTP Mainframe Hadoop / HDFS SAP Appliances Greenplum Netezza Vertica Cloud SOAP Salesforce.com 11
DMExpress 지원환경 Source/Target Packages Connect Amazon Redshift Amazon S3 Apache Avro Apache Parquet DB2/ UDB Green plum JDBC My SQL Netezza NoSQL Databases ODBC Version Current version on AWS Current version on AWS 1.7.6 1.6 9.7 and higher 4.2 and higher 3.0 compliant 5.1.73 7.0.3 and higher Hive Hive Server 2 Other Level 3 NoSQL compliant Databases Connect Oracle Qlik SQL Server Sybase ASE IBM Sybase IQ Teradata Vertica Salesforc Websphere e.com MQ SAP Hadoop (HDFS) Tableau Version 10g 이상 QlikView data exchange files 2008 and 15.0 and higher higher 15.0 and higher TD14 6.0 and higher 7.0.1.3 and higher 23.0, 24.0 and 25.0 ECC 6.0 and higher Apache 2.x TDE API Accelerators Product ACUCOBOL-GT Micro Focus COBOL Micro Focus Server DB2 Load Version 6.2 and higher Server Express 2 and higher Net Express 4 and higher 6 and higher 9 UNIX System sort 12
수백번검증된특허받은알고리즘의효과 데이터 Sort 는 ETL 의모든측면에영향 Syncsort 는 1968 년이후고성능 Sort 분야의시장선도자! Sort 6 개특허 + 3 개특허진행중 Join 3 개특허 + 3 개특허진행중 Aggregate 3 개특허 + 3 개특허진행중 Copy Direct, block level read I/O 80% of ETL 13
ETL World 세계신기록 1 시간에 5.65 Terabytes 처리 DMExpress v4.8 이 5.4TB 의 raw TPC-H data 를추출, 변환, 정제와로드 (Vertica Analytic Database) -> 57 분 21 초 51 Server : HP Blade System c7000 x86 OS : RedHat Linux DSS Labs 에의해독립적으로검증 1.0TB 처리시간 : 10 분 37 초 [ 신기록 ] - DMExpress, Vertica, HP 5.4TB 데이터처리시간 : 57 분 21.51 초 [ 종전기록 ] Microsoft, Unisys 1.0TB 데이터처리시간 : 25 분 20.00 초 14
DMExpress 기능 기능 기능상세설명 기능 기능상세설명 SORT 레코드정렬기능으로다중 Sort 키적용가능 시스템 Sort 대비 5~10 배의 Sort 성능지원 사용자가정의한 Sort Order 방식지원 Conversion File Level, Record Level, Field Level 데이터변환 필드 type 이나 size 를변경하여출력가능 COPY Sort 작업없이필요한레코드나필드추출기능 Aggregate 동일키별최대, 최소, 평균값을구하는기능 MERGE 2 개이상의파일을한개의파일로병합하는기능 Numbering 레코드에순차적으로 Numbering 하는기능 JOIN 파일을 Join 하여 Left, Right, Inner, Outer Join 기능 서로다른파일을비교할수있으며 CDC 기능도구현 고성능연산 Aggregate 기능을고성능으로처리 REFORMAT Source 파일에서필요한필드만선택하여추출가능 레코드레이아웃변경및추가된신규필드추가 사칙연산 동일레코드의필드간사칙연산을할수있는기능 FILTER 데이터파티션과레코드선택추출 조건에따른데이터추출기능으로다중 output 지원 Date/Time 연산 일자, 시간데이터에대한 +, - 를할수있는기능 SUMMARIZE 중복데이터제거및마스터성데이터추출기능 Sort 키별합산 (Group by) 기능 BLANK 제거 Blank 레코드를일괄적으로제거하는기능 15
개발방식 : DMExpress GUI ( 간단한화면구성 ) 16
DMExpress GUI 17
DMExpress 기능 : Partition 18
개발방식 : DMExpress Script 19
DMExpress 기능 : JOIN Doe,Jane,65 Black St.,07677 Smith,John,12 Apple St.,10917 Central Valley, NY,10917 Woodcliff Lake,NJ,07677 DMExpress Doe,Jane,65 Black St.,Woodcliff Lake,NJ,07677 Smith,John,12 Apple St.,Central Valley, NY,10917 20
DMExpress 기능 : 복합기능을한번에 All in One Pass! Sorted, filtered, reformatted, aggregated and partitioned. 200005 CHK 83.73 200002 SAV 834.23 200001 MFUND 23.89 200011 CHK 62.92 200014 MFUND 5.92 200010 CHK 35.98 200012 MFUND 3.98 DMExpress CHK,182.63 SAV,834.23 21
적용사례 : 전사배치업무 적용분야. 대용량데이터가공처리업무. 업무시간 Open 전에데이터를처리하기위한야간배치업무에서사용 적용방식. 업무별배치요건을 DMExpress Script 로개발후스케줄러를이용하여수행. 업무별 DB 에서조건별로 SAM File 로 unload 후 Sort, Merge, Join, Filter, Reformat 작업. Target Table 에적재하기전데이터 Conversion 작업병행 Source DB Target DB (Sort) DB SAM File Output DB DB SAM File (Join) Output DB SAM File Output 결과조회 (Conversion, Reformat) 22
적용사례 : 통합 DB 정제작업 적용분야 - 외부기관별대용량파일데이터와 DB 간데이터처리업무 - 데이터정제와적재를자동화와월배치작업시간단축 적용방식 - 파일 to 파일 : DMExpress 에서파일을읽어서원하는형태로정제후파일로저장 - 파일 to DB : DMExpress 를이용해서파일의데이터를 DB 로적재하며적재하기전데이터변환진행 - DB to DB : DB 간의데이터이동을쉽게 GUI 방식으로지원하며고속으로데이터전송 RAW STA DW DM 기관별파일 (Data 정제및기간별분류 ) 누적파일 (Data 적재 ) [ 분석결과조회 ] 분포도 기관별 [DW 적재 / 확장 ] DB (Data 전송 ) DB DB DB ODS (Data 변환및적재 ) (Data 집계 / 분석을위한연산작업 ) 23
적용사례 : N 생명 ( 계리시스템 ) 적용분야. 계리시스템에필요한데이터추출, 가공, 적재업무 누구나쉽게사용 (Ease of Use). 다른시스템에존재하는데이터를주기적으로계리시스템으로이동하는배치업무에서사용 적용방식. 업무요건에맞게 DMExpress Application 을개발후스케줄러를이용하여수행. 타시스템 DB 의데이터를 SAM File 로 unload 후계리시스템 DB 에 load 하는작업. 대량의데이터를쉽고빠르게추출, 적재하는업무에적용사용중 관련시스템 DB 계리시스템 DB (Sort) (Load) DB (Unload) SAM File Output DB DB SAM File (Join) Output (Load) DB SAM File (Unload) (Conversion, Reformat, Load) 24
적용분야 SQL Migration DI Acceleration Batch Solution Big Data Solution 25
적용분야 SQL Migration DI Acceleration Batch Solution Big Data Solution DMExpress 실행시간 3 시간 54 분 ( 0.16 Days) SQL 실행시간 80 시간 ( 3 Days 8Hours) SQL 대비 DMExpress 성능 20 배이상향상 (76 시간이상절감 ) 작업시간단축으로인한서비스개선 ( 주말작업으로가능 ) Offloading 에의한파일시스템사용 (DB 자원사용절감 ) Temp Table 사용량감소 (DB 스토리지절감 ) 26
적용분야 SQL Migration DI Acceleration Batch Solution Big Data Solution 상위 20% jobs 에주목 - 장시간의작업들 - 대부분복잡함 - 대부분자원집약적 - 대부분불안정 / 오류가자주발생 27
적용분야 SQL Migration DI Acceleration Batch Solution Big Data Solution 데이터처리작업의병목현상제거 : 50% 이상절감가능 현재의 H/W 자원을적게사용 : 메모리사용량 50% 절감, CPU 사용량 60% 절감 GUI 개발환경제공 : 1 주일안에적용가능하며핸드코딩대비 75% 정도의개발생산성 28
적용분야 데이터 SQL 통합 DI 문제의 Batch 80% Big 가Data Migration Acceleration Solution Solution 데이터처리병목현상에서비롯되었습니다. DI Tools Focus: 80% Features 20% Performance DI Challenges: 20% Features 80% Performance 데이터처리작업의병목현상제거 : 50% 이상절감가능 현재의 H/W 자원을적게사용 : 메모리사용량 50% 절감, CPU 사용량 60% 절감 GUI 개발환경제공 : 1 주일안에적용가능하며핸드코딩대비 75% 정도의개발생산성 29
적용분야 Customer DI Platform Key Information Industry Business Challenge Solution Benefit Impact IBM DataStage 금융서비스 대출자산시스템에대한 SLA 준수불이행으로대출발생이지연됨 M/F 데이터를변환및가공후 DataStage 로 Load 정확한시간에 CDC 대출발생프로세스관련 SLA 충족 4시간작업을 1시간미만으로속도개선 CDC작업 2시간 - CDC 미만으로2 시간속도개선미만 - 4 시간 1 시간미만 Informatica 의료 VIP 고객유지 정확한시간에 CDC 고객이탈방지 월작업에서일작업으로 DW 개선 DW : 월작업 -> 일작업 Informatica 금융서비스 새로운예측분석서비스의지연으로인한매출감소 (SLAs : 5 일 ) informatica 의느린 Join 과 Aggregation 작업대체 Informatica 를위해 Pre- Sort 작업 예정대로새로운서비스개시 Met production SLAs. 주단위에서 5시간으로프로세스개선 주단위 -> 5 시간 Informatica 금융서비스 데이터생성이 36 시간이상걸리는 ODS 에기반하여의사결정이지연됨 CDC 작업 매일밤 22 억건의업데이트가일어나는데이터저장소 SLA에충족 100명의주요업무사용자에게적시에정보제공 적시에정보제공 Microsoft SSIS 게임웹분석작업 1-2 일지연됨 수백라인의 SQL 의대체작업. SLA에충족 2-3일작업을 5시간으로단축 사용자응답시간개선 2~3 일 -> 5 시간 Informatica 통신 어플리케이션최신화작업중데이터변환의병목현상으로인한신규고객서비스가중지됨 다중 DMExpress 작업을 Informatica 환경에접목 데이터변환시간 192hr에서 8hr로단축 7일동안중지되었던신규고객 provisioning 해결 192 시간 -> 8 시간 Informatica 금융서비스 데이터프로세싱불능으로인한서비스모델및대리점판매에장애발생 Informatica 환경에 Sort 와 Merge 작업 각대리점의고객위주의맞춤형홍보에요구되었던대리점별 SLA 충족맞춤홍보가능 Informatica 금융서비스 18M 에서 100M 레코드로데이터폭증으로인한일일거래감시레포트지연 87% 속도개선되는 Join 작업진행 SLA 충족 데이터사이즈에대한목표된성장준수 데이터사이즈증가대처 30
적용분야 SQL Migration DI Acceleration Batch Solution Big Data Solution Source DB Target DB (Sort) DB SAM File Output DB DB SAM File (Join) Output DB SAM File Output 결과조회 (Conversion, Reformat) 31
적용분야 SQL Migration DI Acceleration Batch Solution Big Data Solution 32
적용분야 SQL Migration DI Acceleration Batch Solution Big Data Solution Hadoop Connectivity Hadoop ETL Hadoop Sort 33
적용분야 SQL Migration DI Acceleration Batch Solution Big Data Solution 34
After Before 적용분야 Data Sources ETL Data Warehouse Business Intelligence ETL ELT Analytic Qu ery & Repor ting Data Sources ETL Data Warehouse Business Intelligence DMX-h ETL Analytic Query & Reporting 35
감사합니다. 개발은단순하게처리시간은짧게 36