데이터통합의미래, 실시간데이터통합가상화솔루션 DataHub 3.0 2015. 03. 2015 TmaxSoft Co., Ltd. All Rights Reserved.
Ⅰ Ⅱ Ⅲ BI 플랫폼의변화 데이터가상화플랫폼 : DataHub DataHub 의특장점및사례
BI 비즈니스환경의변화 복잡한비즈니스환경, IT 인프라의발전으로보다많은데이터로부터보다빠른의사결정이 요구되는상황임 BI 운영현황 1 요구되는것 분석 빠른비즈니스변화, 다양한분석요구 On-Time Business 의사결정 새로운형태의분석 Report 발생 (1~2 개월 ) 다차원적, 복잡성높은분석요구 2 Operational BI 강화 DW 복잡하고비효율적인플랫폼운영 실시간의사결정횟수증가, 질적향상필요 잦은데이터변형과메타관리필요 New Source 의등장 3 새로운형태의 Data 포용 데이터소스 DBMS 대량의반정형 / 비정형데이터발생 DW 에 Data Source 추가작업지속적 HDFS 비정형 Log SNS 발생 (1~2 개월에한번 ) 2/00
기존 DW 인프라의한계 복잡한데이터생성과정으로인해시간적, 공간적비효율발생및 On-Time 분석이어려워짐 기존 DW 의구성 OLTP OLTP 1 1 1 2 추출 2 Staging Area 정제 2 EDW EDW 모델링 Mart Mart Mart OLTP Mart 데이터중복데이터중복데이터중복 3 분석데이터생성과정수개월소요 기존 DW 의문제.. 1 2 3 데이터추출, 변환의별도작업필요 데이터중복저장비효율및 Quality 저하 최종분석까지 Long Term Process 3/00
현업의요구, 다양한데이터의유연하고빠른분석 다양한데이터소스로부터의미있는분석을적시에이끌어내기위한방안을고심 필요한 Data 를즉시찾아서활용하는방안 어떤시스템이있고어떤데이터가존재하는지쉽게인지 현업, IT담당자, 분석가제각기이해할수있는용어활용 이기종시스템 One-Step 통합분석방안 오라클, DB2, MS-SQL, Greenplum, 난립하는 DB의통합 별도의데이터추출, 과다한엑셀작업해소 현업의요구 다양한데이터를 Single DB 처럼 유연한모델링을통하여 다양한분석, Ad-hoc 분석방안 현업으로부터의다채로운분석요구의해소 최종분석도출중간중간즉흥적분석필요 적시에분석을하고싶다 비정형빅데이터의활용방안 방대한로그데이터를 SQL 처럼분석 정형, 비정형데이터연계분석 4/00
궁극적대안, Data Virtualization 가상화를통한데이터통합으로물리적, 시간적한계를뛰어넘는데이터관리및유연하고 다양한분석이가능함 여러개의데이터소스 하나의데이터소스처럼 Physical 데이터복제 / 저장 틀에박힌분석 Report 예전의데이터를분석 Data Virtualization Logical 메타정보저장 다양한, 즉흥적인분석 Report 현재의데이터분석 정형위주, 정량의데이터 비정형, 빅데이터확대 데이터가상화란? 데이터의물리적위치, 형태, 기술적요건과상관없이데이터를조회, 조작할수있는애플리케이션. Wikipedia Or more Simply 여러데이터소스를하나의 SQL 기반 DBMS 처럼다루도록하는솔루션 5/00
DataHub 를통한데이터가상화구현 DataHub 는다양한데이터소스를가상으로통합하여모델링및분석처리를하는솔루션 기존의 Data 통합 VS DataHub 를통한데이터통합 Complex View 과거데이터조회 활용 현재데이터조회 Single View Physical DW 저장 Logical DW ETL/Batch 작업통한물리적데이터복제 추출 Meta 정보구성을통한논리적가상통합 소스제약 Data Source Any Source DBMS DW 로그파일 HDFS DBMS DW 로그파일 HDFS 6/00
데이터가상화의기반, DataHub 개요 DataHub 는다양한데이터소스를가상으로통합하여모델링및분석처리를하는솔루션 Data Consumer BI 분석 App 엑셀 /Spread 핵심 Feature 데이터가상통합 User Interface Admin Any Data Connection 메타정보활용한모델링, Single View Data 모델링 쿼리디자인 결과처리 쿼리실행 모니터링 사용자 / 권한스케줄링배포서버관리 유연한데이터분석설계 UI 활용한 Flow 기반쿼리설계 정규화과정을통해기술용어를비즈니스용어로변환 Connect 고성능쿼리실행및결과처리 RDBMS 엔진내장, 쿼리최적화 분석결과 App, BI 연동활용 Data Source DBMS DW 로그파일 HDFS 7/00
DataHub 아키텍처 Tibero 엔진기반의데이터처리, 관리도구및개발도구로구성됨 Admin Tool(Web) 운영관리메타조회서버관리 모니터링 관리자 HTTP JSON Modeling Tool DataHub Server User I/F 데이터사용자 모델러 Data Modeler Domain 정의 데이터소스정의 TCP Server Engine 메타관리 Alert관리 로깅 인증보안 배포관리 스케줄링 Virtual Table 정의 JDBC Flow Designer Tibero Engine Flow 개발자 Task 정의 Flow 정의 조건정의 Data 소스 Meta Repository Data 모델사용자정보 Flow 쿼리실행 실행결과 Flow Test Flow Data I/F Task 스케줄정보 실행현황 / 이력 Oracle DB2 MSSQL Greenplum Hadoop File DBMS 8/00
DataHub 사용 각역할별데이터정의, 쿼리디자인, 실행, 모니터링의과정을진행함 DataHub 서버 업무 ( 도메인 ) 정의 소스 Connection 등록 Virtual Table 정의 Logical DW 생성 모델러 Domain1 Domain2 Flow 개발자 Task 정의 Flow 정의상세조건설정 Flow 01 Generated Query Select T1.C1, T2.C2~~ 자원할당 Flow 실행결과처리 Flow01 결과 Flow02 결과 데이터사용자 Flow 01 Flow 02 Execute Flow 01 Execute Flow 02 Flow 모니터링 Flow 실행제어 스케줄관리 배포자원관리 관리자 사용자 / 권한 / 관리 보안관리 서버관리 실행현황, 이력관리 9/00
DataHub 의우수한기능 내장된 Tibero 엔진을이용한고성능, 다양한소스접근및인터페이스지원, 데이터보안성및 개발효율성이향상이기대됨 Tibero 엔진의고성능 DataHub 특장점 개발효율성 고성능기반 Query 최적화 Parallel Query Processing WorkFlow 기반유연한쿼리디자인 Smart Caching TAC, TSC 이용한고가용 상호연동성 보안성 Ad-hoc 결과확인및원격지쿼리플랜조회 스케줄링통한자동쿼리실행및결과전송 모든종류의 RDBMS연결 XML, JSON, Spreadsheet, CSV Hadoop연동 Unstructured and Streaming Data 오라클전용 OCI, ODP.net 지원 Authentication Access Control(RBAC, MAC, Policy) Data Masking, Anonymization( 익명화 ) 10/00
고성능구현 Query 옵티마이저 Tibero RDBMS 옵티마이저에 DataHub 를위한추가된기능을통해원격 DB 접속시최적의 Query Plan 생성가능 Tibero 옵티마이저 CBO 기반, 최적의 SQL 실행방법 Tibero 원격 DB 통계정보생성 DataHub 서버 Query 수행비용산정 Oracle 경험기반통계정보활용 MS-SQL DB2 원격지 DB 메타정보 통계생성엔진 메타기반, 원격지 DB 통계 가상화 DB 통계활용 Tibero RDBMS 엔진옵티마이저기능 가상화환경에특화된최적화방안 Logical DW 쿼리고성능구현 11/00
고성능구현 Parallel 처리 Intra Parallel 및 Inter Parallel 처리로대량데이터처리시최적의성능보장 Intra-Parallel 처리 Thread Join, Sort Oracle MS-Sql DB2 Tibero 1 Node DataHub Thread Join, Sort Assemble Thread Join, Sort 다중 Thread 를통한병렬처리 쿼리 Flow 실행 Inter-Parallel 처리 Node01 Node02 Node03 Multi Node DataHub Join, Sort Join, Sort Join, Sort Master Node Assemble 다중 Node 간병렬처리 Node 형태에적합한병렬처리 대량데이터쿼리속도향상 12/00
고성능구현 Smart Cache DataHub 내에존재하는 Virtual Object 에대한 Cache 및용도별다양한방법의 Cache 가능 Data 소스 Cache 대상 Cache Method Virtual Table Complete 전체 Cache 데이터의재형성 부하는크지만전체재구성 Incremental 변화증분부분만 Cache Fast 방식, 낮은부하 Virtual View Live(ProSync) CDC 방식, 트랜잭션단위변동부분실시간 Caching 데이터성격에적합한 Caching Object, Method 선택 원격지 DB 부하감소 조회속도향상 13/00
완벽한상호연동성 다양한형태의소스데이터와다양한계층의데이터사용자를연결하는진정한데이터중개자 Hub 역할 Any RDBMS Oracle DB2 PostgreSQL Sybase MSSQL Informix Greenplum Tibero Any Type AnyMiner Any Document Any BigData AnyMiner DataHub 다양한 I/F Any Data Source 접근 SQL 표준 I/F(JDBC, ODBC, OLEDB) Oracle 호환 (OCI, ODP.net) REST 인터페이스 전용 XML Any Data Source Any Tool Any Solution 연동가능 Application BI Solution Develop Tool 14/00
보안성 사용자권한 / 인증관리및 Access Control, Masking 기능을통해원격지 DB 활용시발생할수 있는보안문제를해결 사용자 / 권한관리 Advanced 보안 LDAP 권한 보안솔루션연동 3rd Party 암호화, 접근제어솔루션연동 역할 소스연결 데이터모델링 Flow 개발 / 실행 Data Masking PW : 1234 PW : **** 주요보안데이터의 Masking 처리 사용자 사용자그룹 배포 Data 익명화 경기도분당구황새울로 150 번지 경기도소재 결과조회 주요정보를식별불가능하게처리 사용자및그룹관리 권한세분화관리 Row 단위접근제어 사용자 / 역할별 Row 단위접근제어 X 원격지 Data 보안강화기능제공 15/00
개발효율성 유연한모델링및개발툴, Ad-hoc 쿼리작성및플랜확인기능을통해개발생산성을높임 Data Modeler Flow Designer View / Monitoring 직관적 Data 모델링 유연한 Flow 개발 개발가시성확보 Auto Discovery 데이터소스에서제공하는정보기반모델링 관계형모델링 Virtual Table 간 Relation 정보확인 Drag & Drop 방식, Task 재사용 다양한 Task 제공 Query, Join, Filter, Sort, FileWrite, FileRead, 등 조건형 Flow 설계 선행 Task 성공여부에따른분기, 후행 Task 실행순서지정 Ad-hoc 쿼리구문실행, 결과확인 Flow의실행 Plan 확인 Flow Task 중간결과조회가능 실행 Log View 제공 16/00
Use Case 제조업생산수율분석 (1/2) 반도체공정의폭발적데이터증가에따라기존 DW 의공간적, 시간적문제점을해결하여 유연한분석과비즈니스의사결정적시성확보를위해 DataHub 도입 현황 Issue Solution 인프라 생산라인의지속적증설 공정데이터의폭증 중간수집서버증가 모든데이터를 결국하나의 DW 에 담을수없다 Data 가상화, Logical DW 도입 운영 비즈니스요구의 DW 반영까지많은시간소요 최종분석데이터도출까지많은과정 DW 는 On-Time 분석을 보장하지않는다 17/00
Use Case 제조업생산수율분석 (2/2) 라인에서발생하는실적, 품질정보를취합, 수율분석결과를주기적으로생성보고하여공정 및품질운영의사결정에활용 연결 추출가공도출 결과처리 Data 소스 DataHub 서버 Data 사용 MES 생산관리시스템 정상 / 불량데이터추출 결과조합 온도압력이수율에미치는영향 수율분석 Report 공정DB 공정관리시스템 EES DB 장비엔지니어링시스템 I/F 공정데이터추출 온도 / 압력데이터추출 Pivot 결과조합 공정간온도 / 압력추이 의사결정 수백 TB 급대량데이터 온도, 압력등대량데이터 Row 를 Pivoting, 분석결과도출 생산시스템별 이기종 DB 통합 다양한품질분석 Report 생성 빠른비즈니스 의사결정 18/00
Use Case 통신사통화품질분석 (1/2) 대량비정형 CDR 데이터분석을위해 Hadoop 기반빅데이터플랫폼을도입하였으나 RDBMS 정형데이터와의실시간통합분석이필요한상황임 현황 Issue Solution 통화기록파일증가 통화품질분석의요구 네트워크현황과상관관계분석요구발생 Hadoop 인프라구축 반정형 CDR 로그파일 HBASE Map Reduce 비정형만으로는 완벽한분석이 어렵다 이기종정형 / 비정형통합분석플랫폼구축 HDFS 통화품질분석 19/00
Use Case 통신사통화품질분석 (2/2) 기구축된 Hadoop 인프라가보유한대량의 Call Data 비정형로그와 NMS 정형데이터를연계 하여통화품질을분석 연결 추출가공도출 결과처리 Data 소스 DataHub 서버 Data 사용 NMS 네트워크관리시스템 네트워크장애이력 결과조합 통화 Traffic 과네트워크장애관계 통화품질조회 App HBASE I/F 지역별 / 시간대별통화 Traffic Map Reduce HDFS 반정형 Call Data 로그 결과조합 통화패턴과통화품질관계 의사결정 고객통화이력과네트워크상태와관계분석 정형과비정형의 통합 다양한차원의 상관관계분석 품질점검 / 개선을통한 Risk 감소 20/00
맺음말 - BI 시장의 Challenge, DataHub 를통한극복 Tmax 의 DataHub 는기존 DW 인프라를극복한데이터가상화기반의통합분석플랫폼으로서유연하고신속한분석과 On-Time 비즈니스의사결정을지원함 Challenge Solution 신속한비즈니스의사결정요구 다차원, 즉흥적, 적시적분석요구 비즈니스변화에빠른대응 Long Time 분석, Quality 저하 Data 증가, 저장공간의부족 Data 거듭된복제, DB Chain 발생 기존 DW 인프라한계극복 데이터가상화구현 비정형 Big Data 출현 Big Data 수용, 분석대상의무한확장 새로운형태의데이터출현, 통합분석요구 21/00
Total enterprise solution provider, TmaxSoft Thank you! 22/00