2016( 제 9 회 ) 한국소프트웨어아키텍트대회 빅데이터통계분석및시각화를위한통합데이터분석스위트 (UDAS) 아키텍처 2016. 7. 21. 회사명 ( 주 ) 인브레인 발표자홍세환부장
Agenda 빅데이터활용개선점 통합데이터분석스위트 (UDAS) 아키텍처 Overview 수집프로세스 정제프로세스 분석프로세스 시각화 통합메타데이터관리 통합데이터분석스위트 (UDAS) 의특징 미래창조과학부에서시행한정보통신 방송연구개발사업의결과임 2
빅데이터활용개선점 일반사용자의사용성 데이터수집 데이터가공 데이터전달 분석 Know-How 의휘발성 메타데이터 메타데이터 메타데이터 반복분석의고비용 10% 데이터수집 70%++ 데이터정제 15% 통계분석 5% 시각화 데이터정제의프로세스화 데이터처리단계의복잡성 데이터정제 정제프로세스디자이너 쿼리 / ERD / 매핑디자이너 ETL 에이전트 데이터정합성검증모듈 시각화 시각화제어모듈 통합메타데이터관리도구 시각화그래프추천시스템 시각화결과조회및배포 데이터수집데이터정제통계분석시각화 분석메타데이터유실 데이터수집 데이터통합수집기 데이터분해, 정제, 적재 수집관리정책및규칙저장소 통합데이터저장소 통계분석 분석모델디자이너 분석프로세스자동화마법사 분석템플릿관리도구 통계분석알고리즘추천시스템 분석결과조회및배포 수집 / 정제 / 분석 / 시각화 3
빅데이터활용개선점 빅데이터관련기술현황 빅데이터인프라 빅데이터서비스 데이터수집 데이터적재 데이터조회 SQL 데이터정제 통계분석시각화 NoSQL 실시간데이터분석 Hardware Appliance Crawling Cloud for Big Data Informatica Apache Hadoop 2.0 R D3/ Visual.ly Cassandra SAP Hana Oracle Exadata Salesforce. com Radian6 Amazon (IaaS+ Hadoop) Talend (Open Studio) Cloudera (CDH 4.0 Impala 2.0) SAS Qliktech Mongo CEP Esper EMC Greenplum SAS SMA SoftLayer (IaaS+ Hadoop IBM InfoSphere DataStage HortonWorks (Data Plaform 2.0 Stinger) SPSS Micro Strategy Oracle Teradata Aster Rackspace (IaaS+ Hadoop) MapR (M5 hadoop, M7 hbase) Tableau Riak Tibco IBM Netizza Cloudant (DBaaS) Splunk (proprietary DB) Spotfire HP APS Amazon Dynamo (DBaaS) 통합데이터분석스위트 (UDAS) Sumologic Open Source 유료 SW 4
통합데이터분석스위트 (UDAS) 아키텍처 Overview 분석을위한 UDAS 아키텍처 5
통합데이터분석스위트 (UDAS) 아키텍처 Overview 주요요소기술 - 수집 / 정제 / 분석 / 시각화 2 3 1 4 8 5 통계분석알고리즘지속적추가반영 시각화그래프지속적추가반영 7 6 6
통합데이터분석스위트 (UDAS) 아키텍처 Overview 주요 Layer View Presentation Layer 통합 IDE ER 디자이너 쿼리디자이너 매핑디자이너 분석모델디자이너 결과분석뷰어 Business Layer 분석관리자 데이터연결관리 데이터패턴분석 분석결과관리 분석엔진관리 Data Access Layer 분석메타데이터 쿼리매핑데이터 리버스엔지니어링데이터 분석실행 분석결과데이터 7
수집프로세스 최초수집행위는데이터의저장장소, 형태에따라다양한방식이존재하지만단순수집이후적재단계까지약 70% 의작업은거의공통적인경향을보임. 이런공통작업을통합하여구조를단순화 / 일반화다양한수집에집중 중복작업 ( 수집전체공정의약 70%) 데이터통합수집도구 메일데이터수집가공적재 인터넷데이터수집가공적재 SNS 데이터수집가공적재 RDB 데이터수집가공적재 로그데이터수집가공적재 메일데이터수집모듈 중복작업간소화 메일데이터수집전문가 인터넷데이터수집전문가 SNS 데이터수집전문가 RDB 데이터수집전문가 로그데이터수집전문가 메일데이터수집모듈 인터넷데이터수집모듈 SNS 데이터수집모듈 RDB 데이터수집모듈 로그데이터수집모듈 통합데이터수집모듈 통합데이터저장소 데이터가공 통합데이터수집프로세스관리도구 빅데이터 인터넷데이터수집모듈 SNS 데이터수집모듈 RDB 데이터수집모듈 로그데이터수집모듈 가공 적재 데이터통합수집도구 통합데이터수집전문가 수집정책및규칙저장소 데이터수집정책 복합데이터분해규칙 정보보호규칙 데이터스키마 데이터전송정책 8
수집프로세스 정책및규칙메타데이터기반의통합제어및관리수집데이터뷰, 프로세스실시간상태모니터링정책및규칙메타데이터관리 (GUI 에디터 ) 데이터수집의효율성증가데이터품질관리데이터수집의유연성및정확성제공 통합데이터저장소 멀티 데이터브로커 통합데이터수집프로세스관리도구 실시간모니터링모듈 데이터 수집 수집모듈제어기 복합데이터분해모듈 데이터클린징모듈 정보보호모듈 데이터뷰모듈 모듈 정책및규칙저장모듈 수집데이터흐름 수집정책및규칙저장소 정책및규칙메타데이터흐름 처리및상태로그데이터흐름 9
정제프로세스시나리오 1 주 환자에대한데이터요청 요청한데이터 조건또는범위변경요청 의사 2 주 요청한데이터 전산실 3 주 데이터가공요청 가공된데이터 4 주 분석전문가부재 병원전산시스템 OCS (Order Communication System) 처방전달시스템 EMR (Electronic Medical Record) 전자의무기록 10
정제프로세스 원본데이터를분석할수있는데이터로변환하는과정을프로세스로관리하고재사용 데이터정제비용 50% 이상절감가능, 데이터정제작업시간 50% 이상단축가능 데이터모델링도구로 Reverse / Forward 엔지니어링을통한정제 비정형및반정형데이터불확실성내재 정형데이터데이터의본질과의미를훼손하지않음. 주제지향성 (Subject Oriented) 데이터분석개념과원리에따라주제별로구성되도록설계 데이터의의미적다양성도출여러가지조합으로재생산된의미를가지는분석대상으로서의데이터집합체설계 체계적인분석모델설계데이터설계측면에서관리와가독성이떨어지는스크립트코딩방식이아닌, 관리적 GUI 도구를제공하여분석모델설계 정형, 비정형및반정형데이터 Union Data Model HDFS (Hadoop) 분석 ODS 데이터웨어하우스 데이터마트 분석모델 분석결과 빅데이터분석 ODS 데이터웨어하우스데이터마트분석모델 비정형데이터의정규화어떤속성도파악되지않은비정형데이터가최소한의구조로저장될수있도록설계 통합성 (Integrated) 데이터가항상일관된형태로유지되고동일한명칭으로다수의개념을포함할수있도록데이터를통합 구체적반복적분석을위한데이터구축분석작업, 데이터의의미, 표현및사용의용이성등의측면에서분석가의명확한요구에부합하는데이터를제공할수있도록설계 11
정제프로세스 Source 빅데이터 Target DB 및분석모델 1 대상데이터베이스설계 2 데이터원본쿼리설계 3 데이터매핑설계 데이터원본및기존대상데이터베이스의메타데이터를활용한 ERD 설계 ERD 디자이너 데이터원본 쿼리결과구조 쿼리결과구조 항목선택 메타데이터 항목배치 항목별집계방식설정 통합메타데이터관리 결과구조타입지정 데이터프레임에데이터구조연결 ERD 디자이너 쿼리디자이너 12 매핑디자이너
정제프로세스 ER 디자인 ERD 디자이너는정확한데이터모델제작, 데이터의중복감소, 생산성을개선, 표준을준수 3 데이터베이스 4 개체탐색기 데이터원본스키마정보 1 ERD 작성을위한다양한개체지원 5 모델정합성체크 2 ERD 디자이너 논리 / 물리설계 기능 설명 1. ERD 관련개체제공 Entity, Relationship, Sub-Type 등 ERD 관련개체제공 2. 논리 / 물리설계 논리구조와물리구조변경 UI 제공 3. 대상데이터베이스개체탐색기 대상데이터베이스의데이터모델구조탐색및확인 4. 데이터원본구조메타데이터 선택된데이터원본의메타구조탐색및확인 5 모델정합성체크 모델의정합성을체크 13
정제프로세스 쿼리디자인 역공학으로데이터원본스키마정보를제공하며, 이정보는 ERD 뿐만아니라엔티티, 관계정보및인덱스까지제공하여쿼리설계를가능하게함. 쿼리디자이너는직관적인 GUI 환경을제공하며쿼리를스크립트로작성하거나 ERD 를설계하는방식으로간편하게작성할수있게함 1 데이터원본스키마정보역공학 데이터원본 ( 하둡, 데이터베이스및파일 ) 을역공학하여스키마정보를구축하여사용자에게제공 4 쿼리디자이너 GUI 도구를활용한쿼리디자이너 2 데이터원본스키마정보탐색창 정보를계층구조형태로확인 3 ERD 디자이너 데이터원본의역공학된스키마정보를 ERD 로보여줌 14
정제프로세스 매핑디자인 데이터정제작업은대부분스크립트로이루어져관리및재사용이어려움 매핑디자이너를통해데이터원본쿼리작성을간소화하고쿼리결과를대상데이터베이스구조와다양한방식으로매핑하여적재정보를생성 데이터매핑설계개념도 기능 1. 대상데이터베이스구조역공학 2. 데이터원본쿼리결과스키마정보조회 설명 대상데이터베이스를역공학하여전체데이터베이스의스키마정보를획득 쿼리메타데이터를이용하여데이터원본쿼리결과스키마정보를획득 쿼리결과구조 항목선택 3. 매핑메타데이터생성및관리 쿼리메타데이터와대상데이터베이스스키마정보를서로연결하여작업저장함 연결의기본원칙은테이블단위의매핑이지만, 추출결과셋의여러테이블간에동일한식별자를지정하고서로다른컬럼들을조합하여대상데이터베이스의특정테이블에매핑할수있음. 데이터원본쿼리결과구조에대하여산술및집계연산지정이가능함 항목배치 항목별집계방식설정 데이터프레임에데이터구조연결 4. 매핑메타데이터구성정보 매핑메타데이터는 ETL 에이전트의동작단위임 데이터원본연결및인증정보 ( 암호화 ) 데이터원본쿼리 쿼리결과구조메타데이터 대상데이터베이스구조일부 ( 매핑과관련한구조 ) 쿼리결과구조및대상데이터베이스구조의연결정보 (1:1, 비정규화매핑, 조인매핑정보포함 ) 15
정제프로세스 ETL ETL 은매핑메타데이터정보를기반으로동작, 쿼리결과는메타데이터를기반으로대상데이터베이스에적재 사용자는쿼리디자이너에서즉시적재를실행, ETL 에이전트를통해배치작업으로도실행 매핑메타데이터정보및관리자가설정한동작스케줄에따라 ETL 에이전트가동작 ETL 에이전트로그정보가기록, 오류관리, 전체분석프로세스의한부분으로동작 ETL 상세개념도 ETL 에이전트동작개념도 ETL 에이전트동작설정 S o u r c e 쿼리디자이너 즉시적재 쿼리저장 통합메타 데이터저장소 ETL 에이전트 T a r g e t 쿼리메타데이터 데이터원본 대상데이터베이스 매핑메타데이터 하둡및 데이터베이스 매핑디자이너 매핑정보저장 데이터로딩 서비스 데이터적재 데이터베이스및분석모델 쿼리결과데이터 추출결과변환및적재 매핑메타데이터 16
분석프로세스시나리오 분석위한데이터요청 ( 요구사항전달 ) 생산기획 요청한데이터 전산실 분석결과 분석전문가 업무적용 업무전문가 기간계시스템 17
분석프로세스 템플릿관리 분석템플릿은빅데이터분석과정에서발생한데이터베이스, 쿼리, 매핑및분석모델메타데이터의재활용및빅데이터분석서비스를가능하게함 분석템플릿관리 빅데이터분석서비스 통합메타데이터 ERD ERD 쿼리쿼리쿼리쿼리 ERD ERD 매핑매핑매핑매핑 분석모델 분석모델 분석모델 분석모델 - 데이터정제프로세스설정 - 통계분석설정 데이터정제프로세스별 ETL 실시간동작 분석모델데이터적재 ETL 실시간동작 환경설정 쿼리 ERD 매핑 분석템플릿 분석모델 결과뷰 분석템플릿 통계분석알고리즘및시각화그래프실행 정제프로세스메타데이터 분석모델메타데이터 실시간분석결과뷰 분석템플릿관리도구 사용자 - 의사결정 - 모니터링 - 전략수립 18
분석프로세스 - 분석자동화 업무전문가는미리준비된분석템플릿을선택하여분석프로세스자동화마법사에서제공하는단계별설정기능을통해분석프로세스의전과정을간소화하여진행 분석프로세스자동화마법사 분석템플릿선택 데이터정제프로세스환경설정 분석모델환경설정 분석실행 결과조회 분석영역별로제공하는분석템플릿선택 프로젝트에필요한사항식별 데이터정제프로세스변경가능 데이터정제단계별데이터원본및대상데이터베이스설정 통계분석알고리즘및시각화그래프변경기능 분석및시각화결과뷰커스트마이징 분석모델데이터적재및분석실행주기설정 분석및시각화결과뷰배포설정 통계분석결과및시각화그래프개별확인 분석및시각화결과뷰조회 정제프로세스무결성자동검증 분석템플릿을적용한분석프로세스자동화마법사를통해업무전문가가분석작업에바로착수 분석결과측면에서검증된분석템플릿을사용하면업무전문가는분석결과보고서, 대시보드및모니터링화면을 스스로제작할수있음 19
분석프로세스 통계알고리즘자동추천 통계알고리즘의추천은입력데이터의데이터타입을검사하여데이터의유형에맞는알고리즘을추천, 데이터전문가인경우직접알고리즘선택도가능 입력데이터 (input Data) Analysis Server With R Engine Class S3 S4 Stack type Data.frame List Array Vector 데이터타입검사 (Check Data Type) Elements type Continuous Numeric Linear regression Kernel smoothing Factor character T-test ANOVA Fourier analysis Weibull Survival Linear mixed effect model Generalized estimating equation 응답변수결정 (Determine Response Variable) Discrete Multivariate Generalized linear regression Machine learning Cochran Mental Henzel test Generalized estimating equation Generalized linear mixed effect model Clustering Factor analysis Multi dimensional scaling CART Multivariate linear regression Principal component analysis Continuous MASS lme4 stats glmnet fftw car reliar survival KernSmooth arm glmmlasso lm.br robustlmm CLME 사용가능한통계분석알고리즘검색 (Find Available Package) Discrete Multivariate stats MASS RandomForest nplr e1071 lme4 blme glmnet cplm FactoMineR mclust smacof stats skmeans pscore MVN bootsvd gee kknn rmgarch nnet ordinal cclust 20
분석프로세스 알고리즘, 그래프자동추천 분석모델의데이터스키마와통계분석알고리즘및시각화그래프의메타데이터를이용하여추천기능을제공. 분석가가구성한분석모델의데이터스키마및실제데이터의유형을자동으로파악하여실행가능한통계분석알고리즘및시각화그래프를추천 통계분석알고리즘및시각화그래프추천시스템개념도 데이터유형분석 데이터유형별통계분석알고리즘 및시각화그래프의룰기반매핑 DB 구축 ( 지속적인추가반영 ) 분석모델 데이터유형정보 데이터의유형에따른가설검정과 통계기법및시각화그래프를 1 차 정리 추천된통계분석알고리즘및시각화그래프 분석가 통계분석알고리즘및시각화그래프추천시스템 통계분석알고리즘및시각화그래프메타데이터 데이터유형별통계분석알고리즘및시각화그래프룰기반매핑 DB 2차로통계분석알고리즘을통계기법기준으로분류 최종적으로데이터유형에따른통계분석알고리즘및시각화그래프의관계를지식화하여룰기반매핑 DB로구축 21
분석프로세스 엔진서버서비스 분석실행시분석모델의구성데이터크기및분석종류에따라개인 PC 에서는처리하지못하는경우분석엔진서버서비스를통해처리 분석엔진서버서비스 Client 분석관리서비스 Application Server Smart client UDAS 개별분석실행 분석프로세스자동화마법사 결과조회 Web Application 분석포털 Site 분석프로세스자동화마법사 결과조회 분석요청큐관리 분석서버상태정보 분석요청서버배정 우선순위관리 작업취소 분석모델관리 분석이력 분석결과관리 분석상태관리 분석진행상황정보 분석상태에따른 Notice 오류및진단 오류처리및 Notice 무한처리및대기감지 Web Hosting 분석서버제어 서버모니터링 분석상태모니터링 Data Access 분석작업관리 분석관리서비스 Analysis Server With R Engine Analysis Server With R Engine Analysis Server With R Engine 22
시각화 - 분석시각화도구 사용하고싶은분석및시각화툴 데이터를시각화하는방법은굉장히 많음. flowingdata.com 에서어떤툴 로시각화를하는지설문결과 마이크로소프트의엑셀과 R이과반을넘고있는상황엑셀은훌륭한도구이지만빅데이터를분석하기엔적합하지않음 R은엑셀만큼손쉽게빅데이터를분석하기어려움업무전문가들을위한최적의솔루션필요 [ 자료 : flowingdata.com] 23
시각화 통계분석및시각화결과뷰를분석포털에배포하여사용자에게공유분석결과뷰배포 - 분석결과편집 - 분석결과배포 분석가는여러결과중특정분석및 시각화결과뷰를분석포털에공유할 수있음 분석결과 DB 분석결과조회및관리 결과뷰를분석포털에배포시특정 그룹및사용자에게만공개할수 있도록권한제어 CLOUD 클라우드배포및공유 분석포털 배포된분석및시각화결과뷰에대해서사용자는분석모델을재구성하여새로운분석을진행할수있음. 이기능은분석프로세스자동화마법사를통해진행됨 사용자 - 의사결정자 - 조직구성원 - 분석결과리서치 - 재분석 24
통합메타데이터관리 분석프로세스에서발생한개별적인메타데이터는통합메타데이터저장소에서관리되며, 각메타데이터를재구성하고통합하여정형화된구조의분석템플릿생성및관리 정보정의메타데이터관리메타데이터활용 ERD 정보 분석템플릿 분석가 ERD ERD ERD ERD 분석프로세스실행및분석서비스구축 쿼리정보 쿼리쿼리쿼리쿼리 분석템플릿 통합메타데이터저장소 관리자 분석프로세스관리정보 매핑정보 매핑매핑매핑매핑 쿼리 설계자 분석프로세스구축및재활용 분석모델정보 분석모델 분석모델 분석모델 분석모델 ERD 매핑 분석모델 업무전문가 분석프로세스자동화마법사를통한분석 25
통합데이터분석스위트 (UDAS) 의효과 수집부터분석까지모든작업을지원하는통합데이터분석스위트 빅데이터분석을위해데이터수집, 정제, 통계분석및시각화를위한기능을통합제공 개별작업의연관성및검증은메타데이터를기반으로연결및검증 분석전문가뿐만아니라업무전문가도통계분석및시각화가가능 빅데이터수집부터분석결과배포까지통합된스위트제공 (IDE) 데이터정제프로세스관리및정제도구 데이터분석을위한데이터정제프로세스관리및재사용가능환경제공 데이터정제작업관리도구 ( 데이터정제프로세스디자이너 ) 데이터정제작업시간 / 비용 50% 이상단축 / 감소및직관적인데이터정제기능제공 마법사를통한손쉬운데이터통계분석및시각화 통계분석알고리즘추천시스템과시각화그래프추천시스템을통해손쉬운데이터통계분석및시각화가능 메타데이터를기반으로통계분석및시각화프로세스를단순화시킴 일반사용자분석 (End User Analytics) 환경제공 업무전문가가쉽고빠르게빅데이터를분석할수있는환경제공 일반사용자도손쉽게빅데이터를분석할수있는일반사용자분석환경제공 외산빅데이터분석솔루션대체효과 증가하는외산빅데이터분석솔루션을국산으로대체 빅데이터시장에서의 Win-Win 전략 ( 사업자수익성제고 + 고객사비용절감 + 고객사신뢰도확보 ) 26
Q & A 27