빅데이터시각화 2016.09 조완섭충북대학교빅데이터센터 wscho@chungbuk.ac.k r 043-261-3258
목차 개요 시각화기술 시각시각화 분포시각화 관계시각화 공간시각화 비교시각화 인포그래픽 시각화도구 2016-09-30 조완섭 (wscho@chungbuk.ac.kr) 2
시각화 개요 데이터시각화 (Visualization) 는데이터분석결과를직관적으로이해할수있도록표현하는기술 예 : 지역별, 시간대별일기예보기상도, 지하철노선도등 자료가의미하는바를직관적으로이해하도록지원함으로써즉각적인상황판단, 정보의빠른확산과기억을지원 빅데이터를시각화하면수많은데이터들의무질서속에숨겨진패턴을발견하여현상파악은물론정보의확산과미래예측에기여함 2016-09-30 3
최근시각화동향 개요 빅데이터분석과시각화를반복하면서방대한데이터가의미하는스트리가만들어지게되며, 분석과시각화는점차하나의영역으로통합되어가는추세 시각화의영역확대 빅데이터분석결과를직관적으로보여주는것을넘어데이터의수집, 정제, 분석, 공유하는전과정에서시각화가중요한역할을하는추세임 시각화관련자료 https://www.youtube.com/watch?v=nvwb_of8zys http://www.segye.com/content/html/2015/10/04/20151004000736.html ( 신문기사 ) 2016-09-30 4
시각화기술 빅데이터시각화기술에는시간시각화, 분포시각화, 관계시각화, 공간시각화, 비교시각화, 인포그래픽등이있음 시간시각화기술 이산형 : 특정시점의값이나특정시간구간의값을막대그래프, 누적막대그래프, 점그래프등으로표현하는방식 연속형 : 기온변화같이연속적으로변화하는값을시계열그래프, 계단식그래프, LOESS 곡선추정등으로표현하는방식 2016-09-30 5
시각화기술 누적막대그래프와시계열그래프 2016-09-30 6
분포시각화기술 시각화기술 - 분포 전체분포 : 최대, 최소, 전체분포를나타내는그래프로전체의관점에서각부분이차지하는정도를파이차트, 도넛차트, 누적막대그래프, 인터랙티브누적막대그래프등으로시각화 시간에따른분포 : 최근 50 년간연령별인구분포와같이시간에따라어떤변화가있었는지나타내는기술로누적연속그래프, 누적영역그래프, 인터랙티브누적영역그래프, 선그래프등 2016-09-30 7
시각화기술 도넛차트 누적영역그래프 2016-09-30 8
관계시각화 시각화기술 - 관계 변수들사이에존재하는관계를찾는기술로상관관계, 분포, 비교로구분할수있으며, 상관관계는스캐터플롯, 스캐터플롯행렬, 버블차트등으로표현할수있음 상관관계는한변수의변화가다른변수의변화에어떠한영향을미치는지를파악하여한변수의값의변화를통해다른변수의변화를예측할수있도록함 ( 상관관계는스캐트플롯, 버블차트등으로표현 ) 분포는평균, 중앙값, 최빈값등을통해데이터가어떤값을기준으로분포하는가를표현하는것으로스템플롯, 히스토그램, 밀도함수그래프등으로표현할수있음 비교는분포를여러개배치하여서로비교할수있도록하는시각화기법으로히스토그램등이사용됨 2016-09-30 9
미국범죄데이터시각화 시각화기술 > crime<-read.csv("http://datasets.flowingdata.com/crimeratesbystate2005.csv", sep=",", header=true) > plot(crime$murder, crime$burglary) < 그림 > 스캐트플롯 2016-09-30 10
시각화기술 < 그림 > 스캐트플롯행렬의예 2016-09-30 11
비교시각화기술 시각화기술 - 비교 여러변수의데이터값들을비교하는방법으로히트맵, 체르노프페이스, 스타차트, 평행좌표그래프등이사용됨 다차원척도법 : 군집분석과같이개체들을대상으로변수들을측정한후에개체들사이의유사성과비유사성을측정하여시각화하는방법 2016-09-30 12
시각화기술 17 18 19 시 월별 / 시간대별교통사고발생현황 7 월 8 월 9 월 < 그림 > 히트맵 월별 / 시간대별교통사고발생현황 2016-09-30 13
시각화기술 > require(graphics) > loc <- cmdscale(eurodist) > x <- loc[,1] > y <- loc[,2] > plot(x, y, type="n", xlab="", main="cmdscale(eurodist)") > text(x, y, rownames(loc), cex=0.8) > abline(v=0, h=0) < 그림 > 다차원척도법 - 유럽도시간거리 2016-09-30 14
시각화기술 공간 ( 지도 ) 좌표값을가진데이터는지도상에서시각화하는것이직관적임 야후, 마이크로로소프트등글로벌인터넷업체들과네이버나카카오등국내업체들에서지도를제공하고있으며, 지도상에서다양한정보를시각화할수있도록지원함 2016-09-30 15
시각화기술 - 인포그래픽 인포메이션과그래픽의합성어로차트, 지도다이어그램, 로고, 일러스트레이션등을활용하여다량의정보를한눈에파악할수있도록하는기술 시각적인효과와직관적인이해를위해뛰어난디자인감각이있어야하지만더중요한것은전달의목적성을살려내는것이며, 데이터이면에숨겨진 insight 의전달이중요함 인포그래픽의장점은흥미유발, 정보습득시간의절감, 기억지속시간연장, 빠른확산등임 2016-09-30 16
인포그래픽의종류 시각화기술 - 인포그래픽 통계기반인포그래픽 : 통계자료를기반으로그래프, 버블차트등을직관적으로표현하여내용을한눈에파악할수있게함 타임라인기반인포그래픽 : 시간순서에따라발생한데이터를인프로그래픽으로직관적으로표시하여시간에따른변화를한눈에파악할수있게함 프로세스기반인포그래픽 : 일의흐름또는작동방법을그림으로쉽게파악할수있도록함 위치기반인포그래픽 : 지도를이용하여공간상에서직관적인정보습득이가능하도록함 2016-09-30 17
시각화기술 - 인포그래픽 통계기반인포그래픽 ( 출처 : columnfivemedia.com) 2016-09-30 18
시각화기술 - 인포그래픽 타임라인기반의인포그래픽 ( 출처 : awesome.good.is) 2016-09-30 19
시각화기술 - 인포그래픽 프로세스기반의인포그래픽 ( 출처 : www.facebook.com) 2016-09-30 20
시각화기술 - 인포그래픽 지도기반의인포그래픽사례 ( 출처 : www.goodenergy.co.uk) 2016-09-30 21
시각화도구 상용도구 업체 제품명 SAS SAS Visual Analytics - 인메모리기반시각화도구 MicroStrategy MicroStrategy MSTR 9.3.1 Oracle Oracle Endeca Information Discovery IBM Inforsphere Data Explorer IBM Concert On Cloud Project Neo Tableau 팁코위세아이텍솔트룩스 Tableau 팁코스폿파이어 WISE Visual 레인보우, 아이비주얼 (i-visual) 2016-09-30 22
시각화도구 오픈소스 영역다용도지도 R도구 Project Statistical 범위 analysis Yes 시각화 With 기능 plugin Linux, Mac OS X, Unix, 플랫폼Windows XP or later 데이터 Web 기술 4수준 Local 저장방식 / No Designer를처리방식위한설계? Google Fusion Tables Visualization app/service Yes Yes Browser 1 External server Yes Many Eyes Visualization app/service Yes Limited Browser 1 Public external server Yes Tableau Public Visualization app/service Yes Yes Windows, OS X 3 Public external server Yes VIDI Zoho Reports Visualization app/service Visualization app/service Yes Yes Browser 1 External server Yes Yes No Browser 2 External server Yes Exhibit Library Yes Yes Code editor and browser 4 Local or external server Yes Google Chart Tools Library and Visualization app/service Yes Yes Code editor and browser 2 Local or external server Yes JavaScript InfoVis Toolkit Library Yes No Code editor and browser 4 Local or external server Yes D3 Library Yes Yes Code editor and browser 4 Local or external server Yes 수많은도구들이있음 2016-09-30 23
시각화프로그래밍 시각화도구 Python 에서 Matplotlib 를사용하면파이썬으로 2D 혹은 3D 그래프를구현할수있으며, D3.js 나 TopoJSON 을사용하여지도등다양한시각화를할수도있음 R, Java, PHP 등다른프로그래밍언어도시각화라이브러리를사용하여다양한시각화를수행할수있다. HTML, 자바스크립트, CSS 등도시각화를지원하는강력한패키지로사용되고있다. 특히, D3.js 는손쉽게웹에서시각화를할수있는가장강력한도구이다 (http://d3js.org). 이는데이터시각화를위한자바스크립트라이브러리로써 SVG 와 CSS 를자바스크립트와함께사용해데이터를표시해준다. 2016-09-30 24
Tableau 평가판다운로드 (15 일간 ) 시각화도구 ( http://www.tableau.com/ko-kr/products/desktop/download ) - 교육자료 http://www.tableau.com/learn/training 2016-09-30 25
ETL & Data Integration 2015.02 조완섭충북대학교경영정보학과대학원비즈니스데이터융합학과 wscho@chungbuk.ac.kr 043-261-3258 010-2487-3691
목차 개요 ETL Architecture 추출 정제 변형및통합 로딩 메타데이터 데이터품질 제품 2016-09-30 27
개요 ETL (Extraction, Transformation, Loading & Data Integration) 다양한데이터소스로부터분석에필요한데이터를추출 (Extract) 하여변환 (Transformation) 작업을거쳐 Target System) 에로딩 (Loading) 하는과정 BI 시스템에서방대한운영데이터를얻기위해서운영시스템 (OLTP) 에부담을주지않으면서분석용데이터를 ETL 할수있어야함 데이터소스시스템들이서로다른운영시스템, 데이터베이스, 하드웨어플랫폼및네트워크환경을고려하면 ETL 과정은복잡함 2016-09-30 28
( 출처 ) Talend 발표자료 2016-09-30 29
개요 ( 출처 ) Talend 발표자료 2016-09-30 30
ETL Architecture ETL 시스템구조 ( 출처 ) IK 솔루션즈 ( 주 ) ppt 자료를수정함 빅데이터 2016-09-30 31
ETL Architecture ETL 프로세스 ( 출처 ) IK 솔루션즈 ( 주 ) ppt 자료를수정함 2016-09-30 32
ETL Architecture ETL 의소스시스템 Mainframe applications, ERP applications, CRM packages, flat files, Excel spreadsheets, message queue 최근빅데이터까지수용 : SNS, IoT, Audio, Video, Documents, 추출방법 JDBC, ODBC 기술활용, Program, flat file 생성, CDC(change data capture), Web Robot, 다양한도구가보급 : 국산 / 외산, 상용 / 오픈소스 정제및통합 추출된데이터는정제후연계통합 (DW), Refresh 방안수립 타겟시스템 관계형데이터베이스 Hadoop/NoSQL ( 빅데이터 ) 2016-09-30 33
추출 ( 출처 ) IK 솔루션즈 ( 주 ) ppt 자료를수정함 2016-09-30 34
정제 ( 출처 ) IK 솔루션즈 ( 주 ) ppt 자료를수정함 2016-09-30 35
변형및통합 ( 출처 ) IK 솔루션즈 ( 주 ) ppt 자료를수정함 2016-09-30 36
검증 ( 출처 ) IK 솔루션즈 ( 주 ) ppt 자료를수정함 2016-09-30 37
로딩 ( 출처 ) IK 솔루션즈 ( 주 ) ppt 자료를수정함 2016-09-30 38
메타데이터 ( 출처 ) IK 솔루션즈 ( 주 ) ppt 자료를수정함 2016-09-30 39
메타데이터 ( 출처 ) IK 솔루션즈 ( 주 ) ppt 자료를수정함 2016-09-30 40
메타데이터 ( 출처 ) IK 솔루션즈 ( 주 ) ppt 자료를수정함 2016-09-30 41
데이터품질 ( 출처 ) IK 솔루션즈 ( 주 ) ppt 자료를수정함 2016-09-30 42
데이터품질 ( 출처 ) IK 솔루션즈 ( 주 ) ppt 자료를수정함 2016-09-30 43
ETL History 최근빅데이터 ETL 까지발전함 제 4 세대 빅데이터플랫폼 Hub 병목현상 빅데이터를추출하여하둡, NoSQL 등빅데이터플랫폼으로이동시킴 Cobol 언어 2016-09-30 44
도구들의분류 Major database vendors IBM, Microsoft, Oracle Independent companies ETL 도구 Informatica currently among market leaders Open source Clover ETL Talend 국산패키지 DataStreams 2016-09-30 45
IBM Product name: InfoSphere DataStage Main claims: variety of data sources (almost any database, text, XML, web services) capable of handling data arriving in real-time scalability Unix (Linux) and Windows Platforms 2016-09-30 46
IBM InfoSphere product line that includes software from WebSphere and Information Server lines. Includes lots of other things application integration and transformation online marketing tools mobile, speech middleware business process management change data capture information analyzer data quality tools 2016-09-30 47
IBM InfoSphere Federation Server Federated (virtual) integration: Access and integrate diverse data and content sources as if they were a single resource - regardless of where the information resides. Integration across different relational products (db2, Oracle, SQL server) Integrity and accuracy guarantees Distributed query optimizer XML support Security strategies These are expensive products (>US$60K license) 2016-09-30 48
IBM IBM s view of data integration Key tasks, with associated products Tasks: Connect to information (products: information server; data pub-lisher) Understand information (data architect, models for... (banking, insurance, retail, telecom)) Cleanse information (QualityStage: matching engine, cleaning rules etc) Transform information (DataStage) Deliver information (Federation Server, DataStage) 2016-09-30 49
Microsoft Integration Services part of SQL Server (SSIS) Supports multiple formats; converts everything into tabular format Transformations: join, union sort aggregate lookup convert Has a data quality tool Goes beyond traditional ETL: e.g., data and text mining tools 2016-09-30 50
Informatica Market leader Informatica PowerCenter Provides support for migration synchronization warehousing cross-enterprise integration Works with multiple data formats Provides support for metadata management Real-time capabilities 2016-09-30 51
Informatica Main orientation: scalar value transformations Functions: change data in a mapping Operators: create transformation expressions Syntax is SQL-based Part of it is essentially a programming language in a Java-like syntax for manipulating values. Roughly: looks at a portion of the source data, modifies it, and changes the target data accordingly. 2016-09-30 52
Informatica DD_DELETE and DD_INSERT specify what to do with data items. E.g., IIF(job= CEO, DD_DELETE, DD_INSERT) says: items with job being CEO are marked for deleting, others for insertion. Operators: Arithmetic String Comparisons Logical (almost) everything you can imagine Many functions for dealing with dates in different formats. 2016-09-30 53
Informatica Large number of functions Aggregates: AVG, COUNT, MIN, MAX, MEDIAN, PERCENTILE, STDDEV, SUM, etc. Character functions: CONCAT, LENGTH, TRIM, etc Conversion functions (e.g., TO_CHAR for Date, TO_DECIMAL, TO_FLOAT, TO_DATE) Date functions: ADD_TO_DATE, DATE_DIFF, DATE_COMPARE, etc Numerical: the usual suspects. Scientific: SIN, COS, TAN, etc Search for a value in the source: LOOKUP This was quick; full manual almost 250 pages. 2016-09-30 54
요약 Complex tools; very good at transforming data values, and at working with specific formats (MS Word, Excel, PDF, UN/EDIFACT, RosettaNet, etc) and for specific industries (finance, insurance, health) Much better these days at getting real-time data; very good at bulk loading, supporting multiple formats Not so good: virtual integration complex structural transformation query answering metadata management 2016-09-30 55