Microsoft PowerPoint - 11주차.pptx

Similar documents
DW 개요.PDF

Portal_9iAS.ppt [읽기 전용]

Intra_DW_Ch4.PDF

ETL_project_best_practice1.ppt

김기남_ATDC2016_160620_[키노트].key

Model Investor MANDO Portal Site People Customer BIS Supplier C R M PLM ERP MES HRIS S C M KMS Web -Based

세션 2-2(허태경).ppt

Service-Oriented Architecture Copyright Tmax Soft 2005

IBM Business Intelligence Solution Seminar 2005 Choose the Right Data Integration Solution ; Best Practices on EII/EAI/ETL IBM DB2 Technical Sales BI

Oracle Apps Day_SEM

untitled

ecorp-프로젝트제안서작성실무(양식3)

J2EE & Web Services iSeminar

<C0CCBCBCBFB52DC1A4B4EBBFF82DBCAEBBE7B3EDB9AE2D D382E687770>

歯목차45호.PDF

1

Analyst Briefing

Microsoft SQL Server 2005 포켓 컨설턴트 관리자용

Eclipse 와 Firefox 를이용한 Javascript 개발 발표자 : 문경대 11 년 10 월 26 일수요일

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

歯부장

Microsoft PowerPoint - Smart CRM v4.0_TM 소개_ pptx

SchoolNet튜토리얼.PDF

Domino Designer Portal Development tools Rational Application Developer WebSphere Portlet Factory Workplace Designer Workplace Forms Designer

HTML5가 웹 환경에 미치는 영향 고 있어 웹 플랫폼 환경과는 차이가 있다. HTML5는 기존 HTML 기반 웹 브라우저와의 호환성을 유지하면서도, 구조적인 마크업(mark-up) 및 편리한 웹 폼(web form) 기능을 제공하고, 리치웹 애플리케이 션(RIA)을

Session3. 한국마이크로소프트(전사적 데이터 통합 컨퍼런스).ppt


CRM Fair 2004

歯CRM개괄_허순영.PDF

PowerPoint Presentation

PowerPoint 프레젠테이션

E-BI Day Presentation

FMX M JPG 15MB 320x240 30fps, 160Kbps 11MB View operation,, seek seek Random Access Average Read Sequential Read 12 FMX () 2

PowerPoint 프레젠테이션

Office Office Office 365,,,,,. Microsoft Microsoft

歯김한석.PDF

이제는 쓸모없는 질문들 1. 스마트폰 열기가 과연 계속될까? 2. 언제 스마트폰이 일반 휴대폰을 앞지를까? (2010년 10%, 2012년 33% 예상) 3. 삼성의 스마트폰 OS 바다는 과연 성공할 수 있을까? 지금부터 기업들이 관심 가져야 할 질문들 1. 스마트폰은

MS-SQL SERVER 대비 기능

서현수


IPAK 윤리강령 나는 _ 한국IT전문가협회 회원으로서 긍지와 보람을 느끼며 정보시스템 활용하 자. 나는 _동료, 단체 및 국가 나아가 인류사회에 대하여 철저한 책임 의식을 가진 다. 나는 _ 활용자에 대하여 그 편익을 증진시키는데 최선을 다한다. 나는 _ 동료에 대해

ORANGE FOR ORACLE V4.0 INSTALLATION GUIDE (Online Upgrade) ORANGE CONFIGURATION ADMIN O

Chap7.PDF

Orcad Capture 9.x

Social Network

PowerPoint 프레젠테이션

PowerPoint

Data Industry White Paper

PCServerMgmt7

Intro to Servlet, EJB, JSP, WS

<A4B5A4C4A4B5A4BFA4B7A4B7A4D1A4A9A4B7A4C5A4A4A4D1A4A4A4BEA4D3A4B1A4B7A4C7A4BDA4D1A4A4A4A7A4C4A4B7A4D3A4BCA4C E706466>

Voice Portal using Oracle 9i AS Wireless

untitled

목 차 Ⅰ. 일반사항 1 Ⅱ. 특기사항 3 Ⅲ. 물품내역 및 세부규격 8 Ⅳ. 주의사항

APOGEE Insight_KR_Base_3P11

DocsPin_Korean.pages

데이터 시각화

<4D F736F F D205B4354BDC9C3FEB8AEC6F7C6AE5D3131C8A35FC5ACB6F3BFECB5E520C4C4C7BBC6C320B1E2BCFA20B5BFC7E2>

당사의 명칭은 "주식회사 다우기술"로 표기하며 영문으로는 "Daou Tech Inc." 로 표기합니다. 또한, 약식으로는 "(주)다우기술"로 표기합니다. 나. 설립일자 및 존속기간 당사는 1986년 1월 9일 설립되었으며, 1997년 8월 27일 유가증권시장에 상장되

PowerPoint 프레젠테이션

1 전통 소프트웨어 가. ERP 시장 ERP 업계, 클라우드 기반 서비스로 새로운 활력 모색 - SAP-LGCNS : SAP HANA 클라우드(SAP HEC)를 통해 국내 사례 확보 및 아태 지역 진 출 추진 - 영림원 : 아시아 클라우드 ERP 시장 공략 추진 - 더

untitled

untitled

슬라이드 1

HTML5* Web Development to the next level HTML5 ~= HTML + CSS + JS API

1217 WebTrafMon II


Cache_cny.ppt [읽기 전용]

08SW

세션 3 (오이식).ppt

슬라이드 1

uFOCS

PowerPoint 프레젠테이션

Building Mobile AR Web Applications in HTML5 - Google IO 2012

20(53?)_???_O2O(Online to Offline)??? ???? ??.hwp

PowerPoint 프레젠테이션

歯튜토리얼-이헌중.PDF

비식별화 기술 활용 안내서-최종수정.indd

고객 지향적인 IT 투자와 운영이 요구되는 시대! 2014년 현재 유통, 서비스 업계의 정보화 화두는 BYOD 수용과 고객의 마음을 읽는 분석 입니다. Market Overview _ Cross Industry 의 정보화 동향 유통과 서비스 업계의 IT 환경은 발 빠르

Oracle9i Real Application Clusters

untitled

DBMS & SQL Server Installation Database Laboratory

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

Microsoft PowerPoint - SVPSVI for LGNSYS_ ppt

SQL Developer Connect to TimesTen 유니원아이앤씨 DB 기술지원팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 작성자

[Brochure] KOR_TunA

No Slide Title

untitled

Microsoft Word - 조병호

untitled

ICT03_UX Guide DIP 1605


PowerPoint 프레젠테이션

UNIST_교원 홈페이지 관리자_Manual_V1.0

요약 1

슬라이드 1

Microsoft PowerPoint - 3.공영DBM_최동욱_본부장-중소기업의_실용주의_CRM

10X56_NWG_KOR.indd

untitled

11¹Ú´ö±Ô

Transcription:

빅데이터시각화 2016.09 조완섭충북대학교빅데이터센터 wscho@chungbuk.ac.k r 043-261-3258

목차 개요 시각화기술 시각시각화 분포시각화 관계시각화 공간시각화 비교시각화 인포그래픽 시각화도구 2016-09-30 조완섭 (wscho@chungbuk.ac.kr) 2

시각화 개요 데이터시각화 (Visualization) 는데이터분석결과를직관적으로이해할수있도록표현하는기술 예 : 지역별, 시간대별일기예보기상도, 지하철노선도등 자료가의미하는바를직관적으로이해하도록지원함으로써즉각적인상황판단, 정보의빠른확산과기억을지원 빅데이터를시각화하면수많은데이터들의무질서속에숨겨진패턴을발견하여현상파악은물론정보의확산과미래예측에기여함 2016-09-30 3

최근시각화동향 개요 빅데이터분석과시각화를반복하면서방대한데이터가의미하는스트리가만들어지게되며, 분석과시각화는점차하나의영역으로통합되어가는추세 시각화의영역확대 빅데이터분석결과를직관적으로보여주는것을넘어데이터의수집, 정제, 분석, 공유하는전과정에서시각화가중요한역할을하는추세임 시각화관련자료 https://www.youtube.com/watch?v=nvwb_of8zys http://www.segye.com/content/html/2015/10/04/20151004000736.html ( 신문기사 ) 2016-09-30 4

시각화기술 빅데이터시각화기술에는시간시각화, 분포시각화, 관계시각화, 공간시각화, 비교시각화, 인포그래픽등이있음 시간시각화기술 이산형 : 특정시점의값이나특정시간구간의값을막대그래프, 누적막대그래프, 점그래프등으로표현하는방식 연속형 : 기온변화같이연속적으로변화하는값을시계열그래프, 계단식그래프, LOESS 곡선추정등으로표현하는방식 2016-09-30 5

시각화기술 누적막대그래프와시계열그래프 2016-09-30 6

분포시각화기술 시각화기술 - 분포 전체분포 : 최대, 최소, 전체분포를나타내는그래프로전체의관점에서각부분이차지하는정도를파이차트, 도넛차트, 누적막대그래프, 인터랙티브누적막대그래프등으로시각화 시간에따른분포 : 최근 50 년간연령별인구분포와같이시간에따라어떤변화가있었는지나타내는기술로누적연속그래프, 누적영역그래프, 인터랙티브누적영역그래프, 선그래프등 2016-09-30 7

시각화기술 도넛차트 누적영역그래프 2016-09-30 8

관계시각화 시각화기술 - 관계 변수들사이에존재하는관계를찾는기술로상관관계, 분포, 비교로구분할수있으며, 상관관계는스캐터플롯, 스캐터플롯행렬, 버블차트등으로표현할수있음 상관관계는한변수의변화가다른변수의변화에어떠한영향을미치는지를파악하여한변수의값의변화를통해다른변수의변화를예측할수있도록함 ( 상관관계는스캐트플롯, 버블차트등으로표현 ) 분포는평균, 중앙값, 최빈값등을통해데이터가어떤값을기준으로분포하는가를표현하는것으로스템플롯, 히스토그램, 밀도함수그래프등으로표현할수있음 비교는분포를여러개배치하여서로비교할수있도록하는시각화기법으로히스토그램등이사용됨 2016-09-30 9

미국범죄데이터시각화 시각화기술 > crime<-read.csv("http://datasets.flowingdata.com/crimeratesbystate2005.csv", sep=",", header=true) > plot(crime$murder, crime$burglary) < 그림 > 스캐트플롯 2016-09-30 10

시각화기술 < 그림 > 스캐트플롯행렬의예 2016-09-30 11

비교시각화기술 시각화기술 - 비교 여러변수의데이터값들을비교하는방법으로히트맵, 체르노프페이스, 스타차트, 평행좌표그래프등이사용됨 다차원척도법 : 군집분석과같이개체들을대상으로변수들을측정한후에개체들사이의유사성과비유사성을측정하여시각화하는방법 2016-09-30 12

시각화기술 17 18 19 시 월별 / 시간대별교통사고발생현황 7 월 8 월 9 월 < 그림 > 히트맵 월별 / 시간대별교통사고발생현황 2016-09-30 13

시각화기술 > require(graphics) > loc <- cmdscale(eurodist) > x <- loc[,1] > y <- loc[,2] > plot(x, y, type="n", xlab="", main="cmdscale(eurodist)") > text(x, y, rownames(loc), cex=0.8) > abline(v=0, h=0) < 그림 > 다차원척도법 - 유럽도시간거리 2016-09-30 14

시각화기술 공간 ( 지도 ) 좌표값을가진데이터는지도상에서시각화하는것이직관적임 야후, 마이크로로소프트등글로벌인터넷업체들과네이버나카카오등국내업체들에서지도를제공하고있으며, 지도상에서다양한정보를시각화할수있도록지원함 2016-09-30 15

시각화기술 - 인포그래픽 인포메이션과그래픽의합성어로차트, 지도다이어그램, 로고, 일러스트레이션등을활용하여다량의정보를한눈에파악할수있도록하는기술 시각적인효과와직관적인이해를위해뛰어난디자인감각이있어야하지만더중요한것은전달의목적성을살려내는것이며, 데이터이면에숨겨진 insight 의전달이중요함 인포그래픽의장점은흥미유발, 정보습득시간의절감, 기억지속시간연장, 빠른확산등임 2016-09-30 16

인포그래픽의종류 시각화기술 - 인포그래픽 통계기반인포그래픽 : 통계자료를기반으로그래프, 버블차트등을직관적으로표현하여내용을한눈에파악할수있게함 타임라인기반인포그래픽 : 시간순서에따라발생한데이터를인프로그래픽으로직관적으로표시하여시간에따른변화를한눈에파악할수있게함 프로세스기반인포그래픽 : 일의흐름또는작동방법을그림으로쉽게파악할수있도록함 위치기반인포그래픽 : 지도를이용하여공간상에서직관적인정보습득이가능하도록함 2016-09-30 17

시각화기술 - 인포그래픽 통계기반인포그래픽 ( 출처 : columnfivemedia.com) 2016-09-30 18

시각화기술 - 인포그래픽 타임라인기반의인포그래픽 ( 출처 : awesome.good.is) 2016-09-30 19

시각화기술 - 인포그래픽 프로세스기반의인포그래픽 ( 출처 : www.facebook.com) 2016-09-30 20

시각화기술 - 인포그래픽 지도기반의인포그래픽사례 ( 출처 : www.goodenergy.co.uk) 2016-09-30 21

시각화도구 상용도구 업체 제품명 SAS SAS Visual Analytics - 인메모리기반시각화도구 MicroStrategy MicroStrategy MSTR 9.3.1 Oracle Oracle Endeca Information Discovery IBM Inforsphere Data Explorer IBM Concert On Cloud Project Neo Tableau 팁코위세아이텍솔트룩스 Tableau 팁코스폿파이어 WISE Visual 레인보우, 아이비주얼 (i-visual) 2016-09-30 22

시각화도구 오픈소스 영역다용도지도 R도구 Project Statistical 범위 analysis Yes 시각화 With 기능 plugin Linux, Mac OS X, Unix, 플랫폼Windows XP or later 데이터 Web 기술 4수준 Local 저장방식 / No Designer를처리방식위한설계? Google Fusion Tables Visualization app/service Yes Yes Browser 1 External server Yes Many Eyes Visualization app/service Yes Limited Browser 1 Public external server Yes Tableau Public Visualization app/service Yes Yes Windows, OS X 3 Public external server Yes VIDI Zoho Reports Visualization app/service Visualization app/service Yes Yes Browser 1 External server Yes Yes No Browser 2 External server Yes Exhibit Library Yes Yes Code editor and browser 4 Local or external server Yes Google Chart Tools Library and Visualization app/service Yes Yes Code editor and browser 2 Local or external server Yes JavaScript InfoVis Toolkit Library Yes No Code editor and browser 4 Local or external server Yes D3 Library Yes Yes Code editor and browser 4 Local or external server Yes 수많은도구들이있음 2016-09-30 23

시각화프로그래밍 시각화도구 Python 에서 Matplotlib 를사용하면파이썬으로 2D 혹은 3D 그래프를구현할수있으며, D3.js 나 TopoJSON 을사용하여지도등다양한시각화를할수도있음 R, Java, PHP 등다른프로그래밍언어도시각화라이브러리를사용하여다양한시각화를수행할수있다. HTML, 자바스크립트, CSS 등도시각화를지원하는강력한패키지로사용되고있다. 특히, D3.js 는손쉽게웹에서시각화를할수있는가장강력한도구이다 (http://d3js.org). 이는데이터시각화를위한자바스크립트라이브러리로써 SVG 와 CSS 를자바스크립트와함께사용해데이터를표시해준다. 2016-09-30 24

Tableau 평가판다운로드 (15 일간 ) 시각화도구 ( http://www.tableau.com/ko-kr/products/desktop/download ) - 교육자료 http://www.tableau.com/learn/training 2016-09-30 25

ETL & Data Integration 2015.02 조완섭충북대학교경영정보학과대학원비즈니스데이터융합학과 wscho@chungbuk.ac.kr 043-261-3258 010-2487-3691

목차 개요 ETL Architecture 추출 정제 변형및통합 로딩 메타데이터 데이터품질 제품 2016-09-30 27

개요 ETL (Extraction, Transformation, Loading & Data Integration) 다양한데이터소스로부터분석에필요한데이터를추출 (Extract) 하여변환 (Transformation) 작업을거쳐 Target System) 에로딩 (Loading) 하는과정 BI 시스템에서방대한운영데이터를얻기위해서운영시스템 (OLTP) 에부담을주지않으면서분석용데이터를 ETL 할수있어야함 데이터소스시스템들이서로다른운영시스템, 데이터베이스, 하드웨어플랫폼및네트워크환경을고려하면 ETL 과정은복잡함 2016-09-30 28

( 출처 ) Talend 발표자료 2016-09-30 29

개요 ( 출처 ) Talend 발표자료 2016-09-30 30

ETL Architecture ETL 시스템구조 ( 출처 ) IK 솔루션즈 ( 주 ) ppt 자료를수정함 빅데이터 2016-09-30 31

ETL Architecture ETL 프로세스 ( 출처 ) IK 솔루션즈 ( 주 ) ppt 자료를수정함 2016-09-30 32

ETL Architecture ETL 의소스시스템 Mainframe applications, ERP applications, CRM packages, flat files, Excel spreadsheets, message queue 최근빅데이터까지수용 : SNS, IoT, Audio, Video, Documents, 추출방법 JDBC, ODBC 기술활용, Program, flat file 생성, CDC(change data capture), Web Robot, 다양한도구가보급 : 국산 / 외산, 상용 / 오픈소스 정제및통합 추출된데이터는정제후연계통합 (DW), Refresh 방안수립 타겟시스템 관계형데이터베이스 Hadoop/NoSQL ( 빅데이터 ) 2016-09-30 33

추출 ( 출처 ) IK 솔루션즈 ( 주 ) ppt 자료를수정함 2016-09-30 34

정제 ( 출처 ) IK 솔루션즈 ( 주 ) ppt 자료를수정함 2016-09-30 35

변형및통합 ( 출처 ) IK 솔루션즈 ( 주 ) ppt 자료를수정함 2016-09-30 36

검증 ( 출처 ) IK 솔루션즈 ( 주 ) ppt 자료를수정함 2016-09-30 37

로딩 ( 출처 ) IK 솔루션즈 ( 주 ) ppt 자료를수정함 2016-09-30 38

메타데이터 ( 출처 ) IK 솔루션즈 ( 주 ) ppt 자료를수정함 2016-09-30 39

메타데이터 ( 출처 ) IK 솔루션즈 ( 주 ) ppt 자료를수정함 2016-09-30 40

메타데이터 ( 출처 ) IK 솔루션즈 ( 주 ) ppt 자료를수정함 2016-09-30 41

데이터품질 ( 출처 ) IK 솔루션즈 ( 주 ) ppt 자료를수정함 2016-09-30 42

데이터품질 ( 출처 ) IK 솔루션즈 ( 주 ) ppt 자료를수정함 2016-09-30 43

ETL History 최근빅데이터 ETL 까지발전함 제 4 세대 빅데이터플랫폼 Hub 병목현상 빅데이터를추출하여하둡, NoSQL 등빅데이터플랫폼으로이동시킴 Cobol 언어 2016-09-30 44

도구들의분류 Major database vendors IBM, Microsoft, Oracle Independent companies ETL 도구 Informatica currently among market leaders Open source Clover ETL Talend 국산패키지 DataStreams 2016-09-30 45

IBM Product name: InfoSphere DataStage Main claims: variety of data sources (almost any database, text, XML, web services) capable of handling data arriving in real-time scalability Unix (Linux) and Windows Platforms 2016-09-30 46

IBM InfoSphere product line that includes software from WebSphere and Information Server lines. Includes lots of other things application integration and transformation online marketing tools mobile, speech middleware business process management change data capture information analyzer data quality tools 2016-09-30 47

IBM InfoSphere Federation Server Federated (virtual) integration: Access and integrate diverse data and content sources as if they were a single resource - regardless of where the information resides. Integration across different relational products (db2, Oracle, SQL server) Integrity and accuracy guarantees Distributed query optimizer XML support Security strategies These are expensive products (>US$60K license) 2016-09-30 48

IBM IBM s view of data integration Key tasks, with associated products Tasks: Connect to information (products: information server; data pub-lisher) Understand information (data architect, models for... (banking, insurance, retail, telecom)) Cleanse information (QualityStage: matching engine, cleaning rules etc) Transform information (DataStage) Deliver information (Federation Server, DataStage) 2016-09-30 49

Microsoft Integration Services part of SQL Server (SSIS) Supports multiple formats; converts everything into tabular format Transformations: join, union sort aggregate lookup convert Has a data quality tool Goes beyond traditional ETL: e.g., data and text mining tools 2016-09-30 50

Informatica Market leader Informatica PowerCenter Provides support for migration synchronization warehousing cross-enterprise integration Works with multiple data formats Provides support for metadata management Real-time capabilities 2016-09-30 51

Informatica Main orientation: scalar value transformations Functions: change data in a mapping Operators: create transformation expressions Syntax is SQL-based Part of it is essentially a programming language in a Java-like syntax for manipulating values. Roughly: looks at a portion of the source data, modifies it, and changes the target data accordingly. 2016-09-30 52

Informatica DD_DELETE and DD_INSERT specify what to do with data items. E.g., IIF(job= CEO, DD_DELETE, DD_INSERT) says: items with job being CEO are marked for deleting, others for insertion. Operators: Arithmetic String Comparisons Logical (almost) everything you can imagine Many functions for dealing with dates in different formats. 2016-09-30 53

Informatica Large number of functions Aggregates: AVG, COUNT, MIN, MAX, MEDIAN, PERCENTILE, STDDEV, SUM, etc. Character functions: CONCAT, LENGTH, TRIM, etc Conversion functions (e.g., TO_CHAR for Date, TO_DECIMAL, TO_FLOAT, TO_DATE) Date functions: ADD_TO_DATE, DATE_DIFF, DATE_COMPARE, etc Numerical: the usual suspects. Scientific: SIN, COS, TAN, etc Search for a value in the source: LOOKUP This was quick; full manual almost 250 pages. 2016-09-30 54

요약 Complex tools; very good at transforming data values, and at working with specific formats (MS Word, Excel, PDF, UN/EDIFACT, RosettaNet, etc) and for specific industries (finance, insurance, health) Much better these days at getting real-time data; very good at bulk loading, supporting multiple formats Not so good: virtual integration complex structural transformation query answering metadata management 2016-09-30 55