차세대정보계시스템의비전 한국테라데이타장동인부사장
장동인 경력현, 한국테라데이타부사장현, 빅데이터전문가협의회의장현, 경기도빅데이터자문위원미래창조부빅데이터자문위원미래읽기컨설팅대표 Ernst & Young 컨설팅본부장 Deloitte consulting 전무 (CRM부문파트너 ) SAS Korea 부사장 Siebel Korea 초대지사장 Oracle Korea 컨설팅본부이사 Oracle HQ, Senior Principal Consultant Germany Amadeus, System Support Engineer American Airline Information Service, Consultant EDS, System Engineer VISA International, Programmer 전문분야빅데이터전략및활용클라우드컴퓨팅고객및마케팅전략 CRM 전략 IT Architecture 및전사 IT 전략전사적 Data Warehouse 설계자문 Data Quality 자문 IT Governance 자문저서 2 2 학력용산고등학교졸업서울공대원자핵공학과졸업 University of Southern California, 컴퓨터공학석사졸업
빅데이터로일하는기술 3 3 2014 년 12 월 15 일출판 한빛미디어 (323p) 책을쓴동기 ; 거의모든빅데이터 TF 가 IT 팀위주 우리회사는어떤주제로빅데이터를해야하는가? 현업은분석을안함 기업의사결정문화는 숫자 채우기 과거 CRM 무용론 ( 현업방관 IT 위주 ) 책을쓰는동안 소명의식 강한위기의식 빅데이터 라는대중성 대상 빅데이터를도입하려고하는기업 / 공공기관의빅데이터 TF 팀, 임원, 현업 목적 이제는제대로해보자 빅데이터라는냉철한현실을알리자
기존정보계시스템의이슈 정보계는차세대시스템구축에서제외되었다 현재 EDW 의이슈 Old, out-dated HW, SW ( 단종된제품도존재 ) 현상태를 upgrade 할것이냐아니면새로운기술을도입할것인가? 새롭게등장하는빅데이터들의요구사항을어떻게수용할것인가? 아니면별도로가야하는가? 현재빅데이터기술진보는어디까지왔는가? 검토단계 기존의시스템을안전하게 migration 할수있으며 기존시스템과무리없이 integration 할수있는가? 이러한상황에서빅데이터기술은어디까지왔으며, 앞으로어떤방향으로갈것인가?
빅데이터가무엇인가? 데이터는우리기업의주변이있다 외부데이터 수집가능 2855 기존시스템
빅데이터가무엇인가? 빅데이터는우리기업의주변이있다 재무 운영 RFID 텔레매틱스 E COMMERCE 센서 지도 재고반품제조공급망고객서비스 서비스기록 2855 주문매출비용 Web log 구매이력데이터 SNS log 고객 Cafe 평가데이터 고객의불만, VOC 마케팅캠페인기록 고객정보제품정보가망고객및기회 VOC 데이터 모바일광고의반응 Web 에서고객반응 상권분석데이터 클릭데이터분석 마케팅 거주 / 상주인구데이터 블로그평가 영업
빅데이터를가지고어떻게문제를푸는가? 서로다른 Layer 에있는데이터를연결한다 운영 센서 워런티 2855 공급망정보 VOC 고객 고객의 VOC + 워런티정보 + 공급망정보 + 배터리센서정보 어떤납품업체의배터리가불량이어서열이발생하는지분석가능 마케팅 영업
차세대정보계시스템에대한요구사항 비즈니스분야 현업은기본정보계데이터이든빅데이터이든관계없이비즈니스분석을원한다. EDW: 고객원장, VIN( 차대넘버 ), service history, MDM, Warranty data, 파트정보, BOM 빅데이터 : sensor data, location data EDW+ 빅데이터 원하는분석 자연어처리, 텍스트마이닝, 그래프분석, GIS 연결분석, 머신러닝, 마이닝등전통적으로사용하지않았던분석을하게된다. 자동차 part 의문제를진단하고예측정비를위한패턴분석 전체테이터를분석하는 데이터탐색 (data discovery) 을하게된다. 그러나, 이러한요구는한번에나오지않는다. 현업의요구사항은활용하면서나온다. 현업은지금까지쓰던것, 익숙하던것을고집한다. (reporting, OLAP tool) DW이든빅데이터이든, 결국분석하여보여지는것은유사하다. (insight) 분석은하면할수록업그레이된다. 변화관리가생명이다. 8
차세대정보계시스템에대한요구사항 비즈니스 Question 차가고장이났다면, 센서데이터를분석하여, 어떤부속품이고장났으며, 다른부속품도문제가있는것이있으면, 발견하라 고장인지및예측을위한통계기법, machine learning, 패턴매칭, 데이터마이닝등다양한기법적용 Senor 별 signal database, 고장 predicator, 파생변수들을위한 data mart 고객원장, VIN, service history, MDM, Warranty data, 파트정보, BOM, Sensor data 고객원장, VIN, service history, MDM, Warranty data, 파트정보, BOM sensor data, location data EDW Big Data 9
빅데이터분석의종류와기술 분석의종류 단순분석 ( 정형분석 ) 실제내용 주로 Excel 이나 SQL 에의해서 4 칙연산및그에따른그래프. 장표를만듬 이미그래프와장표의형식이정해져있음 ( 예 : 월별매출액 ) Hadoop 에서는이러한단순분석에 Map&Reduce(MR) 프로그래밍을해야함. SQL 하나의문장으로같은결과를처리할수있음. MR SQL on Hadoop Aster Ad-hoc 분석 ( 임의분석 ) 미리정해진형식에없는분석. (ex. 갑자기임원들이만들어오라는장표 ) Excel 같으면데이터가공을다시해야하고, SQL 같은경우는다시 SQL 을만들어야함 최악의경우에는데이터수집부터다시해야함 Hadoop 도 MR 프로그램을다시짜야함 OLAP 분석 OLAP 은 On Line Analytical Processing 으로서다차원분석이라고함. 예를들면연도별, 회사별매출액 과같이 ~ 별. 분석. 차원과팩트 (fact) 를미리정해놓은점에서는정형분석이라고할수있음 이것은결국 RDB 에서 SQL 을활용해서나오는결과임. (fact table 과 dimension table 의 join) 실시간분석 (interactive query) 실시간분석 (CEP) 이것은 SQL on Hadoop 에서 SQL 로 query 를던지면바로답이나오는경우. 데이터는이미 Hadoop 에들어있어야함. RDB 경우는이미실시간분석이라고할수있음. Hadoop 의 MR 경우는배치 (batch job) 로돌리므로실시간분석은아님 데이터가계속적으로들어올때 (stream data) 이를실시간으로그래프를그린다든가간단한분석을하는것. 분석된데이터는 Hadoop 이나 NoSQL DB 로들어가게해서나중에배치분석을한다 통계분석 R, SAS, SPSS 등의통계패키지를활용해서분석 - 통계알고리즘및데이터마이닝기법을적용해서 forecasting, 시뮬레이션등에활용함 - 빅데이터분야에서도여전히활용가능함 기계학습예측 다양한분석및예측모델을만들어서분석 Machine learning 감성분석 자연어처리, 감성분석은 taxonomy 라고하는 10 만단어이상의사전을만들어일반 text 를계속비교해나가는 computing-intensive 한 job 임. 과거에도자연어처리, 감성분석은있었으나, 그것을처리하기위해서는매우비싼 supercomputer 가필요했음. 그러나, in-memory 기술을활용하고 hadoop, Nosql DB 등이나와서대용량데이터의저장과자연어처리를할수있게됨. 기타분석 기타 pattern matching 기법을활용한자동차표지판같은이미지데이터인식, CCTV 분석, 인공위성지도분석등도있음. Social network Analysis, MR SQL on Hadoop Aster RDB Aster SQL on Hadoop Aster R, SAS, SPSS Aster R, SAS Aster SAS SMA 한글분석패키지 Aster Aster
차세대정보계시스템에주는빅데이터의영향 1 Multi-Database, Multi-platform DW (RDB) Hadoop (file system) Mongo DB (NoSQL DB) Hadoop 이나 NoSQL DB 는기존 IT 환경 (DW) 에친숙하지않다 Table, Access 방식, programs, interface 등모든것이다르다 서로다른 DB, platform 간의호환성이없다 데이터는서로다른 DB 에존재한다. 데이터관리 / 메타데이터의필요 현업은 location(db, platform) 에관계없이분석을원한다 정합성문제, 데이터관리문제는 IT 팀에서. 11
차세대정보계시스템에주는빅데이터의영향 2 Big Data Mart 들이양산된다 고객서비스팀홍보팀 / 마케팅팀전자상거래팀 VOC 분석 (STT, Text 분석 ) STT: Speech to Text SNS 분석 (Risk 관리 / 마켓센싱 ) Log 분석 (Click Stream) 현업의요구사항충족시키기위해서그때그때서로다른 DB/tool 선정 이 Big Data Mart 들은서로연관성이없고, 데이터가중복 기존 DW 와통합이어렵다 ( 그때그때기준정보는 DW 에서 ETL) 분석된결과의정합성확인하기어렵다 데이터관리가어렵다 용도별 DB 구매로유지보수 skill 이많이필요하다 (Multi-DB) 용도별 tool/db 구매로비용이계속들어간다 12
차세대정보계시스템에주는빅데이터의영향 3 빅데이터분석기법이도입된다 전통적인통계분석방식 빅데이터분석방식 Input 변수 통계모형 (algorithm) score Fraud detection Customer seg. 이탈 score. 13 데이터마트필요 정형데이터 only 샘플링, Training set, test set, 적용 Input 변수가하나더생기면? Algorithm 을바꾸면? Blackbox! 전제 raw 필요 정형 / 비정형 both 전체데이터분석하여시각화 Input 변수와상관이없음 다양한 Algorithm 적용 Whitebox!
차세대정보계시스템에주는빅데이터의영향 4 데이터레이크 (Data Lake) 의등장 ODS(operational Data Store) Schema ( 정형 only) Data Lake (~ Hadoop) Schema Free ( 정형 + 비정형 ) Schem 가다르면먼저 DB 에반영 빠른데이터로드 / 축적 테이블 / 키를가진 Relational 구조 only 복잡한데이터구조도 Ok (hierachical data) 적재하면서 / 적재이후 cleansing 일단데이터적재후 cleansing 기존 RDB / DW 대용량데이터 적재비용절약 14
차세대정보계시스템에주는빅데이터의영향 4 데이터레이크 (Data Lake) 의활용 #1 데이터스테이징 (data staging) 일단데이터를적재후처리 #2 ETL 작업이매우 CPU/Disk 를필요로하는작업 싼 Hadoop 사용 / 비용 #3 비정형 / 복잡한구조를가진데이터적재 #4 장기간많은데이터보관 (sensor 데이터 ) #5 기존아카이브용 Tape drive 대체 15
차세대정보계시스템에주는빅데이터의영향 5 전사적 Data Driven Decision Making 이필요하다 Digitizing business (Digital Transformation) 시대는빠른놈이큰놈을이긴다 스마트폰을가진고객관리시대와스마트폰을갖지않은고객관리시대는근본적으로다르다 기존의기업내부프로세스와시스템은스마트폰을갖지않은고객관리시대에서만들어진것들이다. 기업의기본업무프로세스와시스템에대한전면적인재검토필요 ( 고객서비스 / 마케팅 / 영업 / 홍보..) SMS/MMS Mobile Apps 고객 Smart phone SNS 기업 전화 Insight Big Data 사진, 동영상 16 위치정보
현재까지 Big Data 기술의발전정도 빅데이터기술은많이발전했으나 Hadoop 의약점 현재 Hadoop 의발전단계 상용 Hadoop vendor 는 SQL on Hadoop 의기능을대폭향상시켰다 그러나, 상용 Hadoop 은아직까지 full ANSI SQL 을지원하지못한다 상용 Hadoop 내에서통계, 마이닝, 지리정보와통합, 자연어처리등은하지못한다. 이것은제 3 의 tool 을따로사용해야한다. 상용 Hadoop 에있는데이터를관리하는메타데이터관리 tool 은자사 Hadoop 에만국한된다. (cross platform metadata 관리는못함 ) 상용 Hadoop 에서기존 RDB 나 NoSQL DB 와의통합은아직미약하다 Hadoop, RDB, NoSQL DB 를아우르는 cross-platform query tool 은 hadoop 진영에서는아직없다 Virtual Mart 개념을지원하지못한다 이러한상황에서차세대정보계시스템을구현하는새로운기술이필요하다
Big Data 시대의 IT Architecture 입장에서준비사항 지금부터빅데이터시대에전사적인 Architecture 를그려야 Hadoop 에대한기술을정확히이해 (Hadoop 의장점 / 단점 ) 내부에서 collection 이가능한빅데이터정의 / 수집 / 적재방안탐구 외부에서활용가능한데이터확인 / 구매 or 획득방안연구 Big data 분야의솔루션맵 Multi-database, query 에대한기능 / 아키텍쳐 Big data governance 컨설팅 / 내부 architecture 팀 IT 적인측면의빅데이터 Architecture 설계 Multi-DB 에대한데이터관리및메타데이터구조설계 데이터정합성확보방안 Multi-DB 환경에서 query 설계및개발방안
빅데이터솔루션및서비스 Map ( 외산솔루션 ) 빅데이터를처리, 분석하기위한각분야의오픈및테라데이터 Aster 위치 Open Source 유료 sw 빅데이터인프라 빅데이터서비스 데이터수집 데이터적재 데이터조회 SQL NoSQL 보안 실시간데이터분석 통계분석 시각화 Hardware Appliance Crawling/ 감성분석 Cloud for Big Data Informatica Apache Hadoop 2.0 Cassandra Vormetric SAP Hana R D3/ Visual.ly Oracle Exadata Salesforce. com Radian6 Amazon (IaaS+ Hadoop) Talend (Open Studio) Cloudera (CDH 4.0 Impala 2.0) Mongo CEP Esper SAS Qliktech EMC Greenplu m SAS SMA SoftLayer (IaaS+ Hadoop IBM InfoSphere DataStage HortonWorks (Data Plaform 2.0 Stinger) Oracle SPSS Micro Strategy Teradata Aster Rackspa ce (IaaS+ Hadoop) MapR (M5 hadoop, M7 hbase) Riak Tibco Tableau IBM Netizza Cloudant (DBaaS) Teradata Aster Spotfire Amazon Dynamo (DBaaS) Splunk (proprietary DB) Aster Aster Aster Teradata cloud
일반적인 Big Data System Architecture 문제점 다음과같은 architecture 로가게되면필연적으로 data copy & move 가빈번 데이터수집 데이터적재및보안 데이터조회 데이터분석 데이터시각화 데이터 S O U R C C E 데이터수집 (ETL) 주기적으로기준정보 copy & move Hadoop & 관리 Tool NoSQL DB 실시간데이터처리 SQL on Hadoop Data copy & move! 통계분석 tool 자연어처리 & 감성분석 (VOC) Social Netow 가 Analysis GIS 기반시각화 U S E R 기존 EDW 분석을위한마트들
Teradata Unified Data Architecture 데이터수집및보안 데이터적재데이터조회데이터분석 데이터시각화 Native R 빅데이터 S O U R C C E 데이터수집 Aster Loader ETL (partner s Tools) Data Lake Hadoop SQL on Hadoop Query Grid Query Grid ASTER DB ASTER 통계분석 Data mining 자연어처리 & 감성분석 / SNA Aster GIS Aster Big data Package Aster 시각화 U S E R Teradata 15.10 No data copy and movement! No ETL! 기준정보를필요할때마다 join query Cross platform metadata 관리 (Loom)
Teradata QueryGrid Business Users IDW Discovery Analysts TERADATA DATABASE TERADATA ASTER DATABASE HADOOP TERADATA ASTER DATABASE TERADATA DATABASE RDBMS DATABASES MONGODB DATABASE COMPUTE CLUSTER 22 Push-down to Hadoop System SQL, SQL-MR, SQL-GR Multiple Teradata Systems Push-down to Other Database Push-down to NoSQL Databases Run SAS, Perl, Ruby, Python, R
Aster ( 통합 Big data 패키지 ) Big data 의어려운문제들을해결하기위한통합솔루션 기존 big data 데이터처리단계 Data Source 데이터수집 데이터적재및보안 데이터조회 데이터분석데이터분석 데이터시각화 최종사용자 데이터분석 Big Data Package(Teradata Aster) 통계, 마이닝 ML 감성분석그래프분석 GIS Discovery Data Source 데이터수집 / 적제 / 보안 / 조회 / 분석 / 시각화 최종사용자 Progress 기반 RDB (40PB-ebay) 종합분석모듈탑재 ( 통계 / 마이닝 /ML/ 감성분석 / 그래프분석 /GIS/ 시각화 Integration with R, 파이선 Query Grid 통해서기존 Hadoop/Oracle/Mongo DB 데이터액세스
현업을위한가상마트 (Virtual Mart) 현업은 Aster 내에있는 Virtual Mart 를통해모든데이터를분석한다 고장인지및예측을위한통계기법, machine learning, 패턴매칭, 데이터마이닝등다양한기법적용 Senor 별 signal database, 고장 predicator, 파생변수들을위한 data mart 고객원장, VIN, service history, MDM, Warranty data, 파트정보, BOM Sensor data Virtual Mart Layer (Teradata Query Grid) 고객원장, VIN, service history, MDM, Warranty data, 파트정보, BOM sensor data, location data 현업은필요한정보를 mart 형태로접근한다. (virtual mart) 실제데이터는기존 EDW 와 big data 시스템에있다. 이것을중간단계인 virtual mart layer 해주며, 이것은 Teradata 의 Query Grid 가해준다. EDW Big Data 24
ASTER Big Data Apps and Teradata Aster AppCenter
Big Data Apps/AppCenter Why is this important? 애스터의앱센터는이미테라데이터에서미리개발된분석로직과코드를마치스마트폰의앱스토어와같은개념으로애스터의분석엔진위에돌아가도록만든것입니다. 기존에개발된분석로직도탑재가가능합니다. Teradata Aster Discovery Platform Bridge The Gap With Big Data Apps 26
Big Data Apps/AppCenter Industry focused to address specific business challenge Path to Churn Sentiment Analysis Influencer Analysis Marketing Attribution Delivered as pre-built templates that can be configured by Teradata Professional Services Powered by Teradata Aster AppCenter providing a common framework to build, deploy, shared and consume 27
Retail Big Data Apps/AppCenter Retail App Templates Attribution (multi-channel) Shopping Cart Abandonment Checkout Flow Analysis Website Flow Analysis Customer Product Review Analysis Market Basket & Product Recommendation Accelerates time to value Delivered as pre-built templates for PS ( 테라데이터컨설팅 ) to configure and extend 28
Aster Visualization Aster 는통합 big data 패키지로서유려한 visualization tool 을갖고있다 29
The Art Of Analytics Fund Chain View: View of Fund Flow within Supply Chain ( 기업간돈의흐름 ) 30 Analyst George Kong Beijing Working with the China Banks to better support the financing of Chinas automobile Industry produced this amazing image that shows the flow of funds through a supply chain, each dot a company
31 The Art of Analytics: Word co-occurence
32 The Art of Analytics: Telco Calling circles
33 The Art of Analytics: Twitter Influencers
34 The Art of Analytics: Drugs v side-effects
35 The Art of Analytics: Fraud Networks
36 The Art of Analytics: Guarantee Solar Flare An overview of guarantor & guaranteed enterprises ( 보증 )
Art Of Analytics: Train Journey A Train trip through Sydney ( 기차타고갈때기지국이통화시스널을연결하는모습 ) 37 Analyst Sundara Raman Sydney Taking a train ride in Sydney Australia armed with a Samsung Galaxy 3 Sundaras journey maps the cell towers that pick up and exchange signals as he goes.
The Art Of Analytics: Simbox Squid Sim Box Fraud (simbox 를통한국제전화 fraud) 38 Analyst Ross Farelly Jakarta Each dot a sim card number this awesome squid diagram appeared in simbox fraud analysis
Teradata 빅데이터아키텍처 UDA 에대한소개 39
Teradata 빅데이터아키텍처 UDA 에대한소개 선진기업의데이터분석경험을기반으로데이터저장, 탐색, 통합을위한검증된플랫폼과제반기술을제공합니다. Teradata 통합데이터아키텍처 UDA : UNIFIED DATA ARCHITECTURE 데이터저장 ERP SCM CRM Images Audio and Video Machine Logs Text Web and Social 데이터원천 데이터이동 DATA PLATFORM 데이터저장 데이터관리 데이터접근 INTEGRATED DATA WAREHOUSE 데이터통합 DISCOVERY PLATFORM 데이터탐색 마케팅분석 어플리케이션 비즈니스리포팅 데이터마이닝 통계분석 텍스트분석 분석도구 마케팅임원 운영시스템 고객및파트너 운영직원 비즈니스분석가 데이터사이언티스트 IT 엔지니어 사용자 하둡포트폴리오 Teradata 1700 Teradata Hadoop 데이터탐색 모든데이터와다양한분석 SQL-MapReduce Teradata Aster 데이터통합 전사사용자데이터기반업무활용및적용 Teradata IDW * * IDW (Integrated Data Warehouse) : 통합데이터웨어하우스 40
Teradata 빅데이터아키텍처 주요사례 ebay 의 UDA 사례 비즈니스활용 고객행동추적분석 상품속성분류 1:1 개인화추천 마케팅인사이트도출 원가및재무분석 시스템보안및운영 10PB 정형데이터리포팅및실행 40PB 반정형데이터탐색및분석 20PB 비정형데이터저장및가공 신사업개발 41
Teradata 빅데이터아키텍처 주요사례 ebay 의 UDA 사례 42
Teradata 빅데이터아키텍처 주요사례 ebay 의 UDA 사례 43
Teradata 빅데이터아키텍처 주요사례 ebay 의 UDA 사례 44
Teradata 빅데이터아키텍처 주요사례 ebay 의 UDA 사례 45
Teradata 빅데이터아키텍처 주요사례 ebay 의 UDA 사례 46
Teradata 빅데이터아키텍처 주요사례 Vodafone 의 UDA 사례 Sources Data Acquisition and Enrichment ETALON framework Datawarehouse Semantic Reporting and Analysis Reference data such as Cell reference Teradata MDM RDM/HDM VHA Integrated Datawarehouse Oracle Essbase Cubes Existing VHA Structured Data Sources Customer Mgt Siebel, PeopleSoft Rating & Billing ICC, BRM, Ozbill, ICT Syniverse Customer Care Lara, Genesys Sales & Distribution Brightpoint, G&D Other Sources MNP, SCE, Oracle Financials, etc LEA Sources Mediation, SMSC,MMSC Structured/ Summarized Data load to Teradata EDM for reporting and trending SAS Server SAS DI ELT and Teradata Control Framework MDM Repository - References VHA Teradata Integrated Data Model and TCF Reporting & Campaigns UL & ASL Churn / Segmentation Models Analytic Result Dimensional High Speed data from EDW Connector Export Files SAP Business Objects & ROAM BI Performance Management Downstream Export Files Network Switch/Probe data Operational load using SAS and TCF to Aster Analytics Platform Inbound Campaigns Next Best Activity Outbound Campaign Campaign Optimization Big Data Sources Social Media APIs Structured / Summarized Data load to Teradata Data Discovery / Bulk load of unstructured data by Analysts into Data Lab in Teradata Aster Image data, Audio /Video clips unstructured data load into Hadoop Data Model and Reference data SQL - H Summarized Fact data and Fraud model Aster Hadoop Connector Tableau Discovery & Investigation Web Logs Hadoop Custom SQL- MR Application 47
Teradata 빅데이터아키텍처 주요사례 GM 의 Logical Data Warehouse 사례 Aster 가공, 분석, 시각화 Hadoop 수집, 저장, 정제 48
Teradata 빅데이터아키텍처 주요사례 Comcast 사례 49
Teradata 빅데이터아키텍처 주요사례 Comcast 사례 50
Teradata 빅데이터아키텍처 주요사례 Comcast 사례 51
Teradata 빅데이터아키텍처 주요사례 T-mobile 사례 52
Teradata 빅데이터아키텍처 주요사례 Discover Financial Service 사례 53
Teradata 빅데이터아키텍처 주요사례 Wells Fargo 사례 54
장동인 010-5259-9509 Don.chang@teradata.com donchang@hanmail.net Facebook: http://www.facebook.com/jang.cloud 55