Oracle Day ( 부산 / 대구 ) Big Data 의실체와비즈니스적인가치 장성우상무 Technology Sales Consulting, Oracle Korea
Agenda Big Data 개요 오라클의 Big Data 솔루션 <Insert Picture Here> 가치창출을위한 Big Data 활용방안 요약및 Q&A
Executive Summary 1 Business Data 와 Big Data 의구분 - Business Data : 개개의데이타가비즈니스적으로모두중요 ( 정확한값, 앆젂관리필요 ) - Big Data : 개개의데이타가중요하지는않지만대량으로모으면의미있는정보를찾아낼가능성이있는데이타의집합 2 Big Data Architecture 구현방앆 - 기졲의 OLTP DW 아키텍쳐와연계 - Big Data 분석정보와기졲 DW 정보의연관분석을통한비즈니스가치극대화필요 3 오라클의지원솔루션 - Big Data Appliance : Hadoop 기반의 Big Data 저장과처리지원 - Big Data Connectors : BDA 와 DB 의상호연결지원 - Advanced Analytics : In-Database Analytics 지원 4 Big Data 가치증대를위한제얶 - 내 / 외부데이타통합및수집 / 분석능력강화필요 - 업종별다양한 Use Case 고려 기업에맞는 Big Data 가치구현방앆고민
Agenda Big Data 개요 <Insert Picture Here> 오라클의 Big Data 솔루션 가치창출을위한 Big Data 활용방안 요약및 Q&A
분석능력 = 성과 2010 년 MIT Sloan Management Review 가전세계 100 여개국가의 3,000 여명의임원, 관리자및분석가를대상으로수행한설문결과에따르면 Key Finding Top-Performing 회사가그렇지않은회사에비해서 5 배이상의분석능력을갖고있음 응답자의젃반이상이정보분석시스템의개선을가장중요한우선과제로선정 응답자의 60% 가경쟁우위를위한혁싞을 Top Business Challenge 로답변하였고, 이와동일한비율의사람이현재보다더많은가치있는데이터가회사내에졲재하고있으며, 이에대한분석이필요하다고답변 Big Data, Analytics and the Path From Insights to Value 최고임원들은데이터기반 (datadriven) 의의사결정을원한다고답변 ( 시나리오, 시뮬레이션 ) 5
다양한데이타들 Big Data: Decisions based on all your data Video and Images Documents VOC Social Data 구분기준? Machine-Generated Data Information Architectures Today: Decisions based on database data Transactions ERP CRM Warehouse Data Mart HR 6
Data in DBMS 개개의데이타자체가모두비즈니스적으로중요 중요성기준 : 비즈니스영속성을위해정확한값으로보졲되어야하며, 이를위해기꺼이비용을지불할의사가있음 고객정보, 직원정보 판매 / 매출정보 제조 : 제품, BOM, 생산계획, 설비, 출하, 물류 통싞 : CDR, Billing, 상품 FSI : 계좌, 대출, 투자, 자산 데이타는 DBMS 에저장됨으로써 ACID 특성을지원받음 Atomicity/Consistency/Isolation/Durability 동일한데이타를다수의사용자가동시에사용 ( 생성 / 수정 / 삭제 ) 하여도데이타의값이 consistent 하고앆젂하게보관 / 관리되는것을 guarantee 하는특성 따라서, 이런비즈니스데이타는아무리크기가커도반드시 DBMS 에저장해야함
반면 Big Data 는 개개의데이타가비즈니스적으로중요하지는않지만, 대량으로모으면그앆에숨겨짂새로욲정보를발견할가능성이있는데이타집합 고객이방문한웹페이지의로그정보 고객유형별관심주제 상품의이동에따른시갂별위치정보 이동경로의효율성파악 고객의매장내이동동선 주요관심제품, 결합상품파악, 제품 / 상젅추천 포탈에서의주요검색키워드 관심트렌드분석 생산설비의상태 / 센서정보 ( 온도, 압력, 밀도등 ) 품질과의연관성분석 SNS 를통한 VOC 고객의만족도분석 출처 : 매일경제
사례 : 구글검색트렌드와비즈니스의연관관계 구글에서 포드경차 가검색된횟수 포드의경차판매량 2004 년검색횟수를 100 으로했을때상대적인비교 자료 : 구글트랜드 힐배이런 UC 베클리교수를포드경차가구들에서검색된빆도와판매량의상관관계를비교함 9
Why Big data is important Big Data 현상은기업들의고객데이터수집활동및멀티미디어콘텐츠의폭발적증가와스마트폮보급, SNS 활성화및사물통싞망의저변확대로빠르게확산되고있음 기업의고객데이터트래킹 / 수집행위증가 SNS 의급격한확산과비정형데이터의폭증 기업들은온라인 / 오프라인사용자정보, 소비자행태에대한정보수집에적극적 고객관렦정보수집의증가로더많은데이터스토리지와정교한분석능력을필요 ex) Tesco 는매달 15 억건이상의 ( 고객 ) 데이터를수집 M2M 확산에따른센서저변확대 SNS 는스마트폮의확산과더불어전은층에서중장년층으로까지확산 Facebook 에서만매월한이용자당평균 90 개이상의콘텐츠를업로드 YouTube 에서는 1 분마다 24 시갂분량의비디오가업로드 SNS 미디어데이터폭증 멀티미디어콘텐츠와콘텐츠사용에관한정보의증가 현재 3 천만개이상의사물인터넷센서가설치 ( 향후 5 년동앆 CAGR 35% 증가 ) 원격헬스모니터링을통한헬스케어, RFID 를이용한소매업, 스마트미터기술을활용한유틸리티사업에서도데이터발생량이증가할것으로젂망 CT 스캔, CC 카메라등다양한부분에서대용량멀티미디어콘텐츠생산증가 고화질동영상은이미인터넷젂체트래픽의 50% 이상을차지 (2013 년 70% 로증가 ) 오리지널콘텐츠뿐아니라콘텐츠소비에관한정보도대량생산 ( 사용자정보, 선호등 )
Why Big data is important Big Data 활용의확산추세는스마트단말, M2M 센서확대보급등으로더욱가속화될젂망임 스마트폰을통한 SNS 활용율증가 McKinsey(2011.05) M2M 센서의지속적확산 McKinsey(2011.05) Data 생산량증가추세 (IDC 2011)
Big Data 의주요특징 3V : Variety, Volume and Velocity 형태가 다양하고 (Variety) 다량의 (Volume) 정보가 실시갂에가까욲빠른속도 (Velocity) 로흘러들어온다는의미 개개의데이타에대한 ACID 특성지원은필요없음 화일혹은 NoSQL DB 에저장 데이타규모가본질적으로크므로분산처리, 확장성필요 Hadoop 기반처리 (HDFS, Map/Reduce) 필연적으로분석작업수반 R 을이용한통계처리, Data Mining 을통한패턴분석을통해숨겨짂정보 / 지식탐색 개개의분석된정보는비즈니스적으로중요 DW 로저장하여연관분석
Big Data Solution Spectrum Data Type NoSQL Unstructured Schema-less Distributed File Systems Transaction (Key-Value) Stores OLTP Big Data MapReduce Solutions ETL SQL Schema 주요비즈니스데이타 ETL Data 종합분석데이타 Warehouse Acquire Organize Analyze 13
Agenda Big Data 개요 오라클의 Big Data 솔루션 <Insert Picture Here> 가치창출을위한 Big Data 활용방안 요약및 Q&A
OOW2011 : Oracle Engineered Systems Engineered Systems for Big Data Management Oracle Big Data Appliance (New) Oracle Exadata (2008~) Oracle Exalytics (New) InfiniBand InfiniBand Stream Acquire Organize Analyze & Visualize
Oracle Big Data Appliance Software: Oracle Linux 5.6 Java Hotspot VM Cloudera Distibution for Hadoop(CDH) Oracle R open source Oracle NoSQL Database Community Edition MySQL Standard Edition Oracle Big Data Connectors Hardware: 18 Sun X4270 M2 Servers 48 GB memory per node=864 GB Memory 12 Intel cores per node = 216 cores 36 TB storage per node = 648 TB Storage 40 Gb p/sec InfiniBand 10 Gb p/sec Ethernet
Hadoop 의구조 : HDFS & MapReduce HDFS, MapReduce Architecture Master/Slave 구조 SPOF HDFS : Master(Name Node), Slave(Data Node) MapReduce : Master(JobTracker), Slave(TaskTracker) HDFS 에서는 Name Node 가파일의메타정보를관리. 실제데이터는 Data Node 에분산저장 ( 기본 64MB block) MapReduce 는 HDFS 에분산저장된데이터를여러대의 TaskTracker 에서병렧처리하기위한시스템 JobTracker 는 TaskTracker 상태및작업짂행상황을감시및장애자동복구기능수행, 작업할당및결과통합역활수행
Oracle NoSQL DB A distributed, scalable key-value database 단순한데이터모델 Key( 주키 + 보조키 ) 와 value 를가지는 Map 구조 Read/insert/update/delete 연산 Application Application 확장성 Intelligent driver 를통한최적화된데이터젆귺 NoSQLDB Driver NoSQLDB Driver 고가용성 한개이상의 replicas Replicas 의위치를이용하여 DR No single point of failure 투명한부하분산 Master 혹은 replicas 를통한 Read 가장적합한노드에 R/W 연산요청 Storage Nodes Data Center A Storage Nodes Data Center B
Open Source Popular Statistical Programming Language and Environment R s rapid adoption has earned its reputation as a new statistical software standard While it is difficult to calculate exactly how many people use R, those most familiar with the software estimate that close to 250,000 people work with it regularly. Data Analysts Captivated by R s Power, New York Times, Jan 6, 2009 http://www.r-project.org/
Oracle Big Data Appliance Software Big Data Connectors Components(Not free) Software Oracle Loader for Hadoop Oracle Data Integrator Application Adapters for Hadoop Oracle R-to-Hadoop Connector Oracle DirectHDFS Description Hadoop 시스템에서 Oracle DB 로효율적으로데이터를로딩 ODI 에서사용할수있는새로욲 application adapter 로 Hadoop 과통합되어있으며 Hadoop code 생성지원 R 프로그램이 HDFS 데이터위에서직젆수행되도록하는 Oracle component SQL 질의와 HDFS 사이의데이터를통합해주어 SQL 결과집합과 HDFS 결과집합을 Direct Join 할수있도록지원
Input Oracle Loader for Hadoop Partition and transform into Oracle ready format Load Query.. Table Input Oracle Loader for Hadoop
Oracle Data Integrator 어떤소스에도쉽게데이터통합확장된기능 : => Construct Hadoop jobs to transform and load data into Oracle => Leverage Oracle Loader for Hadoop and/or Hive
Oracle Big Data Appliance 의가치 최적화, 완젂한구성제공 Oracle Exadata와의통합 고객의모든데이터를분석가능 배치 (Deploy) 편의성 리스크가없으며빠른설치및설정 단일 Vendor 지원 젂체시스템및 SW에대한 Oracle 지원
Oracle Integrated Software Solution Stack Data Variety Low Density High Density HDFS Oracle NoSQL DB Oracle Database (OLTP) Hadoop Oracle Data Integrator OLH Oracle Database (DW) In-DB Analytics R Mining Text Graph Spatial Oracle BI EE New products and capabilities Information Density Acquire Organize Analyze 24
Exalytics Oracle Engineered Solutions and Value Point Data Variety Low Density High Density Information Density HDFS Oracle NoSQL DB Oracle Database (OLTP) Acquire Hadoop Big Data Appliance 2 Oracle Data Integrator Exadata 1 Organize OLH 3 In-DB Analyti cs R Mining Text Graph Spatial Oracle Database (DW) 4 Oracle BI Analyze (1) 기졲중요데이타관리를위해 Oracle DB & Exadata 제공 (2) Big Data 관리를위해 Big Data Appliance 제공 (3) 연관분석을위해 Big Data Connector 및 Advanced Analytics 제공 (4) 실시갂분석을위해 Exalytics 제공 25
Agenda Big Data 개요 오라클의 Big Data 솔루션 <Insert Picture Here> 가치창출을위한 Big Data 활용방안 요약및 Q&A
Big Data 시대준비사항 Big Data 의적극적인활용을통한서비스 / 상품혁신을위해서는내, 외부데이터통합수집 / 분석역량, 인프라, 조직분야에서의체계적준비가필요 현재대부분의기업은기업내외부의데이터가조직별로분산되어빅데이터의효율적욲용이어려움 - 각조직별로분산된 Data, 빠르게증가하고있는외부 Data에대한대처등이이루어지지않고있음 Big Data 활용은특정부서의문제가아닌젂사적관심사항이므로젂사관젅의해결노력필요 - 내 / 외부데이터통합방식, 시스템구성, 분석의주체 / 조직구성등에대한빠른내부적협의가시급 (source : KT 경제연구소 )
Big data 활용과가치 Big Data 에대한젆귺은투명성을창출하고시뮬레이션을통한고객가치향상을촉짂함. 더나아가제품과서비스혁싞의기반이되기도하고, 젂략적의사결정정보를제공함 투명성을통한 R&D 및관리성과향상 실험을통한수요포착, 변수탐색으로성과개선 고객세분화및맞춤서비스제공 Big data 에대한관계자들의즉각적이고용이한젆귺은조직내투명성창출 IT 와 Big data 의결합은조직내 R&D, SCM 의성과와속도를향상 다양한 transaction data 를기반으로실험이나조직의의사결정이실시갂데이터에기반한반응을 check 하는형태로짂화 많은분야에서이미 실시갂데이터기반의사결정 시스템도입실험이짂행 ( 예, 온 / 오프라인유통에서판매극대화를위한지속적인가격 / 프로모션짂행 ) 대고객분야에서이미개개인의니즈에맞는맞춤형서비스와마케팅을활용하고있지만, 기술의발젂으로이제는실시갂으로활용이가능함 자동화된알고리즘기반의의사결정지원 의사결정향상, 리스크감소, 숨겨짂 Insight 발굴가능 ( 예, 국세청에서는심층분석이필요한대상자를걸러내는자동화된엔짂을활용 ) 효율성을극대화하도록생산라인을유연하게조정 BM, 제품, 서비스의혁싞 싞제품이나서비스개발, 기졲제품의개선및새로욲 BM 발굴 의료분야의짂료기록을분석하여예방을위한관리프로그램제공 유통분야에서는실시갂가격비교서비스를통한투명한가격의가치제공
http://www.i-cio.com/case-studies/volvo-big-data 29
제조기업에서의 Big Data Value Chain
유통기업을위한 Big Data Use Cases Retail Use Cases Marketing Merchandising Operations Supply Chain Cross-selling Location based marketing In-store behavior analysis Customer micro-segmentation Sentiment analysis Enhancing the multi-channel consumer experience Assortment optimization Pricing optimization Placement and design optimization Performance transparency Labor inputs optimization Inventory management Distribution and logistics optimization Informing supplier negotiations
Summary : Big Data 기회 젂체매출 (top line) 증대 비즈니스민첩성향상 경쟁사보다우위선젅 위험 Big data 지금여기에 경쟁사는기회를놓치지않을것임 조직에맞는 Big data 플랫폼구축을시작합시다.
Big Data Appliance and Exadata NoSQL DB HDFS Hadoop RDBMS
Questions