Big Data Innovation : 효율적인활용전략고찰 장성우상무 Technology Business Unit, Oracle Korea
Agenda Big Data 브리핑 Big Data 활용전략 <Insert Picture Here> 주요질문정리 활용시고려사항 Big Data 아키텍쳐구성방안 Big Data To-Be Architecture 오라클의지원솔루션 요약및 Q&A
Agenda Big Data 브리핑 <Insert Picture Here> Big Data 활용전략 주요질문정리 활용시고려사항 Big Data 아키텍쳐구성방안 Big Data To-Be Architecture 오라클의지원솔루션 요약및 Q&A
Big Data 이야기 빅데이타와셜록홈즈, 제이슨본은무슨관계가있을까요?
Big Data is about Big Data: Decisions based on all your data Information Architectures Today: Decisions based on database data Video and Images Social Data Machine- Generated Data Transactions Documents Tapping into diverse data sets Finding & monetizing hidden relationships Driving data-based business decisions NORA(Non-Obvious Relationship Awareness: 불명확한관계인지 ) 서로무관한정보를조합해결정적인단서를파악하는기술 사용자의신원을직접적으로확인할수있는정보가없어도검색기록등남긴정보가충분하다면해당사람이누구인지알아내는것이가능 남겨진정보를통해행동심리에기반하여동인유추가능 빅데이터분석의핵심메카니즘
LGERI 보고서 : 빅데이터에대한기대와현실 Big Data 에대한기대감고조 새로운유형의실시간데이터에서가치있는정보를얻을수있을것이라는기대증가 경제 / 경영의불확실성심화에대한돌파구로서빅데이터분석에대한기대감 차별화된전략창출의필요성 <2012 년 10 월 17 일 > Big Data 에대한회의적인시각도존재 생산성패러독스 및 IT ROI 이슈 데이터증가에따른 TCO 증가우려 비정형데이터분석의유용성에대한의문 중장기적인가치창출의가능성은대부분긍정적 목적에맞는데이터활용전략의수립이우선 분석기반의기업내부역량강화가가장중요
Big Data 관련북리뷰 빅데이터, 경영을바꾸다 ( 함유근, 채승병 ) SERI 보고서의확장판 빅데이터관련다양한기술요소와사례설명 빅데이터에의한 4 가지경영혁신모형제시 생산성향상 발견 에의한문제해결 의사결정향상 : 과학화와자동화 새로운가치창출 : 스마트비즈니스 여기에당신의욕망이보인다 ( 송길영 ) SNS 분석 + 마케팅기반의통찰력 을기반으로한감성적빅데이터분석의주요흐름제시 주요제언 문제에집중하라 : 문제먼저, 시스템나중 시야를넓혀라 : 제품 시장 사람과사회 선행 하라 : 사람들생각의총량 / 속도를측정 & 예측 데이터기반의사결정구조의사내확립필요
Big Data 분석의가치 OLTP/DW 의 Business Data 과거비즈니스결과데이터기반 Fact 중심의다차원분석처리 과거의패턴이미래에도반복된다 는가정하에서유효 Looking back PAST Big Data 현재발생하는데이터중심 인간관계, 위치, 사용자행위, 인식, 상태등 통계중심의상관관계분석 이상징후감지, 가까운미래예측, 비즈니스기회포착등에활용 Looking ahead FUTURE
Big Data 분석의 Virtue 샘플 (sample) 이아닌전수 (population) 샘플링데이터의모델링 적은데이터로좋은모델링알고리즘개발에집착 전체데이터의시각화 대규모데이터를이용기본알고리즘으로도효과적인분석가능 특정개인 / 그룹이아닌시장혹은사회전체의데이터를분석할수있음 변수의범위및수집간격을시스템성능제약없이필요한범위만큼확대할수있음 숨겨진 진짜 를찾을수있음 데이터생성의이면에담긴인과관계혹은새로운데이터그자체를찾을수있음 은연중에드러나는가중치행동파악가능 웹페이지의링크, FB 의친구관계, Twitter 의 re-twitt, 메일의짧은 reply time 숨겨진 outlier 파악가능 확대된변수 / 짧아진수집주기를통해기존에는몰랐던데이터의존재파악가능
Big Data 문제에대한적절한접근방안 문제에집중 기업내의어떤문제점을빅데이터기반으로풀것인가? 유사한사례에는어떤것이있는가? 데이타범위와분석방법론구상 해당문제의해결을위해어떤데이타를사용하여야하는가? 데이타의이면에숨겨져있는어떤원리를파악하여문제를해결할것인가? 이를위해어떤분석방법론을사용할것인가? 빅데이터처리 IT Architecture 설계 DB 중심의비즈니스데이타처리 + 비정형의 big data 처리 Hybrid 구조의 IT Architecture 필요
Agenda Big Data 브리핑 Big Data 활용전략 <Insert Picture Here> 주요질문정리 활용시고려사항 Big Data 아키텍쳐구성방안 Big Data To-Be Architecture 오라클의지원솔루션 요약및 Q&A
Big Data 활용의 Key Points KP#1 : VAS 제공 사내정보의통합과외부정보의연결을통해기존에없던 새로운 VAS 를만들어낼수있는가? VAS 의제공여부는경쟁관계에서 key differentiator 가될수있음 KP#2 : VAS를제공할수있는분석역량 ( 인프라, 인력 ) VAS를구성하는다양한내, 외부데이터를통합 / 분석할수있는빅데이터관리인프라의구성 통합된빅데이터를다각도로분석할수있는적정분석인력의확보 * VAS: Value-Added Service
Big Data 활용의주요질문들 새로운 Big Data Project 를기획할때고려할요소는무엇인가? 기존 DB 데이터와새로운 Big Data 를어떻게구분하여 저장 / 관리하여야하는가? SNS 분석이필요없는제조현장에서는빅데이터를어떤방법으로 활용해야하는가? 빅데이터분석을위해기업은무엇을준비하여야하는가?
Big Data 프로젝트기획의주요고려요소 문제에집중 기업내의어떤문제점을빅데이터기반으로풀것인지에대한명확한기획필요 그런후해당문제해결에필요한데이터수집과방법론적용 Small Prototype 프로젝트우선수행 B2C vs. B2B 빅데이터특성이해필요 B2C 빅데이터는대부분고객의행위결과데이터 데이터이면에숨겨져있는행동심리의인문학적통찰필요 B2B 빅데이터는기계적인프로세스의결과데이터 수리적모델의검증과숨겨진변수 / 데이터의확인이더욱중요 대용량데이터의효율적처리를위한 Extended Data Architecture 필요 DB 기반의처리 + big data 처리 Hybrid 처리 데이터이동을최소화할수있는설계필요
Big Data vs. Business Data Big Data 비교기준 Business Data 개개의데이터는중요하지않지만대량으로모여있을때새로운정보발견가능성이있음 미리알려지지않음 처리시분석하여대응 HDFS 을이용한분산화일에저장 NoSQL 기반의 (key, value) 저장 Map/Reduce 기반분산배치처리 ( 사용자가코드를직접작성 ) NoSQL 기반의 put, get 처리 다양한형태의비정형데이터처리가능 사용자가 Map/Reduce 직접작성 SPOF(Single Point of Failure) Highlevel 의 QoS 보장은불가능 중요도 내부자료구조 저장방식 처리방식 장점 단점 개개의데이터모두가중요 ( 논리적정합성, 물리적안전성보장필요 DBMS 의기본기능 ) 미리알려짐 스키마정의 RDB 내의 Table 에저장 Very Large DB (VLDB) 구성 SQL DML 기반 R/M-OLAP ACID 기반의 data consistency, availability 보장 고정된스키마 단위바이트당고비용 보완적특성기타 연관분석에반드시필요
Big Data 를활용한 IT Rebalancing Big Data 분석을위한저장이필요데이터 일부유실허용, 분석후 / 기간경과후삭제가능 Hadoop/NoSQL 기반처리 기존 DB 데이터는과감한 rebalancing 필요 Business Data 다수의사용자가동시접근 논리적인정합성과물리적인안정성의보장이필요한데이터 데이터크기에관계없이 DB 에저장 (VLDB) DB 기반처리 Hadoop/NoSQL 기반처리 FILE 기반처리 대량의데이터를다수의사용자가동시처리 정합성보장 대량데이터분산저장 병렬처리 저비용으로정보저장가능 동시사용자처리불가 정합성보장어려움 고비용저비용 / 대량데이터고속처리대량데이터
Big Data Platform 구성의고려사항 Big Data 를 DB(DW) 에저장하여야하는경우 다양한데이터의복잡한연계분석 (join 기반 ) 이필요한경우 다수의분석가가동시에접속하여작업할필요가있는시스템의경우 Big Data 를 NoSQL 에저장하여야하는경우 비정형의데이터이지만향후특정 key value에기반하여검색한후작업할필요가있는경우 그럼에도 full consistency control은필요없는경우 Big Data 를 HDFS 에저장하여야하는경우 DB에저장할필요는없지만대용량이어서 M/R 처리가필요한경우 Hive를이용할경우 SQL-like한 M/R 처리가능
제조현장에서의 Big Data 의활용방안 Big Data 저장 Big Data Visualization & 현업의판단 문제발생시 Big Data Analytics 수행 Hadoop을활용한설비관련환경변수값의저장 현업의필요에따라저장데이터의종류와기간결정 저장의의미 : 전수데이터 샘플이나일부데이터가아님 수집된전수데이터를 다양한형태로시각화 data pruning & outlier pin-pointing 가능 현장의장인에의한 big data 의미판단과 프로세스개선가능 문제 ( 품질오류, 오작동, 수율하락등 ) 발생시다양한분석을통한 key factor analysis 가능 다양한통계및경영과학기법의활용
기업내에서의 Big Data 대응방안 Front Office Back Office Data Center 고객과직접대면하면서일하는부서. 예 : 영업, 마케팅, A/S 업무와이벤트중심적 un-structured 회사자체를운영하는데촛점을두는부서. 예 : 연구, 생산, 물류 프로세스중심적 well-defined and structured 기업내의정보처리프로세스를지원하는인프라환경구축및지원 SNS 와연계된업무프로세스재설계 다양한 SNS 연계활동으로발생된데이터를분석하여고객만족, 매출증대, 신상품개발에활용필요 다양한 M2M 데이터를활용하여업무프로세스효율성분석 New 6 Sigma with Big Data 통합되어진정보분석서비스센터구성필요 분석정보의적시전달인프라필요 : operational BI Analytic Private Cloud
Big Data 역량확보방안 Big Data 관련주요기술 주요고려사항 Big Data 관리시스템구축및운영기술 Hadoop 상의정보저장및 Map/Reduce 기반정보처리 NoSQL 기반의트랜잭션처리관련인프라의안정적인운영방안 Big Data 분석기술 Big Data Visualization R 기반통계처리경영과학기법을활용한 VAS 구현 업무분석의리더십확보 VAS 설계와분석역량의확대에우선집중 인프라운영의리스크최소화
Agenda Big Data 브리핑 Big Data 활용전략 <Insert Picture Here> 주요질문정리 활용시고려사항 Big Data 아키텍쳐구성방안 Big Data To-Be Architecture 오라클의지원솔루션 요약및 Q&A
Big Data 처리시스템의기본구조 Big Data HDFS DW / DM BI/Visualization Open Source R Dash board KPI Flume Flume ETL Summary of Big Data ERM OLAP Report B I 포탈 Query 현재발생하고있는 비정형의상황정보들 과거몇년치의 비즈니스실적정보들 과거비즈니스정보와 현재상황정보의 통합연계분석 Monitori ng Acquire & Organize Summarize Analyze Visualize Decision 다양한형태의비정형데이터 (SNS, 센서, 로그, 이미지등 ) 을모아통합관리 : 비정형 ODS 분석에필요한다양한요약정보를병렬처리하여빠르게추출 / 조직화 요약정보는기존 DW/DM 로적재되어 BI 및시각화를통해통합연계분석
Big Data Architecture 구성방안 Big Data To-Be Architecture Information Source Information Management Layer Information Access Layer 비정형 / 비구조 Unstructured Data Store Access & Performance Layer Document Text Email Image SNS Data 반정형 Data Capture & Acquire HDFS Collector NoSQL DB MapReduce Solution Connector Advanced Analytics Ad-Hoc Discovery BI Server Casual User Application Log (Mobile/Smart TV) Server Log Sensor Log 정형 DB 기반운영시스템 ERP Data Transaction Data Streaming / OEP (Oracle Event Processing) Structured Data Store ETL Staging Layer Temporary Loading structures ETL Foundation Layer Normalized Data Store ETL Aggregate Data Warehouse ETL Mart Data Model Embedded Datamarts BI Application Data Apps Server Power User Customer Channel Infrastructure Layer DBMS Cluster In-Memory Security Management Server & Storage
Oracle 의 Big Data 지원전략 Big Data 처리를위한통합솔루션 기존의 DBMS 에 Extreme Performance 생각의속도의실시간분석 Oracle Big Data Appliance Oracle Exadata Oracle Exalytics InfiniBand InfiniBand Stream Acquire Organize Analyze & Visualize
Big Data Appliance Foundation Software 64 GB memory per node; (1152 GB memory total) 2 CPUs (8-core Intel) per node (288 cores total) 36 TB HDD capacity; 648TB raw disk total Oracle Linux 5.6 Oracle Java VM Cloudera Distribution for Hadoop(CDH) Oracle R Open Source Application Software 40 Gb/sec InfiniBand 100 total ports (for internal backplane and interconnection to Exadata) 10 Gb/sec Ethernet 16 total ports (for connection to datacenter) Oracle NoSQL Database Community Edition MySQL Standard Edition Oracle Big Data Connectors
OEP & Endeca Oracle Event Processing 사용자질의 Questio n B I + Sear ch Questio n 데이터저장소 데이터추출 Endeca Web Crawler CMS Connector Crawl Endeca Server(MDEX) File System Crawl Custom Data Source Crawl Dimension Value Data Source Crawl 데이터소스 Web RSS Feed SOA, ESB, File Content Mgt Databas Unstructured ERP CRM SCM Web Social Media Enterprise Systems Unstructured es Data Sources Enterprise Systems Systems & Content Stores Service Endeca 실시간으로발생하는빅데이타의이벤트기반처리솔루션 CQL(Complex Query Language) 를통한질의기반처리 Big Data 의 Near Real-time Streaming 처리지원 비정형문서의효율적인저장을위한 MDEX 엔진제공 복합검색가능 DB 내의정형문서의질의기반검색 + MDEX 내의비정형문서에대한키워드검색
Big Data 를위한오라클의지원방안 기본개념에대한실무대상현장세미나 데이터사이징 ( 범위와보관주기 ) 에대한논의 분석방안에대한 brain-storming 데이타관리아키텍처수립방안컨설팅 데모를통한 PoC 진행 ( 오라클본사 ) BDA 상에서의 Hadoop / NoSQL 활용방안설계 BDA + Exadata 를통한전체데이터아키텍처수립
Summary 빅데이타분석브리핑 - 사회적분위기의사전탐지를통한선행적예방 리스크감소 - 필요조건 : NORA 를위한인문학적소양 - 빅데이타의미덕 : 진짜 의전수데이타 Big Data 의기업내활용전략 - 문제우선, 시스템나중 - 분류필요 : B2C vs. B2B, Business Data vs. Big Data - 참조아키텍처수립및분석역량강화필요 - 통합및클라우드를통한인프라운영의리스크는최소화 오라클의 Big Data 지원솔루션 - Big Data Appliance : Big Data 통합관리 - Exadata : Extreme Query Performance 및 Maximum Availability Architecture 제공 - Exalytics : Adaptive In-Memory Cache 를통한 Speed of Thought BI 성능지원