Oracle Big Data 오라클 빅 데이터 이야기
Cover Story 01 20 Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치
최근 빅 데이터에 대한 관심이 커지고 있는데, 그 배경이 무엇일까요? 정말 다양한 소스로부터 엄청난 데이터들이 쏟아져 나오고 있군요 기업들은 그러한 엄청난 데이터에 서 비즈니스의 가치를 뽑아내고 싶어하는거죠 빅 데이터 현상은 기업들의 고객 데이터 수집 활동 및 멀티미디어 콘텐츠의 폭발적 증가와 스마트폰 보급, SNS 활성화 및 사물 통신망 (M2M)의 저변 확대로 빠르게 확산되고 있습니다. 빅 데이터의 급격한 증가 정형데이터 보다도 더욱 빠르게 비정형 빅 데이터가 증가하고 있습니다. GB of Data (IN BILLIONS) 0 1.8 trillion gigabytes of data was created in 2011 More than 90% is unstructured data and managed outside Relational Database Approx. 500 quadrillion files Quantity doubles every 2 years 2000 기업의 고객 데이터 트래킹/ 수집 행위 증가 기업들은 온라인/오프라인 사용자 정보, 소비자 행태에 대한 정보 수집에 적극적 고객관련 정보 수집의 증가로 더 많은 데이터 스토리지와 정교한 분석 능력을 필요 ex) Tesco는 매달 15억 건 이상의 (고객) 데이터를 수집 SNS의 급격한 확산과 비정형 데이터의 폭증 SNS는 스마트폰의 확산과 더불어 젊은 층에서 중장년 층으로까지 확산 Facebook에서만 매월 한 이용자당 평균 90개 이상의 컨텐츠를 업로드 YouTube에서는 1분 마다 24시간 분량의 비디오가 업로드 SNS 미디어 데이터 폭증 M2M 확산에 따른 센서 저변 확대 현재 3천만 개 이상의 사물인터넷 센서가 설치 (향후 5년 동안 CAGR 35% 증가) 원격 헬스 모니터링을 통한 헬스케어, RFID를 이용한 소매업, 스마트 미터 기술을 활용한 유틸리티 사업에서도 데이터 발생량이 증가할 것으로 전망 멀티미디어 컨텐츠와 컨텐츠 사용에 관한 정보의 증가 CT 스캔, CC카메라 등 다양한 부분에서 대용량 멀티미디어 콘텐츠 생산 증가 고화질 동영상은 이미 인터넷 전체 트래픽의 50% 이상을 차지 (2013년 70%로 증가) 오리지널 컨텐츠뿐 아니라 컨텐츠 소비에 관한 정보도 대량 생산 (사용자정보, 선호 등) 2010 Big Data의 배경 21
빅 데이터의 정의와 특징은 무엇일까요? Big Data의 정의 22 기업은 급격하게 늘어나는 데이터 크기, 형태, 속도를 감안하여 이에 맞는 활용전략을 찾아야 합니다. 빅 데이터의 개념은 상대적 이며, 절대적인 크기로만 정 의해서는 안됩니다. 대규모 용량의 다양한 종류의 데이터로부터 고속의 수집/발견/분석을 통해 비즈 니스적인 가치를 뽑아내기 위한 새로운 기술과 아키텍쳐 크기(Volume): 분석 데이터의 규모 증가 - 대규모 데이터 처리 및 분석 기술 발전으로 통계 정확도와 가치 증대 형태 다양성(Variety): 데이터 소스 확대 - 데이터 소스의 다양화 : 기업 내부의 비정형 데이터, 외부 소셜 데이터 및 웹 데이터 속도(Velocity): 데이터 처리 속도의 증가 - 대량의 데이터 처리 기술 및 분석 방법 개선위한 실시간 처리 및 분석 기능 지원 비정형 데이터 정 형 데이터 Sound/ Movie Document Call Data CRM ERP MES SCM Web 전통적 방식의 데이터 빅 데이터와 비지니스 데이터의 비교 News Retailer s Data Facility s Data (M2M) Social Media 비정형 내부 데이터 Web / Blog Data Monetization Other Company s Data 비정형 외부 데이터 빅 데이터 비교 기준 비즈니스 데이터 개개의 데이타는 중요하지 않지만 대량으로 모여있을 때 새로운 정보 발견 가능성이 있음 미리 알려지지 않음. 처리 시 분석하여 대응 HDFS을 이용한 분산 화일에 저장 NoSQL 기반의 (key, value) 저장 Map/Reduce 기반 분산 배치 처리(사용자가 코드를 직접 작성) NoSQL 기반의 put, get 처리 개별 데이타의 중요도 내부 자료 구조 저장 방식 처리 방식 개개의 데이타 자체가 중요 (값이 틀려서도, 데이타가 유실되어서도 안됨) 미리 알려짐 -> 스키마 정의 DBMS 내의 Table에 저장 SQL DML 기반 R/M-OLAP 사용자가 Map/Reduce 직접 작성 장점 ACID 기반의 데이타 일관성/가용성 보장 사용자가 Map/Reduce 직접 작성 High-level의 QoS 보장은 불가능 웹 로그 : 검색, 관심 키워드 등 SNS 상의 고객의 VOC : 고객의 성향,인식 생산 설비 로그 : 설비, 공정의 환경 정보 위치 로그 : 고객이나 상품이 이동 경로 단점 사례 고정된 스키마 -> 비정형 처리 어려움 고객/직원 정보, 판매/매출 정보 제조업 : 제품, BOM, 생산, 출하, 물류 정보 등 금융업 : 계좌, 투자, 대출, 자산 정보 등 통신업 : 상품, CDR, Billing 정보 등
빅 데이터를 효율적으로 활용할 수 있는 방안에는 어떤 것들이 있나요? Big Data 활용 방안 빅 데이터는 다양한 로그를 이용하여 정상 과 비정상 에 대한 패턴을 도출하거 나, Forecast 보다 가까운 미래를 예측하는 Nowcast 를 가능케하며, 새로운 관심사나 신조어 파악같은 트렌드를 이해하는 데 활용될 수 있습니다. 빅 데이터는 이상 현상 감지, 가까운 미래 예측, 트렌드 분석 등에 활용할 수 있습니다. 이상 현상 감지 - 업무에서 발생한 로그를 이용하여 정상 과 비정상 에 대한 패턴 도출 가까운 미래 예측 - 이상 현상 감지 빅 데이터를 고속으로 수집, 분석함으로써 Forecast 보다 가까운 미래를 예측하는 Nowcast 가 가능 상황 분석 및 기회창출 - 새로운 측면을 가능한 빨리 발견 및 분석함으로서 현재 상황을 빠르고 명확하게 이해하고 새로운 의미를 파악 Mobile Machine-Generated / Sensor Data Web 사이트 LOG 업무 시스템 데이터 소셜 미디어 Call Center 문서, 이메일 영상, 동영상 23
우리는 빅 데이터에서 어떤 가치를 얻을 수 있는 것인가요? Big Data의 가치 24 결국 빅 데이터는 비지니스적으 로는 분석기반의 과학적인 의사 결정을 가능하게 해주고, 기술적 으로는 TCO를 절감할 수 있게 해 주는 것이군요! 빅 데이터의 비즈니스적인 가치는 이전에는 관리되지 않던 새로운 데이터를 포함 하여 업무를 분석함으로써 예측 능력을 높여 비즈니스 효율성을 향상시키는 것에 있습니다. OLTP/DW 의 Business Data 과거 비즈니스 결과 데이터 기반 Fact 중심의 다차원 분석 처리 과거의 패턴이 미래에도 반복된다 는 가정하에서 유효 Big Data 현재 발생하는 데이터 중심 -> 인간관계, 위치, 사용자 행위, 인식, 상태 통계 중심의 상관 관계 분석 이상 징후 감지, 가까운 미래 예측, 비즈니스 기회 포착 등에 활용 Big Data의 기술적인 가치는 기존 데이타 처리 기술 사이의 간극을 메워 주어 TCO 가 좋도록 IT Architecture를 re-balancing할 수 있는 데 있습니다. DB 기반 비즈니스 데이터 처리 대량의 데이터를 다수의 사용자가 동시 처리 정합성 보장 고비용 Hadoop 기반 빅 데이터 처리 대량의 데이터를 분산 저장하고 병렬 처리 가능 저비용으로도 대량의 빅 데이터를 빠르게 처리 가능 기존의 DW 기반 과거 비즈니스 분석과 새로운 빅 데이터 기반의 현재 상황 분석을 결합하여 의사 결정의 효율성 증대 File 기반 처리 저비용으로 정보 저장 가능 동시 사용자 처리 불가 정합성 보장 어려움 대량의 데이타 처리시 매우 느린 처리 시간