빅데이터의기술영역과 요구역량 줌인터넷 ( 주 ) 김우승
소개 http://zum.com 줌인터넷(주) 연구소 이력 줌인터넷 SK planet SK Telecom 삼성전자 http://kimws.wordpress.com @kimws
목차 빅데이터살펴보기 빅데이터에서다루는문제들 NoSQL 빅데이터라이프사이클 빅데이터플랫폼 빅데이터를위한역량 빅데이터를위한역할별요구지식
60 년전 1952.5.21 The first IBM large-scale electronic computer IBM 701
지금은 전세계음악을모두저장할수있는디스크드라이브가격 $600 2010년전세계핸드폰 50억대이상매달페이스북에서주고받는컨텐츠 300억건매년전세계데이터 40% 씩증가, IT 분야는 5% 씩증가 미국의회도서관이수집한데이터 235 테라바이트 (2011.4 기준 ) Google Datacenter http://www.google.com/about/datacenters/locations/index.html 출처 : McKinsey&Company June 2011 Big Data Facebook Datacenter 스웨덴극지방위치
왜빅데이터에관심을가지나? Google Facebook Yahoo LinkedIn Twitter Connected Everything Smartphone LTE Sensor Networks 웹서비스사업의성장기술공개, 빠른기술진화데이터처리비용상대적으로낮아짐 Cost < Value 데이터의폭발적인증가멀티미디어실시간데이터
구글과아파치하둡 구글이자신들의빅데이터기술을논문으로발표 à 오픈소스로개발, 공개 C/C++ GFS Chubby BigTable MapReduce Swazall Tenzing Java HDFS ZooKeeper HBase MapReduce Pig Hive
Knowledge & Technology for Big Data Real-time Processing Statistics R SAS Complex Event Processing Linear Algebra Data Mining Stream Process Machine Learning OLAP Tools Scribe Excel Flume Algorithms ETL Redis Graph DB SQL Pig MSSQL KeyValue DB Column DB ZooKeeper MySQL Hive Oracle HBase HDFS Protocolbuf MongoDB Entity Relation MapReduce NoSQL Cassandra XML Hadoop Avro Amazon JSON HTTP RDBMS C/C++ Python Batch Processing Java TCP/IP Apache Linux Distributed Computing 우승이의블로그 http://kimws.wordpress.com Cluster Computing Cloud Computing
빅데이터에서다루는문제들 대용량데이터, 정형 / 비정형데이터, 이벤트 / 스트리밍데이터 분산컴퓨팅, 클러스터컴퓨팅 클라우드컴퓨팅 오픈소스 데이터마이닝 / 머신러닝 레거시시스템연동 / 데이터수집 보안 / 개인정보보호이슈
Big Data Platform 환경비교 기존데이터플랫폼환경 빅데이터플랫폼환경 Single Machine Multiple Machine Multi-core (> 16 cores) Commodity H/W, N/W Scale-up Scale-out High Price H/W, S/W Low Cost SAN Storage Distributed File System MS Windows, AIX, HP-UX Linux Commercial Solutions Open Source IBM, Oracle, Microsoft Yahoo!,Facebook,Twitter RDBMS NoSQL TeraData, Exadata,Netizza Hadoop, Hive, Pig SAS, SPSS R, Mahout
NoSQL (Not Only SQL)? 관계형데이터모델을사용하지않고 SQL 을사용하지않는그이외의모든데이터베이스시스템또는데이터스토어 CAP Theorem Consistency Availability Partition Tolerance q q CA, CP, AP 의특성에따라상대적인확장성과성능에제약이발생 대부분오픈소스 요구사항에대한분명한이해 개발 / 운영역량반드시확인 출처 : http://blog.beany.co.kr/archives/275
NoSQL Ecosystem 각도메인또는요구사항에맞는 NoSQL 을선택하는것이매우중요 대부분의 NoSQL 이오픈소스, 도입시내부검증절차와내재화필요 출처 : http://www.slideshare.net/mattaslett/mysql-vs-nosql-and-newsql-survey-results-13073043
Big Data Lifecycle 데이터수집데이터처리데이터분석데이터제공 데이터연동 데이터클리닝 모델검증 보고서 ftp, sftp, rcp, rsync 데이터변환 데이터요약데이터기초통계데이터탐색 데이터마이닝 텍스트마이닝 데이터시각화서비스데이터 상품추천유사아이템
Legacy Data Platform DBMS 을기반으로하는데이터플로우, Scale-up 구조의아키텍처 고가의하이엔드싱글서버서버, 네트워크장비 SAN 스토리지상용데이터베이스, 마이닝솔루션매우고가 시스템확장 Scale up 비용은몇배로발생시스템아키텍쳐 & 데이터구조변경이불가피처리할수있는데이터처리에한계가발생 데이터수집데이터처리데이터분석데이터제공 FTP SFTP Rsync ETL Process (IBM DataStage) SQL, PL/SQL 데이터마이닝 (SAS) Data Warehouse (TeraData) RDBMS (Oracle, DB2, MSSQL ) OLAP Tools Service Server Local FS SAN Storage Local FS
Migration??? Legacy Data Platform Big Data Platform
Hybrid!!! Legacy Data Platform Big Data Platform
Big Data Platform 다양한데이터소스 / 데이터프로세싱프레임워크를수용할수있는워크플로우, 통합관리시스템필요 대용량데이터저장과대용량데이터분석시스템에는 Hadoop 및오픈소스기반의 NoSQL, R 을적극활용 최종분석결과제공을위한 OLTP 기반리포트시스템 / 서비스데이터들은기존의기술을적극활용 Hadoop 및오픈소스기반의시스템들은저가의범용서버및네트워크스위치를활용해서클러스터를구성 데이터수집데이터처리데이터분석데이터제공 FTP SFTP Rsync ETL Process Pig & Script Lanugage 데이터마이닝 Mahout, R Data Warehouse Hive, R OLAP Tools (R) Service Server Log Aggregator (Flume) MapReduce Framework Data Warehouse NoSQL (Mong odb) Real-time Stream & Event Processor NoSQL (Hbase, Cassandra) RDBMS (Oracle, MySQL) Local FS Distributed File System SAN Storage Local FS
빅데이터를위한역량 자신은어느분야의전문가인가? 어느방향으로역량을넓혀갈것인가? 도메인지식 Data Scientist 데이터시각화 Data Scientist 데이터마이닝 소프트웨어프로그래머 플랫폼기술 Hadoop /NoSQL 빅데이터 머신러닝 DevOps DevOps 운영체제분산컴퓨팅 소프트웨어프로그래밍
빅데이터를위한역할별요구지식 도메인전문가 추천로직기획, 광고플랫폼 Financial & Stock Market Health Care BioInfomatics Power Management Visualization Infograph IR & RecSys 데이터분석가소프트웨어개발자시스템엔지니어 통계 & 데이터탐색 데이터마이닝 & 기계학습 데이터분석 리포팅 데이터시각화 데이터수집 마이닝알고리즘 & ML 구현 데이터처리엔진구현 데이터저장소최적화 분산알고리즘구현 운영체계최적화 컴퓨팅 H/W, N/W 최적화 OLAP Tools SAS, SPSS,R,Weka SQL RDBMS ETL Script Language Pig, Hive MapReduce Log Aggregator NoSQL Hadoop Linux X86 Network Data Scientist DevOps
Multi-Player.vs. Team 각분야역량을갖춘인력으로팀을갖추고개인역량을확장 중장기적으로조직내에빅데이터기술의내재화가필수, 아웃소싱한계 Data Team Data Scientst Domai n Expert 서비스기획자 DBA 통계학자 Data Miner 알고리즘개발 DevOps Machine Learning S/W 아키텍트 System Engineer S/W 개발자
빅데이터솔루션과하둡 출처 : http://kimws.wordpress.com
Beyond the Yottabyte "the data volumes are increasing with a projection that sensor data volume could potentially increase to the level of Yottabytes by 2015." Googol = 10 100
감사합니다.