DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx

Similar documents
Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

빅데이터_DAY key

PowerPoint 프레젠테이션

출원국 권 리 구 분 상 태 권리번호 KR 특허 등록

클라우드컴퓨팅확산에따른국내경제시사점 클라우드컴퓨팅확산에따른국내경제시사점 * 1) IT,,,, Salesforce.com SaaS (, ), PaaS ( ), IaaS (, IT ), IT, SW ICT, ICT IT ICT,, ICT, *, (TEL)


김기남_ATDC2016_160620_[키노트].key

Global Bigdata 사용 현황 및 향후 활용 전망 빅데이터 미도입 이유 필요성 못느낌, 분석 가치 판단 불가 향후 투자를 집중할 분야는 보안 모니터링 분야 와 자동화 시스템 분야 빅데이터의 핵심 가치 - 트랜드 예측 과 제품 개선 도움 빅데이터 운영 애로 사항

PowerPoint Presentation

vm-웨어-01장

Basic Template

따끈따끈한 한국 Azure 데이터센터 서비스를 활용한 탁월한 데이터 분석 방안 (To be named)

AGENDA 모바일 산업의 환경변화 모바일 클라우드 서비스의 등장 모바일 클라우드 서비스 융합사례


RUCK2015_Gruter_public

Microsoft Word - 조병호

제목을 입력하세요.

I I-1 I-2 I-3 I-4 I-5 I-6 GIS II II-1 II-2 II-3 III III-1 III-2 III-3 III-4 III-5 III-6 IV GIS IV-1 IV-2 (Complement) IV-3 IV-4 V References * 2012.

슬라이드 1

[Brochure] KOR_TunA

Slide 1

빅데이터처리의핵심인 Hadoop 을오라클은어떻게지원하나요? Oracle Big Data Appliance Solution 01 빅데이터처리를위한전문솔루션이 Oracle Big Data Appliance 군요. Oracle Big Data Appliance 와함께라면더이

Web Application Hosting in the AWS Cloud Contents 개요 가용성과 확장성이 높은 웹 호스팅은 복잡하고 비용이 많이 드는 사업이 될 수 있습니다. 전통적인 웹 확장 아키텍처는 높은 수준의 안정성을 보장하기 위해 복잡한 솔루션으로 구현

Oracle9i Real Application Clusters

슬라이드 1

SECTION TITLE A PURE PRIMER (AI), // 1

PCServerMgmt7

<4D F736F F D205B4354BDC9C3FEB8AEC6F7C6AE5D3131C8A35FC5ACB6F3BFECB5E520C4C4C7BBC6C320B1E2BCFA20B5BFC7E2>

170918_hjk_datayanolja_v1.0.1.

IPAK 윤리강령 나는 _ 한국IT전문가협회 회원으로서 긍지와 보람을 느끼며 정보시스템 활용하 자. 나는 _동료, 단체 및 국가 나아가 인류사회에 대하여 철저한 책임 의식을 가진 다. 나는 _ 활용자에 대하여 그 편익을 증진시키는데 최선을 다한다. 나는 _ 동료에 대해

슬라이드 1

Microsoft PowerPoint - 발표_090513_IBM세미나_IPTV_디디오넷_완료.ppt

컴퓨터과학과 교육목표 컴퓨터과학과의 컴퓨터과학 프로그램은 해당분야 에서 학문적 기술을 창의적으로 연구하고 산업적 기술을 주도적으로 개발하는 우수한 인력을 양성 함과 동시에 직업적 도덕적 책임의식을 갖는 IT인 육성을 교육목표로 한다. 1. 전공 기본 지식을 체계적으로

슬라이드 1

12-06.hwp

Agenda 오픈소스 트렌드 전망 Red Hat Enterprise Virtualization Red Hat Enterprise Linux OpenStack Platform Open Hybrid Cloud

기타자료.PDF

Intra_DW_Ch4.PDF

PowerPoint 프레젠테이션

J2EE & Web Services iSeminar

슬라이드 1

Backup Exec

dbms_snu.PDF

RED HAT JBoss Data Grid (JDG)? KANGWUK HEO Middleware Solu6on Architect Service Team, Red Hat Korea 1

소만사 소개

Integ

서현수

PowerPoint 프레젠테이션

2009방송통신산업동향.hwp

들어가는글 2012년 IT 분야에서최고의관심사는아마도빅데이터일것이다. 관계형데이터진영을대표하는오라클은 2011년 10월개최된 오라클오픈월드 2011 에서오라클빅데이터어플라이언스 (Oracle Big Data Appliance, 이하 BDA) 를출시한다고발표하였다. 이와

<49534F C0CEC1F520BBE7C8C4BDC9BBE720C4C1BCB3C6C320B9D D20BDC3BDBAC5DB20B0EDB5B5C8AD20C1A6BEC8BFE4C3BBBCAD2E687770>

Microsoft Word - th1_Big Data 시대의 기술_ _조성우

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

歯CRM개괄_허순영.PDF

비식별화 기술 활용 안내서-최종수정.indd

PowerPoint Presentation

スライド タイトルなし

Bigdata가 제공하는 구체적인 혜택과 변화 양상 기업의 데이터 기반의 의사결정 시스템 구축 의지 확대 양상 빅데이터를 활용한 경영 및 마케팅 지속적인 증가세 뚜렷 빅데이터를 도입한 기업은 사전 기대를 뛰어넘는 효과를 경험 본 조사 내용은 美 BARC- Researc

aws

Microsoft Word - 김완석.doc

Intro to AWS Cloud-중앙대


solution map_....

PowerPoint Presentation

Chap7.PDF

consulting

PowerPoint Template

NCS : ERP(SAP) ERP(SAP) SW IT,. SW IT 01., 05., 06., 08., 15., , 05. SW IT,,,, SAP HR,,, 4,,, SAP ABAP HR SCHEMA, BSP,

02이승민선생_오라클.PDF

Cloud Friendly System Architecture

2017 1

월간 SW 산업동향 ( ~ ) Ⅰ. Summary 1 Ⅱ SW 5 2. SW 7 Ⅲ Ⅳ. SW SW Ⅴ : Big Data, 38

PlatformDay2009-Hadoop_OSBI-YoungwooKim

PowerPoint Presentation

지능형 IoT 를위한빅데이터기술현황 이러한추세는 2016년가트너의 신기술하이퍼사이클 보고서에도그대로드러나있다. 하이퍼사이클상의머신러닝은디지털비즈니스혁신을위한기술로서의정점에있으며, IoT 플랫폼기술이그뒤를따르고있다. 빅데이터기반의처리기술의바탕위에서가장대두되는어플리케이션이

SQL Developer Connect to TimesTen 유니원아이앤씨 DB 기술지원팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 작성자

플랫폼을말하다 2

±èÇö¿í Ãâ·Â

DW 개요.PDF

레이아웃 1

<BFACB1B85F D333728BCDBC5C2B9CE295FC3D6C1BEC8AEC1A45FC0CEBCE2BFEB B8F1C2F7BCF6C1A42E687770>

Æí¶÷4-¼Ö·ç¼Çc03ÖÁ¾š

: Hadoop 출간 은 출판 분 2013 년 10 월 3 윤 퍼플 주 울 종 종 1 1번 윤 2013 본 전부 반 부를 재 권 동를 셔 면 OpenWithNet 총 상 술 워크 (2006 년) : Hadoop 세만 NoSQL 웹 분

Microsoft PowerPoint - CNVZNGWAIYSE.pptx

Data Industry White Paper

1 전통 소프트웨어 가. ERP 시장 ERP 업계, 클라우드 기반 서비스로 새로운 활력 모색 - SAP-LGCNS : SAP HANA 클라우드(SAP HEC)를 통해 국내 사례 확보 및 아태 지역 진 출 추진 - 영림원 : 아시아 클라우드 ERP 시장 공략 추진 - 더

SK C&C IR Book

Cloudera Toolkit (Dark) 2018


HTML5* Web Development to the next level HTML5 ~= HTML + CSS + JS API

Ubiqutious Pubilc Access Reference Model

문서의 제목 나눔고딕B, 54pt

이제는 쓸모없는 질문들 1. 스마트폰 열기가 과연 계속될까? 2. 언제 스마트폰이 일반 휴대폰을 앞지를까? (2010년 10%, 2012년 33% 예상) 3. 삼성의 스마트폰 OS 바다는 과연 성공할 수 있을까? 지금부터 기업들이 관심 가져야 할 질문들 1. 스마트폰은

PowerPoint 프레젠테이션

목 차 Ⅰ. 일반사항 1 Ⅱ. 특기사항 3 Ⅲ. 물품내역 및 세부규격 8 Ⅳ. 주의사항

ORANGE FOR ORACLE V4.0 INSTALLATION GUIDE (Online Upgrade) ORANGE CONFIGURATION ADMIN O

Agenda

Portal_9iAS.ppt [읽기 전용]

목 차

Transcription:

빅데이터의기술영역과 요구역량 줌인터넷 ( 주 ) 김우승

소개 http://zum.com 줌인터넷(주) 연구소 이력 줌인터넷 SK planet SK Telecom 삼성전자 http://kimws.wordpress.com @kimws

목차 빅데이터살펴보기 빅데이터에서다루는문제들 NoSQL 빅데이터라이프사이클 빅데이터플랫폼 빅데이터를위한역량 빅데이터를위한역할별요구지식

60 년전 1952.5.21 The first IBM large-scale electronic computer IBM 701

지금은 전세계음악을모두저장할수있는디스크드라이브가격 $600 2010년전세계핸드폰 50억대이상매달페이스북에서주고받는컨텐츠 300억건매년전세계데이터 40% 씩증가, IT 분야는 5% 씩증가 미국의회도서관이수집한데이터 235 테라바이트 (2011.4 기준 ) Google Datacenter http://www.google.com/about/datacenters/locations/index.html 출처 : McKinsey&Company June 2011 Big Data Facebook Datacenter 스웨덴극지방위치

왜빅데이터에관심을가지나? Google Facebook Yahoo LinkedIn Twitter Connected Everything Smartphone LTE Sensor Networks 웹서비스사업의성장기술공개, 빠른기술진화데이터처리비용상대적으로낮아짐 Cost < Value 데이터의폭발적인증가멀티미디어실시간데이터

구글과아파치하둡 구글이자신들의빅데이터기술을논문으로발표 à 오픈소스로개발, 공개 C/C++ GFS Chubby BigTable MapReduce Swazall Tenzing Java HDFS ZooKeeper HBase MapReduce Pig Hive

Knowledge & Technology for Big Data Real-time Processing Statistics R SAS Complex Event Processing Linear Algebra Data Mining Stream Process Machine Learning OLAP Tools Scribe Excel Flume Algorithms ETL Redis Graph DB SQL Pig MSSQL KeyValue DB Column DB ZooKeeper MySQL Hive Oracle HBase HDFS Protocolbuf MongoDB Entity Relation MapReduce NoSQL Cassandra XML Hadoop Avro Amazon JSON HTTP RDBMS C/C++ Python Batch Processing Java TCP/IP Apache Linux Distributed Computing 우승이의블로그 http://kimws.wordpress.com Cluster Computing Cloud Computing

빅데이터에서다루는문제들 대용량데이터, 정형 / 비정형데이터, 이벤트 / 스트리밍데이터 분산컴퓨팅, 클러스터컴퓨팅 클라우드컴퓨팅 오픈소스 데이터마이닝 / 머신러닝 레거시시스템연동 / 데이터수집 보안 / 개인정보보호이슈

Big Data Platform 환경비교 기존데이터플랫폼환경 빅데이터플랫폼환경 Single Machine Multiple Machine Multi-core (> 16 cores) Commodity H/W, N/W Scale-up Scale-out High Price H/W, S/W Low Cost SAN Storage Distributed File System MS Windows, AIX, HP-UX Linux Commercial Solutions Open Source IBM, Oracle, Microsoft Yahoo!,Facebook,Twitter RDBMS NoSQL TeraData, Exadata,Netizza Hadoop, Hive, Pig SAS, SPSS R, Mahout

NoSQL (Not Only SQL)? 관계형데이터모델을사용하지않고 SQL 을사용하지않는그이외의모든데이터베이스시스템또는데이터스토어 CAP Theorem Consistency Availability Partition Tolerance q q CA, CP, AP 의특성에따라상대적인확장성과성능에제약이발생 대부분오픈소스 요구사항에대한분명한이해 개발 / 운영역량반드시확인 출처 : http://blog.beany.co.kr/archives/275

NoSQL Ecosystem 각도메인또는요구사항에맞는 NoSQL 을선택하는것이매우중요 대부분의 NoSQL 이오픈소스, 도입시내부검증절차와내재화필요 출처 : http://www.slideshare.net/mattaslett/mysql-vs-nosql-and-newsql-survey-results-13073043

Big Data Lifecycle 데이터수집데이터처리데이터분석데이터제공 데이터연동 데이터클리닝 모델검증 보고서 ftp, sftp, rcp, rsync 데이터변환 데이터요약데이터기초통계데이터탐색 데이터마이닝 텍스트마이닝 데이터시각화서비스데이터 상품추천유사아이템

Legacy Data Platform DBMS 을기반으로하는데이터플로우, Scale-up 구조의아키텍처 고가의하이엔드싱글서버서버, 네트워크장비 SAN 스토리지상용데이터베이스, 마이닝솔루션매우고가 시스템확장 Scale up 비용은몇배로발생시스템아키텍쳐 & 데이터구조변경이불가피처리할수있는데이터처리에한계가발생 데이터수집데이터처리데이터분석데이터제공 FTP SFTP Rsync ETL Process (IBM DataStage) SQL, PL/SQL 데이터마이닝 (SAS) Data Warehouse (TeraData) RDBMS (Oracle, DB2, MSSQL ) OLAP Tools Service Server Local FS SAN Storage Local FS

Migration??? Legacy Data Platform Big Data Platform

Hybrid!!! Legacy Data Platform Big Data Platform

Big Data Platform 다양한데이터소스 / 데이터프로세싱프레임워크를수용할수있는워크플로우, 통합관리시스템필요 대용량데이터저장과대용량데이터분석시스템에는 Hadoop 및오픈소스기반의 NoSQL, R 을적극활용 최종분석결과제공을위한 OLTP 기반리포트시스템 / 서비스데이터들은기존의기술을적극활용 Hadoop 및오픈소스기반의시스템들은저가의범용서버및네트워크스위치를활용해서클러스터를구성 데이터수집데이터처리데이터분석데이터제공 FTP SFTP Rsync ETL Process Pig & Script Lanugage 데이터마이닝 Mahout, R Data Warehouse Hive, R OLAP Tools (R) Service Server Log Aggregator (Flume) MapReduce Framework Data Warehouse NoSQL (Mong odb) Real-time Stream & Event Processor NoSQL (Hbase, Cassandra) RDBMS (Oracle, MySQL) Local FS Distributed File System SAN Storage Local FS

빅데이터를위한역량 자신은어느분야의전문가인가? 어느방향으로역량을넓혀갈것인가? 도메인지식 Data Scientist 데이터시각화 Data Scientist 데이터마이닝 소프트웨어프로그래머 플랫폼기술 Hadoop /NoSQL 빅데이터 머신러닝 DevOps DevOps 운영체제분산컴퓨팅 소프트웨어프로그래밍

빅데이터를위한역할별요구지식 도메인전문가 추천로직기획, 광고플랫폼 Financial & Stock Market Health Care BioInfomatics Power Management Visualization Infograph IR & RecSys 데이터분석가소프트웨어개발자시스템엔지니어 통계 & 데이터탐색 데이터마이닝 & 기계학습 데이터분석 리포팅 데이터시각화 데이터수집 마이닝알고리즘 & ML 구현 데이터처리엔진구현 데이터저장소최적화 분산알고리즘구현 운영체계최적화 컴퓨팅 H/W, N/W 최적화 OLAP Tools SAS, SPSS,R,Weka SQL RDBMS ETL Script Language Pig, Hive MapReduce Log Aggregator NoSQL Hadoop Linux X86 Network Data Scientist DevOps

Multi-Player.vs. Team 각분야역량을갖춘인력으로팀을갖추고개인역량을확장 중장기적으로조직내에빅데이터기술의내재화가필수, 아웃소싱한계 Data Team Data Scientst Domai n Expert 서비스기획자 DBA 통계학자 Data Miner 알고리즘개발 DevOps Machine Learning S/W 아키텍트 System Engineer S/W 개발자

빅데이터솔루션과하둡 출처 : http://kimws.wordpress.com

Beyond the Yottabyte "the data volumes are increasing with a projection that sensor data volume could potentially increase to the level of Yottabytes by 2015." Googol = 10 100

감사합니다.