문서의 제목 나눔고딕B, 54pt

Similar documents
PowerPoint 프레젠테이션

들어가는글 2012년 IT 분야에서최고의관심사는아마도빅데이터일것이다. 관계형데이터진영을대표하는오라클은 2011년 10월개최된 오라클오픈월드 2011 에서오라클빅데이터어플라이언스 (Oracle Big Data Appliance, 이하 BDA) 를출시한다고발표하였다. 이와

Microsoft Word - 엄정호

DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx

PowerPoint 프레젠테이션

PowerPoint Presentation

Slide 1

빅데이터분산컴퓨팅-5-수정

따끈따끈한 한국 Azure 데이터센터 서비스를 활용한 탁월한 데이터 분석 방안 (To be named)

위세아이텍_iOLAP_

Basic Template

통신회사에서가장중요한데이터자원이라고하면뭐니뭐니해도고객들의통화기록이라할수있다. 이를 Call Detail Record(CDR) 라고하며, 고객들이유선전화나휴대폰을사용하여통화할때마다통화위치, 통화대상, 통화시간등이로그데이터로기록된다. 매통화마다기록되므로 1일발생량은수억건에

Cover Story 빅데이터플랫폼 Big Data 시대의엔터프라이즈인프라스트럭처 ORACLE KOREA MAGAZINE Spring 개요빅데이터를처리하는기술의가장중심기술은아파치하둡기술일것이다. 하둡기술은데이터를취득하고이를구조화시키고분석을하는일련의과정에

[Brochure] KOR_TunA

슬라이드 1

PowerPoint 프레젠테이션

슬라이드 1

용어사전 PDF

PowerPoint 프레젠테이션

빅데이터처리의핵심인 Hadoop 을오라클은어떻게지원하나요? Oracle Big Data Appliance Solution 01 빅데이터처리를위한전문솔루션이 Oracle Big Data Appliance 군요. Oracle Big Data Appliance 와함께라면더이

[ 2014 Capstone Design2 ] 지도교수 Twitter 분석시스템 < 졸업작품계획서 > 컴퓨터공학부 지도교수 민덕기교수님 T 박미관 김의명 제출일자

Who am I?

< D FC1B6BFB5C5B92DBCF6C1A42E687770>

분산처리 프레임워크를 활용한대용량 영상 고속분석 시스템

PowerPoint Template

진정한토종벤처를꿈꾸는기업 저희시큐레이어는최근사회적화두로부각되고있는빅데이터를기반으로한통합로그수집 / 분석및통합보안관제분야에순수국산기술적자립으로외산과당당히겨루는소프트웨어를만들자는이념의전문소프트웨어기업입니다. 이러한이념을달성하기위한치열한열정과노력으로주요시장에서긍정적으로 평가

백봉현, 하일규, 안병철 Bong-Hyun Back, Ilkyu Ha, ByoungChul Ahn 1. 서론 최근들어소셜네트워크활성화로 에서발생하는대량의데이터 로부터정보를추출하여이를정치 경제 개인서비 스 연애등다양한분야에활용하고자하는노력이 계속되고있다 상의데이터를빠르게

제 31회 전국 고교생 문예백일장 산문 부문 심사평.hwp

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

플랫폼을말하다 2

< B1E8C7F6C1D65FC7CFB5D3B1E2B9DDBAF2B5A5C0CCC5CDB1E2B9FDB8A6C0CCBFEBC7D128BCF6C1A4292E687770>

PowerPoint 프레젠테이션

The Pocket Guide to TCP/IP Sockets: C Version

SAS FORUM KOREA 2018_Cloudera_발표

第 1 節 組 織 11 第 1 章 檢 察 의 組 織 人 事 制 度 등 第 1 項 大 檢 察 廳 第 1 節 組 대검찰청은 대법원에 대응하여 수도인 서울에 위치 한다(검찰청법 제2조,제3조,대검찰청의 위치와 각급 검찰청의명칭및위치에관한규정 제2조). 대검찰청에 검찰총장,대

초보자를 위한 분산 캐시 활용 전략

Microsoft Word - th1_Big Data 시대의 기술_ _조성우

슬라이드 1

Global Bigdata 사용 현황 및 향후 활용 전망 빅데이터 미도입 이유 필요성 못느낌, 분석 가치 판단 불가 향후 투자를 집중할 분야는 보안 모니터링 분야 와 자동화 시스템 분야 빅데이터의 핵심 가치 - 트랜드 예측 과 제품 개선 도움 빅데이터 운영 애로 사항

Cloud Friendly System Architecture

MyCQ Server 2009

DBPIA-NURIMEDIA

슬라이드 1

출원국 권 리 구 분 상 태 권리번호 KR 특허 등록

PowerPoint Presentation

Web Scraper in 30 Minutes 강철

Process (Sales&Finish)

PowerPoint 프레젠테이션

Spring Boot/JDBC JdbcTemplate/CRUD 예제

오픈데크넷서밋_Spark Overview _SK주식회사 이상훈

DBMS & SQL Server Installation Database Laboratory

2 노드

FOCUS Ⅰ. 서론 지금은바야흐로빅데이터 (BigData) 시대라해도과언이아니다 년전세계디지털정보생산량은약 1.8ZB( 제타바이트 ) 라고한다. 1.8ZB 는 2000 억개이상의고화질 (HD) 영화를 4700 만년동안시청할수있는정도의엄청난정보량을뜻한다. 이

<4D F736F F D204954B1E2C8B9BDC3B8AEC1EE2DB1E8B5BFC7D1>

PlatformDay2009-Hadoop_OSBI-YoungwooKim

PowerPoint 프레젠테이션

슬라이드 1

About me 현 ) 그루터 ( 책임개발자 전 ) 큐릭스, NHN, 엔씨소프트 저서 ) 시작하세요! 하둡프로그래밍 : 기초부터실무

[Brochure] KOR_LENA WAS_

1장. 유닉스 개요 및 기본 사용법

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

빅데이터 라이프사이클관리 심탁길

PowerPoint Template

놀이동산미아찾기시스템

Microsoft PowerPoint 자동설치시스템검증-V05-Baul.pptx

RUCK2015_Gruter_public

<4D F736F F D20BBE7BABB202D20C3D6BDC54954B5BFC7E2>

WINDOW FUNCTION 의이해와활용방법 엑셈컨설팅본부 / DB 컨설팅팀정동기 개요 Window Function 이란행과행간의관계를쉽게정의할수있도록만든함수이다. 윈도우함수를활용하면복잡한 SQL 들을하나의 SQL 문장으로변경할수있으며반복적으로 ACCESS 하는비효율역

Observational Determinism for Concurrent Program Security

<30302DB8F1C2F7BFDC2E687770>

11장 포인터

Hallym Communication Policy Research Center 15 빅데이터기술은대용량의데이터를다룰때, 여러과정을거치게되는데, 데이터수집및데이터전처리, 저장, 분석, 활용 ( 시각화 ) 까지의과정을 거치게되며각과정별로핵심기술이존재한다. 빅데이터기술은대용

Agenda NoSQL 개요 NoSQL 특징 NoSQL 솔루션 HBase Architecture HBase Data Model HBase Index/Data File HBase Failover HBase Usecase

슬라이드 1

PowerPoint 프레젠테이션

Microsoft PowerPoint - chap06-2pointer.ppt

Altibase Starting User's Manual

슬라이드 1

Microsoft PowerPoint - ch09 - 연결형리스트, Stack, Queue와 응용 pm0100

특허청구의 범위 청구항 1 게임 서버 또는 미들웨어에 의해, 사용자 단말기로부터, GPS 정보, IP 정보, 중계기 정보 중 적어도 하나를 이 용한 위치 정보와, 상기 사용자 단말기에 설정된 언어 종류를 포함하는 사용자 정보를 수신하는 단계; 상기 게임 서버 또는 미들

PowerPoint 프레젠테이션

졸업작품중간보고서 - 구글 MapReduce 를이용한클라우드컴퓨팅 조중연 서종덕 지도교수님진현욱교수님 ( 인 )

학습목차 2.1 다차원배열이란 차원배열의주소와값의참조

워밍업 누구를 위한 책인가 방대한 빅데이터 관련 업무에 필요한 역량을 갖추고자 하나 어떤 기술이 있고 이 중 어떤 것을 익 혀야 할지 갈피를 잡지 못하는 학생들과, 그들을 지도하는 교육 종사자를 위한 책이다. 새로 등장 하는 수많은 빅데이터 기술에 대한 탐색과 이해의

PowerPoint 프레젠테이션

항목

2015

클라우드 빅데이타 개발자 과정

레드햇과 오픈스택 Feb, 2014 Kim Yong Ki Solution Architect Red Hat Korea RED HAT ENTERPRISE LINUX OPENSTACK PLATFORM 2014

<4D F736F F D204954B1E2C8B9BDC3B8AEC1EE2DB1E8C1A4C1D8>

슬라이드 1

윈도우시스템프로그래밍


Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

<332E20BAF2B5A5C0CCC5CDB8A620C0CCBFEBC7D B0F8B0DDBDC3B5B5BFA120B4EBC7D120C8BFB0FAC0FBC0CE20B4EBC0C020B9E6BEC82E687770>

지능형 IoT 를위한빅데이터기술현황 이러한추세는 2016년가트너의 신기술하이퍼사이클 보고서에도그대로드러나있다. 하이퍼사이클상의머신러닝은디지털비즈니스혁신을위한기술로서의정점에있으며, IoT 플랫폼기술이그뒤를따르고있다. 빅데이터기반의처리기술의바탕위에서가장대두되는어플리케이션이

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

PowerPoint 프레젠테이션

3 장. 데이터와경영정보시스템

PowerPoint Presentation

Transcription:

실시간데이터수집및처리 Network Computing System Architecture Lab Dongguk University MooSeon Choi 2013.11.07

목차 1. 연구목표 2. 2차발표리뷰 3. 실시간데이터수집및처리 4. 향후연구계획

3 / 14 연구목표 ( 1 세부 데이터페더레이션을위한기술 ) 모바일기반 SNS( 비정형 ) 데이터와기존 RDBMS( 정형 ) 데이터의 페더레이션을위한웹크롤러, 하둡처리시스템, 페더레이션모듈플랫폼설계 클라우드플랫폼핵심기술연구하둡에코시스템구조연구데이터처리및관리기술페더레이션기술

4 / 14 2 차발표리뷰 - 데이터통합모듈 Crawler Module Web Crawler Hbase Flume HMaster HDFS Sqoop MySQL

5 / 14 2 차발표리뷰 질의처리쿼리문 유형 질의 SELECT COUNT(*) 함수활용 1 FROM airline_delay WHERE delayyear = 2000; SELECT COUNT(1) 함수활용 2 FROM airline_delay WHERE delayyear = 2001 OR delayyear = 2002... OR delayyear = 2007; SELECT Year, Month, AVG(ArrDelay) AS avg_arrive_delay_time, AVG(DepDelay) AS avg_departure_delay_time FROM airline_delay 함수활용 3 WHERE delayyear = 2002 AND ArrDelay > 50 GROUP BY Year, Month; 초 (Sec) 300 200 100 질의처리시간 하이브 임팔라 0 함수활용 1 함수활용 2 함수활용 3

6 / 14 실시간데이터수집및처리 정보화시대 SNS 데이터사용급증 데이터용량급증 비정형대용량데이터저장 & 분석처리기술필요 실시간성중요 기졲의하둡시스템실시간성부족 비정형대용량데이터실시간분석기술모델필요 실시간성만족 모바일클라우드에적합 빠른응답속도

7 / 14 실시간데이터수집및처리 Twitter Storm 데이터수집단계 스톰은트위터에서사용하는실시간분산시스템이다. 스톰의아키텍처는하둡 (Hadoop) 과매우유사하지만하둡의 MR 작업은정해짂데이터세트를처리한후완료되지만스톰에서는실시간으로메시지를처리하는토폴로지작업을수행하기때문에실시간기술에유용하다. Storm 에도하둡의 JobTracker 역할을하는 Nimbus 와하둡의 TaskTracker 역할을하는 Supervisor 이있다. Nimbus 는수행할코드를배포하고 Supervisor 노드에작업을할당하며장애조치 (failover) 등을담당한다. Supervisor Node 는할당된토폴로지의일부를처리할작업프로세스 (worker process) 의구동을담당한다. Nimbus 와 Supervisor 는주키퍼 (Zookeeper) 를이용해서장애상황에대응한다.

8 / 14 실시간데이터수집및처리 Twitter Storm 데이터수집단계 스톰은트위터에서사용하는실시간분산시스템이다. 스톰의아키텍처는하둡 (Hadoop) 과매우유사하지만하둡의 MR 작업은정해짂데이터세트를처리한후완료되지만스톰에서는실시간으로메시지를처리하는토폴로지작업을수행하기때문에실시간기술에유용하다. 스톰에는데이터를받아서처리하는데필요한 streams, spouts, bolts 의세가지기본개념이있다. spouts 는데이터수집단계에서스톰클러스터외부에서데이터를추출하고데이터를 bolts 로젂송한다. streams 는분산환경에서생성되고처리되는튜플 (Tuple) 의끊임없는연속이며 spouts 와 bolts 의사이의데이터를젂송가능하게만들어준다. bolts 는스톰의모든프로세싱작업을담당하며, spouts 에서젂달된튜플을가지고비즈니스로직을수행하고결과를다른 bolts 에젂달한다.

9 / 14 실시간데이터수집및처리 Complex Event Processing(CEP) 기반오픈소스 Esper 데이터분석단계 CEP - 대용량데이터를실시간으로분석하는툴 Esper CEP 기반오픈소스로대용량데이터를넘나들며지속적으로처리가능한툴인데의미있는이벤트를찾아내고필터링하는데효과적이다. 하지만에스퍼는구조화된데이터만분석처리가능하기때문에트위터스톰을이용해비정형데이터인트위터의스트림을수집부분을설계.

10 / 14 실시간데이터수집및처리 Storm & Esper 통합모델 모델의기대효과 이모델은비정형데이터를실시간으로분석하는데효과적이다. 스톰에서실시간으로정보를받아오면 CEP 엔짂인에스퍼에서도실시간으로복합이벤트처리를짂행한다. 데이터수집면에서실시간성과데이터분석면에서의실시간성모두성립하기때문에, 기졲에졲재하던하둡시스템과는차이가난다. 오픈소스에스퍼는비정형데이터를다루기어렵기때문에트위터에서개발한스톰과 CEP 시스템기반오픈소스인에스퍼를연동해서설계한다. 스톰에서비정형데이터인트위터의정보를실시간으로추출해내서에스퍼에게젂달하면에스퍼에서는이데이터의의미있는이벤트를찾아쿼리문을이용해실행 하둡에서실시간분석을이용하려면비정형빅데이터수집도구인플럼 (Flume) 을사용해야하는데플럼또한실시간으로비정형빅데이터를수집가능하다. 하지만플럼에서받아온비정형빅데이터를배치분석인하둡 MR 작업이처리하기때문에이는수집면에서실시간성이유효하지만분석면에서는배치성을가지고분석하기때문에준실시간의특성을가짂다. 다양한종류의데이터가주목받는시기인만큼데이터를실시간으로다룰수있는도구가필요하다. 또한, 실시간으로쿼리문을실행하기때문에변화에빠르게대응하여여러장르, 서비스에응용이가능하다.

11 / 14 실시간데이터수집및처리 인메모리 DB 를이용한처리속도향상모델 하둡은대용량빅데이터처리가가능한오픈소스프레임워크이다. 계속해서생겨나는막대한데이터를실시간으로처리하기위해서하둡의성능향상은필수적이다. 데이터베이스시스템은메모리에데이터를저장하기때문에데이터로의접근속도가빠르다. 맵리듀스과정에서이시스템을통해데이터를가져온다면하둡의속도향상을기대할수있다. 효율적으로데이터를저장하고처리하는기술인하둡을인메모리데이터베이스시스템을이용하여처리속도를높이는모델 Redis(Remote Dictionary Server) 는 Salvatore Sanfilippo 와 Pieter Noordhuis 에의해만들어짂오픈소스소프트웨어로서, 메모리기반의 <Key,Value> 저장소이다. 메모리기반이기때문에휘발성이지만, 주기적으로메모리상의데이터를하드에저장해두기때문에데이터를보졲할수있다. Redis 서버를실행한뒤데이터를저장하면메모리상에저장되었다가디스크에저장이된다. 그후서버를재가동하면디스크에있던데이터는다시메모리에올라간다. 따라서 Redis 를사용하면데이터의손실위험감소와동시에접근속도향상을기대할수있다.

12 / 14 실시간데이터수집및처리 Memory MapReduce Input Data Redis Redis Redis Redis Map Map Map HDD HDFS map() 의성능을향상시키도록인메모리데이터베이스시스템인 Redis 를이용한하둡프레임워크의설계. Redis 는 HDFS 에있는데이터를메모리상에올리는역할을한다. 즉데이터는 HDFS 에저장되어있다가 Redis 를통해메모리에저장되는것이다. 그후 map() 이진행되는데, 이과정에서디스크에접근하여데이터를가져올필요없이메모리에있는데이터를사용한다. MR 처리과정은그림 8 과같다. 먼저입력데이터를가지고 map() 을시작한다. map() 은하둡클러스터의데이터노드에서동작하므로, Redis 를사용하여데이터노드의메모리상에데이터를올린뒤 map() 을진행한다. 데이터는 map() 단계가완료된후메모리에다시저장되었다가 reduce() 로전달된다. 이렇게전달된데이터는 reduce() 에서병합되어메모리에저장되었다가 HDFS 에저장된다. 기대효과 Redis 를비롯한인메모리데이터베이스시스템역시빠른처리속도로주목을받고있다. 특히오픈소스로이루어져있기때문에이들을결합하면저렴한비용으로더빠르게데이터를처리할수있다. 실시간으로폭증하는데이터를저장하고처리하기위해서하둡의성능은더향상되어야한다. 본논문의제안모델과같이 Redis 와하둡을결합하면 map() 단계에서의데이터처리시간을단축시킬수있으므로하둡의성능개선이가능하다.

13 / 14 향후연구계획 ( 1 차년도 ) 웹크롤러의세부구성도설계 Twitter Storm 과 CEP 기반 Esper 의통합세부구성도설계 Impala 를이용한프로그램구성도설계 인메모리 DB 를이용한하둡성능향상모듈설계

감사합니다 Network Computing System Architecture Lab Dongguk University MooSeon Choi 2013.11.07