Hallym Communication Policy Research Center 15 빅데이터기술은대용량의데이터를다룰때, 여러과정을거치게되는데, 데이터수집및데이터전처리, 저장, 분석, 활용 ( 시각화 ) 까지의과정을 거치게되며각과정별로핵심기술이존재한다. 빅데이터기술은대용

Similar documents
Microsoft Word - th1_Big Data 시대의 기술_ _조성우

DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

Semantic Search and Data Interoperability for GeoWeb

빅데이터_DAY key

Slide 1

1장.indd

PowerPoint 프레젠테이션


Global Bigdata 사용 현황 및 향후 활용 전망 빅데이터 미도입 이유 필요성 못느낌, 분석 가치 판단 불가 향후 투자를 집중할 분야는 보안 모니터링 분야 와 자동화 시스템 분야 빅데이터의 핵심 가치 - 트랜드 예측 과 제품 개선 도움 빅데이터 운영 애로 사항

10호_빅데이터 활용단계에 따른 요소기술별 추진동향과 시사점.hwp

[Brochure] KOR_TunA

기반으로 사람과 유사한 결론을 유추해낼 수 있는 것이다[1]. 한편, 소셜 네트워크 서비스(SNS)와 스마트폰, 태블릿 PC 등 모바일 기기의 빠른 보 급은 사람 사이의 소통 방식과 정보 전달 방식을 변화시켰고 이는 다양한 데이터를 수 집, 저장, 처리하는 빅데이터 기

Basic Template

문서의 제목 나눔고딕B, 54pt

1.PDF

따끈따끈한 한국 Azure 데이터센터 서비스를 활용한 탁월한 데이터 분석 방안 (To be named)

IT & Future Strategy 는 21 세기한국사회의주요패러다임변화를분석하고이를토대로미래정보사회의주요이슈를전망, IT 를통한해결방안을모색하기위해 NIA 에서기획 발간하는보고서입니다. NIA 의승인없이본보고서의무단전재나복제를금하며, 내용에대한문의나제안은아래연락처로

Cloud Friendly System Architecture

빅데이터 라이프사이클관리 심탁길

Chapter 5 비즈니스인텔리젼스의기초 : 데이터베이스와정보관리

<4D F736F F F696E74202D20B5A5C0CCC5CDBAA3C0CCBDBA5F3130C1D6C2F75F32C2F7BDC32E >

PowerPoint Presentation

슬라이드 1

빅데이터처리의핵심인 Hadoop 을오라클은어떻게지원하나요? Oracle Big Data Appliance Solution 01 빅데이터처리를위한전문솔루션이 Oracle Big Data Appliance 군요. Oracle Big Data Appliance 와함께라면더이

consulting

FOCUS Ⅰ. 서론 지금은바야흐로빅데이터 (BigData) 시대라해도과언이아니다 년전세계디지털정보생산량은약 1.8ZB( 제타바이트 ) 라고한다. 1.8ZB 는 2000 억개이상의고화질 (HD) 영화를 4700 만년동안시청할수있는정도의엄청난정보량을뜻한다. 이

ePapyrus PDF Document

슬라이드 1

gcp

<BACFC7D1B3F3BEF7B5BFC7E22D3133B1C733C8A BFEB2E687770>


RUCK2015_Gruter_public

분석기법의기본개념부터활용까지사례중심의 A to Z 학습 데이터분석기본 교육기간 : 3 일 (24 시간 )/ 비합숙 교육비 : 회원 62 만원 / 비회원 69 만원 데이터분석핵심이론학습및현업에적용 현장에서발생하는변수를이해하고상황에따른최적화방안도출 품질향상을위한부적합원인도

DBMS & SQL Server Installation Database Laboratory

第 1 節 組 織 11 第 1 章 檢 察 의 組 織 人 事 制 度 등 第 1 項 大 檢 察 廳 第 1 節 組 대검찰청은 대법원에 대응하여 수도인 서울에 위치 한다(검찰청법 제2조,제3조,대검찰청의 위치와 각급 검찰청의명칭및위치에관한규정 제2조). 대검찰청에 검찰총장,대

Cover Story 빅데이터플랫폼 Big Data 시대의엔터프라이즈인프라스트럭처 ORACLE KOREA MAGAZINE Spring 개요빅데이터를처리하는기술의가장중심기술은아파치하둡기술일것이다. 하둡기술은데이터를취득하고이를구조화시키고분석을하는일련의과정에

슬라이드 1

통신회사에서가장중요한데이터자원이라고하면뭐니뭐니해도고객들의통화기록이라할수있다. 이를 Call Detail Record(CDR) 라고하며, 고객들이유선전화나휴대폰을사용하여통화할때마다통화위치, 통화대상, 통화시간등이로그데이터로기록된다. 매통화마다기록되므로 1일발생량은수억건에

1~10

위세아이텍_iOLAP_

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

들어가는글 2012년 IT 분야에서최고의관심사는아마도빅데이터일것이다. 관계형데이터진영을대표하는오라클은 2011년 10월개최된 오라클오픈월드 2011 에서오라클빅데이터어플라이언스 (Oracle Big Data Appliance, 이하 BDA) 를출시한다고발표하였다. 이와

s

출원국 권 리 구 분 상 태 권리번호 KR 특허 등록

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

오픈데크넷서밋_Spark Overview _SK주식회사 이상훈

Slide 1

Microsoft PowerPoint - 11주차.pptx

PowerPoint Template

Visual Studio online Limited preview 간략하게살펴보기

Microsoft PowerPoint - 3주차.pptx

PowerPoint 프레젠테이션

데이터자격시험소개 한국데이터베이스진흥원은산업수요에부응하는인재양성을위해기업의데이터에관한모든구조를체계화하여설계하는능력을검정하는데이터아키텍처 (Data Architecture) 자격시험과데이터베이스개발의필수언어인 SQL(Structured Query Language) 활용능

<4D F736F F D204954B1E2C8B9BDC3B8AEC1EE2DC1A4BAB4B1C7>

ISO/IEC 의온톨로지와메타데이터 표준화동향 한국과학기술정보연구원 김장원

초보자를 위한 분산 캐시 활용 전략

[ 2014 Capstone Design2 ] 지도교수 Twitter 분석시스템 < 졸업작품계획서 > 컴퓨터공학부 지도교수 민덕기교수님 T 박미관 김의명 제출일자

Samsung SDS Enterprise Cloud Networking CDN Load Balancer WAN

슬라이드 제목 없음

백봉현, 하일규, 안병철 Bong-Hyun Back, Ilkyu Ha, ByoungChul Ahn 1. 서론 최근들어소셜네트워크활성화로 에서발생하는대량의데이터 로부터정보를추출하여이를정치 경제 개인서비 스 연애등다양한분야에활용하고자하는노력이 계속되고있다 상의데이터를빠르게

슬라이드 1

슬라이드 1

Microsoft PowerPoint - CNVZNGWAIYSE.pptx

PowerPoint 프레젠테이션

aws

제목을 입력하십시오

Microsoft 을 열면 깔끔한 사용자 중심의 메뉴 및 레이아웃이 제일 먼저 눈에 띕니다. 또한 은 스마트폰, 테블릿 및 클라우드는 물론 가 설치되어 있지 않은 PC 에서도 사용할 수 있습니다. 따라서 장소와 디바이스에 관계 없이 언제, 어디서나 문서를 확인하고 편집

핵 1 학년 2 학년 3 학년합계 문학과예술 역사와철학 사회와이념 선택 학점계 학년 2 학년 3 학년합계비고 14 (15) 13 (14) 27 (29) 2

Bigdata가 제공하는 구체적인 혜택과 변화 양상 기업의 데이터 기반의 의사결정 시스템 구축 의지 확대 양상 빅데이터를 활용한 경영 및 마케팅 지속적인 증가세 뚜렷 빅데이터를 도입한 기업은 사전 기대를 뛰어넘는 효과를 경험 본 조사 내용은 美 BARC- Researc

<4D F736F F D204954B1E2C8B9BDC3B8AEC1EE2DC3D6B1D4C7E5>

1장. 유닉스 개요 및 기본 사용법

PowerPoint Template

자동화된 소프트웨어 정의 데이터센터

3 장. 데이터와경영정보시스템

Microsoft PowerPoint - S4_통계분석시스템.ppt

뒷면 측면 빅데이터 활용 식의약품 등 사고 위해 예측기반 구축 정보화전략계획 ( I S P )

슬라이드 1

슬라이드 1

슬라이드 1

PowerPoint Presentation

<4D F736F F D204954B1E2C8B9BDC3B8AEC1EE2DB1E8C1A4C1D8>

슬라이드 1

사이람주요분석알고리즘소개 1 / 10 사이람주요분석알고리즘소개 사이람은약 200여개의내부알고리즘을보유하고이를구현하여제품화및프로젝트에활용하고있습니다. 네트워크 분석알고리즘 146 개 통계기반 분석알고리즘 26 개 기계학습 알고리즘 21 개 Domain Specific 알

Windows 8에서 BioStar 1 설치하기

Chap 6: Graphs

<4D F736F F D204954B1E2C8B9BDC3B8AEC1EE2DB0ADC0AFB0E6>

SW 기초교양교육이수가이드라인 경희대학교 SW 중심대학사업단 4 차산업혁명에대비하기위해대한민국정부는초 / 중 / 고교에 SW 교육을의무화하고, 보다더빠른준비를위해대학 생전체에 SW 기초교양교육을권장하고있습니다. 특히, 과학기술정보통신부는 'SW 중심대학 ' 사업을통해

PowerPoint 프레젠테이션


13Åë°è¹é¼Ł

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

워밍업 누구를 위한 책인가 방대한 빅데이터 관련 업무에 필요한 역량을 갖추고자 하나 어떤 기술이 있고 이 중 어떤 것을 익 혀야 할지 갈피를 잡지 못하는 학생들과, 그들을 지도하는 교육 종사자를 위한 책이다. 새로 등장 하는 수많은 빅데이터 기술에 대한 탐색과 이해의

Beyond Relational SQL Server, Windows Server 에디션비교 씨앤토트 SW 기술팀장세원

JDBC 소개및설치 Database Laboratory

슬라이드 1

04 Çмú_±â¼ú±â»ç

Network Security - Wired Sniffing 실습 ICNS Lab. Kyung Hee University

PowerPoint 프레젠테이션

Transcription:

14 한림 ICT 정책저널 H a l l y m I C T P o l i c y J o u r n a l 빅데이터기술동향 전략적클라우드림 김광호이재준이사교수 빅데이터기술이란? 빅데이터기술은기존의데이터분석기법에비해 100배이상많은데이터를다루는기술이다. 빅데이터기술이다루는데이터의성격은다양하다. 예를들어시스템운영을통해산출되는로그데이터와구매기록데이터등의정형데이터뿐만아니라, 소셜미디어와위치정보, 그리고 IoT를통해산출되는센서정보등의비정형데이터까지빅데이터기술이다루는영역은다양하다. < 표 1> 기존의데이터관리방식과빅데이터관리방식의차이점 구분기존의데이터관리방식빅데이터관리방식 페타바이트수준데이터트래픽 테라바이트수준 장기간의정보수집및분석 방대한데이터처리량 데이터유형 정형데이터중심 비정형데이터의비중이높음 처리의복잡성증대 프로세스및기술 단순한프로세스및기술 정형화된처리 분석과정 원인 결과규명중심 다양한데이터소스및복잡한로직처리 데이터처리복잡도가높아분산처리기술필요 상관관계규명중심 Hadoop, R, No SQL 등개방형소프트웨어활용 [ 자료출처 ] 박세환 (KISTI, ReSEAT 프로그램전문위원 ), 빅데이터기술및시장동향, 주간기술동향, 2014.7.2, pp. 16

Hallym Communication Policy Research Center 15 빅데이터기술은대용량의데이터를다룰때, 여러과정을거치게되는데, 데이터수집및데이터전처리, 저장, 분석, 활용 ( 시각화 ) 까지의과정을 거치게되며각과정별로핵심기술이존재한다. 빅데이터기술은대용량의데이터를다룰때, 여러과정을거치게되는데, 데이터수집및데이터전처리, 저장, 분석, 활용 ( 시각화 ) 까지의과정을거치게되며각과정별로핵심기술이존재한다. < 그림 1> 참조. 빅데이터기술의체계적인분류 앞에서언급한것과같이빅데이터활용을위한요소기술분야는첫째, 빅데이터수집기술이라할수있다. 둘째로빅데이터저장 관리기술이고, 다음으로빅데이터전처리기술이라할수있다. 넷째로빅데이터분석기술을언급할수있으며, 다음으로지식시각화기술, 마지막으로빅데이터공유기술을빅데이터의요소기술이라고할수있다. < 그림 1> 빅데이터의지식도출 Framework

16 한림 ICT 정책저널 < 표 2> 빅데이터요소기술분류 요소기술설명헤딩기술 < 표 3> 빅데이터수집관련기술 요소기술설명 빅데이터수집 조직내부와외부의분산된여러데이터소스로부터필요로하는데이터를검색하여수동또는자동으로수집하는과정과관련된기술로단순데이터확보가아닌검색 / 수집 / 변환을통해정제된데이터를확보하는기술 ETL 크롤링엔진로그수집기센싱 RSS 및 Open API 로그수집기 크롤링 조직내부에존재하는웹서버의로그수집, 웹로드, 트랜잭션로그, 클릭로그, DB 로그데이터등을수집 주로웹로봇을이용하여조직외부에존재하는소셜데이터및인터넷에공개되어있는자료수집 빅데이터저장 작은데이터라도모두저장하여실시간으로저렴하게데이터를처리하고, 처리된데이터를더빠르고쉽게분석하도록하여이를비즈니스의사결정에바로이용하는기술 병렬 DBMS 하둡 (Haddop) NoSQL 센싱 RSS Reader 각종센서를통해데이터를수집 데이터의생산, 공유, 참여환경인웹 2.0 을구현하는기술 빅데이터처리 엄청난양의데이터의저장 / 수집 / 관리 / 유통 / 분석을처리하는일련의기술 실시간처리분산병렬처리인 - 메모리인 - 데이터베이스처리 스쿱 (Sqoop) Haddop 과관계형데이터베이스간의데이터전송을지원하는기술로 MySQL 같은데이터베이스로부터하둡분산파일시스템으로데이터를전송하는데사용 빅데이터분석 데이터를효율적으로정확하게분석하여비즈니스등의영역에적용하기위한기술로이미여러영역에서활용해온분석기술 통계분석데이터마이닝텍스트마이닝예측분석최적화평판분석소셜네트워크분석 플럼 (Flume) 척와 (Chukwa) 분산환경에서대량의로그데이터를효과적으로수집해다른곳으로전송하는서비스로실시간로그분석이가능하도록함 분산서버로부터로그데이터를수집하여하둡클러스터의로그나서버의상태정보를관리해하둡파일시스템에저장하며실시간분석이가능하도록함 빅데이터시각화 자료를시각적으로묘사하는학문으로빅데이터는기존의단순선형적구조의방식으로표현하기힘들기때문에빅데이터시각화기술이필수적임 편집기술정보시각화기술시각화도구 스플렁크 (Splunk) 업무현장이나클라우드상에존재하는페타바이트급의기록데이터와실시간기계데이터를모니터링하고분석함 [ 자료출처 ] 한국정보화진흥원, 빅데이터기술분류및현황, 빅데이터 전략센터, 2013. 12, pp. 07 스크라이브 (Scribe) 페이스북이개발해공개한로그수집기술로대량의서버에서실시간으로오는로그데이터를집약해하둡분산시스템에로그를저장 빅데이터수집기술 카프카 (Kafka) Linkedin 에서최초로만들어졌으며, 로그데이터를수집할뿐만아니라메시징시스템을통해전송데이터를압축하고메시지를일괄적으로전송 빅데이터수집기술은주로 FTP 를사용하여로그데이터 서버혹은일반서버로부터로그정보와기타데이터처리 빅데이터저장기술 에필요한데이터를가져오게된다. 그리고빅데이터시스 템에서의데이터수집은짧은시간에대용량의데이터수 집이일어난다. 빅데이터기술은작은데이터라도모두저장하여실시간 으로저렴하게데이터를처리하고, 처리된데이터를더빠 르고쉽게분석하도록하여의사결정에적용되도록함에

Hallym Communication Policy Research Center 17 있다. 이때작은데이터라도저장하는기술이나오게되는데, 구글이나애플, 야후등에의해요소기술로서상당한완성도에도달했다. 최근오픈소스로만들어진 Hadoop 의 HDFS/Hbase, Cassandra, MongoDB 등이대표적이다. 한국은 ETRI의 GloryFS등과같은분산파일시스템이존재한다. 병렬 DBMS와 NoSQL은모두대량의데이터를저장하기위해수평확장접근방식을취하고있다는점에서 Hadoop과유사하다. 이외에도 SAN(Storage Area Network) 기술과 NAS(Network Attached Storage) 와같은네트워크를활용한저장기술이존재하며, GFS(Google File System) 과 HDFS(Hadoop Distributed File System), GlusterFS 등의분산파일시스템이모두대량의데이터를저장하기위해활용하는기술이라하겠다. 빅데이터처리기술 처리기술이다. 대규모데이터처리를위해확장성, 데이터생성및처리속도를해결하기위한처리시간단축및실시간처리지원, 비정형데이터처리지원기술등이필요하다. 대표적으로 Haddop은분산파일시스템인 HDFS와 MapReduce로구현된빅데이터처리기술이다. < 그림 2> 참조. 빅데이터분석기술 빅데이터분석은대량의데이터로부터숨겨진패턴과알려지지않은정보간의관계를찾아가는과정이다. 이미비즈니스영역과인공지능영역에서수없이많은분석방법들이도출되어왔다. 데이터마이닝기술및 Business Intelligence, 예측분석기법들이빅데이터분석을위해서활용되고있다. 빅데이터에서유용한정보및숨어있는지식을찾아내기 위한데이터가공및분석과정을지원하는것이빅데이터 < 그림 2> Hadoop 의분산파일시스템 (HDFS) 처리구조

18 한림 ICT 정책저널 데이터마이닝 < 표 4> 빅데이터분석관련기술 분석기법설명 OLAP 군집분석 DSS 의대표적사례로사용자가동일한데이터를여러기준을이용하는다양한방식으로바라보면서다차원데이터분석지원 데이터안에존재하는알지못하는특성들이있을때, 데이터점들이군집을이루면서특성이나타나는상황을분석하고, 유사성을기초로하여그룹화하여그룹간의분리정도를기준으로분류하는방법 데이터마이닝기술과텍스트마이닝기술이외에도, 시계열분석기법을활용하는예측분석방법과, 여러가지제시된대안중에최적의대안을찾도록지원하는최적화기법 (heuristic analysis) 등이있으며, 소셜네트워크연결구조및연결강도를분석하여영향력을판단하는소셜네트워크분석등이활용되고있다. 특히소셜네트워크분석은수학의그래프이론에뿌리를두고있다. 연결분석 사례기반추론 연관성분석 항목들간의관련성을분석하는형태의도구 귀납법및유추법과유사한개념으로과거유사한문제의해결과정에기초하여새로운문제를해결하는데과거사례를활용하는방법 특정의아이템집합에서발생한연관성의특징을다른특정아이템에서발견하여연관성을분석하는방법 빅데이터시각화기술 데이터시각화는데이터분석결과를쉽게이해할수있도록시각적인수단으로정보를전달하는과정을의미한다. 데이터값을단순화하여그림또는그래프형태로보여줌으로써데이터분석결과를쉽게이해할수있도록하고, 핵심개념과아이디어를효과적으로전달하는기술이다. 데이터마이닝 인공신경망 의사결정나무 뇌기능의특성몇가지를컴퓨터시뮬레이션으로표현하는방식으로비교적작은계산량의분석에서활용 의사결정규칙을도표화하여관심대상집단을소집단으로분류하거나예측을수행하는방법으로인공지능및기계학습분야에서활용하고있으며, 통계학에서는 CART 및 CHAID 알고리즘이활용됨 유전자알고리즘 생물의유전과진화매커니즘을공학적으로모델링하여문제해결이나시스템의학습등에응용하는것으로계산모델을프로그래밍하여문제해결을위한전략을수립하고적용 텍스트마이닝 구조화되지않은대규모의텍스트집합으로부터새로운지식을발견하는과정으로텍스트문서전처리및패턴분석등의단계를가지며순환구조로써계속적인피드백을수행

Hallym Communication Policy Research Center 19 < 표 5> 정보시각화관련기술 요소기술설명 시간시각화 특정시점또는특정시간의구간값을표현 ex) 막대그래프와누적막대그래프또는점그래프등 분포시각화 전체의부분에해당하는분포를최대, 최소, 전체분포를나타내는그래프로전체의관점에서각부분간의관계를보여주는기술 ex) 파이차트, 도넛차트, 누적막대그래프등 관계시각화 각기다른변수사이에서관계를찾는기술 ex) 버블차트, 스템플롯, 히스토그램등 비교시각화 여러변수의비교방법 ex) 히트맵, 체르노프페이스, 스타차트, 평행좌표그래프등 공간시각화 점이찍힌지도, 선을그린지도, 버블을그린지도등으로색상과크기를공간에대입하여표현 ex) 점지도, 도형표현도, 단계구분도, 등치선도, 유선도등 인포그래픽 (Infographic) 인포메이션과그래픽의합성어로다량의정보를차트, 지도, 다이어그램, 로고, 일러스트레이션등을활용하여한눈에파악할수있도록하는디자인