Microsoft Word - th1_Big Data 시대의 기술_ _조성우

Similar documents
빅데이터_DAY key

PowerPoint Template

Microsoft PowerPoint - CNVZNGWAIYSE.pptx

DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx

빅데이터처리의핵심인 Hadoop 을오라클은어떻게지원하나요? Oracle Big Data Appliance Solution 01 빅데이터처리를위한전문솔루션이 Oracle Big Data Appliance 군요. Oracle Big Data Appliance 와함께라면더이

PowerPoint 프레젠테이션

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

Hallym Communication Policy Research Center 15 빅데이터기술은대용량의데이터를다룰때, 여러과정을거치게되는데, 데이터수집및데이터전처리, 저장, 분석, 활용 ( 시각화 ) 까지의과정을 거치게되며각과정별로핵심기술이존재한다. 빅데이터기술은대용

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

Æí¶÷4-¼Ö·ç¼Çc03ÖÁ¾š

슬라이드 1

Cover Story 빅데이터플랫폼 Big Data 시대의엔터프라이즈인프라스트럭처 ORACLE KOREA MAGAZINE Spring 개요빅데이터를처리하는기술의가장중심기술은아파치하둡기술일것이다. 하둡기술은데이터를취득하고이를구조화시키고분석을하는일련의과정에

Semantic Search and Data Interoperability for GeoWeb

PowerPoint Template

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

DBMS & SQL Server Installation Database Laboratory

PowerPoint 프레젠테이션

ISO/IEC 의온톨로지와메타데이터 표준화동향 한국과학기술정보연구원 김장원

슬라이드 1

통신회사에서가장중요한데이터자원이라고하면뭐니뭐니해도고객들의통화기록이라할수있다. 이를 Call Detail Record(CDR) 라고하며, 고객들이유선전화나휴대폰을사용하여통화할때마다통화위치, 통화대상, 통화시간등이로그데이터로기록된다. 매통화마다기록되므로 1일발생량은수억건에

Slide 1

요약 I. 빅데이터시대의도래 빅데이터 (Big Data) 란일반적인데이터베이스체계가저장, 관리, 분석할수있는범위를초과하는규모의데이터 빅데이터는정치, 사회, 경제, 문화, 과학기술등전영역에걸쳐서사회와인류에게가치있는정보를제공할수있는가능성을제시 현재주로교육, 운송, 의료,

5 주차 -mongodb 설치잠깐! CAP 이론 NoSQL이나온이유와 MongoDB NoSQL의데이터저장구조에따른세가지분류 RDBMS와 NoSQL특성비교 RDBMS와 NoSQL의사용시기 MongoDB 소개및특징 MongoDB와 RDBMS와의공통 MongoDB CRUD

<BFACB1B85F D333728BCDBC5C2B9CE295FC3D6C1BEC8AEC1A45FC0CEBCE2BFEB B8F1C2F7BCF6C1A42E687770>

3월2일자.hwp

PowerPoint 프레젠테이션

<4D F736F F D204954B1E2C8B9BDC3B8AEC1EE2DB1E8C1A4C1D8>

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

제목을 입력하십시오

문서의 제목 나눔고딕B, 54pt

따끈따끈한 한국 Azure 데이터센터 서비스를 활용한 탁월한 데이터 분석 방안 (To be named)

들어가는글 2012년 IT 분야에서최고의관심사는아마도빅데이터일것이다. 관계형데이터진영을대표하는오라클은 2011년 10월개최된 오라클오픈월드 2011 에서오라클빅데이터어플라이언스 (Oracle Big Data Appliance, 이하 BDA) 를출시한다고발표하였다. 이와

< B1E8C7F6C1D65FC7CFB5D3B1E2B9DDBAF2B5A5C0CCC5CDB1E2B9FDB8A6C0CCBFEBC7D128BCF6C1A4292E687770>

슬라이드 1

Microsoft PowerPoint - 3주차.pptx

[ 2014 Capstone Design2 ] 지도교수 Twitter 분석시스템 < 졸업작품계획서 > 컴퓨터공학부 지도교수 민덕기교수님 T 박미관 김의명 제출일자

<4D F736F F D204954B1E2C8B9BDC3B8AEC1EE2DC3D6B1D4C7E5>

3 장. 데이터와경영정보시스템

항목

KD hwp

Ubiqutious Pubilc Access Reference Model

출원국 권 리 구 분 상 태 권리번호 KR 특허 등록

Microsoft PowerPoint - 4주차.pptx

위세아이텍_iOLAP_

RUCK2015_Gruter_public

Microsoft Word - 1의 웹빙 레서피_Well-being Recipe_ Big Data 분석_ _조영석

PowerPoint Presentation

김기남_ATDC2016_160620_[키노트].key

<30332DB1E2C8B9C6AFC1FD28B7F9C0E7C8AB D E687770>

Basic Template

PowerPoint Presentation

슬라이드 1

PowerPoint Presentation

<4D F736F F D20BBE7BABB202D20C3D6BDC54954B5BFC7E2>

consulting

07호서대2009

I D G C a s e S t u d y KT 가입자분석시스템 NDAP 구축 KT, 하둡기반의빅데이터플랫폼 구축으로비용절감 olleh EDW 와빅데이터간의전략적결합을통한전사데이터에대한듀얼인프라전략 증폭하는대용량데이터에대한인프라의효율성및비용절감의절대적효과 Sponsor

백봉현, 하일규, 안병철 Bong-Hyun Back, Ilkyu Ha, ByoungChul Ahn 1. 서론 최근들어소셜네트워크활성화로 에서발생하는대량의데이터 로부터정보를추출하여이를정치 경제 개인서비 스 연애등다양한분야에활용하고자하는노력이 계속되고있다 상의데이터를빠르게

Network Security - Wired Sniffing 실습 ICNS Lab. Kyung Hee University

PowerPoint 프레젠테이션

Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

REP - CP - 016, N OVEMBER 사진 요약 25 가지 색상 Surf 를 이용한 사진 요약과 사진 배치 알고리즘 Photo Summarization - Representative Photo Selection based on 25 Color Hi

PowerPoint 프레젠테이션

진정한토종벤처를꿈꾸는기업 저희시큐레이어는최근사회적화두로부각되고있는빅데이터를기반으로한통합로그수집 / 분석및통합보안관제분야에순수국산기술적자립으로외산과당당히겨루는소프트웨어를만들자는이념의전문소프트웨어기업입니다. 이러한이념을달성하기위한치열한열정과노력으로주요시장에서긍정적으로 평가

<4D F736F F D204954B1E2C8B9BDC3B8AEC1EE2DC1A4BAB4B1C7>

Chapter 5 비즈니스인텔리젼스의기초 : 데이터베이스와정보관리

Windows 8에서 BioStar 1 설치하기

소규모 비즈니스를 위한 플레이북 여기서 다룰 내용은 다음과 같습니다. 1. YouTube 소개 2. YouTube에서 비즈니스를 위한 채널 만들기 3. 눈길을 끄는 동영상 만들기 4. 고객의 액션 유도하기 5. 비즈니스에 중요한 잠재고객에게 더 많이 도달하기

ePapyrus PDF Document

Opinion Mining Platform & Case Studies

워밍업 누구를 위한 책인가 방대한 빅데이터 관련 업무에 필요한 역량을 갖추고자 하나 어떤 기술이 있고 이 중 어떤 것을 익 혀야 할지 갈피를 잡지 못하는 학생들과, 그들을 지도하는 교육 종사자를 위한 책이다. 새로 등장 하는 수많은 빅데이터 기술에 대한 탐색과 이해의

PowerPoint Presentation

빅 데이터

빅데이터 라이프사이클관리 심탁길

빅데이터분산컴퓨팅-5-수정

슬라이드 1

Art & Technology #5: 3D 프린팅 - Art World | 현대자동차

놀이동산미아찾기시스템

표준프레임워크로 구성된 컨텐츠를 솔루션에 적용하는 것에 문제가 없는지 확인

PowerPoint 프레젠테이션

XXXXXXXXXXXXX XXXXXXX

MS-SQL SERVER 대비 기능

슬라이드 1

ㅣ특집ㅣ국가교통정책선진화를위한빅데이터활용 1 교통분야의 빅데이터활용활성화방향 엄진기 한국철도기술연구원책임연구원 최근사회전반에걸쳐빅데이터 (Big Data) 에대한관심이증가하면서빅데이터의활용방법및사례에대한내용들이인터넷이나매스컴을통해지속

Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology Vol.7, No.5, May (2017), pp

1장. 유닉스 개요 및 기본 사용법

Informatica Today

<28C6EDC1FD FBBF5B1B9BEEEBBFDC8B C3D6C1BE2E687770>

비식별화 기술 활용 안내서-최종수정.indd

Diapositiva 1

: Hadoop 출간 은 출판 분 2013 년 10 월 3 윤 퍼플 주 울 종 종 1 1번 윤 2013 본 전부 반 부를 재 권 동를 셔 면 OpenWithNet 총 상 술 워크 (2006 년) : Hadoop 세만 NoSQL 웹 분

PowerPoint 프레젠테이션

PowerPoint Presentation

Slide 1


Microsoft PowerPoint - 사본 - OAS09-사무자동화 기술(DB).ppt

빅데이터, 그새로운도전과기회 < 표1> 2010~2012년미래전략기술 Top 년 2011년 2012년 1위 클라우드 클라우드 미디어태블릿 2위 고도화된분석 모바일애플리케이션과미디어태블릿 모바일중심앱 3위 클라이언트컴퓨팅 차세대애널리틱스 소셜 & 컨택스츄얼

Business Intelligence

[Brochure] KOR_TunA

빅데이터기반의산업시장정보분석 유선희한국과학기술정보연구원

Transcription:

Theme Article Big Data 시대의기술 중앙연구소 Intelligent Knowledge Service 조성우 1. 시대의화두 Big Data 최근 IT 분야의화두가무엇인지물어본다면, 빅데이터가대답들중하나일것이다. 20년전의 PC의메모리, 하드디스크의용량과최신 PC, 노트북사양을비교해보면과거에비해데이터가폭발적으로늘어났다는것을실감할수있을것이다. 특히스마트단말및소셜미디어등으로대표되는다양한정보채널의등장과이로인한정보의생산, 유통, 보유량의증가는계속적으로데이터의기하급수적인증가를이끌고있다. 하지만아래그림과같이수많은데이터중에서가치있는데이터는소수에불과하다. 따라서대용량데이터를처리하고, 의미있는데이터를발굴하는기술이필요하다. 본고에서는빅데이터의정의와종류에대해알아보고, 거침없이증가중인대용량의데이터를관리, 처리, 분석하기위해각광받고있는기술들을살펴보려한다. [ 그림 1] 실제유용한데이터는소수에불과하다 1

2. Big Data 란무엇인가? 빅데이터는어떻게정의할수있을까? 사실빅데이터에대해서구체적이고정량적인정의가합의된바는없다. 세계적인컨설팅기관인 McKinsey & Company는 2011년 5월에발간한보고서 Big Data : The Next Frontier for Innovation, Competition, and Productivity 에서 빅데이터의정의는기존데이터베이스관리도구의데이터수집, 저장, 관리, 분석하는역량을넘어서는데이터셋 Dataset 규모로, 그정의는주관적이며앞으로도계속변화될것이다. 또한데이터량기준에대해산업분야에따라상대적이며현재기준에서는몇십테라바이트에서수페타바이트까지가그범위이다 라고설명한다. 이렇게데이터단위의관점에서빅데이터를생각할수도있지만, 어떠한종류의데이터들이빅데이터를구성하고있는지알아볼필요도있다. 빅데이터의데이터종류는정형화정도에따라다음과같이분류된다. 정의설명정형고정된필드에저장된데이터. 관계형데이터베이스및 (Structured) 스프레드시트등을예로들수있다. 고정된필드에저장되어있지는않지만, 메타데이터나스키마반정형등을포함하는데이터. XML이나 HTML 텍스트등을예로들 (Semi-Structured) 수있다. 고정된필드에저장되어있지않은데이터. 텍스트분석이비정형가능한텍스트문서및이미지 / 동영상 / 음성데이터등을예로 (Unstructured) 들수있다. [ 그림 2] 비정형데이터와반정형데이터의예 2

이중비정형데이터의증가속도는누구도예측할수없는정도이며, 비교적선형적으로증가하던정형데이터조차연간 40~60% 에이르는증가세를보이고있다. 그렇다면빅데이터를처리는기존데이터처리와어떻게다를까? IT 시장조사기관 Gartner는 2011년 1월발간한보고서 Big Data Analytics 에서기존데이터처리와빅데이터처리에대해다음과같은차이점을설명했다. 빠른의사결정이상대적으로덜요구된다 : 대용량데이터에기반한분석위주로, 장기적 / 전략적접근이필요하다. 따라서기존의데이터처리에요구되는즉각적인처리속도와는달리, 즉각적인의사결정이상대적으로덜요구된다. 처리 Processing 복잡도가높다 : 다양한데이터소스, 복잡한로직처리, 대용량데이터처리등으로인해처리복잡도가매우높으며, 이를해결하기위해통상적으로분산처리기술이필요하다. 처리할데이터양이방대하다 : 클릭스트림 Clickstream 데이터를예로들면, 고객정보수집및분석을장기간에걸쳐수행해야하므로기존방법과비교해처리해야할데이터양은방대하다. 비정형데이터의비중이높다 : 소셜미디어데이터, 로그파일, 클릭스트림데이터, 콜센터로그, 통신 CDR 로그등비정형데이터파일의비중이매우높다. 처리의복잡성을증대시키는요인이기도하다. 처리 / 분석유연성이높다 : 잘정의된데이터모델 / 상관관계 / 절차등이없어, 기존데이터처리방법에비해처리 / 분석의유연성이높은편이다. 또한, 새롭고다양한처리방법의수용을위해, 유연성이기본적으로보장돼야한다. 동시처리량 Throughput 이낮다 : 대용량및복잡한처리를특징으로하고있어, 동시에처리가필요한데이터양은낮다. 따라서 ( 준 ) 실시간처리가보장되어야하는데이터분석에는적합하지않다. 3

[ 그림 3] 빅데이터의성격을한눈에보여주는그래프 3. Big Data 를위한분석기법 위의 6 가지빅데이터처리의특징을만족시키기위해다양한스토리지, 컴퓨팅 기술및분석기법들이빅데이터처리를위해개발되었다. 빅데이터기술은크게 분석기법과분석인프라측면으로나누어볼수있다. 대부분의분석기법들은통계학과전산학, 특히기계학습 / 데이터마이닝분야에서이미사용되던기법들이며, 이분석기법들의알고리즘을대규모데이터처리에맞도록개선하여빅데이터처리에적용시키고있다. 최근소셜미디어등비정형데이터의증가로인해, 분석기법들중에서텍스트 / 오피니언마이닝, 소셜네트워크분석, 군집분석등이주목을받고있다. Text Mining 텍스트마이닝은비 / 반정형텍스트데이터에서자연어처리 Natural Language Processing 기술에기반하여유용한정보를추출, 가공하는것을목적으로하는기술이다. 텍스트마이닝기술을통해방대한텍스트뭉치에서의미있는정보를추출해내고, 다른정보와의연계성을파악하며, 텍스트가가진카테고리를찾아내는등, 단순한정보검색그이상의결과를얻어낼수있다. 컴퓨터가인간이사용하는언어 ( 자연어 ) 를분석하고그안에숨겨진정보를발굴해내기위해대용량 4

언어자원과통계적, 규칙적알고리즘이사용되고있다. 주요응용분야로문서분류 Document Classification, 문서군집 Document Clustering, 정보추출 Information Extraction, 문서요약 Document Summarization 등이있다. Opinion Mining 텍스트마이닝의관련분야로는오피니언마이닝, 혹은평판분석 Sentiment Analysis라고불리는기술이있다. 오피니언마이닝은소셜미디어등의정형 / 비정형텍스트의긍정 Positive, 부정 Negative, 중립 Neutral 의선호도를판별하는기술이다. 오피니언마이닝은특정서비스및상품에대한시장규모예측, 소비자의반응, 입소문분석 Viral Analysis 등에활용되고있다. 정확한오피니언마이닝을위해서는전문가에의한선호도를나타내는표현 / 단어자원의축적이필요하다. Social Network Analytics 소셜네트워크분석은수학의그래프이론 Graph Theory 에뿌리를두고있다. 소셜네트워크연결구조및연결강도등을바탕으로사용자의명성및영향력을측정하여, 소셜네트워크상에서입소문의중심이나허브 Hub 역할을하는사용자를찾는데주로활용된다. 이렇게소셜네트워크상에서영향력이있는사용자를인플루언서 Influencer 라고부르는데, 인플루언서의모니터링및관리는마케팅관점에서중요하다고할수있다. Cluster Analysis 군집분석은비슷한특성을가진개체를합쳐가면서최종적으로유사특성의군 Group 을발굴하는데사용된다. 예를들어트위터상에서주로사진 / 카메라에대해이야기하는사용자군이있을수있고, 자동차에대해관심있는사용자군이있을수있다. 이러한관심사나취미에따른사용자군을군집분석을통해분류할수있다. 4. Big Data 분석인프라기술 위의분석기법들은테라바이트혹은페타바이트규모의데이터에적용되고있다. 그렇다면엄청난규모의빅데이터분석을수행할수있는인프라기술은어떤것이있을까? 일찍이트래픽을점유해왔던회사들은빅데이터처리를위한 5

인프라기술에골몰해왔다. 야후, 아마존, 구글등의회사들은각자의기술을개발, 오픈소스화하는데앞장섰다. Hadoop 하둡은오픈소스 Opensource 분산처리기술프로젝트로, 현재정형 / 비정형빅데이터분석에가장선호되는솔루션이라고할수있다. 실제로야후와페이스북등에사용되고있으며, 채택하는회사가늘어나고있다. 주요구성요소로하둡분산파일시스템인 HDFS Hadoop Distributed File System, Hbase, MapReduce가포함된다. HDFS와 Hbase는각각구글의파일시스템인 GFS Google File System 와빅테이블 Big Table의영향을받았다. 기본적으로비용효율적인 x86 서버로가상화된대형스토리지 (HDFS) 를구성하고, HDFS에저장된거대한데이터셋을간편하게분산처리할수있는 Java 기반의 MapReduce 프레임워크를제공한다. 이외의 Hadoop을기반으로한다양한오픈소스분산처리프로젝트가존재한다. [ 그림 4] 하둡의구조와그에대응하는구글의분산처리기술 R 오픈소스프로젝트 R은통계계산및시각화를위한언어및개발환경을제공하며, R 언어와개발환경을통해기본적인통계기법부터모델링, 최신데이터마이닝기법까지구현 / 개선이가능하다. 이렇게구현한결과는그래프등으로시각화할수있으며, Java나 C, Python 등의다른프로그래밍언어와연결도용이하다. Mac OS, 리눅스 / 유닉스, 윈도우등의대부분의컴퓨팅환경을지원하는것도장점이다. 위의장점들로인해 R은통계분석분야에서인지도를높여왔으며, 하둡환경상에서분산처리를지원하는라이브러리덕분에구글, 페이스북, 아마존등의빅 6

데이터분석이필요한기업에서대용량데이터통계분석및데이터마이닝을위해널리사용되고있다. NoSQL NoSQL은 Not-Only SQL, 혹은 No SQL을의미하며, 전통적인관계형데이터베이스 RDBMS 와다르게설계된비관계형데이터베이스를의미한다. 대표적인 NoSQL 솔루션으로는 Cassandra, Hbase, MongDB 등이존재한다. NoSQL은테이블스키마 Table Schema 가고정되지않고, 테이블간조인 Join 연산을지원하지않으며, 수평적확장 Horizontal Scalability 이용이하다는특징을가진다. 관계형데이터베이스의경우, 일관성 Consistency ( 모든노드는같은시간에같은데이터를보여줘야한다 ) 과유효성 Availability ( 일부노드가다운되어도다른노드에영향을주지않아야한다 ) 에중점을두고있는반면, NoSQL 기술은분산가능성 Partition Tolerance( 네트워크전송중일부데이터를손실하더라도시스템은정상동작을해야한다 ) 에중점을두고일관성과유효성은보장하지않는다. 이것은일관성, 유효성, 분산가능성중 2가지만보장이가능하다는분산데이터베이스시스템분야의 CAP 이론에따른것이다. 따라서대규모의유연한데이터처리를위해서는 NoSQL 기술이적합하지만, 안정성이중요한시스템에서는오랫동안검증된관계형데이터베이스를채택할필요가있다. 4. Big Data 시대를맞이하여 본고에서는빅데이터시대를맞이하기위해필요한분석기술과인프라기술에대해서살펴보았다. 물론본문에서빅데이터처리를위한모든기술에대해논하지못했지만, 현재대표적으로알아야할기술에대해선어느정도논의했다고생각된다. 이런다양한기술및기법들을실제빅데이터분석에활용하기위해서는보유하고있는데이터의성격과기술의장단점을잘파악하고적용하는것이중요할것으로보인다. 또한기술및인프라관점에서만빅데이터를바라보는것이아니라빅데이터에기반한새로운서비스에대해서도고민이필요하다. 고도화된빅데이터처리기술을기반으로한새로운서비스들이앞으로열어갈미래가기대된다. 7

< 참고문헌및웹사이트 > [1] 하둡기술연계한데이터분석, 김희배, 2011년 9월 [2] Big Data Analytics, Gartner, 2011년 1월 [3] Big Data : The Next Frontier for Innovation, Competition, and Productivity, McKinsey & Company, 2011년 5월 [4] Managing Big Data with Hadoop & Vertica, Vertica Systems, 2009년 10월 [5] http://hadoop.apache.org/ [6] http://www.r-project.org/ [7] http://cassandra.apache.org/ [8] http://www.mongodb.org/ 8