슬라이드 1

Similar documents
Microsoft PowerPoint - 3주차.pptx

Microsoft PowerPoint - 4주차.pptx

슬라이드 1

빅데이터_DAY key

DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx

출원국 권 리 구 분 상 태 권리번호 KR 특허 등록

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

Intra_DW_Ch4.PDF

PowerPoint 프레젠테이션

DW 개요.PDF

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

Oracle Apps Day_SEM

김기남_ATDC2016_160620_[키노트].key

비식별화 기술 활용 안내서-최종수정.indd

Basic Template

PowerPoint 프레젠테이션

RUCK2015_Gruter_public

Microsoft Word - th1_Big Data 시대의 기술_ _조성우

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

빅데이터분산컴퓨팅-5-수정

빅데이터처리의핵심인 Hadoop 을오라클은어떻게지원하나요? Oracle Big Data Appliance Solution 01 빅데이터처리를위한전문솔루션이 Oracle Big Data Appliance 군요. Oracle Big Data Appliance 와함께라면더이

Microsoft PowerPoint - CNVZNGWAIYSE.pptx

PowerPoint Presentation

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

Ubiqutious Pubilc Access Reference Model

<BFACB1B85F D333728BCDBC5C2B9CE295FC3D6C1BEC8AEC1A45FC0CEBCE2BFEB B8F1C2F7BCF6C1A42E687770>

클라우드컴퓨팅확산에따른국내경제시사점 클라우드컴퓨팅확산에따른국내경제시사점 * 1) IT,,,, Salesforce.com SaaS (, ), PaaS ( ), IaaS (, IT ), IT, SW ICT, ICT IT ICT,, ICT, *, (TEL)

RED HAT JBoss Data Grid (JDG)? KANGWUK HEO Middleware Solu6on Architect Service Team, Red Hat Korea 1

PowerPoint 프레젠테이션

따끈따끈한 한국 Azure 데이터센터 서비스를 활용한 탁월한 데이터 분석 방안 (To be named)

ETL_project_best_practice1.ppt

PowerPoint 프레젠테이션

Web Application Hosting in the AWS Cloud Contents 개요 가용성과 확장성이 높은 웹 호스팅은 복잡하고 비용이 많이 드는 사업이 될 수 있습니다. 전통적인 웹 확장 아키텍처는 높은 수준의 안정성을 보장하기 위해 복잡한 솔루션으로 구현

Global Bigdata 사용 현황 및 향후 활용 전망 빅데이터 미도입 이유 필요성 못느낌, 분석 가치 판단 불가 향후 투자를 집중할 분야는 보안 모니터링 분야 와 자동화 시스템 분야 빅데이터의 핵심 가치 - 트랜드 예측 과 제품 개선 도움 빅데이터 운영 애로 사항

ecorp-프로젝트제안서작성실무(양식3)

CRM Fair 2004

Diapositiva 1

PowerPoint 프레젠테이션

Semantic Search and Data Interoperability for GeoWeb

PowerPoint 프레젠테이션

슬라이드 1

PlatformDay2009-Hadoop_OSBI-YoungwooKim

Bigdata가 제공하는 구체적인 혜택과 변화 양상 기업의 데이터 기반의 의사결정 시스템 구축 의지 확대 양상 빅데이터를 활용한 경영 및 마케팅 지속적인 증가세 뚜렷 빅데이터를 도입한 기업은 사전 기대를 뛰어넘는 효과를 경험 본 조사 내용은 美 BARC- Researc

Portal_9iAS.ppt [읽기 전용]

위세아이텍_iOLAP_

Apache Ivy

Æí¶÷4-¼Ö·ç¼Çc03ÖÁ¾š

I I-1 I-2 I-3 I-4 I-5 I-6 GIS II II-1 II-2 II-3 III III-1 III-2 III-3 III-4 III-5 III-6 IV GIS IV-1 IV-2 (Complement) IV-3 IV-4 V References * 2012.

Microsoft PowerPoint - R-R1-유충현_ ppt [호환 모드]

2009방송통신산업동향.hwp

IPAK 윤리강령 나는 _ 한국IT전문가협회 회원으로서 긍지와 보람을 느끼며 정보시스템 활용하 자. 나는 _동료, 단체 및 국가 나아가 인류사회에 대하여 철저한 책임 의식을 가진 다. 나는 _ 활용자에 대하여 그 편익을 증진시키는데 최선을 다한다. 나는 _ 동료에 대해

歯목차45호.PDF

¿ÀǼҽº°¡À̵å1 -new

Slide 1

dbms_snu.PDF


Microsoft Word - 김완석.doc

슬라이드 1

문서의 제목 나눔고딕B, 54pt

PowerPoint 프레젠테이션

Chapter 5 비즈니스인텔리젼스의기초 : 데이터베이스와정보관리

Slide 1

PowerPoint 프레젠테이션

빅데이터시대 Self-BI 전략 이혁재이사 비아이씨엔에스

<49534F C0CEC1F520BBE7C8C4BDC9BBE720C4C1BCB3C6C320B9D D20BDC3BDBAC5DB20B0EDB5B5C8AD20C1A6BEC8BFE4C3BBBCAD2E687770>

Cover Story 빅데이터플랫폼 Big Data 시대의엔터프라이즈인프라스트럭처 ORACLE KOREA MAGAZINE Spring 개요빅데이터를처리하는기술의가장중심기술은아파치하둡기술일것이다. 하둡기술은데이터를취득하고이를구조화시키고분석을하는일련의과정에

초보자를 위한 ADO 21일 완성

들어가는글 2012년 IT 분야에서최고의관심사는아마도빅데이터일것이다. 관계형데이터진영을대표하는오라클은 2011년 10월개최된 오라클오픈월드 2011 에서오라클빅데이터어플라이언스 (Oracle Big Data Appliance, 이하 BDA) 를출시한다고발표하였다. 이와

슬라이드 1

PowerPoint Template

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

PowerPoint 프레젠테이션

목 차

Service-Oriented Architecture Copyright Tmax Soft 2005

Microsoft PowerPoint - chap01-C언어개요.pptx

분산처리 프레임워크를 활용한대용량 영상 고속분석 시스템

PowerPoint 프레젠테이션

컴퓨터과학과 교육목표 컴퓨터과학과의 컴퓨터과학 프로그램은 해당분야 에서 학문적 기술을 창의적으로 연구하고 산업적 기술을 주도적으로 개발하는 우수한 인력을 양성 함과 동시에 직업적 도덕적 책임의식을 갖는 IT인 육성을 교육목표로 한다. 1. 전공 기본 지식을 체계적으로

2017 1

보건소 의사결정지원을 위한 데이터웨어하우스 구축에 대한 연구

진정한토종벤처를꿈꾸는기업 저희시큐레이어는최근사회적화두로부각되고있는빅데이터를기반으로한통합로그수집 / 분석및통합보안관제분야에순수국산기술적자립으로외산과당당히겨루는소프트웨어를만들자는이념의전문소프트웨어기업입니다. 이러한이념을달성하기위한치열한열정과노력으로주요시장에서긍정적으로 평가

Microsoft PowerPoint - S4_통계분석시스템.ppt

음악의 구성 형식에 따라 추출된 대표 선율을 이용한 내용 기반 음악 검색 시스템

PowerPoint Presentation

3 장. 데이터와경영정보시스템

SQL Developer Connect to TimesTen 유니원아이앤씨 DB 기술지원팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 작성자

AGENDA 모바일 산업의 환경변화 모바일 클라우드 서비스의 등장 모바일 클라우드 서비스 융합사례

슬라이드 1

DBMS & SQL Server Installation Database Laboratory

대회 조직 대 회 장 서정연(한국정보과학회 회장) 조직위원회 위 원 장 최종원(숙명여대), 홍충선(경희대), 황승구(ETRI) 위 원 강선무(NIA), 김 종(POSTECH), 김철호(ADD), 민경오(LG전자), 박진국(LG CNS), 서형수(알서포트), 엄영익(성균

MySQL-Ch05

aws

슬라이드 1

<4D F736F F D204954B1E2C8B9BDC3B8AEC1EE2DB1E8C1A4C1D8>

15_3oracle

Data Industry White Paper

PowerPoint 프레젠테이션

<31302DB1E8BDC2B1C72E687770>

R을 이용한 텍스트 감정분석

untitled

Transcription:

제 2 장 빅데이터기술 2015.02 조완섭충북대학교경영정보학과대학원비즈니스데이터융합학과 wscho@chungbuk.ac.kr 043-261-3258 010-2487-3691

목차 개요 빅데이터기술 클라우드컴퓨팅 Hadoop & Databases 데이터분석기술 다차원분석 통계분석 : R 데이터마이닝 빅데이터시각화기술 2015-07-23 2

개요 빅데이터 - 새로운 IT 기술과분석기술이요구됨 기존방식으로처리하기엔데이터규모가크고컴퓨팅파워가부족하기때문 신사업창출비즈니스지능화, 최적화마이닝, R-통계분석고도분석기술 3Vs SW 기술 (SW 인프라 ) Cloud Computing (HW인프라) 3 2015-07-23 3

빅데이터기술 2015-07-23 4

빅데이터기술 빅데이터표준 시스템관리기술 빅데이터전송기술 클라우드핵심 SW(open) 2015-07-23 5

클라우드컴퓨팅 Cloud Computing Platform User Interface User Interface 자원관리 분산데이터베이스 분산파일시스템 User Interface 클러스터관리 부하분산 분산컴퓨팅 User Interface 프로비저닝 ( 동적자원할당 ) User Interface User Interface 2015-07-23 6

Hadoop 연결된여러컴퓨터에데이터를분산하여저장, 처리한후, 통합하여최종결과를생성하는고성능컴퓨팅기술 Hadoop 분산파일시스템 (HDFS : Hadoop Distributed File System) 파일을적당한크기로나눠서각노드에분산저장함 데이타유실이나부하분산을위해각블록의복사본 (Replication) 을유지함 MapReduce 프레임워크 Map함수는데이터를여러개의데이터조각으로나눠서여러대의컴퓨터에서분산처리함 Reduce함수각노드가계산한결과를하나로통합함 2015-07-23 7

Hadoop Hadoop 과구글파일시스템 MapReduce : 분산데이터처리시스템 HBASE : 분산데이터베이스 HDFS : 분산파일시스템 분산컴퓨터들 구글파일시스템 2015-07-23 8

Hadoop MapReduce 를활용한단어출현횟수 counting 2015-07-23 9

Hadoop MapReduce 기술 컬러사각형개수 counting 2015-07-23 10

기존 database system 데이터베이스시스템 Database System 사용자 / 프로그래머 응용프로그램 / 질의 실세계정보 DBMS 질의 / 프로그램을수행하는 SW + 디스크를접근하는 SW 메타데이타 + 데이타베이스 tables 데이터공유일치성보장보안, 권한관리등그러나, 정형화된데이터관리용빅데이터? 2015-07-23 11

NoSQL (Not Only SQL) Big Data - DBMS 기존의 RDBMS 는빅데이터처리에적합하지않음 NoSQL 은빅데이터처리에는유용하지만 RDBMS 에서제공하는데이터의일관성과유효성은보장하지않음 (Read only, 분석용으로적합 ) 20 개이상의 NoSQL 제품이보급됨 BigTable, Dynamo, Cassandra, CouchDB, MongoDB, Hbase, Riak, Voldemort 등 Oracle NoSQL DB2.0 출시 (2012.01) 2015-07-23 12

Big Data - DBMS Column-Oriented Database Technologies Employee table 2015-07-23 13

다차원분석 Data Warehouse(DW), OLAP DW : 의사결정용데이터베이스 OLAP (On-line Analytical Processing) 은 data warehouse 상에서온라인다차원분석처리를지원하는도구 일반사원업무지원 최고경영자의사결정지원 DBMS OLAP 외부 업무용 DB 재무인사 ETL Extraction Transformation Loading (Integration) 데이터웨어하우스 2015-07-23 14

다차원분석 - 사례 매출액 $500 억 다차원분석 년도별매출액은? 2003 년분기별매출액은? 2003 년 1 분기월별매출액은? 도시별매출액은? North/South 지역별매출액은? Dallas 지역의 Product E 에대한 2003 년분기별매출액은? 도시별로 2003 년월별매출액은? 제품별, 년도별매출액은? ( 수많은분석 ) 25M 30M 20M 11M 21M Roll-up Drill-down North 2050 South Cube 수백개 cubes 2015-07-23 15

다차원분석 Hive(http://hadoop.apache.org/hive/) Data warehouse system 으로 Hadoop compatible file systems 에저장된 large datasets 에대하여간편한 data summarization, ad-hoc queries, analysis 기능을제공함 (OLAP) SQL-like 언어로하둡상에서맵리듀스처리를간단하게작성, 실행할수있는툴 Open source (Apache License), ANSI SQL 지원 Facebook 의 Main Data Warehousing System 으로활용됨 Pig(http://hadoop.apache.org/pig/) 스크립트언어형태로 MapReduce 프로그램을개발할수있는플랫폼으로현재 Hadoop 의서브프로젝트 Cascading 과유사하게고수준의처리를위한쉬운문법을제공하며스크립트형태이기때문에빠른프로그래밍및피드백이가능함 (Yahoo 에서주도적으로개발 ) 2015-07-23 16

다차원분석 배치분석 : Script language 2015-07-23 17

다차원분석 - 실시간 Streaming data processing ETL, Storing, Processing, Mining, Alarming In-Memory database systems Spark In-Memory based multidimensional analysis system 2015-07-23 18

R 언어 R 언어 SAS, SPSS 의대안으로급성장 데이터를다루고분석하는데특화된언어 통계분석 ( 마이닝 ) 및시각화를위한언어혹은개발환경으로오픈소스임 수천가지라이브러리를사용하여기본적인통계분석기법부터모델링, 최신데이터마이닝기법까지구현 / 개선이가능 다양한분야에적용가능한마이닝기법들을제공함 마케팅, 금융, CRM( 고객관리 ), 생명공학및의학, GIS, Stream Data 등 Java, C/C++, Python 등다른프로그래밍언어와의연결용이 빅데이터분석이필요한조직에서대용량데이터통계분석과데이터마이닝을위한솔루션으로정착되고있음 예 : 약 30 라인으로 SNS (Twitter) 분석에서시각화까지구현할수있음 2015-07-23 19

R 언어 Example : R 을사용한트위터팔로워분석과결과 : 단 20 여 line 으로결과생성! library(twitter) library(konlp) library(wordcloud) library(tm) gogamza <- getuser("gogamza") gogamza.followers <- gogamza$getfollowers() # 팔로워들의자기소개를벡터에적재한다. followerdesc <- c() for(i in gogamza.followers){ followerdesc <- append(followerdesc, i$description) } # 쓸모없는문자들을제거한다. followerdesc <- gsub("\n","", followerdesc) followerdesc <- gsub("\r", "", followerdesc) nouns <- Map(extractNoun, followerdesc) wordsvec <- unlist(nouns, use.name=f) # 쓸모없는문자들을제거한다. 특히영문자의경우 tm 의 stopwords 를활용한다. wordsvec <- wordsvec[-which(wordsvec %in% stopwords("english"))] wordsvec <- gsub("[[:punct:]]","", wordsvec) wordsvec <- Filter(function(x){nchar(x)>=2}, wordsvec) wordcount <- table(wordsvec) pal <- brewer.pal(8,"dark2") wordcloud(names(wordcount),freq=wordcount,scale=c(4,0.5),min.freq=10, random.order=t,rot.per=.1,colors=pal) 2015-07-23 20

RHive RHive = R + Hive select * from foo; KRUG (Korean R Users Group) GNU 의철학에입각하여, R 을한국어사용자가올바르고쉽게사용될수있도록문서를번역하고지식과기술을공유하는사용자모임 ; 2007 년 1 월부터공식적으로활동 2015-07-23 21

데이터마이닝 빅데이터 마이닝 데이터로부터체계적이고자동적으로 ( 통계학에서패턴인식에이르는다양한계량기법을사용하여 ) 규칙이나패턴을찾아내는기술 데이터마이닝기법은통계학에서발전한탐색적자료분석, 가설검정, 다변량분석, 시계열분석, 일반선형모형등의방법론과데이터베이스측면에서발전한 OLAP ( 온라인분석처리 : On-Line Analytic Processing), 인공지능진영에서발전한 SOM(Self Organizing Maps), 신경망, 전문가시스템등의기술적인방법론이사용됨 빅데이터마이닝 빅데이터의특징인 대용량, 비정형, 실시간 마이닝이가능하도록기존의기법들을확장함 IoT/M2M 등의보편화로 Stream Data Mining 기술의필요성증대 2015-07-23 22

빅데이터 - 마이닝 데이터마이닝기술의종류 분류 (Classification) 일정한데이터집단에대한특성정의를기준으로분류함 예 : 경쟁자에게로이탈한고객들을분류함 군집화 (Clustering) 어떤특성을공유하는데이터그룹을찾음. 군집화는미리정의된특성에대한정보를갖지않는다는점에서분류와구분됨 ( 예 : 유사행동집단의구분 ) 연관관계 (Association) 관련이있는 ( 동시에발생하는 ) 데이터들을찾아냄 예 : 장바구니에서함께구매되는상품들 2015-07-23 23

빅데이터 - 마이닝 데이터마이닝기술의종류 ( 계속 ) 순차패턴 (Sequencing) 순차적으로발생하는데이터들을찾아냄 예 : 비디오대여순서정보 예측 (Forecasting) 대용량데이터집합내의패턴을기반으로미래를예측 예 : 수요예측 텍스트마이닝 자연어처리기술을기반으로텍스트의의미를자동으로파악함 예 : SNS 기반의고객감성분석 2015-07-23 24

정의 텍스트마이닝 텍스트기반의데이터 ( 문서 ) 로부터새로운정보를발견하는기술 다음과같은자연어처리기술도필요함 형태소분석기술 (morpheme processing technique) 구문분석기술 (syntactic processing technique) 문맥처리기술 (context processing technique) 의미처리기술 (semantic processing technique) 문장합성기술 (sentence generation technique) 관련분야 Data Mining : 데이터로부터새로운패턴이나지식발견 Web Mining : 웹상의데이터를분석하여지식을발견하는기술 Statistics : 통계학 Information Retrieval : 정보검색 Computational Linguistic & NLP : 자연언어분석및활용학문 2015-07-23 충북대학교 (wscho@cbnu.ac.kr) 25

텍스트마이닝 응용분야 SNS 분석 갤럭시 3 화면이넓어짱이다 iphone4 무게가가벼워좋아. 갤럭시 3/ 화면 / 넓다 / 좋다 화면이크다 45% 디자인이예쁘다 25% 크기가작다 15% 화질이좋다 15% 긍정 부정 갤럭시3 30,599 1,500 iphone4 56,456 3,500 수집필터링 구어체전처리 형태소분석 개체명인식 구문분석 감성분석관계분석 이슈탐지모니터링 긍부정분석 게시판게시판게시판 소스데이터 사전 ( 개체명, 감성단어 ), 동의어 테러, 범죄, 재난 조기예측에응용됨 갤럭시 3 iphone4 갤 3 아폰 4 화면밧데리무게화질 2015-07-23 충북대학교 (wscho@cbnu.ac.kr) 26 제품 T 속성 T Dictionary 좋다넓다크다작다짱이다 감성단어 T

시각화란? 빅데이터시각화 (visualization) 방대한양의자료를분석해서한눈에볼수있도록도표나차트등으로정리하는것 시각화자체가분석의한 시각화의효과 데이터로부터정보를습득하는시간의절감으로즉각적인상황판단이가능해짐 자료를습득하는사람의흥미유발과빠른확산촉진 자료를기억하는데기여함 뉴욕타임스 ( 유권자분석 ) http://www.nytimes.com/interactive/2012/11/11/sundayreview/counties-moving.html?_r=0 2015-07-23 27

시각화의예 시각화의예 나플레옹군이러시아원정에서완패하고모스크바로부터프랑스로복귀하는이동경로별로그들이겪은추위와병사감소를한눈에시각화 ( 샤를미나르, 1861 제작 ) 2015-07-23 28

시각화의예 2015-07-23 29 * 출처 : 빅데이터를위한데이터시각화 ( 이지선 )

시각화도구 2015-07-23 30 * 출처 : 빅데이터를위한데이터시각화 ( 이지선 )

시각화도구 * 출처 : 빅데이터를위한데이터시각화 ( 이지선 ) 2015-07-23 31

시각화도구들 시각화도구 엑셀, CVS/JSON, 구글차트 API, Flot, Rapheal, D3 (Data- Driven Documents), Visual.ly, NodeBo, R, Weka, Gephi 매핑 ( 지도 ) 도구 Modest Maps, Leaflet, Polymaps, OpenLayers, Kartograph, CartoDB 2015-07-23 32

Big Data 관련기술 ( 요약 ) 2015-07-23 33

Big Data 관련기술 ( 요약 ) 2015-07-23 34