제 2 장 빅데이터기술 2015.02 조완섭충북대학교경영정보학과대학원비즈니스데이터융합학과 wscho@chungbuk.ac.kr 043-261-3258 010-2487-3691
목차 개요 빅데이터기술 클라우드컴퓨팅 Hadoop & Databases 데이터분석기술 다차원분석 통계분석 : R 데이터마이닝 빅데이터시각화기술 2015-07-23 2
개요 빅데이터 - 새로운 IT 기술과분석기술이요구됨 기존방식으로처리하기엔데이터규모가크고컴퓨팅파워가부족하기때문 신사업창출비즈니스지능화, 최적화마이닝, R-통계분석고도분석기술 3Vs SW 기술 (SW 인프라 ) Cloud Computing (HW인프라) 3 2015-07-23 3
빅데이터기술 2015-07-23 4
빅데이터기술 빅데이터표준 시스템관리기술 빅데이터전송기술 클라우드핵심 SW(open) 2015-07-23 5
클라우드컴퓨팅 Cloud Computing Platform User Interface User Interface 자원관리 분산데이터베이스 분산파일시스템 User Interface 클러스터관리 부하분산 분산컴퓨팅 User Interface 프로비저닝 ( 동적자원할당 ) User Interface User Interface 2015-07-23 6
Hadoop 연결된여러컴퓨터에데이터를분산하여저장, 처리한후, 통합하여최종결과를생성하는고성능컴퓨팅기술 Hadoop 분산파일시스템 (HDFS : Hadoop Distributed File System) 파일을적당한크기로나눠서각노드에분산저장함 데이타유실이나부하분산을위해각블록의복사본 (Replication) 을유지함 MapReduce 프레임워크 Map함수는데이터를여러개의데이터조각으로나눠서여러대의컴퓨터에서분산처리함 Reduce함수각노드가계산한결과를하나로통합함 2015-07-23 7
Hadoop Hadoop 과구글파일시스템 MapReduce : 분산데이터처리시스템 HBASE : 분산데이터베이스 HDFS : 분산파일시스템 분산컴퓨터들 구글파일시스템 2015-07-23 8
Hadoop MapReduce 를활용한단어출현횟수 counting 2015-07-23 9
Hadoop MapReduce 기술 컬러사각형개수 counting 2015-07-23 10
기존 database system 데이터베이스시스템 Database System 사용자 / 프로그래머 응용프로그램 / 질의 실세계정보 DBMS 질의 / 프로그램을수행하는 SW + 디스크를접근하는 SW 메타데이타 + 데이타베이스 tables 데이터공유일치성보장보안, 권한관리등그러나, 정형화된데이터관리용빅데이터? 2015-07-23 11
NoSQL (Not Only SQL) Big Data - DBMS 기존의 RDBMS 는빅데이터처리에적합하지않음 NoSQL 은빅데이터처리에는유용하지만 RDBMS 에서제공하는데이터의일관성과유효성은보장하지않음 (Read only, 분석용으로적합 ) 20 개이상의 NoSQL 제품이보급됨 BigTable, Dynamo, Cassandra, CouchDB, MongoDB, Hbase, Riak, Voldemort 등 Oracle NoSQL DB2.0 출시 (2012.01) 2015-07-23 12
Big Data - DBMS Column-Oriented Database Technologies Employee table 2015-07-23 13
다차원분석 Data Warehouse(DW), OLAP DW : 의사결정용데이터베이스 OLAP (On-line Analytical Processing) 은 data warehouse 상에서온라인다차원분석처리를지원하는도구 일반사원업무지원 최고경영자의사결정지원 DBMS OLAP 외부 업무용 DB 재무인사 ETL Extraction Transformation Loading (Integration) 데이터웨어하우스 2015-07-23 14
다차원분석 - 사례 매출액 $500 억 다차원분석 년도별매출액은? 2003 년분기별매출액은? 2003 년 1 분기월별매출액은? 도시별매출액은? North/South 지역별매출액은? Dallas 지역의 Product E 에대한 2003 년분기별매출액은? 도시별로 2003 년월별매출액은? 제품별, 년도별매출액은? ( 수많은분석 ) 25M 30M 20M 11M 21M Roll-up Drill-down North 2050 South Cube 수백개 cubes 2015-07-23 15
다차원분석 Hive(http://hadoop.apache.org/hive/) Data warehouse system 으로 Hadoop compatible file systems 에저장된 large datasets 에대하여간편한 data summarization, ad-hoc queries, analysis 기능을제공함 (OLAP) SQL-like 언어로하둡상에서맵리듀스처리를간단하게작성, 실행할수있는툴 Open source (Apache License), ANSI SQL 지원 Facebook 의 Main Data Warehousing System 으로활용됨 Pig(http://hadoop.apache.org/pig/) 스크립트언어형태로 MapReduce 프로그램을개발할수있는플랫폼으로현재 Hadoop 의서브프로젝트 Cascading 과유사하게고수준의처리를위한쉬운문법을제공하며스크립트형태이기때문에빠른프로그래밍및피드백이가능함 (Yahoo 에서주도적으로개발 ) 2015-07-23 16
다차원분석 배치분석 : Script language 2015-07-23 17
다차원분석 - 실시간 Streaming data processing ETL, Storing, Processing, Mining, Alarming In-Memory database systems Spark In-Memory based multidimensional analysis system 2015-07-23 18
R 언어 R 언어 SAS, SPSS 의대안으로급성장 데이터를다루고분석하는데특화된언어 통계분석 ( 마이닝 ) 및시각화를위한언어혹은개발환경으로오픈소스임 수천가지라이브러리를사용하여기본적인통계분석기법부터모델링, 최신데이터마이닝기법까지구현 / 개선이가능 다양한분야에적용가능한마이닝기법들을제공함 마케팅, 금융, CRM( 고객관리 ), 생명공학및의학, GIS, Stream Data 등 Java, C/C++, Python 등다른프로그래밍언어와의연결용이 빅데이터분석이필요한조직에서대용량데이터통계분석과데이터마이닝을위한솔루션으로정착되고있음 예 : 약 30 라인으로 SNS (Twitter) 분석에서시각화까지구현할수있음 2015-07-23 19
R 언어 Example : R 을사용한트위터팔로워분석과결과 : 단 20 여 line 으로결과생성! library(twitter) library(konlp) library(wordcloud) library(tm) gogamza <- getuser("gogamza") gogamza.followers <- gogamza$getfollowers() # 팔로워들의자기소개를벡터에적재한다. followerdesc <- c() for(i in gogamza.followers){ followerdesc <- append(followerdesc, i$description) } # 쓸모없는문자들을제거한다. followerdesc <- gsub("\n","", followerdesc) followerdesc <- gsub("\r", "", followerdesc) nouns <- Map(extractNoun, followerdesc) wordsvec <- unlist(nouns, use.name=f) # 쓸모없는문자들을제거한다. 특히영문자의경우 tm 의 stopwords 를활용한다. wordsvec <- wordsvec[-which(wordsvec %in% stopwords("english"))] wordsvec <- gsub("[[:punct:]]","", wordsvec) wordsvec <- Filter(function(x){nchar(x)>=2}, wordsvec) wordcount <- table(wordsvec) pal <- brewer.pal(8,"dark2") wordcloud(names(wordcount),freq=wordcount,scale=c(4,0.5),min.freq=10, random.order=t,rot.per=.1,colors=pal) 2015-07-23 20
RHive RHive = R + Hive select * from foo; KRUG (Korean R Users Group) GNU 의철학에입각하여, R 을한국어사용자가올바르고쉽게사용될수있도록문서를번역하고지식과기술을공유하는사용자모임 ; 2007 년 1 월부터공식적으로활동 2015-07-23 21
데이터마이닝 빅데이터 마이닝 데이터로부터체계적이고자동적으로 ( 통계학에서패턴인식에이르는다양한계량기법을사용하여 ) 규칙이나패턴을찾아내는기술 데이터마이닝기법은통계학에서발전한탐색적자료분석, 가설검정, 다변량분석, 시계열분석, 일반선형모형등의방법론과데이터베이스측면에서발전한 OLAP ( 온라인분석처리 : On-Line Analytic Processing), 인공지능진영에서발전한 SOM(Self Organizing Maps), 신경망, 전문가시스템등의기술적인방법론이사용됨 빅데이터마이닝 빅데이터의특징인 대용량, 비정형, 실시간 마이닝이가능하도록기존의기법들을확장함 IoT/M2M 등의보편화로 Stream Data Mining 기술의필요성증대 2015-07-23 22
빅데이터 - 마이닝 데이터마이닝기술의종류 분류 (Classification) 일정한데이터집단에대한특성정의를기준으로분류함 예 : 경쟁자에게로이탈한고객들을분류함 군집화 (Clustering) 어떤특성을공유하는데이터그룹을찾음. 군집화는미리정의된특성에대한정보를갖지않는다는점에서분류와구분됨 ( 예 : 유사행동집단의구분 ) 연관관계 (Association) 관련이있는 ( 동시에발생하는 ) 데이터들을찾아냄 예 : 장바구니에서함께구매되는상품들 2015-07-23 23
빅데이터 - 마이닝 데이터마이닝기술의종류 ( 계속 ) 순차패턴 (Sequencing) 순차적으로발생하는데이터들을찾아냄 예 : 비디오대여순서정보 예측 (Forecasting) 대용량데이터집합내의패턴을기반으로미래를예측 예 : 수요예측 텍스트마이닝 자연어처리기술을기반으로텍스트의의미를자동으로파악함 예 : SNS 기반의고객감성분석 2015-07-23 24
정의 텍스트마이닝 텍스트기반의데이터 ( 문서 ) 로부터새로운정보를발견하는기술 다음과같은자연어처리기술도필요함 형태소분석기술 (morpheme processing technique) 구문분석기술 (syntactic processing technique) 문맥처리기술 (context processing technique) 의미처리기술 (semantic processing technique) 문장합성기술 (sentence generation technique) 관련분야 Data Mining : 데이터로부터새로운패턴이나지식발견 Web Mining : 웹상의데이터를분석하여지식을발견하는기술 Statistics : 통계학 Information Retrieval : 정보검색 Computational Linguistic & NLP : 자연언어분석및활용학문 2015-07-23 충북대학교 (wscho@cbnu.ac.kr) 25
텍스트마이닝 응용분야 SNS 분석 갤럭시 3 화면이넓어짱이다 iphone4 무게가가벼워좋아. 갤럭시 3/ 화면 / 넓다 / 좋다 화면이크다 45% 디자인이예쁘다 25% 크기가작다 15% 화질이좋다 15% 긍정 부정 갤럭시3 30,599 1,500 iphone4 56,456 3,500 수집필터링 구어체전처리 형태소분석 개체명인식 구문분석 감성분석관계분석 이슈탐지모니터링 긍부정분석 게시판게시판게시판 소스데이터 사전 ( 개체명, 감성단어 ), 동의어 테러, 범죄, 재난 조기예측에응용됨 갤럭시 3 iphone4 갤 3 아폰 4 화면밧데리무게화질 2015-07-23 충북대학교 (wscho@cbnu.ac.kr) 26 제품 T 속성 T Dictionary 좋다넓다크다작다짱이다 감성단어 T
시각화란? 빅데이터시각화 (visualization) 방대한양의자료를분석해서한눈에볼수있도록도표나차트등으로정리하는것 시각화자체가분석의한 시각화의효과 데이터로부터정보를습득하는시간의절감으로즉각적인상황판단이가능해짐 자료를습득하는사람의흥미유발과빠른확산촉진 자료를기억하는데기여함 뉴욕타임스 ( 유권자분석 ) http://www.nytimes.com/interactive/2012/11/11/sundayreview/counties-moving.html?_r=0 2015-07-23 27
시각화의예 시각화의예 나플레옹군이러시아원정에서완패하고모스크바로부터프랑스로복귀하는이동경로별로그들이겪은추위와병사감소를한눈에시각화 ( 샤를미나르, 1861 제작 ) 2015-07-23 28
시각화의예 2015-07-23 29 * 출처 : 빅데이터를위한데이터시각화 ( 이지선 )
시각화도구 2015-07-23 30 * 출처 : 빅데이터를위한데이터시각화 ( 이지선 )
시각화도구 * 출처 : 빅데이터를위한데이터시각화 ( 이지선 ) 2015-07-23 31
시각화도구들 시각화도구 엑셀, CVS/JSON, 구글차트 API, Flot, Rapheal, D3 (Data- Driven Documents), Visual.ly, NodeBo, R, Weka, Gephi 매핑 ( 지도 ) 도구 Modest Maps, Leaflet, Polymaps, OpenLayers, Kartograph, CartoDB 2015-07-23 32
Big Data 관련기술 ( 요약 ) 2015-07-23 33
Big Data 관련기술 ( 요약 ) 2015-07-23 34