2016.08 조완섭충북대학교경영정보학과대학원비즈니스데이터융합학과 wscho@chungbuk.ac.kr 043-261-3258 010-2487-3691 빅데이터기술
목차 개요 빅데이터기술 클라우드컴퓨팅 Hadoop & Databases 데이터분석기술 다차원분석 통계분석 : R 데이터마이닝 빅데이터시각화기술 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 2
개요 빅데이터 - 새로운 IT 기술과분석기술이요구됨 기존방식으로처리하기엔데이터규모가크고컴퓨팅파워가부족하기때문 신사업창출비즈니스지능화, 최적화마이닝, R- 통계분석 고도분석기술 SW 기술 (SW 인프라 ) Cloud Computing (HW인프라) 3 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 3
빅데이터기술 2016-09-30 4 Wan-Sup Cho (wscho@cbnu.ac.kr)
빅데이터기술 빅데이터표준 시스템관리기술 빅데이터전송기술 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 5
클라우드컴퓨팅 인터넷으로연결된여러컴퓨터들을사용하여빅데이터를분산저장하고분산처리하는고성능컴퓨터 User Interface User Interface 자원관리 분산데이터베이스 분산파일시스템 User Interface 노드 ( 컴퓨터 ) 관리 부하분산 분산컴퓨팅 User Interface 프로비저닝 Cloud System ( 동적자원할당 ) User Interface User Interface 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 6
클라우드컴퓨팅의정의 클라우드컴퓨팅 ( 출처 ) 최근클라우드컴퓨팅서비스동향 (Net Term) 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 7
클라우드컴퓨팅 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 8
클라우드컴퓨팅 ( 출처 ) 최근클라우드컴퓨팅서비스동향 (Net Term) 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 9
클라우드컴퓨팅 서비스유형 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 10
Hadoop 클라우드컴퓨터의각노드에데이터를분산저장하고, 분산처리하는기술 ( 분산파일시스템 ) 분산저장시스템 : Hadoop 분산파일시스템 (HDFS : Hadoop Distributed File System) 파일을적당한크기로나눠서각노드에분산저장함 데이타유실이나부하분산을위해각블록의복사본 (Replication) 을유지함 분산처리시스템 : MapReduce 프레임워크 Map 함수는데이터를여러개의조각으로나눠서여러대의컴퓨터에서분산처리함 Reduce 함수각노드가계산한결과를하나로통합함 Big Data 분산처리 분산저장 Cloud Computer 2016-09-30 11 Wan-Sup Cho (wscho@cbnu.ac.kr)
Hadoop MapReduce ( 출처 ) http://ht.ly/yyhw301als1 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 12
Hadoop MapReduce MapReduce 를활용한단어출현횟수 counting 2016-09-30 13 Wan-Sup Cho (wscho@cbnu.ac.kr)
Hadoop MapReduce MapReduce 기술 컬러사각형개수 counting 2016-09-30 14 Wan-Sup Cho (wscho@cbnu.ac.kr)
Database system 구조 데이터베이스시스템 사용자 / 프로그래머 실세계정보 Database System 응용프로그램 / 질의 DBMS 질의 / 프로그램을수행하는 SW + 디스크를접근하는 SW 메타데이타 + 데이타베이스 tables 데이터공유일치성보장보안, 권한관리등그러나, 정형화된데이터관리용빅데이터? 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 15
데이터베이스시스템 Company Database 예제 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 16
데이터베이스시스템 SELECT FNAME, LNAME, SEX, ADDRESS, SALARY FROM EMPLOYEE WHERE SALARY > 25000; SELECT FNAME, LNAME, SEX, ADDRESS, SALARY FROM EMPLOYEE WHERE SALARY > 25000 AND SEX = M ; SQL (DB 언어 ) Structured Query Language Q10_2: Wong 이관리하는 Projects SELECT DISTINCT PNUMBER FROM PROJECT WHERE PNUMBER In (SELECT PNUMBER // {1, 2, 3} FROM PROJECT, DEPARTMENT, EMPLOYEE WHERE DNUM=DNUMBER AND MGRSSN=SSN AND LNAME="Wong"); 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 17
데이터베이스시스템 기존관계데이터베이스시스템의한계 빅데이터저장과분석에는적합하지않음 작은데이터 한대의컴퓨터에저장관리 정형화된데이터 모든데이터는테이블에저장함 실시간성이강조되지않은영역 분석용도가아니라트랜잭션처리용으로연구개발됨 데이터베이스변경이자주일어나며, 데이터일치성보장이중요 분석기능이미흡함 다차원분석기능보완 => DW, OLAP 데이터마이닝과통계분석기능보완 => R, SAS, 빅데이터용 DBMS 의출현 수많은 NoSQL DBMS (2016 년 7 월현재 225 개이상출현 ) 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 18
데이터이스시스템 빅데이터 NoSQL (Not Only SQL) 기존의 RDBMS 는빅데이터처리에적합하지않음 작은데이터, 정형화된데이터, 실시간처리필요성이적은분야 NoSQL 은빅데이터분석에적합한 DBMS RDBMS 에서제공하는데이터의일관성과유효성은보장하지않음 (Read only, 분석용으로적합 ) 200 여개이상의 NoSQL 제품이보급됨 BigTable, Dynamo, Cassandra, CouchDB, MongoDB, Hbase, Riak, Voldemort 등 Oracle NoSQL DB2.0 출시 (2012.01) NoSQL 의종류 컬럼형식 DB 문서형식 DB 그래프 DB 인메모리키 - 값 DB 2016-09-30 19 Wan-Sup Cho (wscho@cbnu.ac.kr)
데이터이스시스템 빅데이터 ( 출처 ) https://aws.amazon.com/ko/nosql/ 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 20
데이터이스시스템 빅데이터 ( 출처 ) https://aws.amazon.com/ko/nosql/ 데이터모델 ACID 속성 성능 확장가능 API 도구 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 21
데이터이스시스템 빅데이터 ( 출처 ) http://nosql-database.org/ 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 22
비즈니스인텔리전스 - 다차원분석 Data Warehouse(DW), OLAP DW : 의사결정용데이터베이스 OLAP (On-line Analytical Processing) 은 data warehouse 상에서온라인다차원분석처리를지원하는도구 일반사원일상업무지원 최고경영자의사결정지원 DBMS OLAP 외부 ETL 업무용 DB 재무인사 Extraction Transformation Loading (Integration) 데이터웨어하우스 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 23
비즈니스인텔리전스 - 다차원분석 다차원분석절차 의사결정요구사항은? 관련데이터확보는? ETL 도구활용 데이터저장방법은? 수집된데이터를어떠한구조로저장하는가? 큐브모델 / 스타스키마형태로저장함 ; 다양한분석이용이함 데이터분석기법은? 다차원분석 데이터마이닝과통계분석 분석결과의시각화방법은? 직관적인의사결정이가능하도록시각화 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 24
비즈니스인텔리전스 - 다차원분석 다차원분석사례 매출액 $500 억 다차원모델링 - Cube 모델 다차원분석 년도별매출액은? 2003 년분기별매출액은? 2003 년 1 분기월별매출액은? 도시별매출액은? North/South 지역별매출액은? Dallas 지역의 Product E 에대한 2003 년분기별매출액은? 도시별로 2003 년월별매출액은? 제품별, 년도별매출액은? ( 수많은분석 ) 25M 30M 20M 11M 21M Roll-up Drill-down North 20 South Cube 수백개 cubes Q1 Jan 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 25
비즈니스인텔리전스 - 다차원분석 기존 DW & OLAP 의한계 분석대상 데이터특성 분석특성 분석의예 기존 DW & OLAP 분석 (BI) 주로과거데이터를분석하여현황을분석하는정적보고서작성 정형데이터위주의적은데이터를기존컴퓨터에서저장, 처리 온라인, 다차원분석위주 과거수년간매출정보를분석하여지역, 시간, 제품, 고객별로매출을집계함 ( 다차원분석 ) ( 참고 ) BA Business Analytics 빅데이터분석 (BA) 과거와현재데이터를실시간수집하여새로운정보를발견하고, 가까운미래를예측함 다양한유형의데이터 ( 문서, SNS, IoT, 오디오, 동영상등 ) 를클라우드등에분산저장, 분산처리함 데이터마이닝, 통계기법, 기계학습등심화분석과가시화중요 현재실시간으로발생하는데이터를바로수집, 연계통합, 분석함으로써미래예측 - 대형사고가터지기전에 30 개의작은사고가있고, 그전에 300 개징후가있음 ( 빅데이터로예측하자!) - SNS, 블로그등에올라오는고객불만을실시간으로분석하면적절한대처가가능함 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 26
빅데이터분석기술 Hive(http://hadoop.apache.org/hive/) : 빅데이터다차원분석 Data warehouse system 으로 Hadoop compatible file systems 에저장된 large datasets 에대하여간편한 data summarization, ad-hoc queries, analysis 기능을제공함 (OLAP) SQL-like 언어로하둡상에서맵리듀스처리를간단하게작성, 실행할수있는툴 Open source (Apache License), ANSI SQL 지원 Facebook 의 Main Data Warehousing System 으로활용됨 Pig(http://hadoop.apache.org/pig/) 스크립트언어형태로 MapReduce 프로그램을개발할수있는플랫폼으로현재 Hadoop 의서브프로젝트 Cascading 과유사하게고수준의처리를위한쉬운문법을제공하며스크립트형태이기때문에빠른프로그래밍및피드백이가능함 (Yahoo 에서주도적으로개발 ) 2016-09-30 27 Wan-Sup Cho (wscho@cbnu.ac.kr)
빅데이터분석기술 배치분석 : Script language 2016-09-30 28 Wan-Sup Cho (wscho@cbnu.ac.kr)
빅데이터분석기술 Splunk 빅데이터를빠르게처리 In-Memory based multidimensional analysis system 인피니플럭스 ( 한국 ) 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 29
빅데이터분석기술 R 언어 SAS, SPSS 의대안으로급성장 데이터를다루고분석하는데특화된언어 통계분석 ( 마이닝 ) 및시각화를위한언어혹은개발환경으로오픈소스임 수천가지라이브러리를사용하여기본적인통계분석기법부터모델링, 최신데이터마이닝기법까지구현 / 개선이가능 다양한분야에적용가능한마이닝기법들을제공함 마케팅, 금융, CRM( 고객관리 ), 생명공학및의학, GIS, Stream Data 등 Java, C/C++, Python 등다른프로그래밍언어와의연결용이 빅데이터분석이필요한조직에서대용량데이터통계분석과데이터마이닝을위한솔루션으로정착되고있음 예 : 약 30 라인으로 SNS (Twitter) 분석에서시각화까지구현할수있음 2016-09-30 30 Wan-Sup Cho (wscho@cbnu.ac.kr)
R 언어 Example : R 을사용한트위터팔로워분석과결과 : 단 20 여 line 으로결과생성! library(twitter) library(konlp) library(wordcloud) library(tm) gogamza <- getuser("gogamza") gogamza.followers <- gogamza$getfollowers() # 팔로워들의자기소개를벡터에적재한다. followerdesc <- c() for(i in gogamza.followers){ followerdesc <- append(followerdesc, i$description) } # 쓸모없는문자들을제거한다. followerdesc <- gsub("\n","", followerdesc) followerdesc <- gsub("\r", "", followerdesc) nouns <- Map(extractNoun, followerdesc) wordsvec <- unlist(nouns, use.name=f) # 쓸모없는문자들을제거한다. 특히영문자의경우 tm 의 stopwords 를활용한다. wordsvec <- wordsvec[-which(wordsvec %in% stopwords("english"))] wordsvec <- gsub("[[:punct:]]","", wordsvec) wordsvec <- Filter(function(x){nchar(x)>=2}, wordsvec) wordcount <- table(wordsvec) pal <- brewer.pal(8,"dark2") wordcloud(names(wordcount),freq=wordcount,scale=c(4,0.5),min.freq=10, random.order=t,rot.per=.1,colors=pal) 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 31
데이터마이닝 빅데이터분석기술 데이터로부터체계적이고자동적으로 ( 통계학에서패턴인식에이르는다양한계량기법을사용하여 ) 규칙이나패턴을찾아내는기술 데이터마이닝기법은통계학에서발전한탐색적자료분석, 가설검정, 다변량분석, 시계열분석, 일반선형모형등의방법론과데이터베이스측면에서발전한 OLAP ( 온라인분석처리 : On-Line Analytic Processing), 인공지능진영에서발전한 SOM(Self Organizing Maps), 신경망, 전문가시스템등의기술적인방법론이사용됨 빅데이터마이닝 빅데이터의특징인 대용량, 비정형, 실시간 마이닝이가능하도록기존의기법들을확장함 IoT/M2M 등의보편화로 Stream Data Mining 기술의필요성증대 2016-09-30 32 Wan-Sup Cho (wscho@cbnu.ac.kr)
빅데이터분석기술 데이터마이닝기술의종류 분류 (Classification) 일정한데이터집단에대한특성정의를기준으로분류함 예 : 경쟁자에게로이탈한고객들을분류함 군집화 (Clustering) 어떤특성을공유하는데이터그룹을찾음. 군집화는미리정의된특성에대한정보를갖지않는다는점에서분류와구분됨 ( 예 : 유사행동집단의구분 ) 연관관계 (Association) 관련이있는 ( 동시에발생하는 ) 데이터들을찾아냄 예 : 장바구니에서함께구매되는상품들 2016-09-30 33 Wan-Sup Cho (wscho@cbnu.ac.kr)
빅데이터분석기술 데이터마이닝기술의종류 ( 계속 ) 순차패턴 (Sequencing) 순차적으로발생하는데이터들을찾아냄 예 : 비디오대여순서정보 예측 (Forecasting) 대용량데이터집합내의패턴을기반으로미래를예측 예 : 수요예측 텍스트마이닝 자연어처리기술을기반으로텍스트의의미를자동으로파악함 예 : SNS 기반의고객감성분석 2016-09-30 34 Wan-Sup Cho (wscho@cbnu.ac.kr)
텍스트마이닝 빅데이터분석기술 텍스트기반의데이터 ( 문서 ) 로부터새로운정보를발견하는기술 다음과같은자연어처리기술도필요함 형태소분석기술 (morpheme processing technique) 구문분석기술 (syntactic processing technique) 문맥처리기술 (context processing technique) 의미처리기술 (semantic processing technique) 문장합성기술 (sentence generation technique) 관련분야 Data Mining : 데이터로부터새로운패턴이나지식발견 Web Mining : 웹상의데이터를분석하여지식을발견하는기술 Statistics : 통계학 Information Retrieval : 정보검색 Computational Linguistic & NLP : 자연언어분석및활용학문 2016-09-30 충북대학교 (wscho@cbnu.ac.kr) 35
빅데이터분석기술 응용분야 SNS 분석 갤럭시 3 화면이넓어짱이다 iphone4 무게가가벼워좋아. 갤럭시 3/ 화면 / 넓다 / 좋다 화면이크다 45% 디자인이예쁘다 25% 크기가작다 15% 화질이좋다 15% 긍정 부정 갤럭시3 30,599 1,500 iphone4 56,456 3,500 수집필터링 구어체전처리 형태소분석 개체명인식 구문분석 감성분석관계분석 이슈탐지모니터링 긍부정분석 게시판게시판게시판 소스데이터 사전 ( 개체명, 감성단어 ), 동의어 테러, 범죄, 재난 조기예측에응용됨 갤럭시 3 iphone4 갤 3 아폰 4 화면밧데리무게화질 2016-09-30 충북대학교 (wscho@cbnu.ac.kr) 36 제품 T 속성 T Dictionary 좋다넓다크다작다짱이다 감성단어 T
시각화란? 빅데이터시각화 (visualization) 방대한양의자료를분석해서한눈에볼수있도록도표나차트등으로정리하는것 시각화자체가분석의한 시각화의효과 데이터로부터정보를습득하는시간의절감으로즉각적인상황판단이가능해짐 자료를습득하는사람의흥미유발과빠른확산촉진 자료를기억하는데기여함 뉴욕타임스 ( 유권자분석 ) http://www.nytimes.com/interactive/2012/11/11/sundayreview/counties-moving.html?_r=0 2016-09-30 37 Wan-Sup Cho (wscho@cbnu.ac.kr)
시각화의예 시각화의예 나플레옹군이러시아원정에서완패하고모스크바로부터프랑스로복귀하는이동경로별로그들이겪은추위와병사감소를한눈에시각화 ( 샤를미나르, 1861 제작 ) 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 38
시각화의예 2016-09-30 39 * 출처 : 빅데이터를위한데이터시각화 ( 이지선 ) Wan-Sup Cho (wscho@cbnu.ac.kr)
시각화도구 2016-09-30 40 * 출처 : 빅데이터를위한데이터시각화 ( 이지선 ) Wan-Sup Cho (wscho@cbnu.ac.kr)
시각화도구 * 출처 : 빅데이터를위한데이터시각화 ( 이지선 ) 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 41
시각화도구들 시각화도구 엑셀, CVS/JSON, 구글차트 API, Flot, Rapheal, D3 (Data- Driven Documents), Visual.ly, NodeBo, R, Weka, Gephi 매핑 ( 지도 ) 도구 Modest Maps, Leaflet, Polymaps, OpenLayers, Kartograph, CartoDB 2016-09-30 42 Wan-Sup Cho (wscho@cbnu.ac.kr)
Big Data 관련기술 ( 요약 ) 2016-09-30 43 Wan-Sup Cho (wscho@cbnu.ac.kr)
Big Data 관련기술 ( 요약 ) 2016-09-30 44 Wan-Sup Cho (wscho@cbnu.ac.kr)