Microsoft PowerPoint - 3주차.pptx

Similar documents
슬라이드 1

Microsoft PowerPoint - 4주차.pptx

슬라이드 1

빅데이터_DAY key

DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

출원국 권 리 구 분 상 태 권리번호 KR 특허 등록

Intra_DW_Ch4.PDF

DW 개요.PDF

PowerPoint 프레젠테이션

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

김기남_ATDC2016_160620_[키노트].key

Microsoft Word - th1_Big Data 시대의 기술_ _조성우

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

PowerPoint 프레젠테이션

Microsoft PowerPoint - 3장-MS SQL Server.ppt [호환 모드]

슬라이드 제목 없음

비식별화 기술 활용 안내서-최종수정.indd

Oracle Apps Day_SEM

빅데이터처리의핵심인 Hadoop 을오라클은어떻게지원하나요? Oracle Big Data Appliance Solution 01 빅데이터처리를위한전문솔루션이 Oracle Big Data Appliance 군요. Oracle Big Data Appliance 와함께라면더이

Microsoft PowerPoint - CNVZNGWAIYSE.pptx

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

Basic Template

RED HAT JBoss Data Grid (JDG)? KANGWUK HEO Middleware Solu6on Architect Service Team, Red Hat Korea 1

ecorp-프로젝트제안서작성실무(양식3)

RUCK2015_Gruter_public

PowerPoint 프레젠테이션

빅데이터분산컴퓨팅-5-수정

<BFACB1B85F D333728BCDBC5C2B9CE295FC3D6C1BEC8AEC1A45FC0CEBCE2BFEB B8F1C2F7BCF6C1A42E687770>

클라우드컴퓨팅확산에따른국내경제시사점 클라우드컴퓨팅확산에따른국내경제시사점 * 1) IT,,,, Salesforce.com SaaS (, ), PaaS ( ), IaaS (, IT ), IT, SW ICT, ICT IT ICT,, ICT, *, (TEL)

<4D F736F F F696E74202D E DB0FCB0E820BBE7BBF3BFA120C0C7C7D120B0FCB0E820B5A5C0CCC5CDBAA3C0CCBDBA20BCB3B0E8>

DBMS & SQL Server Installation Database Laboratory

Ubiqutious Pubilc Access Reference Model

Chapter 5 비즈니스인텔리젼스의기초 : 데이터베이스와정보관리

PlatformDay2009-Hadoop_OSBI-YoungwooKim

Portal_9iAS.ppt [읽기 전용]

문서의 제목 나눔고딕B, 54pt

歯목차45호.PDF

ETL_project_best_practice1.ppt

위세아이텍_iOLAP_

dbms_snu.PDF


Global Bigdata 사용 현황 및 향후 활용 전망 빅데이터 미도입 이유 필요성 못느낌, 분석 가치 판단 불가 향후 투자를 집중할 분야는 보안 모니터링 분야 와 자동화 시스템 분야 빅데이터의 핵심 가치 - 트랜드 예측 과 제품 개선 도움 빅데이터 운영 애로 사항

빅데이터시대 Self-BI 전략 이혁재이사 비아이씨엔에스

PowerPoint 프레젠테이션

IPAK 윤리강령 나는 _ 한국IT전문가협회 회원으로서 긍지와 보람을 느끼며 정보시스템 활용하 자. 나는 _동료, 단체 및 국가 나아가 인류사회에 대하여 철저한 책임 의식을 가진 다. 나는 _ 활용자에 대하여 그 편익을 증진시키는데 최선을 다한다. 나는 _ 동료에 대해

PowerPoint 프레젠테이션

따끈따끈한 한국 Azure 데이터센터 서비스를 활용한 탁월한 데이터 분석 방안 (To be named)

PowerPoint 프레젠테이션

PowerPoint Presentation

Bigdata가 제공하는 구체적인 혜택과 변화 양상 기업의 데이터 기반의 의사결정 시스템 구축 의지 확대 양상 빅데이터를 활용한 경영 및 마케팅 지속적인 증가세 뚜렷 빅데이터를 도입한 기업은 사전 기대를 뛰어넘는 효과를 경험 본 조사 내용은 美 BARC- Researc

슬라이드 1

3 장. 데이터와경영정보시스템

Microsoft PowerPoint - S4_통계분석시스템.ppt

분산처리 프레임워크를 활용한대용량 영상 고속분석 시스템

PowerPoint Template

PowerPoint 프레젠테이션

Diapositiva 1

슬라이드 1

I I-1 I-2 I-3 I-4 I-5 I-6 GIS II II-1 II-2 II-3 III III-1 III-2 III-3 III-4 III-5 III-6 IV GIS IV-1 IV-2 (Complement) IV-3 IV-4 V References * 2012.

Cover Story 빅데이터플랫폼 Big Data 시대의엔터프라이즈인프라스트럭처 ORACLE KOREA MAGAZINE Spring 개요빅데이터를처리하는기술의가장중심기술은아파치하둡기술일것이다. 하둡기술은데이터를취득하고이를구조화시키고분석을하는일련의과정에

Semantic Search and Data Interoperability for GeoWeb

슬라이드 1

Web Application Hosting in the AWS Cloud Contents 개요 가용성과 확장성이 높은 웹 호스팅은 복잡하고 비용이 많이 드는 사업이 될 수 있습니다. 전통적인 웹 확장 아키텍처는 높은 수준의 안정성을 보장하기 위해 복잡한 솔루션으로 구현

MySQL-.. 1

Æí¶÷4-¼Ö·ç¼Çc03ÖÁ¾š

<31302DB1E8BDC2B1C72E687770>

소프트웨어 정의 스토리지

Slide 1

2017 1

목 차 요약문 I Ⅰ. 연구개요 1 Ⅱ. 특허검색 DB 및시스템조사 5

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

<C1A62038B0AD20B0ADC0C7B3EBC6AE2E687770>

고객 지향적인 IT 투자와 운영이 요구되는 시대! 2014년 현재 유통, 서비스 업계의 정보화 화두는 BYOD 수용과 고객의 마음을 읽는 분석 입니다. Market Overview _ Cross Industry 의 정보화 동향 유통과 서비스 업계의 IT 환경은 발 빠르

CRM Fair 2004

[Brochure] KOR_TunA

목 차

Microsoft PowerPoint - 8주차.pptx

¿ÀǼҽº°¡À̵å1 -new

ISO/IEC 의온톨로지와메타데이터 표준화동향 한국과학기술정보연구원 김장원

슬라이드 1

Apache Ivy

Data Industry White Paper

Microsoft Word - 김완석.doc

슬라이드 1

PowerPoint 프레젠테이션

백봉현, 하일규, 안병철 Bong-Hyun Back, Ilkyu Ha, ByoungChul Ahn 1. 서론 최근들어소셜네트워크활성화로 에서발생하는대량의데이터 로부터정보를추출하여이를정치 경제 개인서비 스 연애등다양한분야에활용하고자하는노력이 계속되고있다 상의데이터를빠르게

금오공대 컴퓨터공학전공 강의자료

슬라이드 제목 없음

PowerPoint 프레젠테이션

5 주차 -mongodb 설치잠깐! CAP 이론 NoSQL이나온이유와 MongoDB NoSQL의데이터저장구조에따른세가지분류 RDBMS와 NoSQL특성비교 RDBMS와 NoSQL의사용시기 MongoDB 소개및특징 MongoDB와 RDBMS와의공통 MongoDB CRUD

aws

들어가는글 2012년 IT 분야에서최고의관심사는아마도빅데이터일것이다. 관계형데이터진영을대표하는오라클은 2011년 10월개최된 오라클오픈월드 2011 에서오라클빅데이터어플라이언스 (Oracle Big Data Appliance, 이하 BDA) 를출시한다고발표하였다. 이와

PowerPoint 프레젠테이션

Microsoft PowerPoint - QVIZMVUMWURI.pptx

R을 이용한 텍스트 감정분석

15_3oracle

PowerPoint 프레젠테이션

Service-Oriented Architecture Copyright Tmax Soft 2005

<49534F C0CEC1F520BBE7C8C4BDC9BBE720C4C1BCB3C6C320B9D D20BDC3BDBAC5DB20B0EDB5B5C8AD20C1A6BEC8BFE4C3BBBCAD2E687770>

Transcription:

2016.08 조완섭충북대학교경영정보학과대학원비즈니스데이터융합학과 wscho@chungbuk.ac.kr 043-261-3258 010-2487-3691 빅데이터기술

목차 개요 빅데이터기술 클라우드컴퓨팅 Hadoop & Databases 데이터분석기술 다차원분석 통계분석 : R 데이터마이닝 빅데이터시각화기술 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 2

개요 빅데이터 - 새로운 IT 기술과분석기술이요구됨 기존방식으로처리하기엔데이터규모가크고컴퓨팅파워가부족하기때문 신사업창출비즈니스지능화, 최적화마이닝, R- 통계분석 고도분석기술 SW 기술 (SW 인프라 ) Cloud Computing (HW인프라) 3 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 3

빅데이터기술 2016-09-30 4 Wan-Sup Cho (wscho@cbnu.ac.kr)

빅데이터기술 빅데이터표준 시스템관리기술 빅데이터전송기술 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 5

클라우드컴퓨팅 인터넷으로연결된여러컴퓨터들을사용하여빅데이터를분산저장하고분산처리하는고성능컴퓨터 User Interface User Interface 자원관리 분산데이터베이스 분산파일시스템 User Interface 노드 ( 컴퓨터 ) 관리 부하분산 분산컴퓨팅 User Interface 프로비저닝 Cloud System ( 동적자원할당 ) User Interface User Interface 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 6

클라우드컴퓨팅의정의 클라우드컴퓨팅 ( 출처 ) 최근클라우드컴퓨팅서비스동향 (Net Term) 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 7

클라우드컴퓨팅 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 8

클라우드컴퓨팅 ( 출처 ) 최근클라우드컴퓨팅서비스동향 (Net Term) 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 9

클라우드컴퓨팅 서비스유형 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 10

Hadoop 클라우드컴퓨터의각노드에데이터를분산저장하고, 분산처리하는기술 ( 분산파일시스템 ) 분산저장시스템 : Hadoop 분산파일시스템 (HDFS : Hadoop Distributed File System) 파일을적당한크기로나눠서각노드에분산저장함 데이타유실이나부하분산을위해각블록의복사본 (Replication) 을유지함 분산처리시스템 : MapReduce 프레임워크 Map 함수는데이터를여러개의조각으로나눠서여러대의컴퓨터에서분산처리함 Reduce 함수각노드가계산한결과를하나로통합함 Big Data 분산처리 분산저장 Cloud Computer 2016-09-30 11 Wan-Sup Cho (wscho@cbnu.ac.kr)

Hadoop MapReduce ( 출처 ) http://ht.ly/yyhw301als1 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 12

Hadoop MapReduce MapReduce 를활용한단어출현횟수 counting 2016-09-30 13 Wan-Sup Cho (wscho@cbnu.ac.kr)

Hadoop MapReduce MapReduce 기술 컬러사각형개수 counting 2016-09-30 14 Wan-Sup Cho (wscho@cbnu.ac.kr)

Database system 구조 데이터베이스시스템 사용자 / 프로그래머 실세계정보 Database System 응용프로그램 / 질의 DBMS 질의 / 프로그램을수행하는 SW + 디스크를접근하는 SW 메타데이타 + 데이타베이스 tables 데이터공유일치성보장보안, 권한관리등그러나, 정형화된데이터관리용빅데이터? 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 15

데이터베이스시스템 Company Database 예제 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 16

데이터베이스시스템 SELECT FNAME, LNAME, SEX, ADDRESS, SALARY FROM EMPLOYEE WHERE SALARY > 25000; SELECT FNAME, LNAME, SEX, ADDRESS, SALARY FROM EMPLOYEE WHERE SALARY > 25000 AND SEX = M ; SQL (DB 언어 ) Structured Query Language Q10_2: Wong 이관리하는 Projects SELECT DISTINCT PNUMBER FROM PROJECT WHERE PNUMBER In (SELECT PNUMBER // {1, 2, 3} FROM PROJECT, DEPARTMENT, EMPLOYEE WHERE DNUM=DNUMBER AND MGRSSN=SSN AND LNAME="Wong"); 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 17

데이터베이스시스템 기존관계데이터베이스시스템의한계 빅데이터저장과분석에는적합하지않음 작은데이터 한대의컴퓨터에저장관리 정형화된데이터 모든데이터는테이블에저장함 실시간성이강조되지않은영역 분석용도가아니라트랜잭션처리용으로연구개발됨 데이터베이스변경이자주일어나며, 데이터일치성보장이중요 분석기능이미흡함 다차원분석기능보완 => DW, OLAP 데이터마이닝과통계분석기능보완 => R, SAS, 빅데이터용 DBMS 의출현 수많은 NoSQL DBMS (2016 년 7 월현재 225 개이상출현 ) 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 18

데이터이스시스템 빅데이터 NoSQL (Not Only SQL) 기존의 RDBMS 는빅데이터처리에적합하지않음 작은데이터, 정형화된데이터, 실시간처리필요성이적은분야 NoSQL 은빅데이터분석에적합한 DBMS RDBMS 에서제공하는데이터의일관성과유효성은보장하지않음 (Read only, 분석용으로적합 ) 200 여개이상의 NoSQL 제품이보급됨 BigTable, Dynamo, Cassandra, CouchDB, MongoDB, Hbase, Riak, Voldemort 등 Oracle NoSQL DB2.0 출시 (2012.01) NoSQL 의종류 컬럼형식 DB 문서형식 DB 그래프 DB 인메모리키 - 값 DB 2016-09-30 19 Wan-Sup Cho (wscho@cbnu.ac.kr)

데이터이스시스템 빅데이터 ( 출처 ) https://aws.amazon.com/ko/nosql/ 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 20

데이터이스시스템 빅데이터 ( 출처 ) https://aws.amazon.com/ko/nosql/ 데이터모델 ACID 속성 성능 확장가능 API 도구 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 21

데이터이스시스템 빅데이터 ( 출처 ) http://nosql-database.org/ 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 22

비즈니스인텔리전스 - 다차원분석 Data Warehouse(DW), OLAP DW : 의사결정용데이터베이스 OLAP (On-line Analytical Processing) 은 data warehouse 상에서온라인다차원분석처리를지원하는도구 일반사원일상업무지원 최고경영자의사결정지원 DBMS OLAP 외부 ETL 업무용 DB 재무인사 Extraction Transformation Loading (Integration) 데이터웨어하우스 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 23

비즈니스인텔리전스 - 다차원분석 다차원분석절차 의사결정요구사항은? 관련데이터확보는? ETL 도구활용 데이터저장방법은? 수집된데이터를어떠한구조로저장하는가? 큐브모델 / 스타스키마형태로저장함 ; 다양한분석이용이함 데이터분석기법은? 다차원분석 데이터마이닝과통계분석 분석결과의시각화방법은? 직관적인의사결정이가능하도록시각화 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 24

비즈니스인텔리전스 - 다차원분석 다차원분석사례 매출액 $500 억 다차원모델링 - Cube 모델 다차원분석 년도별매출액은? 2003 년분기별매출액은? 2003 년 1 분기월별매출액은? 도시별매출액은? North/South 지역별매출액은? Dallas 지역의 Product E 에대한 2003 년분기별매출액은? 도시별로 2003 년월별매출액은? 제품별, 년도별매출액은? ( 수많은분석 ) 25M 30M 20M 11M 21M Roll-up Drill-down North 20 South Cube 수백개 cubes Q1 Jan 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 25

비즈니스인텔리전스 - 다차원분석 기존 DW & OLAP 의한계 분석대상 데이터특성 분석특성 분석의예 기존 DW & OLAP 분석 (BI) 주로과거데이터를분석하여현황을분석하는정적보고서작성 정형데이터위주의적은데이터를기존컴퓨터에서저장, 처리 온라인, 다차원분석위주 과거수년간매출정보를분석하여지역, 시간, 제품, 고객별로매출을집계함 ( 다차원분석 ) ( 참고 ) BA Business Analytics 빅데이터분석 (BA) 과거와현재데이터를실시간수집하여새로운정보를발견하고, 가까운미래를예측함 다양한유형의데이터 ( 문서, SNS, IoT, 오디오, 동영상등 ) 를클라우드등에분산저장, 분산처리함 데이터마이닝, 통계기법, 기계학습등심화분석과가시화중요 현재실시간으로발생하는데이터를바로수집, 연계통합, 분석함으로써미래예측 - 대형사고가터지기전에 30 개의작은사고가있고, 그전에 300 개징후가있음 ( 빅데이터로예측하자!) - SNS, 블로그등에올라오는고객불만을실시간으로분석하면적절한대처가가능함 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 26

빅데이터분석기술 Hive(http://hadoop.apache.org/hive/) : 빅데이터다차원분석 Data warehouse system 으로 Hadoop compatible file systems 에저장된 large datasets 에대하여간편한 data summarization, ad-hoc queries, analysis 기능을제공함 (OLAP) SQL-like 언어로하둡상에서맵리듀스처리를간단하게작성, 실행할수있는툴 Open source (Apache License), ANSI SQL 지원 Facebook 의 Main Data Warehousing System 으로활용됨 Pig(http://hadoop.apache.org/pig/) 스크립트언어형태로 MapReduce 프로그램을개발할수있는플랫폼으로현재 Hadoop 의서브프로젝트 Cascading 과유사하게고수준의처리를위한쉬운문법을제공하며스크립트형태이기때문에빠른프로그래밍및피드백이가능함 (Yahoo 에서주도적으로개발 ) 2016-09-30 27 Wan-Sup Cho (wscho@cbnu.ac.kr)

빅데이터분석기술 배치분석 : Script language 2016-09-30 28 Wan-Sup Cho (wscho@cbnu.ac.kr)

빅데이터분석기술 Splunk 빅데이터를빠르게처리 In-Memory based multidimensional analysis system 인피니플럭스 ( 한국 ) 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 29

빅데이터분석기술 R 언어 SAS, SPSS 의대안으로급성장 데이터를다루고분석하는데특화된언어 통계분석 ( 마이닝 ) 및시각화를위한언어혹은개발환경으로오픈소스임 수천가지라이브러리를사용하여기본적인통계분석기법부터모델링, 최신데이터마이닝기법까지구현 / 개선이가능 다양한분야에적용가능한마이닝기법들을제공함 마케팅, 금융, CRM( 고객관리 ), 생명공학및의학, GIS, Stream Data 등 Java, C/C++, Python 등다른프로그래밍언어와의연결용이 빅데이터분석이필요한조직에서대용량데이터통계분석과데이터마이닝을위한솔루션으로정착되고있음 예 : 약 30 라인으로 SNS (Twitter) 분석에서시각화까지구현할수있음 2016-09-30 30 Wan-Sup Cho (wscho@cbnu.ac.kr)

R 언어 Example : R 을사용한트위터팔로워분석과결과 : 단 20 여 line 으로결과생성! library(twitter) library(konlp) library(wordcloud) library(tm) gogamza <- getuser("gogamza") gogamza.followers <- gogamza$getfollowers() # 팔로워들의자기소개를벡터에적재한다. followerdesc <- c() for(i in gogamza.followers){ followerdesc <- append(followerdesc, i$description) } # 쓸모없는문자들을제거한다. followerdesc <- gsub("\n","", followerdesc) followerdesc <- gsub("\r", "", followerdesc) nouns <- Map(extractNoun, followerdesc) wordsvec <- unlist(nouns, use.name=f) # 쓸모없는문자들을제거한다. 특히영문자의경우 tm 의 stopwords 를활용한다. wordsvec <- wordsvec[-which(wordsvec %in% stopwords("english"))] wordsvec <- gsub("[[:punct:]]","", wordsvec) wordsvec <- Filter(function(x){nchar(x)>=2}, wordsvec) wordcount <- table(wordsvec) pal <- brewer.pal(8,"dark2") wordcloud(names(wordcount),freq=wordcount,scale=c(4,0.5),min.freq=10, random.order=t,rot.per=.1,colors=pal) 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 31

데이터마이닝 빅데이터분석기술 데이터로부터체계적이고자동적으로 ( 통계학에서패턴인식에이르는다양한계량기법을사용하여 ) 규칙이나패턴을찾아내는기술 데이터마이닝기법은통계학에서발전한탐색적자료분석, 가설검정, 다변량분석, 시계열분석, 일반선형모형등의방법론과데이터베이스측면에서발전한 OLAP ( 온라인분석처리 : On-Line Analytic Processing), 인공지능진영에서발전한 SOM(Self Organizing Maps), 신경망, 전문가시스템등의기술적인방법론이사용됨 빅데이터마이닝 빅데이터의특징인 대용량, 비정형, 실시간 마이닝이가능하도록기존의기법들을확장함 IoT/M2M 등의보편화로 Stream Data Mining 기술의필요성증대 2016-09-30 32 Wan-Sup Cho (wscho@cbnu.ac.kr)

빅데이터분석기술 데이터마이닝기술의종류 분류 (Classification) 일정한데이터집단에대한특성정의를기준으로분류함 예 : 경쟁자에게로이탈한고객들을분류함 군집화 (Clustering) 어떤특성을공유하는데이터그룹을찾음. 군집화는미리정의된특성에대한정보를갖지않는다는점에서분류와구분됨 ( 예 : 유사행동집단의구분 ) 연관관계 (Association) 관련이있는 ( 동시에발생하는 ) 데이터들을찾아냄 예 : 장바구니에서함께구매되는상품들 2016-09-30 33 Wan-Sup Cho (wscho@cbnu.ac.kr)

빅데이터분석기술 데이터마이닝기술의종류 ( 계속 ) 순차패턴 (Sequencing) 순차적으로발생하는데이터들을찾아냄 예 : 비디오대여순서정보 예측 (Forecasting) 대용량데이터집합내의패턴을기반으로미래를예측 예 : 수요예측 텍스트마이닝 자연어처리기술을기반으로텍스트의의미를자동으로파악함 예 : SNS 기반의고객감성분석 2016-09-30 34 Wan-Sup Cho (wscho@cbnu.ac.kr)

텍스트마이닝 빅데이터분석기술 텍스트기반의데이터 ( 문서 ) 로부터새로운정보를발견하는기술 다음과같은자연어처리기술도필요함 형태소분석기술 (morpheme processing technique) 구문분석기술 (syntactic processing technique) 문맥처리기술 (context processing technique) 의미처리기술 (semantic processing technique) 문장합성기술 (sentence generation technique) 관련분야 Data Mining : 데이터로부터새로운패턴이나지식발견 Web Mining : 웹상의데이터를분석하여지식을발견하는기술 Statistics : 통계학 Information Retrieval : 정보검색 Computational Linguistic & NLP : 자연언어분석및활용학문 2016-09-30 충북대학교 (wscho@cbnu.ac.kr) 35

빅데이터분석기술 응용분야 SNS 분석 갤럭시 3 화면이넓어짱이다 iphone4 무게가가벼워좋아. 갤럭시 3/ 화면 / 넓다 / 좋다 화면이크다 45% 디자인이예쁘다 25% 크기가작다 15% 화질이좋다 15% 긍정 부정 갤럭시3 30,599 1,500 iphone4 56,456 3,500 수집필터링 구어체전처리 형태소분석 개체명인식 구문분석 감성분석관계분석 이슈탐지모니터링 긍부정분석 게시판게시판게시판 소스데이터 사전 ( 개체명, 감성단어 ), 동의어 테러, 범죄, 재난 조기예측에응용됨 갤럭시 3 iphone4 갤 3 아폰 4 화면밧데리무게화질 2016-09-30 충북대학교 (wscho@cbnu.ac.kr) 36 제품 T 속성 T Dictionary 좋다넓다크다작다짱이다 감성단어 T

시각화란? 빅데이터시각화 (visualization) 방대한양의자료를분석해서한눈에볼수있도록도표나차트등으로정리하는것 시각화자체가분석의한 시각화의효과 데이터로부터정보를습득하는시간의절감으로즉각적인상황판단이가능해짐 자료를습득하는사람의흥미유발과빠른확산촉진 자료를기억하는데기여함 뉴욕타임스 ( 유권자분석 ) http://www.nytimes.com/interactive/2012/11/11/sundayreview/counties-moving.html?_r=0 2016-09-30 37 Wan-Sup Cho (wscho@cbnu.ac.kr)

시각화의예 시각화의예 나플레옹군이러시아원정에서완패하고모스크바로부터프랑스로복귀하는이동경로별로그들이겪은추위와병사감소를한눈에시각화 ( 샤를미나르, 1861 제작 ) 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 38

시각화의예 2016-09-30 39 * 출처 : 빅데이터를위한데이터시각화 ( 이지선 ) Wan-Sup Cho (wscho@cbnu.ac.kr)

시각화도구 2016-09-30 40 * 출처 : 빅데이터를위한데이터시각화 ( 이지선 ) Wan-Sup Cho (wscho@cbnu.ac.kr)

시각화도구 * 출처 : 빅데이터를위한데이터시각화 ( 이지선 ) 2016-09-30 Wan-Sup Cho (wscho@cbnu.ac.kr) 41

시각화도구들 시각화도구 엑셀, CVS/JSON, 구글차트 API, Flot, Rapheal, D3 (Data- Driven Documents), Visual.ly, NodeBo, R, Weka, Gephi 매핑 ( 지도 ) 도구 Modest Maps, Leaflet, Polymaps, OpenLayers, Kartograph, CartoDB 2016-09-30 42 Wan-Sup Cho (wscho@cbnu.ac.kr)

Big Data 관련기술 ( 요약 ) 2016-09-30 43 Wan-Sup Cho (wscho@cbnu.ac.kr)

Big Data 관련기술 ( 요약 ) 2016-09-30 44 Wan-Sup Cho (wscho@cbnu.ac.kr)