빅데이터_DAY key

Similar documents
김기남_ATDC2016_160620_[키노트].key

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

SECTION TITLE A PURE PRIMER (AI), // 1

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

PowerPoint 프레젠테이션

사회통계포럼

Data Scientist Shortage

슬라이드 1

Bigdata가 제공하는 구체적인 혜택과 변화 양상 기업의 데이터 기반의 의사결정 시스템 구축 의지 확대 양상 빅데이터를 활용한 경영 및 마케팅 지속적인 증가세 뚜렷 빅데이터를 도입한 기업은 사전 기대를 뛰어넘는 효과를 경험 본 조사 내용은 美 BARC- Researc

Global Bigdata 사용 현황 및 향후 활용 전망 빅데이터 미도입 이유 필요성 못느낌, 분석 가치 판단 불가 향후 투자를 집중할 분야는 보안 모니터링 분야 와 자동화 시스템 분야 빅데이터의 핵심 가치 - 트랜드 예측 과 제품 개선 도움 빅데이터 운영 애로 사항

<BFACB1B85F D333728BCDBC5C2B9CE295FC3D6C1BEC8AEC1A45FC0CEBCE2BFEB B8F1C2F7BCF6C1A42E687770>

歯목차45호.PDF

DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx

출원국 권 리 구 분 상 태 권리번호 KR 특허 등록

Data Industry White Paper

Microsoft Word - th1_Big Data 시대의 기술_ _조성우

PowerPoint 프레젠테이션

2017 1

슬라이드 1

PowerPoint 프레젠테이션

Ch 1 머신러닝 개요.pptx

RUCK2015_Gruter_public

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

Agenda

第 1 節 組 織 11 第 1 章 檢 察 의 組 織 人 事 制 度 등 第 1 項 大 檢 察 廳 第 1 節 組 대검찰청은 대법원에 대응하여 수도인 서울에 위치 한다(검찰청법 제2조,제3조,대검찰청의 위치와 각급 검찰청의명칭및위치에관한규정 제2조). 대검찰청에 검찰총장,대

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

비식별화 기술 활용 안내서-최종수정.indd

PowerPoint Presentation

Slide 1

Cloudera Toolkit (Dark) 2018

2014밝고고운동요부르기-수정3

2005프로그램표지

R을 이용한 텍스트 감정분석

자동화된 소프트웨어 정의 데이터센터


Microsoft PowerPoint - R-R1-유충현_ ppt [호환 모드]

Diapositiva 1

2-ITc03ÖÁ¾š

PowerPoint Presentation

따끈따끈한 한국 Azure 데이터센터 서비스를 활용한 탁월한 데이터 분석 방안 (To be named)

쿠폰형_상품소개서

슬라이드 1

Contents SEOUL NATIONAL UNIVERSITY FUTURE INTEGRATED-TECHNOLOGY PROGRAM FIP 13 FIP

SEOUL NATIONAL UNIVERSITY FUTURE INTEGRATED-TECHNOLOGY PROGRAM 13 : (IoT), 4.0,,,,,, CEO. 13 : ( ) ~ 11 1 ( ) : 310

빅데이터처리의핵심인 Hadoop 을오라클은어떻게지원하나요? Oracle Big Data Appliance Solution 01 빅데이터처리를위한전문솔루션이 Oracle Big Data Appliance 군요. Oracle Big Data Appliance 와함께라면더이


[한반도]한국의 ICT 현주소(송부)

DW 개요.PDF

gcp

정보화 산업의 발전단계 : 정보혁명의 진화 정보화 산업의 발전단계 1세기에 두 번 정도의 큰 기술혁명이 이루어져 경제성장의 원동력으로 작용 uit 시대는 정보혁명 중 인터넷 이후의 새로운 기술혁명인 컨버전스 기술이 핵심이 되는 시대 uit 시대는 정보화의 극대화와 타

CTS사보-2월


2015

<C1A4C3A5B8DEB8F05FC1A C8A35F534E535FBAF220B5A5C0CCC5CD20C8B0BFEBB0FA20B0ADBFF8B0FCB1A42E687770>

PowerPoint 프레젠테이션

세션 Tutorial 1 강연 시간 5/11(수) 09:30-11:30 주 제 5G System: Vision & Enabling Technologies 성 명 강충구 소속기관명 고려대학교 부서/학과명 전기전자공학부 직 위 교수 5G 이동통신의 응용 분야에 따른 기술

¿ÀǼҽº°¡À̵å1 -new

Basic Template

Microsoft Word doc

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

untitled

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

PowerPoint 프레젠테이션

Google_1±³

Ç¥Áö-¸ñÂ÷

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

슬라이드 1

Microsoft Word - 김완석.doc

이 논문은 2005년 노동부의 ‘해외진출기업의 인력관리 및 활용 지원방안’에 관한 학술연구용역사업의 일환으로 연구되었음

슬라이드 1

歯CRM-All.PDF

Microsoft PowerPoint - 3주차.pptx

Slide 1

빅데이터, 데이터사이언스, 예측분석, 머신러닝, 인공지능?

바른 정책

레이아웃 1

PowerPoint 프레젠테이션

RM hwp

PowerPoint Presentation


IPAK 윤리강령 나는 _ 한국IT전문가협회 회원으로서 긍지와 보람을 느끼며 정보시스템 활용하 자. 나는 _동료, 단체 및 국가 나아가 인류사회에 대하여 철저한 책임 의식을 가진 다. 나는 _ 활용자에 대하여 그 편익을 증진시키는데 최선을 다한다. 나는 _ 동료에 대해

<B4DCC0A7BBE7BEF7BAB8B0EDBCAD30345FC3A2C0DBC1F6BDC4BBFDC5C2B0E85FC1A6BABB5FC3D6C1BEBCF6C1A42E687770>

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

ePapyrus PDF Document

<30332DB1E2C8B9C6AFC1FD28B7F9C0E7C8AB D E687770>

Slide 1

Microsoft PowerPoint - 6.CRM_Consulting.ppt

Output file

Business Intelligence

PowerPoint 프레젠테이션

<C7D1B1B9B1B3C0B0B0B3B9DFBFF85FC7D1B1B9B1B3C0B05F3430B1C733C8A35FC5EBC7D5BABB28C3D6C1BE292DC7A5C1F6C6F7C7D42E687770>

sdf

Intra_DW_Ch4.PDF

I I-1 I-2 I-3 I-4 I-5 I-6 GIS II II-1 II-2 II-3 III III-1 III-2 III-3 III-4 III-5 III-6 IV GIS IV-1 IV-2 (Complement) IV-3 IV-4 V References * 2012.

PowerPoint 프레젠테이션

2017 1

슬라이드 1

<BFACB1B831382D31355FBAF2B5A5C0CCC5CD20B1E2B9DDC0C720BBE7C0CCB9F6C0A7C7E820C3F8C1A4B9E6B9FD20B9D720BBE7C0CCB9F6BBE7B0ED20BFB9C3F8B8F0C7FC20BFACB1B82D33C2F7BCF6C1A E687770>

Transcription:

Big Data Near You 2016. 06. 16 Prof. Sehyug Kwon Dept. of Statistics

4V s of Big Data Volume Variety Velocity Veracity Value 대용량 다양한 유형 실시간 정보 (불)확실성 가치 tera(1,0004) - peta -exazetta(10007) bytes in 2020 텍스트 마이닝 통화내역, 카드사용내역 (비)정형화 포멧 회사, 정부: DB-DW-Data mart 이미지, 멀티미디어 Streaming data 실시간 분석결과 2 데이터 이력 딥러닝, 학습효과 불확실성=비용 비즈니즈 정보 1/3 CEO 의사결정 불신

Three Experts in Big Data Hadoop (분산파일처리) MapReduce (분산프로그래밍모델) Java / Python / Ruby NoSQL, DB Apache Spark 개발자 관리자 하둡, 리눅스 관리 Cluster Management Cluster Performance Virtualization 3 데이터 과학 - 모델링 기계학습, 마이닝기법 빅데이터 벤더 : R/SAS 데이터 Visualization 데이터 분석가

Leaders in Big Data http://www.kdnuggets.com/2015/05/poll-r-rapidminer-python-big-data-spark.html 4

Leaders in Big Data (cont.) 5

Big Data Flow Technology Driven 수집전처리 저장후처리 Query 분석 도구 분석 기법의사결정 Visualization Unsupervised Learning 하둡 Hive Mahout Social Media analytics MapReduce Sentiment analysis SAS-Insight HDFS Predictive modeling Warehousing + E-Minor Visualization Simulation open source R Collecting 13,051 Biz. Driven Processing 14,216 Analysis 18,877 20,509

Case in Big Data 7

Does this Data Scientist exist in the world? 통계모델링 기계학습 최적화 지도학습 : 의사결정나무, 판별분석 Program &DB Statistics 자율학습 : 프로그래밍언어 DB SQL/NoSQL (Python) MapReduce 통계소프트웨어(R) Hadoop-Hive/ Pig 군집분석. 차원축소 Field Expert 경험과 충분한 지식 비즈니스 열정 데이터 관심 Visualization 문제 해결능력 전략, 창의, 협력 비즈니스 보고서 스토리텔링 데이터 기반 인사이트 -> 의사결정 플랜 8 비쥬얼레포팅 시각화 : Flare, Taleau 그래픽툴 : R (ggplot, lattice)

Supervised Learning 기계학습 기계학습 기법에서는 최적 모형의 탐색 및 선정은 통계분석가에 의해 진행 - 예측 및 판별이 주 목적 훈련 Trained(목표변수(target)=함수(예측변수 predictors) 관계를 도출)-검증 Validation(모형의 타당성을 검증)-평가 Test(서로 다른 통계적 방법들의 평가 인공지능 (컴퓨터 학습할 수 있도록 하는 알고리즘과 기술) 반복 학습 알고리즘 이용 한 데이터 인사이트 탐색 - (예) 스팸 메일 검증여부 Deep Learning: (Unsupervised Learning) 기계 학습의 한 영역으로, 특히 음성/텍스트/이미지 인식 분야에서 획기적인 발전을 거듭하며 급성장하고 있음, 기본 원리 : 다수의 히든 레이어를 갖춘 신경망을 통해 컴퓨터가 태스크를 학습하고 정보를 체계화하여 스스로 패턴을 찾아낼 수 있게 하는 것입니다. 9

Supervised Learning (cont.) 판별분석, 예측모형 : 신용평가 모형 예측변수(input) 활용 판별규칙 SVM 패턴인식, 지도학습 분류, 회귀분석에 사용 Artificial Neural Network 인공신경망 인공뉴런(노드)이 학습을 통한 문제해결 교사학습 vs. 비교사 학습(기계학습) 의사결정나무 타이타닉 생존자 분류 10

Un-Supervised Learning 자율학습 군집분석 : 집단 분류가 없는 개체들을 개체 내의 내재된 관계를 설명하는 함수(유사 성의 함수)를 활요하여 분류 계층적 군집 - (Linkage 연결-덴드로그램) 비계층적 군집 - K-means 신경망 이론 SOM(self organizing map), ART(adaptive resonance theory) 알고리즘 11

Sentiment Analysis Opinion Mining 오피니언 마이닝 12

Twitter mining with R R-설치 http://r-project.org R-Studio 설치 http://rstudio.com Twitter Apps 계정받기 http://apps.twitter.com 13

Social Media Analytic 14

Social Media Analytic with Google Analytics http://analytics.google.com 15

My webpages : Google analytics 16

My webpages : Google analytics (cont.) 17

Big Data & R 18

Big data with R ggplot2() install.packages( ggmap ); install.packages("ggplot2") library(ggplot2); library(ggmap) # # # # maptype=c("terrain", "terrain-background", "satellite", "roadmap", "hybrid", "toner", "watercolor", "terrain-labels", "terrain-lines", "toner-2010", "toner-2011", "toner-background", "toner-hybrid", "toner-labels", "toner-lines", "toner-lite") uni_seoul <- read.csv("서울 11개 대학.csv", header=t) seoul <- get_map("seoul", zoom=11, maptype = "roadmap") seoul_map <- ggmap(seoul) seoul_map <- seoul_map + geom_jitter( data=uni_seoul, aes(x=경도, y=위도, size = 학생수,color=학교명)) + scale_size(name="학생수") seoul_map + geom_text(data=uni_seoul, aes(x = 경도, y = 위도, label=학교명),size=3,col="blue") #====================================================================== uni_daejeon <- read.csv("대전 5개 대학.csv", header=t) daejeon <- get_map("daejeon", zoom=12, maptype = "roadmap") daejeon_map <- ggmap(daejeon) daejeon_map <- daejeon_map + geom_jitter( data=uni_daejeon, aes(x=경도, y=위도, size = 학생수,color=학교명)) + scale_size(name="학생수") daejeon_map + geom_text(data=uni_daejeon, aes(x = 경도, y = 위도, label=학교명),size=3,col="blue") 19

ggplot2 결과 20

Big data with R lattice() 21

Still going 22