Big Data Near You 2016. 06. 16 Prof. Sehyug Kwon Dept. of Statistics
4V s of Big Data Volume Variety Velocity Veracity Value 대용량 다양한 유형 실시간 정보 (불)확실성 가치 tera(1,0004) - peta -exazetta(10007) bytes in 2020 텍스트 마이닝 통화내역, 카드사용내역 (비)정형화 포멧 회사, 정부: DB-DW-Data mart 이미지, 멀티미디어 Streaming data 실시간 분석결과 2 데이터 이력 딥러닝, 학습효과 불확실성=비용 비즈니즈 정보 1/3 CEO 의사결정 불신
Three Experts in Big Data Hadoop (분산파일처리) MapReduce (분산프로그래밍모델) Java / Python / Ruby NoSQL, DB Apache Spark 개발자 관리자 하둡, 리눅스 관리 Cluster Management Cluster Performance Virtualization 3 데이터 과학 - 모델링 기계학습, 마이닝기법 빅데이터 벤더 : R/SAS 데이터 Visualization 데이터 분석가
Leaders in Big Data http://www.kdnuggets.com/2015/05/poll-r-rapidminer-python-big-data-spark.html 4
Leaders in Big Data (cont.) 5
Big Data Flow Technology Driven 수집전처리 저장후처리 Query 분석 도구 분석 기법의사결정 Visualization Unsupervised Learning 하둡 Hive Mahout Social Media analytics MapReduce Sentiment analysis SAS-Insight HDFS Predictive modeling Warehousing + E-Minor Visualization Simulation open source R Collecting 13,051 Biz. Driven Processing 14,216 Analysis 18,877 20,509
Case in Big Data 7
Does this Data Scientist exist in the world? 통계모델링 기계학습 최적화 지도학습 : 의사결정나무, 판별분석 Program &DB Statistics 자율학습 : 프로그래밍언어 DB SQL/NoSQL (Python) MapReduce 통계소프트웨어(R) Hadoop-Hive/ Pig 군집분석. 차원축소 Field Expert 경험과 충분한 지식 비즈니스 열정 데이터 관심 Visualization 문제 해결능력 전략, 창의, 협력 비즈니스 보고서 스토리텔링 데이터 기반 인사이트 -> 의사결정 플랜 8 비쥬얼레포팅 시각화 : Flare, Taleau 그래픽툴 : R (ggplot, lattice)
Supervised Learning 기계학습 기계학습 기법에서는 최적 모형의 탐색 및 선정은 통계분석가에 의해 진행 - 예측 및 판별이 주 목적 훈련 Trained(목표변수(target)=함수(예측변수 predictors) 관계를 도출)-검증 Validation(모형의 타당성을 검증)-평가 Test(서로 다른 통계적 방법들의 평가 인공지능 (컴퓨터 학습할 수 있도록 하는 알고리즘과 기술) 반복 학습 알고리즘 이용 한 데이터 인사이트 탐색 - (예) 스팸 메일 검증여부 Deep Learning: (Unsupervised Learning) 기계 학습의 한 영역으로, 특히 음성/텍스트/이미지 인식 분야에서 획기적인 발전을 거듭하며 급성장하고 있음, 기본 원리 : 다수의 히든 레이어를 갖춘 신경망을 통해 컴퓨터가 태스크를 학습하고 정보를 체계화하여 스스로 패턴을 찾아낼 수 있게 하는 것입니다. 9
Supervised Learning (cont.) 판별분석, 예측모형 : 신용평가 모형 예측변수(input) 활용 판별규칙 SVM 패턴인식, 지도학습 분류, 회귀분석에 사용 Artificial Neural Network 인공신경망 인공뉴런(노드)이 학습을 통한 문제해결 교사학습 vs. 비교사 학습(기계학습) 의사결정나무 타이타닉 생존자 분류 10
Un-Supervised Learning 자율학습 군집분석 : 집단 분류가 없는 개체들을 개체 내의 내재된 관계를 설명하는 함수(유사 성의 함수)를 활요하여 분류 계층적 군집 - (Linkage 연결-덴드로그램) 비계층적 군집 - K-means 신경망 이론 SOM(self organizing map), ART(adaptive resonance theory) 알고리즘 11
Sentiment Analysis Opinion Mining 오피니언 마이닝 12
Twitter mining with R R-설치 http://r-project.org R-Studio 설치 http://rstudio.com Twitter Apps 계정받기 http://apps.twitter.com 13
Social Media Analytic 14
Social Media Analytic with Google Analytics http://analytics.google.com 15
My webpages : Google analytics 16
My webpages : Google analytics (cont.) 17
Big Data & R 18
Big data with R ggplot2() install.packages( ggmap ); install.packages("ggplot2") library(ggplot2); library(ggmap) # # # # maptype=c("terrain", "terrain-background", "satellite", "roadmap", "hybrid", "toner", "watercolor", "terrain-labels", "terrain-lines", "toner-2010", "toner-2011", "toner-background", "toner-hybrid", "toner-labels", "toner-lines", "toner-lite") uni_seoul <- read.csv("서울 11개 대학.csv", header=t) seoul <- get_map("seoul", zoom=11, maptype = "roadmap") seoul_map <- ggmap(seoul) seoul_map <- seoul_map + geom_jitter( data=uni_seoul, aes(x=경도, y=위도, size = 학생수,color=학교명)) + scale_size(name="학생수") seoul_map + geom_text(data=uni_seoul, aes(x = 경도, y = 위도, label=학교명),size=3,col="blue") #====================================================================== uni_daejeon <- read.csv("대전 5개 대학.csv", header=t) daejeon <- get_map("daejeon", zoom=12, maptype = "roadmap") daejeon_map <- ggmap(daejeon) daejeon_map <- daejeon_map + geom_jitter( data=uni_daejeon, aes(x=경도, y=위도, size = 학생수,color=학교명)) + scale_size(name="학생수") daejeon_map + geom_text(data=uni_daejeon, aes(x = 경도, y = 위도, label=학교명),size=3,col="blue") 19
ggplot2 결과 20
Big data with R lattice() 21
Still going 22