Version 3 ( 강의용수정 ) R 을이용한통계기반데이터분석 2017 윤형기 (hky@openwith.net)
일정표 빅데이터개념과분석플랫폼 데이터분석개념과모델링 통계분석 기계학습 R 언어 1 일차 2 일차 3 일차 4 일차 오전 도입 빅데이터배경 / 개념 빅데이터플랫폼 데이터분석개념과절차 1 CRISP-DM 분석전략 ( 목표와가설 / 지표체계 ) 분석도구 통계기초이론 기술통계 / 추론통계 데이터수집 개요 Excel SQL/NoSQL, 분석절차 2 모델링개요 Bias-Variance Trade-off Resampling 통계분석모델링 3 비선형모델 선형대수와다변량분석 데이터정제및 EDA 이론 실습 기계학습3 신경망 군집화 연관분석 모델개발3 ( 모델평가, 성능고도화 ) 모델평가 모델성능고도화 오후 실습환경구축 (R, RStudio) R 기초 R 데이터구조, 함수작성 R 활용통계분석모델링1 통계분석모델링 2 회귀분석 모델선정과 Regularization 시계열분석 기계학습1 KNN 의사결정트리 기계학습2 SVM Naïve Bayes 시각화 시각화 빅데이터플랫폼 Hadoop Spark 마무리 클라우드 DL 2
1 일차 3
빅데이터개요
배경 3V Tidal Wave 3VC Supercomputer High-throughput computing 2가지방향 : 원격, 분산형대규모컴퓨팅 (grid computing) 중앙집중형 (MPP) Scale-Up vs. Scale-Out BI (Business Intelligence) 특히 DW/OLAP/ 데이터마이닝 5
Hadoop Hadoop 의탄생? 배경 특징 Google! Nutch/Lucene 프로젝트에서 2006 년독립 Doug Cutting Apache 의 top-level 오픈소스프로젝트 대용량데이터분산처리프레임워크 http://hadoop.apache.org 순수 S/W 프로그래밍모델의단순화로선형확장성 (Flat linearity) function-to-data model vs. data-to-function (Locality) KVP (Key-Value Pair) 6
1990 년대 Excite, Alta Vista, Yahoo, 2003~4 Google Paper 2006 Apache 프로젝트에등재 2000 Google ; PageRank, GFS/MapReduce 2005 Hadoop 탄생 (D. Cutting & Cafarella) 7
8
Hadoop Kernel Hadoop 배포판 Apache 버전 2.x.x : 0.23.x 기반 3 rd Party 배포판 Cloudera, HortonWorks 와 MapR 9
Hadoop & Ecosystems 10
11
빅데이터전략과분석과제 전략일반론 MBO ( 목표에의한관리 ) ( 업무인과관계보다는 ) 현재수립된사업목표를다운스트림하여각조직과계층에서해야할일을명확히함 BSC ( 균형성과관리 ) 목표의인과관계를규정하고여러측면 (perspective) 에서균형있는성장을도모 12
균형성과관리와 KPI 지표분석 13
빅데이터세부과제의선택 해결요인의발굴 전략목표전술문제실행역량성취가능성 중요성시급성효과성집행력 전략적중요성과현실적실행능력 과제의 Positioning 14
빅데이터분석프로젝트추진절차 POC 단계 TFT 구성 자체교육 ( 문제의식 + 방법론 + 기초기술 ) 해결하려는 / 해결가능한문제를정의 문제해결을위해필요한 feature-set 을식별 모델링 ( 대체안 ) 및평가후선정 효과평가 1 차확산단계 추가의문제식별후실행 전사데이터관리전략검토 1 차확산단계평가 2 차확산단계 전사적데이터전략검토수립 전사적인재관리전략검토수립 ( 데이터중심의문화 ) 15
빅데티터주요활용사례 실시간 (real time) 리스크분석 ( 은행 ) 사기탐지 ( 신용카드 ), 자금세탁위험탐지 소셜네트워크분석 금융및통신사의마케팅 ( 이벤트 ) 유통최적화 ( 시뮬레이션 ) 부당보험첨구및탈세위험탐지 데이터의속도 사전적예방점검 ( 항공 ) 감성분석 /SNA 제조부문에서의수요예측 건강보험 / 질병정보분석 일괄처리 (Batch) 전통적텍스트분석실시간영상감시데이터웨어하우징 정형데이터 비정형데이터 데이터의유형 16
뒷부분에서가져옴 데이터분석개요 17
데이터분석의개념과범위 Data Mining/ Predictive Analysis Data Science BI/OLAP Analytics Modeling Machine Learning 수리 / 통계분석 KDD (Knowledge Discovery) Decision Support System 발전 Data Science 전통적분석 BI/OLAP/DB Query, Spreadsheet 중심분석 통계분석 + 텍스트분석 (SNA/ 감성분석, 마이닝, 검색 ) + Machine Learning/Deep Learning 18
데이터과학 (Data Science) Data Science 통계와기계학습 통계 Estimation Classifier Data point Regression Classification Covariate Response 기계학습 Learning Hypothesis Example/Instance Supervised Learning Supervised Learning Features Label 19
분석절차 CRISP-DM Business 이해 데이터이해 데이터준비 모델링 모델의평가 Deployment Business Objectives 결정 Initial Data 의수집 Select Data 모델링기법의선택 모델수행결과의평가 Plan Deployment 상황의분석 Describe Data 데이터정제 Test Design Review Process Plan Monitoring & Maintenance Data Mining 목표설정 Explore Data Construct Data 모델수립 이후단계의결정 최종보고서 Project Plan 의작성 데이터품질점검 데이터통합 Assess Model Review Project Format Data 20
분석도구 Big Bang 유료 : Excel, SAS, SPSS, Matlab, 오픈소스 : R vs Python vs Octave vs Julia, 21
R open-source 수리 / 통계분석도구및프로그래밍언어 S 언어에서기원하였으며 7,000 여개의 package CRAN: http://cran.r-project.org/ 뛰어난성능과시각화 (visualization) 기능 22
기초통계 23
목차 Unit I: 개요 1. 개요와기술 ( 記述 ) 통계 2. 확률이론과 Bayesian Unit II: 변량별데이터분석 3. 단변량 / 이변량 / 다변량 Unit III: 분포와표본추출 4. 이산분포와연속분포 5. 표본추출과표본분포 Unit IV: 모수추정 6. 추정 ( 단일 /2 개모집단 ) 7. 가설검정 8. 분산분석과실험계획 24
UNIT I: 개요 1. 기본개념과기술 ( 記述 ) 통계 2. 확률이론과 Bayesian 25
1. 기본개념과기술통계 1.1 통계개념 26
1.2 기술통계 (Descriptive Statistics) (1) 중심경향성 : Ungrouped Data Mode, Mean, Median Percentile, Quantile/Quartile (2) 변동성 : Ungrouped Data Range & IQR (Interquartile Range) MAD (Mean Absolute Deviation) Variance, Standard Deviation Empirical Rule 와 Chebychev s Theorem Population vs. Sample Variance and Standard Deviation Unbiased estimator Z-score Coefficient of Variation (CV) 27
(3) Measures of Shape Skewness Coefficient of Skewness Kurtosis Box-and-Whisker Plots 28
(4) 연관성 (Association) 측도 Correlation Pearson product-moment correlation coefficient Spearman Correlation Coefficient Kendall Tau(τ) Correlation Coefficient» 두변수순서관계 (ordinal association) 29
2. 확률이론과 Bayesian 2.1 기본개념 Experiment, ( 근원 ) 사건, 표본공간, 독립사건, Unions, Intersections, MECE (Mutually Exclusive Collectively Exhaustive) P(X Y) = 0 Marginal, Union, Joint Counting Possibilities mn Counting Rule: m x n Sampling from a Population with Replacement: (N) n possibilities Combinations: Sampling from Population Without Replacement: NC n = N!/n!(N n)! 30
31
UNIT II: 변량별데이터분석 3. 단변량 / 이변량 / 다변량 32
3. 변량별분석도구 3.1 단변량 Categorical Data Table, Barplots, Pie Chart, Dot Chart Numeric Data Stem-and-leaf plots, Strip chart Center: mean, median & mode Range, variance, 분포의모양 Mode, Symmetry and Skew Boxplot, Histogram 33
3.2 이변량 (Bivariate) 데이터 Pairs of categorical variables 2-way Table - 주변분포 (Marginal Distribution), 조건부분포, contingency table 독립표본의비교 Side-by-side Boxplots, Density plot, Strip Chart, Q-Q plots Numeric Data 에서의관계 (Relationship) Scatter plot 을이용한관계성분석 - 상관관계 단순회귀분석 3.3 다변량 (Multivariate) 데이터 다변량데이터의요약 범주형다변량데이터요약 독립표본의비교와관계성비교 다변량데이터모델링 Boxplot 과다변량모델 Contingency Table xtabs() split() 과 stack() Lattice 그래픽활용 34
UNIT II: 분포와표본추출 4. 이산분포와연속분포 5. 표본추출과표본분포 35
4. 이산분포와연속분포 4.1 개요 확률변수 (Random variable) = a variable that contains the outcomes of a chance experiment 4.2 이산분포의모양 평균 or 기대값 = long-run average of occurrences Variance 와 Standard Deviation 4.2 이항분포 Binomial formula 이항분포의평균과표준편차 4.3 Poisson 분포 Law of improbable events λ = long-run average 36
4.5 초기하 (Hypergeometric) 분포 개요 = 유한모집단으로부터비복원추출시나타나는확률분포 다음경우에이항분포대신사용 : (i) Sampling is done without replacement. (ii) n 5% N 37
( 연속분포 ) 4.6 일양분포 ( 一樣分布 Uniform Distribution) 4.7 정규분포 개요 Gaussian 분포 정규분포의확률밀도함수 Standardized Normal Distribution z score = 평균을중심으로한표준편차의개수 z distribution 4.8 이항분포대신정규분포의적용 (Approximate) 경험법칙 ; 대략 normal curve value 의 99.7% 가 3 s.d. 이내 n p > 5 and n q > 5 Correcting for Continuity ; Converting discrete distribution into a continuous distribution. 38
4.7 지수분포 = Random occurrences 사이시간의확률분포 지수분포의확률 random arrivals 사이의 Inter-arrival times 는지수분포 cf. Poisson 분포 = random occurrences over some interval 39
5. 표본추출과표본분포 5.1 Sampling( 표본추출 ) 방법 5.2 x 의표본분포 중심극한정리 μ x = μ σ x = σ n z Formula for Sample Means Sampling from a Finite Population 중심극한정리 5.3 p 의표본분포 40
UNIT IV: 모수추정 6. 추정 7. 가설검정 8. 분산분석과실험계획 41
6. 추정 신뢰구간추정 ( 단일모집단 ) z 통계량이용한신뢰구간추정 ( 단일모집단 ) (σ Known) 점추정 (point estimation) 100(1-α)% Confidence Interval to Estimate μ: σ known] 유한조정계수 Sample Size 가작은경우 여태까지주로 n 30 n < 30 이어도중심극한정리에의해 z formula 적용 : sample size 가클때또는작아도모집단이정규분포 (σ known) 42
t 통계량이용한신뢰구간추정 ( 단일모집단 ) (σ Unknown) 모집단이정규분포인데모집단 s.d 를모르는경우 t 분포적용. 표본크기에따라분포가다르다. t statistic 의 assumption: 모집단이정규분포» If population is not normal dist. or is unknown, nonparametric techniques t Distribution 의특징 : Robust t 통계량을이용한모집단평균추정에서의신뢰구간 모비율추정 43
모분산추정 ( ) Sample Variance 모분산과표본분산의관계 : χ2 분포 표본크기의산정 μ 추정시의표본크기 μ 추정시 : 표본크기는 z formula 를이용 p 추정시의표본크기 44
7. 가설검정 ( 단일모집단 ) 7.1 개요 Hypotheses의종류 Statistical Hypotheses H 0 H a 가설검정의절차 Rejection and Nonrejection Regions Type I 및 Type II Errors 45
7.2 z 통계량이용한모평균의가설검정 (σ Known) z Test for a Single Mean 유한모집단의평균에대한검정 p-value 를이용한가설검정 p-value = 관측된유의수준 (level of significance) defines the smallest value of α for which the H 0 can be rejected. α 가 p 보다커야만 H 0 를 reject 가능 Critical Value Method 를이용한가설검정 Rejecting H 0 using p-values 46
7.3 t 통계량이용한모평균가설검정 (σ Unknown) ( ) z Test of a Population Proportion Critical Value Method 를이용한가설검정 Rejecting H 0 using p-values 7.4 비율에관한가설검정 [ ] Using p-value Using the critical value method 47
7.5 분산에관한가설검정 Table χ 2 vs. Observed χ 2 H 0 can also be tested by the critical value method. 관측된 χ2 값대신 critical χ 2 value for α 를적용하여 s 2 계산 yields critical sample variance (s c2 ) 7.6 Type II Errors 48
( 추정 2 개모집단 ) 7.7 z 통계량이용한두개평균차에대한추정 / 가설검정 (σ Known) ( ) CLT: Difference in two sample means, x1 x 2 ~ ND() for large sample (both n 1 and n 2 30) regardless of the shape of populations z formula for the difference in two sample means Hypothesis Testing H 0 : μ1 μ2 =δ H a : μ1 μ2 δ Confidence Intervals 49
7.8 두평균차에대한추정 / 가설검정 : 독립표본이고 σ Known 가설검정 t Test 를이용한두모평균차에대한 CI 수립및가설검정 Confidence Intervals 7.9 서로관련된모집단에대한추정 종류 Before-and-after study Matched-pair with built-in relatedness, as an experimental control mechanism (ex) twins, siblings 가설검정 신뢰구간 50
7.10 두개모비율에대한추정 (p 1 - p 2 ) ( ) 가설검정 신뢰구간 7.11 두개모분산에대한추정 51
8. 분산분석과실험계획 8.1 실험계획 개념 = a plan and a structure to test hypotheses in which the researcher either controls or manipulates one or more variables. 독립변수 (I.V.) 처치변인 (treatment variable) = 실험자가통제또는조절하는변인 분류변인 (classification variable (=factors)) = some characteristic of the subject that was present prior to the experiment and is not a result of manipulations or control. Each I.V. has 2 or more levels (= classifications =subcategories) 종속변수 (D.V.) 52
8.2 Completely Randomized Design (CRD) One-Way Analysis of Variance H 0 : μ 1 = μ 2 = μ 3 = = μ k H a : At least one of the means is different from the others. 53
F 분포표상의수치 ANOVA tests are always one-tailed tests w/ rejection region in the upper tail Observed F value vs. Critical value of F test (=Table F value) (d.f. 에의해참조되는값 ) Reject H 0 if (observed F > critical F) F 값및 t 값의비교 F = t 2 for df C = 1 54
8.3 다중비교검정 ( ) ANOVA 는 multiple group 의평균차에대한가설검정에유용 ( 장점 ) Type I error, α, is controlled Tukey s HSD Test: The Case of Equal Sample Sizes = pairwise multiple comparisons Tukey-Kramer Procedure: The Case of Unequal Sample Sizes 55
8.4 Randomized Block Design (RBD) CRD (I.V. = treatment var. ) + Blocking variable Block g var ; to control confounding/concomitant variable» researcher want to control but is not the treatment of interest 56
8.5 Factorial Design (Two-Way ANOVA) Factorial Design 의장점 CRD RBD Factorial Design 각변수의 Effect를 하나의실험설계에서두변수를동시에분석. 별도로분석 (one per design). 즉, 변수를독립적으로검토 단, focus on one treatment variable & control for the blocking effect Interaction 분석가능 Confounding or concomitant 변수를하나의 study 에서 control 가능하므로 CRD 보다 power 증가가능 SSE 로부터 2nd 변수의추가효과를제거 FD with 2 treatments 는 RBD 와유사 두변수의 effect 에주목 (2 treatment 변수간의 interaction 분석가능, if multiple measurements are taken under every combination of levels of 2 treatment) 57
2 개처치변인을가지는 Factorial Designs Factorial Design 에대한통계검정 Row effects: H 0 : Row means all are equal. H a : At least one row is different. Column effects: H 0 : Col. means are all equal. H a : At least one col is different. Interaction effects: H 0 : Interaction effects =0. H a : Interaction effect is present. Each of these observed F values is compared to a table F value. The table F value is determined by a, df num, and df denom. 58
Interaction 59
추가 slide 실습환경구축 60
R 과 RStudio 추가 slide R 설치 RStudio 설치 61
R 기초 62
R 데이터구조 제어구문 R 함수의작성 R에서의 OOP 별도자료제공 63
추가 slide R 활용통계분석모델링 1 64
실습 65