슬라이드 1

Similar documents
methods.hwp

untitled

확률과통계 강의자료-1.hwp

R t-..

G Power

( )실험계획법-머리말 ok

nonpara6.PDF

Microsoft PowerPoint - IPYYUIHNPGFU

김기남_ATDC2016_160620_[키노트].key

nonpara1.PDF

(Exposure) Exposure (Exposure Assesment) EMF Unknown to mechanism Health Effect (Effect) Unknown to mechanism Behavior pattern (Micro- Environment) Re

Microsoft PowerPoint - SBE univariate5.pptx

DBPIA-NURIMEDIA

빅데이터_DAY key

Microsoft Word - EDA_Univariate.docx

확률 및 분포

10. ..

Buy one get one with discount promotional strategy

DBPIA-NURIMEDIA

Microsoft PowerPoint - Stat03_Numerical technique(New) [Compatibility Mode]

슬라이드 1

사회통계포럼

untitled

ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행

Chapter 7 분산분석

PowerPoint Presentation

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

untitled

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

abstract.dvi

확률과통계6

DBPIA-NURIMEDIA

cha4_ocw.hwp

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

ETL_project_best_practice1.ppt

<31372DB9DABAB4C8A32E687770>

DBPIA-NURIMEDIA

<B1B3C0B0B0FAC1A45FC3E2B7C22E687770>

에너지경제연구 Korean Energy Economic Review Volume 11, Number 2, September 2012 : pp. 1~26 실물옵션을이용한해상풍력실증단지 사업의경제성평가 1

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

4 CD Construct Special Model VI 2 nd Order Model VI 2 Note: Hands-on 1, 2 RC 1 RLC mass-spring-damper 2 2 ζ ω n (rad/sec) 2 ( ζ < 1), 1 (ζ = 1), ( ) 1

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

Microsoft PowerPoint - LN05 [호환 모드]

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA


동아시아국가들의실질환율, 순수출및 경제성장간의상호관계비교연구 : 시계열및패널자료인과관계분석

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

untitled

<C7A5C1F620BEE7BDC4>

untitled

고객관계를 리드하는 서비스 리더십 전략

Microsoft PowerPoint - PDF3 SBE pptx

untitled

Chapter 분포와 도수분석

Manufacturing6

슬라이드 1

融合先验信息到三维重建 组会报 告[2]

에너지경제연구 Korean Energy Economic Review Volume 17, Number 1, March 2018 : pp. 37~65 가정부문전기수요의결정요인분석 : 동태적패널 FD GMM 기법을중심으로 37

Chapter 7 분산분석

중심경향치 (measure of central tendency) 대표값이란용어이외에자료의중심값또는중심위치의척도 (measure of central location) 라고도함. 예 : 평균 (mean= 산술평균 ; arithmetic mean), 절사평균 (trimmed

012임수진

R

statistics

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

Vol.259 C O N T E N T S M O N T H L Y P U B L I C F I N A N C E F O R U M

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

자료의 이해 및 분석

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

Microsoft Word - SAS_Data Manipulate.docx

<B0A3C3DFB0E828C0DBBEF7292E687770>

13 Who am I? R&D, Product Development Manager / Smart Worker Visualization SW SW KAIST Software Engineering Computer Engineering 3

통계학입문


Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

Microsoft PowerPoint - ANOVA pptx

DBPIA-NURIMEDIA


BSC Discussion 1

hwp

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

공휴일 전력 수요에 관한 산업별 분석

untitled

이다. 즉 μ μ μ : 가아니다. 이러한검정을하기위하여분산분석은다음과같은가정을두고있다. 분산분석의가정 (1) r개모집단분포는모두정규분포를이루고있다. (2) r개모집단의평균은다를수있으나분산은모두같다. (3) r개모집단에서추출한표본은서로독립적이다. 분산분석은집단을구분하는

PowerPoint 프레젠테이션

DW 개요.PDF

???? 1

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

원위부요척골관절질환에서의초음파 유도하스테로이드주사치료의효과 - 후향적 1 년경과관찰연구 - 연세대학교대학원 의학과 남상현

서론 34 2

Crt114( ).hwp

step 1-1

기술통계

- 1 -

2

<31332EBEC6C6AEB8B6C4C9C6C3C0BB20C8B0BFEBC7D120C6D0C5B0C1F6B5F0C0DAC0CE20BFACB1B82E687770>

목차 ⅰ ⅲ ⅳ Abstract v Ⅰ Ⅱ Ⅲ i

Gray level 변환 및 Arithmetic 연산을 사용한 영상 개선

Transcription:

Version 3 ( 강의용수정 ) R 을이용한통계기반데이터분석 2017 윤형기 (hky@openwith.net)

일정표 빅데이터개념과분석플랫폼 데이터분석개념과모델링 통계분석 기계학습 R 언어 1 일차 2 일차 3 일차 4 일차 오전 도입 빅데이터배경 / 개념 빅데이터플랫폼 데이터분석개념과절차 1 CRISP-DM 분석전략 ( 목표와가설 / 지표체계 ) 분석도구 통계기초이론 기술통계 / 추론통계 데이터수집 개요 Excel SQL/NoSQL, 분석절차 2 모델링개요 Bias-Variance Trade-off Resampling 통계분석모델링 3 비선형모델 선형대수와다변량분석 데이터정제및 EDA 이론 실습 기계학습3 신경망 군집화 연관분석 모델개발3 ( 모델평가, 성능고도화 ) 모델평가 모델성능고도화 오후 실습환경구축 (R, RStudio) R 기초 R 데이터구조, 함수작성 R 활용통계분석모델링1 통계분석모델링 2 회귀분석 모델선정과 Regularization 시계열분석 기계학습1 KNN 의사결정트리 기계학습2 SVM Naïve Bayes 시각화 시각화 빅데이터플랫폼 Hadoop Spark 마무리 클라우드 DL 2

1 일차 3

빅데이터개요

배경 3V Tidal Wave 3VC Supercomputer High-throughput computing 2가지방향 : 원격, 분산형대규모컴퓨팅 (grid computing) 중앙집중형 (MPP) Scale-Up vs. Scale-Out BI (Business Intelligence) 특히 DW/OLAP/ 데이터마이닝 5

Hadoop Hadoop 의탄생? 배경 특징 Google! Nutch/Lucene 프로젝트에서 2006 년독립 Doug Cutting Apache 의 top-level 오픈소스프로젝트 대용량데이터분산처리프레임워크 http://hadoop.apache.org 순수 S/W 프로그래밍모델의단순화로선형확장성 (Flat linearity) function-to-data model vs. data-to-function (Locality) KVP (Key-Value Pair) 6

1990 년대 Excite, Alta Vista, Yahoo, 2003~4 Google Paper 2006 Apache 프로젝트에등재 2000 Google ; PageRank, GFS/MapReduce 2005 Hadoop 탄생 (D. Cutting & Cafarella) 7

8

Hadoop Kernel Hadoop 배포판 Apache 버전 2.x.x : 0.23.x 기반 3 rd Party 배포판 Cloudera, HortonWorks 와 MapR 9

Hadoop & Ecosystems 10

11

빅데이터전략과분석과제 전략일반론 MBO ( 목표에의한관리 ) ( 업무인과관계보다는 ) 현재수립된사업목표를다운스트림하여각조직과계층에서해야할일을명확히함 BSC ( 균형성과관리 ) 목표의인과관계를규정하고여러측면 (perspective) 에서균형있는성장을도모 12

균형성과관리와 KPI 지표분석 13

빅데이터세부과제의선택 해결요인의발굴 전략목표전술문제실행역량성취가능성 중요성시급성효과성집행력 전략적중요성과현실적실행능력 과제의 Positioning 14

빅데이터분석프로젝트추진절차 POC 단계 TFT 구성 자체교육 ( 문제의식 + 방법론 + 기초기술 ) 해결하려는 / 해결가능한문제를정의 문제해결을위해필요한 feature-set 을식별 모델링 ( 대체안 ) 및평가후선정 효과평가 1 차확산단계 추가의문제식별후실행 전사데이터관리전략검토 1 차확산단계평가 2 차확산단계 전사적데이터전략검토수립 전사적인재관리전략검토수립 ( 데이터중심의문화 ) 15

빅데티터주요활용사례 실시간 (real time) 리스크분석 ( 은행 ) 사기탐지 ( 신용카드 ), 자금세탁위험탐지 소셜네트워크분석 금융및통신사의마케팅 ( 이벤트 ) 유통최적화 ( 시뮬레이션 ) 부당보험첨구및탈세위험탐지 데이터의속도 사전적예방점검 ( 항공 ) 감성분석 /SNA 제조부문에서의수요예측 건강보험 / 질병정보분석 일괄처리 (Batch) 전통적텍스트분석실시간영상감시데이터웨어하우징 정형데이터 비정형데이터 데이터의유형 16

뒷부분에서가져옴 데이터분석개요 17

데이터분석의개념과범위 Data Mining/ Predictive Analysis Data Science BI/OLAP Analytics Modeling Machine Learning 수리 / 통계분석 KDD (Knowledge Discovery) Decision Support System 발전 Data Science 전통적분석 BI/OLAP/DB Query, Spreadsheet 중심분석 통계분석 + 텍스트분석 (SNA/ 감성분석, 마이닝, 검색 ) + Machine Learning/Deep Learning 18

데이터과학 (Data Science) Data Science 통계와기계학습 통계 Estimation Classifier Data point Regression Classification Covariate Response 기계학습 Learning Hypothesis Example/Instance Supervised Learning Supervised Learning Features Label 19

분석절차 CRISP-DM Business 이해 데이터이해 데이터준비 모델링 모델의평가 Deployment Business Objectives 결정 Initial Data 의수집 Select Data 모델링기법의선택 모델수행결과의평가 Plan Deployment 상황의분석 Describe Data 데이터정제 Test Design Review Process Plan Monitoring & Maintenance Data Mining 목표설정 Explore Data Construct Data 모델수립 이후단계의결정 최종보고서 Project Plan 의작성 데이터품질점검 데이터통합 Assess Model Review Project Format Data 20

분석도구 Big Bang 유료 : Excel, SAS, SPSS, Matlab, 오픈소스 : R vs Python vs Octave vs Julia, 21

R open-source 수리 / 통계분석도구및프로그래밍언어 S 언어에서기원하였으며 7,000 여개의 package CRAN: http://cran.r-project.org/ 뛰어난성능과시각화 (visualization) 기능 22

기초통계 23

목차 Unit I: 개요 1. 개요와기술 ( 記述 ) 통계 2. 확률이론과 Bayesian Unit II: 변량별데이터분석 3. 단변량 / 이변량 / 다변량 Unit III: 분포와표본추출 4. 이산분포와연속분포 5. 표본추출과표본분포 Unit IV: 모수추정 6. 추정 ( 단일 /2 개모집단 ) 7. 가설검정 8. 분산분석과실험계획 24

UNIT I: 개요 1. 기본개념과기술 ( 記述 ) 통계 2. 확률이론과 Bayesian 25

1. 기본개념과기술통계 1.1 통계개념 26

1.2 기술통계 (Descriptive Statistics) (1) 중심경향성 : Ungrouped Data Mode, Mean, Median Percentile, Quantile/Quartile (2) 변동성 : Ungrouped Data Range & IQR (Interquartile Range) MAD (Mean Absolute Deviation) Variance, Standard Deviation Empirical Rule 와 Chebychev s Theorem Population vs. Sample Variance and Standard Deviation Unbiased estimator Z-score Coefficient of Variation (CV) 27

(3) Measures of Shape Skewness Coefficient of Skewness Kurtosis Box-and-Whisker Plots 28

(4) 연관성 (Association) 측도 Correlation Pearson product-moment correlation coefficient Spearman Correlation Coefficient Kendall Tau(τ) Correlation Coefficient» 두변수순서관계 (ordinal association) 29

2. 확률이론과 Bayesian 2.1 기본개념 Experiment, ( 근원 ) 사건, 표본공간, 독립사건, Unions, Intersections, MECE (Mutually Exclusive Collectively Exhaustive) P(X Y) = 0 Marginal, Union, Joint Counting Possibilities mn Counting Rule: m x n Sampling from a Population with Replacement: (N) n possibilities Combinations: Sampling from Population Without Replacement: NC n = N!/n!(N n)! 30

31

UNIT II: 변량별데이터분석 3. 단변량 / 이변량 / 다변량 32

3. 변량별분석도구 3.1 단변량 Categorical Data Table, Barplots, Pie Chart, Dot Chart Numeric Data Stem-and-leaf plots, Strip chart Center: mean, median & mode Range, variance, 분포의모양 Mode, Symmetry and Skew Boxplot, Histogram 33

3.2 이변량 (Bivariate) 데이터 Pairs of categorical variables 2-way Table - 주변분포 (Marginal Distribution), 조건부분포, contingency table 독립표본의비교 Side-by-side Boxplots, Density plot, Strip Chart, Q-Q plots Numeric Data 에서의관계 (Relationship) Scatter plot 을이용한관계성분석 - 상관관계 단순회귀분석 3.3 다변량 (Multivariate) 데이터 다변량데이터의요약 범주형다변량데이터요약 독립표본의비교와관계성비교 다변량데이터모델링 Boxplot 과다변량모델 Contingency Table xtabs() split() 과 stack() Lattice 그래픽활용 34

UNIT II: 분포와표본추출 4. 이산분포와연속분포 5. 표본추출과표본분포 35

4. 이산분포와연속분포 4.1 개요 확률변수 (Random variable) = a variable that contains the outcomes of a chance experiment 4.2 이산분포의모양 평균 or 기대값 = long-run average of occurrences Variance 와 Standard Deviation 4.2 이항분포 Binomial formula 이항분포의평균과표준편차 4.3 Poisson 분포 Law of improbable events λ = long-run average 36

4.5 초기하 (Hypergeometric) 분포 개요 = 유한모집단으로부터비복원추출시나타나는확률분포 다음경우에이항분포대신사용 : (i) Sampling is done without replacement. (ii) n 5% N 37

( 연속분포 ) 4.6 일양분포 ( 一樣分布 Uniform Distribution) 4.7 정규분포 개요 Gaussian 분포 정규분포의확률밀도함수 Standardized Normal Distribution z score = 평균을중심으로한표준편차의개수 z distribution 4.8 이항분포대신정규분포의적용 (Approximate) 경험법칙 ; 대략 normal curve value 의 99.7% 가 3 s.d. 이내 n p > 5 and n q > 5 Correcting for Continuity ; Converting discrete distribution into a continuous distribution. 38

4.7 지수분포 = Random occurrences 사이시간의확률분포 지수분포의확률 random arrivals 사이의 Inter-arrival times 는지수분포 cf. Poisson 분포 = random occurrences over some interval 39

5. 표본추출과표본분포 5.1 Sampling( 표본추출 ) 방법 5.2 x 의표본분포 중심극한정리 μ x = μ σ x = σ n z Formula for Sample Means Sampling from a Finite Population 중심극한정리 5.3 p 의표본분포 40

UNIT IV: 모수추정 6. 추정 7. 가설검정 8. 분산분석과실험계획 41

6. 추정 신뢰구간추정 ( 단일모집단 ) z 통계량이용한신뢰구간추정 ( 단일모집단 ) (σ Known) 점추정 (point estimation) 100(1-α)% Confidence Interval to Estimate μ: σ known] 유한조정계수 Sample Size 가작은경우 여태까지주로 n 30 n < 30 이어도중심극한정리에의해 z formula 적용 : sample size 가클때또는작아도모집단이정규분포 (σ known) 42

t 통계량이용한신뢰구간추정 ( 단일모집단 ) (σ Unknown) 모집단이정규분포인데모집단 s.d 를모르는경우 t 분포적용. 표본크기에따라분포가다르다. t statistic 의 assumption: 모집단이정규분포» If population is not normal dist. or is unknown, nonparametric techniques t Distribution 의특징 : Robust t 통계량을이용한모집단평균추정에서의신뢰구간 모비율추정 43

모분산추정 ( ) Sample Variance 모분산과표본분산의관계 : χ2 분포 표본크기의산정 μ 추정시의표본크기 μ 추정시 : 표본크기는 z formula 를이용 p 추정시의표본크기 44

7. 가설검정 ( 단일모집단 ) 7.1 개요 Hypotheses의종류 Statistical Hypotheses H 0 H a 가설검정의절차 Rejection and Nonrejection Regions Type I 및 Type II Errors 45

7.2 z 통계량이용한모평균의가설검정 (σ Known) z Test for a Single Mean 유한모집단의평균에대한검정 p-value 를이용한가설검정 p-value = 관측된유의수준 (level of significance) defines the smallest value of α for which the H 0 can be rejected. α 가 p 보다커야만 H 0 를 reject 가능 Critical Value Method 를이용한가설검정 Rejecting H 0 using p-values 46

7.3 t 통계량이용한모평균가설검정 (σ Unknown) ( ) z Test of a Population Proportion Critical Value Method 를이용한가설검정 Rejecting H 0 using p-values 7.4 비율에관한가설검정 [ ] Using p-value Using the critical value method 47

7.5 분산에관한가설검정 Table χ 2 vs. Observed χ 2 H 0 can also be tested by the critical value method. 관측된 χ2 값대신 critical χ 2 value for α 를적용하여 s 2 계산 yields critical sample variance (s c2 ) 7.6 Type II Errors 48

( 추정 2 개모집단 ) 7.7 z 통계량이용한두개평균차에대한추정 / 가설검정 (σ Known) ( ) CLT: Difference in two sample means, x1 x 2 ~ ND() for large sample (both n 1 and n 2 30) regardless of the shape of populations z formula for the difference in two sample means Hypothesis Testing H 0 : μ1 μ2 =δ H a : μ1 μ2 δ Confidence Intervals 49

7.8 두평균차에대한추정 / 가설검정 : 독립표본이고 σ Known 가설검정 t Test 를이용한두모평균차에대한 CI 수립및가설검정 Confidence Intervals 7.9 서로관련된모집단에대한추정 종류 Before-and-after study Matched-pair with built-in relatedness, as an experimental control mechanism (ex) twins, siblings 가설검정 신뢰구간 50

7.10 두개모비율에대한추정 (p 1 - p 2 ) ( ) 가설검정 신뢰구간 7.11 두개모분산에대한추정 51

8. 분산분석과실험계획 8.1 실험계획 개념 = a plan and a structure to test hypotheses in which the researcher either controls or manipulates one or more variables. 독립변수 (I.V.) 처치변인 (treatment variable) = 실험자가통제또는조절하는변인 분류변인 (classification variable (=factors)) = some characteristic of the subject that was present prior to the experiment and is not a result of manipulations or control. Each I.V. has 2 or more levels (= classifications =subcategories) 종속변수 (D.V.) 52

8.2 Completely Randomized Design (CRD) One-Way Analysis of Variance H 0 : μ 1 = μ 2 = μ 3 = = μ k H a : At least one of the means is different from the others. 53

F 분포표상의수치 ANOVA tests are always one-tailed tests w/ rejection region in the upper tail Observed F value vs. Critical value of F test (=Table F value) (d.f. 에의해참조되는값 ) Reject H 0 if (observed F > critical F) F 값및 t 값의비교 F = t 2 for df C = 1 54

8.3 다중비교검정 ( ) ANOVA 는 multiple group 의평균차에대한가설검정에유용 ( 장점 ) Type I error, α, is controlled Tukey s HSD Test: The Case of Equal Sample Sizes = pairwise multiple comparisons Tukey-Kramer Procedure: The Case of Unequal Sample Sizes 55

8.4 Randomized Block Design (RBD) CRD (I.V. = treatment var. ) + Blocking variable Block g var ; to control confounding/concomitant variable» researcher want to control but is not the treatment of interest 56

8.5 Factorial Design (Two-Way ANOVA) Factorial Design 의장점 CRD RBD Factorial Design 각변수의 Effect를 하나의실험설계에서두변수를동시에분석. 별도로분석 (one per design). 즉, 변수를독립적으로검토 단, focus on one treatment variable & control for the blocking effect Interaction 분석가능 Confounding or concomitant 변수를하나의 study 에서 control 가능하므로 CRD 보다 power 증가가능 SSE 로부터 2nd 변수의추가효과를제거 FD with 2 treatments 는 RBD 와유사 두변수의 effect 에주목 (2 treatment 변수간의 interaction 분석가능, if multiple measurements are taken under every combination of levels of 2 treatment) 57

2 개처치변인을가지는 Factorial Designs Factorial Design 에대한통계검정 Row effects: H 0 : Row means all are equal. H a : At least one row is different. Column effects: H 0 : Col. means are all equal. H a : At least one col is different. Interaction effects: H 0 : Interaction effects =0. H a : Interaction effect is present. Each of these observed F values is compared to a table F value. The table F value is determined by a, df num, and df denom. 58

Interaction 59

추가 slide 실습환경구축 60

R 과 RStudio 추가 slide R 설치 RStudio 설치 61

R 기초 62

R 데이터구조 제어구문 R 함수의작성 R에서의 OOP 별도자료제공 63

추가 slide R 활용통계분석모델링 1 64

실습 65