통계적 학습(statistical learning)

Similar documents
Resampling Methods

표본재추출(resampling) 방법

비선형으로의 확장

단순 베이즈 분류기

Tree 기반의 방법

경제통상 내지.PS

°æÁ¦Åë»ó³»Áö.PDF

우루과이 내지-1

세계 비지니스 정보

[96_RE11]LMOs(......).HWP


커널 방법론


CONTENTS.HWP

INDUS-8.HWP

슬라이드 1


<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

00-1표지

*통신1802_01-도비라및목차1~11

표1

israel-내지-1-4

영암군 관광종합개발계획 제6장 관광(단)지 개발계획 제7장 관광브랜드 강화사업 1. 월출산 기( 氣 )체험촌 조성사업 167 (바둑테마파크 기본 계획 변경) 2. 성기동 관광지 명소화 사업 마한문화공원 명소화 사업 기찬랜드 명소화 사업 240

G Power

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

*통신1604_01-도비라및목차1~12

제 출 문 환경부장관 귀하 본 보고서를 폐기물관리 규제개선 방안연구 에 관한 최종보고서로 제출합니다 연구기관 한국산업폐기물처리공제조합 연구책임자 연 구 원 연구보조원 이 남 웅 황 연 석 은 정 환 백 인 근 성 낙 근 오 형 조 부이사장 상근이사 기술팀장 법률팀장 기

À̶õ°³È²³»Áö.PDF

확률 및 분포


통신1310_01-도비라및목차1~9

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint



세계 비지니스 정보

<C1A4C3A5BFACB1B D3420C1A4BDC5C1FAC8AFC0DAC0C720C6EDB0DFC7D8BCD220B9D720C0CEBDC4B0B3BCB1C0BB20C0A7C7D120B4EBBBF3BAB020C0CEB1C720B1B3C0B020C7C1B7CEB1D7B7A520B0B3B9DF20BAB8B0EDBCAD28C7A5C1F6C0AF292E687770>

MATLAB for C/C++ Programmers

°æÁ¦Àü¸Á-µ¼º¸.PDF

2 ㆍ 大 韓 政 治 學 會 報 ( 第 20輯 1 號 ) 도에서는 고려 말에 주자학을 받아들인 사대부들을 중심으로 보급되기 시작하였고, 이후 조선시대에 들어와서는 국가적인 정책을 통해 민간에까지 보급되면서 주자 성리학의 심 화에 커다란 역할을 담당하였다. 1) 조선시대

제 4 장회귀분석

untitled

17장 클래스와 메소드

탐색적데이터분석 (Exploratory Data Analysis) 데이터가지닌주요특성 / 개괄을 ( 우선적으로 ) 탐구함으로써 데이터분석을시도하려는형태 모델링이나가설을세우고이를검증하기보다데이터자체 가우리에게말하려고하는것을알아내는것의중요성을강 조하며시각화플롯을많이활용 J

슬라이드 1

한국정책학회학회보

2011년 제 9회 최우수상.hwp

Microsoft PowerPoint - IPYYUIHNPGFU

An Effective Sentence-Extraction Technique Using Contextual Information and Statistical Approaches for Text Summarization

°Ÿ»4º¨Ö

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

statistics


untitled

COVER.HWP

이슈분석 2000 Vol.1

가볍게읽는-내지-1-2

한눈에-아세안 내지-1

kbs_thesis.hwp


Lecture12_Bayesian_Decision_Thoery

<4D F736F F F696E74202D FC0E5B4DCB1E220BCF6BFE4BFB9C3F8205BC8A3C8AF20B8F0B5E55D>

슬라이드 1

텀블러514

*통신1510_01-도비라및목차1~12

09 강제근로의 금지 폭행의 금지 공민권 행사의 보장 중간착취의 금지 41 - 대판 , 2006도7660 [근로기준법위반] (쌍용자동차 취업알선 사례) 11 균등대우의 원칙 43 - 대판 , 2002도3883 [남녀고용평등법위

제 출 문 국민대통합위원회 위원장 귀하 이 보고서를 연구용역사업 공공갈등의 정치화 경로분석 및 대응방안 연구 과제의 최종보고서로 제출합니다. 2014년 12월 단국대학교 산학협력단장 박 성 완 II

미얀-내지-8차

기술통계

슬라이드 1

<4D F736F F D20B4EBBFF BFB5BEF7BAB8B0EDBCAD2E646F63>

PowerPoint 프레젠테이션

동아시아국가들의실질환율, 순수출및 경제성장간의상호관계비교연구 : 시계열및패널자료인과관계분석

PowerPoint Presentation

PowerPoint 프레젠테이션

Microsoft PowerPoint - MDA DA pptx

고차원에서의 유의성 검정

자료의 이해 및 분석

Microsoft PowerPoint - ANOVA pptx

슬라이드 1

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

tkinter를 이용한 계산기 구현

시스템경영과 구조방정식모형분석

PowerPoint 프레젠테이션

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

*통신1704_01-도비라및목차1~11

딥러닝 첫걸음


exp

MATLAB for C/C++ Programmers

제 1 절 two way ANOVA 제1절 1 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

adfasdfasfdasfasfadf


9장. 연관규칙분석과 협업필터링

9장. 연관규칙분석과 협업필터링

<BFACB1B831382D31365FBAF2B5A5C0CCC5CD20BAD0BCAEBFA120C0C7C7D120BFE4C0B2BBEAC1A420B9E6B9FD20BAF1B1B35F33C2F7BCF6C1A E687770>

데이터 시각화

에듀데이터_자료집_완성본.hwp

Transcription:

통계적학습 (statistical learning) 박창이 서울시립대학교통계학과 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 1 / 33

학습내용 통계적학습목적 : 예측과추론방법 : 모수적방법과비모수적방법정확도와해석력지도학습과자율학습회귀와분류모형의정확도에대한평가적합도편의-분산의관계분류문제 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 2 / 33

통계적학습 I Advertising 데이터 sales: 200개의마켓에서상품의판매량, TV, radi, newspaper: 매체별상품의광고예산광고와판매간에연관성이있는경우광고예산을조정하여간접적으로판매를증가시키고자함세매체의예산에기반하여판매량을예측하는모형을개발해야함출력변수 (utput variable) Y : sales, 입력변수 (input variable): TV(X 1 ), radi(x 2 ), newspaper(x 3 ) 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 3 / 33

통계적학습 II Sales 5 10 15 20 25 Sales 5 10 15 20 25 Sales 5 10 15 20 25 0 50 100 200 300 TV 0 10 20 30 40 50 Radi 0 20 40 60 80 100 Newspaper 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 4 / 33

통계적학습 III 출력변수는흔히반응변수 (respnse variable) 또는종속변수 (dependent variable) 이라불리기도하며, 입력변수는예측변수 (predictr), 독립변수 (independent variable), 특성값 (feature), 또는변수로불림일반적으로정량반응변수 Y 와 X = (X 1,..., X p ) 간에관계 Y = f (X ) + ɛ를가정. 여기서 f : X 1,..., X p 의미지의함수, ɛ: 평균이 0인랜덤한오차항관측된데이터를이용하여 f 를추정해야하며, 통계적학습은 f 를추정하는일련의방법을말함 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 5 / 33

통계적학습 IV Incme 데이터 Incme 20 30 40 50 60 70 80 Incme 20 30 40 50 60 70 80 10 12 14 16 18 20 22 Years f Educatin 10 12 14 16 18 20 22 Years f Educatin 파란선 : 참값 ( 모의실험 ), 검은선 : 관측오차 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 6 / 33

Incme 통계적학습 V Years f Educatin Senirity 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 7 / 33

f 를추정하는목적 I 1. 예측 (predictin): Ŷ = ˆf (X ) 로예측예측오차 E(Y Ŷ )2 = E(f (X ) + ɛ ˆf (X )) 2 = [f (X ) ˆf (X )] 2 + Var(ɛ) [f (X ) ˆf (X )] 2 : 줄일수있는오차 (reducible errr) 로학습방법에따라줄일수있음 Var(ɛ): 줄일수없는오차 (irreducible errr). ɛ은관측되지않는변수나변동을포함할수있음 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 8 / 33

f 를추정하는목적 II 2. 추론 (inference): X 와 Y 간의관계를이해하는것이목적인경우출력변수와연관성이있는입력변수들은무엇인가? 출력변수와각입력변수간의관계는? 출력과입력변수들간의관계는선형인가혹은더복잡한가? 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 9 / 33

f 를추정하는방법 I x ij, i = 1,..., n, j = 1,..., p: j번째입력변수의 i번째관측값 y i : i번째출력변수의값 {(x i, y i )} n i=1 : 훈련데이터 (training data), x i = (x i1,..., x ip ) T 훈련데이터에학습법을적용하여미지의함수 f 를추정하고자함 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 10 / 33

f 를추정하는방법 II 1. 모수적방법 (parametric methds) 단계 1 f 에대한가정 ( 예 ) 선형모형 f (X ) = β 0 + β 1X 1 + + β px p 2 모형적합 ( 혹은훈련 ) ( 예 ) 선형모형에서 Y β 0 + β 1X 1 + + β px p 이되도록훈련데이터를이용하여미지의모수 β 0, β 1,..., β p 추정함수 f 의추정문제를모수의추정문제로단순화함 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 11 / 33

Incme f 를추정하는방법 III Incme 데이터 incme β 0 + β 1 educatin + β 2 senirity Years f Educatin Senirity 실제로는비선형관계가있음 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 12 / 33

Incme Incme f 를추정하는방법 IV 2. 비모수적방법 (nnparametric methds) f 에대하여특정한형태를가정하기않기때문에다양한 f 를적합할수있음. 반면 f 에대한정확한추정치를얻기위해서모수적인방법보다더많은데이터가필요함 Incme 데이터 Years f Educatin Senirity Years f Educatin Senirity thin-plate spline fits: smth vs rugh(verfit) 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 13 / 33

정확도와해석력 I 추론이목적인경우 Y 와 X 1,..., X p 간의관계를이해하기쉬운 ( 혹은해석력이좋은 ) 선형모형과같이제한적인방법이더나음 spline과같이유연한 (flexible) 방법은추정할수있는 f 의형태가다양한반면 Y 와 X 1,..., X p 의관계가매우복잡하여이해하기어려움 ( 해석력이떨어짐 ) 예측이목적인경우유연한방법을적용하는것이좋음. 그러나덜유연한방법이더정확한경우가종종있으며이는모형의복잡도와과대적합 (verfitting) 과관련이있음 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 14 / 33

정확도와해석력 II 유연도와해석력에따른학습법의비교 Interpretability Lw High Subset Selectin Lass Least Squares Generalized Additive Mdels Trees Bagging, Bsting Supprt Vectr Machines Lw High Flexibility 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 15 / 33

지도학습과자율학습 지도학습 (supervised learning) 예측혹은해석의목적으로출력변수와입력변수간의모형을적합선형회귀, 로지스틱회귀, GAM, bsting, supprt vectr machines 등자율학습 (unsupervised learning) 출력변수는없고입력변수만존재군집분석등예 : market segmentatin에서고객의우편번호, 가구수입, 쇼핑습관등을이용하여고객을몇개의집단으로분할 n개의데이터중 m < n개는입력변수와출력변수가모두관측되고 n m개는입력변수만관측된경우준지도학습 (semi-supervised learning) 이라고함 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 16 / 33

회귀와분류 변수정량변수 (quantitative variable): 키, 몸무게, 수입, 집값, 주가등수치값을갖는변수정성변수 (qualitative variable): 성별, 제품브랜드, 파산여부, 암진단등범주를갖는변수출력변수가범주형인경우분류 (classificatin), 정량변수인경우회귀 (regressin) 문제로지스틱회귀의경우분류로도혹은회귀로도볼수있음 K-nearest neighbr, bsting, tree 등은회귀와분류에적용가능 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 17 / 33

모형의평가 : 적합도 I 회귀분석에서는예측값이관측값과잘맞는지측정하는척도로 MSE(mean squared errr) 를흔히사용 MSE = 1 n n (y i ˆf (x i )) 2 i=1 이는훈련데이터에대한훈련 MSE이며실제로는새로운시험데이터에대한정확도인시험 MSE에관심이있음시험 MSE = Ave(ˆf (x 0 ) y 0 ) 2 여기서 (x 0, y 0 ): 훈련에사용되지않은새로운시험데이터 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 18 / 33

모형의평가 : 적합도 II 훈련 MSE가작은모형이반드시작은시험 MSE를주지는않음모형의유연성 ( 복잡도 ) 이커질수록훈련 MSE는단조감소하는반면시험 MSE는 U자형임훈련 MSE는작은데시험 MSE가큰경우는 verfitting으로너무복잡한모형을사용한경우이며, 훈련과시험 MSE 모두큰경우는 underfitting으로너무단순한모형을사용한경우임보통시험 MSE를구할수없기때문에추정값으로 CV(crss-validatin) 을많이사용함 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 19 / 33

모형의평가 : 적합도 III 모의실험 1: 비선형인 f Y 2 4 6 8 10 12 Mean Squared Errr 0.0 0.5 1.0 1.5 2.0 2.5 0 20 40 60 80 100 X 2 5 10 20 Flexibility 오렌지 : 선형회귀, 파란색과녹색 : smthing splines 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 20 / 33

모형의평가 : 적합도 IV 모의실험 2: 선형에가까운 f Y 2 4 6 8 10 12 Mean Squared Errr 0.0 0.5 1.0 1.5 2.0 2.5 0 20 40 60 80 100 X 2 5 10 20 Flexibility 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 21 / 33

모형의평가 : 적합도 V 모의실험 3: 비선형성이강한 f Y 10 0 10 20 Mean Squared Errr 0 5 10 15 20 0 20 40 60 80 100 X 2 5 10 20 Flexibility 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 22 / 33

모형의평가 : 편의 - 분산의관계 I 시험 MSE 의기대값 E(y 0 ˆf (x 0 )) 2 = Var(ˆf (x 0 )) + [Bias(ˆf (x 0 ))] 2 + Var(ɛ) Var(ˆf )(x 0 ): 서로다른훈련데이터를이용하여추정할때 ˆf 의변화량을의미 Bias(ˆf (x 0 )): 모형 f 에의해현실을근사하여생기는오차 ( 예 ) 선형회귀에서 f 는선형이라가정하고추정 Var(ɛ): 줄일수없는오차 (irreducible errr) 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 23 / 33

모형의평가 : 편의 - 분산의관계 II 시험오차의기대값을줄이기위해서는분산과편의가작은학습법을선택해야함모형이유연할수록분산은커지고편의는작아지는경향이있고, 반대로모형이제한적일수록분산은작아지고편의는커지는경향이있음분산과편의간에는이러한상충으로인하여이둘이적절히균형을이루는학습방법을선택하게됨 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 24 / 33

모형의평가 : 편의 - 분산의관계 III 세가지모의실험에서편의와분산 0.0 0.5 1.0 1.5 2.0 2.5 0.0 0.5 1.0 1.5 2.0 2.5 0 5 10 15 20 MSE Bias Var 2 5 10 20 Flexibility 2 5 10 20 Flexibility 2 5 10 20 Flexibility 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 25 / 33

모형의평가 : 분류문제 I 분류의경우 y 1,..., y n 은질적변수임훈련오분류율 (training errr rate): 1 n n i=1 I (y i ŷ i ) 여기서 ŷ i 는 ˆf 에의한 i번째관측값의예측값시험오분류율 (test errr rate): Ave(I (y 0 ŷ 0 )) 여기서 ŷ 0 는 x 0 에서분류기에의한예측값시험오분류율이작은분류기가좋음 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 26 / 33

모형의평가 : 분류문제 II 베이즈분류기는시험오분류율을최소로하는분류기로 x 0 에대한 예측값으로 arg max j P(Y = j X = x 0 ) 임 베이즈분류기는베이즈오분류율 (Bayes errr rate) 이라불리는최소의시험오분류율을갖음 X = x 0 에서의오분류율은 1 max j P(Y = j X = x 0 ) 이므로베이즈 오분류율은 1 E(max j P(Y = j X )) 임 베이즈오분류율은줄일수없는오차와유사 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 27 / 33

모형의평가 : 분류문제 III 모의실험 X1 X2 점선 : 베이즈분류경계 (Bayes decisin bundary) 베이즈오분류율 : 0.1304 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 28 / 33

모형의평가 : 분류문제 IV 일반적으로 X 가주어졌을때 Y 의조건부분포는알려져있지않기 때문에베이즈분류기를구하는것은불가능. 대신조건부확률을 추정한후추정된확률을최대로하는클래스로분류할수있음 K- 근방 (K-nearest neighbr; KNN) 분류기 x 0 와가장가까운 K개의점들로이루어진 K-근방 N 0 를찾아 ˆP(Y = j X = x 0 ) = 1 K i N 0 I (y i = j) 로추정 K가증가하면덜유연해지며분류경계가선형에가까움 ( 저분산 고편의 ) K = 1 이면훈련오분류율은 0 이지만시험오분류율은클수 있음 ( 고분산저편의 ) 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 29 / 33

모형의평가 : 분류문제 V 3-NN 예제 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 30 / 33

모형의평가 : 분류문제 VI KNN 분류경계의비교 : K = 1 vs K = 100 KNN: K=1 KNN: K=100 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 31 / 33

모형의평가 : 분류문제 VII 최적 K = 10 에서의분류경계 X1 X2 KNN: K=10 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 32 / 33

모형의평가 : 분류문제 VIII KNN 훈련과시험오분류율비교 Errr Rate 0.00 0.05 0.10 0.15 0.20 Training Errrs Test Errrs 0.01 0.02 0.05 0.10 0.20 0.50 1.00 1/K 박창이 ( 서울시립대학교통계학과 ) 통계적학습 (statistical learning) 33 / 33