표본재추출(resampling) 방법

Similar documents
Resampling Methods

통계적 학습(statistical learning)

Tree 기반의 방법

비선형으로의 확장

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

단순 베이즈 분류기

고차원에서의 유의성 검정


statistics

Microsoft PowerPoint - ANOVA pptx

슬라이드 1

G Power


untitled

COVER.HWP

이슈분석 2000 Vol.1

가볍게읽는-내지-1-2

한눈에-아세안 내지-1

kbs_thesis.hwp


저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할


untitled

기술통계

PowerPoint 프레젠테이션

exp

Microsoft Word - sbe_anova.docx

°Ÿ»4º¨Ö

제 4 장회귀분석

Microsoft PowerPoint - IPYYUIHNPGFU

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사


농림수산식품 연구개발사업 운영규정

LIDAR와 영상 Data Fusion에 의한 건물 자동추출

커널 방법론


슬라이드 1

메타분석: 통계적 방법의 기초

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint

R

PowerPoint 프레젠테이션

Microsoft Word - LectureNote.doc


공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

5장 SQL 언어 Part II

PowerPoint 프레젠테이션

8.2. 측정시스템 측정시스템의기본개념 통계적품질관리는모든것을품질데이터에근거하고있으므로정확한데이터의수집이중요 측정시스템이제품이나공정을정확히측정하여올바른데이터를산출할수있는것인지반드시평가 측정오차의성질 정확성, 정밀도, 안정성, 재현성

<4D F736F F F696E74202D FC0E5B4DCB1E220BCF6BFE4BFB9C3F8205BC8A3C8AF20B8F0B5E55D>

정치사적

10. ..

한국정책학회학회보

행정학석사학위논문 공공기관기관장의전문성이 조직의성과에미치는영향 년 월 서울대학교행정대학원 행정학과행정학전공 유진아

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

(Microsoft PowerPoint - Ch21_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

An Effective Sentence-Extraction Technique Using Contextual Information and Statistical Approaches for Text Summarization

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

nonpara6.PDF

9장. 연관규칙분석과 협업필터링

9장. 연관규칙분석과 협업필터링

Microsoft Word - skku_TS2.docx

국가기술자격 재위탁 효율성 평가

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할


(001~006)개념RPM3-2(부속)

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a


슬라이드 1

제 8 장. 통계적추정 개요 : 통계적추정 ( 추론 ) 은모집단에서추출된표본의정보로모집단에대한값의추측또는그값에대한확신을결정하는과정이며다음의두단계가있다. 2 통계적추정 (statistical estimation): 모수인평균 ( m), 분산 ( s ), 표준편차 ( s

Microsoft Word - SPSS_MDA_Ch6.doc

슬라이드 제목 없음

확률 및 분포

II. 메디치 효과와 창의성 네트워크 사회를 설명하는 법칙 중 카오의 법칙 라는 것이 있다 네트워크에서의 창의성은 네트워크의 다양성에 비례한다 는 법칙 이다 네트워크를 통해 다양한 생각과 관심이 만나면 그 속에서 새로운 아이디어가 나오고 창의성이 발현될 수 있다는 것이

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

MATLAB for C/C++ Programmers

동아시아국가들의실질환율, 순수출및 경제성장간의상호관계비교연구 : 시계열및패널자료인과관계분석

제49회 부산과학전람회

자율학습

tkinter를 이용한 계산기 구현

모수 θ의 추정량은 추출한 개의 표본값을 어떤 규칙에 의해 처리를 해서 모수의 값을 추정하는 방법입니다. 추정량에서 사용되는 규칙은 어떤 표본을 추출했냐에 따라 변하는 것이 아닌 고정된 규칙입니다. 예를 들어 우리의 관심 모수가 모집단의 평균이라고 하겠습니다. 즉 θ

OCW_C언어 기초

<BFACB1B831382D31365FBAF2B5A5C0CCC5CD20BAD0BCAEBFA120C0C7C7D120BFE4C0B2BBEAC1A420B9E6B9FD20BAF1B1B35F33C2F7BCF6C1A E687770>

데이터 시각화

소성해석

untitled

Microsoft PowerPoint - SBE univariate5.pptx


<4D F736F F D20B1E2BBF3C5EBB0E85F36C0E55FC7D0BBFD2E646F6378>

<B9AEC1F8C6F7B7B320C3D6C1BE20BACEB7CF28C1A4C3A5BFACB1B82C20C0CCB4F6C8AFB1B3BCF6292E687770>

CHO3. 수요예측 1

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

17장 클래스와 메소드

5장. 최적화

에너지경제연구 제13권 제1호

외국인투자유치성과평가기준개발

<BFACB1B831382D31355FBAF2B5A5C0CCC5CD20B1E2B9DDC0C720BBE7C0CCB9F6C0A7C7E820C3F8C1A4B9E6B9FD20B9D720BBE7C0CCB9F6BBE7B0ED20BFB9C3F8B8F0C7FC20BFACB1B82D33C2F7BCF6C1A E687770>

- ii - - iii -

(132~173)4단원-ok

Transcription:

표본재추출 (resampling) 방법 박창이 서울시립대학교통계학과 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 1 / 18

학습내용 개요 CV(crss-validatin) 검증오차 LOOCV(leave-ne-ut crss-validatin) k-fld CV 편의-분산의관계분류문제에서의 CV Btstrap 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 2 / 18

개요 표본재추출훈련데이터에서반복적으로표본을추출하여모형을적합하는방법으로변동성을모르는통계량의변동성에대한정보를제공예 : 선형회귀의추정에대한변동성을추정계산량이많음통계적학습에서많이사용되는표본재추출방법 CV(crss-validatin): 학습방법의성능을평가 ( 모형평가 ; mdel assessment) 하기위해시험오차를직접추정하거나모형의복잡도를선택 ( 모형선택 ; mdel selectin) 하기위해사용 btstrap: 주어진학습법에서모수추정치의정확도에대한측도제공 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 3 / 18

CV 시험오차는새로운데이터에서의예측에대한오차의기대값임훈련오차는시험오차를과소추정하는경향이있음현실적으로시험오차는알수없기때문에추정해야함이를위해훈련데이터의일부를모형적합에서제외 (hld ut) 한후제외된관측치에서시험오차를추정할수있음편의상양적반응변수를갖는회귀문제에대하여논의 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 4 / 18

검증오차법 I 데이터를훈련데이터와검증데이터로나누어훈련데이터를이용하여모형을적합하고검증데이터에서적합된모형을이용하여예측함검증데이터에서의오차인검증오차 (validatin errr) 를시험오차에대한추정치로사용 Aut 데이터 mpg를 hrsepwer에대하여다항회귀 392개의데이터를 196개의훈련데이터와 196개의검증데이터로랜덤하게분할하고검증데이터에대한 MSE를구함 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 5 / 18

검증오차법 II Mean Squared Errr 16 18 20 22 24 26 28 Mean Squared Errr 16 18 20 22 24 26 28 2 4 6 8 10 Degree f Plynmial 2 4 6 8 10 Degree f Plynmial 왼쪽 : hrsepwer의차수와검증오차, 오른쪽 : 10번의반복 2차이후는크게변화없음검증데이터분할에따른변동성이큼. 데이터를분할로인한데이터감소가발생하여검증오차는시험오차를과대추정하는경향이있음 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 6 / 18

LOOCV i(= 1,..., n) 번째데이터 (x i, y i ) 를제외한나머지 n 1 개의 데이터를훈련데이터로삼아모형을적합한후, i 번째데이터를검증 데이터로예측값 ŷ i 를구하고검증오차 MSE i = (y i ŷ i ) 2 을계산 LOOCV 추정값 : CV (n) = 1 n n i=1 MSE i 검증오차법에대한장점 n 1 개의관측값은거의전체데이터이므로거의편의가없음 상대적으로시험오차를덜과대추정함 랜덤하게데이터를분할하지않음 n 이크면적합할모형이많아져서비용이커짐. 그러나특별한몇 가지경우에는모형을한번만적합해도계산이가능함예 : 선형회귀에서 CV (n) = 1 ( ) 2 n yi ŷ i n i=1 1 h i 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 7 / 18

k-fld CV I 데이터를랜덤하게대략크기가동일한 k개의묶음 (fld) 로나누고 i(= 1,..., k) 번째묶음을제외한 k 1개의묶음을훈련데이터로 i 번째묶음을검증데이터로활용하여구한검증오차를 MSE i 라하면, k-fld CV는 CV (k) = 1 k k MSE i LOOCV는 k = n인 k-fld CV의특별한경우임. k는흔히 5나 10이많이사용됨 LOOCV에비해계산량이훨씬작으며 k에대한편의-분산관계로인하여더나을수도있음 i=1 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 8 / 18

k-fld CV II Aut 데이터 LOOCV 10 fld CV Mean Squared Errr 16 18 20 22 24 26 28 Mean Squared Errr 16 18 20 22 24 26 28 2 4 6 8 10 Degree f Plynmial 2 4 6 8 10 Degree f Plynmial 왼쪽 : hrsepwer 의차수와 LOOCV, 오른쪽 : 10-fld CV 9 번반복 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 9 / 18

k-fld CV III 모의실험데이터에서의비교 Mean Squared Errr 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Mean Squared Errr 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Mean Squared Errr 0 5 10 15 20 2 5 10 20 Flexibility 2 5 10 20 Flexibility 2 5 10 20 Flexibility 파란색 : 시험오차참값, 검은색 : LOOCV, 오렌지색 : 10-fld CV, 십자가 : 최적값 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 10 / 18

k-fld CV IV 왼쪽 ( 비선형 ): 일반적인형태는맞지만과소추정가운데 ( 선형 ): 복잡도가낮을부분에서는유사하며높은부분에서는과대추정오른쪽 ( 강한비선형 ): CV와참값이매우유사함모형선택에있어서는실제추정값자체보다는최소값의위치가중요함 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 11 / 18

k-fld CV 의편의와분산 편의의감소측면에서는 LOOCV가나음 LOOCV: 훈련데이터가 n 1로근사적으로편의가없음 k = 5, 10: 훈련데이터가 (k 1)n/k로중간의편의를갖음분산측면에서는 k-fld CV가나음 LOOCV: 훈련데이터간에 n 2개의데이터가중복되어추정모형간의양의상관이강함 k-fld CV: 훈련데이터간의중복이더작기때문에추정모형간의상관이덜함 k값의선택에편의와분산의상충이있음. 경험적으로 k = 5, 10이시험오차에대한더나은추정치제공 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 12 / 18

분류문제 I 회귀에서는 MSE를사용하는반면분류에서는오분류율을사용 LOOCV 오분류율 : CV (n) = 1 n n i=1 Err i, Err i = I (y i ŷ i ) k-fld CV 오분류율도마찬가지로정의모형의복잡도가증가하면훈련오차는감소하는경향이있음 10-fld CV는시험오분류율에대한좋은추정값이지만다소과소추정함 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 13 / 18

분류문제 II 2-차원 분류데이터에서 로지스틱 회귀 Degree=1 Degree=2 Degree=3 Degree=4 보라색: 베이즈 분류경계(0.133), 검은색: 로지스틱 회귀(1차: 0.201, 2차: 0.197, 3차: 0.160, 4차: 0.162) 박창이 (서울시립대학교 통계학과) 표본재추출(resampling) 방법 14 / 18

분류문제 III 2- 차원분류데이터에서로지스틱회귀와 KNN 분류기 Errr Rate 0.12 0.14 0.16 0.18 0.20 Errr Rate 0.12 0.14 0.16 0.18 0.20 2 4 6 8 10 Order f Plynmials Used 0.01 0.02 0.05 0.10 0.20 0.50 1.00 1/K 갈색 : 시험오차, 파란색 : 훈련오차, 검은색 : 10-fld CV 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 15 / 18

Btstrap I 선형회귀에서계수의표준오차를추정하는경우처럼주어진 추정값이나학습법의불확실성을추정하는데사용됨 예 자산 X 에 α 와자산 Y 에 1 α 의비율로투자할때전체위험 ( 혹은 분산 ) Var(αX + (1 α)y ) 를최소화하는 α = σ 2 X (= 1), σ2 Y (= 1.25), σ XY (= 0.5) 는미지이므로 ˆα = 추정 σ2 Y σ XY σ 2 X +σ2 Y 2σ XY ˆσ2 Y ˆσ XY ˆσ X 2 +ˆσ2 Y 2ˆσ 로 XY 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 16 / 18

Btstrap II 0 50 100 150 200 0 50 100 150 200 α 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.4 0.5 0.6 0.7 0.8 0.9 α 0.3 0.4 0.5 0.6 0.7 0.8 0.9 α True Btstrap 왼쪽 : 1000개의모의실험데이터에서얻은 ˆα, 가운데 : 한데이터에서 1000개의 bstrap 표본에서얻은 ˆα, 핑크색 : α 참값실제데이터에서는새로운표본을반복적으로뽑을수없음. 반면 btstrap은주어진원데이터에서표본을반복적으로뽑음 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 17 / 18

Btstrap III 표준오차에대한 btstrap 추정 크기 n 인원데이터 Z 에서의 α 의추정치 ˆα Z b, b = 1,..., B: Z 에서랜덤하게크기 n 인표본을복원추출한데이터 α b : Z b 에서 구한 ˆα 값 SE B (ˆα) = 1 B 1 B r=1 ( ˆα r 1 ) 2 B B r =1 ˆα r 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 18 / 18