Resampling Methods

Similar documents
표본재추출(resampling) 방법

통계적 학습(statistical learning)

Tree 기반의 방법

비선형으로의 확장

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

단순 베이즈 분류기

고차원에서의 유의성 검정

statistics


슬라이드 1

Microsoft PowerPoint - ANOVA pptx

untitled

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할


PowerPoint 프레젠테이션

Microsoft Word - sbe_anova.docx

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

°Ÿ»4º¨Ö

G Power

Microsoft PowerPoint - IPYYUIHNPGFU

기술통계

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

제 4 장회귀분석

(001~006)개념RPM3-2(부속)

exp

농림수산식품 연구개발사업 운영규정


메타분석: 통계적 방법의 기초

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint

한국정책학회학회보

PowerPoint 프레젠테이션

커널 방법론

(Microsoft PowerPoint - Ch21_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할



LIDAR와 영상 Data Fusion에 의한 건물 자동추출

5장 SQL 언어 Part II

PowerPoint 프레젠테이션

<4D F736F F F696E74202D FC0E5B4DCB1E220BCF6BFE4BFB9C3F8205BC8A3C8AF20B8F0B5E55D>

R

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

슬라이드 제목 없음

슬라이드 1

Microsoft Word - SPSS_MDA_Ch6.doc

제49회 부산과학전람회

nonpara6.PDF

Microsoft Word - skku_TS2.docx

8.2. 측정시스템 측정시스템의기본개념 통계적품질관리는모든것을품질데이터에근거하고있으므로정확한데이터의수집이중요 측정시스템이제품이나공정을정확히측정하여올바른데이터를산출할수있는것인지반드시평가 측정오차의성질 정확성, 정밀도, 안정성, 재현성

국가기술자격 재위탁 효율성 평가


제 8 장. 통계적추정 개요 : 통계적추정 ( 추론 ) 은모집단에서추출된표본의정보로모집단에대한값의추측또는그값에대한확신을결정하는과정이며다음의두단계가있다. 2 통계적추정 (statistical estimation): 모수인평균 ( m), 분산 ( s ), 표준편차 ( s

Microsoft Word - LectureNote.doc

MATLAB for C/C++ Programmers

실험 5

9장. 연관규칙분석과 협업필터링

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

9장. 연관규칙분석과 협업필터링


자율학습

행정학석사학위논문 공공기관기관장의전문성이 조직의성과에미치는영향 년 월 서울대학교행정대학원 행정학과행정학전공 유진아

10. ..

tkinter를 이용한 계산기 구현

슬라이드 1

모수 θ의 추정량은 추출한 개의 표본값을 어떤 규칙에 의해 처리를 해서 모수의 값을 추정하는 방법입니다. 추정량에서 사용되는 규칙은 어떤 표본을 추출했냐에 따라 변하는 것이 아닌 고정된 규칙입니다. 예를 들어 우리의 관심 모수가 모집단의 평균이라고 하겠습니다. 즉 θ

OCW_C언어 기초


슬라이드 1

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

데이터 시각화

고객관계를 리드하는 서비스 리더십 전략

에너지경제연구 제12권 제2호

untitled

중심경향치 (measure of central tendency) 대표값이란용어이외에자료의중심값또는중심위치의척도 (measure of central location) 라고도함. 예 : 평균 (mean= 산술평균 ; arithmetic mean), 절사평균 (trimmed

<4D F736F F D20B1E2BBF3C5EBB0E85F36C0E55FC7D0BBFD2E646F6378>

An Effective Sentence-Extraction Technique Using Contextual Information and Statistical Approaches for Text Summarization

<B9AEC1F8C6F7B7B320C3D6C1BE20BACEB7CF28C1A4C3A5BFACB1B82C20C0CCB4F6C8AFB1B3BCF6292E687770>

슬라이드 1

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

확률 및 분포

5장. 최적화

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

이다. 즉 μ μ μ : 가아니다. 이러한검정을하기위하여분산분석은다음과같은가정을두고있다. 분산분석의가정 (1) r개모집단분포는모두정규분포를이루고있다. (2) r개모집단의평균은다를수있으나분산은모두같다. (3) r개모집단에서추출한표본은서로독립적이다. 분산분석은집단을구분하는

<BFACB1B831382D31355FBAF2B5A5C0CCC5CD20B1E2B9DDC0C720BBE7C0CCB9F6C0A7C7E820C3F8C1A4B9E6B9FD20B9D720BBE7C0CCB9F6BBE7B0ED20BFB9C3F8B8F0C7FC20BFACB1B82D33C2F7BCF6C1A E687770>

WINDOW FUNCTION 의이해와활용방법 엑셈컨설팅본부 / DB 컨설팅팀정동기 개요 Window Function 이란행과행간의관계를쉽게정의할수있도록만든함수이다. 윈도우함수를활용하면복잡한 SQL 들을하나의 SQL 문장으로변경할수있으며반복적으로 ACCESS 하는비효율역

- ii - - iii -

Microsoft Word - SAS_Data Manipulate.docx

4 _ 한국지역정보화학회기획세미나발표논문집

PowerPoint 프레젠테이션

Microsoft Word - ch2_smoothing.doc

(Microsoft PowerPoint - Ch19_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

<BFACB1B831382D31365FBAF2B5A5C0CCC5CD20BAD0BCAEBFA120C0C7C7D120BFE4C0B2BBEAC1A420B9E6B9FD20BAF1B1B35F33C2F7BCF6C1A E687770>

Microsoft PowerPoint - MDA DA pptx

Ł?

통계학입문

Gray level 변환 및 Arithmetic 연산을 사용한 영상 개선

(Microsoft PowerPoint - Ch17_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

Transcription:

Resampling Methds 박창이 서울시립대학교통계학과 박창이 ( 서울시립대학교통계학과 ) Resampling Methds 1 / 18

학습내용 개요 CV(crss-validatin) 검증오차 LOOCV(leave-ne-ut crss-validatin) k-fld CV 편의-분산의관계분류문제에서의 CV Btstrap 박창이 ( 서울시립대학교통계학과 ) Resampling Methds 2 / 18

개요 resampling 훈련데이터에서반복적으로표본을추출하여모형을적합하는방법으로변동성을모르는통계량의변동성에대한정보를제공예 : 선형회귀의추정에대한변동성을추정계산량이많음통계적학습에서많이사용되는 resampling 방법 CV(crss-validatin): 학습방법의성능을평가 ( 모형평가 ; mdel assessment) 하기위해시험오차를직접추정하거나모형의복잡도를선택 ( 모형선택 ; mdel selectin) 하기위해사용 btstrap: 흔히주어진학습법의모수추정치의정확도에대한측도를제공 박창이 ( 서울시립대학교통계학과 ) Resampling Methds 3 / 18

CV 시험오차는새로운데이터에서의예측에대한오차의기대값으로훈련오차는시험오차를과소추정하는경향이있음현실적으로시험오차는알려지지않기때문에추정해야함. 이를위해훈련데이터의일부를모형적합에서제외 (hld ut) 한후제외된관측치에서시험오차를추정할수있음편의상양적반응변수를갖는회귀문제에대하여논의 박창이 ( 서울시립대학교통계학과 ) Resampling Methds 4 / 18

CV: 검증오차법 I 데이터를훈련데이터와검증데이터로나눔. 훈련데이터를이용하여모형을적합. 검증데이터에서적합된모형을이용하여예측. 검증오차 (validatin errr) 를시험오차에대한추정치로사용 Aut 데이터 mpg를 hrsepwer에대하여다항회귀 392개의데이터를 196개의훈련데이터와 196개의검증데이터로랜덤하게분할하고검증데이터에대한 MSE를구함 박창이 ( 서울시립대학교통계학과 ) Resampling Methds 5 / 18

CV: 검증오차법 II Mean Squared Errr 16 18 20 22 24 26 28 Mean Squared Errr 16 18 20 22 24 26 28 2 4 6 8 10 Degree f Plynmial 2 4 6 8 10 Degree f Plynmial 왼쪽 : hrsepwer의차수와검증오차, 오른쪽 : 10번의반복 2차이후는크게변화없음검증데이터분할에따른변동성이큼. 데이터를분할로인한데이터감소가발생하여검증오차는시험오차를과대추정하는경향이있음 박창이 ( 서울시립대학교통계학과 ) Resampling Methds 6 / 18

CV: LOOCV I i(= 1,..., n) 번째데이터 (x i, y i ) 를제외한나머지 n 1 개의 데이터를훈련데이터로삼아모형을적합한후, i 번째데이터를검증 데이터로예측값 ŷ i 를구하고검증오차 MSE i = (y i ŷ i ) 2 을계산 LOOCV 추정값 : CV (n) = 1 n n i=1 MSE i 검증오차법에대한장점 n 1 개의관측값은거의전체데이터이므로거의편의가없음 상대적으로시험오차를덜과대추정함 랜덤하게데이터를분할하지않음 n 이크면적합할모형이많아져서비용이커지며특별한경우에는 모형을한번만적합해도계산이가능함예 : 선형회귀에서 CV (n) = 1 ( ) 2 n yi ŷ i n i=1 1 h i 박창이 ( 서울시립대학교통계학과 ) Resampling Methds 7 / 18

CV: LOOCV II Aut 데이터 LOOCV 10 fld CV Mean Squared Errr 16 18 20 22 24 26 28 Mean Squared Errr 16 18 20 22 24 26 28 2 4 6 8 10 Degree f Plynmial 2 4 6 8 10 Degree f Plynmial 왼쪽 : hrsepwer 의차수와 LOOCV, 오른쪽 : 10-fld CV 9 번반복 박창이 ( 서울시립대학교통계학과 ) Resampling Methds 8 / 18

k-fld CV I 데이터를랜덤하게대략크기가동일한 k개의묶음 (fld) 로나누고 i(= 1,..., k) 번째묶음을제외한 k 1개의묶음을훈련데이터로 i 번째묶음을검증데이터로활용하여구한검증오차를 MSE i 라하면, k-fld CV는 CV (k) = 1 k k MSE i LOOCV는 k = n인 k-fld CV의특별한경우임. k는흔히 5나 10이많이사용됨 LOOCV에비해계산량이훨씬작음. 또한계산상의장점외에도 k에대한편의-분산관계로인하여더나을수도있음 i=1 박창이 ( 서울시립대학교통계학과 ) Resampling Methds 9 / 18

k-fld CV II 모의실험데이터에서의비교 Mean Squared Errr 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Mean Squared Errr 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Mean Squared Errr 0 5 10 15 20 2 5 10 20 Flexibility 2 5 10 20 Flexibility 2 5 10 20 Flexibility 파란색 : 시험오차참값, 검은색 : LOOCV, 오렌지색 : 10-fld CV, 십자가 : 최적값 박창이 ( 서울시립대학교통계학과 ) Resampling Methds 10 / 18

k-fld CV III 오른쪽 : CV와참값이매우유사함가운데 : 복잡도가낮은부분에서는유사하며높은부분에서는과대추정왼편 : 일반적인형태는맞지만과소추정모형선택에있어서는실제추정값자체보다는최소값의위치가중요함 박창이 ( 서울시립대학교통계학과 ) Resampling Methds 11 / 18

CV: k-fld CV 의편의와분산 편의의감소측면에서는 LOOCV가나음 LOOCV: 훈련데이터가 n 1로근사적으로편의가없음 k = 5, 10: 훈련데이터가 (k 1)n/k로중간의편의를갖음분산측면에서는 k-fld CV가나음 LOOCV: 훈련데이터간에 n 2개의데이터가중복되어추정모형간의양의상관이강함 k-fld CV: 훈련데이터간의중복이더작기때문에추정모형간의상관이덜함 k값의선택에편의와분산의상충이있음. k = 5, 10이경험적으로시험오차에대한더나은추정치제공 박창이 ( 서울시립대학교통계학과 ) Resampling Methds 12 / 18

CV: 분류문제 I 회귀에서는 MSE를사용하는반면분류에서는오분류율을사용 LOOCV 오분류율 : CV (n) = 1 n n i=1 Err i, Err i = I (y i ŷ i ) k-fld CV 오분류율도마찬가지로정의모형의복잡도가증가하면훈련오차는감소하는경향이있음. 10-fld CV는시험오분류율에대한좋은추정값이지만과소추정함 박창이 ( 서울시립대학교통계학과 ) Resampling Methds 13 / 18

CV: 분류문제 II 2-차원 분류데이터에서 로지스틱 회귀 Degree=1 Degree=2 Degree=3 Degree=4 보라색: 베이즈 분류경계(0.133), 검은색: 로지스틱 회귀(1차: 0.201, 2 차: 0.197, 3차: 0.160, 4차: 0.162) 박창이 (서울시립대학교 통계학과) Resampling Methds 14 / 18

CV: 분류문제 III 2- 차원분류데이터에서로지스틱회귀와 KNN 분류기 Errr Rate 0.12 0.14 0.16 0.18 0.20 Errr Rate 0.12 0.14 0.16 0.18 0.20 2 4 6 8 10 Order f Plynmials Used 0.01 0.02 0.05 0.10 0.20 0.50 1.00 1/K 갈색 : 시험오차, 파란색 : 훈련오차, 검은색 : 10-fld CV 박창이 ( 서울시립대학교통계학과 ) Resampling Methds 15 / 18

Btstrap I 선형회귀에서계수의표준오차를추정하는경우처럼주어진 추정값이나학습법의불확실성을추정하는데사용됨 예 자산 X 에 α 와자산 Y 에 1 α 의비율로투자할때전체위험 ( 혹은 분산 ) Var(αX + (1 α)y ) 를최소화하는 α = σ 2 X (= 1), σ2 Y (= 1.25), σ XY (= 0.5) 는미지이므로 ˆα = 추정 σ2 Y σ XY σ 2 X +σ2 Y 2σ XY ˆσ2 Y ˆσ XY ˆσ X 2 +ˆσ2 Y 2ˆσ 로 XY 박창이 ( 서울시립대학교통계학과 ) Resampling Methds 16 / 18

Btstrap II 0 50 100 150 200 0 50 100 150 200 α 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.4 0.5 0.6 0.7 0.8 0.9 α 0.3 0.4 0.5 0.6 0.7 0.8 0.9 α True Btstrap 왼쪽 : 1000개의모의실험데이터에서얻은 ˆα, 가운데 : 한데이터에서 1000개의 bstrap 표본에서얻은 ˆα, 핑크색 : α 참값실제데이터에서는새로운표본을반복적으로뽑을수없음. 반면 btstrap은주어진원데이터에서표본을반복적으로뽑음 박창이 ( 서울시립대학교통계학과 ) Resampling Methds 17 / 18

Btstrap III 표준오차에대한 btstrap 추정 크기 n 인원데이터 Z 에서의 α 의추정치 ˆα Z b, b = 1,..., B: Z 에서랜덤하게크기 n 인표본을복원추출한데이터 α b : Z b 에서 구한 ˆα 값 SE B (ˆα) = 1 B 1 B r=1 ( ˆα r 1 ) 2 B B r =1 ˆα r 박창이 ( 서울시립대학교통계학과 ) Resampling Methds 18 / 18