Tree 기반의 방법

Similar documents
°Ÿ»4º¨Ö

Resampling Methods

표본재추출(resampling) 방법

비선형으로의 확장

세계 비지니스 정보

통계적 학습(statistical learning)


CONTENTS.HWP

INDUS-8.HWP


00-1표지

경제통상 내지.PS

°æÁ¦Åë»ó³»Áö.PDF

우루과이 내지-1

영암군 관광종합개발계획 제6장 관광(단)지 개발계획 제7장 관광브랜드 강화사업 1. 월출산 기( 氣 )체험촌 조성사업 167 (바둑테마파크 기본 계획 변경) 2. 성기동 관광지 명소화 사업 마한문화공원 명소화 사업 기찬랜드 명소화 사업 240

[96_RE11]LMOs(......).HWP


À̶õ°³È²³»Áö.PDF

<BFACB1B831382D31365FBAF2B5A5C0CCC5CD20BAD0BCAEBFA120C0C7C7D120BFE4C0B2BBEAC1A420B9E6B9FD20BAF1B1B35F33C2F7BCF6C1A E687770>

통신1310_01-도비라및목차1~9

*통신1802_01-도비라및목차1~11


<C1A4C3A5BFACB1B D3420C1A4BDC5C1FAC8AFC0DAC0C720C6EDB0DFC7D8BCD220B9D720C0CEBDC4B0B3BCB1C0BB20C0A7C7D120B4EBBBF3BAB020C0CEB1C720B1B3C0B020C7C1B7CEB1D7B7A520B0B3B9DF20BAB8B0EDBCAD28C7A5C1F6C0AF292E687770>

°æÁ¦Àü¸Á-µ¼º¸.PDF

표1

<BFACB1B831382D31365FBAF2B5A5C0CCC5CD20BAD0BCAEBFA120C0C7C7D120BFE4C0B2BBEAC1A420B9E6B9FD20BAF1B1B35F33C2F7BCF6C1A E687770>

statistics

israel-내지-1-4

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

슬라이드 1

Overview Decision Tree Director of TEAMLAB Sungchul Choi

09 강제근로의 금지 폭행의 금지 공민권 행사의 보장 중간착취의 금지 41 - 대판 , 2006도7660 [근로기준법위반] (쌍용자동차 취업알선 사례) 11 균등대우의 원칙 43 - 대판 , 2002도3883 [남녀고용평등법위

커널 방법론

제 출 문 환경부장관 귀하 본 보고서를 폐기물관리 규제개선 방안연구 에 관한 최종보고서로 제출합니다 연구기관 한국산업폐기물처리공제조합 연구책임자 연 구 원 연구보조원 이 남 웅 황 연 석 은 정 환 백 인 근 성 낙 근 오 형 조 부이사장 상근이사 기술팀장 법률팀장 기

*통신1604_01-도비라및목차1~12

*통신1510_01-도비라및목차1~12


미얀-내지-8차

An Effective Sentence-Extraction Technique Using Contextual Information and Statistical Approaches for Text Summarization

G Power

<4D F736F F D20B4EBBFF BFB5BEF7BAB8B0EDBCAD2E646F63>

Overview Ensemble Model Director of TEAMLAB Sungchul Choi

확률 및 분포


MATLAB for C/C++ Programmers


세계 비지니스 정보


2 ㆍ 大 韓 政 治 學 會 報 ( 第 20輯 1 號 ) 도에서는 고려 말에 주자학을 받아들인 사대부들을 중심으로 보급되기 시작하였고, 이후 조선시대에 들어와서는 국가적인 정책을 통해 민간에까지 보급되면서 주자 성리학의 심 화에 커다란 역할을 담당하였다. 1) 조선시대


chap 5: Trees

시작하기 시작할 준비가 되었으면 다음 설명에 따라 설문조사를 실시한다. 1단계: 허락받기 클럽을 떠나는 회원에게 에 응해 줄 것인지 물어본다. 이 설문 조사는 클럽의 문제점을 보완해 향후 같은 이유로 이탈하는 회원들이 없도록 하기 위한 것이며, 응답 내용은 대외비로 처

목 차 Ⅰ. 조사개요 1 Ⅱ. 용어해설 13 Ⅲ. 조사결과 과학기술인력 양성 및 활용에 관한 거시통계 분석 결과 9 1 가. 과학기술인의 양성 현황 19 나. 과학기술인의 취업 현황 24 다. 과학기술인의 경제활동 현황 27 라. 과학기술인의 고용 현황 28


15인플레이션01-목차1~9

<BFDCB1B9C0CE20C5F5C0DAB1E2BEF7C0C720B3EBBBE7B0FCB0E82E687770>


< BACFC7D1B1B3C0B0C1A4C3A5B5BFC7E228B1E2BCFABAB8B0ED D D20C6EDC1FD2035B1B32E687770>

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

29-6(본문).pdf

텀블러514


<C0CEC5CDB3DDC1DFB5B6BDC7C5C2C1B6BBE75FC0CEBCE2C5EBC7D5BABB5F E687770>


exp

데이터 시각화

2002년 2학기 자료구조

제 출 문 국민대통합위원회 위원장 귀하 이 보고서를 연구용역사업 공공갈등의 정치화 경로분석 및 대응방안 연구 과제의 최종보고서로 제출합니다. 2014년 12월 단국대학교 산학협력단장 박 성 완 II

Chapter 7 – Classification and Regression Trees

chap 5: Trees


COVER.HWP

이슈분석 2000 Vol.1

가볍게읽는-내지-1-2

kbs_thesis.hwp


untitled

한눈에-아세안 내지-1

untitled

Index

zb 2) zb3) 나 위 시와 보기의 공통적인 표현 방법이 아닌 것은? 뻐꾹새야 뻐꾹새야 뻐꾹뻐꾹 울어 주면 < 보기> 고개를 넘어서 마을로 뻐꾹새야 뻐꾹새야 뻐꾹뻐꾹 울어 주면 밭을 매는 우리 엄마 허리 허리 덜 아프고 ᄂ밭을 매는 우리 엄마 허리 허리 덜 아프고

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint

고차원에서의 유의성 검정

Microsoft PowerPoint - IPYYUIHNPGFU

<28C3D6C1BEC0CEBCE2BFEB29BCADBFEFBDC3B0F8B0F8C5F5C0DABBE7BEF7B0FCB8AEC7D5B8AEC8ADB9E6BEC82E687770>

¾DÁ ÖÖ„�Àº¨Ö´ä

hwp

한국정책학회학회보

adfasdfasfdasfasfadf

<3035C0CEB9AEC1A4C3A5BFACB1B8C3D1BCAD E687770>

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

단순 베이즈 분류기

제 4 장회귀분석

국 립 중앙 도서 관 출 판시 도서 목록 ( C I P ) 청소년 인터넷 이용실태조사 보고서 / 청소년보호위원회 보호기준과 편. -- 서울 : 국무총리 청소년보호위원회, p. ; cm. -- (청소년보호 ; ) 권말부록으로 '설문지' 수록 ISB

저작자표시 - 비영리 - 동일조건변경허락 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 이차적저작물을작성할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비

볼리비아-내지-01-1

슬라이드 제목 없음

i

Transcription:

Tree 기반의방법 박창이 서울시립대학교통계학과 박창이 ( 서울시립대학교통계학과 ) Tree 기반의방법 1 / 25

학습내용 의사결정나무 (decision tree) 회귀나무 (regresion tree) 분류나무 (classification tree) 비교앙상블알고리즘 (ensemble algorithm) 배깅 (bagging) 랜덤포레스트 (random forest) 부스팅 (boosting) 박창이 ( 서울시립대학교통계학과 ) Tree 기반의방법 2 / 25

개요 입력변수의공간을여러개의지역으로나누고, 주어진관측값에대한예측값으로그지역에속하는훈련데이터의반응변수평균값으로예측함. 입력변수에대한분할규칙이나무형태로요약되므로의사결정나무라고함해석이쉽지만예측력은떨어짐배깅 (bagging), 랜덤포레스트 (random forest), 부스팅 (boosting) 등여러개의나무모형을결합하여예측하는앙상블은예측력은향상되지만해석은어려워짐 박창이 ( 서울시립대학교통계학과 ) Tree 기반의방법 3 / 25

의사결정나무 : 회귀나무 I Hitters 데이터에서 Years 와 Hits 를이용한 Salary 의예측 Salary 값이결측인관측값을제거하고 Salary 에대하여로그변환후회귀나무적용 회귀나무 Years < 4.5 5.11 Hits < 117.5 6.00 6.74 박창이 ( 서울시립대학교통계학과 ) Tree 기반의방법 4 / 25

의사결정나무 : 회귀나무 II 영역분할 238 R 3 Hits R 1 117.5 R 2 1 4.5 24 Years 1 R 1 = {X Years < 4.5}, R 2 = {X Years >= 4.5, Hits < 117.5}, R 3 = {X Years >= 4.5, Hits >= 117.5} Years<4.5일때평균로그 Salary가 5.107이므로 e 5.107 혹은 165,174 달러로예측 Years가가장중요한변수임 박창이 ( 서울시립대학교통계학과 ) Tree 기반의방법 5 / 25

의사결정나무 : 회귀나무 III 회귀나무모형적합 ( 단계 1) 입력변수 X 1,..., X p 들의공간을 J j=1 i R j (y i ŷ Rj ) 2 이최소가되도록 J개의서로겹치지않는영역 R 1,..., R J 로나눔. 여기서 ŷ Rj 는 R j 에서훈련데이터들의평균반응값 ( 단계 2) R j 에속하는입력값에대하여 R j 에속하는훈련데이터의 출력변수값의평균으로예측 모든가능한분할에대하여단계 1 을실시하는것은불가능. 대신반복이진분할 (recursive binary split) 를이용함 R 1 (j, s) = {X X j < s}, R 2 (j, s) = {X X j s} arg min j,s i:x i R 1(j,s) (y i ŷ R1 ) 2 + i:x i R 2(j,s) (y i ŷ R2 ) 2 박창이 ( 서울시립대학교통계학과 ) Tree 기반의방법 6 / 25

의사결정나무 : 회귀나무 IV 분할영역예시 R5 R2 t4 X2 X2 R3 t2 R4 R1 t1 t3 X1 X1 X1 t1 X2 t2 X1 t3 X2 t4 R1 R2 R3 X2 X1 R4 R5 왼쪽위 : 반복이진분할로는불가능, 오른쪽위, 아래 : 반복이진분할에 의한영역분할, 나무모형, 예측값 박창이 ( 서울시립대학교통계학과 ) Tree 기반의방법 7 / 25

의사결정나무 : 회귀나무 V 분할은종료조건 ( 가령, 각영역은적어도 5개이상의관측값이있어야함 ) 을만족할때까지계속이렇게생성된나무모형은너무복잡하여과대적합하는경향이있음. 따라서일단큰나무모형 T 0 를적합하고가지치기 (pruning) 하여부분나무모형을얻음 박창이 ( 서울시립대학교통계학과 ) Tree 기반의방법 8 / 25

의사결정나무 : 회귀나무 VI 보통비용복잡도가지치기 (cost complexity pruning) 를적용각 α에대하여 T m=1 i:x i R m (y i ŷ Rm ) 2 + α T 를최소화하는부분모형 T T 0 를찾음 여기서 T : T 의단말노드 (terminal node) 의갯수, R m : m 번째 단말노드에대응되는영역, ŷ Rm : R m 에서의예측값. α 는조율모수로 CV 를이용하여결정함. α = 0 이면 T = T 0 이고 α 가 커지면단말노드의갯수에벌점이부여됨 박창이 ( 서울시립대학교통계학과 ) Tree 기반의방법 9 / 25

의사결정나무 : 회귀나무 VII 회귀나무적합알고리즘 1. 훈련데이터에반복이진분할을적용하여단말노드에서의관측값들의갯수의최소값의정지규칙만족할때까지나무모형을성장 2. 각 α에대하여비용복잡도가지치기를적용하여부분나무모형을얻음 3. K-fold CV를이용하여 MSE의 K-fold CV값을최소화하는 α를선택 4. 선택된 α에대응되는부분모형을최종모형으로함 박창이 ( 서울시립대학교통계학과 ) Tree 기반의방법 10 / 25

의사결정나무 : 회귀나무 VIII Hitters 데이터에대한가지치기이전의나무모형 Years < 4.5 RBI < 60.5 Hits < 117.5 Putouts < 82 Years < 3.5 Years < 3.5 5.487 4.622 5.183 5.394 6.189 Walks < 43.5 Runs < 47.5 6.407 6.015 5.571 6.549 Walks < 52.5 RBI < 80.5 Years < 6.5 7.289 6.459 7.007 박창이 ( 서울시립대학교통계학과 ) Tree 기반의방법 11 / 25

의사결정나무 : 회귀나무 IX Hitters 데이터 : 단말노드의갯수에따른오차 Mean Squared Error 0.0 0.2 0.4 0.6 0.8 1.0 Training Cross Validation Test 2 4 6 8 10 Tree Size 박창이 ( 서울시립대학교통계학과 ) Tree 기반의방법 12 / 25

의사결정나무 : 분류나무 I 주어진입력값에대하여예측할때입력값이속하는영역의 훈련데이터에서가장많이발생하는클래스 ( 다수결 ) 로예측함 오분류율자체는나무모형을성장시키는데있어충분히민감한측도가아님. 분류나무의영역분할에서는회귀나무의 RSS 대신지니지수 (Gini index) 나 cross-entropy 등의측도를사용함 지니지수 : G = K k=1 ˆp mk(1 ˆp mk ) Cross-entropy: D = K k=1 ˆp mk log ˆp mk 예측의정확도가목표일때에는가지치기시오분류율을측도로 이용함 박창이 ( 서울시립대학교통계학과 ) Tree 기반의방법 13 / 25

의사결정나무 : 분류나무 II Heart 데이터 HD: 반응변수로 303명의가슴통증이있는환자들중혈관조형검사에서심장병유무를나타냄 Age, Sex, Chol과심장과폐의기능과관련된 13개의설명변수가있음 Sex, Thal(Thalium stress test), ChestPain은질적변수가지치기가안된모형에서 RestECG<1의두분할이동일한 Yes를예측하는것은오분류율이아닌지니지수나 cross-entropy를최소화하여생기는현상임. 사실그분할은오분류율을낮춰주지는않지만불순도의측도 ( 지니나 cross-entropy) 를낮춰줌 박창이 ( 서울시립대학교통계학과 ) Tree 기반의방법 14 / 25

의사결정나무 : 분류나무 III Thal:a Ca < 0.5 Ca < 0.5 Slope < 1.5 Oldpeak < 1.1 MaxHR < 161.5 RestBP < 157 Chol < 244 MaxHR < 156 MaxHR < 145.5 Yes No No No Yes No ChestPain:bc Chol < 244 Sex < 0.5 No No No Yes Age < 52 Thal:b ChestPain:a Yes No No No Yes RestECG < 1 Yes Yes Yes Error 0.0 0.1 0.2 0.3 0.4 0.5 0.6 Training Cross Validation Test MaxHR < 161.5 No No Ca < 0.5 ChestPain:bc Thal:a Yes Ca < 0.5 Yes 5 10 15 No Yes Tree Size 박창이 ( 서울시립대학교통계학과 ) Tree 기반의방법 15 / 25

의사결정나무 : 비교 I 선형모형과나무모형 장단점 선형회귀모형 : f (X ) = β 0 + p j=1 β jx j 회귀나무모형 : f (X ) = M m=1 c mi (X R m ) 나무모형은설명하기가쉬움. 또한인간의의사결정과정과유사하다고 생각하는사람들도있음 나무모형은그래프형식으로나타낼수있으며더미변수없이 질적변수를다룰수있음 일반적으로나무모형의예측력은다른방법에비해떨어짐 박창이 ( 서울시립대학교통계학과 ) Tree 기반의방법 16 / 25

의사결정나무 : 비교 II 분류문제예시 X 2 2 1 0 1 2 X 2 2 1 0 1 2 2 1 0 1 2 2 1 0 1 2 X 1 X 1 X 2 2 1 0 1 2 X 2 2 1 0 1 2 2 1 0 1 2 2 1 0 1 2 X 1 X 1 위 : 분류경계가선형, 아래 : 분류경계가비선형 박창이 ( 서울시립대학교통계학과 ) Tree 기반의방법 17 / 25

배깅 I 선형회귀는다른데이터에반복적용해도유사한결과를얻는분산이작은방법인반면, 의사결정나무는적합할때마다다른결과를얻을수있는매우분산이큰방법임 Z 1,..., Z n 이서로독립이며분산이 σ 2 일때 Z 의분산은 σ 2 /n을줄어듬따라서모집단에서여러개의훈련데이터를얻어서로다른예측모형을만든후결과에대한평균으로예측하면분산을줄일수있음그러나모집단에서여러훈련데이터를얻기어렵고대신 B개의다른붓스트랩 (bootstrap) 표본을생성하고각표본에서모형 ˆf b (x) 를적합한후 ˆf bag (x) = 1 B ˆf B b=1 b (x) 박창이 ( 서울시립대학교통계학과 ) Tree 기반의방법 18 / 25

배깅 II 배깅에서는가지치기를하지않음으로써분산은크지만편의가작은모형을적합함. 이후평균을냄으로써분산을줄임분류문제에서는예측시 B개의나무모형의예측값에대한다수결원칙을적용함 OOB(out-of bag) 관측값은붓스트랩표본에서선택되지않은표본을말함. i번째관측값에대하여그관측값이 OOB인나무모형을이용하여예측할수있음. OOB 오차는 LOOCV와유사함 박창이 ( 서울시립대학교통계학과 ) Tree 기반의방법 19 / 25

배깅 III Heart 데이터 Error 0.10 0.15 0.20 0.25 0.30 Test: Bagging Test: RandomForest OOB: Bagging OOB: RandomForest 0 50 100 150 200 250 300 Number of Trees 박창이 ( 서울시립대학교통계학과 ) Tree 기반의방법 20 / 25

배깅 IV 배깅은단일나무모형보다예측력은향상되지만해석이어려움각변수의중요도는주어진변수에의한분할로인하여줄어드는 RSS 의평균으로구할수있음 Heart 데이터에서변수의중요도 Fbs RestECG ExAng Sex Slope Chol Age RestBP MaxHR Oldpeak ChestPain Ca Thal 0 20 40 60 80 100 Variable Importance 박창이 ( 서울시립대학교통계학과 ) Tree 기반의방법 21 / 25

랜덤포레스트 I 배깅에서는 p개의설명변수모두를이용하여나무모형을적합하는반면랜덤포레스트는 m < p개의변수를랜덤하게선택하여나무모형을적합함. 보통 m p 설명변수들중하나가매우설명력이강한것이있을때, 배깅에서의모든나무모형은서로비슷해지며예측값에강한상관관계가존재하여평균을취하여분산이감소하는효과가줄어듬랜덤포레스트에서는평균적으로 (p m)/p개의분할에서는설명력이강한한변수가포함되지않음으로써예측값들의상관관계를줄여주는효과가있음 m = p인랜덤포레스트는배깅에해당 박창이 ( 서울시립대학교통계학과 ) Tree 기반의방법 22 / 25

랜덤포레스트 II 15 클래스유전자데이터 (p = 500) Test Classification Error 0.2 0.3 0.4 0.5 m=p m=p/2 m= p 0 100 200 300 400 500 Number of Trees 단일분류나무 : 오분류율 45.7% 박창이 ( 서울시립대학교통계학과 ) Tree 기반의방법 23 / 25

부스팅 I 회귀나무에대한부스팅알고리즘 1. ˆf (x) = 0, ri = y i, i 2. b = 1,..., B 에대하여 1 훈련데이터 (X, r) 에대하여 d 분할 (d + 1 개의단말노드 ) 나무모형 ˆf b 적합 2 ˆf (x) ˆf (x) + λˆf b (x) 3 r i r i λˆf b (x i ) 3. ˆf (x) = B b=1 λˆf b (x) 조율모수 나무모형의갯수 B 는너무크면과대적합이일어날수있음. CV 로선택 축소모수 λ = 0.01 혹은 0.001 사용 분할수 d( 교호작용의깊이 ). d = 1: stump 로가법모형 박창이 ( 서울시립대학교통계학과 ) Tree 기반의방법 24 / 25

부스팅 II 15 클래스유전자데이터 Test Classification Error 0.05 0.10 0.15 0.20 0.25 Boosting: depth=1 Boosting: depth=2 RandomForest: m= p 0 1000 2000 3000 4000 5000 Number of Trees 단일분류나무 : 시험오분류율 24%, λ = 0.01 박창이 ( 서울시립대학교통계학과 ) Tree 기반의방법 25 / 25