Chapter 7 – Classification and Regression Trees

Similar documents
Multiple Linear Regression

Overview Decision Tree Director of TEAMLAB Sungchul Choi

슬라이드 1

Resampling Methods

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

표본재추출(resampling) 방법

Tree 기반의 방법

PowerPoint 프레젠테이션

An Effective Sentence-Extraction Technique Using Contextual Information and Statistical Approaches for Text Summarization

G Power

PowerPoint Presentation

전기설비의 검사˚점검 및 시험등


adfasdfasfdasfasfadf

ÀüÀÚÇö¹Ì°æ-Áß±Þ

1 1 장. 함수와극한 1.1 함수를표현하는네가지방법 1.2 수학적모형 : 필수함수의목록 1.3 기존함수로부터새로운함수구하기 1.4 접선문제와속도문제 1.5 함수의극한 1.6 극한법칙을이용한극한계산 1.7 극한의엄밀한정의 1.8 연속

PowerPoint Presentation

Lecture12_Bayesian_Decision_Thoery

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

장연립방정식을풀기위한반복법 12.1 선형시스템 : Gauss-Seidel 12.2 비선형시스템 12.1 선형시스템 : Gauss-Seidel (1/10) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정

(Microsoft PowerPoint - Ch19_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

김경재 안현철 지능정보연구제 17 권제 4 호 2011 년 12 월

빅데이터_DAY key

강의록

<3235B0AD20BCF6BFADC0C720B1D8C7D120C2FC20B0C5C1FE20322E687770>

실험 5

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

1-1Çؼ³

Microsoft PowerPoint - 26.pptx

Microsoft PowerPoint - 알고리즘_5주차_1차시.pptx

untitled

(001~006)개념RPM3-2(부속)

°Ÿ»4º¨Ö

exp

제 2 교시 2019 학년도 3 월고 1 전국연합학력평가문제지수학영역 1 5 지선다형 1. 의값은? [2점] 일차방정식 의해는? [2 점 ] 두수, 의최대공약수는? [2 점 ] 일차함수 의그래프에서

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

PowerPoint 프레젠테이션

Microsoft PowerPoint Relations.pptx

슬라이드 1

<B3EDB4DC28B1E8BCAEC7F6292E687770>

<4D F736F F F696E74202D FC0E5B4DCB1E220BCF6BFE4BFB9C3F8205BC8A3C8AF20B8F0B5E55D>

JAVA 프로그래밍실습 실습 1) 실습목표 - 메소드개념이해하기 - 매개변수이해하기 - 새메소드만들기 - Math 클래스의기존메소드이용하기 ( ) 문제 - 직사각형모양의땅이있다. 이땅의둘레, 면적과대각

PowerPoint Presentation

농림수산식품 연구개발사업 운영규정

01

<BFACB1B831382D31365FBAF2B5A5C0CCC5CD20BAD0BCAEBFA120C0C7C7D120BFE4C0B2BBEAC1A420B9E6B9FD20BAF1B1B35F33C2F7BCF6C1A E687770>

동아시아국가들의실질환율, 순수출및 경제성장간의상호관계비교연구 : 시계열및패널자료인과관계분석

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

통계적 학습(statistical learning)

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint

statistics

Microsoft PowerPoint - IPYYUIHNPGFU

(Microsoft PowerPoint - Ch21_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

IBM SPSS Statistics 제품 소개 (2017 Aug)

< FBCD2BAF1C0DAB1E2B1DDBFEEBFEBB9E6BEC85FC6EDC1FDBABB E322E687770>

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Study on the Pe

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

슬라이드 1

예제 1.1 ( 관계연산자 ) >> A=1:9, B=9-A A = B = >> tf = A>4 % 4 보다큰 A 의원소들을찾을경우 tf = >> tf = (A==B) % A

부산교육 311호

PowerPoint 프레젠테이션

행정학석사학위논문 사회에대한공정성인식도가 행복에미치는영향 서울시주민을중심으로 년 월 서울대학교대학원 행정학과행정학전공 정영아

MATLAB for C/C++ Programmers

Microsoft PowerPoint - MDA DA pptx

수도권과비수도권근로자의임금격차에영향을미치는 집적경제의미시적메커니즘에관한실증연구 I. 서론

chap 5: Trees

PowerPoint 프레젠테이션

Microsoft PowerPoint - chap_2_rep.ppt [호환 모드]

(b) 미분기 (c) 적분기 그림 6.1. 연산증폭기연산응용회로

문제지 제시문 2 보이지 않는 영역에 대한 정보를 얻기 위하여 관측된 다른 정보를 분석하여 역으로 미 관측 영역 에 대한 정보를 얻을 수 있다. 가령 주어진 영역에 장애물이 있는 경우 한 끝 점에서 출발하여 다른 끝 점에 도달하는 최단 경로의 개수를 분석하여 장애물의

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

슬라이드 1

자료의 이해 및 분석

Microsoft Word - SAS_Data Manipulate.docx

슬라이드 1

untitled

제 5강 리만적분

딥러닝 첫걸음

= ``...(2011), , (.)''

29-6(본문).pdf


KMC.xlsm

제 4 장회귀분석

zb 2) zb3) 나 위 시와 보기의 공통적인 표현 방법이 아닌 것은? 뻐꾹새야 뻐꾹새야 뻐꾹뻐꾹 울어 주면 < 보기> 고개를 넘어서 마을로 뻐꾹새야 뻐꾹새야 뻐꾹뻐꾹 울어 주면 밭을 매는 우리 엄마 허리 허리 덜 아프고 ᄂ밭을 매는 우리 엄마 허리 허리 덜 아프고

[ ] : WT O ( )

슬라이드 1

에듀데이터_자료집_완성본.hwp

이 장에서 사용되는 MATLAB 명령어들은 비교적 복잡하므로 MATLAB 창에서 명령어를 직접 입력하지 않고 확장자가 m 인 text 파일을 작성하여 실행을 한다

PowerPoint 프레젠테이션

2002년 2학기 자료구조


- 1 -

Evolutionary Optimization of a Collection of Variable-Length Subpatterns for Pattern Classification ( ) ( ) Robert Ian McKay ( )

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>


자연채무에대한재검토 1. 서론 2. 선행연구 9 Journal of Digital Convergence 214 May; 12(5): 89-99

Transcription:

비선형분류모델링 의사결정나무 Decision Tree

교사학습패러다임 Plant 관측 계측 FDC + 계측치

교사학습패러다임 Plant 관측 계측 FDC + 계측치 학습 모델 ƒ Data (x, y)

교사학습패러다임 Plant 관측 계측 FDC χ FDC + 계측치 학습 모델 ƒ Data (x, y) 계측치 ; ˆy 예측

교사학습패러다임 Plant Data 관측 계측 FDC χ FDC + 계측치 학습 모델 ƒ Data (x, y) 검증 계측치 ; ˆy 예측

모델의현업배치, 모니터링및재학습 모델 χ ƒ ŷ

모델의현업배치, 모니터링및재학습 χ 모델 ƒ ŷ ŷ y =? 모니터링 ( 사후평가 )

모델의현업배치, 모니터링및재학습 yes χ 모델 ƒ ŷ ŷ y =? 모니터링 ( 사후평가 ) No 재학습 New Data

분류 일종의회귀분석 y 값이연속이아닌범주 0/1, 불량 / 정상, 이탈 / 잔류 y 값을 확률 또는 스코어 로바꾸면?

Prediction = Classification 종속변수 (y) 를독립변수 (x) 들의함수 (f) 로적합, 즉데이터 {(x,y)} 로부터 y = f ( x ) 의 f 를찾는다 회귀분석, 신경회로망, 사례기반추론, 의사결정나무 예 : y 무엇을예측할수있는가? 소비자가마케팅켐페인에반응할확률 => 반응여부 휴대폰고객이향후 6 개월내에이탈할확률 => 이탈여부 와인의품질 => 품질등급 반도체웨이퍼의수율 => 수율등급 선박건조기간 => 기간등급

Prediction Y 가결정이된후에는 무엇으로 y 를예측하려고하는가? 즉, x??? X 는독립변수또는 예측변수 predictive variable X 선택기준 Y 와의정확한함수관계를알고있다. Y 와의정확한함수관계는모르지만, 영향을준다는걸 100% 확실 Y 와의정확한함수관계는모르지만, 영향을줄수있는가능성이있다.

Predictive Analytics A new fancy name of Supervised data mining, or Regression and Classification Find a mapping/function f such that y = f(x) given data set D = {(x,y)} Regression when y is continuous Classification when y is categorical/binary

Predictive Analytics Regression Multiple Linear Regression k-nn Decision Tree Regression Neural Networks Classification Logistic Linear Regression, Discriminant Analysis k-nn, Naïve Bayese Decision Tree Classifier Neural Networks SVM

의사결정나무 Decision Tree

15

앞세가지 tree 의차이는? 데이트코스 ; 전문가의 지식 을바탕으로구축 구매여부 : 데이터로부터자동으로구축 생산기간 : 데이터로부터자동으로구축

의사결정나무 ( 의사결정이론 )

Trees and Rules Goal: Classify or predict an outcome based on a set of predictors The output is a set of rules Example: Goal: classify a record as will accept credit card offer or will not accept Rule might be IF (Income > 92.5) AND (Education < 1.5) AND (Family <= 2.5) THEN Class = 0 (nonacceptor) Also called CART, Decision Trees, or just Trees Rules are represented by tree diagrams

핵심아이디어 재귀적분할 : 반복적으로레코드를두개의파트로나눔. 따라서최대의동질성을얻음 가지치기 : 과적합을피하기위해지엽적가치를침으로써나무를간결화

재귀적분할

재귀적분할단계 예측변수중하나, x i 선택 x i 의값, 말하자면 s i 를선택, 학습데이터를두개의부분으로나눔 ( 반드시같은필요는없음 ) 그결과로나온부분들이각각얼마나 순수 한가또는동질적인가축정 순수 = 대개하나의클래스레코드들을포함 알고리즘은최초분할에서순수성을최대화하기위해 x i 와 s i 의다양한값들을시도 최대순수성 분할을얻은후에, 2 번째분할과정반복등등

예 : 승차식잔디깎기 목표 : 승차식잔디깎기를소유하거나소유하지않은 24 개의가정분류 예측변수 = 수입, 주택대지크기

Income Lot_Size Ownership 60.0 18.4 owner 85.5 16.8 owner 64.8 21.6 owner 61.5 20.8 owner 87.0 23.6 owner 110.1 19.2 owner 108.0 17.6 owner 82.8 22.4 owner 69.0 20.0 owner 93.0 20.8 owner 51.0 22.0 owner 81.0 20.0 owner 75.0 19.6 non-owner 52.8 20.8 non-owner 64.8 17.2 non-owner 43.2 20.4 non-owner 84.0 17.6 non-owner 49.2 17.6 non-owner 59.4 16.0 non-owner 66.0 18.4 non-owner 47.4 16.4 non-owner 33.0 18.8 non-owner 51.0 14.0 non-owner 63.0 14.8 non-owner

어떻게분할하나 하나의변수, 말하자면주택대지크기에따라레코드정렬 연속적값사이의중심점찾기 E.g. 첫중심점은 14.4 (14.0 과 14.8 사이의가운데 ) 레코드를 lotsize > 14.4 과 lotsize < 14.4 으로분할 분할평가후다음것시도, 즉 15.4 (14.8 과 16.0 사이의가운데 )

Note: 범주적변수 범주가분할될수있는모든가능한방법조사 E.g., 범주 A, B, C 는 3 가지방식으로분할될수있음 {A} and {B, C} {B} and {A, C} {C} and {A, B} 많은범주에서, 분할수는거대해짐 XLMiner는오직이항범주형변수만제공

첫번째분할 : Lot Size = 19,000

두번째분할 : Income = $84,000

모든분할후

불순도측정

데이터 집합 X 에두종류의원소가있다. 이집합의불순도는얼마인가? 예 : 바둑알흰색과검정색 X = {B, B, B, B, W, W, W, W} 불순도가높은가? Y = {B, B, W, W, W, W, W, W} 불순도가높은가? Z = {W, W, W, W, W, W, W, W} 불순도가높은가? Z = {B, B, B, B, B, B, B, B} 불순도가높은가? X = {B, W} 불순도가높은가? 불순도를측정하는방법?

지니지수 M 개의레코드를지닌직사각형 A 에대한지니지수 I(A) = 1 - p = 클래스 k 에속하는직사각형 A 에서의케이스비율 I(A) = 0 모든케이스가같은클래스에속할때 모든클래스가똑같이표현될때최댓값 (= 0.50, 이항케이스에서 ) Note: XLMiner uses a variant called delta splitting rule

엔트로피 p = 클래스 k 에속하는직사각형 A 에서 (m 으로부터나오는 ) 케이스비율 엔트로피는 0( 가장순수 ) 과 log 2 (m) ( 클래스가똑같이표현 ) 사이에분포

불순도와재귀적분할 전반적불순도측도의얻는다 ( 개개직사각형의가중평균 ). 각각의연속적단계에서, 이측도를전체변수에서모든가능한분할을가로질러비교한다. 불순도가가장축소하는분할을고른다. 고른분할점은나무의노드가된다.

첫번째분할 나무

세번째분할후나무

나무구조 분할점은나무에서노드가된다 ( 중앙에분할값을갖는원 ) 직사각형은 잎 을나타낸다 ( 종료점, 더이상분할없음, 측정된분류값 ) 노드사이의선의개수는케이스의수를지시한다. 규칙을파생하는나무를읽는다. E.g., If lot size < 19, and if income > 84.75, then class = owner

잎노드라벨결정 각각의잎노드라벨은그안의레코드들의 투표, 그리고기준값에의해결정된다. 각각의잎노드내의레코드들은학습데이터에서온다. 기본기준값 =0.5 은잎노드의라벨이다수클래스라는것을의미한다. 기준값 = 0.75: 대다수 75% 또는 1 노드로라벨붙이는잎에서 1 레코드이상을요구한다.

모든분할후나무

과적합문제

나무의성장을멈춤 과정의자연적종결은각각의잎에서 100% 순수성이다. 이것은데이터를과적합하는데, 이는데이터에서소음의적합으로끝난다. 과적합은새로운데이터의예측정확성을낮춘다. 어떤지점을지나, 검증데이터의오분류율이증가하기시작한다.

완전성장한나무의오분류율

CHAID CART 보다오래된 CHAID 는나무의성장을제한하는카이제곱통계법을사용한다. 분할은순도의증가가통계적으로유의미하지않을때멈춘다.

가지치기 CART 은나무의성장을최대한까지이르게한다, 그러고난후에는가지치기를한다. 아이디어는검증오류가나타나기시작하는지점을찾는것이다. 잎을가지치기함으로써연속적으로더작은나무들을생성한다. 각가지치기단계에서, 다중나무가가능하다. 그단계에서최적의나무를고르기위해비용복잡성을이용한다.

비용복잡성 CC(T) = Err(T) + α L(T) CC(T) = 나무의비용복잡성 Err(T) = 오분류된레코드의비율 α = 나무사이즈에부착된벌점요인 ( 사용자책정 ) 주어진크기의나무중에서비용복잡성이가장낮은것을고른다. 각각의나무사이즈에대해이를행한다.

가지치기에검증오류사용 가지치기과정은일련의다양한크기의나무와그에관련된오분류율을산출한다. 관련된두개의나무 :. 최소오류나무 검증데이터에서가장낮은오분류율을갖는다 최적의가지치기된나무최소오차의표준오차내에서가장작은나무간결성 / 간명성을더한다.

가지치기된나무의오분류율

UP Sell 적용사례

우량고객 30 만가운데 4,887 명플래티넘카드사용자 나머지 295,123 명비사용자가운데누구를타켓팅할것인가?

기존플래티넘사용자와유사한구매행태를보이는고객이가능성이높을것 Upselling 을위한타겟마케팅 HOW? 의사결정나무 IF THEN rule

특급호텔 11 만원이상 & 항공사이용 787 명 (Platinum 93.1%) 골프장 48 만원이상 & 일식 10 만원이상 & 항공사이용안함 151 명 (Platinum 92.7%) 골프장 7 만원이상 & 일식 24 만원미만 & 특급호텔 11 만원미만 & 항공사이용 90 명 (Platinum 93.3%)

Sales bidding 적용사례

호선의생산기간예측

호선의생산기간예측 - 선박영업단계에서는주문선박 Spec 이자세히결정되지않으나, 대략적인생산기간예측이필요함 - 생산기간을결정하는예측요인에대한규명이필요함 호선별생산기간은감소추세이나 2008 년이후전반적인생산기간증가추세임 특정선종의경우제작이후생산기간이꾸준히감소하는경향이있음 ( L 선종 ) 56

호선의생산기간예측 57

회귀나무

예측을위한회귀나무 연속적결과변수를사용 절차는분류나무와유사 분할이많이시도됨, 불손도를최소화하는것을선택

CT 와의차이 예측은직사각형에서수치형타깃변수의평균으로계산된 (CT 에서는다수결투표 ) 불순도는잎평균의제곱편차의합으로측정된다. 성능은 RMSE ( 근의평균제곱오류 ) 로측정된다.

나무의장점 사용하고이해하기에용이 해석하고시행하기에쉬운규칙생성 변수선택과축소가자동 통계적모델가정을요구하지않음 실측데이터를광범위하게다루지않고도작업가능

단점 수평적또는수직적분할에의해잘포착되지않는데이터에서의구조가있을때잘작동하지않음 한번에하나의변수를다루기때문에변수들사이의상관관계를포착할방법이없음

요약 분류나무와회귀나무는새로운레코드를예측하거나분류하는쉽고투명한방법이다. 나무는일련의규칙의그래프적표현이다. 나무는학습데이터의과적합을피하기위해가지치기를해야만한다. 나무가데이터구조에대한어떠한가정도갖지않기때문에, 보통다량의샘플이필요하다.