<BFACB1B831382D31365FBAF2B5A5C0CCC5CD20BAD0BCAEBFA120C0C7C7D120BFE4C0B2BBEAC1A420B9E6B9FD20BAF1B1B35F33C2F7BCF6C1A E687770>

Similar documents
Tree 기반의 방법


비선형으로의 확장

adfasdfasfdasfasfadf

슬라이드 1

chap 5: Trees

Overview Decision Tree Director of TEAMLAB Sungchul Choi

통계적 학습(statistical learning)

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

표본재추출(resampling) 방법

Microsoft PowerPoint - 26.pptx

untitled

Resampling Methods

<B3EDB4DC28B1E8BCAEC7F6292E687770>

<BFACB1B831382D31365FBAF2B5A5C0CCC5CD20BAD0BCAEBFA120C0C7C7D120BFE4C0B2BBEAC1A420B9E6B9FD20BAF1B1B35F33C2F7BCF6C1A E687770>

chap 5: Trees

수도권과비수도권근로자의임금격차에영향을미치는 집적경제의미시적메커니즘에관한실증연구 I. 서론

04 Çмú_±â¼ú±â»ç

슬라이드 1

제 5강 리만적분

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

Chapter 7 – Classification and Regression Trees

°Ÿ»4º¨Ö

제 3강 역함수의 미분과 로피탈의 정리

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

statistics

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

선형모형_LM.pdf

단순 베이즈 분류기

비트와바이트 비트와바이트 비트 (Bit) : 2진수값하나 (0 또는 1) 를저장할수있는최소메모리공간 1비트 2비트 3비트... n비트 2^1 = 2개 2^2 = 4개 2^3 = 8개... 2^n 개 1 바이트는 8 비트 2 2

¾DÁ ÖÖ„�Àº¨Ö´ä

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할


exp

슬라이드 1

G Power

Microsoft PowerPoint Relations.pptx

동아시아국가들의실질환율, 순수출및 경제성장간의상호관계비교연구 : 시계열및패널자료인과관계분석

29-6(본문).pdf

제 4 장회귀분석

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

3. 다음은카르노맵의표이다. 논리식을간략화한것은? < 나 > 4. 다음카르노맵을간략화시킨결과는? < >

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

3.2 함수의정의 Theorem 6 함수 f : X Y 와 Y W 인집합 W 에대하여 f : X W 는함수이다. Proof. f : X Y 가함수이므로 f X Y 이고, Y W 이므로 f X W 이므로 F0이만족된다. 함수의정의 F1, F2은 f : X Y 가함수이므로

PowerPoint 프레젠테이션

<3235B0AD20BCF6BFADC0C720B1D8C7D120C2FC20B0C5C1FE20322E687770>

untitled

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

1 1 장. 함수와극한 1.1 함수를표현하는네가지방법 1.2 수학적모형 : 필수함수의목록 1.3 기존함수로부터새로운함수구하기 1.4 접선문제와속도문제 1.5 함수의극한 1.6 극한법칙을이용한극한계산 1.7 극한의엄밀한정의 1.8 연속

01

31. 을전개한식에서 의계수는? 를전개한식이 일 때, 의값은? 을전개했을때, 의계수와상수항의합을구하면? 을전개했을때, 의 계수는? 를전개했을때, 상수항을 구하여라. 37

최소비용흐름문제의선형계획모형 최소비용흐름문제는선형계획문제로표현할수있다. 예 4.1 의최소비용흐름문제는다음과같은선형계획문제가된다. min z = 5x 12 +4x 13 +7x 14 +2x x 34 +8x 35 +5x 45 sub.to x 12 +x 13 +x

<BFACBDC0B9AEC1A6C7AEC0CC5F F E687770>

2002년 2학기 자료구조

(001~006)개념RPM3-2(부속)

Microsoft PowerPoint - chap04-연산자.pptx

(Microsoft PowerPoint - Ch19_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

Microsoft Word - SPSS_MDA_Ch6.doc

PowerPoint 프레젠테이션

FGB-P 학번수학과권혁준 2008 년 5 월 19 일 Lemma 1 p 를 C([0, 1]) 에속하는음수가되지않는함수라하자. 이때 y C 2 (0, 1) C([0, 1]) 가미분방정식 y (t) + p(t)y(t) = 0, t (0, 1), y(0)

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

한국정책학회학회보

Microsoft PowerPoint - MDA DA pptx

Microsoft PowerPoint - ch10 - 이진트리, AVL 트리, 트리 응용 pm0600

Microsoft PowerPoint - MDA DA pptx

<B1B9BEEE412E687770>

(Microsoft PowerPoint - Ch21_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

Microsoft PowerPoint - chap06-2pointer.ppt

MATLAB for C/C++ Programmers

PowerPoint Presentation

슬라이드 1

실험 5

이 장에서 사용되는 MATLAB 명령어들은 비교적 복잡하므로 MATLAB 창에서 명령어를 직접 입력하지 않고 확장자가 m 인 text 파일을 작성하여 실행을 한다

커널 방법론

= ``...(2011), , (.)''

PowerPoint 프레젠테이션

JAVA 프로그래밍실습 실습 1) 실습목표 - 메소드개념이해하기 - 매개변수이해하기 - 새메소드만들기 - Math 클래스의기존메소드이용하기 ( ) 문제 - 직사각형모양의땅이있다. 이땅의둘레, 면적과대각

슬라이드 1

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

<4D F736F F D20B1B8C1B6BFAAC7D0325FB0ADC0C7C0DAB7E15F34C1D6C2F75F76332E646F63>

슬라이드 1

Microsoft Word - FunctionCall

- 1 -

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Microsoft Word - logic2005.doc

장연립방정식을풀기위한반복법 12.1 선형시스템 : Gauss-Seidel 12.2 비선형시스템 12.1 선형시스템 : Gauss-Seidel (1/10) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정

untitled

슬라이드 1

제 2 교시 2019 학년도 3 월고 1 전국연합학력평가문제지수학영역 1 5 지선다형 1. 의값은? [2점] 일차방정식 의해는? [2 점 ] 두수, 의최대공약수는? [2 점 ] 일차함수 의그래프에서

OCW_C언어 기초

2_안드로이드UI

Microsoft PowerPoint - IPYYUIHNPGFU

슬라이드 1


저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

00-10.hwp

Transcription:

Ⅳ. 의사결정나무와 MARS 1. 실손의료보험자료를활용한 CART 분석 가. CART(Classification and Regression Tree) CART는데이터를가장잘분류해주는도구라고할수있는데데이터를잘분류해주는분리변수를선택하고분리지점을정해준다. 그리고가지치기를통해서분류의정도를결정할수있다. 데이터마이닝방법론들중가장널리쓰이는방법론으로반응변수가범주형또는연속형일때가능한의사결정나무의한알고리즘이다. 이는의사결정나무가다지분류가아닌두갈래로만나누어져예측력은낮지만해석하기가용이한장점이있다. 이번절에서는실손의료보험자료를활용한 CART 분석의예제를먼저보여주고방법론적인내용은다음절에서소개한다. 예제로사용한데이터의독립변수는성별, 연령, 상해급수, 직전연도발생건수이고종속변수는사고건수이다. 다음절에서는종속변수를심도인사고금액으로하여분석한다. 1) 빈도분석 아래의그림은빈도의사결정나무로각노드마다의예측값과전체의몇퍼센트가해당노드에있는지에대한정보를담고있다. 가장상위노드에서직전연도발생건수 0.5건을기준으로가지가분류된다. 0.25인첫번째노드에서직전연도발생건수가 0.5 이하인집단의예측값은 0.11로전체의 81% 를차지한다. 발생건수가 0.5 이상인노드의예측값은 0.84건으로전체의 19% 이다. 더하여직전연도 0.5건이상으로분류된노드는직전연도로다시구분된다.

32 연구보고서 2018-16 의사결정나무는변수들중가장설명력이있는변수에최초로분리가일어난다. 이 러한점으로미루어보아아래의사결정나무는직전연도발생건수가중요한변수라는 것을알수있다. < 그림 Ⅳ-1> 빈도의사결정나무 cp=0.01 아래표는뿌리마디부터끝마디까지나무가성장하면서달라지는지표들을요약한것이다. 첫번째행에있는 cp(complexity parameter) 는나무의크기를통제할때쓰인다. 만약 cp가작으면, 끝마디의숫자가많아지는것에대한벌점이작으므로나무의크기가커진다. < 그림 Ⅳ-1> 과 < 그림 Ⅳ-2> 를비교하면 cp=0.005(< 그림 Ⅳ-2>) 일때의나무의사이즈가 cp=0.01(< 그림 Ⅳ-1>) 일때보다큰것을볼수있다. cp에관한더자세한내용은다음장에서서술한다. 두번째행에있는나뭇가지가분리됨에따라 rel.error가감소한다. 여기서 rel.error는 R-squared와관련된지표이다. < 표 Ⅳ-1> 빈도의사결정나무요약 구분 CP nsplit rel. error xerror xstd 1 0.1693 0 1.0000 1.0001 0.0601 2 0.0521 1 0.8308 0.8311 0.0491 3 0.0126 2 0.7786 0.7878 0.0451 4 0.0100 3 0.7661 0.7832 0.0445

의사결정나무와 MARS 33 < 그림 Ⅳ-2> 는 cp가 0.005로 < 그림 Ⅳ-1> 의의사결정나무에비해세분화되어있는것을볼수있다. 설명변수분류의순서를보면상위에서하위항목으로갈수록발생건수, 성별, 연령순이다. 이는 GLM 분석결과의 p-value 값이작은순과같다. GLM에서는 p-value 값이작을수록유의미한변수라고해석한다. < 그림 Ⅳ-2> 빈도의사결정나무 cp=0.005 처음의세번분리는 cp 가 0.01(< 표 Ⅳ-1>) 일때와같다. < 표 Ⅳ-2> 빈도의사결정나무요약 cp=0.005 구분 CP nsplit rel. error xerror xstd 1 0.1693 0 1.0000 1.0002 0.0601 2 0.0521 1 0.8308 0.8316 0.0492 3 0.0126 2 0.7786 0.7941 0.0471 4 0.0067 3 0.7661 0.7811 0.0457 5 0.0060 4 0.7594 0.7897 0.0463 6 0.0057 5 0.7534 0.7890 0.0463 7 0.0053 6 0.7478 0.7873 0.0462 8 0.0050 7 0.7424 0.7864 0.0462

34 연구보고서 2018-16 2) 심도분석 심도의사결정나무모형은빈도모형보다다양한설명변수가채택되었지만여전히직전연도발생건수가최초분리변수로서설명력이높은변수라는것을보여준다. 위모델의데이터는빈도데이터에서지급액이 0 이상인것들을조건으로한후사용한다. 좌측으로분리되면분리기준에수긍하는것이고우측으로분리되면수긍하지않는다는것을의미한다. < 표 Ⅳ-3> 심도의사결정나무 구분 CP nsplit rel. error xerror xstd 1 0.0416 0 1 1.0009 0.1604 2 0.0133 1 0.9584 0.9621 0.1559 3 0.0109 2 0.9452 1.0067 0.1570 4 0.0106 5 0.9125 1.0090 0.1573 5 0.0100 6 0.9019 1.0096 0.1566 < 그림 Ⅳ-3> 심도의사결정나무

의사결정나무와 MARS 35 2. CART(Classification and Regression Trees) 2) 의사결정나무는쉽게말하면의사결정규칙 (Decision rule) 으로이루어진나무모양을그리는것이라고할수있다. 의사결정나무는과거에수집된데이터들을분석하고, 이데이터들사이에존재하는패턴들의특성을속성의조합으로나타내는분류모형이다. 이는새로운데이터에대해분류 (Classification) 하거나해당범주의값을예측하는목적으로쓰인다. 모형화 (Predictive Modeling) 자체가분류및예측모형으로도사용될수있다. 또한탐색 (Exploratory data analysis) 으로모형화에앞서, 이상치 (Outlier) 의검색, 변수의선택, 교호작용파악등에사용된다. 종속변수의유형이범주형, 연속형인지에따라각각분류나무 (Classification Tree) 와회귀나무 (Regression Tree) 로분류한다. CART의장점으로는모형을해석하고이해하기쉽고입력변수를선정하는데에도매우유용하다는점이다. 또한극단치 (Outlier) 에덜민감 (Robust) 하다. 그리고비모수적인방법이어서분포에대한가정이필요없고비선형적인방법이다. 의사결정나무 (Decision Trees, 이하 DT) 는주어진입력값을이용하여출력값을예측하는모형이며그종류로는분류나무 (Classification Trees) 와회귀나무 (Regression Trees) 모형이있다. 의사결정나무는예측한결과를나무형태의그래프로나타낼수있다는사실에기인하여이름이붙여졌다. 이장에서는분류및회귀의사결정나무의구조, 형성과정, 분리기준으로사용되는여러가지불순도의측도, 여러가지알고리즘에대하여자세히서술한다. 가. 의사결정나무의구조 의사결정나무 (DT) 의구조는크게노드 (Node), 가지 (Branch) 그리고깊이 (Depth) 로 구성되어있다. 가지 (Branch) 라는것은하나의마디부터끝마디까지하나로연결된마 디들을가리키고깊이 (Depth) 는가지를이루고있는마디의개수를말한다. 각 Node 2) 의사결정나무방법론은박창이 김용대 김진석 송종우 최호식 (2011) 을참고하여요약및정리함

36 연구보고서 2018-16 마다불리는이름이있다. 뿌리마디 (Root Node) 는 DT가시작되는마디로전체데이터를구성한다. 자식마디 (Child Node) 는하나의마디로부터분리되어나간마디이다. 부모마디 (Parent Node) 는자식마디의상위마디를일컫는다. 끝마디 (Terminal Node) 는말그대로끝마디로더이상의분할이이루어지지않는마디를말한다. 중간마디 (Internal Node) 는나무구조의중간에있는마디이다. < 그림 Ⅳ-4> 의사결정나무예시 위그림은간단한의사결정나무예시를보여주고있다. 맨위쪽에나이를나누는노드는뿌리마디 (Root Node) 이다. 그다음에한칸내려와서 Car type이 Sports인지를나눠주는노드를중간마디 (Internal Node) 라고한다. 그리고끝단에서 Risk가 High인지 Low인지나타내주는노드는끝마디 (Terminal (Leaf) Node) 라고할수있다. 회귀나무 (Regression Trees) 에서사용되는분리기준은분산의감소량이다. 예측오차를최소화하는것과동일한개념으로분산의감소량을최대화하는것을최적분리의기준으로삼아자식마디를형성하면된다.

의사결정나무와 MARS 37 나. 의사결정나무의형성 의사결정나무의형성과정은크게성장 (Growing), 가지치기 (Pruning), 타당성평가그리고해석과예측으로이루어진다. 성장단계라는것은각마디에서최적의분리규칙을적절하게찾아서나무를성장시키는과정이며, 적절한정지규칙을만족하면중단하는것으로한다. 가지치기단계라는것은오차를크게할위험이높을경우나부적절한추론규칙을가지고있는가지또는불필요한가지를제거하는것을의미한다. 타당성평가단계라는것은이익도표 (Gain chart), 위험도표 (Risk chart) 또는시험자표를활용하여의사결정나무를평가하는것을의미한다. 마지막으로해석과예측단계라는것은구축된나무모형을해석하고예측모형을설정한후예측에적용하는것을의미한다. 의사결정나무는출력변수가연속형인회귀나무 (Regression Tree) 와범주형인분류나무 (Classification Tree) 로나눌수있다. 회귀나무와분류나무의형성과정을아래에서살펴본다. 1) 회귀나무 (Regression Trees) 회귀나무는회귀나무를어디까지성장시킬지가관심사일것이다. p개의입력변수와하나의종속변수로이루어진 N개의관측데이터가있다고가정한다. 으로정의하고, 인행벡터로정의한다. 알고리즘은분리변수 (Split variable) 와분리점 (Split point) 을결정하고또한나무모형이어떻게생길지도결정해야한다. 먼저전체영역을 개의영역 으로나누고상수값 을각영역의예측값으로하는나무모형은다음과같이표현된다. (Ⅳ-1) 여기서회귀나무기준으로오차제곱합 을그측도로서 사용한다. 그러면이에대해최솟값을갖는 은영역 에서 의평균일것이다.

38 연구보고서 2018-16 (Ⅳ-2) 주어진분리변수 가연속형인경우분리점을 라하면두영역 와 을정의할수있다. 범주형분리변수일경우에는전체범주를부분집합 2개로나눈다. 예를들면전체범주가 { 남, 여 } 일때 남과 여로나눌수있다. 그러면분리기준을정하는것은분리변수 j와분리점 s를찾는최적화문제로볼수있다. min min min (Ⅳ-3) 분리변수가주어지고나면어렵지않게분리점 를찾을수있으며적절한최적화 를통하여최적분리기준 를찾을수있다. 우선최적분리를찾고난후에는두 영역에대하여반복하여동일한과정거치면된다. 나무모형이너무크면자료를과대적합할가능성이있고, 반대로나무모형이너무 작으면자료를과소적합할가능성이있다. 즉, 의사결정나무에서는나무의크기가모 형의복잡도 (Complexity) 를의미하며, 최적의나무크기는사용하는자료들로부터추 정한다. 일반적으로사용되는방법은마디에속하는자료가일정수이하일때분할을 정지하고비용 - 복잡도가지치기 (Cost-complexity pruning) 를이용하여성장시킨나 무를가지치기하게된다. 성장시킨나무모형 를가지치기하여얻을수있는나무모형을 로나 타내자. 는 에서의끝마디개수, 은 의영역 에속하는자료수, 은영역 에속하는자료에대한 값들의평균, 그리고불순도는 정의된다. 로나타낸다. 이때최적화할비용함수는다음과같이 (Ⅳ-4)

의사결정나무와 MARS 39 가지치기는 에대하여 를최소화하는 를찾는문제가된다. 여기서 는 Complexity parameter이며데이터분석가가나무모형의크기와자료에대한적합도를조절하기위한조율모수로서선택할수있다. 값이크면 의크기는작아지고, 반대의경우도마찬가지이다. 그리고 이면가지치기는일어나지않고 를최종모형으로준다. 추정값 은자료로부터흔히 5 또는 10-묶음교차확인오차로얻을수있다. 가지치기된최종모형은 으로나타낼수있고시험자료가 이면 으로예측한다. 2) 분류나무 (Classification Tree) 출력변수가범주형인분류나무는불순도의측도로주로사용되는카이제곱통계량, 지니지수 (GINI index), 엔트로피지수 (Entropy index) 등을이용하여회귀나무와동일한방식으로성장시키게된다. 분류나무의가지치기는흔히오분류율을불순도의측도로사용하여회귀나무와동일한방식으로실시하여최종분류나무모형 을얻게된다. 를최종모형의영역 에속하는자료중출력변수의범주가 인자료의비율이라하자. 이면그예측값은 arg 로주어진다. 즉, 분류나무는각마디에서다수결원칙 (Majority vote) 으로정하는것이다. 다. 분류나무의여러가지불순도측도 불순도의측도는의사결정나무의성장단계에서최적의분리변수 (Splitting Variable) 와기준값 (Threshold) 을정하는데사용된다. 회귀나무에서는불순도의측도를 로정의하였다면분류나무에서사용되는측도는카이제곱 통계량, 지니지수, 엔트로피지수, 분류오차등이다. 분류나무의경우데이터의분리 / 분할은각자식마디에속하는자료의순수도 (Purity) 또는불순도 (Impurity) 가가장크게증가또는감소하도록진행된다.

40 연구보고서 2018-16 < 그림 Ⅳ-5> 불순도측도비교 자료 : Hastie, Tibshirani, Friedman(2008), p. 309 불순도예시표를바탕으로각측도들이어떻게계산되는지살펴본다. < 표 Ⅳ-4> 불순도예시 구분 남성 여성 전체 왼쪽마디 47(42) 23(28) 70 오른쪽마디 73(78) 57(52) 130 부모마디 120 80 200 1) 카이제곱통계량 위의표는실제도수 (O) 와기대도수 (E)( 괄호안숫자 ) 를보여주고있다. 예를들어왼쪽의남성의기대도수라는것은 이며, 다른셀들의기대도수역시동일한방법으로구할수있다. 카이제곱통계량이라는것은각셀에대하여 (( 기대도수-실제도수 ) 의제곱 / 기대도수 ) 의합으로정의된다. 그리고카이제곱통계량이최대가되는분리를사용한다. 이표에서카이제곱통계량은다음과같이계산된다.

의사결정나무와 MARS 41. (Ⅳ-5) 2) 지니지수 (GINI index) 지니지수는 CART 에서쓰이는지표이며, 지니지수는다음과같이정의된다. (Ⅳ-6) (Ⅳ-7) 지니지수가최소가되는분리를선택한다. 앞의표에대하여지니지수를구하면다 음과같이주어진다. 2(P( 왼쪽에서남성 )P( 왼쪽에서여성 )P( 왼쪽 ) +P( 오른쪽에서남성 )P( 오른쪽에서여성 )P( 오른쪽 )) =. (Ⅳ-8) 3) 엔트로피지수 (Entropy measure) 엔트로피지수는 C4.5 에서불순도측도로사용되는것으로다음과같이정의된다. log (Ⅳ-9) 엔트로피지수 = 엔트로피 ( 왼쪽 )P( 왼쪽 ) (Ⅳ-10) + 엔트로피 ( 오른쪽 )P( 오른쪽 )

42 연구보고서 2018-16 여기서 엔트로피 (Left)=-P( 왼쪽에서남성 )log P( 왼쪽에서남성 ) (Ⅳ-11) -P( 왼쪽에서여성 )log P( 왼쪽에서여성 ) 로정의되며, 오른쪽마디에대한엔트로피도이와동일한방법으로정의될수있다. 앞의표에서엔트로피지수를구하면다음과같이얻을수있다. (Ⅳ-12) 4) 분류오차 (Misclassification error) max (Ⅳ-13) 라. 여러가지의사결정나무알고리즘 위쪽에서는주로 CART 방법론에초점을맞춰살펴보았다. CART는가장많이쓰이는의사결정나무알고리즘으로 Breiman, Friedman, Stone & Olshen(1984) 가개발하였다. 출력변수가범주형인경우불순도를앞절에서살펴본지니지수를통해계산하고출력변수가연속형인경우는분산을이용한다. CART는이진분리 (Binary split) 하여해석성이좋다는장점이있다. 개별입력변수또는입력변수들의선형결합들중에서최적의분리를찾으면된다. CART 다음으로유명한의사결정나무방법론에는 ID3이있고그후에더발전된 C4.5와 C5.0이있다. ID3은처음호주의연구원인 Quimlan(1993) 에의하여개발되었다. 위에서언급한 CART와는달리각마디에서다지분리 (Multiple split) 가가능하며범주형입력변수에대해서는범주의수만큼분리가일어난다. 초기버전은범주형예측변수에만국한되어있었으나최근에발전된 C5.0은 CART와매우유사해졌다. 불순

의사결정나무와 MARS 43 도의측도로는앞장에서살펴본엔트로피지수를사용한다. CHAID(Chi squared Automatic Interaction Detection) 는카이제곱검정에근거한모수적인방법이며불순도의측도로는카이제곱통계량을사용한다. Hartigan(1975) 이제안한방법으로 Morgan & Sonquist(1963) 의 AID를발전시킨것으로볼수있다. CHAID는가지치기를하지않는대신나무모형의성장을적당한크기에서중지하면된다. 그리고한계점은입력변수가반드시범주형변수여야한다는점이있다. 마. CART 의특징 CART는이진분리의 if-then 형식의이해하기쉬운규칙을생성하며분류작업이쉽다. 또한연속형변수와범주형변수의형태모두입력변수로취급할수있으며비모수적방법이라는장점이있다. CART는가장설명력이있는변수에대하여최초로분리가일어난다는특징때문에요율산정에있어서중요변수를알아낼수있다. 단점으로는출력변수가연속형인회귀모형에서는예측력이감소한다는것이다. 일반적으로복잡한나무모형은예측력이저하되고해석이어렵다. 상황에따라서는많은양의계산작업이필요할수도있으며, 베이즈분류경계가사각형 (Rectangle) 이아닌경우에는결과가좋지않을수도있다. 특히자료가조금만달라져도전혀다른결과를얻을정도로분산이크고불안정한방법이다. 앙상블알고리즘을적용하여의사결정나무의분산을줄일수도있다. 3. MARS(Multivariate Adaptive Regression Splines) 가. MARS 방법론 MARS 방법론은주로 Francis(2003), Hastie, Tibshirani & Friedman(2008) 을주로 참고하여정리하였다. Friedman(1991) 이제안한 MARS 는입력변수가많은고차원의

44 연구보고서 2018-16 회귀문제에적합한방법이다. 설명변수들이종속변수에대해직선이아닌꺾인선형형태 (Splines) 로설명된다. 단계별선형회귀의일반화또는의사결정나무의개선으로볼수있다. MARS는 와 형태의매듭점 (Knot point) t에서의조각별선형회귀의기저함수 (Basis function) 를사용한다. 여기서 를의미하며, 괄호안의값 의양수부분만을나타낸다. (Ⅳ-14) 기저함수의클래스는각입력변수 에대하여관측값 들을매듭점으로한선형 스플라인들로표현된다. MARS 모형은식 (Ⅳ-15) 로표현되며 은 상의기저 함수혹은 에속하는둘이상의기저함수들의곱이다. for (Ⅳ-15) 모델링은원래의입력값이아닌식 (Ⅳ-16) 과같이변형된형태로전진단계선형회귀 (Forward stepwise linear regression) 로한다. 어떤 을선택할지주어지면, 전 통적선형회귀와같이오차제곱합을최소화시키는 계수들을추정한다. (Ⅳ-16) 상의한기저함수만을사용하는경우에는주효과만을사용하는가법모형이고, 상의두기저함수들의곱까지허용하는경우에는 2인자교호작용이있는모형에해당된다. MARS에서기저함수는전진선택법을사용하여선택된다. 우선 에해당하는 을모형에투입하고, 각단계에서오차제곱합 을최소화 하는변수와매듭점을찾고, 해당기저함수쌍을모형에추가한다. 예를들어 M 개의기

의사결정나무와 MARS 45 저함수가선택되었다고하자. 그러면이번에는자료의과대적합을막기위해후진소거법으로설명력이없는기저들을제거한다. 이때사용되는기저함수선택기준은식 (Ⅳ-17) 로 는 개의항들에기반한 의적합값이고 은모수의개수로정의되는복잡도함수이다. 최종적으로 argmin개의항을갖는모형을선택한다. (Ⅳ-17) 의사결정나무는각영역에서동일한상수값을추정하는반면 MARS에서는선형스플라인을사용하므로조각별로선형인연속함수로추정하게된다. 따라서일반적으로 MARS는의사결정나무에비해서예측력이높다. MARS에서조각별선형기저함수를사용하는이유는비선형적인모형을조각별선형함수로근사하기위한것이다. 자료의특성에따라서는교호작용을허용할수도있는데대체로과대적합의문제로 2인자이상의고차의교호작용은고려하지않는다. MARS와 CART는서로상이한방법론처럼보임에도불구하고굉장히유사한점들이있다 (Hastie, Tibshirani & Friedman 2008). MARS에서기저함수를 과 으로대체한다고가정하면 MARS의전진선택법알고리즘과 CART가나무를성장시키는알고리즘을동일하게볼수있다. 또한 MARS 모형에서기저함수의짝이곱형태가포함되어있으면 CART 모형에서나뭇가지가분리되는것과동일하다. 이러한것은 CART에서노드에서한번이상의분리를할수없도록제한하고이진분리로나타내게한다.

46 연구보고서 2018-16 나. 실손의료보험자료를활용한 MARS 분석 1) 빈도분석 < 표 Ⅳ-5> 질병외래빈도 MARS 분석 구분 기저함수 계수 (Intercept) 0.5518 성별여 0.0888 년도발생건수 -0.4806 년도발생건수 0.2732 년도발생건수 0.1810 성별, 연령, 상해급수, 직전연도발생건수를입력변수로갖고있음에도불구하고빈 도모형에서는성별과발생건수변수가더중요한변수로선택되어사용된다. < 표 Ⅳ -5> 는다음식과같이쓸수있다. (Ⅳ-18) 여성일때의계수가양수인것을미루어보아기대빈도가남성보다여성일때높은것으로해석된다. 직전연도발생건수에대하여 1건과 2건이기준이되는데 0건일때의기대빈도는 0.4806만큼감소하는반면 2건일때에는 0.2732만큼증가한다. 2건초과일때에는과거실적 1건당 0.4542(=0.2732+0.1810) 씩기대빈도가높아진다.

의사결정나무와 MARS 47 2) 심도분석 < 표 Ⅳ-6> 질병외래심도 MARS 분석 thresh=0.001 구분 기저함수 계수 절편 172,646 성별여 28,346 연령 118,545 연령 -198,690 연령 257,027 연령 740 연령 -292,756 연령 171,010 연령 -60,951 년도발생건수 1,100 년도발생건수 210,175 년도발생건수 -320,938 년도발생건수 190,426 심도분석은지급금액이 0건이상인데이터를사용하여보험금액을모형화한다. terminal condition은빈도모형과같게했을때를먼저살펴보고조절하는방향으로한다. terminal condition 값은모형에항을하나추가하였을때개선되는 값이다. 예를들어 terminal condition이 0.01이라는것은모형에항을하나추가하였을때 값이 0.01보다커지지않으면모형의성장을멈춘다는것이다. 빈도분석일때보다계수들의항이증가한것을볼수있다. 성별이여성인경우남성보다 28,346원기대지급금액이증가한다. 성별에대한해석은쉬우나연령이나직전연도발생건수같은경우다수의항이있어해석하기불편할수도있다. < 표 Ⅳ-6> 의모형과같이해석이불편한모형이산출된경우에는함수안의옵션을바꿔보다간편한모형을모델링할수있다. terminal condition을 0.01로개선하여다시모델링하면위의모델에서중요도가높은변수들로구성된모형을얻는다. 연령은

48 연구보고서 2018-16 50 세를기준으로 50 세미만일때에는 1 세감소할때기대지급금액이 7,365 원감소한 다. 50 세초과인연령대에서는연령이 1 세증가할때마다 451 원감소한다. 50 세를기 준으로뒤집어진 V 모양을볼수있다. < 표 Ⅳ-7> 질병외래심도 MARS 분석 thresh=0.01 구분 기저함수 계수 절편 293,289 연령 -7,365 연령 -451 년도발생건수 -14,529 년도발생건수 63,344 다. GLM option 이있는 MARS MARS 분석은단계별선형회귀의일반화로반응변수가 0 미만인값이나올가능성이있다. 하지만보험데이터의빈도나심도를모형화한경우반응변수가 0 미만인값이나오는것은현실과부합하지않으므로이를방지하기위하여 GLM option을사용한다. R 프로그램의 earth 패키지에서 MARS 분석을할때에 GLM option을삽입하고연결함수를로그로취하면 0 이상의값을갖는다. 1) 빈도분석 < 표 Ⅳ-8> 의결과를바탕으로한식은다음과같다. 앞절과다른점이있다면반응 변수에로그연결함수가적용되어있고양변에지수를취하면곱으로표현된다는것 이다. ln (Ⅳ-19) (Ⅳ-20)

의사결정나무와 MARS 49 앞절에서 GLM option이없을때와같은변수들이채택되는데곱으로표현할수있는장점이있다. 성별과발생건수만고려된아래의모형에따르면여성의기대빈도는 1.49배높다. 이는앞장의네가지변수가사용된 GLM 모형의상대도와비교하였을때변수가적게채택되어계수값이집중된것이라고볼수도있다. 직전연도발생건수는 1건일어났을때를기준으로 0건일때는 0.196배, 2건일때에는 1.5121배, 3건이상일때에는 1건이증가할때마다 1.306배라고해석할수있다. < 표 Ⅳ-8> 질병외래빈도 GLM option 이있는 MARS 분석 구분 기저함수 계수 Intercept -0.7607 성별여 0.4035 년도발생건수 -1.6295 년도발생건수 0.4135 년도발생건수 -0.1465 < 표 Ⅳ-9> 질병외래빈도 GLM option 이있는 MARS 상대도 성별 15 년도발생건수 설명변수 상대도 남성 1.0000 여성 1.4971 0건 0.1960 1건 1.0000 2건 1.5121 3건이상 1.3060 2) 심도분석 위의심도분석과다른점이라면 GLM option 을사용한것이다. 계수의부호방향이 위의결과값과같게나왔다. 곱으로표현되어서비교하기쉬운점이있다.

50 연구보고서 2018-16 < 표 Ⅳ-10> 질병외래심도 GLM option 이있는 MARS thresh=0.01 구분 기저함수 계수 절편 12.5917 연령 -0.0293 연령 -0.0055 년도발생건수 -0.0537 년도발생건수 0.1920