<BFACB1B831382D31365FBAF2B5A5C0CCC5CD20BAD0BCAEBFA120C0C7C7D120BFE4C0B2BBEAC1A420B9E6B9FD20BAF1B1B35F33C2F7BCF6C1A E687770>

Similar documents
딥러닝 첫걸음

Tree 기반의 방법

표본재추출(resampling) 방법

Resampling Methods

장연립방정식을풀기위한반복법 12.1 선형시스템 : Gauss-Seidel 12.2 비선형시스템 12.1 선형시스템 : Gauss-Seidel (1/10) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정

비선형으로의 확장

슬라이드 1

슬라이드 1

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

Introduction to Deep learning

04 Çмú_±â¼ú±â»ç

Microsoft PowerPoint - 26.pptx

제 12강 함수수열의 평등수렴

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

통계적 학습(statistical learning)

3. 다음은카르노맵의표이다. 논리식을간략화한것은? < 나 > 4. 다음카르노맵을간략화시킨결과는? < >

(Microsoft PowerPoint - Ch19_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

FGB-P 학번수학과권혁준 2008 년 5 월 19 일 Lemma 1 p 를 C([0, 1]) 에속하는음수가되지않는함수라하자. 이때 y C 2 (0, 1) C([0, 1]) 가미분방정식 y (t) + p(t)y(t) = 0, t (0, 1), y(0)

Microsoft PowerPoint - chap06-2pointer.ppt

3.2 함수의정의 Theorem 6 함수 f : X Y 와 Y W 인집합 W 에대하여 f : X W 는함수이다. Proof. f : X Y 가함수이므로 f X Y 이고, Y W 이므로 f X W 이므로 F0이만족된다. 함수의정의 F1, F2은 f : X Y 가함수이므로

Microsoft PowerPoint Relations.pptx


(001~006)개념RPM3-2(부속)

statistics

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

°Ÿ»4º¨Ö

제 3강 역함수의 미분과 로피탈의 정리

<3235B0AD20BCF6BFADC0C720B1D8C7D120C2FC20B0C5C1FE20322E687770>

커널 방법론

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

(Microsoft PowerPoint - Ch21_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

수도권과비수도권근로자의임금격차에영향을미치는 집적경제의미시적메커니즘에관한실증연구 I. 서론

JAVA 프로그래밍실습 실습 1) 실습목표 - 메소드개념이해하기 - 매개변수이해하기 - 새메소드만들기 - Math 클래스의기존메소드이용하기 ( ) 문제 - 직사각형모양의땅이있다. 이땅의둘레, 면적과대각

<BFACB1B831382D31365FBAF2B5A5C0CCC5CD20BAD0BCAEBFA120C0C7C7D120BFE4C0B2BBEAC1A420B9E6B9FD20BAF1B1B35F33C2F7BCF6C1A E687770>

PowerPoint Presentation

PowerPoint Presentation

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

단순 베이즈 분류기

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

Microsoft Word - LectureNote.doc

실험 5

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

신경망 (Neural Networks) < 인공지능입문 > 강의 허민오 Biointelligence Laboratory School of Computer Science and Engineering Seoul National University

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

C# Programming Guide - Types

슬라이드 1

이 장에서 사용되는 MATLAB 명령어들은 비교적 복잡하므로 MATLAB 창에서 명령어를 직접 입력하지 않고 확장자가 m 인 text 파일을 작성하여 실행을 한다

adfasdfasfdasfasfadf

01

1-1-basic-43p

Sequences with Low Correlation

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

슬라이드 1

G Power

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint

OCW_C언어 기초

<B1B9BEEE412E687770>

= ``...(2011), , (.)''

슬라이드 1

PowerPoint Presentation

= Fisher, I. (1930), ``The Theory of Interest,'' Macmillan ,

제 5강 리만적분

Microsoft PowerPoint - ch07 - 포인터 pm0415

(b) 미분기 (c) 적분기 그림 6.1. 연산증폭기연산응용회로

Microsoft Word - Lab.4

<30325FBCF6C7D05FB9AEC7D7C1F62E687770>

함수공간 함수공간, 점열린위상 Definition 0.1. X와 Y 는임의의집합이고 F(X, Y ) 를 X에서 Y 로의모든함수족이라하자. 집합 F(X, Y ) 에위상을정의할때이것을함수공간 (function space) 이라한다. F(X, Y ) 는다음과같이적당한적집합과

Microsoft PowerPoint - C++ 5 .pptx

untitled

실험 5

PowerPoint Presentation

PowerPoint Presentation

Microsoft PowerPoint - chap06-1Array.ppt

Microsoft PowerPoint 상 교류 회로

<4D F736F F F696E74202D2035BBF3C6F2C7FC5FBCF8BCF6B9B0C1FA2E BC8A3C8AF20B8F0B5E55D>

31. 을전개한식에서 의계수는? 를전개한식이 일 때, 의값은? 을전개했을때, 의계수와상수항의합을구하면? 을전개했을때, 의 계수는? 를전개했을때, 상수항을 구하여라. 37

<B3EDB4DC28B1E8BCAEC7F6292E687770>

Microsoft PowerPoint - LA_ch6_1 [호환 모드]

PowerPoint Template

1 1 장. 함수와극한 1.1 함수를표현하는네가지방법 1.2 수학적모형 : 필수함수의목록 1.3 기존함수로부터새로운함수구하기 1.4 접선문제와속도문제 1.5 함수의극한 1.6 극한법칙을이용한극한계산 1.7 극한의엄밀한정의 1.8 연속


978 Jaeyoung Kwon, Sinae Kim, Eungee Park, Jongwoo Song Table 1.1. Description of the regression models 선형회귀모형 랜덤포레스트 설명변수와반응변수간의선형관계를가정하고결과해석이용이. Ste

용역보고서

Microsoft Word - PLC제어응용-2차시.doc

= Fisher, I. (1930), ``The Theory of Interest,'' Macmillan ,

고 학년도 9월고수학 1 전국연합학력평가영역문제지 1 1 제 2 교시 수학영역 5 지선다형 3. 두다항식, 에대하여 는? [ 점 ] 1. 의값은? ( 단, ) [ 점 ] 다항식 이 로인수분해될때, 의값은? ( 단,,

슬라이드 1

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

5장. 최적화

<4D F736F F F696E74202D EBCADBAF1BDBABDC3BCB3C0C720C0D4C1F6BCB1C1A4205BC8A3C8AF20B8F0B5E55D>

IP 심화 라우팅프로토콜적용시 라우팅테이블에서 이니셜이있는네트워크를설정하는것 : onnected 직접연결된네트워크를의미한다. 그러므로라우팅은 나는이런네트워크와연결되어있다. 를직접연결된라우터들에게알려주는것 1>en 1#conf t 1(config)#router rip 1

<BFACBDC0B9AEC1A6C7AEC0CC5F F E687770>

2 / 27 목차 1. M-plus 소개 2. 중다회귀 3. 경로모형 4. 확인적요인분석 5. 구조방정식모형 6. 잠재성장모형 7. 교차지연자기회귀모형

빅데이터_DAY key

슬라이드 제목 없음

일반각과호도법 l 삼각함수와미분 1. 일반각 시초선 OX 로부터원점 O 를중심으로 만큼회전이동한위치에동경 OP 가있을때, XOP 의크기를나타내는각들을 ( 은정수 ) 로나타내고 OP 의일반각이라한다. 2. 라디안 rad 반지름과같은길이의호에대한중심각의 크기를 라디안이라한

2013unihangulchar {45380} 2unihangulchar {54617}unihangulchar {44592} unihangulchar {49328}unihangulchar {50629}unihangulchar {51312}unihangulchar {51

Transcription:

Ⅴ. 앙상블기법과신경망모형 1. 앙상블기법 3) 앙상블 (Ensemble) 기법은 CART라는도구가괜찮다는철학하에만들어진것이다. 하지만 CART의성능이우수하지못할수있기때문에이를개선하기위해만들어졌다. 주어진자료를이용하여여러개의예측모형을먼저만들고, 그예측모형들을결합하여최종적으로하나의예측모형을만드는방법이다. 최초로제안된앙상블알고리즘은 1996년에만들어진 Breiman의배깅 (Bagging) 이다. 그이후앙상블방법은예측력을획기적으로향상시킬수도있음이경험적으로입증되었다. 이번장에서는가장널리사용되는앙상블기법들인배깅 (Bagging), 부스팅 (Boosting), 랜덤포레스트 (Random forest) 를설명한다. 가. 배깅 (Bagging) 배깅은불안정한예측모형에서불안정성을제거하고예측력을향상시키기위하여개발되었다 (Breiman 1996). 자료의작은변화에예측모형이크게변하는경우를학습방법이불안정하다고말한다. 예를들어의사결정나무에서는첫번째노드의분리변수를찾을때비슷한예측력을갖는변수가다수존재하여자료의작은변화에도첫번째분리변수가바뀌는경우가생긴다. 첫번째노드의분리변수가바뀌면자식노드에포함되는자료가완전히바뀌고이에최종의사결정나무가완전히달라진다. 이처럼학습방법의불안정성은예측력의저하를가져오고, 예측모형의해석을어렵게만든 3) 앙상블기법은박창이 김용대 김진석 송종우 최호식 (2011) 을참고하여요약및정리하였음

52 연구보고서 2018-16 다. 데이터마이닝의목적을달성하기위해불안정한학습방법을안정적으로만드는작업은필수적이며, 그러한이유로배깅이개발되었다. 배깅 (Bagging) 은 Boostrap Aggregating의준말로자료에대하여여러개의붓스트랩 (Boostrap) 자료를생성하여각각에대한예측모형을생성한후조합하여최종적으로하나의예측모형을만드는방법이다. 여기서붓스트랩자료라는것은주어진자료를이용하여동일한크기의표본을무작위로복원추출한자료를의미한다. L 은훈련자료를나타낸다고할때, 배깅알고리즘을정리하면다음과같다. 1. 개의붓스트랩자료 L, 를만든다. 2. 각붓스트랩자료 L 에대해서예측모형 를구축한다. 3. 개의예측모형을결합하여최종모형 을만든다. 최종모형을만드는방법은 (a) 회귀모형인경우 와같이평균을취한다. (b) 분류모형인경우 arg 와같이투표 (Voting) 를한다. 최적의의사결정나무를구축할때가장어려운부분은가지치기이다. 가지치기를위한여러가지방법이제안되었지만, 배깅은각각의의사결정나무를구축할때가지치기를하지않아도된다는장점때문에많이활용되는방법이다. 배깅은가지치기를하지않은최대로성장한의사결정나무를사용하기때문에계산량을대폭줄일수있는장점이있다. 배깅에서가지치기가왜필요하지않은지에대한설명은다음절에서한다. 배깅이왜예측력을크게향상시킬수있는방법론인지에대하여많은이론적인연구가진행되었다. 그러한연구들중 Breiman의이론을소개하고자한다. 여기서소개

앙상블기법과신경망모형 53 되는이론적설명은예측모형을만들때주로대두되는몇가지고려사항들에대하여답을제공하고있다. 특히배깅에서가지치기를할필요가없는이유에대해설명을하고자한다. 주어진훈련자료 L을이용하여구축된예측모형 는 L에의존한다. 이를강조하기위하여 L이라고쓰고, 주어진예측모형L에대하여평균예측모형 L L 로정의한다. 여기서기댓값은훈련자료가얻어진모집단의분포를이용하여구한다는점에유의하기바란다. 다음정리는평균예측모형의기대손실 ( 또는위험 ) 이단일예측모형의기대손실보다작다는것을보여준다. < 정리 1> 를 L과독립인미래의관측값이라하자. 제곱손실함수 에대하여 L 와 의기대손실 과 를다음과같이정의한다. L L 그러면항상 가성립한다. Pr 제곱함수는볼록함수이므로 Jensen 부등식에의해서 L L 이성립한다. 따라서 L L L L 위의증명에서중요한사실하나를확인할수있는데, 는 L L L L L L

54 연구보고서 2018-16 이다. 즉, L의분산 ( 또는불안정성 ) 이크면평균예측모형이원래의예측모형을크게향상시키며, 반대로분산이작으면 ( 또는안정적이면 ) 평균예측모형의예측력의향상정도가줄어든다. 훈련자료로얻은모집단의분포를모르기때문에학습자료를모집단으로생각하고이것의평균예측모형을구한것이배깅의예측모형이다. 배깅은주어진예측모형의평균예측모형을구하고분산을줄여줌으로써예측력을높인다. 즉, 배깅은예측모형의편의 (Bias) 에는영향을미치지않고분산에만영향을미친다. 따라서, 배깅에적합한예측모형은편의가없고분산이큰과대적합된모형이다. 의사결정나무에배깅을적용할때나무를최대한성장시키고가지치기를하지않는것도배깅의효과를극대화하기위함이다. 나. 부스팅 (Boosting) 부스팅은예측력이약한예측모형 (Weak learner) 들을결합하여예측력이최적에가까운강한예측모형을만드는것을말한다. 즉, 경계에있는데이터에가중치를더욱부여 (Boost) 하여만들어진모형이다. 여기서약한예측모형이란랜덤하게예측하는것보다약간좋은예측력을지닌모형을말한다. 반면강한예측모형이란예측력이최적에가까운예측모형을말한다. 실제자료분석을위해제안된최초의부스팅알고리즘은이진분류문제에서 Freund & Schapire(1997) 에의해서개발된 AdaBoost(Adaptive Boost) 알고리즘이다. AdaBoost 알고리즘에서주의깊게살펴보아야할부분은단계 2의 (c) 와 (d) 이다. 부스팅에사용되는예측모형 은랜덤한추측보다조금더좋은예측력을갖는다고가정하면, 의 ( 가중 ) 오분류율은 0.5보다작게되므로 (c) 의 이된다. 그러면 (d) 에서각관측치에할당되는가중치가 에의해서오분류된관측치에서는증가하고정분류된관측치에서는기존의값과같게된다. 가중치를정규화하여합이 1이되도록하면, AdaBoost 알고리즘은매반복마다오분류된관측치의가중치는증가시키고정분류된관측치는감소시키면서예측모형을만들어간다.

앙상블기법과신경망모형 55 1. 가중치 를초기화한다. 2. 에대하여다음과정을반복한다. (a) 가중치 를이용하여분류기 를적합한다. (b) 를다음과같이계산한다. (c) log 로설정한다. (d) 가중치 를 exp 로업데이트한다. 3. 단계 2에서얻은 개의분류기를결합하여최종분류기 를얻는다. AdaBoost 알고리즘의본래의목적은훈련오차를빨리그리고쉽게줄이는것이다. 약한학습기 의오분류율이항상 0.5- 이면훈련오차는지수적으로빠르게 0으로수렴함이증명되었다 (Freund & Schapire 1997). 이러한성질은 AdaBoost 알고리즘이자료의압축문제에적합한방법으로여겨지는계기가되었다. 이제부스팅알고리즘의여러해석들중에주요한두가지해석에대해서살펴보도록한다. 이러한해석을통해서다양한종류의부스팅알고리즘이어떻게개발되었는지를설명한다. 1) 가파른강하알고리즘으로서의 AdaBoost Schapire & Singer(1999) 에의해서 AdaBoost 알고리즘은최적화에서잘알려진가파른강하 (Steepest descent) 알고리즘으로해석될수있다는것이밝혀졌다. 로라벨이주어진이진분류문제를생각해볼때, F는약한학습기의집합이라고하자. 또한 AdaBoost의최종예측모형은약한학습기들의선형결합으로이루어져있으므로,

56 연구보고서 2018-16 F) 는 F 상의학습기들의모든선형결합이라고하자. Schapire & Singer(1999) 에따 르면 AdaBoost 는지수손실함수 exp 에대한경험위험최소추정량 arg exp (Ⅴ-1) 을구하는가파른강하알고리즘이다. 참고로지수손실함수는 AdaBoost 알고리즘을 통해서소개된손실함수로서 Fisher 일치성을만족한다. 2) 기울기강하알고리즘으로서의부스팅 Friedman(2001) 은부스팅알고리즘을최적화알고리즘의하나인기울기강하 (Gradient descent) 알고리즘으로해석하였으며, 이를통하여지수손실함수이외의다양한손실함수에서부스팅알고리즘을개발하였다. 이러한알고리즘을그래디언트부스팅 (Gradient boosting) 이라고부른다. 먼저기울기강하알고리즘에대하여소개하면, p차원공간에서정의된미분가능하고볼록인함수 의최솟값을찾는문제를고려해보자. 다음의기울기강하알고리즘은주어진해로부터기울기값이작은쪽으로현재의해를이동시키면서축차적으로최솟값을찾는방법이다. 1. 해를 로초기화한다. 2. 다음단계를해 가수렴할때까지반복한다. (a) 에서기울기를다음과같이계산한다. (b) 의이동거리 을계산한다. (c) 를 방향으로 만큼이동하여새로운해를구한다.

앙상블기법과신경망모형 57 위의기울기강하알고리즘을부스팅에적용하면다음과같다. 주어진손실함수 과주어진함수집합 F에대해서경험위험함수 을최소화 하려고한다. 주어진함수 에서의경험위험함수의기울기는 로 정의된다. 여기서 이다. 1. 해를 로초기화한다. 2. 다음단계를해 가수렴할때까지반복한다. (a) 에서기울기 를계산한다. (b) 와가장가까운기저학습기 (Base learner) 를다음과같이찾는다. arg (c) 의이동거리 를계산한다. arg (d) 를 방향으로 만큼이동하여새로운해를구한다. 배깅과의차이점으로배깅은분류기들이상호영향을주지않지만부스팅은이전분류기의학습결과를토대로다음분류기의데이터의샘플가중치를조정한다는것이있다. 최초의부스팅알고리즘은 AdaBoost 알고리즘으로가중선형결합후최종분류기를설정하는알고리즘이다. AdaBoost 알고리즘은초기에는모두동일한확률로복원추출을하지만매반복마다오분류된관측치의가중치는증가시키고정분류된가중치는감소시키면서예측모형을만들어간다. Friedman(2001) 은의사결정나무를기본학습기로하는그래디언트부스팅알고리즘을 손실함수와로지스틱손실함수에대해서개발하였으며이두알고리즘을각각 부스팅과로짓부스팅으로명명하였다. 예를들어, 부스팅의손실함수는

58 연구보고서 2018-16 이며기울기함수는 로서음의잔차가된다. 따라서 부스팅은현재의해 의잔차인 를가장잘설명하는기저학습기 를찾고 를 방향으로 만큼이동시킨다. 학습기의복잡도가더해지는기본학습기의수에비례한다고생각할수있으므로그래디언트부스팅은너무많이반복하면과대적합문제가발생할수있다. 과대적합을피할수있는방법으로는반복수를조절하는것인데, 수렴할때까지반복하는것이아니라일정수의반복만수행하는것이다. 이때반복수는벌점모수가되며이를적절히조합함으로써최적의예측력을갖는모형을찾을수있다. 과대적합을피하기위한더효울적인방법으로는축소추정방법을이용하는것이다. 현재의해 를기울기인 방향으로이동시킬때최적의이동량인 를사용하지않고아주작은 만큼만이동함으로써현재의해를 와같이갱신하는것이다. 이때 는벌점모수가되며보통반복수를아주크게놓고 를조절하여최종학습기의복잡도를조절함으로써과대적합을피하게된다. 축소추정을이용한부스팅방법은다음과같다. 1. 해를 로초기화하고아주작은 를선택한다. 2. 다음을수렴할때까지반복한다. (a) 에서기울기 를계산한다. (b) 에서가장가까운기저학습기 를다음과같이찾는다. arg. (c) 를 방향으로 만큼이동하여새로운해를구한다. 그래디언트부스팅알고리즘에서기본학습기의선택도최종학습기의복잡도에영 향을미친다. Friedman(2001) 은기본학습기의선택이함수에대한 ANOVA 분해에서

앙상블기법과신경망모형 59 교호작용차수의선택과동일함을간단한의사결정나무로설명하였다. 가장간단한의사결정나무인그루터기를기저학습기로사용하는경우를생각해보면주어진그루터기의구조는분리에사용된변수와분리기준값, 그리고두최종노드에서의예측값으로설명할수있다. 주어진그루터기 는다음수식과같이나타낼수있다. (Ⅴ-2) 여기서 는분리에사용된변수, 는분리기준값, 과 는두최종노드에서의예 측값이다. 반복수가 이고축소추정모수가 인그래디언트부스팅의최종학습기는다 음과같이나타낼수있다. 여기서 은 m 번째기본학습기의분기에사용된변수이다. (Ⅴ-3) 따라서최종학습기 에서변수 가미치는영향은다음과같이정리할수있다. (Ⅴ-4) (Ⅴ-5) 식 (Ⅴ-4) 이식 (Ⅴ-5) 가되는데, 이러한모형은일반화가법모형 (Hastie & Tibshirani 1990) 이다. 일반화가법모형은고차원함수의추정에많이사용되는모형으로서교호작용은존재하지않으며각변수들을적당한비선형함수들의가법모형으로표현된다. 가예측에미치는영향은성분 (Component) 를그려봄으로써시각적으로확인할수있다.

60 연구보고서 2018-16 다. 랜덤포레스트 (Random Forest) 랜덤포레스트는의사결정나무의분산이크다는특징을감안하여배깅과부스팅보다더많은무작위성 (Random) 을주어약한학습기들을생성한후이를선형결합하여최종학습기를만드는기법이다. 랜덤포레스트에대한이론적설명이나최종결과에대한해석은어렵다는단점이있지만예측력은매우높은방법으로알려져있다. 특히입력변수의개수가많을때에는배깅이나부스팅과비슷하거나더좋은예측력을보이는경우가많고, 조율모수가없어서실제자료분석에쉽게사용될수있다. 랜덤포레스트는무작위성을최대로주기위하여붓스트랩과더불어입력변수들에대한무작위추출을결합하기때문에연관성이약한학습기를여러개만들어내는기법이라할수있다. 1. 훈련자료 L R 에대하여 n 개를자료를이용한붓스트랩표본 L 을생성한다. 2. L 에서입력변수들중 개만무작위로뽑아의사결정나무를생성한 다. 이때의사결정나무는정해놓은 단계까지진행한다. 3, 이렇게생성된의사결정나무들을선형결합하여최종학습기를만든다. 여기에서붓스트랩표본을몇개나생성할것인지, 값을어떻게할것인지, 선형결합의형식을어떻게할것인지에대한여러가지선택이있다. 보통붓스트랩표본의개수는지나치게적어서는곤란하며, 선형결합의형식은각각의의사결정나무들의결과들에대하여회귀분석에서는평균, 분류문제에서는다수결원칙을적용하는방식이많이사용된다. 랜덤포레스트의이론적배경을분류문제에서살펴보자. 일반적으로분류문제에있어서는 0-1 손실함수를이용하지만, 랜덤포레스트에대한이론적설명에는마진함수 (Margin function) 와그에기반한랜덤포레스트의강도 (Strength) 를이용한다.

앙상블기법과신경망모형 61 먼저랜덤포레스트에사용된의사결정나무이모집단을 F( ) 로, 이모집단의의사결 정나무는 로표기하기로한다. 만약 ( 가 의분포 로부터생성된분포이고각각의분류함수 가투표방식으로분류를한다면, arg (Ⅴ-6) 이면잘못된분류를하게될것이다. 위의사실을이용하여랜덤포레스트 F( ) 의마 진함수, 예측오차, 강도를다음과같이정의할수있다. max (Ⅴ-7) 은결국 0-1 손실함수를이용한예측오차와동일하며, 은분류함수와과연얼마나큰마진으로분류하는가를나타낸다. 예를들면, 실제 가 1일때로지스틱회귀분석에의한 0과 1에대한확률추정값이각각 0.45, 0.55라고하자. 더높은확률을주는쪽으로분류한다면 0-1 손실은 0이며마진은 0.1이된다. 반대로 0과 1에대한확률추정값이각각 0.1, 0.9이면 0-1 손실은 0이며마진은 0.8이된다. 이두개의분류함수는 0-1 손실은같으나두번째분류함수가더좋은분류성능을갖는다고생각할수있으며, 이를측정한것이강도이다. 즉, 분류에있어서어느정도명확하게분류하는가를고려한것이 라고할수있다. 값은 [-1, 1] 에속하며그값이클수록분류를잘한다고할수있으나분류자체가분류경계근처에서만이루어지는경우 의값은작을수있다. 따라서분류를잘한다고해서반드시 가큰것은아니다.

62 연구보고서 2018-16 Breiman(2001) 은랜덤포레스트의성능에대하여다음과같이이론을설명하였다. arg (Ⅴ-8) 라하자. 아래의정리는앞에서정의한개념들에기반하여 의상한을구한것 이다. < 정리 3> 만약 이면 여기서, 는독립적으로 의분포를따르는 에대하여 (Ⅴ-9) 로정의된다. Pr 로놓으면 (Ⅴ-10) 로표현된다.

앙상블기법과신경망모형 63 여기서 의상환은다음과같이구할수있다. 여기서, 는 와분포가같으면서서로독립이다. 또한 이므로 이성립하며식 (Ⅴ-10) 으로부터식 (Ⅴ-9) 가성립함을보일수있다. 식 (Ⅴ-9) 로부터 는 값이크고 가작을때작은값을갖는다는것을알수있다. 특히 가작다는것은랜덤포레스트에서생성된의사결정나무들간에독립성이강하다는것으로생각할수있다. 따라서이경우에랜덤포레스트에서붓스트랩표본을뽑고임의로입력변수들을선택함으로써예측오차가줄어드는것이설명된다. 1) 부분의존성도표 일반적인회귀분석의경우에는예측에사용되는입력변수가 2 개이내이면적절한 그래프를통해입력변수의출력변수에대한영향이나중요도를쉽게확인할수있다.

64 연구보고서 2018-16 그러나변수의개수가많고의사결정나무, 부스팅, 랜덤포레스트와같이예측방법이단순하지않을경우에는각변수들의영향력을시각화하기가쉽지않다. 부분의존성도표 (Partial dependence plot) 는 Friedman(2001) 에의해제안된것으로서학습기에사용되는입력변수들중일부를골라내그것의영향력을시각화하는방법이다. R인입력변수를이용하는학습기 를생각해보자. 에대하여 를크기가 인 {1,...,p} 의부분집합이라하고, ={1,...,p} 이라하자. 이고 이라하면, 이때 의영향력을나타내는값으로다음을고려한다. (Ⅴ-11) 위의값은 의확률밀도함수 에대하여 (Ⅴ-12) 로표현된다. 이값을이용해시각화하는것이부분의존성도표로서 인경우에는 2차원그래프, 이면 3차원그래프로표현할수있다. 이가법모형이면 이므로 (Ⅴ-13) 인특성을가지고있다. 다음모형은 Friedman(2001) 의모의실험을조금수정한것이다. (Ⅴ-14) 여기에서 는서로독립이며 을따르고, 이고, 은

앙상블기법과신경망모형 65 을따르는 10 개의입력변수들중에서평균 2 인지수난수 에대하여 개를임의로뽑은것이다. 그리고 의구체적인함수형태는다음 과같다. exp (Ⅴ-15) 이며, 여기서 은입력변수들과같은분포를따르고, 로 은임의의직교행렬이며 이다. 이렇게생성된자료는가법모형보다복잡하며 2차이상의교호작용도포함하게된다. R의랜덤포레스트에서는변수에대한중요도지수를제공한다. 특정변수에대한중요도지수는그변수를포함하지않는경우에어느정도예측오차가줄어드는지를보여주는것이다. 2. 신경망모형 4) 생물학적신경망의구조에착안하여학습알고리즘으로개발된인공신경망모형 (Neural network) 은복잡한구조로이뤄진데이터의예측문제를해결하기위해주로사용되는비선형모형이다. 컴퓨터성능이개선되면서다층신경망과역전파 (Back propagation) 알고리즘이합쳐지면서신경망모형에대한응용된분야들이크게확장되어왔다. 하지만방법론이수학적으로정교할지라도실무자에게는결과가어떻게나오는지에대한소통가능성과그결과를바탕으로보험회사의정책수립에반영할수있는지가중요하다. 신경망이란것은매우높은예측력을보이나그에반해해석에대한어려움이존재하여해석이중요한분야중에하나인신용평가에서는잘사용되지않지만음성인식등에는응용되어사용되고있다. 본절에서는인공신경망모형의작동원리에초점을맞추도록한다. 4) 신경망모형방법론은 Hastie, Tibshirani & Friedman(2008) 과박창이 김용대 김진석 송종우 최호식 (2011) 을참고하여요약및정리하였음

66 연구보고서 2018-16 신경망모형은뉴런들을서로연결하여입력한값에대하여가장최적의결과값을예측하는것이기본적인작동원리이다. 생물학적신경망은시냅스가모여서전자가오면처음에는졸고있다가일정수준이상으로오게되면활성화되어입력된전자들을깨우는역할만하고, 새로운것을만들어서내보낸다. 이와유사하게인공신경망모형은입력변수를로짓변환하여 0과 1사이에값을가지면은닉노드를활성화시키고, 은닉노드에서출력함수를통하여출력변수를생성한다. 신경망은통계적인관점에서보면입력변수들이선형적으로결합되어있는것에비선형함수를취하는사영추적회귀 (Projection pursuit regression) 로볼수있다. 가. 단층신경망모형구조 < 그림 Ⅴ-1> 은연령을입력변수로하고발생건수를출력변수로이용한가장간단한신경망모형구조를보여준다. 신경망의구성은입력층 (Input layer), 은닉층 (Hidden layer), 출력층 (Output layer) 으로되어있다. 아래그림의입력층은각입력변수에대응되는노드로구성되며노드의수는입력변수의개수와같다. 아래그림에서 1이라고적혀있는노드는상수항을가리킨다. 입력층으로부터전달된변수값들의선형적결합을통해은닉층에서는비선형함수로처리하고, 출력층이나딥러닝의경우는다른은닉층에전달하는역할을한다. 출력층은출력변수에대응되는노드로서발생건수를출력변수로사용한다. 분류모형인경우에는클래스의수만큼의출력노드가생성된다. 신경망모형은주로한방향으로진행되는 feedforward 형태이다.

앙상블기법과신경망모형 67 < 그림 Ⅴ-1> 신경망모형간단한구조예시 위의그림을식을통해나타내면다음과같다. 은닉노드의값은입력노드의선형결 합으로이루어진다. (Ⅴ-16) 는시그모이드함수 (Sigmoid function) 로다시쓰면다음의식과같고 0 에서 1 사이의값을갖는다.. (Ⅴ-17) 출력값은은닉노드들의선형결합 의함수로모형화한다. 은항등함수로쓰이는경우가많다. (Ⅴ-18) 나. 다층신경망모형 ( 딥러닝 ) 구조 위에서는이해를돕기위해가장간단한신경망모형의식을살펴보았다면여기서는

68 연구보고서 2018-16 일반화된식을통해클래스의수가 인분류문제를바탕으로모형을살펴본다. 출력노드 에서는자료가 번째클래스에속할때는출력변수가 1이고나머지는 0으로코딩하는방식으로클래스 에속할확률을모형화한다. 회귀문제는 인경우에해당된다. 즉, 출력노드가하나라는뜻이다. < 그림 Ⅴ-2> 신경망모형구조 출처 : The elements of statistical learning, p.394 은닉노드값 은입력노드값들의선형결합이고출력값은 들의선형결합 들 의함수로다음과같이모형화한다. (Ⅴ-19) (Ⅴ-20) (Ⅴ-21) 여기서 이고 이다. 여기서 는활성함수 (Activation function) 이고, 시그모이드 (Sigmoid) 함수를 주로사용한다. 원래는노드의활성화유무를표시하기위해 step function 을사용하

앙상블기법과신경망모형 69 려하였으나미분이불가능하여그와비슷한시그모이드함수를사용한다. 시그모이드 함수는단극성과양극성으로나뉘며, 단극성시그모이드함수는다음과같이정의되는 증가함수로 0 과 1 사이의값을갖는다. (Ⅴ-22) < 그림 Ⅴ-3> 시그모이드함수 양극성시그모이드함수는다음과같이정의되며출력값은 1 과 1 사이의값을갖으 며, 이다. (Ⅴ-23) 그리고 RBF(Radial Basis Function)(exp ) 를활성함수로사용하는경우에는 RBF 신경망이라고한다. 는출력함수 (Output function) 이고, 이출력함수는출력값 를최종적인비선형으로변환해주는역할을하는함수이다. 회귀에서는 인항등함수 (Identity function) 가사용되고 -클래스분류에서는 softmax 함수가다음과같이사용된다. softmax 함수는항상양의값을갖고, 합이 1이되며, 다범주로지스틱회귀에서도많이활용되고있다.

70 연구보고서 2018-16 (Ⅴ-24) 다. 다층신경망의적합 신경망모형은미지의가중치 (Weights) 모수들로구성되어있다. 개와 개의가중치를 로나타낸다. 회귀문제에서는식 (Ⅴ-10) 과같이비용함수로서오차제곱합을사용하고, 분류문제에서는비용함수로서오차제곱합이나 deviance를사용하며 arg 를이용하여분류한다. (Ⅴ-25) log (Ⅴ-26) 의비선형성특성으로인해전역최솟값 (Global Minimizer) 을구하는것은불가능하기때문에과대적합을불러일으킬수있다. 따라서전역최솟값을구하는것대신에좋은국소최솟값을구하기위해직접적인벌점화나알고리즘의조기종료 (Early stopping) 등의간접적인벌점화를결합하는방법을사용한다. 신경망에서는 를최소화하는 를찾기힘든경우에사용하는대표적인반복알고리즘으로기울기강하 (Gradient descent) 알고리즘을적용하는역전파를사용한다. 모형의구성으로인해기울기를 chain rule을통한미분으로쉽게얻을수있다. 다음은오차제곱합을비용함수로사용하는경우에대한역전파알고리즘이다. 와 라하자.

앙상블기법과신경망모형 71 그러면 진다. 이고편도함수는다음과같이주어 (Ⅴ-27) 번째반복의값이주어지면다음과같이 번째업데이트값을조정한다. (Ⅴ-28) 여기서 은학습률 (Learning rate) 이라고부른다. 식 (Ⅴ-13) 에서 와 라하면, 와 는각각입력층과은닉층에서의현재모형의오차로볼수있다. 이러한오차들은다음의역전파등식을만족시킨다.. (Ⅴ-29) 식 (Ⅴ-14) 를이용하면식 (Ⅴ-13) 의업데이트를다음과같이구현할수있다. 전방패스 (Forward pass) 에서는주어진가중값에대하여모형으로부터예측값 를계산한다. 후방패스 (Backward pass) 는오차 를계산하고식 (Ⅴ-13) 을이용하여역전파시켜서오차 를계산한다. 두오차는업데이트를위해기울기를계산하기위해쓰인다. 이러한알고리즘은역전파알고리즘또는델타규칙 (Delta rule) 이라한다. deviance 를목적함수로사용할때역전파알고리즘에서도이와같은방법으로유도하면된다.

72 연구보고서 2018-16 라. 신경망모형구축시고려사항 1) 초기값 역전파알고리즘의초기값결과에영향을많이주므로초기값의선택은매우중요한문제이다. 보통은 0 근처에서초기값이무작위하게선택되기때문에초기모형은선형모형에가깝지만가중치값이증가하면서비선형모형이된다. 초기값이 0과정확하게일치할경우에는반복에따라결과값이전혀변하지않는다. 그러나초기값이너무큰값에서부터시작하게되면좋지않은해를얻을수도있다는문제점이있음에유의해야겠다. 2) 과대적합문제 신경망에서는많은가중치를추정해야하기때문에그만큼과대적합문제가빈번히이슈가된다. 과대적합을피하기위해서는알고리즘의조기종료와가중치감소기법등이주로이용된다. 첫째, 조기종료라는것은모형을적합하는과정에서검증오차가증가하게되면반복을중지하는것이다. 앞서설명한것과같이초기값은선형모형에가까운형태이기때문에이러한조기종료는최종모형을선형모형으로축소시키는효과가있다. 둘째, 가중치감소기법은선형모형의능형회귀와유사한벌점화기법이다. 이기법은벌점화된목적함수식 (Ⅴ-30) 을최소화한다. 여기서식 (Ⅴ-31) 을사용하기도한다. (Ⅴ-30) (Ⅴ-31) 가중치제거방법은가중치감소보다작은계수값들을더욱줄여주는효과가있다.

앙상블기법과신경망모형 73 3) 입력변수 첫째, 신경망모형은모형자체가복잡하기때문에입력자료의선택에매우민감하게반응한다. 신경망모형에적합한자료는다음과같다. 입력변수가범주형일경우는모든범주에서일정빈도이상의값을갖는자료이고, 연속형일경우는변수들간에값들의범위가큰차이가없는자료이다. 그리고입력변수의수가너무적거나많지않고, 범주형출력값의각범주의빈도가비슷한자료이다. 둘째, 신경망모형에서고려할사항은연속형입력변수의변환또는범주화이다. 연속형변수는분포가평균을중심으로비대칭일경우에는결과가좋지않을수있다. 예를들어, 사고금액분포는일반적으로는대부분의계약자사고금액들이평균미만이고, 일부특정한계약자의사고금액은매우큰패턴을보이기도한다. 따라서이러한분포를보이는변수의경우에는분포가평균을중심으로대칭이되도록로그변환등을고려해볼수있다. 그리고또다른방법으로는연속형변수를범주화하는방법도있다. 셋째, 새로운변수의생성이다. 때로는최초의입력변수들을그대로사용하는대신조합하여새로운변수를생성하여입력변수로사용할경우아주좋은결과를얻을수있다. 예를들면, 고객의수입, 학력등을입력변수로그대로사용하지않고이러한변수들을이용하여구매지수를만든후에이구매지수를입력변수로사용하여특정한상품의구매여부를예측해볼수있다. 마지막으로범주형입력변수의가변수화이다. 회귀분석에서와같이신경망에서도범주형변수는가변수로만들어사용한다. 회귀분석과의차이점은신경망모형에서는가변수로설정하는방법에따라서결과가민감하게반응한다는점에유의해야한다. 예를들어, 남자와여자를각각 0과 1로가변수화하는것은각각 1과 1로가변수화하는것과그결과가예상과많이달라질수있다는것이다. 따라서일반적으로모든범주형변수를가변수화할때는같은범위를갖도록하는것이바람직하다.

74 연구보고서 2018-16 4) 은닉층과은닉노드의수 신경망을적용할때직면하는주요한문제들중하나는모형선택, 다시말해은닉층의수와은닉노드의수를결정하는것이다. 은닉층과은닉노드의수가너무많아지면추정할모수인가중치들이너무많아지기때문에과대적합문제가발생할수있다. 그러나반대로너무적으면과소적합의문제가발생할수도있다. 은닉층이하나인신경망은범용근사자 (Universal Approximation) 이다. 그러므로일반적으로신경망모형을적용할때는은닉층을하나로하고, 은닉노드수를적절히선택하게되면큰문제가발생하지않을것이다. 둘째은닉노드의수는교차확인오차를사용하여결정하는방법보다는적절히큰값으로놓은후에가중치감소 (Weight decay) 라는모수에대한벌점화를적용하는것이좋다. 5) 다중최솟값 신경망에서는일반적으로비용함수 는비볼록함수이고여러개의국소최솟값들 (Local minima) 을가진다. 따라서무작위로선택된여러개의초기값들에대하여신경망을적합한후얻은해들을비교하여가장오차가작은것을선택하여최종예측치를얻거나예측값의평균이나최빈값을구한후에최종으로예측치를선택하는방법을고려해볼수있다. 그리고또다른방법으로는훈련자료에대하여신경망을기저학습법으로사용하는배깅 (Bagging) 을적용하는방법이있다.

앙상블기법과신경망모형 75 3. 실손의료보험자료를활용한신경망모형분석 가. 신경망모형 1) 빈도 연령, 상해급수, 성별그리고직전연도발생건수를독립변수, 즉입력변수로하고 16 년도발생건수를출력변수 (Output) 로모델링한다. 신경망모형은앞서한다른모델 링과다르게성별과상해급수와같은입력변수는가변수화하여넣는다. < 그림 Ⅴ-4> 빈도신경망모형은닉노드 =1 개 입력변수들의가중치들은선형결합하여은닉노드와연결된다. 식 (Ⅴ-32) 에서은닉노드는시그모이드함수로인해 0에서 1 사이의값을갖는다. 다시 값은식 (Ⅴ-33) 값에대입하여출력변수를산출한다. 연령변수의계수값이크고또한연령입력변수의값이크므로 은 1에가까운값을갖는다. 이는은닉노드가활성화되었다고볼수있다.

76 연구보고서 2018-16 < 표 Ⅴ-1> 빈도신경망모형가중치은닉노드 =1개 시작점 종료점 가중치 B1 H1-0.6344 I1 H1 0.6485 I2 H1 0.0932 I3 H1 0.2183 I4 H1-0.0048 I5 H1 0.3300 I6 H1 0.1634 I7 H1-0.6946 B2 O1-0.7759 H1 O1-0.3356 < 그림 Ⅴ-5> 빈도신경망모형은닉노드 =2 개 (Ⅴ-32) (Ⅴ-33) 신경망모형은모델링할때가중치들의초기값을설정해줄수도있고혹은랜덤하 게할수도있다. 랜덤하게나온모형과동일한모형을나오게하려면 set.seed( ) 함수 를모델링하기전에써주면된다.

앙상블기법과신경망모형 77 < 표 Ⅴ-2> 빈도신경망모형가중치은닉노드 =2개 시작점 종료점 가중치 시작점 종료점 가중치 B1 H1-0.1202 B1 H2-0.6064 I1 H1 0.1648 I1 H2-0.3030 I2 H1-0.4940 I2 H2-0.2408 I3 H1 0.5561 I3 H2-0.1911 I4 H1-0.5261 I4 H2 0.6420 I5 H1 0.6778 I5 H2 0.1245 I6 H1 0.1751 I6 H2 0.2736 I7 H1-0.2249 I7 H2-0.4935 - - - B2 O1-832.9959 - - - H1 O1-832.7232 - - - H2 O1-0.0340 < 그림 Ⅴ-5> 는은닉노드가두개인신경망모형이다. 은닉노드가 < 그림 Ⅴ-4> 에비해 하나추가되었음에도불구하고복잡한모형을띈다. 2) 심도 신경망모형은입력변수에민감하게반응하기때문에연속형일경우는변수들간에차이가많이없는것을사용해야한다. 본연구에서사용하고있는심도의데이터는빈도의데이터에비해범위가넓다. 따라서자료를그대로넣으면모형이수렴하지않으므로정규화과정을거치는것이바람직하다.

78 연구보고서 2018-16 < 그림 Ⅴ-6> 심도신경망모형은닉노드 =1 개 < 표 Ⅴ-3> 심도신경망모형가중치은닉노드 =1개 시작점 종료점 가중치 B1 H1-0.3008 I1 H1-0.6138 I2 H1-0.4094 I3 H1-0.4986 I4 H1-0.2651 I5 H1 0.3421 I6 H1 0.0010 I7 H1-0.3332 B2 O1 6231.6896 H1 O1 0.4335 심도데이터는자료의최솟값을빼주고자료의최댓값과최솟값의차이로나누어 줘서정규화하는방법으로모델링한다. 입력변수는빈도와마찬가지로가변수화하여 넣어준다.

앙상블기법과신경망모형 79 < 그림 Ⅴ-7> 심도신경망모형은닉노드 =2 개 < 표 Ⅴ-4> 심도신경망모형가중치은닉노드 =2개 시작점 종료점 가중치 시작점 종료점 가중치 B1 H1 0.6605 B1 H2-0.5081 I1 H1-0.5827 I1 H2-0.4308 I2 H1 0.5234 I2 H2 0.1625 I3 H1-0.2391 I3 H2 0.4895 I4 H1-0.3888 I4 H2 0.0038 I5 H1-0.1377 I5 H2 0.3337 I6 H1-0.5985 I6 H2 0.5270 I7 H1-0.6966 I7 H2 0.4009 - - - B2 O1 5808.0587 - - - H1 O1-0.5730 - - - H2 O1 0.1317 나. 다차원신경망모형 ( 딥러닝 ) 신경망모형의은닉층이 2층이상일때를딥러닝 (Deep learning) 이라고한다. 다른장에서봤던모형들보다훨씬많은모수들이추정된다. 이것은신경망모형이해석력이떨어지고흔히모형안이블랙박스라고부르는이유이다. 중간과정을해석하기는쉽지않고다만입력변수와그에따른출력변수가계산된다.

80 연구보고서 2018-16 < 그림 Ⅴ-8> 딥러닝모형빈도예시 < 그림 Ⅴ-9> 딥러닝모형심도예시

앙상블기법과신경망모형 81 딥러닝모형은 nnet 패키지에서는구현하기어렵고 neuralnet 패키지에서모델링할수있다. R 패키지에서제공하는것은 fully connected된모형인데 tensorflow 나 keras와같은오픈소스에서는그렇지않은모형에대해서계산이가능하다. fully connected가아닌모형의가중치들에는제한을주는데이는매우복잡하여역전파알고리즘을못쓰게된다. 즉, 그래디어트계산이어려워지는데이것을해결해주는것이 tensorflow나 keras와같은오픈소스이다. 이는본연구의범위를넘어가는주제로관심이있다면아래웹사이트를방문하는것을추천한다. (https://tensorflow.rstudio.com/)