Similar documents
1. 연구배경및목적 과거금융위기등의주요발생원인으로신용위험에지목되면서, 대출차주의부실을선제적으로예측하는방법론은그간꾸준하게발전되어왔다. 하지만글로벌화, 기술의발전, 산업구조변화등의원인으로기업경영환경이급속하게변화함에따라신용부실 ( 부도 ) 사건은여전히자주발생하고있다. 특히기

조사보고서 구조화금융관점에서본금융위기 분석및시사점


빅데이터_DAY key

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

PowerPoint 프레젠테이션

untitled

Àç°¡ »êÀçÀå¾ÖÀÎÀÇ ÀçÈ°ÇÁ·Î±×·¥¿¡ °üÇÑ¿¬±¸.HWP

PowerPoint 프레젠테이션

<B3EDB4DC28B1E8BCAEC7F6292E687770>

슬라이드 1

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

동아시아국가들의실질환율, 순수출및 경제성장간의상호관계비교연구 : 시계열및패널자료인과관계분석

<BFDCB1B9C0CE20C5F5C0DAB1E2BEF7C0C720B3EBBBE7B0FCB0E82E687770>



슬라이드 1

13Åë°è¹é¼Ł

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

외국인투자유치성과평가기준개발

목 차 Ⅰ. 조사개요 1 1. 조사배경및목적 1 2. 조사내용및방법 2 3. 조사기간 2 4. 조사자 2 5. 기대효과 2 Ⅱ. P2P 대출일반현황 3 1. P2P 대출의개념 3 2. P2P 대출의성장배경 7 3. P2P 대출의장점과위험 8 4. P2P 대출산업최근동향

딥러닝 첫걸음

°æÁ¦Àü¸Á-µ¼º¸.PDF

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

그린홈이용실태및만족도조사

장애인건강관리사업

MRIO (25..,..).hwp

UDI 이슈리포트제 18 호 고용없는성장과울산의대응방안 경제산업연구실김문연책임연구원 052) / < 목차 > 요약 1 Ⅰ. 연구배경및목적 2 Ⅱ. 한국경제의취업구조및취업계수 3 Ⅲ. 울산경제의고용계수 9

목차 < 요약 > Ⅰ. 국내은행 1 1. 대출태도 1 2. 신용위험 3 3. 대출수요 5 Ⅱ. 비은행금융기관 7 1. 대출태도 7 2. 신용위험 8 3. 대출수요 8 < 붙임 > 2015 년 1/4 분기금융기관대출행태서베이실시개요

목 차 Ⅰ. 사업개요 5 1. 사업배경및목적 5 2. 사업내용 8 Ⅱ. 국내목재산업트렌드분석및미래시장예측 9 1. 국내외산업동향 9 2. 국내목재산업트렌드분석및미래시장예측 목재제품의종류 국내목재산업현황 목재산업트렌드분석및미래시

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

<5B33B9F8B0FAC1A65D20B9E6BCDBBDC9C0C7BDC3BDBAC5DB20B0B3BCB1B9E6BEC8BFACB1B82DC3D6C3D6C1BE2E687770>

2013 년도연구용역보고서 중소기업정책자금지원의경기대응효과분석 이연구는국회예산정책처의연구용역사업으로수행된것으로서, 보고서의내용은연구용역사업을수행한연구자의개인의견이며, 국회예산정책처의공식견해가아님을알려드립니다. 연구책임자 한남대학교경제학과교수황진영

에듀데이터_자료집_완성본.hwp

09 강제근로의 금지 폭행의 금지 공민권 행사의 보장 중간착취의 금지 41 - 대판 , 2006도7660 [근로기준법위반] (쌍용자동차 취업알선 사례) 11 균등대우의 원칙 43 - 대판 , 2002도3883 [남녀고용평등법위

[NO_11] 의과대학 소식지_OK(P)


저작자표시 - 비영리 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 이차적저작물을작성할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물

KDI정책포럼제221호 ( ) ( ) 내용문의 : 이재준 ( ) 구독문의 : 발간자료담당자 ( ) 본정책포럼의내용은 KDI 홈페이지를 통해서도보실수있습니다. 우리나라경

2005 중소기업 컨설팅 산업 백서

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

C# Programming Guide - Types

G Power

붙임2-1. 건강영향 항목의 평가 매뉴얼(협의기관용, '13.12).hwp

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

< B3E22032BAD0B1E220C4DCC5D9C3F7BBEABEF7B5BFC7E2BAD0BCAEBAB8B0EDBCAD28C3D6C1BE292E687770>

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

슬라이드 1

대한주택보증 ( 주 ) 대한주택보증

<5BC6EDC1FD5DBEEEBEF7C0CCC1D6B3EBB5BFC0DAC0CEB1C7BBF3C8B2BDC7C5C2C1B6BBE7C3D6C1BEBAB8B0EDBCAD28BAB8C0CCBDBABEC6C0CC292E687770>

보고싶었던 Deep Learning과 OpenCV를이용한이미지처리과정에대해공부를해볼수있으며더나아가 Deep Learning기술을이용하여논문을작성하는데많은도움을받을수있으며아직배우는단계에있는저에게는기존의연구를따라해보는것만으로도큰발전이있다고생각했습니다. 그래서이번 DSP스마

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할


INDUS-8.HWP

CONTENTS.HWP

김기남_ATDC2016_160620_[키노트].key

<3036C7E2BCF6C3D6C1BEBABB2E687770>

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

170918_hjk_datayanolja_v1.0.1.

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

분석기법의기본개념부터활용까지사례중심의 A to Z 학습 데이터분석기본 교육기간 : 3 일 (24 시간 )/ 비합숙 교육비 : 회원 62 만원 / 비회원 69 만원 데이터분석핵심이론학습및현업에적용 현장에서발생하는변수를이해하고상황에따른최적화방안도출 품질향상을위한부적합원인도

04 Çмú_±â¼ú±â»ç

2001 년 4 월전력산업구조개편과함께출범한전력거래소는전력산업의중심 기관으로서전력시장및전력계통운영, 전력수급기본계획수립지원의기능을 원활히수행하고있습니다. 전력거래소는전력자유화와함께도입된발전경쟁시장 (CBP) 을지속 적인제도개선을통해안정적으로운영하고있으며, 계통운영및수급

<3235B0AD20BCF6BFADC0C720B1D8C7D120C2FC20B0C5C1FE20322E687770>

R을 이용한 텍스트 감정분석

BIS Solvency (RBC) Solvency. Solvency,. Solvency.

[11하예타] 교외선 인쇄본_ver3.hwp

연구요약 1. 서론 연구의 목적 본 연구는 청소년 교육정책의 바람직한 방향을 설정하고, 미래지향적인 정책과제와 전략, 그리고 비전을 도출하기 위해 수행되었다. 이를 위해 지 난 15년간의 청소년 교육 환경 및 정책의 변화를 분석하고, 향후 15년간 의 청소년 교육 환경

<4D F736F F D20302EC0CEC6AEB7CE2BC1BEB8F1B8AEBDBAC6AE2BBCBAB0FA BCBAB0FABEF7B5A5C0CCC6AEBFCFB7E1292E646F6378>

Ch 1 머신러닝 개요.pptx

<BBE7C8B8C0FBC0C7BBE7BCD2C5EBBFACB1B820C3D6C1BEBAB8B0EDBCAD2E687770>

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

ePapyrus PDF Document

iOS ÇÁ·Î±×·¡¹Ö 1205.PDF

< BACFC7D1B1B3C0B0C1A4C3A5B5BFC7E228B1E2BCFABAB8B0ED D D20C6EDC1FD2035B1B32E687770>

Microsoft Word - PLC제어응용-2차시.doc

Layout 1

05 ƯÁý



소성해석

정책연구개발사업 2010-위탁 대학 등록금의 합리적 책정을 위한 실행방안 연구 연 구 책 임 자 공 동 연 구 자 송동섭(단국대학교) 이동규(충남대학교) 이창세(재능대학) 한창근(인하공업전문대학) 연 구 협 력 관 장미란(교육과학기술부) 교육과학기술부 이 연구는 201


교육정책연구 2005-지정-52 공무원 채용시험이 대학교육, 노동시장에 미치는 영향분석 및 공무원 채용제도 개선방안 연구책임자 : 오 호 영 (한국직업능력개발원 부연구위원) 이 정책연구는 2005년도 교육인적자원부 인적자원개발 정책연구비 지원에 의 한

김경재 안현철 지능정보연구제 17 권제 4 호 2011 년 12 월

<C1A4C3A5BFACB1B D3420C1A4BDC5C1FAC8AFC0DAC0C720C6EDB0DFC7D8BCD220B9D720C0CEBDC4B0B3BCB1C0BB20C0A7C7D120B4EBBBF3BAB020C0CEB1C720B1B3C0B020C7C1B7CEB1D7B7A520B0B3B9DF20BAB8B0EDBCAD28C7A5C1F6C0AF292E687770>

이후, Altman * 의부도예측모형연구를시작으로평가자주관에의한오류가능성을최소화하고평가과정을표준화, 객관화하기위해통계방법론에의한신용평가모형개발이본격화 * Altman(1968), Financial ratios, Discriminant Analysis and The Pr


국도_34호선(용궁~개포)건설사업_최종출판본.hwp


뉴스평가지수의개발과적용

지역온천수의농업활용타당성연구

2002report hwp

PowerPoint 프레젠테이션

ICT À¶ÇÕÃÖÁ¾


세계 비지니스 정보

viii 본 연구는 이러한 사회변동에 따른 고등직업교육기관으로서 전문대 학의 역할 변화와 지원 정책 및 기능 변화를 살펴보고, 새로운 수요와 요구에 대응하기 위한 전략으로 전문대학의 기능 확충 방안을 모색하 였다. 연구의 주요 방법과 절차 첫째, 기존 선행 연구 검토

정치

Transcription:

KIF Working Paper 2017-08 빅데이터를이용한딥러닝기반의기업부도예측연구 오세경 * 최정원 ** 장재원 *** * 건국대학교경영학과교수, E-mail: skoh@konkuk.ac.kr ** 건국대학교경영학과박사과정, E-mail: garden31@gmail.com *** 고려대학교의학통계학과석사과정, E-mail: jeawonlll@naver.com

목차 요약 Ⅰ. 연구배경및목적 1 Ⅱ. 빅데이터및인공지능의금융관련분야활용현황 5 1. 빅데이터및인공지능의발전 5 가. 빅데이터 6 나. 빅데이터의수집및관리 8 다. 인공지능기법 9 2. 빅데이터및인공지능의금융산업활용 12 가. 소매금융시장의빅데이터혁명 12 나. 빅데이터및인공지능도입에따른신용평가발전현황 15 다. FICO 의 AI활용신용평가모형개선사례 16 라. 핀테크산업의빅데이터와인공지능활용 17 3. 빅데이터및인공지능도입한계요인 19 Ⅲ. 부도예측연구방법론 21 1. 선행연구 21 가. 기업부도예측연구 21 나. 빅데이터기법을활용한관련분야연구 23 다. 인공지능기법을활용한관련분야연구 25 2 연구방법론 27 가. 분석데이터정의 27 나. 예측방법론 29 다. 텍스트계량화방법론 41 3. 모형의예측력평가방안 45

가. 모형예측력평가지표 45 나. 모형평가강건성증대방안 46 Ⅳ. 실증분석 48 1. 부도사건의정의 48 2. 데이터수집및정제 49 가. 분석대상기업정의 49 나. 텍스트데이터수집 50 다. 부도기사비율및부도유사도산출결과 51 라. 데이터수집결과요약및데이터세트 (set) 적용방안 56 3. 연간예측모형 58 가. 방법론별최적예측모형도출 58 나. 예측모형성과분석 59 4. 월간예측모형 63 가. 예측모형설계 63 나. KMV 모형산출결과 64 다. 텍스트정보기반예측모형산출결과 65 라. KMV 와텍스트정보기반예측모형비교 66 Ⅴ. 결론및시사점 73 <Appendix 1 변수정의 > 75 <Appendix 2 텍스트변수정제과정 ( 예시 )> 77 참고문헌 79

표목차 < 표 1> 기업부도예측을위한원천정보구분및특성 27 < 표 2> 뉴스텍스트수집대상언론매체 29 < 표 3> 기업부도예측방법론요약 30 < 표 4> 이진분류모형의예측정확도지표산출방법 45 < 표 5> 분석대상기업 49 < 표 6> 총뉴스기사수연간추이및합계 51 < 표 7> Word2vec 유사도산출결과 52 < 표 8> 부도연관기사및부도기사비율연간추이 53 < 표 9> 정상기업과부도기업의부도기사비율평균비교 54 < 표 10> 부도연관기사및부도기사비율연간추이 55 < 표 11> 정상기업과부도기업의부도유사도평균비교 55 < 표 12> 모형적용데이터세트요약 56 < 표 13> 각모형의세부적용방안및산출모형적합도평가방법 58 < 표 14> 모형별예측정확도산출결과 (SET A) 60 < 표 15> 모형별예측정확도산출결과 (SET B) 61 < 표 16> 예측모형의오류구분 69 < 표 17> 월간각모형예측수행결과예시 [ 부도시점기준 M-1개월 ] 70 < 표 18> 월간모형예측제1, 2종오류산출결과 71

그림목차 < 그림 1> 빅데이터혁명의기반 6 < 그림 2> 빅데이터의 3 요소 7 < 그림 3> 인공지능과머신러닝, 딥러닝개념 11 < 그림 4> 소매금융시장의빅데이터활용현황 13 < 그림 5> 미국개인신용등급현황 14 < 그림 6> 핀테크산업의빅데이터및인공지능도입현황 18 < 그림 7> 시장별산업별헤저드 ( 생존 ) 함수산출결과 33 < 그림 8> DNN 체계구성개념 37 < 그림 9> RNN 체계구성개념 37 < 그림 10> Word2vec 방법론비교 42 < 그림 11> 연도별부도기업추이 50 < 그림 12> 부도발생 12개월전 D.D. 평균추이 64 < 그림 13> 부도발생 12개월전부도기사비율추이 65 < 그림 14> 부도발생 12개월전부도유사도 ( 평균, 기사단위평균 ) 추이 66 < 그림 15> 부도기사비율과 D.D. 의비교 67 < 그림 16> 부도유사도와 D.D. 의비교 68

요약 Ⅰ. 연구배경및목적 부도예측모형은금융산업에서항상중요한과제로인식되어지속적으로발전하여왔으나여전히중요한연구과제로인식되고있음. 부도예측모형은그간의많은연구로정확도가많이향상되었으나. 거시경제여건, 기업경영환경등이급속하게변화하여부도기업에대한정확한예측은여전히어려운과제임. 과거의많은연구는기업에대한재무정보와시장정보를기반으로부도예측을수행 재무정보는가장객관적이고세부적인기업에대한정보임. 하지만데이터생성주기가상대적으로길어 ( 연도, 분기 ) 부도예측의적시성이떨어지는근원적인한계가있음. 시장정보는유가증권시장참여자에의하여기업에대한정보가가장빠르게반영된다는장점이있음. 하지만유가증권시장상장기업만활용이가능하고, 주가에영향을주는다른요인에대하여영향을통제하지못하는단점이있음. IT 기술및데이터분석기법, 인공지능기법의발달로인하여 새로운데이터원천인뉴스정보를부도예측과정에활용할 - i -

수있음. 빅데이터연구분야에활용되는텍스트마이닝과인공지능기법을활용하여텍스트정보를측정가능한변수로계량화하는방법적용 뉴스정보는기업에대한가장빠른정보원천중하나로기업부실의징후를사전적으로알수있는정보로서충분한가치가있음. 본연구는기존의연구를기반으로부도예측과정에서 1) 뉴스텍스트와같은새로운정보원천이적용에따라부도예측력을높일수있는지, 2) 인공지능 ( 딥러닝 ) 기법과같은새로운방법론이기존의방법론에비하여예측성능이향상되는지두가지측면을중점적으로연구 Ⅱ. 빅데이터및인공지능의금융관련분야활용현황 빅데이터및인공지능분야는활용가능한데이터의확대와 IT 기술혁신을기반으로발전 1) 분석가능한데이터양의급격한증가, 2) 복잡하고방대한데이터분석을위한방법론의발전, 3) 컴퓨터과학의진화 빅데이터는데이터의크기 (Volume) 가크고, 분석과정에서실시간에준하는빠른속도 (Velocity) 및데이터의원천이매우다양 (Variety) 한특성을가지고있음 빅데이터는정보원천에따라개인정보, 비즈니스정보, 센서에의한정보로구분 - ii -

금융산업또한빅데이터가여러경로를통하여수집및관리되고있음. 금융산업의주요데이터원천은증권거래소등의자본시장과금융감독기관과같은공공기관의공시데이터임. 금융관련데이터는대부분시간의흐름에따라입력되어관리되는시계열 (Time-Series) 데이터의형태가많음. 최근에는데이터수집주기를매우짧은기간으로설정하여시계열데이터발생빈도를크게늘린고빈도 (high-frequency) 데이터도많이활용됨. 금융데이터수집과정에서금융위기기간은반드시별도로고려되어야함. 금융위기기간의데이터가정상적기간의데이터와구분되지않는경우경우완전히다른분석결과를얻을수있음. 기존의활용되지못하던신규생성데이터의확보로데이터확장도가능하지만, 이미존재하고있는이종데이터간의결합을통해서도데이터가확대되는효과를얻을수도있음. 수집된데이터는분석방법에따라필요한정제작업을거쳐데이터분석과정에활용됨. 인공지능은새로운개념은아니지만, 최근매우큰관심을받고있고매우급속하게발전하는분야임. 인공지능은인간이지정한방법에따라학습하여의사결정을수행하는 지도학습 과컴퓨터가스스로경험한내용에대하여학습을할수있도록설계하는 비지도학습 으로구분 인공신경망이론을기반으로복잡한비선형문제를 비지도 - iii -

학습 방식으로해결하는방법을 딥러닝 으로기존의 머신러닝 분야와구별하고있음. 하지만이러한구분은절대적인기준은아님. 인공지능관련시장규모는연평균 44% 의성장중에있으며, 2020년에는전세계적으로약 240조원의시장규모를형성할것으로예측 ( 일본 EY 연구소 ) 국내또한인공지능시장은 2020년에 2.2조원, 2030년 27.5조원시장으로급격한성장이예상되고있음 (KT 경영연구소 ). 빅데이터는복잡하고방대한양의데이터를기반으로발전된기법이므로소매금융데이터분석에활용효과가높음. 소매금융은개인및소규모기업고객을대상으로하는금융서비스로서, 기업고객에비하여상대적으로데이터의양이많으며다양한속성이복잡하게나타나는특성이있음. 기존의고객이제공하던데이터의수집을넘어서, 고객에대한정보를직 / 간접적으로확보하는방향으로정보원천을확대함. 소매금융부문중본연구와관련된 신용평가 부분은가장빅데이터가활발하게활용되는분야중하나임. 인공지능알고리즘은신용평가모형의예측성능을개선하기위한목적으로활용도가증가하고있음. 미국의 제스트파이낸스 는 1만개이상의대용량변수를신용평가모형에활용 - iv -

독일의 크레디테크, 홍콩의 렌도, 일본의 소프트뱅크, 미즈호뱅크 등도비슷한수준 미국 FICO 는인공지능의도입으로신용평가모형에비선형변수의반영, 다양한변수결합에의한고객특성반영등으로 10~25% 의모형개선효과가있다고보고 미국및글로벌핀테크업체를중심으로신용평가및금융기관운영과정에서인공지능을다양하게활용하고있음. 국내의경우여러기관이현재의신용평가모형을인공지능을활용하여개선하고있으나아직은선도적인결과를보고하는기관을찾기어려움. 빅데이터및인공지능도입은비용증가, 예측결과해석의어려움, 평가모형의신뢰성부족및관련규제미비등의한계요인도가지고있음. 데이터의확보, 처리, 분석등에시간, 인원, 컴퓨터하드웨어등의추가비용요인발생 전통적인통계분석기법과달리예측결과에대한원인분석이쉽지않음. 과거모형에비하여구축및적용된기간이길지않아, 아직은신뢰성에대한의문존재 관련산업에대한규제가많아관련산업발전의장애요인으로작용중 - v -

Ⅲ. 부도예측연구방법론 1. 선행연구 Altman(1968) 의다변량판별분석과 Ohlson(1980) 의로짓모형으로대표되는전통적인기업부도예측연구는다양한방법론을적용하여예측성과를높이는방향으로발전하여왔음. McQuown(1993) 은자본시장의시장가격을바탕으로옵션가격평가모형을적용하여기업의부도위험수준인 EDF (Expected default frequency) 를측정하는모형 (KMV 모형 ) 을제시 오세경 (2001) 은국내기업을대상으로로짓 (Logit) 모형을이용한다변량판별분석과함께옵션가격평가모형을이용하여 EDF의시간별변화추이를분석 각각부도예측과정에활용되던재무정보와시장정보는두원천을통합하여부도예측력을높일수있는방법에대한연구로발전 Shumway(2001) 가회계정보와시장정보를헤저드모형으로통합하여부도예측력을높일수있는방법을처음제안 Campbell et al(2008) 또한회계모형과시장정보를결합한헤저드모형이기존의각각의모형보다부도예측력이우수하다는것을실증 이인로 김동철 (2015), 최정원 오세경 (2016) 은국내기업 - vi -

을대상으로재무정보와시장정보를통합하면기존의모형보다예측력이우수한것을실증 Nam et al(2008) 은시간가변적인 (Time-varying) 헤저드모형을사용하여재무정보와시장정보및거시경제정보가기업의부도예측가능성을높일수있음을실증 빅데이터를활용한예측모형연구는최근관련분야의대내외적인관심증가로인하여폭발적으로증가하고있음. 배상진 박철균 (2003), 김근형 오성렬 (2009) 등은텍스트마이닝및텍스트데이터전처리과정등을세부적인절차로제시 김유신 김남규 정승렬 (2012), Martinez et al(2012) 은텍스트정보를이용한분석과정에서텍스트가담고있는감성 (Opinion) 을분석하고이를연구과정에활용함. 이광석 (2014), 최정원 한호선 이미영 안준모 (2015), 조남옥 신경식 (2016) 은텍스트정보를활용한기업부도예측모형의유용성을실증함. Chen et al(2014), 김민수 구평회 (2013), 안성원 조성배 (2010) 는뉴스텍스트마이닝기법을주가예측모형에활용 인공지능 ( 딥러닝 ) 기법은비교적최신의방법론으로서금융및재무분야에서는전통적인방법론에의한예측방법론에비하여연구의양과질모두부족하지만최근기술의발전및전세계적인관심증가와함께관련연구가매우급격하게증가하고있음. - vii -

이재식 한재홍 (1995) 은기존의재무정보만활용한부도예측의한계가있음을지적하고이를보완하기위하여비재무정보를활용한인공신경망기반의부도예측모형을제시 Kim and So(2010) 는 SVM 기법으로부도예측을수행하고, 정보가상대적으로부족한중소기업의경우기존의방법론보다인공지능기법의예측성능이더욱우수함을실증 김성진 안현철 (2016) 은금융기관의신용위험관리의중요한도구인기업신용등급예측과정에인공지능기법중랜덤포레스트 (Random Forests) 방법을적용 Yeh et al.(2015) 은딥러닝개념의인공신경망기법중하나인 Deep Belief Networks (DBN) 이기존의머신러닝중대표적기법인 SVM보다기업부도예측성능이더우수함을실증 Addal(2016) 은인공신경망, K 근접군집분석등의방법론을이용하여기업부도예측모형이우수한예측력을보이는것을실증 2. 연구방법론 선행연구를참고하여확보가능한다양한정보원천을모두포괄하여예측모형에활용 재무정보의경우기업에대한가장기본적이고객관적인실적지표로서기업부도예측에반드시활용되는정보 시장정보는분석시점의기업에대한최신정보를반영하고있다는특성이있으므로재무정보의적시성부족문제를보 - viii -

완하나유가증권시장에상장되어주식이거래되고있는기업들만의정보를이용한다는한계 재무정보와시장정보는두정보를결합하여모형에반영이가능함. Nam et al.(2008) 의연구는 Hazard 모형을활용하여재무정보와시장정보를결합한부도예측모형제시 거시경제지표의경우과거일부부도예측연구에서설명변수로활용은되고있으나, 그빈도가재무지표나시장지표에비하여많이떨어짐. 여러선행연구에서적용하는비정형정보는그간에연구들이주로사용하지못하였던뉴스및인터넷등의텍스트정보를원천으로활용하는경우가많음. 본연구분석과정에서활용한예측방법론의종류와각방법 론의특징 예측모형 분류방법론특징 이진분류방법 로지스틱회귀분석 (Logit) Decision Tree 전통적 ( 대표적 ) 이진분류모형 대표적인 Data mining 기반이진분류방법론 생존분석 Cox-PH Hazard 공변량의특성에따른생존기간예측모형 인공지능 ( 머신러닝 ) ( 딥러닝 ) Random-Forest (RF) SVM Random-Forest 여러개의 Decision Tree 들을임의적으로반복학습하여추정하는앙상블기법을활용한예측방법론 데이터가어느카테고리에속할지판단하는비확률적이진선형분류모형을만들어예측하는방법론 - ix -

시장정보 1)* Deep Neural Network (DNN) Recurrent NeuralNetwork(RNN) KMV 모형 인공신경망의 Hidden Layer 층을겹겹 (Deep) 하게설계한방법론 DNN 의 Hidden Layer 설계시변수간의시간순서 (Sequence) 를고려하여설계하여학습과정에활용한딥러닝방법론 옵션가격결정모형을기반으로주가변동에따른부도확률을산출하는방법론 텍스트데이터를예측모형등에활용하기위해서는계량화된변수로측정하는과정이필요 Word2vec 은단어들간의연관된규칙을찾아서각단어의관계를계량적으로산출하는방법론으로서, 각단어간의앞뒤관계를보고근접도를벡터의형태로계산하는알고리즘 Word2vec 을활용하여뉴스기사내에언급된단어간의관계를계량적으로분석할수있음. 본연구에서는부도와연관된기사에서나타나는 부도 의의미를가지는다른단어들을객관적으로판단 ( 부도연관어휘 ) 하는근거를마련하여위하여 Word2vec 활용 산출된 부도관련기사비율 과 부도유사도 지표는수준이높게나타날경우이를사전적인 부도 의징후로판단할수있음. 여러가지방법론을적용하여기업부도예측을수행할경우 모형의성능을비교하기위해서는동일한개념으로적용이가 * 다른방법론은모두연간부도예측과정에활용하지만, 시장정보를활용한 KMV 모형은텍스트정보를이용한월단위부도예측과정에서만비교분석모형으로활용하였다. - x -

능한객관적인모형평가방법필요 본연구의기업부도예측과같은이진분류예측의상황은두범주 ( 부도, 정상 ) 간의정확한분류가가능한지를여러모형간에비교하여봄으로써모형평가를수행 기업예측모형과같은이진판별예측은할때, 예측모형의추정값들은 0에서 1 사이에서판별값 (Threshold) 이변함에따라정확도가변동함. 따라서최적의판별값수준결정필요 예측범주 1 0 합계 실제범주 1 0 합계 정확도 (Accuracy, 정분류율 ) = 민감도 (Sensitivity) 특이도 (Specificity) = = 예측모형을도출하여모형의예측력을평가하는과정에서 Sample data를학습세트 (training set) 와평가세트 (test set) 으로나누어예측정확도 (Accuracy) 를산출하고이를근거로모형의성능을평가하여야함 (out of sample test). 본연구도학습세트와평가세트를전체표본중중복되지않도록 70% 대 30% 의비중으로배분하여모형추정과예측 - xi -

력평가과정에각각사용 과거부도예측연구에서는부도기업의표본 (sample) 수가너무적어표본의불균형에의한모형예측력평가의어려움이있음을한계로지적하였음. 본연구는부도기업의표본을고정하고, 정상기업의표본을부도기업수만큼만 Random 형태로 Sampling하여균형 (equal-weighted. 50% 대50%) 표본을구성하여모형의추정과평가에활용하는방안을적용. 다만이러한 Sampling 방식을사용할경우정상기업표본에서표본선택에따른편의 (bias) 가발생할수있으므로, 평가과정의강건성을얻기위하여정상기업표본을반복적으로총 100 세트 (set) 를임의확률 (random) 로구성하여모형평가과정에활용 각방법론의예측수준평가를위한정확도값은모든평가세트 (100 set) 에서산출된정확도의평균수준으로산출 Ⅳ. 실증분석 1. 부도사건의정의 기업부도예측연구과정에서보다유용한결과를얻기위해 서는기업의부도 ( 부실 ) 에대한명확한정의를하는것이매우 중요 - xii -

유가증권시장에서 상장폐지 가결정된기업들중부도에관련된공시가발생한기업들을부도발생기업으로인식하고분석을진행 이인로 김동철 (2015), 최정원 오세경 (2016) 등의선행연구와동일한가정 상장폐지사건은부도와반드시연결된다고볼수는없으나, 부도와관련된이유로상장폐지가발생한대부분의기업은특수한상황을제외하고부도가발생하거나부도에준하는재무상황이발생함. 2. 데이터수집및정제 2001 년부터 2015 년까지부도정의에따라유가증권시장에 상장된기업을대상으로분석 시장구분 정상기업 부도기업 Total KOSPI 678 133 811 KOSDAQ 1108 370 1478 Total 1786 503 2289 비정형정보인뉴스텍스트데이터수집을위하여, 네이버뉴스검색홈페이지를활용하여, 분석대상기업들에대한 2010 년 1월부터 2016년 12월까지의 84기간의뉴스컨텐츠를수집 인터넷뉴스서버에 DB가구축되지않아기사를확보할수없거나, 총집계기간동안기사수가부족한기업, 검색이 - xiii -

불가능한이름의기업, 명확한구별이어려운기업등의기사는수집과정에서제외 제외후텍스트정보수집대상기업은총 1,788개의기업으로총 2,506,080 건의기사를텍스트 DB로확보함. 기업당평균적으로약 1,401건, 1개월당평균적으로약 16.6건 텍스트 DB는집계이후자연어처리, 분석 Sample 수미달제외, 특정의미단어제외등의정제과정을거쳐최종텍스트분석 DB로산출됨. 텍스트분석 DB를기반으로 부도 및 상장폐지 와기사내에언급된단어간의유사도를 Word2vec 을이용하여산출 부도 혹은 부도 및 상장폐지 로 Word2vec 유사도기준상위 20개단어선별 선정된부도유사단어가포함된경우해당기사를부도연관기사로간주하고, 전체기사대비부도연관기사비율을산출하여 부도기사비율 을산출함. 기사를구성하고있는개별단어별로 부도 및 상장폐지 유사도를부여하고, 각기사별 부도유사도 ( 평균수준 ) 을산출함. 부도기사비율 과 부도유사도 는부도기사에대한계량화된텍스트분석결과로서향후부도예측모형추정과정에서설명변수로활용 정보원천별로모형예측의영향을평가하기위하여취합된 분석 DB 를 4 가지의데이터세트로분류하여각각의모형에 적용하고가용한데이터수준에따라기간을나누어분석함. - xiv -

방법론 Set 1 Set 2 Set 3 Set 4 적용정보 (Source) 재무정보 재무정보 + 거시경제 재무정보 + 거시경제 + ( 증권 ) 시장정보 재무정보 + 거시경제 + ( 증권 ) 시장정보 + 미디어정보 (Text) 데이터수집가능기간 1998~2015 년 ( 연간 ) 1998~2015 년 ( 연간 ) 1998~2015 년 ( 연간 / 월간 ) 2010~2015 년 ( 연간 / 월간 ) 변수정보 31 개변수 42 개변수 49 개변수 60 개변수 총 7개의분석 Set가구성되어각각의예측방법론에적용됨 1) Set A(2001~2016 년 ) : 재무, 시장, 거시경제정보. 총 2291 개 ( 부도 502개 ) 기업대상 2) Set B(2010~2016 년 ) : 재무, 시장, 거시경제정보. 총 1586 개 ( 부도 258개 ) 기업대상 3. 연간예측모형 각분석 DB Set 를예측방법론별모형에적합 (Fitting) 하고 최적모형을도출함. SET A 결과 ( 분석기간 2001년 ~2016년적용 ) 가장높은정확도를나타낸방법론은 Random Forests 방법론 로지스틱모형과 SVM 또한 0.9에상회하는높은정확도가산출 의사결정나무 (Dtree) 와인공신경망 (DNN, RNN) 등은 0.9에다소못미치는정확도 - xv -

기업의재무정보, 거시경제정보, 시장정보를포괄하여가장 정보가많이활용된 <SET3> 의정확도는타데이터세트에 비하여다소높게산출. 하지만유의미한수준은아님. 방법론 SET A_1 SET A_2 SET A_3 평균 logit Cox Dtree R.F SVM DNN RNN 0.9258 0.9208 0.9272 0.0146 0.0153 0.0142 0.7798 0.7033 0.7115 0.0183 0.0237 0.0199 0.8998 0.8984 0.8956 0.0183 0.0179 0.0180 0.9357 0.9350 0.9381 0.0133 0.0127 0.0125 0.9217 0.9082 0.9212 0.0153 0.0179 0.0226 0.8533 0.8584 0.9052 0.0200 0.0184 0.0148 0.8867 0.9065 0.9046 0.0210 0.0232 0.0279 0.9246 0.7315 0.8979 0.9363 0.9170 0.8723 0.8992 평균 0.8861 0.8758 0.8862 SET B 결과 ( 분석기간 2010년 ~2016년적용 ) Random Forests 방법론이가장우수한예측력. SVM, 인공신경망 (DNN) 순 로지스틱모형은상대적으로모형예측력이하락. 인공지능기법들의예측력은유지되거나오히려다소상승 - xvi -

기존전통적정보원천이반영된 <SET B_3> 에뉴스텍스트정보까지추가로반영된 <SET B_4> 가타모형에비하여모형예측력이높게산출. 비정형정보도부도예측성능향상에영향을줄수있음을실증하는결과임. 유의성은떨어짐. 방법론 SET B_1 SET B_2 SET B_3 SET B_4 평균 logit Cox Dtree R.F SVM DNN 0.8651 0.8804 0.8989 0.9093 0.0427 0.0410 0.0383 0.0338 0.8280 0.8235 0.8473 0.8745 0.0312 0.0335 0.0335 0.0282 0.8910 0.8895 0.8868 0.8862 0.0293 0.0288 0.0274 0.0271 0.9369 0.9373 0.9381 0.9392 0.0224 0.0226 0.0225 0.0222 0.9217 0.9148 0.9271 0.9178 0.0273 0.0263 0.0278 0.0282 0.9071 0.9053 0.9215 0.9317 0.0285 0.0282 0.0286 0.0299 0.8884 0.8433 0.8884 0.9379 0.9203 0.9164 평균 0.8916 0.8918 0.9033 0.9098 연관예측모형추정결과인공지능중 Random Forests 방법론이두데이터 SET 모두가장높은수준의예측력나타남. 데이터수가상대적으로적은 <SET B> 에서도우수한예측력을유지함으로써인공지능기법이강건하게기업의부도에대한예측을잘수행할수있음을실증 인공지능 _DNN의예측성능이기대수준에미치지못함. 컴퓨터하드웨어를보강하고추가적인효율화방안을도입하 - xvii -

여이러한구조를개선하면현재보다더높은예측정확도를 얻을가능성이있음. 텍스트데이터를추가로반영한 <SET B_4> 의예측정확도는방법론에따라약간의차이는있지만전반적으로텍스트데이터를반영하지않은 SET에비하여유의한수준의정확도차이가나타나지않음. 재무정보만활용한 <SET A_1>, <SET B_1> 의예측력도타 SET에비하여큰차이가없음. 이는상장기업의경우다양한공시요구및규제에의하여기업의정보가재무정보에이미충분히반영되어나타나는결과라판단됨. 4. 월간예측모형 미디어의뉴스기사는시장정보 ( 주가 ) 와마찬가지로실시간으로공개되는정보임. 따라서시장정보를활용한예측모형인 KMV 모형과유사한형태의부도예측모형구축가능 기업의부도관련뉴스가실제부도가발생하는시점이전에부도가능성을선제적으로알려줄수있는지, 조기경보지표 (early warning index) 로서활용가치가있는지연구 분석가능대상 Sample : 부도기업 52개, 정상기업 855개확보 KMV모형및텍스트기반모형의부도예측단위는월간이며, 부도기준직전 12개월의추이를분석함. - xviii -

시장정보 (KMV) 모형산출결과 부도기업의경우부도발생 1 년전부터점진적으로평균수 준에비하여다소낮은수준으로 D.D. 가하락하다가, 부도 발생 3 개월전부터급격하게하락함. 텍스트정보기반예측모형산출결과 ( 부도기사비율추이 ) 동일한기간과동일한기업에대하여기사텍스트 DB 를기 반으로산출한부도기사비율 KMV 모형과마찬가지로부도기사비율은부도발생 12 개월 이전부터점진적으로상승하여지속적으로정상기업에비하 여높은수준으로산출 - xix -

텍스트정보기반예측모형산출결과 ( 부도유사도추이 ) 동일한기간과동일한기업에대하여기사텍스트 DB 를기 반으로산출한부도유사도 부도유사도역시부도기사비율과마찬가지로부도발생이전부터정상기업과차이가나타남. 단, KMV 와부도기사비율과는달리점진적상승추세가다소약하고, 부도시점에가까워지면서오히려정상기업보다떨어지는수준도나타나는것을확인할수있음. KMV 모형과텍스트정보기반의예측모형은각각부도발생이전시점부터부도가능성이상승함을보여주는것을확인할수있음. 선제적예측성능을비교하기위하여두모형을함께그래프로도식화 부도기사비율은 KMV 모형의결과인 D.D. 와비슷한형태로부도가능성에대한신호가나타남. 특히부도발생 6개월이전시점부터는지속적으로 KMV 모형보다다소높은수준으로부도기사비율이나타남. - xx -

부도기사비율 과 부도유사도 를활용할경우 KMV 모형과유사한형태로부도예측이가능하며추가적인확장도가능함. 부도발생시점을기준으로 KMV 모형보다이전기간에부도유사도가상승하여기업부도에대한조기경보지표로서충분히활용가능성이있음. 텍스트정보기반의부도예측은주가정보가없는비상장기업에도활용이가능하다는점에서 KMV 의단점을보완하는방법론으로더욱의미가있음. 텍스트기반의부도예측방법또한기업관련뉴스의편중문제가나타나는단점이있음. 대부분의기업뉴스는일부매우우량하고유명한대기업에대한기사가많이생성되고, 정작부도가많이발생하는규모가작은기업에대한뉴스는상대적으로매우적음. 향후이를보완하기위해서는텍스트데이터확보정보원천을미디어뉴스뿐만아니라기업공시자료, 증권 / 투자관련게시판, 해당기업홈페이지등으로확대하여보다광범위한텍스트데이터의확보가필요함. - xxi -

Ⅴ. 결론및시사점 기업부도예측과정에서우선비정형데이터인뉴스텍스트 데이터를계량화하여새로운정보원천으로활용할수있는 방법을제시 기존정보원천과함께텍스트정보를포함한인공지능기반 의예측방법론을제시하고기존의방법론과예측력을비교 분석 연구결과, 연간모형에서는인공지능기법인 Random forests 기법이가장우수한예측력이나타나는것으로분석 인공지능을이용한다른방법론들도전반적으로기존의전통적인예측방법보다예측력이우수함. 또한뉴스텍스트를추가적인정보원천으로추정한월간예측모형의경우시장정보기반의예측모형인 KMV 모형과유사한결론을도출할수있는것으로나타남. 기업부도예측과정에서텍스트정보기반의부도예측모형은조기경보모형으로충분히활용이가능함. 중소기업 (SME) 과개인에대한부도예측모형으로연구의확장이필요 현재분석대상인상장기업의경우재무정보가기업현황을비교적잘반영하고있고, 기업에대하여발생하는정보또 - xxii -

한주가에즉각반영되고있는편이기때문에텍스트정보및인공지능도입에대한예측증가수준이미미할수있음. 재무정보의신뢰도가떨어지고시장정보의확보가어려운중소기업이나개인에대하여본연구의부도예측방법을적용한다면기존의방법에대하여추가적인예측수준증대를얻을수있을것으로기대됨. 기업을대상으로하는연구의경우, 뉴스텍스트정보와함께웹페이지, 공시자료등추가적인정보원천을포괄하여적용하면추가적인예측수준개선이기대됨. 빅데이터및딥-러닝분야는아직까지국내금융, 재무분야에서관련연구가부족함. 본연구에서활용한방법론은타연구에서도충분히응용하여활용이가능하므로향후관련된연구가많이발전할것이라기대할수있음. - xxiii -

Ⅰ. 연구배경및목적 과거부터금융산업은신용위험을잘관리하는것이가장중요한목표중하나였으며, 정확한부도예측은신용위험을사전에방지하는가장기초적인기반이다. 신용위험이주요발생원인으로지목되었던 IMF 위기이후, 주요국내금융기관및관련연구기관은대출차주의부실을선제적으로예측하는다양한방법론을연구하였으며많은발전된방법론이제시되었다. 하지만이와같은노력에도불구하고정보통신 (IT) 및운송기술의발전에따른글로벌경제화, 급격한산업구조변화, 기업경영환경변화등에따라새로운원인에의한신용부실 ( 부도 ) 사건또한지속적으로발생하고있다. 특히기업부실이발생할경우, 해당기업의근무자, 유관기업및개인, 금융기관을비롯한주요투자자및채권자등모든연관된경제주체에연쇄적인피해가발생할수있다. 따라서기업부도위험을보다정확히예측하고평가하는방법을개발하는것은더욱중요한연구과제이다. 과거기업부실을예측하는많은연구는주로재무 ( 회계 ) 정보와 ( 주식 ) 시장정보를기반으로예측을수행하였다. 우선재무정보는공시된정보를활용하므로기업의현황을가장객관적이고표준화된형태의데이터를활용할수있다는대표적인장점이있다. 다만재무정보는분기혹은연단위로작성되고, 각기업의결산시점이후공시되는데까지일정기간이소요되기때문에사전적인부도예측이필수요소인예측의 적시성 이떨어지는근원적인한계점이있다. 이러한단점을보완하기위하여 KMV모형 으로대표되는시장정 Ⅰ. 연구배경및목적 1

보기반의방법론이제시되었다. 기업의주가는투자자들에의하여실시간으로평가된결과가시장가격으로형성되므로, 기업의현황수준을가장빠르게반영하여주는정보이기때문이다. 하지만시장정보기반의예측모형도단점을가지고있다. 우선유가증권시장에서거래가활발한상장기업만을대상으로적용할수있다는한계와주가에영향을주는거시경제요인이나산업요인, 각종뉴스에의한일시적인요인등의영향을통제하지못한다는단점을가지고있다. 본연구는기존에활용되던재무정보와시장정보외의새로운정보원천을활용한기업부도예측모형을추정하고기존의예측모형에비하여초과적인예측성과를얻을수있는가에대하여연구하였다. 이를위하여먼저빅데이터연구분야에서많이활용되는텍스트마이닝과인공지능기법을이용하여텍스트정보를측정가능한변수로계량화하는방법을제시하였다. 이후, 전통적인변수와텍스트기반의변수를포괄하여인공지능기반의예측모형을추정하여기존의모형대비예측의유용성을실증분석하였다. 우선, 부도예측을위한새로운정보원천으로과거활용이어려웠던텍스트형태의비정형정보인뉴스정보를활용하였다. 기업에관한뉴스는해당기업에대한가장빠른정보중하나로서기업의가치와연관된여러정보를다루고있다. 따라서뉴스정보는기업이부실화되는징후를사전적으로알수있는추가적인 (additional) 혹은대체 (alternative) 할수있는정보원천으로서의충분한가치가있다. 텍스트마이닝으로대표되는텍스트분석기법은본연구에서활용하는뉴스정보뿐만아니라기업공시데이터, 웹게시판, 기업관련 SNS 등매우광범위한매체로확장이가능하다. 텍스트마이닝은문서, 웹등의텍스트정보를데이터베이스로수집하고데이터로정제 2 빅데이터를이용한딥러닝기반의기업부도예측연구

하는과정을포괄하는개념으로서정보처리기술과관련기반 (infra) 의발전에따라최근급격하게활용도가높아지고있다. 텍스트를활용한정확한예측모형구축을위하여되도록이면많은텍스트정보의확보를필요로하게되는데, 텍스트데이터를수기 (scrap) 로취합할경우분석표본 (sampling) 데이터수집범위의한계가발생한다. 따라서텍스트마이닝과정에서는광범위한데이터의보다효율적인확보및관리를위하여웹데이터베이스 (DB) 에직접접근하여데이터를확보하는웹크롤링 (web crawling) 방법을주로활용한다. 이는기존의수작업에의존하여텍스트데이터를수집하는방법에비하여가용한데이터의범위를크게증진시킬수있고분석자의편의 (bias) 혹은실수등의오류 (error) 또한감소시킬수있다. 본연구는선행연구에서활용되었던여러가지텍스트마이닝관련방법론을활용하여텍스트정보기반의계량화된지표를산출하는방법론을연구에적용하였다. 또한, 본연구는인공지능 (A.I.) 분야의여러방법론을적용하여기존방법론과예측력을비교분석하였다. 머신-러닝 (Machine- Learning), 딥-러닝 (Deep-Learning) 등의용어로대표되는인공지능분야는컴퓨터공학을이용하여인간의두뇌와같이컴퓨터가학습과정을거쳐예측프로세스등의의사결정을수행하는체계를의미한다. 과거에는다양하고동시다발적인경우의수를처리하는데물리적으로발생하는한계로인하여주목받지못하였으나, 최근 Google 사의 AlphaGo 로대표되는딥-러닝체계가실제인간의판단수준과속도면에서대등하거나오히려능가할수있다는것이증명됨으로써전세계적으로큰관심을받고있다. 인공지능은학습데이터가많을수록예측력이우수해지는특성이있으므로, 텍스트데이터등의빅데이터를원천으로활용하는본연구와같은예측과 Ⅰ. 연구배경및목적 3

정에서더욱우수한효과를기대할수있다. 또한텍스트마이닝과정에서도 Word2Vec 과같은인공지능을이용한계량화방법론을활용하여보다객관적이고정확한계량변수를생성할수있다. 빅데이터및인공지능방법론은제4차산업혁명의핵심기술로서여러분야에서많은관심을받고있지만, 금융, 재무영역의연구에적용된사례는아직은많지않다. 따라서본연구는기업부도예측과정에이러한새로운방법론적용을시도하고예측결과의정확도를비교분석하여기존의방법론대비유용성을실증해보고자한다. 4 빅데이터를이용한딥러닝기반의기업부도예측연구

Ⅱ. 빅데이터및인공지능의금융관련분야활용현황 1. 빅데이터및인공지능의발전 제4차산업의핵심분야로언급되는빅데이터및인공지능분야의발전은인터넷, 이동통신을중심으로하는모바일 (Mobile), 디지털위성, 소셜미디어서비스 ( 이하 SNS) 등의 IT 기술및소프트웨어의급격한발전을기반으로한다. 빅데이터및인공지능혁명은다음의세가지기반으로부터발전하고있다 (JP Morgan, 2017). 1) 분석가능한데이터양 (Size) 의급격한증가 - 기존방법으로확보할수없었거나너무방대하여관리하기어려웠던정보원천에대한접근이가능해짐 - 전세계데이터량의 90% 는최근 2년간생성된 Data일정도로급격하게상승 2) 복잡하고방대한데이터분석을위한방법론의발전 - 머신러닝, 딥러닝등의인공지능방법론의발전 - 시뮬레이션 Tool 의발전 3) 컴퓨터과학 (Computing Science) 의진화 - 클라우드컴퓨팅등의공유형컴퓨팅, 병렬처리기반의소프트웨어등대용량데이터에대한효과적인처리및보관가능 - 비교적합리적인가격으로체계 ( 시스템 ) 구축가능 Ⅱ. 빅데이터및인공지능의금융관련분야활용현황 5

< 그림 1> 빅데이터혁명의기반 가. 빅데이터 빅데이터는다음의세가지속성을가지는특성을가지는데이터 를뜻한다 (JP Morgan, 2017). 1) Volume : 기록, 파일, 거래등으로부터수집되는데이터의크기 (size) 가매우방대함. 기존의접근이불가능했던정보원천에확보에의한데이터증가뿐만아니라, 시간의변동에따른연속된정보의획득또한데이터의크기를늘리는중요한요인으로작용 2) Velocity : 방대한데이터를분석하는데있어물리적인시간소요가너무길어질경우분석의실효성이많이제약받음. 따라서실시간 (Real time) 에준하는데이터의수집, 관리및분석속도가현재의빅데이터혁명의핵심기술임. 3) Variety : 데이터의원천 (Source) 이매우다양해짐에따라데이 6 빅데이터를이용한딥러닝기반의기업부도예측연구

터의형태 (Format) 또한매우다양함. 구조화 (structured, SQL tables or CSV files), 준구조화 (semi -structured, JSON or HTML) 혹은비구조화 (unstructured, blog post or video message) 데이터로각각구분. < 그림 2> 빅데이터의 3 요소 빅데이터는크게개인정보, 비즈니스정보, 센서 (Sensor) 에의하 여수집되는정보로구별할수있다. 1) 개인정보 : Social Media, 뉴스, 평론등개인과관련된정보 ( 주로웹페이지를원천으로함 ) 2) 비즈니스정보 : 회사공개정보, 상업적거래정보, 신용거래 ( 카드등 ) 정보, 공공기관정보 Ⅱ. 빅데이터및인공지능의금융관련분야활용현황 7

3) 센서정보 : 자동차 / 비행기 / 선박등위성기반정보, 사물인터넷 (IoT) 정보, 기타지리정보 나. 빅데이터의수집및관리 전통적으로금융과연계된산업에서신뢰적인데이터획득을위하여주로사용되는정보원천은증권거래소나금융감독기관이공개하는정보이다. 1) 대표적인예로금융시장의가격, 변동성등의데이터와재무제표형태로제공하는공시데이터를들수있다. 또한국제적으로는각국의중앙은행, G-20, Financial Stability Board (FSB) and International Monetary Fund(IMF) 등의기관에서관련데이터를제공하고있다 (Flood, 2015). 금융관련데이터는지정된시점의횡단면적인현황을제공하는경우도있지만많은데이터는시간, 일, 주, 월, 분기, 연도등의시간주기에따라지속적으로생산되는시계열 (Time-Series) 데이터이다. 특히이러한주기를매우짧은단위 (High-frequency) 로수집할경우데이터의양이매우급격하게늘어나게되는데, 이때빅데이터분석기법들이유용하게사용될수있다. 물론이과정에서회귀모형, 패널모형, 시계열모형등의전통적인분석기법들도분석목적이나상황에따라활용이가능하다. 금융관련데이터수집과정에서금융위기와같은거시경제의체계적위험 (Macro economical systemic risk) 상황을고려하는것이중요하다. 이기간에는금융시장에연관된금융기관및각산업의 1 국내의경우 DART 의각기관별공시자료, 미국의경우 SEC 의 10-K reports, FRB 공개자료등을예로들수있다. 8 빅데이터를이용한딥러닝기반의기업부도예측연구

기관들의데이터가매우변동이심하여정상적인관점에서이를분석할경우분석결과의왜곡이발생할수있다. 특히본연구의목적인신용위험예측모형의경우이러한기간의영향을반영할수있어야유의미한모형으로활용될수있다. 데이터를획득하는또다른방법으로데이터의결합 (Integration) 을들수있다. 예를들어, 기업에대한신용위험을예측하기위한정보원천으로해당기업고유의재무정보뿐만아니라거시경제수준및해당기업이속한산업에대한지표를결합하여분석데이터원천으로사용하는것이다. 빅데이터분야에서는이러한이종데이터원천간의결합을통하여정보원천의확대를다양하게시도하고있다. 수집된데이터는정제 (cleansing) 과정을거쳐분석에활용하여야한다. 데이터정제과정은분석데이터의품질향상을위해서필요한과정으로서, 입력누락 (missing), 입력오류 (error), 잡음 (noise), 이상치 (outlier) 등을처리하여해당데이터가분석과정에서문제를발생시키지않도록하는절차를의미한다. 구체적인정제방법은데이터의형태와분석하고자하는모형에따라결정된다. 정제를마친데이터는분석모형및향후활용이가능하도록적정한식별자를부여하여효율적인데이터베이스 (database, 이후 DB) 형태로관리되어야한다. 다. 인공지능기법 인공지능의개념은 1956 년에수학자, 과학자등이모인다트머스 회의에서처음등장했다. 당시인공지능체계는주어진문제를해결 Ⅱ. 빅데이터및인공지능의금융관련분야활용현황 9

하기위해논리를기계로풀어내고자하는연산을가진컴퓨터개념에가까웠다. 이후 1960년대에인공지능기법연구가시작됐지만, 1970년에문제해결로직의한계점과컴퓨터의기술적인한계에부딪치면서인공지능실현가능성에대한의문이제기되며인공지능은두차례큰빙하기를겪는다. 이후여러가지방법론및기술등의진보가이루어져 1990년대이후에는인공지능에대한관심이증가했고최근 알파고 와같은사건으로그관심은폭발적으로증가하고있다. 인공지능시장에대한전망은기관별로상이하지만인공지능시장이빠르게성장할것이라는전망은동일하다 ( 김원걸 유성민 김영상, 2016). 시장전문조사기관인, Tractica에따르면인공지능시장은연평균 82.9% 로성장해 2015년약 3천억원규모에서 2020년에약 5조원의시장을형성할것으로전망했다. 일본 EY연구소의경우인공지능관련시장을좀더넓게보아, 2015년약 32조원에서 2020년에는약 240조원으로성장할것으로전망했다. 연평균성장률은 44% 로계산했다. 아울러 IBM에따르면 2025년에인공지능시장은 2,000조원에달할것으로전망했고멕킨지는그보다더높은수치인 7,000조원에이를것으로전망했다. KT경영연구소는국내의경우인공지능시장규모가 2020년 2.2조원시장을형성하고, 2030년에는 27.5조원의시장을형성할것으로전망했다. 인공지능은컴퓨터공학과통계학의범주에포함되는분야로서, 인간이지정한방법에따라학습하여업무를수행하는 지도학습 (supervised learning) 과컴퓨터가스스로경험한내용에대하여학습을할수있도록설계하는 비지도학습 (un-supervised learning) 체계를뜻한다. 이러한두가지학습과정을통하여스스로달성하고 10 빅데이터를이용한딥러닝기반의기업부도예측연구

자하는업무에대한성능이향상될수있다. 예를들어 자율주행차 는처음에는인간이운전하는방법에대하여학습을시킨내용대로주행을시도하면서 ( 지도학습 ), 이후주행과정을통하여경험을얻고이후계속적으로스스로주행하면서여러가지상황을경험하고자율주행을최적화시킨다 ( 비지도학습 ). 인공지능을입력 (input) 되는과거데이터의추세 (historical patterns) 와상관없이예측결과 (output) 값을산출한다고보는견해도있다. 즉, 인공지능기법이기존모형체계와가장다른점을모형에근거하지않는특성으로보는견해이다. 하지만앞서언급한 지도학습 의경우기존의통계적방법론을활용하여학습과정을수행하는경우가많기때문에이렇게단정하는것은어려울수있다. < 그림 3> 인공지능과머신러닝, 딥러닝개념 2) 인공지능 인간과유사하게사고하는컴퓨터지능을일컫는포괄적개념 머신러닝 (Machine learning) 데이터를통해컴퓨터를학습시키거나, 컴퓨터가스스로학습하여인공지능의성능 ( 정확도, 속도, 응용범위등 ) 을향상시키는방법 딥러닝 (Deep learning)* 인공신경망이론기반으로, 인간의뉴런과유사한입 / 출력계층및복수의은닉계층을활용하는학습방식. 복잡한비선형문제를非지도방식학습으로해결하는데효과적 * 딥러닝이외에의사결정트리. 클러스터링등기타접근법존재 2 Source : 알파고의딥러닝 (Deep Learning) 금융업적용사례, KB 지식비타민, Ⅱ. 빅데이터및인공지능의금융관련분야활용현황 11

머신러닝, 딥러닝 등의인공지능개념은최근에주목받은분야로서관련연구자및업계종사자간에도아직각각의체계에대한개념적인정의가혼동되는경우가많이발생한다. < 그림 3> 은비교적공통적으로인식되고있는각체계에대한개념도이다. 우선인공지능이가장큰개념으로서머신러닝을포괄하고, 머신러닝에딥러닝이포함되는구조이다. 머신러닝과딥러닝은복수의정보처리로인간이의도하지않은 비지도학습 의효과여부로판단하는개념이다. 하지만컴퓨터가스스로학습하여최적예측방법을탐색하는개념은기존의머신러닝에도이미존재하였기때문에이또한판단기준에따라모호한경우가있다. 따라서일부연구자는딥러닝을단순히 머신러닝의중첩 의개념으로보고별도로구별하지않는견해도존재한다. 본연구는머신러닝으로분류되는기존의인공지능기반의예측방법론과딥러닝으로분류되는인공신경망기반의예측방법론을특별히구분하지않고모두활용하였다. 2. 빅데이터및인공지능의금융산업활용 가. 소매금융시장의빅데이터혁명 빅데이터가금융시장에도입되면서또하나의도구 (tool) 가확보된것은사실이지만, 아직은혁명으로평가하기는어렵다. 여러가지새로운시도가시행되고는있지만아직은가시적인성과로나타나서시장의판도를뒤흔드는수준의변혁이명확하게나타난사례는찾아보기쉽지않기때문이다. 하지만복잡하고방대한양의데이터를기반으로예측모형등을구축할경우기존의방법론에비하여예측 12 빅데이터를이용한딥러닝기반의기업부도예측연구

성과가높게나타난다는연구결과들을볼때, 매우많은수의개인및소규모법인을주로대상고객으로하는 소매금융 분야에서특히활용도가높을것으로기대할수있다. 금융산업에서가장대표적으로빅데이터가활발하게활용되는분야는 신용평가 분야이다. 은행여신뿐만아니라할부금융, 리스, 보험등신용위험을수반하는모든금융분야에서신용리스크의사전적인예측을위하여빅데이터가활발하게도입되는추세이다. 특히소매금융의경우고객의정보가기업금융에비하여상대적으로부족하기때문에음성, 텍스트등의비정형데이터를활용하는방안에대하여많은시도가이루어지고있다. 물론아직까지는컴퓨터및처리성능의제한, 방대한규모의전산화되지않은데이터 (nondigitized sources) 등의문제가발전을더디게하는요인으로작용하고있다. < 그림 4> 소매금융시장의빅데이터활용현황 Ⅱ. 빅데이터및인공지능의금융관련분야활용현황 13

< 그림 4> 는미국의소매금융시장을대상으로조사한결과로, 기업에비하여개인에대한정보활용수준이다소떨어지는것을보여준다. 따라서빅데이터유관산업및기술의발전으로개인의경우활용가능한정보가부족한현재상황을개선시킬수있다고기대할수있다. 즉, 빅데이터기반의새로운체계는고객이제공하는데이터를넘어서, 고객에대한정보를직접확보하는방향으로정보의부족문제를해결하고자한다. 예를들어, 고객의행동패턴, 개인성향, 웹및SNS 등의파생정보등을정보화하여고객에대한신용평가에대한추가적인정보를확보하고자하는사례를들수있다. < 그림 5> 미국개인신용등급현황 14 빅데이터를이용한딥러닝기반의기업부도예측연구

< 그림 5> 는미국개인신용평가평점부여현황이다. 1000만명정도의개인고객은충분한수준의데이터를근거로신용평점을부여받지만, 3000만 ~3500만명정도의개인고객은평점산출이어려운것으로나타난다. 이러한상황은국내도마찬가지로, 개인신용평가대상자중상위등급의우량고객의경우충분한개인속성과거래행태데이터를파악할수있기때문에비교적정확한수준의신용평가가가능하지만, 신용등급이낮은고객의경우충분한정보를확보하는것이쉽지않다. 하지만실제로신용사건의경우대부분은이러한신용등급이낮은고객군에서주로발생하기때문에새로운정보원천을활용하는빅데이터기반의신용평가체계가더욱필요하다. 나. 빅데이터및인공지능도입에따른신용평가발전현황 최근신용평가는빅데이터선진국및선도기업을중심으로, 다양한변수를고려하는데한계가있는기존의판별분석방법론에서벗어나빅데이터를활용한인공지능알고리즘의활용도가증가하고있다. 미국구글의 CIO, 더글라스메릴이설립한 제스트파이낸스 (Zest -Finance) 는신용평가시머신러닝에활용하는변수만 1만개이상 ( 신용점수 + 카드이용 +SNS/ 인터넷이용정보등 ) 이라고한다. 또한독일의 크레디테크, 홍콩의 렌도, 일본의 소프트뱅크, 미즈호은행 도비슷한규모의데이터수준을기반으로신용평가를수행하고있다고한다. 미국의온덱은소규모자영업자에게대출서비스를제공하는온라인대출서비스기업이다. 랜딩클럽과마찬가지로오프라인지점은하나도없는것이특징이며, 모든대출서비스는온라인으로만이루 Ⅱ. 빅데이터및인공지능의금융관련분야활용현황 15

어진다. 온덱은빅데이터기반으로기존은행권에서고려하지못하는부분까지분석하여정확한신용평가를하는것을특장점으로홍보하고있다. 은행의거래내역, 현금흐름, SNS의댓글이나평점까지고려하는신용도분석시스템은높은정확도를보이는것으로알려져있다. 뿐만아니라신용도분석이자동화되어있기때문에대출신청서를작성하고대출여부를확인하는데걸리는시간까지약 10분밖에소요되지않는다는장점도있다. 국내의경우선도적인은행및핀테크업체등이관련분야선진국가및기관의방법을기반으로신용평가모형을개선하고있으나아직은뚜렷한성과가나타나고있는기관을찾아보기는쉽지않다. 다. FICO 의 AI 활용신용평가모형개선사례 3) 신용평가모형은대상이되는대상을세분화하여추정하는방향으로발전하여왔다. 특히소규모기업 (small business enterprises, SMEs) 혹은개인과같은소규모대출차주의경우각각의매우다양한특성이나타나는데이러한특성을모형에반영하는것은단순한일이아니다. 예를들어기존의신용위험모형은신규차주와기존차주를구분 (categorizing) 하여위험을평가하는모형을구축하는데, 이는각차주의특성을정확하게반영하는데에는분명한한계가있다. 인공지능알고리즘은신용평가모형의산출결과인신용평점을 3 http://www.fico.com/en/blogs/analytics-optimization/how-to-build-credit -risk-models-using-ai-and-machine-learning/ FICO(FairIsaacCorporation) 는 1998 년부터신용평가와관련된인공지능기반모형의특허를 1998 년부터보유하고있다고보고하고있다. 16 빅데이터를이용한딥러닝기반의기업부도예측연구

산출하는과정에서개별적인차주의특성을보다정확하게반영할수있는방법을제공한다. 인공지능은인간이구별할수있는명확한기준의구분뿐만아니라통계적인군집 (clustering), 변수간의결합, 과거이력과현재현황의결합등다양한분류 (category) 를수행하여이를분석자에게제공할수있다. 따라서기존의모형에대비하여차주의다양한특성을합리적인근거로보다정확하게반영할수있다. 또다른인공지능을활용하는방법은인공지능기반의예측모형을직접이용하는것이다. 인공지능을이용한예측모형은기존의전통적모형보다유연하다는장점이있다. 즉, 학습 (train) 모형의예측력을증대시키기위하여추가적인변수를적용하는데있어서기존의모형에서적용이어려운비선형 (non-liner) 변수도적용할수있다. 이는비선형변수를직접반영하는것뿐만아니라선형변수의비선형결합도포함하는개념이므로정보기준으로는상당한수준의양적확대가가능하다. FICO는비선형변수를모형에반영함으로써약 10% 의모형예측력개선효과가발생하고, 인공지능에의한분석대상특성을적용하는모형추정으로추가적인 15% 수준의모형개선효과가발생한다고보고하고있다. 또한이러한평점부여 (scoring) 는모형의예측및검증이반복됨에따라점차더욱예측성능향상이기대된다는점에서더욱고무적이다. 라. 핀테크산업의빅데이터와인공지능활용 < 그림 6> 은핀테크산업에서빅데이터와인공지능이어떠한분야 에서어떤목적으로활용되고있는지간략하게요약하고있다. Ⅱ. 빅데이터및인공지능의금융관련분야활용현황 17

핀테크산업의주요주체인크라우딩펀드혹은 P2P 대출업체들은기본적으로개인과소규모기업 (SME) 을주요고객으로하고있으므로이러한신용평가방법의발전에매우적극적인관심을나타내고있다. Credit Sesame, Faircent, OnDeck, Kabbage, LendingClub, Prosper, ZestFinance, Vouch Financial 등과같이업체들은스타트업, 구직자, 저소득층등기존의신용거래가없던고객을대상 (Target) 으로개발된상품을운영하고있어, 정확한신용평가를위한새로운정보원천을찾는데더욱많은노력을기울이고있다. < 그림 6> 핀테크산업의빅데이터및인공지능도입현황 4) 4 https://letstalkpayments.com/how-is-big-data-analytics-being-leveraged -across-fintech/ 18 빅데이터를이용한딥러닝기반의기업부도예측연구

3. 빅데이터및인공지능도입한계요인 신용평가체계에빅데이터및인공지능기법을적용하는것은고객신용수준에대한예측력을증가시키는장점을가지고있지만몇가지장애요인및한계점을가지고있다. 우선데이터추가확보, 컴퓨터처리능력개선, 시간등의추가비용요인이존재한다는점이다. 신용평가모형의정확도를향상시키는것은매우중요한과제이지만기업의입장에서는해당과제에대한비용대비얻을수있는효익을검토한후에실행할수밖에없다. 따라서적용시모든비용을상쇄하고확실하게수입이증대되는상황으로예상되지않는다면새로운방식의신용평가체계를전면적으로도입하는결정을내리기는쉽지않다. 두번째로로지스틱회귀분석등의전통적인분석방법과달리예측결과를산출한원인을직접도출할수없다는단점을가지고있다. 인공지능기반의신용평가체계는상당히복잡한구조의다차원분석을수행하기때문에예측에대한결과를제공할뿐원인이되는변수, 요인등을판별해내는것이쉽지않다. 이는상품운영, 마케팅이나고객에대한서비스응대 (CRM) 등의분야에서예측결과를활용하여업무활동을하는데상당한제약으로작용될수있다. 세번째는신용평가모형의신뢰성문제이다. 그동안의신용평가모형및평점체계는매우오랜기간활용되어왔기때문에지속적으로방법론의개선, 추가적인정보원천의확보등신뢰성을높이기위한수많은노력의결과물이다. 이에비하여인공지능및빅데이터기반의방법론은비교적짧은분석기간의결과를사용하여고객의신용수준을예측하여야하기때문에신뢰성이검증될때까지부분 Ⅱ. 빅데이터및인공지능의금융관련분야활용현황 19

적운영혹은병행운영등의보완적인운영방안을필요로한다. 네번째는관련규제이다. 이분야의선진국은빅데이터및인공지능에대한활발한연구에의한노하우축적뿐만아니라, 관련규제완화를통한민간금융업체의활발한참여를유도하여관련산업을융성하는방향으로진행하고있다. 하지만국내의경우많은규제로인하여걸림돌이많은것이현실이다. 대표적으로고객정보보호에대한규제를예를들수있다. 많은금융선진국이고객이정보활용에거부의사를표명한경우만개인정보활용이불가능한옵트-아웃 (Opt-Out) 방식을적용하고있는반면, 국내의경우모든개인정보활용에모든개개인고객의사전동의를받아야활용이가능한옵트-인 (Opt-In) 방식을적용하고있다. 이는관련업계에서정보를활용하여신용평가모형을개발하고개선하는데상당한제약사항으로인식되고있다. 물론개인정보보호가매우중요한문제이기는하나이러한제약을보완할수있는규제및제도의개선이필요하다. 20 빅데이터를이용한딥러닝기반의기업부도예측연구

Ⅲ. 부도예측연구방법론 1. 선행연구 가. 기업부도예측연구 Altman(1968) 의다변량판별분석과 Ohlson(1980) 의로짓모형으로대표되는전통적인재무정보기반의기업부도예측연구는이후재무정보에만국한하지않고시장정보를기반으로적시성있는기업부도예측을연구하는방향과다양한방법론을적용하여예측모형의성과를높이는방향으로발전하였다. McQuown(1993) 은주식시장의시장가격인주가에옵션가격평가모형을적용하여기업의부도위험수준인 EDF(Expected default frequency) 를측정하는모형 (KMV 모형 ) 을제시하였다. 이연구는 EDF를이용하여채무불이행확률이발생할추정치를도출하는것은단순한기대손실과는다르며, 채무불이행예측에보다효율적임을실증하였다. 오세경 (2001) 은국내기업을대상으로로짓 (Logit) 모형을이용한다변량판별분석과함께옵션가격평가모형을이용하여 EDF의시간별변화추이를분석하였다. 연구결과부실기업들의 EDF가부도가발생하기수개월또는 1년이상전부터급격히올라가는것을실증함으로써시장정보에의한기업부도예측이국내기업의예측추정에도유용함을증명하였다. 이와같이개별적으로부도예측과정에활용되던재무정보와시장정보는 Shumway(2001) 가회계정보와시장정보를헤저드모형으로통합하여부도예측력을높일수있는방법을제안하면서본격 Ⅲ. 부도예측연구방법론 21

적으로두정보원천을통합한연구가진행되었다. 이연구는재무정보와시장정보가상호보완적으로부도예측성과를높일수있다고주장하였다. Campbell, Hilscher, and Szilagyi(2008) 또한후속연구에서회계모형과시장정보를결합한헤저드모형이기존의개별모형보다부도예측력이우수하다는것을실증하였다. 이연구는기존에활용되지않았던시장정보기반의변수를모형에적용하여 Shumway(2001) 보다부도예측력이개선된헤저드모형을제시한것이특징이다. 이인로 김동철 (2015) 은 Campbell et al.(2008) 의연구결과를활용하여회계정보와시장정보를통합한헤저드모형으로국내기업의부도예측을수행하였다. 미국기업을대상으로적용하여선정된변수를국내기업에그대로적용하여변수의계수만을재추정한기존모형과국내기업에적합하도록모형을수정한새로운헤저드모형을별도로추정한모형의부도예측력을비교분석한결과국내기업에적합하도록변형된모형이최종적으로가장우수한예측성능을나타내는것을실증하였다. 최정원 오세경 (2016) 또한비례헤저드모형을활용하는생존분석과 KMV모형을활용하여재무정보와주가정보를결합하는방법을연구하였다. 한편, 거시경제변수의영향을반영한통합기업부도예측모형연구도수행되었다. Nam, C., T. Kim, N. Park, and H. Lee(2008) 시간가변적인 (Time-varying) 헤저드모형을사용하여거시경제변동이기업의부도 ( 헤저드 ) 확률을상승시킬수있음을실증분석하였다. Tinoco and Wilson(2013) 은재무지표, 시장정보와함께거시경제변동수준을설명변수로포괄하는 Panel Logit 기반의다중회귀분석을활용한부도예측모형을연구하였다. 연구결과, 거시경제변동은부도에매우결정적인 (conclusive) 영향을미치지는않았지만 22 빅데이터를이용한딥러닝기반의기업부도예측연구

시장정보등타요인의한계적 (marginal) 으로영향을미칠수있음 을연구하였다. 국내연구로서는김성규 (2010) 가거시경제상승 / 하 락을더미변수로활용한사례가있다. 나. 빅데이터기법을활용한관련분야연구 빅데이터를활용한예측모형연구는최근관련분야의대내외적인관심증가로인하여폭발적으로증가하고있다. 특히텍스트마이닝은적용할수있는영역이광범위하여선행연구들은다양한분석방법을제시하고있다. 배상진 박철균 (2003) 은텍스트마이닝과정을 4단계로나누었는데각각문서수집, 문서전처리, 텍스트분석, 그리고결과해석및정제과정으로설명하였다. 특히기존의데이터수집방법에비하여강조되는부분은전처리과정으로서텍스트마이닝에필요없는단어또는기호를정제하는과정과문장의정확한의미파악을위해서각단어의어간을파악하고동의어를할당하는정규화과정을필요로한다고하였다. 또한한글의경우동의어, 유사어처리를위해서문장에서최소의의미단위를추출해내는형태소분석 (morphological analysis) 단계와통사구조를파악하는구문구조분석 (syntactic analysis) 단계, 의미구조를추출하는의미분석 (semantic analysis) 단계를나누어분석하여야함을언급하였다. 김근형 오성렬 (2009) 도전처리과정과텍스트분석과정으로나누어설명하였는데, 일반적인텍스트데이터들을컴퓨터가처리하기쉽도록변화하는과정을전처리과정으로논하였다. 또한텍스트데이터의계량화는특정단어와관련된문서들을신속하게검색할수있도록 FB (Frequency-Based), IDF (Inverse Document Frequency), LSI (Latent Semantic Indexing) 등의계량화된지표 (index) 를만 Ⅲ. 부도예측연구방법론 23

드는과정이라고설명하고있다. 또한문서와단어간의연관성분석등계량화방법도제시하였다. 텍스트정보를이용한분석과정에서유의할점은단순히텍스트의횟수를분석하는방법은텍스트가담고있는감성 (Opinion) 을분석결과에반영하기어렵기때문에별도의감성분석을필요로한다는점이다. 김유신 김남규 정승렬 (2012) 은뉴스키워드의감성분석을이용하여투자의사결정모형을구축하고, 이모형이시장대비초과수익률을얻을수있는투자전략임을실증하였다. Martinez, Garcia, and Sanchez(2012) 도금융경제관련뉴스텍스트를추출하여의미와감성을분석하는방법을제시하였다. 기업부도예측에텍스트정보가활용된사례는비교적최근의연구들이많은편이다. 이광석 (2014) 은기존의재무정보와시장정보기반으로는중소기업대상의부도예측은한계가있음을지적하고해당기업의신용거래, 연체정보등을실시간으로이용하여부도예측을수행하는방법을제시하였다. 이연구는기존의부도예측의사각지대인중소기업및개인기업을대상으로하는매우유용한연구이기는하나제시된주요분석정보데이터가아직은공공재로공개되지않은공공기관내부데이터로서타연구에적용하기어려운한계가있다. 최정원 한호선 이미영 안준모 (2015) 는부도기업과정상기업의인터넷뉴스텍스트를각각수집하여부도기업뉴스에서주로나타나는키워드를분석하고해당키워드가포함된기사가발생하는경우를부도로예측하였을때실질적으로부도예측이가능함을검증하였다. 조남옥 신경식 (2016) 도뉴스텍스트에대한감성분석기반의 multiple discriminant analysis(mda) 과로짓분석, 인공신경망, support vector machines (SVM) 등의방법을적용한부도예측모형을제시하고예측모형으로서유용성을실증하였다. 24 빅데이터를이용한딥러닝기반의기업부도예측연구

금융재무분야의뉴스텍스트를이용한많은연구는부도예측력주로주식등의투자자산가격예측에관한연구를중심으로진행되어왔다. Chen, De, Hu, and Hwang(2014) 은인터넷과 SNS 상의게시물을 집단 ( 군중 ) 의지성 (wisdom of crowd) 으로명명하고텍스트분석을통하여주가예측이가능함을실증분석하였다. 국내에서도김민수 구평회 (2013) 가검색엔진이제공하는검색어추세를기반으로주가를예측하는연구를수행함으로써, 전통적인정보외에다른정보원천들도빅데이터분석으로기존의정보원천을대체할수있음을연구하였다. 안성원 조성배 (2010) 도뉴스텍스트마이닝기법을시계열분석과정에적용하여주가예측모형에활용이가능함을실증분석하였다. 다. 인공지능기법을활용한관련분야연구 머신러닝, 딥러닝으로대표되는인공지능기법은비교적최신기술로서금융및재무분야에서는전통적인예측방법론에비하여연구의양과질모두부족한상황이다. 하지만최근기술의발전및전세계적인관심증가와함께관련연구가매우급격하게늘어나고있으며, 부도예측분야도몇몇선도적인연구가진행되었다. 이재식 한재홍 (1995) 은기존의재무정보만을활용한부도예측에한계가있음을지적하고이를보완하기위하여비재무정보를활용한인공신경망기반의부도예측모형을제시하였다. 연구결과, 재무정보가불투명한중소기업의경우이러한예측모형이더욱효과적임을실증하였다. Kim and So(2010) 는 support vector machines (SVM) 을이용하여부도예측을수행하였다. 이연구역시정보가상대적으로부족한중소기업 (SME) 의경우기존의방법론에비하여인 Ⅲ. 부도예측연구방법론 25

공지능기법이예측성능이더우수함을실증하였다. 김성진 안현철 (2016) 은금융기관의신용위험관리의중요한도구인기업신용등급예측과정에인공지능기법중랜덤포레스트 (Random Forests) 방법을적용하였다. 이연구는다중판별분석, 인공신경망, 다분류 SVM 등기존연구에서전통적으로기업부도예측과정에사용되어온기존방법론과비교에랜덤포레스트방법론이예측성능이우수함을실증분석하였다. 국외에서는 Yeh, Wang, and Tsai (2015) 은딥러닝개념의인공신경망기법중하나인 Deep Belief Networks (DBN) 이기존의머신러닝중대표적기법인 SVM보다기업부도예측성능이더우수함을연구하였다. 또한 Addal(2016) 은인공신경망 (Artificial Neural network), K 근접군집분석 (k-nearest Neighborhood) 등의방법론이기업부도예측에우수한예측력을보이는것을실증하였다. 한편, 부도예측은아니지만 Vahala(2016) 는외환시장의환율에대하여인공신경망 (Neural network) 기반의예측모형구축이가능함을보였다. 또한 Kim(2003) 은 SVM이금융시장의 time series 속성의데이터를예측하는데더욱효과적임을실증분석하는등최근인공지능관련기술의진보와함께금융, 재무분야의관련연구도역시급증하고있다. 26 빅데이터를이용한딥러닝기반의기업부도예측연구

2. 연구방법론 가. 분석데이터정의 본연구가분석에활용한데이터의종류및주요특징은 < 표 1> 과 같다. 5) < 표 1> 기업부도예측을위한원천정보구분및특성 구분의의활용가능데이터 1. 재무정보 2. 시장정보 3. 거시경제지표 4. 비정형정보 기업공시 ( 재무제표 ) 정보결산 ( 연 / 분기 ) 기준재무비율 상장기업의주식거래관련정보 주요기관에서집계및발표하는거시경제지표 전통적인방법으로활용하기어려웠던비정형 ( 텍스트 ) 데이터 - 수익성 : 자산 ( 자본 ) 대비수익률등 - 성장성 : 매출증가율, 자산증가율등 - 건정성 : 부채비율, 이자보상배율등 - 기타재무지표, 주주비율등기업정보 - 시장지표 : 주가, 시가총액, 주가수익률, 거래량 - 재무비율혼합지표시장가대비장부가비율시장조정부채비율, 시장조정등 - 거시경제지표 : 국가총생산 (GDP), 통화량, 물가지수 (PPI,CPI), 기업경기실사지수 (BSI) 등 - 금융시장지표 : 금리, 종합주가지수, 변동성지수등 - 뉴스 ( 정보뉴스및방송, 잡지등 ) - 공시자료, SNS( 인터넷사이트 ) 등의정보 - 주로텍스트형태의데이터로확보 5 후보변수중모형에선정된각변수의구체적인정의및산출방법은 Appendix 에서확인할수있다. 재무정보와시장정보는공시데이터를정리한재무 DB Source (Data Guide Pro 5.0) 를활용하여수집하였다. 거시경제정보는한국은행통계시스템 (ecos) 을이용하여연단위데이터를수집하였다. Ⅲ. 부도예측연구방법론 27

재무정보의경우기업에대한가장기본적이고객관적인실적지표로서기업부도예측에반드시활용되는정보이다. 재무정보는손익성과를측정하는수익성지표, 자본구조를나타내는건전성지표, 성장성지표, 활동성지표등으로구분할수있다. 주가 등의기업에대한시장정보는분석시점의기업에대한최신정보를반영하고있다는특성이있으므로재무정보의적시성부족문제를보완할수있다. 다만, 시장정보는유가증권시장에상장되어주식이거래되고있는기업만이정보를제공한다는한계점이있다. 재무정보와시장정보는각각활용할수있지만, 두정보를결합하여모형에반영하는방법론도연구되었다. 이인로 김동철 (2015) 의연구는국내기업의경우단순히장부가격기준의재무지표보다시장가치로조정된재무지표를사용하는것이보다예측력이우수하다고하였다. 본연구또한재무지표중 총자산 을 장부가기준총자산 과자본가격을시장가격으로조정한 시장조정총자산 으로나누어설명변수로활용하였다. 거시경제지표의경우과거일부부도예측연구에서설명변수로활용되고있으나, 각기업의특성이나현황을정확히반영할수없기때문에활용빈도가재무지표나시장지표에비하여떨어지는편이다. 하지만기업의부도발생은거시경제수준이나산업의경기수준에독립적일수없기때문에재무지표혹은시장지표와함께모형에반영할경우보다정확한예측을수행할수있을것으로기대할수있다. 특히경기에민감한업종의경우금융위기기간에집중적으로부실이발생하는특징이있기때문에거시경제및산업변수를보다적극적으로활용할경우과거연구에비하여우수한예측모형을추정할수있다. 28 빅데이터를이용한딥러닝기반의기업부도예측연구

비정형정보는그간에연구들이주로사용하지못하였던정보원천인뉴스및인터넷등의미디어데이터를주로포함한다. 인터넷뉴스포털의기업명을키워드로검색한기사결과를기반으로뉴스정보를수집하였다. 신뢰도있는정보를위하여 < 표 2> 에해당되는언론사기사만선택하여취합하였으며, 텍스트수가매우적은단순사실보도자료, 스포츠기사, 중복기사등은제외하여분석대상텍스트데이터를구성하였다. < 표 2> 뉴스텍스트수집대상언론매체 구분종합경제온라인 / 인터넷 언론매체 경향신문, 국민일보, 동아일보, 로이터, 문화일보, 서울신문, 세계일보, 연합뉴스, 조선일보, 중앙일보, 한겨례일보, 한국일보, JTBC, KBS, MBC, SBS, YTN 뉴스토마토, 매일경제, 머니투데이, 서울경제, 아시아경제, 이데일리, 조선비즈, 파이낸셜뉴스, 한국경제, 한국경제 TV, 헤럴드경제, MBN, SBSCNBC 데일리안, 오마이뉴스, 쿠키뉴스 나. 예측방법론 본연구분석과정에서활용한예측방법론의종류와각방법론의 특징은 < 표 3> 과같다. Ⅲ. 부도예측연구방법론 29

< 표 3> 기업부도예측방법론요약 예측모형 분류방법론특징 이진분류방법 로지스틱회귀분석 (Logit) Decision Tree 전통적 ( 대표적 ) 이진분류모형 대표적인 Data mining 기반이진분류방법론 생존분석 Cox-PH Hazard 공변량의특성에따른생존기간예측모형 인공지능 ( 머신러닝 ) ( 딥러닝 ) 시장정보 6) Random-Forest (RF) SVM Deep Neural Network (DNN) Recurrent NeuralNetwork(RNN) KMV 모형 Random-Forest 여러개의 Decision Tree 들을임의적으로반복학습하여추정하는앙상블기법을활용한예측방법론 데이터가어느카테고리에속할지판단하는비확률적이진선형분류모형을만들어예측하는방법론 인공신경망의 Hidden Layer 층을겹겹이 (Deep) 설계한방법론 DNN 의 Hidden Layer 설계시변수간의시간순서 (Sequence) 를고려하여설계하여학습과정에활용한딥러닝방법론 옵션가격결정모형을기반으로주가변동에따른부도확률을산출하는방법론 (1) 전통적이진분류방법론 기업부도예측과같은이진 (binary) 변수를추정하는가장대표적 인방법은로지스틱회귀모형과의사결정나무 (Decision Tree) 을들 수있다. 로지스틱회귀분석은재무지표, 시장지표등의정보를설명 6 다른방법론은모두연간부도예측과정에활용하지만, 시장정보를활용한 KMV 모형은텍스트정보를이용한월단위부도예측과정에서만비교분석모형으로활용하였다. 30 빅데이터를이용한딥러닝기반의기업부도예측연구

변수로활용하여기업의부도여부 (1 or 0) 를추정하는방법이다. 의사결정나무역시이진분류에많이활용되는방법으로부도여부를결정하는중요한요인및기준값을노드 ( 분류기점 ) 로설정하여분류나무 (tree) 구조를설계함으로써부도여부를판단하는모형이다. 이두모형은그동안의연구에서지속적으로활용되어왔으므로새로운분류 ( 예측 ) 기법을평가하는기준모형으로많이활용된다. 본연구또한예측모형에적용되는동일한분석데이터를로지스틱회귀모형과의사결정나무에적용하여기존방법론과새로운방법론의예측성능을비교한다. (2) Cox 비례 (PH) 헤저드모형 생존분석방법론중하나인헤저드모형 (hazard model) 은회계정보와시장정보를통합하여부도를예측하는모형으로부도발생시점까지의시간을고려하는방법론이다. 특히공변량을모형에적용할수있는 Cox 비례위험모형 (Cox PH Regression) 은종속변수가부도여부를판별하는이진분석방법론에비하여기업생존주기에따른부도발생확률이라는추가적인정보를적용할수있다는장점이있다 ( 최정원외, 2016). 이인로외 (2015) 는헤저드모형을기반으로회계정보와시장정보를결합하여부도예측을수행하였을때기존의방법론에비하여우수한예측력을얻을수있다고하였다. 이연구는 Campbell et al.(2008) 이제시한헤저드모형의경우미국기업에맞도록변수가설계되어있어수정이필요함을주장하고, 국내현황에맞도록수정한변수를적용한새로운헤저드모형이보다더우수한예측력이나타나는것을실증분석하였다. 본연구는이밖에많은선행연구들 Ⅲ. 부도예측연구방법론 31

이제시한유의한변수와방법론을적용한헤저드모형을구축함으로써부도예측최적의헤저드모형추정을시도하였다. Cox 비례헤저드모형을추정하는과정은다음과같다. 어떠한개체 ( 기업 ) 의사망 ( 부도 ) 가발생하는시점을 라고가정하면, 현재 ( ) 시점에서의추정생존기간은 - 가된다. 이와같은가정하에생존기간은식 (1) 과같은확률밀도함수를가지는확률변수로표현할수있다. lim (1) 이러한확률변수를 의누적함수형태로정의하면, 시점이전에사망하지않을확률을식 (2) 와같은생존함수형태로표현할수있다. 또한이생존함수를식 (3) 과같이역함수형태로변환하면헤저드 ( 위험 ) 함수를얻을수있다. (2) (3) exd (4) 도출된헤저드함수를기저함수로공변량 ( 설명변수 ) 의영향을반영하는 Cox 비례위험모형은식 (4) 와같이정의된다. 는사망 ( 부도 ) 발생기업의헤저드함수이고 는정상기업의헤저드함수이다. 따라서이모형은재무정보, 시장정보등의설명변수가기 32 빅데이터를이용한딥러닝기반의기업부도예측연구

업의부도 ( 헤저드 ) 확률에비례적으로어떠한영향을주는지도출하는모형이다. 본연구에서는기저함수를추정하는데있어대표적인비모수적함수추정방법으로 Kaplan-Meier법 (K-M법) 을이용한다. K-M법은해당기간에누적으로생존한개체수를비율로표시하여주는방법인단순누적생존확률과크게다르지않다. 하지만확률론에입각하여모수분포의가정이필요없고중도절단이있는생존자료의특성을반영할수있기때문에적은양의표본을통해서도생존함수를추정할수있는장점이있는방법론이다. 본연구는기저헤저드함수추정에있어서산업별층화헤저드함수를적용하였다. 각산업은특징에따라생존주기에차이가날수있기때문이다. 이를그래프로도식하면 < 그림 7> 과같다. < 그림 7> 시장별산업별헤저드 ( 생존 ) 함수산출결과 우선 < 그림 7> 의좌측그래프는유가증권시장별생존함수의차이를보여준다. KOSDAQ에속한기업이상대적으로생존확률이상당히떨어지는것을확인할수있다. 우측그래프는주요산업 ( 그룹 ) 7) 별생존함수이다. 건설 산업에속한기업은타산업에비하여 Ⅲ. 부도예측연구방법론 33

초기에는오히려생존확률이높다가일정기간이후급격하게부도가많이발생하는것을확인할수있다. IT정보서비스 산업은오히려사업초기에부도가많이발생하지만일정기간이후에는부도기업이증가하지않는것을볼수있다. 이처럼산업별로생존함수는약간의차이가나타나게되므로각기업이속한산업별로생존함수를적용하여층화 (strata) Cox 비례위험모형을적용하면보다우수한예측성과를기대할수있다. 더욱이층화모형은 < 그림 7> 의산업별생존함수처럼함수가교차하는경우보다우수한예측성능을보인다 ( 박재빈, 2006). (3) 인공지능기법 인공지능기법중 Support vector machine( 이후 SVM) 은최근가 장빈번하게기업부도예측연구에서활용되는방법론중하나이다. SVM 은두카테고리중어느하나에속한데이터의집합이주어졌을 때, SVM 알고리즘이주어진데이터집합을바탕으로하여새로운 데이터가어느카테고리에속할지판단하는비확률적이진선형분 류모형이다. 만들어진모형은데이터공간에서경계로표현되는데 SVM 알고리즘은그중가장큰폭을가진경계를찾는알고리즘이 다. SVM 은선형분류와더불어비선형분류에서도사용될수있다 는점과기존의머신러닝 ( 데이터마이닝 ) 방법론에비하여과적합 (over-fitting) 이발생할가능성이낮은장점이있다고알려져있다 ( 김경재, 2002). 하지만 SVM 은효과적인입력변수선정에대한과 7 산업그룹은표준산업대분류를기준으로각산업에속한기업수를기준으로특정개수이상인그룹을별도구분하였다. 기타그룹은산업간유사한속성으로보기는어렵지만 Sample 수가적어통합하지않으면생존함수추정이불가능한그룹을의미한다. 34 빅데이터를이용한딥러닝기반의기업부도예측연구

정이알고리즘내부에포함되어있지않다는점, 많지는않지만커널함수및커널모수등과같은직관에의해설정되어야할모수들이있다는점에서다소한계가있다. Breiman(2001) 은의사결정나무 (Decision tree) 보다강건한예측방법론으로 Random forests 방법론을제안하였다. Random forests 는독립적인난수 sample vector로개별적인의사결정나무구조를반복적으로구성하고이를통합적 ( 앙상블, ensemble) 으로대표할수있는모형을찾아내는방법이다. 대수의법칙에의해숲 (Forests) 의크기 ( 나무의수 ) 가커질수록모형의정확도가상승하고, 일반화오류가특정값으로수렴하게되어과적합화를피할수있다. 또한각개별의사결정나무들을학습시킬때전체학습용자료에서무작위로복원추출된데이터를사용하고있어잡음 (Noise) 및이상값 (Outlier) 으로부터크게영향을받지않는다는장점이있다. Random forests 가갖는또다른큰장점은모형의설계자가입력변수선정으로부터자유로울수있다는점이다. 때문에, 많은수의독립변수와방대한양의학습사례로부터분류 예측을수행하여야하는본연구에매우적합한방법론이될수있다. 또한 Random forests는빈도가불균형한 (imbalanced) 이항분류의예측에있어가장우수한예측력을보이는것으로보고되고있다 ( 김성진외, 2016). 딥러닝기법은머신러닝의한종류로서, 1980년대등장한인공신경망 (ANN, Artificial neural network) 을기반으로설계된개념이다. 인공지능은 IT 기술및각종분석기법의발전과함께단점들을보완하며점차그한계를극복하여왔는데, 최근 AlphaGo 로대변되는 Google 사의 DeepMind 체계의경우 비지도학습 (unsupervised learning) 을통한최적화로경우의수가무한에가까운바둑분야에 Ⅲ. 부도예측연구방법론 35

서도인간을넘어서는능력을보여줄수있음을증명함으로써 딥러닝 이라는체계가전세계적으로조명을받고있다. 딥러닝의구조적인특징은기존의인공신경망 (neural network) 에서활용되는은닉층 (hidden layer) 을겹겹이 (deep) 쌓아특정한조건에서컴퓨터가스스로최적의모형을도출하도록유도한다는점이다. 과거에는이러한다중구조의최적화자체가쉬운일이아니었으나, 컴퓨터처리속도의향상, 데이터처리기술의발달, Back Propagation 등의연산방법개발등이이루어지며직접구현이가능한수준으로발전하였다. 더욱이최근에는 TensorFlow 등간단한딥러닝엔진은 Python 등 open source로비교적손쉽게개인컴퓨터로개발하여활용할수있기때문에더욱관련분야가발전하고있다. 딥러닝은은닉층 (Hidden Layer) 을어떻게구성하는가에따라여러가지구조로모형을구성할수있다 ( 그림 8). 은닉층을넓게 (wide) 혹은깊게 (Deep) 설계하면이론적으로는모형의정확도가상승한다. 반면, 은닉층을넓거나깊게설계할경우학습및추정하기위하여컴퓨터가활용하여야하는 Resource의물리적인양이증가하므로, 추정시간이오래걸리거나컴퓨터의 CPU, 메모리등의고성능하드웨어가필요할수있다는단점이있다. 8) 딥러닝체계설계시변수간의순서 (sequence) 를반영한모형을적용하기위해서는 RNN 체계를설계하는것을고려할수있다 (Gu, Zhang, Zhang and Kim, 2016). 이는 Panel data analysis 혹은 VAR(vector auto-regression) 모형과같이, 모형에투입되는변수의선후관계혹은시간등순서를지정하여추정하는방법이다. 본연구 8 DNN 최적의예측모형을산출하기위해서는 Cost 함수기준, 층별가중치 (LSTM), 시작값등을선택하여딥러닝체계를설계한후에학습및예측과정을수행하여야한다. 36 빅데이터를이용한딥러닝기반의기업부도예측연구

< 그림 8> DNN 체계구성개념 < 그림 9> RNN 체계구성개념 Ⅲ. 부도예측연구방법론 37

에서부도예측의설명변수로활용하는재무 / 시장 / 거시경제정보는전기 (t-1) 뿐만아니라그전의기간 (t-2, t-3, ) 에의해서도영향받을수있기때문에 ( 그림9), RNN체계를활용할경우좀더정확한예측이가능할것으로기대할수있다. RNN 체계는구조가복잡하여학습과예측에투입되는데이터양이많아야하고역시계산에소요되는 Resource( 시간, 컴퓨터성능등 ) 가추가적으로필요하다는단점이있다. (4) KMV 모형 재무정보가포함된부도예측모형은재무정보의생성주기가연간 9) 이기때문에재무지표공시기간동안에는기업재무현황이변동되어도재무지표에반영되지않는다. 따라서재무정보기반의부도예측모형은적시성이떨어지는단점을필연적으로가지고있다. 이를보완하기위하여제시된개념이 Merton(1973) 의옵션가격결정모형기반의시장정보를활용한부도예측모형 ( 이하 KMV 모형 ) 이다. KMV 모형은기업의정보가즉각반영되는시장정보 ( 주가 ) 를기반으로부도확률을예측하는체계이기때문에앞서언급한재무정보변동공백기간의적시성문제를보완할수있는특성을가지고있다. 다만, 주가를얻을수있는상장기업만을대상으로분석이가능하다는한계점이있다. 본연구는미디어기사를대상으로텍스트분석을통하여얻어진 9 상장기업의경우분기재무제표공시가의무화되어있지만, 기업의현황을정확히반영하는정보는여전히연정기감사보고서기준의재무제표정보를대상으로분석하여야한다. 분기재무지표는연간재무지표에비하여전기대비변동이매우적고세부계정단위로정확한데이터를수집하는것도상대적으로어렵다. 38 빅데이터를이용한딥러닝기반의기업부도예측연구

정보를기반으로 KMV 모형과유사한형태의부도예측모형을설계하여기존의 KMV 모형과예측성과를비교한다. KMV 모형의가장큰의미는시시각각시장정보에따라변화하는기업주가로일정기간동안의부도확률을구할수있다는점이다. 기존의재무제표변수는회계정보의기간단위보고의특성상즉각적인정보의적용이어렵다는단점이있으나 KMV 모형은매시점에서움직이는주가정보로 EDF를도출함으로써이를보완하여보다빠르게기업부도위험을인지할수있다는것이최대장점이다. KMV 모형은또한 EDF 를구하기위한과정이매우간단하면서도, 블랙-숄즈- 머튼옵션가격모형을사용하기때문에이론적으로기반이확실하다는장점을가지고있다 ( 최정원외, 2016). Merton(1973) 은기업의자산가치, 자기자본가치, 부채가치사이에는다음 ( 식 5) 같은관계식이성립한다고하였다. (5) ln (6) (7) : 해당시점시가총액 ( 주가 * 발행주식수 ) : 해당시점자산의가치 : T 시점에서만기가되는부채의장부가치 : 자산가치의변동성 Ⅲ. 부도예측연구방법론 39

: 만기 t 인무위험이자율 : 추정기간 ( 해당기간안에부도확률추정 ) : 표준누적정규분포의값 식의추정을위해서는자산의변동성이필요하지만이것을직접구할수없다. 따라서주식의변동성은시장정보를통하여알수있으므로, KMV 모형의정의에따라주식의변동성과자산의변동성사이에관계식을도출하고수치적인해를반복적시행착오의조정과정을거쳐서최적화값을찾아내야한다. 산출된자산변동성을활용하여부도확률예측을위한부도거리 (Default to distance, 이후 D.D.) 를산출할수있다. D.D. 를추정하기위한식과가정은다음 ( 식 8) 과같다. ln (8) : 해당기업연간자산의변동성 : 연평균성장률 : ( 자산가치 = 자본가치 + 총부채 ) : ( 자본가치 = 발행주식수 * 해당시점주가 ) : T기간안에만료되는유동부채잔액 40 빅데이터를이용한딥러닝기반의기업부도예측연구

다. 텍스트계량화방법론 텍스트정보는가장대표적인비정형데이터로서문서, 출판물, 웹페이지, 메일, 메시지등여러가지정보원천에서확보할수있다. 또한최근발전하고있는음성인식이나영상인식기술과결합할경우이러한정보원천의범위는더욱확장될수있다. 텍스트데이터를예측모형등에활용하기위해서는계량화된변수로측정하는과정을필요로한다. 본연구에서활용한계량화방법론은다음과같다. (1) Word2vec 활용 Word2vec 은단어들간의연관된규칙을찾아서각단어의관계를계량적으로산출하는방법론으로서, 각단어간의앞뒤관계를보고근접도를벡터의형태로계산하는알고리즘이다. Word2vec 은사전적으로학습시키는단계를수행하지않으므로 비지도학습 기반의인공지능 ( 머신러닝 ) 의일종으로볼수있다. 단어간의관계에대한정확한벡터를산출하기위해서는분석대상이되는대규모의텍스트데이터문서 (corpus) 데이터베이스를필요로한다. Word2vec 은 < 그림 10> 와같이 continuous bag-of-words( 이하 CBOW) or continuous skip-gram( 이하 Skip-gram) 두가지방법론이있다. CBOW는여러단어로부터한단어를추정하는방법으로서, 주로주변단어로부터목적이되는한개의단어를찾는과정에활용된다. CBOW는상대적으로작은 Data-set 일때도효과적으로동작하고추정속도도빠른것으로알려져있다. Skip-gram 은한개의단어로연관되는여러단어를예측할경우활용한다. 예를들 Ⅲ. 부도예측연구방법론 41

어, 어떠한단어가현재나타났을때향후어떤단어가나타날지를 추정하는것을목적으로하는경우사용하게된다. < 그림 10> Word2vec 방법론비교 본연구에서는 Word2vec 방법론을활용하여뉴스기사내에언급된단어간의관계를계량적으로분석하여연구과정에활용하고자한다. 기업의부도예측을위해서는부도와연관된기사가보도되는횟수, 비율등을파악하여야하는데, 부도와연관된기사라고해서모든기사에반드시 부도 ( 혹은 상장폐지. 이하동일 ) 라는단어가포함되지는않는다. 내용은부도와연관되어있지만 부도 라는단어대신다른어휘를사용한다거나비슷한느낌을전달하는단어를선택할수있기때문이다. 이때 Word2vec 을활용하면기사중에 부도 단어와유사한의미로사용되는단어들이유사도가높게산출되므로다른단어로표현된 부도 기사를판단할수있다. 42 빅데이터를이용한딥러닝기반의기업부도예측연구

(2) 부도관련기사비율측정 기업부도가실제로발생하기전부터여러가지징후가부도시점이전부터나타나게된다. 이때기자들은이러한징후를파악하여부정적인의견의뉴스기사를작성하게된다. 본연구에서는이러한현상을계량적으로분석하기위하여 부도관련기사비율 을 ( 식 9) 로측정하고자한다. 기간별로전체기사중부도와관련된기사의비중을산출하고, 이비율이높게나타날경우이를사전적인 부도 의징후로판단하여부도예측에활용하는것이다. 부도관련기사수부도기사비율, (9) 총정상기사수 = 기업, = 분석기간 ( 월간, 부도발생기준직전각 12 개월 ) 부도기사비율산출을위해서는부도기사에대한정의를필요로한다. 이과정에서앞서산출한 Word2vec 유사도를측정하여부도와연관된기사를판별하는과정에활용할수있다. 예를들어, 부도 와특정기준이상의유사도를나타나거나, 유사도기준으로순위 (rank) 를부여하여상위단어들을 부도유사단어 로선정할수있다. 이후선정된부도유사단어중 1개라도포함된기사를 부도관련기사 로판별할수있다. 10) 10 이러한방식으로산출할경우부도유사단어와부정서술문이결합된경우 ( 예 : 부도가발생하지않았다 ) 를별도로구별하기어렵다는단점이있다. 하지만부도를부정하는경우도일단부도와연관성이아주낮은상황이라단정하기어렵고, 분석기사수가증가함에따라이러한현상은희석되므로일단은상관없이분석을진행하였다. Ⅲ. 부도예측연구방법론 43

부도유사단어 (1) : 부도 단어와 Word2vec 유사도상위 20개단어부도유사단어 (2) : 부도 와 상장폐지 두단어와 Word2vec 유사도상위 20개단어 이러한방식으로각각의도출된 [ 부도유사단어 (1)~(2)] 을기준 으로 [ 부도기사비율 (1)~(2)] 을각각추정할수있다. (3) 기사 / 기업 / 기간단위유사도수준측정 Word2vec 을이용하면기사를구성하는모든단어 11) 에대하여 부도 단어와유사도를측정할수있으므로, 기사를구성하고있는해당단어들의유사도평균값을산출하면해당기사의 부도 단어와의유사도수준을측정할수있다. 또한기사단위유사도는기업별, 기간별로다시평균값을산출함으로써특정기간의해당기업에대한기사를구성하고있는단어들의 부도 와의유사도평균수준을산출할수있다. 이러한방식으로분석대상이되는기업과해당기간에대한뉴스의 부도 와의유사도수준을측정하여계량화된변수를산출할수있다. 부도유사도 (1) : 특정월의해당기업의기사를구성하고있는모든 단어의유사도평균수준 11 모든단어에유사도를부여하는것이가능하기는하지만, 분석 resource( 시간, 데이터량등 ) 가소모되는수준에비하여분석의실효성은떨어진다. 따라서모든뉴스기사를취합한기준으로최소 200 회이상언급된단어 5,335 개에대해서만유사도를측정하여분석에활용하였다. 44 빅데이터를이용한딥러닝기반의기업부도예측연구

부도유사도 (2) : 특정월의해당기업의기사단위유사도평균 ( 단어 유사도총합 / 기사수 ) 3. 모형의예측력평가방안 가. 모형예측력평가지표 앞서설명한여러가지방법론을적용하여기업부도예측을수행할경우모형의성능을비교하기위해서는동일한개념으로적용이가능한객관적인모형평가방법이필요하다. 예측모형의성능은 구축된모형이얼마나예측분류에서실제분류와똑같이분류하는가? 가모형의평가의핵심이될것이다. 즉, 본연구의기업부도예측과같은이진분류예측의상황은두범주 ( 부도, 정상 ) 간의정확한분류가가능한지를여러모형간에비교하여봄으로써모형평가를수행할수있다 ( 최정원외, 2016). 예측값과실제값기준의정확도의산출방법은 < 표 4> 와같다. < 표 4> 이진분류모형의예측정확도지표산출방법 예측범주 1 0 합계 실제범주 1 0 합계 정확도 (Accuracy, 정분류율 ) = 민감도 (Sensitivity) 특이도 (Specificity) = = Ⅲ. 부도예측연구방법론 45

기업부도예측모형과같은이진판별예측을수행할경우, 0에서 1 사이에서판별값 (Threshold) 이변함에따라민감도와특이도를포함한정확도가변동하게된다. 이러한판별값별로변하는민감도와특이도간의관계를그래프로나타낸것이 ROC(Receiver Operation Characteristic) 곡선그래프이다. ROC곡선의특성은민감도와특이도가크면클수록좌상향으로치우칠것이며, 이와같은경우가가장정확도가높은수준으로추정할수있다. 12) 본연구에서는각예측모형추정결과의 ROC를모두도출하여판별값과상관없이가장정확도가높은수준을각모형의예측수준으로평가하였다. 13) 나. 모형평가강건성증대방안 만약예측모형을도출하여모형의예측력을평가하는과정에서모형도출시활용한학습 (training) 데이터를상기평가방법과같은예측력평가로적용하면상당히우수한예측력이나올가능성이높다. 이는과잉적합과함께대표적으로인공지능과같은귀납적추론과정에서흔히나타나는오류이다. 12 예측목적에따라정확도가아닌민감도혹은특이도를예측모형평가지표로활용하는경우가있다. 예를들어부도기업예측시, 부도 (1) 인기업을부도 (1) 로예측하는것이정상 (0) 기업을정상 (0) 기업으로예측하는것보다중요하다고생각한다면정확도보다는민감도를평가기준으로삼아야한다. 이러한가정은보통부실기업의 sample 수가현저하게작아서정확도로예측모형의성능을정확하게평가하기어려운경우사용한다. 본연구는 Test set 구성시, 부도 (1) 과정상 (1) 비중을 50% : 50% 균형 sample 로설정하여분석하므로정확도를모형예측의평가지표로설정하였다. 13 이론적으로는판별값으로 0.5 수준을설정하는것이맞으나모형및데이터특성에따라판별값이많이달라진다. 아직까지확실하게이론적으로판별값을지정하는방법론이확립되지않아대부분의 Data-mining Concept 의연구는본연구와같이귀납적으로판별값을설정하여예측결과를산출하고있다. 46 빅데이터를이용한딥러닝기반의기업부도예측연구

이를방지하기위해서는 Sample data를학습세트 (training set) 와평가세트 (test set) 으로나누어예측정확도 (Accuracy) 를산출하고이를근거로모형의성능을평가하여야한다. 본연구도학습세트와평가세트를전체표본중중복되지않도록 70% 대 30% 의비중으로배분하여모형의추정과예측력평가과정에각각사용하여이와같은오류를최소화하고자하였다. 한편, 그동안의연구에서는부도기업의표본 (sample) 수가정상기업에비하여매우작은경우가많이나타나기때문에꾸준하게표본의불균형에의한모형예측력평가의어려움이있음을한계로지적하여왔다. 14) 이에본연구는부도기업의표본은고정하고정상기업의표본을부도기업수만큼만 Random 형태로 Sampling 하여균형 (equal-weighted. 50% 대50%) 표본을구성하여모형의추정과평가에활용하는방안을적용하였다. 다만이러한방식을사용할경우정상기업표본에서표본선택에따른편의 (bias) 가발생할수있으므로, 평가과정의강건성을얻기위하여정상기업표본을반복적으로총 100 세트 (set) 를임의확률 (random) 로구성하여모형평가과정에활용하였다. 따라서각방법론의예측수준평가를위한정확도값은모든평가세트 (100 set) 에서산출된정확도의평균수준으로산출하였다. 14 예를들어, 정상기업과부도기업의비중이 90% : 10% 라면, 모두정상기업으로판단하는예측을수행해도예측정확도가 0.9 로나타난다. 따라서편중이심한표본은항상예측모형의정확도를과대하게평가할수있는우려가있다. 최정원외 (2016) 은이와같은문제점을해결하는방안으로각부도기업별로동일한시장 ( 코스피 / 코스닥 ), 유사한산업, 유사한재무수준의정상기업을 1:1 로짝지어 (mapping) 분석하는방법을적용하였다. 하지만이방법은객관적인기준으로유사한기업을찾기가쉽지않아서분석자가임의적으로대상을선정하는경우가많이발생한다. 이러한편의 (bias) 를줄이고자본연구에서는임의확률 (Random) 을이용하여균등표본을설계하는방안을적용하였다. Ⅲ. 부도예측연구방법론 47

Ⅳ. 실증분석 1. 부도사건의정의 증권거래소, 법원등상거래상기업의현황을정의하여야하는공적인기관에서는공식적인부도를정의하고있다. 하지만실제로기업의부도를인식하는기준은분석하는목적과연구자에따라기준이다를수있다. 또한실제로이미기업의실질적인부실이발생하고상당한기간이소요된후부도가공식적으로인식되는경우도많이발생하게된다. 따라서기업부도예측연구과정에서보다유용한결과를얻기위해서는기업의부도 ( 부실 ) 에대한명확한정의를하는것이매우중요하다. 본연구는이인로 김동철 (2015), 최정원 오세경 (2016) 등의선행연구와같이유가증권시장에서 상장폐지 가결정된기업들중부도에관련된공시 15) 가발생한기업들을부도발생기업으로인식하고분석을진행하였다. 상장폐지사건은부도와반드시연결된다고볼수는없으나일부상장폐지가발생한대부분의기업은특수한상황을제외하고부도가발생하거나부도에준하는재무상황이발생하여타투자자에게지분이인수된다. 또한부도가발생하지않더라도상장폐지사건은거래정지및주가하락이발생하여투자자와채권자가큰손실을입을수있는사건이므로상장폐지를부도로인식하는 15 부도발생, 화의절차개시신청, 회사정리절차개시신청, 감사인의의견거절 및 은행거래정지 등기업의부실및지속가능성이심각하게의심되는사유로발생한상장폐지사건을부도로정의하였다. 반면, 신규 / 변경상장, 특수목적에의한상장폐지, 기업피인수 등원인의상장폐지공시는부도사건과상관없는공시로정의하여분석대상에서제외하였다. 48 빅데이터를이용한딥러닝기반의기업부도예측연구

것은보다보수적인기준에서부도를적절하게정의하는방법이라고 할수있다. 2. 데이터수집및정제 가. 분석대상기업정의 2001 년부터 2015 년까지상기부도정의에따라유가증권시장에 상장된기업을대상으로분석대상이되는부도기업과정상기업을 집계하면 < 표 5> 와같다. < 표 5> 분석대상기업시장구분 정상기업 부도기업 Total KOSPI 678 133 811 KOSDAQ 1108 370 1478 Total 1786 503 2289 부도기업은상대적으로 KOSDAQ 시장에서많이발생하였다. KOSPI 시장의경우 IMF 위기이후기간인 2002년전후, KOSDAQ 시장의경우 2008년글로벌경제위기이후기간인 2009년에서 2011년사이에집중적으로부도기업이발생한것을확인할수있다. Ⅳ. 실증분석 49

< 그림 11> 연도별부도기업추이 나. 텍스트데이터수집 비정형정보인뉴스텍스트데이터를수집하기위하여, 분석대상기업들에대한 2010년 1월부터 2016년12월까지의 84기간의뉴스컨텐츠를 네이버 뉴스검색홈페이지를활용하여수집하였다. 16) 텍스트DB를구축하기이전, 분석대상기업의전체기사수를먼저집계하여분석대상제외조건을만족하는총 650건 ( 비부도기업 273 부도기업377 개 ) 의경우를제외하였다. (a) 2010년전의부도가일어난기업 : 기사를확보할수없음 (b) Sample 수가부족한경우 : 분석대상기간 (2010년 ~ 2016년 ) 동안기사수 100건이하 (c) 기업의이름이일상적인용어와같은경우 (Ex: 전방, 청구, 부흥, 진도등 ) (d) 기타해당기업의기사인지정확하게확인할수없는기업 16 R 프로그램을사용하였으며 N2H4 패키지를사용하였다. 50 빅데이터를이용한딥러닝기반의기업부도예측연구

제외후텍스트정보수집대상기업은총 1,788개의기업으로총 2,506,080 건의기사를텍스트 DB로확보하였다. 기업당평균적으로약 1,402건의기사를수집하였고, 1개월당평균적으로약 16.6건의기사이다. 또한연도별로기사수추이는 < 표 6> 과같다. < 표 6> 총뉴스기사수연간추이및합계 구분 Total 2010 2011 2012 2013 2014 2015 2016 기사수 2,506,080 110,213 39,040 390,764 394,128 402,792 26,991 442,152 기업당평균 1,402 62 190 219 220 225 239 247 텍스트 DB는이후자연어처리과정 (Natural Language Processing, NLP) 을진행하였다. 17) 기사수와마찬가지로총집계 200개이하의키워드는분석에서제외하였고, 동의어는의미상의대표단어로변환하여활용하였다. 또한특정의미 ( 회사명, 제품명, 인물명, 지명, 일자, 시간 ) 명사는제외하였다. 다. 부도기사비율및부도유사도산출결과 앞 (Ⅲ 장 2. 다.) 에서설계한방법론을토대로수집된텍스트데이 터를계량화하여기업부도예측모형에서활용할수있도록변수화 하는과정을수행하였다. 17 자연어처리는 R program 의 KoNLP Package 를사용하였으며, 자연어처리의성능향상을위해한국정보화진흥원에서개발한형태소사전을이용하였다. 자연어처리외에도도출빈도수가높은키워드중에특정한의미의동의어, 불용어등은분석자가직접지정하여처리하여야한다. Ⅳ. 실증분석 51

(1) Word2vec 산출결과 수집된텍스트데이터베이스를기반으로 부도 및 상장폐지 와기 사내에언급된단어간의유사도를 Word2vec 을이용하여산출할 수있다. 다음은유사도기준상위 20 개단어를선별한결과이다. < 표 7> Word2vec 유사도산출결과 Rank ' 부도 ' 기준 ' 부도 ' & ' 상장폐지 ' 기준 word 유사도 word 유사도 1 도산 0.74 퇴출 0.63 2 파산 0.63 관리종목 0.62 3 경영난 0.60 파산 0.62 4 외환 0.60 도산 0.61 5 자금난 0.60 분식회계 0.60 6 법정관리 0.57 법정관리 0.57 7 어음 0.57 원리금 0.56 8 연체 0.55 잠식 0.56 9 워크아웃 0.54 연체 0.55 10 대출금 0.53 자금난 0.55 11 원리금 0.53 손실 0.54 12 폐업 0.53 매매거래 0.53 13 부실화 0.53 워크아웃 0.53 14 부실 0.52 부실 0.53 15 채무 0.50 기업회생 0.52 16 손실 0.49 감사보고서 0.52 17 몰락 0.48 대출금 0.52 18 제때 0.48 회생 0.52 19 기업회생 0.48 부실기업 0.51 20 속출 0.47 정지 0.51 52 빅데이터를이용한딥러닝기반의기업부도예측연구

부도 와 상장폐지 는두단어간에도유사도가존재하기때문에 두기준에공통적으로해당하는단어가많이나타나는것을확인할 수있다. 18) (2) 부도기사비율산출결과 < 표 7> 의 Word2vec 기준으로부도연관기사를산출한결과를 요약하면 < 표 8> 과같다. < 표 8> 부도연관기사및부도기사비율연간추이 부도연관단어 (1) 기준 부도연관단어 (2) 기준 구분 Total 2010 2011 2012 2013 2014 2015 2016 부도연관기사수 부도기사비율 (1) 평균 부도연관기사수 부도기사비율 (2) 평균 380,673 16,586 48,636 59,214 65,863 60,729 59,473 70,172 15.19% 15.05% 14.35% 15.15% 16.71% 15.08% 13.93% 15.87% 389,952 14,496 46,398 59,157 69,142 64,457 61,718 74,584 15.56% 13.15% 13.69% 15.14% 17.54% 16.00% 14.45% 16.87% Word2vec 으로산출된부도연관단어가포함된부도기사비율은 두기준모두평균약 15% 정도로나타난다. 18 두기준모두상위 20 개를연구기준으로설정하였으나상위 30, 40 개정도로확장하면중복되는단어가더욱많아진다. 또한선정된단어중에서일부단어는간접적인영향이추정되지만직접적으로연관성이있는지의구심이드는단어도존재한다. 이부분은향후연구에서보완이필요하다. Ⅳ. 실증분석 53

< 표 9> 정상기업과부도기업의부도기사비율평균비교 구분 2010 2011 2012 2013 2014 2015 부도기사비율 (1) 부도기사비율 (2) 정상기업평균 부도기업평균 평균차이검증 (t stat.) 정상기업평균 부도기업평균 평균차이검증 (t stat.) 0.1538 0.1655 0.1732 0.1739 0.1835 0.1732 0.2634 0.2990 0.3089 0.3865 0.4288 0.4003-4.74*** -6.70*** -5.87*** -7.47*** -7.01*** -4.27*** 0.1445 0.1664 0.1815 0.1894 0.1769 0.1763 0.2915 0.3311 0.3218 0.4186 0.4002 0.5049-6.32*** -8.05*** -5.67*** -7.46*** -6.55*** -5.95*** < 표 9> 는각각의부도기사비율을정상기업과부도기업으로나누어평균수준을산출하고두분류간의평균수준을통계적으로비교한결과이다. 비교결과부도기사비율은부도연관단어 (1), (2) 기준모두정상기업과부도기업간의유의한평균차이가있음을알수있다. 즉, Word2vec 을기준으로산정한부도기사비율은부도기업을선별하기위한계량변수로충분히활용이가능한것을알수있다. (3) 부도유사도산출결과 < 표 7> 의 Word2vec 기준으로각기사의부도유사도를산출하 고, 이를연도별로부도유사도평균수준을산출하면 < 표 10> 과같다. 54 빅데이터를이용한딥러닝기반의기업부도예측연구

< 표 10> 부도연관기사및부도기사비율연간추이 구분 Total 2010 2011 2012 2013 2014 2015 2016 부도유사도 (1) ( 부도 ) 0.0206 0.0124 0.0216 0.0276 0.0279 0.0296 0.0247 0.0206 부도유사도 (2) ( 부도 & 상장폐지 ) 0.0546 0.0309 0.0609 0.0730 0.0728 0.0749 0.0695 0.0546 부도유사도평균수준은 부도 단어와의유사도평균수준을산출한부도유사도 (1) 는약 0.02, 부도 및 상장폐지 단어와의유사도를평균한부도유사도 (2) 기준은 0.05 수준으로산출된다. < 표 11> 은 < 표 9> 와같이정상기업과부도기업을나누어평균을산출하고통계적으로평균차이를검정한결과이다. < 표 11> 정상기업과부도기업의부도유사도평균비교 부도유사도 (1) 부도유사도 (2) 구분 2010 2011 2012 2013 2014 2015 정상기업평균 0.0170 0.0268 0.0372 0.0376 0.0404 0.0327 부도기업평균 0.0200 0.0484 0.0621 0.0770 0.0474 0.1150 평균차이검증 (t stat.) -0.24-0.88-0.81-1.09-0.15-1.11 정상기업평균 0.0426 0.0811 0.1011 0.1009 0.1057 0.0968 부도기업평균 0.0563 0.1272 0.1433 0.1525 0.1025 0.2365 평균차이검증 (t stat.) -0.80-1.36-0.95-1.02 0.05-1.38 부도유사도평균수준은정상기업과부도기업간에유의한평균 차이가나타나지않는다. 이러한현상은부도유사도가높은단어가 기사에포함되더라도기사의대부분은부도유사도가낮은단어로 Ⅳ. 실증분석 55

구성되어평균이큰영향을주지못하기때문이다. 부도유사도평균 의경우예측모형반영시이와같은특성을유의하여야한다. 라. 데이터수집결과요약및데이터세트 (set) 적용방안 정보원천별로모형예측의영향을평가하기위하여취합된분석 DB를 4가지의데이터세트로분류하여각각의모형에적용하고자한다. 분류된데이터세트의구성은 < 표 10> 과같다. 데이터세트는기존연구에서활용도가높았던순서대로재무정보, 시장정보, 거시경제정보, 비정형정보순으로점진적으로반영하는정보가늘어나는형태로설계하였다. < 표 12> 모형적용데이터세트요약 방법론 Set 1 Set 2 Set 3 Set 4 적용정보 (Source) 재무정보 재무정보 + 거시경제 재무정보 + 거시경제 + ( 증권 ) 시장정보 재무정보 + 거시경제 + ( 증권 ) 시장정보 + 미디어정보 (Text) 데이터수집가능기간 1998~2015 년 ( 연간 ) 1998~2015 년 ( 연간 ) 1998~2015 년 ( 연간 / 월간 ) 2010~2015 년 ( 연간 / 월간 ) 변수정보 31 개변수 (21 개재무변수 +10 개기업특성 ) 42 개변수 (Set 1 + 거시 11 개 ) 49 개변수 (Set 2 + 시장 7 개 ) 60 개변수 (Set 3 + 뉴스 11 개 ) 이용가능데이터수 결측제외총 33,621 개 (2291 기업 ) 결측제외총 30,268 개 (2291 기업 ) 결측제외총 21,402 개 (2291 기업 ) 결측제외총 9,706 개 (1,586 기업 ) 56 빅데이터를이용한딥러닝기반의기업부도예측연구

재무정보의경우부도발생전기 (t-1시점) 보다이전부터재무지표가악화되어부도에영향을줄가능성이있으므로총부도발생직전 3기간 (t-1, t-2, t-3) 기간의재무정보를사용하여예측모형을산출하였다. 한편, 뉴스텍스트정보는인터넷으로뉴스기사수집이가능한시점인 2010년이후의정보만활용이가능하다. 19) 따라서분석과정에서는이러한세트별기간의불일치를고려하여분석을하여야한다. 본연구는활용가능한데이터수준에따라 2 가지분석기준을추가로고려하였다. 따라서 < 표 12> 에서구분한정보기준과결합하면총 7개의분석 Set가구성되었으며, 각방법론에모든 Set를반영하여각각의예측모형을산출하고상호간의비교분석을수행하였다. 1) Set A : 재무, 시장, 거시경제정보 (2001~2016 년 ). 총 2291 개 ( 부도 502 개 ) 기업대상 [SetA_1] / [SetA_2] / [SetA_3] 2) Set B : 재무, 시장, 거시경제정보 (2010~2016 년 ). 총 1586 개 ( 부도 258 개 ) 기업대상 [SetB_1] / [SetB_2] / [SetB_3] / [SetB_4] 19 크롤링 Source 인 네이버뉴스 웹페이지가 2010 년이전뉴스를제공하지않는다. 기타 Source 를활용할경우분석기간에대한확장이가능하다. Ⅳ. 실증분석 57

3. 연간예측모형 재무정보를포함하는기업부도예측모형은연간단위로예측을 수행하여야한다. 부도여부 (1: 부도, 0: 정상 ) 를목표 (Target) 변수 로하여각방법론을활용하여예측모형을구성하였다. 가. 방법론별최적예측모형도출 상기과정을통하여생성된분석 DB 에대해각학습세트 (training set) 를기반으로 < 표 13> 과같은여러방법론을적용하여모형을적합 (fitting) 하고최적모형을도출하였다. < 표 13> 각모형의세부적용방안및산출모형적합도평가방법 방법론세부적용방법론및가정산출 (fitting) 및모형평가방법 1. 로지스틱 (Logit) 다중회귀분석모형 (Stepwise) Engine: R(glm) Cross-section 형태의분석방법이므로시점별 (t-1,2,3) 변수를모두설명변수로각각적용 변수가많아과다적합문제발생가능 Stepwise 로변수선택적용 F-value(P-value) 및 R 2 로모형평가 2. Cox-PH Hazard (Cox) Cox PH 모형 ( 다중회귀, 층화, Stepwise) Engine: R(survival) 주가, 거시경제, 비정형정보등 Hazard 함수설명변수로반영가능 산업별생존함수를추정하여산업별특성반영 변수선택 (Stepwise) 필요 F-value(P-value) 및 R 2 로모형평가 3. Decision Tree (Dtree) 4. Random-Forest (RF) Max maxsurrogate( 노드수 ): 3 단계 Engine: R (Dtree) Sampling 을통한 parameter 최적화 Engine: R (e1071) 비교모형으로활용 Accuracy 로사후적모형평가 다양한설정값시뮬레이션 Accuracy 로사후적모형평가 58 빅데이터를이용한딥러닝기반의기업부도예측연구

5. SVM Sampling 을통한 parameter 최적화 Engine: R (e1071) 다양한설정값시뮬레이션 Accuracy 로사후적모형평가 6. 인공신경망 (DNN) Deep 구조 : 512 EU * 8 Layer Activation Function: ReLU 초기값설정 : Xavier initializer 20) Engine: Python (TensorFlow) 실제값 예측값 Cost 함수 ( 평균예측오차 ): 평가횟수 학습횟수 2만 or Cost 기준 0.1이하까지 7. 인공신경망 (RNN) Deep 구조 : 3 기간 (LSTM Cell) 적용 Activation Function: ReLU 초기값설정 : Xavier initializer Engine: Python (TensorFlow) 실제값 예측값 Cost 함수 ( 평균예측오차 ): 평가횟수 학습횟수 2만 or Cost 기준 0.1이하까지 나. 예측모형성과분석 (1) SET A 결과 ( 분석기간 2001 년 ~2016 년적용 ) 각기간별데이터세트에대해예측모형추정방법론을적용한예측수준 ( 정확도 ) 산출결과는 < 표 14> 와같다. 가장높은정확도를나타낸방법론은 Random Forests 방법론이었다. 로지스틱모형과 SVM 또한 0.9수준을상회하는높은정확도가산출되었다. 그외에의사결정나무 (Dtree) 와인공신경망 (DNN, RNN) 등은 0.9수준에다소못미치는정확도를산출하였다. 기업의재무정보, 거시경제정보, 시장정보를포괄하여가장정보가많이활용된 <SET 3> 의정확도는타데이터세트에비하여다소높게산출되긴하였지만유의미한수준은아니다. 20 딥러닝초기값에대한방법은 Glorot, X., Y. Bengio(2010) 를참고하였다. Ⅳ. 실증분석 59

< 표 14> 모형별예측정확도산출결과 (SET A) 21) 방법론 SET A_1 SET A_2 SET A_3 평균 logit Cox Dtree R.F SVM DNN RNN 0.9258 0.9208 0.9272 0.0146 0.0153 0.0142 0.7798 0.7033 0.7115 0.0183 0.0237 0.0199 0.8998 0.8984 0.8956 0.0183 0.0179 0.0180 0.9357 0.9350 0.9381 0.0133 0.0127 0.0125 0.9217 0.9082 0.9212 0.0153 0.0179 0.0226 0.8533 0.8584 0.9052 0.0200 0.0184 0.0148 0.8867 0.9065 0.9046 0.0210 0.0232 0.0279 0.9246 0.7315 0.8979 0.9363 0.9170 0.8723 0.8992 평균 0.8861 0.8758 0.8862 (2) SET B 결과 ( 분석기간 2010 년 ~2016 년적용 ) < 표 15> 는 2010~2016 년동안의데이터를적용 (SET B) 하여각모형 예측정확도를산출한결과이다. 22) 이분석결과에서도역시 Random 21 정확도는총 100 회 Sample 세트별예측정확도의평균값이고, ( ) 안은표준편차이다 (< 표 11> 동일 ). 22 인공신경망 (RNN) 의경우분석과정에 3 개년연속된데이터가필요한데, 이럴경우 Set B 는 Data Sample 수의손실이너무심해서유효한분석이어렵다. 따라서 <Set B> 분석에서는인공신경망 -RNN 은제외하고분석하였다. 60 빅데이터를이용한딥러닝기반의기업부도예측연구

Forests 방법론이가장우수한예측력을보였고, SVM, 인공신경망 (DNN) 순으로예측력이좋았다. 앞서예측력수준이높았던로지스틱모형은상대적으로모형예측력이하락하였으나인공지능기법들의예측력은유지되거나오히려다소상승하였다. 이는데이터가줄어드는경우에도인공지능예측방법론들이상대적으로모형예측력이강건하게유지될수있음을의미한다. 또한기존의 <SET B_3> 에뉴스텍스트정보까지추가로반영된 <SET B_4> 가타모형에비하여모형예측력이높게나타났다. 이는비정형정보도부도예측성능향상에영향을줄수있음을실증하는결과이다. 다만역시평균과표준편차수준으로볼때정보를미반영한 SET와차이가통계적으로유의한수준이라보기는어렵다. < 표 15> 모형별예측정확도산출결과 (SET B) 방법론 SET B_1 SET B_2 SET B_3 SET B_4 평균 logit Cox Dtree R.F SVM DNN 0.8651 0.8804 0.8989 0.9093 0.0427 0.0410 0.0383 0.0338 0.8280 0.8235 0.8473 0.8745 0.0312 0.0335 0.0335 0.0282 0.8910 0.8895 0.8868 0.8862 0.0293 0.0288 0.0274 0.0271 0.9369 0.9373 0.9381 0.9392 0.0224 0.0226 0.0225 0.0222 0.9217 0.9148 0.9271 0.9178 0.0273 0.0263 0.0278 0.0282 0.9071 0.9053 0.9215 0.9317 0.0285 0.0282 0.0286 0.0299 0.8884 0.8433 0.8884 0.9379 0.9203 0.9164 평균 0.8916 0.8918 0.9033 0.9098 Ⅳ. 실증분석 61

(3) 연간모형예측결과종합해석 분석결과인공지능중 Random Forests 방법론이두데이터 SET 모두가장높은수준의예측력을보여주었다. 특히데이터수가상대적으로적은 <SET B> 에서도우수한예측력을유지함으로써인공지능기법이강건하게기업의부도에대한예측을잘수행할수있음을실증하는결과이다. 한편, 현재적용된인공지능 -DNN 체계의은닉층구조는 1열 8개층 (layer) 중첩구조이고, RNN은 3기간 10개층 (layer) 구조이다. 컴퓨터하드웨어를보강하고추가적인효율화방안을도입하여이러한구조를개선하면현재보다더높은예측정확도를얻을가능성이있다. 인공지능 (DNN) 을적용한결과를보면 Sample 데이터수가많은 <SET A> 에비하여 <SET B> 의예측정확도가오히려높게나오는현상이발생하였다. 이역전현상은과잉적합 (over-fitting) 하여오히려예측력이떨어지는현상이나타난것으로추정된다. 따라서향후변수간의관계를고려하여일부변수를정리하거나과잉적합을해결할수있는추가적인방법론을적용해준다면, 인공지능기법의예측정확도결과는현재보다높아질수있다. 한편, 텍스트데이터를추가로반영한 <SET B_4> 의예측정확도는방법론에따라약간의차이는있지만전반적으로텍스트데이터를반영하지않은 SET에비하여정확도수준의유의한차이가나타나지않았다. 또한재무정보만활용한 <SET A_1>, <SET B_1> 의예측력도타 SET에비하여큰차이가없었다. 이는상장기업의경우다양한공시요구및규제에의하여기업의정보가재무정보에이미충분히반영되어나타나는결과라판단된다. 따라서기업에대한뉴 62 빅데이터를이용한딥러닝기반의기업부도예측연구

스정보를활용하여유의미한예측모형을얻기위해서는데이터적 용주기를보다짧게설정하여야한다. 23) 4. 월간예측모형 미디어의뉴스기사는시장정보 ( 주가 ) 와마찬가지로실시간으로공개되는정보이다. 따라서시장정보를활용한예측모형인 KMV 모형과유사한형태의부도예측모형구축이가능하다. 본연구는기업의부도관련뉴스가실제부도가발생하는시점이전에부도가능성을선제적으로알려줄수있는지, 조기경보지표 (early warning index) 로서활용가치가있는지연구하였다. 가. 예측모형설계 먼저예측모형추정의대상이되는 Sample 데이터를정의한다. 해당기업의기사수가너무적은경우 1, 2 건의부도관련기사로인하여과민한예측결과가발생할수있다. 따라서신뢰성있는모형결과를위하여일정건수이상의기사가확보된기업을대상으로예측모형을산출하였다. 1) 대상기간 : 2010~2016 년 ( 텍스트 DB 확보가능기간 ) 23 뉴스정보는주간, 일간, 심지어시간단위로발생하기때문에세부기간단위의분석이가능하다. 다만, 주가, 환율등금융시계열데이터와달리연속적으로발생하지는않는다. 따라서본연구는세부기간단위분석주기를월간으로설정하고해당월에발생한뉴스를집계하여활용하는방법을적용하였다. 이후연구에서분석데이터의대상이확대되면보다세부기간단위의분석이가능할것이라기대한다. Ⅳ. 실증분석 63

2) 기사수기준 : 대상기간동안총기사수합계 100건이상 3) 정보확보여부 : 대상기간동안주가, 시가총액, 재무정보모두확보가능한기업 ( 신생기업, 중도이탈기업제외. 부도기업은부도 ( 상장폐지 ) 이전시점까지만해당 ) 상기기준을적용하여기존에확보한데이터를대상으로선별한결과부도기업 51개, 정상기업 855개를 Sample 분석대상으로확보하였다. KMV모형및텍스트기반모형의부도예측단위는월간이며, 부도기준직전 12개월의추이를분석하였다. 나. KMV 모형산출결과 부도기업의부도발생전 12 개월의 D.D. 의평균수준추이는 < 그림 12> 와같다. < 그림 12> 부도발생 12 개월전 D.D. 평균추이 24) 24 정상기업은부도시점을설정할수없기때문에 2014~2016 년 3 개연도기간의월간수치평균값을사용하였다. 이후텍스트지표도동일한기준을적용하였다. 64 빅데이터를이용한딥러닝기반의기업부도예측연구

부도기업의경우부도발생 1 년전부터점진적으로평균수준에 비하여다소낮은수준으로 D.D. 가하락하다가, 부도발생 3 개월전 부터급격하게하락하는것을확인할수있다. 다. 텍스트정보기반예측모형산출결과 < 그림 13> 은동일한기간과동일한기업에대하여기사텍스트데 이터베이스를기반으로산출한부도기사비율및부도유사도를적 용하여도식한결과이다. < 그림 13> 부도발생 12 개월전부도기사비율추이 KMV 모형과마찬가지로부도기사비율은부도발생 12개월이전부터점진적으로상승하여지속적으로정상기업에비하여높은수준으로산출되는것을확인할수있다. 부도기사비율중에는 부도 와 상장폐지 를동시에 Word2vec 을활용하여상위 20개단어가포함된기사를부도기사로간주한 [ 부도기사비율2] 가정상수준에대비하여가장유의한차이를보이고있다. Ⅳ. 실증분석 65

< 그림 14> 는 부도 단어와의 Word2vec 유사도수준의산출결과 이다. < 그림 14> 부도발생 12 개월전부도유사도 ( 평균, 기사단위평균 ) 추이 부도유사도역시부도기사비율과마찬가지로부도발생이전부터정상기업과차이가나타난다. 다만, KMV와부도기사비율과는달리점진적상승추세가다소약하고, 부도시점에가까워지면서오히려정상기업보다떨어지는수준도나타나는것을확인할수있다. 이는기사수가많아지면서절대적인단어수가증가하여부도유사도가높은단어의영향을중화하는현상이발생한것으로파악되었다. 라. KMV 와텍스트정보기반예측모형비교 앞서분석한 KMV 모형과텍스트정보기반의예측모형은각각부도발생이전시점부터부도가능성이상승함을보여주는것을확인할수있었다. 두모형의예측성능을확인하기위하여모형예측결과를그래프로도식화하는방법과예측정확도를산출하는방법으로각각비교하여보았다. 66 빅데이터를이용한딥러닝기반의기업부도예측연구