1. 연구배경및목적 과거금융위기등의주요발생원인으로신용위험에지목되면서, 대출차주의부실을선제적으로예측하는방법론은그간꾸준하게발전되어왔다. 하지만글로벌화, 기술의발전, 산업구조변화등의원인으로기업경영환경이급속하게변화함에따라신용부실 ( 부도 ) 사건은여전히자주발생하고있다. 특히기

Similar documents

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월


조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

슬라이드 1

딥러닝 첫걸음

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

PowerPoint 프레젠테이션

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

슬라이드 1

<B3EDB4DC28B1E8BCAEC7F6292E687770>

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

빅데이터_DAY key

UDI 이슈리포트제 18 호 고용없는성장과울산의대응방안 경제산업연구실김문연책임연구원 052) / < 목차 > 요약 1 Ⅰ. 연구배경및목적 2 Ⅱ. 한국경제의취업구조및취업계수 3 Ⅲ. 울산경제의고용계수 9

조사보고서 구조화금융관점에서본금융위기 분석및시사점

KDI정책포럼제221호 ( ) ( ) 내용문의 : 이재준 ( ) 구독문의 : 발간자료담당자 ( ) 본정책포럼의내용은 KDI 홈페이지를 통해서도보실수있습니다. 우리나라경

김경재 안현철 지능정보연구제 17 권제 4 호 2011 년 12 월

R을 이용한 텍스트 감정분석


외국인투자유치성과평가기준개발

목차 < 요약 > Ⅰ. 국내은행 1 1. 대출태도 1 2. 신용위험 3 3. 대출수요 5 Ⅱ. 비은행금융기관 7 1. 대출태도 7 2. 신용위험 8 3. 대출수요 8 < 붙임 > 2015 년 1/4 분기금융기관대출행태서베이실시개요


PowerPoint 프레젠테이션

목 차 Ⅰ. 사업개요 5 1. 사업배경및목적 5 2. 사업내용 8 Ⅱ. 국내목재산업트렌드분석및미래시장예측 9 1. 국내외산업동향 9 2. 국내목재산업트렌드분석및미래시장예측 목재제품의종류 국내목재산업현황 목재산업트렌드분석및미래시

에너지경제연구 Korean Energy Economic Review Volume 11, Number 2, September 2012 : pp. 1~26 실물옵션을이용한해상풍력실증단지 사업의경제성평가 1

<C8ADC0E5C7B020C0AFC5EB20C7F6B4EBC8AD28C6F2B0A1B4DC292E687770>

- 1 -

수도권과비수도권근로자의임금격차에영향을미치는 집적경제의미시적메커니즘에관한실증연구 I. 서론


동아시아국가들의실질환율, 순수출및 경제성장간의상호관계비교연구 : 시계열및패널자료인과관계분석

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

자연채무에대한재검토 1. 서론 2. 선행연구 9 Journal of Digital Convergence 214 May; 12(5): 89-99

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

에너지경제연구제 16 권제 1 호 Korean Energy Economic Review Volume 16, Number 1, March 2017 : pp. 35~55 학술 전력시장가격에대한역사적요인분해 * 35

( ) 현지정보 연준의 2019 년스트레스테스트시행관련주요발표내용 2.5 (CCAR: Comprehensive Capital Analysis and Review) 1. 시나리오에포함되는경제변수및내용 28 o GDP ( ), ( ),, CPI, (3,

소성해석

보고싶었던 Deep Learning과 OpenCV를이용한이미지처리과정에대해공부를해볼수있으며더나아가 Deep Learning기술을이용하여논문을작성하는데많은도움을받을수있으며아직배우는단계에있는저에게는기존의연구를따라해보는것만으로도큰발전이있다고생각했습니다. 그래서이번 DSP스마


Data Industry White Paper


저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

ePapyrus PDF Document


에듀데이터_자료집_완성본.hwp

MRIO (25..,..).hwp

歯표지_최종H_.PDF

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

본보고서에있는내용을인용또는전재하시기위해서는본연구원의허락을얻어야하며, 보고서내용에대한문의는아래와같이하여주시기바랍니다. 총 괄 경제연구실 : : 주 원이사대우 ( , 홍준표연구위원 ( ,

정치

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

hwp

저작자표시 - 비영리 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 이차적저작물을작성할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물

에너지경제연구 Korean Energy Economic Review Volume 9, Number 2, September 2010 : pp. 1~18 가격비대칭성검정모형민감도분석 1

[11하예타] 교외선 인쇄본_ver3.hwp

한국정책학회학회보

정보기술응용학회 발표



Microsoft Word _Type2_기업_LG디스플레이.doc

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

조사연구 sampling error of polling sites and the additional error which comes from non-response, early voting and second stage sampling error of voters in

재무상태표 (Statements of Financial Position) Ⅱ. 부채 (Liabilities) 1. 당기손익인식금융부채 (Financial liabilities at fair value through profit or loss) 2. 예수부채 (Depos

뉴스평가지수의개발과적용

= ``...(2011), , (.)''

2002report hwp

Ch 1 머신러닝 개요.pptx

A Time Series and Spatial Analysis of Factors Affecting Housing Prices in Seoul Ha Yeon Hong* Joo Hyung Lee** 요약 주제어 ABSTRACT:This study recognizes th

170918_hjk_datayanolja_v1.0.1.

분석기법의기본개념부터활용까지사례중심의 A to Z 학습 데이터분석기본 교육기간 : 3 일 (24 시간 )/ 비합숙 교육비 : 회원 62 만원 / 비회원 69 만원 데이터분석핵심이론학습및현업에적용 현장에서발생하는변수를이해하고상황에따른최적화방안도출 품질향상을위한부적합원인도

목 차 Ⅰ. 조사개요 1 1. 조사배경및목적 1 2. 조사내용및방법 2 3. 조사기간 2 4. 조사자 2 5. 기대효과 2 Ⅱ. P2P 대출일반현황 3 1. P2P 대출의개념 3 2. P2P 대출의성장배경 7 3. P2P 대출의장점과위험 8 4. P2P 대출산업최근동향

, Fixed Income Analyst, , (pt, 212 초 =1) 17 US HY BofA merrill lynch bond index Europe HY Asian dollar HY Asia

歯경제.PDF

<BBE7C8B8C0FBC0C7BBE7BCD2C5EBBFACB1B820C3D6C1BEBAB8B0EDBCAD2E687770>

에너지경제연구 제13권 제1호

G Power

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

2017 년 6 월한국소프트웨어감정평가학회논문지제 13 권제 1 호 Abstract

450 공기업 2 총괄요약표 평가범주 지표명 비계량계량합계 가중치등급가중치득점 ( 점 ) 가중치득점 1. 리더십 5 B 책임경영 3 B 리더십 책임경영 3. 국민평가 ( 고객만족도, 브랜드 )

대한주택보증 ( 주 ) 대한주택보증


exp

<B0A3C3DFB0E828C0DBBEF7292E687770>

The characteristic analysis of winners and losers in curling: Focused on shot type, shot accuracy, blank end and average score SungGeon Park 1 & Soowo

CC hwp

제 출 문 국방부 장관 귀하 본 보고서를 국방부 군인연금과에서 당연구원에 의뢰한 군인연금기금 체 계적 관리방안 연구용역의 최종보고서로 제출합니다 (주)한국채권연구원 대표이사 오 규 철

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

= " (2014), `` ,'' .." " (2011), `` ,'' (.)"

이후, Altman * 의부도예측모형연구를시작으로평가자주관에의한오류가능성을최소화하고평가과정을표준화, 객관화하기위해통계방법론에의한신용평가모형개발이본격화 * Altman(1968), Financial ratios, Discriminant Analysis and The Pr

기업분석(Update)


<B1E2BEF7B1DDC0B6B8AEBAE C20C1A634C8A3292E687770>

슬라이드 1

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

2010 년 10 월넷째주 ( ) 1. IT와타산업융합위한민관노력강화 2. 한국, IT산업분야국제표준제안건수세계 1위달성 3. 한국, 3년연속세계브로드밴드경쟁력 1위기록 4. 삼성SDS, 2011년 IT메가트렌드선정 'Smart' 와 'Social' 이핵심

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

Transcription:

빅데이터와인공지능기법을이용한 기업부도예측연구 최정원 * 오세경 ** 장재원 *** < 요약 > 본연구는기업부도예측과정에서새로운정보원천으로비정형데이터인뉴스텍스트데이터를계량화하여활용할수있도록인공지능기법인 Word2vec 방법으로측정하는방법을제시한다. 또한인공지능기반의예측방법론을제시하고기존의방법론과예측력을비교분석하였다. 연구결과, 우선연간모형에서는인공지능기법인 Random forests 기법이가장우수한예측력이나타나는것으로분석되었다. 또한인공지능을이용한다른방법론들도전반적으로기존의전통적인예측방법보다예측력이우수한것으로나타났다. 뉴스텍스트를추가적인정보원천으로추가한효과는연간예측모형에서는다소미미하였다. 하지만월간예측모형에서는텍스트정보기반의예측모형이시장정보기반의예측모형인 KMV 모형과유사한결론을도출할수있어기업부도예측과정에서조기경보모형으로충분히활용이가능함을실증하였다. 핵심단어 : 기업부도예측, 텍스트마이닝, Word2vec, 인공지능, 머신러닝 * 주저자, 건국대학교경영대학박사과정 (Email: garden31@gmail.com) ** 교신저자, 건국대학교경영대학교수 (Email: skoh@konkuk.ac.kr) *** 고려대학교의학통계학과석사과정 (Email: jeawonlll@naver.com)

1. 연구배경및목적 과거금융위기등의주요발생원인으로신용위험에지목되면서, 대출차주의부실을선제적으로예측하는방법론은그간꾸준하게발전되어왔다. 하지만글로벌화, 기술의발전, 산업구조변화등의원인으로기업경영환경이급속하게변화함에따라신용부실 ( 부도 ) 사건은여전히자주발생하고있다. 특히기업은부실이발생할경우관련기업의근무자, 유관기업및개인, 금융기관을비롯한주요투자자및채권자등모든연관된경제주체에연쇄적인피해가발생할수있기때문에기업부도위험을보다정확히예측하고평가하는방법을개발하는것은여전히중요한연구과제이다. 과거기업부실을예측하는많은연구는주로재무 ( 회계 ) 정보와 ( 주식 ) 시장정보를기반으로예측을수행하였다. 재무정보는공시된정보를활용하므로기업의현황을가장객관적이고표준화된형태의데이터를활용할수있다는장점이있다. 하지만재무정보는분기혹은연단위로작성되고, 각기업의결산시점이후공시되는데까지일정기간이소요되어적시성이떨어지는근원적인한계점이있다. 이러한단점을보완하기위하여 KMV 모형 으로대표되는시장정보를활용할수있는 방법론이제시되었다. 기업의주가는투자자들에의하여실시간으로평가된결과가시장가격으로형성되므로, 기업의현황수준을가장빠르게반영하여주는정보이기때문이다. 하지만시장정보는유가증권시장에서거래가활발한상장기업만을대상으로적용할수있으며, 주가에영향을주는거시경제요인이나산업요인, 각종뉴스에의한일시적인요인등의영향을통제하지못한다는단점도가지고있다. 본연구에서는과거활용이어려웠던텍스트형태의비정형정보인뉴스정보를활용하여부도예측수준이향상될수있는지연구하고자한다. 텍스트정보는뉴스정보뿐만아니라기업공시데이터, 웹게시판, 기업관련 SNS 등매우광범위한매체로확장이가능하며, 기업에관한뉴스는해당기업에대한가장빠른정보중하나이다. 따라서기업의부실을선제적으로예측하기위한추가적인 (additional) 혹은대체 (alternative) 할수있는정보원천으로서의충분한가치가있다. 분석을위하여먼저빅데이터연구분야에서많이활용되는텍스트마이닝과인공지능기법을이용하여텍스트정보를측정가능한변수로계량화하는방법을제시하고, 앞서언급한전통적인정보원천과함께텍스트정보의유용성을실증분석하였다. 텍스트마이닝은문서, 웹등의텍스트정보를데이터베이스로수집하고데이터로정제하는 과정을포괄하는개념으로서정보처리기술과관련기반 (infra) 의발전에따라최근급격하게 2

활용도가높아지고있다. 우선정확한예측모형을구축을위하여되도록이면많은텍스트정보의분석을필요로하게되는데, 텍스트데이터를수기 (scrap) 로취합할경우분석표본 (sampling) 데이터수집범위의한계가발생한다. 따라서텍스트마이닝과정에서는광범위한데이터의보다효율적인확보및관리를위하여웹데이터베이스 (DB) 에직접접근하여데이터를확보하는웹크롤링 (web crawling) 방법을주로활용한다. 이는기존의수작업에의존하여텍스트데이터를수집하는방법에비하여가용한데이터의범위를크게증진시킬수있고분석자의편의 (bias) 혹은실수등의오류 (error) 또한감소시킬수있다. 또한자연어처리 (Natural Language Process, 이하 NLP), 단어 ( 키워드 ) 빈도분석, 감성분석등텍스트정보를기반으로계량화된지표를산출하는방법론을연구에적용하였다. 또한본연구는인공지능 (A.I.) 분야의여러방법론을적용하여기존방법론과예측력을비교분석하였다. 머신-러닝 (Machine-Learning), 딥-러닝 (Deep-Learning) 등의용어로대표되는인공지능분야는컴퓨터공학을이용하여인간의두뇌와같이컴퓨터가학습과정을거쳐예측프로세스등의의사결정을수행하는체계를의미한다. 과거에는다양하고동시다발적인경우의수를처리하는데있어물리적으로발생하는한계로인하여주목받지못하였으나, 최근 Google 사의 AlphaGo 로대표되는딥-러닝체계가실제인간의판단수준과속도가대등하거나오히려능가할수있다는것을증명함으로서전세계적으로큰관심을받고있다. 인공지능은학습데이터가많을수록예측력이우수해지는특성이있으므로, 텍스트데이터등의빅데이터를원천으로활용하는본연구와같은예측과정에서더욱우수한효과를기대할수있다. 빅데이터및인공지능은제 4 차산업혁명의핵심기술로서여러분야에서많은관심을받고있지만, 금융, 재무영역의연구에적용된사례는아직은많지않다. 따라서본연구는기업부도예측과정에이러한새로운방법론적용을시도하고예측결과의정확도를평가함으로서기존의방법론대비유용성을실증해보고자하였다. 3

2. 연구방법론 2.1. 선행연구 2.1.1. 기업부도예측연구 Altman(1968) 의다변량판별분석과 Ohlson(1980) 의로짓모형으로대표되는전통적인재무정보기반의기업부도예측연구는이후재무정보에만국한하지않고시장정보를기반으로기업부도예측의우수성을연구하는방향과다양한방법론은적용하여예측성과를높이는방향으로발전되기시작하였다. Mcquown(1993) 은자본시장의시장가격을바탕으로옵션가격평가모형을적용하여기업의부도위험수준인 EDF(Expected default frequency) 를측정하는모형 (KMV 모형 ) 을제시하였다. 이연구는 EDF 를이용하여채무불이행확률이발생할추정치를도출하는것은단순한기대손실과는다르며, 채무불이행예측에보다효율적임을실증하였다. 오세경 (2001) 은국내기업을대상으로로짓 (Logit) 모형을이용한다변량판별분석과함께옵션가격평가모형을이용하여 EDF 의시간별변화추이를분석하였다. 연구결과부실기업들의 EDF 가부도가발생하기수개월또는 1 년이상전부터급격히올라가는것을실증함으로서시장정보에의한기업부도예측이국내기업의예측추정에도유용함을증명하였다. 이와같이각각부도예측과정에활용되던재무정보와시장정보는 Shumway(2001) 가회계정보와시장정보를헤저드모형으로통합하여부도예측력을높일수있는방법을제안하면서본격적으로두정보원천을통합한연구가진행되었다. 이연구는재무정보와시장정보가상호보완적으로부도예측성과를높일수있다고주장하였다. Campbell, Hilscher, and Szilagyi(2008) 또한후속연구에서회계모형과시장정보를결합한헤저드모형이기존의각각의모형보다부도예측력이우수하다는것을실증하였다. 이연구는기존에활용되지않았던시장정보기반의변수를모형에적용하여 Shumway(2001) 보다부도예측력이개선된헤저드모형을제시한것이특징이다. 이인로 김동철 (2015) 은 Campbell et al(2008) 의연구결과를활용하여회계정보와시장정보를통합한헤저드모형으로부도예측을수행하였다. 이때, 기존의연구에서미국기업에적용하여선정된변수를국내기업에그대로적용하여변수의계수만을재추정한기존모형과국내기업에적합하도록모형을수정한새로운헤저드모형을별도로추정한모형의부도예측력을비교분석한결과국내기업에적합한변형된모형이최종적으로가장우수한예측성능을나타내는것을실증하였다. 최정원 오세경 (2016) 또한비례헤저드모형을활용하는생존분석과 KMV 모형을활용하여재무정보와주가정보를결합하는방법을연구하였다. 4

한편, 기업부도에또다른요인인거시경제변수의영향을반영한통합모형연구도수행되었다. Nam, C., T. Kim, N. Park, and H. Lee(2008) 시간가변적인 (Time-varying) 헤저드모형을사용하여거시경제변동이기업의부도 ( 헤저드 ) 확률을상승시킬수있음을실증분석하였다. Tinoco and Wilson(2013) 은재무지표, 시장정보와함께거시경제변동수준을설명변수로포괄하는 Panel Logit 기반의다중회귀분석을활용한부도예측모형을연구하였다. 연구결과거시경제변동은부도에매우결정적인 (conclusive) 영향을미치지는않았지만시장정보등타요인의한계적 (marginal) 으로영향을미칠수있음을연구하였다. 국내연구로서는김성규 (2010) 이거시경제상승 / 하락을더미변수로활용하여기업부도예측모형에활용할수있음을제시하였다. 2.1.2. 빅데이터기법을활용한관련분야연구 빅데이터를활용한예측모형연구는최근관련분야의대내외적인관심증가로인하여폭발적으로증가하고있다. 특히텍스트마이닝은적용할수있는영역이광범위하여선행연구들은다양한분석방법을제시하고있다. 배상진 박철균 (2003) 은텍스트-마이닝과정을 4 단계로나누었는데각각문서수집, 문서전처리, 텍스트분석, 그리고결과해석및정제과정으로설명하였다. 특히기존의데이터수집방법에비하여강조되는부분은전처리과정으로서텍스트-마이닝에필요없는단어또는기호를정제하는과정과문장의정확한의미파악을위해서각단어의어간을파악하고동의어를할당하는정규화과정을필요로한다고하였다. 또한한글의경우동의어, 유사어처리를위해서문장에서최소의의미단위를추출해내는형태소분석 (morphological analysis) 단계와통사구조를파악하는구문구조분석 (syntactic analysis) 단계, 의미구조를추출하는의미분석 (semantic analysis) 단계를나누어분석하여야함을언급하였다. 김근형 오성렬 (2009) 도전처리과정과텍스트분석과정으로나누어설명하였는데, 전처리과정을일반적인텍스트데이터들을컴퓨터가처리하기쉽도록변화하는작업으로논하였다. 특정단어와관련된문서들을신속하게검색할수있도록 FB (Frequency-Based), IDF (Inverse Document Frequency), LSI (Latent Semantic Indexing) 등의계량화된지표 (index) 를만드는과정을것이라고설명하고있다. 또한문서와단어간의연관성분석등계량화방법도제시하였다. 텍스트정보를이용한분석과정에서유의할점은단순히텍스트의횟수를분석하는방법은텍스트가담고있는감성 (Opinion) 을분석결과에반영하기어렵기때문에별도의감성분석을필요로한다는점이다. 김유신 김남규 정승렬 (2012) 은뉴스키워드의감성분석을이용하여투자의사결정모형을구축하고, 이모형이시장대비초과수익률을얻을수있는투자전략임을실증하였다. Martinez, Garcia, and Sanchez(2012) 도금융경제관련뉴스텍스트를추출하여 5

의미와감성을분석하는방법을제시하였다. 기업부도예측에텍스트정보가활용된사례는비교적최근의연구들이많은편이다. 이광석 (2014) 은기존의재무정보와시장정보기반으로는중소기업대상의부도예측은한계가있음을지적하고해당기업의신용거래, 연체정보등을실시간으로이용하여부도예측을수행하는방법을제시하였다. 이연구는기존의부도예측의사각지대인중소기업및개인기업을대상으로하는매우유용한연구이기는하나제시된주요분석정보데이터가아직은공공재로공개되지않은공공기관내부데이터로서타연구에적용하기어려운한계가있다. 최정원 한호선 이미영 안준모 (2015) 는부도기업과정상기업의인터넷뉴스텍스트를각각수집하여부도기업뉴스에서주로나타나는키워드를분석하고해당키워드가포함된기사가발생하는경우를부도로예측하였을때실질적으로부도예측이가능함을검증하였다. 조남옥 신경식 (2016) 도뉴스텍스트에대한감성분석기반의 multiple discriminant analysis(mda) 과로짓분석, 인공신경망, support vector machines (SVM) 등의방법을적용한부도예측모형을제시하고예측모형으로서유용성을실증하였다. 부도예측이외에도금융재무분야의뉴스텍스트를이용한많은연구는주로주식등의투자자산가격예측에관한연구를중심으로진행되어왔다. Chen, De, Hu, and Hwang(2014) 은인터넷과 SNS 상의게시물을 집단 ( 군중 ) 의지성 (wisdom of crowd) 으로명명하고텍스트분석을통하여주가예측이가능함을실증분석하였다. 국내에서도김민수 구평회 (2013) 가검색엔진이제공하는검색어추세를기반으로주가예측을수행하는연구를수행함으로서, 전통적인정보외에다른정보원천들도빅데이터분석으로기존의정보원천을대체할수있음을연구하였다. 안성원 조성배 (2010) 도뉴스텍스트마이닝기법을시계열분석과정에적용하여주가예측모형에활용이가능함을실증분석하였다. 2.1.3. 인공지능기법을활용한관련분야연구 머신러닝, 딥러닝으로대표되는인공지능기법은비교적최신기술로서금융및재무분야에서는전통적인방법론에의한예측방법론에비하여연구의양과질모두부족한상황이다. 하지만최근기술의발전및전세계적인관심증가와함께관련연구가매우급격하게늘어나고있으며, 부도예측분야도몇몇선도적인연구가진행되었다. 이재식 한재홍 (1995) 은기존의재무정보만활용한부도예측의한계가있음을지적하고이를보완하기위하여비재무정보를활용한인공신경망기반의부도예측모형을제시하였다. 연구결과재무정보가불투명한중소기업의경우이러한예측모형이더욱효과적임을분석하였다. Kim and So(2010) 는 support vector machines (SVM) 을이용하여부도예측을수행하였다. 이연구 6

역시정보가상대적으로부족한중소기업 (SME) 의경우기존의방법론에비하여인공지능기법이 예측성능이더우수함을연구하였다. 김성진 안현철 (2016) 은금융기관의신용위험관리의중요한도구인기업신용등급예측과정에 인공지능기법중랜덤포레스트 (Random Forests) 방법을적용하였다. 이연구는다중판별분석, 인공신경망, 다분류 SVM 등기존연구에서전통적으로기업부도예측과정에사용되어온 방법론과비교에랜덤포레스트방법론이예측성능이우수함을실증분석하였다. 국외에서는 Yeh, Wang, and Tsai (2015) 은딥러닝개념의인공신경망기법중하나인 Deep Belief Networks (DBN) 이기존의머신러닝중대표적기법인 SVM 보다기업부도예측성능이더우수함을연구하였다. 또한 Addal(2016) 은인공신경망 (Artificial Neural network), K 근접군집분석 (k-nearest Neighborhood) 등의방법론을이용하여기업부도예측모형이우수한예측력을보이는것을실증하였다. 한편, 부도예측은아니지만 Vahala(2016) 는외환시장의환율에대하여인공신경망 (Neural network) 기반의예측모형구축이가능함을보였다. 또한 Kim(2003) 은 SVM 이금융시장의 time series 속성의데이터를예측하는데더욱효과적임을실증분석하는등최근인공지능관련기술의진보와함께금융, 재무분야의관련연구도역시급증하고있다. 2.2 연구방법론 2.2.1. 분석데이터정의 본연구는선행연구를참고하여확보가능한다양한정보원천을모두포괄하여예측모형에 활용하였다. 분석에활용한데이터의종류및주요특징은 < 표 1> 과같다 1. 재무정보의경우기업에대한가장기본적이고객관적인실적지표로서기업부도예측에반드시활용되는정보이다. 재무정보는손익성과를측정하는수익성지표, 자본구조를나타내는건전성지표, 성장성지표, 활동성지표등으로구분할수있다. 주가 등의기업에대한시장정보는분석시점의기업에대한최신정보를반영하고있다는특성이있으므로재무정보의적시성을보완할수있다. 다만, 시장정보는유가증권시장에상장되어주식이거래되고있는기업만이정보를이용할수있다는한계점이있다. 1 후보변수중모형에선정된각변수의구체적인정의및산출방법은 Appendix 에서확인할수있다. 재무정보와시장정보는공시데이터를정리한재무 DB Source (Data Guide Pro 5.0) 를활용하여수집하였다. 거시경제정보는한국은행통계시스템 (ecos) 를이용하여연단위데이터를수집하였다. 7

구분의의활용가능데이터 1. 재무정보 2. 시장정보 3. 거시경제지표 4. 비정형정보 기업공시 ( 재무제표 ) 정보결산 ( 연 / 분기 ) 기준재무비율상장기업의주식거래관련정보주요기관에서집계 & 발표하는거시경제지표전통적인방법으로활용하기어려웠던비정형 ( 텍스트 ) 데이터 - 수익성 : 자산 ( 자본 ) 대비수익률등 - 성장성 : 매출증가율, 자산증가율등 - 건정성 : 부채비율, 이자보상배율등 - 기타재무지표, 주주비율등기업정보 - 시장지표 : 주가, 시가총액, 주가수익률, 거래량 - 재무비율혼합지표시장가대비장부가비율시장조정부채비율, 시장조정등 - 거시경제지표 : 국가총생산 (GDP), 통화량, 물가지수 (PPI,CPI), 기업경기실사지수 (BSI) 등 - 금융시장지표 : 금리, 종합주가지수, 변동성지수등 - 뉴스정보뉴스및방송잡지등 ), - 공시자료, SNS( 인터넷사이트 ) 등의정보 - 주로텍스트형태의데이터로확보 < 표 1> 기업부도예측을위한원천정보구분및특성 재무정보와시장정보는각각활용할수있지만, 두정보를결합하여모형에반영할수도있다. 이인로 김동철 (2015) 의연구는국내기업에는단순히장부가격기준의재무지표보다시장조정된재무지표를사용하는것이보다우수한예측력을산출되는것으로나타났다. 본연구또한재무지표중 총자산 을 장부가기준총자산 과자본가격을시장가격으로조정한 시장조정총자산 으로나누어설명변수로활용하였다. 거시경제지표의경우과거일부부도예측연구에서설명변수로활용은되고있으나, 그빈도가재무지표나시장지표에비하여떨어지는편이다. 이는거시경제지표는각기업의특성이나현황을정확히반영할수없기때문이다. 하지만기업의부도발생은거시경제수준이나산업의경기수준에독립적일수없기때문에재무지표혹은시장지표와함께모형에반영할경우보다정확한예측을수행할수있을것으로기대할수있다. 특히경기에민감한업종의경우금융위기기간에집중적으로부실이발생하는특징이있기때문에거시경제및산업변수를보다적극적으로활용할경우과거연구에비하여우수한예측모형이추정될것이다. 비정형정보는그간에연구들이주로사용하지못하였던정보원천인뉴스및인터넷등의미디어데이터를주로포함한다. 뉴스정보획득을위하여인터넷뉴스포털의기업명을키워드로검색한기사결과를기반으로뉴스정보를수집하였다. 신뢰도있는정보를위하여 < 표 2> 에해당되는언론사기사만선택하여취합하였으며, 텍스트수가매우적은단순사실보도자료, 스포츠기사, 중복기사등은제외하여분석대상텍스트데이터를구성하였다. 8

구분언론매체종합경향신문, 국민일보, 뉴시스, 동아일보, 로이터, 문화일보, 서울신문, 세계일보, 연합뉴스, 조선일보, 중앙일보, 한겨례, 한국일보, JTBC, KBS, MBC, SBS, YTN 경제뉴스토마토, 매일경제, 머니투데이, 서울경제, 아시아경제, 이데일리, 조선비즈, 파이낸셜뉴스, 한국경제, 한국경제TV, 헤럴드경제, MBN, SBSCNBC 온라인 / 인터넷 데일리안, 오마이뉴스, 쿠키뉴스 < 표 2> 뉴스텍스트수집대상언론매체 2.2.2. 예측모형 본연구분석과정에서활용한예측모형의종류와각방법론의특징은 < 표 3> 과같다. 예측모형 분류방법론특징 이진분류 방법 로지스틱회귀분석 (Logit) Decision Tree 전통적 ( 대표적 ) 이진분류모형 대표적인 Data mining 기반이진분류방법론 생존분석 Cox-PH Hazard 공변량의특성에따른생존기간예측모형 Random-Forest (RF) Random-Forest 여러개의 Decision Tree 들을임의적으로반복 학습하여추정하는앙상블기법을활용한예측방법론 인공지능 ( 머신러닝 ) ( 딥러닝 ) SVM Deep Neural Network (DNN) 데이터가어느카테고리에속할지판단하는비확률적이진선형 분류모형을만들어예측하는방법론 인공신경망의 Hidden Layer 층을겹겹 (Deep) 하게설계한방법론 Recurrent Neural Network(RNN) DNN 의 Hidden Layer 설계시변수간의시간순서 (Sequence) 를 고려하여설계하여학습과정에활용한딥러닝방법론 시장정보 2 KMV 모형 옵션가격결정모형을기반으로주가변동에따른부도확률을 산출하는방법론 < 표 3> 기업부도예측방법론요약 2 다른방법론은모두연간부도예측과정에활용하지만, 시장정보를활용한 KMV 모형은텍스트정보를이용한월단위 부도예측과정에서만비교분석모형으로활용하였다. 9

2.2.2.1. 전통적이진분류방법론 기업부도예측과같은이진 (binary) 변수의분류방법중가장대표적인방법은로지스틱회귀모형과의사결정나무 (Decision Tree) 을들수있다. 로지스틱회귀분석은재무지표, 시장지표등의정보를설명변수로활용하여기업의부도여부 (1 or 0) 를추정할수있는방법이다. 의사결정나무역시이진분류에많이활용되는방법으로서부도여부를결정하는중요한요인및기준값을노드 ( 분류기점 ) 로설정하여분류나무 (tree) 구조를설계함으로서부도여부를판단할수있는모형이다. 이두모형은그동안의연구에서지속적으로활용되어왔으므로새로운분류 ( 예측 ) 기법을평가하는기준모형으로많이활용된다. 본연구또한예측모형에적용되는동일한분석데이터를로지스틱회귀모형과의사결정나무에적용하여기존방법론과새로운방법론의예측성능을비교한다. 2.2.2.2. Cox 비례 (PH) 헤저드모형 생존분석방법론중하나인헤저드모형 (hazard model) 은회계정보와시장정보를통합하여 부도를예측하는모형으로부도발생시점까지의시간을고려하는방법론이다. 특히공변량을 모형에적용할수있는 Cox 비례위험모형 (Cox PH Regression) 은종속변수가부도여부를 판별하는이진분석방법론에비하여기업생존주기에따른부도발생확률이라는추가적인 정보를적용할수있다는장점이있다 ( 최정원외, 2016). 이인로외 (2015) 는헤저드모형을기반으로회계정보와시장정보를결합하여부도예측을수행하였을때기존의방법론에비하여우수한예측력을얻을수있음을언급하였다. 이연구는 Campbell et al.(2008) 이제시한헤저드모형의경우미국기업에맞도록변수가설계되어있어수정이필요함을주장하고, 국내현황에맞도록수정한변수를적용한새로운헤저드모형이보다더우수한예측력이나타나는것을실증분석하였다. 본연구는이밖에많은선행연구들이제시한유의한변수와방법론을적용한헤저드모형을구축함으로서부도예측최적의헤저드모형추정을시도하였다. Cox 비례헤저드모형을추정하는과정은다음과같다. 어떠한개체 ( 기업 ) 의사망 ( 부도 ) 가 발생하는시점을 T 라고가정하면, 현재 ( t 0 ) 시점에서의추정생존기간은 T t 0 가된다. 이와 같은가정하에생존기간은식 (1) 과같은확률밀도함수를가지는확률변수로표현할수있다. 10

이러한확률변수를 F(t) = PP(TT < tt) 의누적함수형태로정의하면, t 시점이전에사망하지않을 확률을식 (2) 와같은생존함수형태로표현할수있다. 또한이생존함수를식 (3) 과같이역함수 형태로변환하면헤저드 ( 위험 ) 함수를얻을수있다. 도출된헤저드함수를기저함수로공변량 ( 설명변수 ) 의영향을반영하는 Cox 비례위험모형은식 (4) 와같이정의된다. h 1 (tt) 는사망 ( 부도 ) 발생기업의헤저드함수이고 h 0 (tt) 는정상기업의헤저드함수이다. 따라서이모형은재무정보, 시장정보등의설명변수가기업의부도 ( 헤저드 ) 확률에비례적으로어떠한영향을주는지도출하는모형이다. 본연구에서는기저함수를추정하는데있어대표적인비모수적함수추정방법으로 Kaplan- Meier 법 (K-M 법 ) 을이용한다. K-M 법은해당기간에누적으로생존한개체수를비율로표시하여주는방법인단순누적생존확률과크게다르지않다. 하지만확률론에입각하여모수분포의가정이필요없고중도절단이있는생존자료의특성을반영할수있기때문에적은양의표본을통해서도생존함수를추정할수있는장점이있는방법론이다. 본연구는기저헤저드함수추정에있어서산업별층화헤저드함수를적용하였다. 각산업은 특징에따라생존주기에차이가날수있다. 이를그래프로도식하면 < 그림 1> 과같다. < 그림 1> 시장별산업별헤저드 ( 생존 ) 함수산출결과 11

우선 < 그림 1> 의좌측그래프시장별생존함수의차이이다. KOSDAQ 에속한기업이 상대적으로생존확률이상당히떨어지는것을확인할수있다. 우측그래프는주요산업 ( 그룹 ) 3 별생존함수이다. 건설 산업에속한기업은타산업에비하여초기에는오히려생존확률이높다가일정기간이후급격하게부도가많이발생하는것을확인할수있다. IT 정보서비스 산업은오히려사업초기에부도가많이발생하지만일정기간이후에는부도기업이증가하지않는것을볼수있다. 이처럼산업별로생존함수는약간의차이가나타나게되므로각기업이속한산업별로생존함수를적용하여층화 (strata) Cox 비례위험모형을적용하면보다우수한예측성과를기대할수있다. 더욱이층화모형은 < 그림 1> 의산업별생존함수처럼함수가교차하는경우보다우수한예측성능을나타난다 ( 박재빈, 2006). 2.2.2.3. 인공지능기법 인공지능기법중 Support vector machine( 이후 SVM) 은최근가장빈번하게기업부도예측연구에서활용되는방법론중하나이다. SVM 은두카테고리중어느하나에속한데이터의집합이주어졌을때, SVM 알고리즘이주어진데이터집합을바탕으로하여새로운데이터가어느카테고리에속할지판단하는비확률적이진선형분류모형이다. 만들어진모형은데이터공간에서경계로표현되는데 SVM 알고리즘은그중가장큰폭을가진경계를찾는알고리즘이다. SVM 은선형분류와더불어비선형분류에서도사용될수있다는점과기존의머신러닝 ( 데이터마이닝 ) 방법론에비하여과적합 (over-fitting) 이발생할가능성이낮은장점이 있다고알려져있다 ( 김경재, 2002). 하지만 SVM 은효과적인입력변수선정에대한과정이 알고리즘내부에포함되어있지않다는점, 많지는않지만커널함수및커널파라미터등과같은 직관에의해설정되어야할모수들이있다는점에서다소한계가있다. Breiman(2001) 은의사결정나무 (Decision tree) 보다강건한예측방법론으로 Random forests 방법론을제안하였다. Random forests 는독립적인난수 sample vector 로개별적인의사결정나무구조를반복적으로구성하고이를통합적 ( 앙상블, ensemble) 으로대표할수있는모형을찾아내는방법이다. 대수의법칙에의해숲 (Forests) 의크기 ( 나무의수 ) 가커질수록모형의정확도가상승하고, 일반화오류가특정값으로수렴하게되어과적합화를피할수있다. 또한각개별의사결정나무들을학습시킬때전체학습용자료에서무작위로복원추출된데이터를사용하고있어잡음 (Noise) 및이상값 (Outlier) 으로부터크게영향을받지않는다는장점이있다. Random forests 가갖는또다른큰장점은모형의설계자가입력변수선정으로부터자유로울수있다는점이다. 때문에, 많은수의독립변수와방대한양의학습사례로부터분류 예측을수행하여야 3 산업그룹은표준산업대분류를기준으로각산업에속한기업수를기준으로특정개수이상인그룹을별도구분하였다. 기타그룹은산업간유사한속성으로보기는어렵지만 Sample 수가적어통합하지않으면생존함수추정이불가능하다. 12

하는본연구에매우적합한방법론이될수있다. 또한 Random forests 는빈도가 불균형한 (imbalanced) 이항분류의예측에있어가장우수한예측력을보인것으로보고되고 있다 ( 김성진외, 2016). 딥러닝기법은머신러닝의한종류로서, 1980 년대등장한인공신경망 (ANN, Artificial neural network) 를기반으로설계된개념이다. 인공지능은 IT 기술및각종분석기법의발전과함께단점들을보완하며점차그한계를극복하여왔는데, 최근 AlphaGo 로대변되는 Google 사의 DeepMind 체계가경우 비지도학습 (unsupervised learning) 을통한최적화로경우의수가무한에가까운바둑분야에서도인간을넘어서는능력을보여줄수있음을증명함으로서 딥러닝 이라는체계가전세계적으로조명을받고있다. 딥러닝의구조적인특징은기존의인공신경망 (neural network) 에서활용되는은닉층 (hidden layer) 을겹겹히 (deep) 쌓아특정한조건에서컴퓨터가스스로최적의모형을도출하도록유도한다는점이다. 과거에는이러한다중구조의최적화자체가쉬운일이아니었으나, 컴퓨터처리속도의향상, 데이터처리기술의발달, Back Propagation 등의연산방법개발등이이루어지며직접구현이가능한수준으로발전하였다. 더욱이최근에는 TensorFlow 등간단한딥러닝엔진은 Python 등 open source 로비교적손쉽게개인컴퓨터로개발하여활용할수있기때문에더욱관련분야가발전되고있다. 딥러닝은은닉층 (Hidden Layer) 을어떻게구성하는가에따라여러가지구조로모형을구성할수있다 ( 그림 2). 은닉층을넓게 (wide) 혹은깊게 (Deep) 이론적으로는모형의정확도가상승한다. 반면, 은닉층이넓거나깊게설계할경우학습및추정하기위하여컴퓨터가활용하여야하는 Resource 의물리적인양이증가하므로, 추정시간이오래걸리거나컴퓨터의 CPU, 메모리등의고성능하드웨어가필요할수있다는단점이있다. 4 딥러닝체계설계시변수간의시간 ( 순서, sequence) 를반영한모형을적용하기위해서는 RNN 체계를설계하는것을고려할수있다 (Gu, Zhang, Zhang and Kim, 2016). 이는 Panel data analysis 혹은 VAR(vector auto-regression) 모형과같이, 모형에투입되는변수의선후관계혹은시간등순서를지정하여추정하는방법이다. 본연구에서부도예측의설명변수로활용하는재무 / 시장 / 거시경제정보는전기 (t-1) 뿐만아니라그전의기간 (t-2, t-3, ) 에도영향받을수있다 ( 그림 3). 따라서 RNN 체계를활용할경우좀더정확한예측이가능할것으로기대하였다. RNN 체계는구조가복잡하여학습과예측에투입되는 Data 양이많아야하고역시계산에소요되는 Resource( 시간, 하드웨어성능 ) 이추가적으로필요하다는단점이있다. 4 DNN 최적의예측모형을산출하기위해서는 Cost 함수기준, 층별가중치 (LSTM), 시작값등선택하여딥러닝체계를 설계한후에학습및예측과정을수행하여야한다. 13

< 그림 2> DNN 체계구성개념 < 그림 3> RNN 체계구성개념 2.2.2.4. KMV 모형 재무정보가포함된부도예측모형은재무정보의생성주기가연간 5 으로서재무지표공시 기간동안에는기업재무현황이변동되어도재무지표에반영되지않는다. 따라서재무정보 기반의부도예측모형은적시성이떨어지는단점을필연적으로가지고있다. 5 상장기업의경우분기재무제표공시가의무화되어있지만, 기업의현황을정확히반영하는정보는여전히연정기감사보고서기준의재무제표정보를대상으로분석하여야한다. 분기재무지표는연간재무지표에비하여전기대비변동이매우적고세부계정단위로정확한데이터를수집하는것도상대적으로어렵다. 14

이와같은단점을보완하기위하여제시된개념이 Merton(1973) 의옵션가격결정모형기반의시장정보를활용한부도예측모형 ( 이하 KMV 모형 ) 이다. KMV 모형은기업의정보가즉각반영되는시장정보 ( 주가 ) 를기반으로부도확률을예측하는체계이기때문에앞서언급한재무정보변동공백기간의적시성문제를보완할수있는특성을가지고있다. 다만, 주가를얻을수있는상장기업만을대상으로분석이가능하다는한계점이있다. 본연구는미디어기사를대상으로텍스트분석을통하여얻어진정보를기반으로 KMV 모형과유사한형태의부도예측모형을설계하여기존의 KMV 모형과예측성과를비교하는 연구를수행하였다. KMV 모형은시장정보인주가로서기업의일정기간동안의부도확률을예측하는모형이다. 이모형은 Merton(1973) 의옵션가격결정모형을사용하여기업의부채구조를분석하였다. KMV 모형의가장큰의미는시시각각시장정보에따라변화하는기업주가로서일정기간동안의부도확률을구할수있다는점이다. 기존의재무제표변수는회계정보의기간단위보고의특성상즉각적인정보의적용이어렵다는단점이있으나 KMV 모형은매시점에서움직이는주가정보로서 EDF 를도출함으로이를보완하여보다빠르게기업부도위험을인지할수있다는것이최대장점이다. KMV 모형은또한 EDF 를구하기위한과정이매우간단하면서도, 블랙-숄즈-머튼옵션가격모형을사용하였기때문에이론적으로기반이확실하다는장점을가지고있다 ( 최정원외, 2016). Merton(1973) 기업의자산가치, 자기자본가치, 부채가치사이에는다음과같은관계식이 성립한다고하였다. 15

산식의추정을위해서는자산의변동성이필요하지만이것을직접구할수없다. 따라서주식의변동성은시장정보를통하여알수있으므로, KMV 모형의정의에따라주식의변동성과자산의변동성사이에다음과같은관계가성립하는것을이용하여자산의변동성을도출한다. 두산식을이용한연립방정식을풀기위해서는수치적인해를반복적시행착오의조정과정을거쳐서최적화값을찾아내야한다. 이와같은과정을통하여산출된자산변동성을활용하여부도확률을예측하기위해서는부도 거리 (Default to distance, 이후 D.D.) 를산출하여야한다. D.D. 를추정하기위한식과가정은 다음과같다. 2.2.3. 텍스트계량화방법론 텍스트정보는가장대표적인비정형데이터로서문서, 출판물, 웹페이지, 메일 & 메시지등여러가지원천에서확보할수있다. 또한최근발전하고있는음성인식이나영상인식기술과결합할경우이러한정보원천의범위는더욱확정될수있다. 텍스트데이터를예측모형등에활용하기위해서는계량화된변수로측정하는과정을필요로한다. 본연구에서활용한계량화방법론은다음과같다. 16

2.2.3.1. Word2vec 활용 Word2vec 은단어들간의연관된규칙을찾아서각단어의관계를계량적으로산출하는방법론으로서, 각단어간의앞뒤관계를보고근접도를벡터의형태로계산하는알고리즘이다. Word2vec 은사전적으로학습시키는단계를수행하지않으므로 비지도학습 기반의인공지능 ( 머신러닝 ) 의일종으로볼수있다. 단어간의관계에대한정확한벡터를산출하기위해서는분석대상이되는대규모의텍스트데이터문서 (corpus) 데이터베이스를필요로한다. < 그림 4>. Word2vec 방법론비교 Word2vec 은 < 그림 4> 와같이 continuous bag-of-words ( 이하 CBOW) or continuous skipgram( 이하 Skip-gram) 두가지방법론이있다. CBOW 는여러단어로부터한단어를추정하는방법으로서, 주로주변단어로부터목적이되는한개의단어를찾는과정에활용된다. CBOW 는상대적으로작은 Data-set 일때도효과적으로동작하고추정속도도빠른것으로알려져있다. Skip-gram 은한개의단어로연관되는여러단어를예측할경우활용한다. 예를들어, 어떠한단어가현재나타났을때향후어떤단어가나타날지를추정하는것을목적으로하는경우사용하게된다. 본연구에서는 Word2vec 방법론을활용하여뉴스기사내에언급된단어간의관계를계량적으로분석하여연구과정에활용하고자한다. 기업의부도예측을위해서는부도와연관된기사가보도되는횟수, 비율등을파악하여야하는데, 부도와연관된기사라고해서모든기사에반드시 부도 ( 혹은 상장폐지. 이하동일 ) 라는단어가포함되지는않는다. 내용은부도와연관되어있지만 부도 라는단어대신다른어휘를사용한다거나비슷한느낌을전달하는 17

단어를선택할수있기때문이다. 이때 Word2vec 을활용하면기사중에 부도 단어와유사한 의미로사용되는단어들이유사도가높게산출되므로다른단어로표현된 부도 기사를판단할 수있다. 2.2.3.2. 부도관련기사비율측정 기업이부도가실제로발생하기전부터여러가지징후가부도시점이전부터나타나게된다. 이때기자들은이러한징후를파악하여부정적인의견의뉴스기사를작성하게된다. 본연구에서는이러한현상을계량적으로분석하기위하여 부도관련기사비율 을측정하고자한다. 기간별로전체기사중부도와관련된기사의비중을산출하고, 이비율이높게나타날경우이를사전적인 부도 의징후로판단하여부도예측에활용하는것이다. 부도기사비율 it = 부도관련기사수, i= 기업, t= 분석기간 ( 월간, 부도발생기준직전각 12 개월 ) 총정상기사수 부도기사비율산출을위해서는부도기사에대한정의를필요로한다. 이과정에서앞서산출한 Word2vec 유사도를측정하여부도와연관된기사를판별하는과정에활용할수있다. 예를들어, 부도 와특정기준이상의유사도를나타나거나, 유사도기준으로순위 (rank) 를부여하여상위단어들을 부도유사단어 로선정할수있다. 이후선정된부도유사단어중 1 개라도포함된기사를 부도관련기사 로판별할수있다 6. 부도유사단어 (1): 부도 단어와 Word2vec 유사도상위 20 개단어 부도유사단어 (2): 부도 와 상장폐지 단어와동시 Word2vec 유사도상위 20 개단어 최정원 한호선 이미영 안준모 (2015) 는부도가발생한기업의뉴스텍스트데이터를텍스트마이닝기법으로분석하여기업부도예측의가능함을시도하였다. 부도발생기업의뉴스에서는빈도분석결과, 정상기업의뉴스보다유의적으로많이나타나는주요단어들을도출할수있었으며, 이러한단어가부도와연관성이있음을분석하였다. 본연구는이연구가제시하는단어도 6 이러한방식으로산출할경우부도유사단어와부정서술문이결합된경우 ( 예 : 부도가발생하지않았다 ) 를별도로구별하기어렵다는단점이있다. 하지만부도를부정하는경우도일단부도와연관성이아주낮은상황이라단정하기어렵고, 분석기사수가증가함에따라이러한현상은희석되므로일단은상관없이분석을진행하였다. 18

연구에활용하여부도예측여부를판단하여보았다. 부도유사단어 (3): 회생, 공시, 자금, 횡령, 증자, 채권단, 워크아웃 이러한방식으로각각의도출된 [ 부도유사단어 (1)~(3)] 을기준으로 [ 부도기사비율 (1)~(3)] 을각각추정할수있다. 2.2.3.3. 기사 / 기업 / 기간단위유사도수준측정 Word2vec 을이용하면기사를구성하는모든단어 7 에대하여 부도 단어와유사도를측정할수있으므로, 기사를구성하고있는해당단어들의유사도평균값을산출하면해당기사의 부도 단어와의유사도수준을측정할수있다. 또한기사단위유사도는기업별, 기간별로다시평균값을산출함으로서특정기간의해당기업에대한기사를구성하고있는단어들의 부도 와의유사도평균수준을산출할수있다. 이러한방식으로분석대상이되는기업과해당기간에대한뉴스의 부도 와유사도수준을측정하여계량화된변수를산출할수있다. 부도유사도 (1): 특정월의해당기업의기사를구성하고있는모든단어의유사도평균수준 부도유사도 (2): 특정월의해당기업의기사단위유사도평균 ( 단어유사도총합 / 기사수 ) 7 모든단어에유사도를부여하는것이가능하기는하지만, 분석 resource( 시간, 데이터량등 ) 가소모되는수준에비하여분석의실효성은떨어진다. 따라서모든뉴스기사를취합한기준으로최소 200 회이상언급된단어 5,335 개에대해서만유사도를측정하여분석에활용하였다. 19

2.3. 모형의예측력평가방안 2.3.1. 모형예측력평가지표 앞서설명한여러가지방법론을적용하여기업부도예측을수행할경우모형의성능을비교하기위해서는동일한개념으로적용이가능한객관적인모형평가방법이필요하다. 예측모형의성능은 구축된모형이얼마나예측분류에서실제분류와똑같이분류하는가? 가모형의평가의핵심이될것이다. 즉, 본연구의기업부도예측과같은이진분류예측의상황은두범주 ( 부도, 건실 ) 간의정확한분류가가능한지를여러모형간에비교하여봄으로서모형평가를수행할수있다 ( 최정원외, 2016). 예측값과실제값기준의정확도의산출방법은 < 표 4> 와같다. < 표 4> 이진분류모형의예측정확도지표산출방법 기업예측모형과같은이진판별예측은할때, 0 에서 1 사이까지나타나는추정값들 사이에서판별값 (Threshold) 이변함에따라민감도와특이도를포함한정확도가변동하게된다. 이러한판별값별로변하는민감도와특이도간의관계를그래프로나타낸것이 ROC(Receiver Operation Characteristic) 곡선그래프이다. ROC 곡선의특성은민감도와특이도가크면클수록좌상향으로치우칠것이며, 이와같은경우가가장정확도가높은수준으로추정할수있다. 8 본연구에서는각예측모형추정결과의 ROC 를모두도출하여판별값과상관없이가장정확도가 8 예측목적에따라정확도가아닌민감도혹은특이도를예측모형평가지표로활용하는경우가있다. 예를들어부도기업예측시, 부도 (1) 인기업을부도 (1) 로예측하는것이건실 (0) 기업을건실 (0) 기업으로예측하는것보다중요하다고생각한다면정확도보다는민감도를평가기준으로삼아야한다. 이러한가정은보통부실기업의 sample 수가현저하게작아서정확도로예측모형의성능을정확하게평가하기어려운경우사용한다. 본연구는 Test set 구성시, 부도 (1) 와건실 (1) 비중을 50%:50% 균형 sample 로설정하여분석하므로정확도를모형예측의평가지표로설정하였다. 20

높은수준을각모형의예측수준으로평가하였다. 9 2.3.2. 모형평가강건성증대방안 만약예측모형도출하여모형의예측력을평가하는과정에서모형도출과정에서활용한학습 (training) 데이터를상기평가방법과같은예측력평가로적용하면상당히우수한예측력이나올가능성이높다. 이는과잉적합과함께대표적으로인공지능과같은귀납적추론과정에서흔히나타나는오류이다. 이를방지하기위해서는 Sample data 를학습세트 (training set) 와평가세트 (test set) 으로나누어예측정확도 (Accuracy) 를산출하고이를근거로모형의성능을평가하여야한다. 본연구도학습세트와평가세트를전체표본중중복되지않도록 70% 대 30% 의비중으로배분하여모형의추정과예측력평가과정에각각사용하여이와같은오류를최소화하고자하였다. 한편, 그동안의연구에서는부도기업의표본 (sample) 수가정상기업에비하여매우작은 경우가많이나타나기때문에꾸준하게표본의불균형에의한모형예측력평가의어려움이 있음을한계로지적하여왔다 10. 이에본연구는부도기업의표본은고정하고건실기업의 표본을부도기업수만큼만 Random 형태로 Sampling 하여균형 (equal-weighted. 50% 대 50%) 표본을구성하여모형의추정과평가에활용하는방안을적용하였다. 다만이러한방식을사용할경우정상기업표본에서표본선택에따른편의 (bias) 가발생할수있으므로, 평가과정의강건성을얻기위하여정상기업표본을반복적으로총 100 세트 (set) 를임의확률 (random) 로구성하여모형평가과정에활용하였다. 따라서각방법론의예측수준평가를위한정확도값은모든평가세트 (100 set) 에서산출된정확도의평균수준으로산출하였다. 9 이론적으로는판별값은 0.5 수준을설정하는것이맞으나모형및데이터에특성에따라판별값이많이달라진다. 아직까지확실하게이론적으로판별값을지정하는방법론이확립되지않아대부분의데이터마이닝 Concept 의연구는본 연구와같이귀납적으로판별값을설정하여예측결과를산출하고있다. 10 예를들어, 정상기업과부도기업의비중이 90%:10% 라면, 모두정상기업으로판단하는예측을수행해도예측정확도가 0.9 로나타난다. 따라서편중이심한표본은항상예측모형의정확도를과대하게평가할수있는우려가있다. 최정원외 (2016) 은이와같은문제점을해결하는방안으로각부도기업별로동일한시장 ( 코스피 / 코스닥 ), 유사한산업, 유사한재무수준의정상기업을 1:1 로짝지어 (mapping) 분석하는방법을적용하였다. 하지만이방법은객관적인기준으로유사한기업을찾기가쉽지않아서분석자가임의적으로대상을선정하는경우가많이발생한다. 이러한편의 (bias) 를줄이고자본연구에서는임의확률 (Random) 을이용하여균등표본을설계하는방안을적용하였다. 21

3. 실증분석 3.1. 부도사건의정의 증권거래소, 법원등에서상거래상기업의현황을정의하여야하는공적인기관에서는공식적인부도를정의하고있다. 하지만실제로기업의부도를인식하는기준은분석하는목적과연구자에따라기준이다를수있다. 또한실제로이미기업의실질적인부실이발생하고상당한기간이소요된후부도가공식적으로인식되는경우도많이발생하게된다. 따라서기업부도예측연구과정에서보다유용한결과를얻기위해서는기업의부도 ( 부실 ) 에대한명확한정의를하는것이매우중요하다. 본연구는이인로 김동철 (2015), 최정원 오세경 (2016) 등의선행연구와같이유가증권시장에서 상장폐지 가결정된기업들중부도에관련된공시 11 가발생한기업들을부도발생기업을인식하고분석을진행하였다. 상장폐지사건은부도와반드시연결된다고볼수는없으나시장에서는부도와관련된이유로상장폐지가발생한대부분의기업은특수한상황을제외하고부도가발생하거나부도에준하는재무상황이발생하여타투자자에게지분이인수된다. 또한부도가발생하지않더라도상장폐지사건은거래정지및주가하락이발생하여투자자와채권자가큰손실을입을수있는사건이므로상장폐지를부도로인식하는것은보다보수적인기준에서부도를적절하게평가하는방법이라고할수있다. 3.2. 데이터수집및정제 3.2.1. 분석대상기업정의 2001 년부터 2015 년까지상기부도정의에따라유가증권시장에상장된기업을대상으로분석대상이되는부도기업과건실기업을집계하면 < 표 5> 와같다. 부도기업은상대적으로 KOSDAQ 시장에서많이발생하였다. KOSPI 시장의경우 IMF 위기이후기간인 2002 년전후, KOSDAQ 시장의경우 2008 년글로벌경제위기이후기간인 2009 년에서 2011 년사이에집중적으로부도기업이발생한것을확인할수있다. 11 부도발생, 화의절차개시신청, 회사정리절차개시신청, 감사인의의견거절 및 은행거래정지 등의기업의부실및지속가능성이심각하게의심되는사유로발생한상장폐지사건을부도로정의하였다. 반면, 신규 / 변경상장, 특수목적에의한상장폐지, 기업피인수 등원인의상장폐지공시는부도사건과상관없는공시로정의하여분석대상에서제외하였다. 22

시장구분 건실기업 부도기업 Total KOSPI 678 133 811 KOSDAQ 1108 370 1478 Total 1786 503 2289 < 표 5> 분석대상기업 < 그림 5> 연도별부도기업추이 3.2.2 텍스트데이터수집 비정형정보엔뉴스텍스트데이터수집을위하여, 네이버뉴스검색홈페이지를활용하여, 분석대상기업들에대한 2010 년 1 월부터 2016 년 12 월까지의 84 기간의뉴스컨텐츠를 수집하였다. 12 텍스트 DB 를구축하기이전분석대상기업의전체기사수를먼저집계하여다음과같은 분석대상제외조건을만족하는총 650 건 ( 비부도기업 273 부도기업 377 개 ) 의경우를제외하고 진행하였다. (a) 2010 년전의부도가일어난기업 : 기사를확보할수없음 (b) Sample 수부족 : 분석대상기간 (2010 년 ~ 2016 년 ) 동안기사수 100 건이하 (c) 기업의이름이일상적인용어와같은경우 (Ex: 전방, 청구, 부흥, 진도등 ) (d) 기타해당기업의기사인지정확하게확인할수없는기업 12 R 프로그램을사용하였으며 N2H4 패키지를사용하였다. 23

제외후텍스트정보수집대상기업은총 1,788 개의기업으로총 2,506,080 건의기사를 텍스트 DB 로확보하였다. 기업당평균적으로약 1,401 건의기사를수집하였고, 1 개월당 평균적으로약 16.6 건의기사이다. 또한년도별로기사수추이는 < 표 6> 과같다. 구분 Total 2010 2011 2012 2013 2014 2015 2016 기사수 2,506,080 110,213 339,040 390,764 394,128 402,792 426,991 442,152 기업당 평균 1,402 62 190 219 220 225 239 247 < 표 6> 총뉴스기사수연간추이및합계 텍스트 DB 는이후자연어처리과정 (Natural Language Processing, NLP) 을진행하였다. 13 기사수와마찬가지로총집계 200 개이하의키워드는분석에서제외하였고, 동의어는의미상의대표단어로변환하여활용하였다. 또한특정의미 ( 회사명, 제품명, 인물명, 지명, 일자, 시간 ) 명사는제외하였다. 3.2.3. 부도기사비율및부도유사도산출결과 앞서 3.2.3. 에서설계한방법론을토대로수집된텍스트데이터를계량화하여기업부도예측 모형에서활용할수있도록변수화하는과정을수행하였다. 3.2.3.1. Word2vec 산출결과 수집된텍스트데이터베이스를기반으로 부도 및 상장폐지 와기사내에언급된단어간의 유사도를 Word2vec 을이용하여산출할수있다. 다음은유사도기준상위 20 개단어를선별한 결과이다. 13 자연어처리는 R program 의 KoNLP Package 를사용하였으며, 자연어처리의성능향상을위해한국정보화진흥원에서개발한형태소사전을이용하였다. 자연어처리외에도도출빈도수가높은키워드중에특정한의미의동의어, 불용어등은분석자가직접지정하여처리하여야한다. 24

Rank ' 부도 ' 기준 ' 부도 ' & ' 상장폐지 ' 기준 word 유사도 word 유사도 1 도산 0.74 퇴출 0.63 2 파산 0.63 관리종목 0.62 3 경영난 0.60 파산 0.62 4 외환 0.60 도산 0.61 5 자금난 0.60 분식회계 0.60 6 법정관리 0.57 법정관리 0.57 7 어음 0.57 원리금 0.56 8 연체 0.55 잠식 0.56 9 워크아웃 0.54 연체 0.55 10 대출금 0.53 자금난 0.55 11 원리금 0.53 손실 0.54 12 폐업 0.53 매매거래 0.53 13 부실화 0.53 워크아웃 0.53 14 부실 0.52 부실 0.53 15 채무 0.50 기업회생 0.52 16 손실 0.49 감사보고서 0.52 17 몰락 0.48 대출금 0.52 18 제때 0.48 회생 0.52 19 기업회생 0.48 부실기업 0.51 20 속출 0.47 정지 0.51 < 표 7> Word2vec 유사도산출결과 부도 와 상장폐지 는두단어간에도유사도가존재하기때문에일부단어의경우중복하여 나타나는것을확인할수있다. 3.2.3.2. 부도기사비율산출결과 < 표 7> 의 Word2Vec 기준으로부도연관기사를산출한결과를요약하면 < 표 8> 과같다. 구분 Total 2010 2011 2012 2013 2014 2015 2016 부도연관 부도연관 기사수 380,673 16,586 48,636 59,214 65,863 60,729 59,473 70,172 단어 (1) 부도기사 비율 (1) 평균 15.19% 15.05% 14.35% 15.15% 16.71% 15.08% 13.93% 15.87% 25

부도연관 부도연관 기사수 389,952 14,496 46,398 59,157 69,142 64,457 61,718 74,584 단어 (2) 부도기사 비율 (2) 평균 15.56% 13.15% 13.69% 15.14% 17.54% 16.00% 14.45% 16.87% 부도연관 단어 (3) 부도연관기사수부도기사비율 (3) 평균 221,523 11,616 29,269 31,948 37,553 35,198 35,176 40,763 8.84% 10.54% 8.63% 8.18% 9.53% 8.74% 8.24% 9.22% < 표 8> 부도연관기사및부도기사비율연간추이 3.2.3.3. 부도유사도산출결과 < 표 7> 의 Word2Vec 기준으로부도연관기사를산출한결과를요약하면 < 표 9> 과같다. 구분 Total 2010 2011 2012 2013 2014 2015 2016 부도유사도 (1) ( 부도 ) 0.0206 0.0124 0.0216 0.0276 0.0279 0.0296 0.0247 0.0206 부도유사도 (2) ( 부도 & 상장폐지 ) 0.0546 0.0309 0.0609 0.0730 0.0728 0.0749 0.0695 0.0546 < 표 9> 부도연관기사및부도기사비율연간추이 3.2.4. 데이터수집결과요약및데이터세트 (set) 적용방안 정보원천별로모형예측의영향을평가하기위하여취합된분석 DB 를 4 가지의데이터세트로분류하여각각의모형에적용하고자한다. 분류된데이터세트의구성은 < 표 10> 와같다. 데이터세트는기존연구에서활용도가높았던순서대로재무정보, 시장정보, 거시경제정보, 비정형정보순으로점진적으로반영하는정보가늘어나는형태로설계하였다. 26

< 표 10> 모형적용데이터세트요약 재무정보의경우부도발생전기 (t-1 시점 ) 보다이전부터재무지표가악화되어부도에 영향을줄가능성이있으므로총부도발생직전 3 기간 (t-1, t-2, t-3) 기간의재무정보를 사용하여예측모형을산출하였다. 한편, 뉴스텍스트정보는인터넷으로뉴스기사수집이가능한시점인 2010 년이후의정보만활용이가능하다. 14 따라서분석과정에서는이러한세트별기간의불일치를고려하여분석을하여야한다. 본연구는활용가능한데이터수준에따라 2 가지분석기준을추가로고려하였다. 따라서 < 표 10> 에서구분한정보기준과결합하면총 7 개의분석 Set 가구성되었으며, 각방법론에모든 Set 를반영하여각각의예측모형을산출하고상호간의비교분석을수행하였다. 1) Set A: 재무, 시장, 거시경제정보 (2001~2016 년 ). 총 2291 개 ( 부도 502 개 ) 기업대상 [SetA_1] / [SetA_2] / [SetA_3] 2) Set B: 재무, 시장, 거시경제정보 (2010~2016 년 ). 총 1586 개 ( 부도 258 개 ) 기업대상 [SetB_1] / [SetB_2] / [SetB_3] / [SetB_4] 14 크롤링 Source 인 네이버뉴스 웹페이지가 2010 년이전뉴스를제공하지않는다. 기타 Source 를활용할경우분석 기간에대한확장이가능하다. 27

3.3. 연간예측모형 재무정보를포함하는기업부도예측모형은연간단위로예측을수행하여야한다. 부도여부 (1: 부도, 0: 정상 ) 을목표 (Target) 변수로하여각방법론을활용하여예측모형을구성하였다. 3.3.1 방법론별최적예측모형도출 상기과정을통하여생성된분석 DB 를각학습세트 (training set) 를기반으로적용하여 < 표 11> 와같은방법론을적용하여모형을적합 (fitting) 하고최적모형을도출하였다. 방법론세부적용방법론및가정산출 (fitting) 및모형평가방법 Cross-section 형태의분석방법이므로시점별 (t-1,2,3) 변수를모두설명변수로각각적용 1. 로지스틱다중회귀분석모형 (Stepwise) 변수가많아과다적합문제발생가능 (Logit) Engine: R (glm) Stepwise 로변수선택적용 F-value(P-value) 및 R 2 로모형평가 주가, 거시경제, 비정형정보등 Hazard 함수설명변수로반영가능 2. Cox-PH Hazard Cox PH 모형 ( 다중회귀, 층화, Stepwise) 산업별생존함수를추정하여산업별특성반영 (Cox) Engine: R (survival) 변수선택 (Stepwise) 필요 F-value(P-value) 및 R 2 로모형평가 3. Decision Tree (Dtree) Max maxsurrogate( 노드수 ): 3 단계 Engine: R (Dtree) 비교모형으로활용 Accuracy 로사후적모형평가 4. Random-Forest (RF) Sampling 을통한 paramenter 최적화 Engine: R (e1071) 다양한설정값시뮬레이션 Accuracy 로사후적모형평가 5. SVM Sampling 을통한 paramenter 최적화 Engine: R (e1071) 다양한설정값시뮬레이션 Accuracy 로사후적모형평가 6. 인공신경망 (DNN) 7. 인공신경망 (RNN) Deep 구조 : 512 EU * 8 Layer Activation Function: ReLU 초기값설정 : Xavier initializer 15 Engine: Python (TensorFlow) Deep 구조 : 3 기간 (LSTM Cell) 적용 Activation Function: ReLU 초기값설정 : Xavier initializer Engine: Python (TensorFlow) Cost 함수 ( 평균예측오차 ): ( 실제값 예측값 ) 평가횟수 학습횟수 2 만 or Cost 기준 0.1 이하까지 Cost 함수 ( 평균예측오차 ): ( 실제값 예측값 ) 평가횟수 학습횟수 2 만 or Cost 기준 0.1 이하까지 < 표 11> 각모형의세부적용방안및산출모형적합도평가방법 15 딥러닝초기값에대한방법은 Glorot, X., Y. Bengio(2010) 을참고하였다. 28

3.3.2 예측모형성과분석 3.3.2.1. SET A 결과 ( 분석기간 2001 년 ~2016 년적용 ) 각기간별데이터세트와예측모형추정방법론을적용한예측수준 ( 정확도 ) 산출결과는 < 표 12> 과같다. 가장높은정확도를나타낸방법론은 Random Forests 방법론이었다. 로지스틱모형과 SVM 또한 0.9 에상회하는높은정확도가산출되었다. 그외에의사결정나무 (Dtree) 와인공신경망 (DNN, RNN) 등은 0.9 에다소못미치는정확도를산출하였다. 기업의재무정보, 거시경제정보, 시장정보를포괄하여가장정보가많이활용된 <SET3> 의정확도는타데이터세트에비하여다소높게산출되긴하였지만유의미한수준은아니다. < 표 12> 모형별예측정확도산출결과 (SET A) 16 3.3.2.2. SET B 결과 ( 분석기간 2010 년 ~2016 년적용 ) < 표 13> 은 2010 년 ~2015 년까지데이터를적용 (SET B) 하여각모형예측정확도를산출한 결과이다. 17 이분석결과에서도역시 Random Forests 방법론이가장우수한예측력을보였고, SVM, 인공신경망 (DNN) 순으로예측력이좋았다. 앞서예측력수준이높았던로지스틱모형은 16 정확도는총 100 회 Sample 세트별예측정확도의평균값이고, ( ) 안은표준편차이다. (< 표 11> 동일 ) 17 인공신경망 (RNN) 의경우분석과정에 3 개년연속된데이터가필요한데, 이럴경우 Set B 는 Data Sample 수의손실이 너무심해서유효한분석이어렵다. 따라서 <Set B> 분석에서는인공신경망 -RNN 은제외하고분석하였다. 29

상대적으로모형예측력이하락하였으나인공지능기법들의예측력은유지되거나오히려다소 상승하였다. 이는데이터가줄어드는경우에도인공지능예측방법론들이상대적으로모형 예측력이강건하게유지될수있음을의미한다. 또한기존의 <SET B_3> 에뉴스텍스트정보까지추가로반영된 <SET B_4> 가타모형에비하여모형예측력이높게나타났다. 이는비정형정보도부도예측성능향상에영향을줄수있음을실증하는결과이다. 다만역시평균과표준편차수준으로볼때정보를미반영한 SET 와차이가통계적으로유의한수준이라보기는어렵다. < 표 13> 모형별예측정확도산출결과 (SET B) 3.3.2.3. 연간모형예측결과종합해석 분석결과인공지능중 Random Forests 방법론이두데이터 SET 모두가장높은수준의예측력을보여주었다. 특히데이터수가상대적으로적은 <SET B> 에서도우수한예측력을유지함으로서인공지능기법이강건하게기업의부도에대한예측을잘수행할수있음을실증하는결과이다. 한편, 현재적용된인공지능 -DNN 체계의은닉층구조는 1 열 8 개층 (layer) 중첩구조이고, RNN 은 3 기간 10 개층 (layer) 구조이다. 컴퓨터하드웨어를보강하고추가적인효율화방안을 도입하여이러한구조를개선하면현재보다더높은예측정확도를얻을가능성이있다. 인공지능 (DNN) 을적용한결과를보면 Sample 데이터수가많은 <SET A> 에비하여 <SET B> 의 예측정확도가오히려높게나오는현상이발생하였다. 이역전현상은과잉적합 (over- 30

fitting) 하여오히려예측력이떨어지는현상이나타난것으로추정된다. 따라서향후변수간의 관계를고려하여일부변수를정리하거나과잉적합을해결할수있는추가적인방법론을 적용해준다면, 인공지능기법의예측정확도결과는현재보다높아질수있다. 한편, 텍스트데이터를추가로반영한 <SET B_4> 의예측정확도는방법론에따라약간의차이는있지만전반적으로텍스트데이터를반영하지않은 SET 에비하여정확도수준의유의한차이가나타나지않았다. 또한재무정보만활용한 <SET A_1>, <SET B_1> 의예측력도타 SET 에비하여큰차이가없었다. 이는상장기업의경우다양한공시요구및규제에의하여기업의정보가재무정보에이미충분히반영되어나타나는결과라판단된다. 3.4. 월간예측모형 미디어의뉴스기사는시장정보 ( 주가 ) 와마찬가지로실시간으로공개되는정보이다. 따라서시장정보를활용한예측모형인 KMV 모형과유사한형태의부도예측모형구축이가능하다. 본연구는기업의부도관련뉴스가실제부도가발생하는시점이전에부도가능성을선제적으로알려줄수있는지, 조기경보지표 (early warning index) 로서활용가치가있는지연구하였다. 3.4.1. 예측모형설계 먼저예측모형추정의대상이되는 Sample 데이터를정의한다. 해당기업의기사수가너무적은경우 1,2 건의부도관련기사로인하여과민한예측결과가발생할수있다. 따라서신뢰성있는모형결과를위하여일정건수이상의기사가확보된기업을대상으로예측모형을산출하였다. 1) 대상기간 : 2010 년 ~2016 년 ( 텍스트 DB 확보가능기간 ) 2) 기사수기준 : 대상기간동안총기사수합계 100 건이상 3) 정보확보여부 : 대상기간동안주가, 시가총액, 재무정보모두확보가능한기업 ( 신생기업, 중도이탈기업제외. 부도기업은부도 ( 상장폐지 ) 이전시점까지만해당 ) 상기기준을적용하여기존에확보한데이터를대상으로선별한결과부도기업 52 개, 정상기업 855 개를 Sample 분석대상으로확보하였다. KMV 모형및텍스트기반모형의 부도예측단위는월간이며, 부도기준직전 12 개월의추이를분석하였다. 31

3.4.2. KMV 모형산출결과 부도기업의부도발생전 12 개월의 D.D. 의평균수준추이는 < 그림 6> 와같다. < 그림 6> 부도발생 12 개월전 D.D. 평균추이 18 부도기업의경우부도발생 1 년전부터점진적으로평균수준에비하여다소낮은수준으로 D.D. 가하락하다가, 부도발생 3 개월전부터급격하게하락하는것을확인할수있다. 3.4.3. 텍스트정보기반예측모형산출결과 < 그림 7> 은동일한기간과동일한기업에대하여기사텍스트데이터베이스를기반으로 산출한부도기사비율및부도유사도를적용하여도식한결과이다. < 그림 7> 부도발생 12 개월전부도기사비율추이 18 정상기업은부도시점을설정할수없기때문에 2014~2016 년 3 개년도기간의월간수치평균값을사용하였다. 이후 텍스트지표도동일한기준을적용하였다. 32

KMV 모형과마찬가지로부도기사비율은부도발생 12 개월이전부터점진적으로상승하여지속적으로정상기업에비하여높은수준으로산출되는것을확인할수있다. 부도기사비율중에는 부도 와 상장폐지 를동시에 Word2vec 을활용하여상위 20 개단어가포함된기사를부도기사로간주한 [ 부도기사비율 2] 가정상수준에대비하여가장유의한차이를보이고있다. < 그림 8> 은 부도 단어와의 Word2vec 유사도수준의산출결과이다. < 그림 8> 부도발생 12 개월전부도유사도 ( 평균, 기사단위평균 ) 추이 부도유사도역시부도기사비율과마찬가지로부도발생이전부터정상기업과차이가나타난다. 다만, KMV 와부도기사비율과는달리점진적상승추세가다소약하고, 부도시점에가까워지면서오히려정상기업보다떨어지는수준도나타나는것을확인할수있다. 이는기사수가많아지면서절대적인단어수가증가하여부도유사도가높은단어의영향을중화하는현상이발생한것으로파악되었다. 3.4.4. KMV 와텍스트정보기반예측모형비교 앞서분석한 KMV 모형과텍스트정보기반의예측모형은각각부도발생이전시점부터부도 가능성이상승함을보여주는것을확인할수있었다. 이제두모형을비교하기위하여함께 그래프로도식화하여비교하여보았다. 부도기사비율은 KMV 모형의결과인 D.D. 와비슷한형태로부도가능성에대한신호를주고 있는것을볼수있다 ( 그림 9). 특히부도발생 6 개월이전시점부터는지속적으로 KMV 모형보다다소높은수준으로부도기사비율이나타난다. 33

< 그림 9>. 부도기사비율과 D.D. 의비교 19 < 그림 10> 은부도유사도중가장예측수준이높은것으로나타난 [ 부도기사비율 1_1] 과 D.D. 수준추이를비교하여보았다. < 그림 10>. 부도유사도과 D.D. 의비교 기사의부도유사도수준은 D.D. 에비하여부도발생 7~10 개월전에매우큰차이를보인다. 다만, 부도발생 2~4 개월기간은 D.D. 보다낮은수준으로부도가능성을예측하고있다. 이러한현상은부도기업의경우실제부도가나타나기오래전부터부도관련단어가기사에서많이나타나는현상을실증한다. 19 D.D. 는부도로부터의거리로서값이작아질수록부도가능성이증가하는지표이고, 부도기사비율은값이커질수록부도가능성이높아지는지표이다. 따라서두지표의비교를위하여 D.D. 는음수로표현하였다. < 그림 X> 부도유사도와비교그래프로동일하다. 34

상기분석결과를보면, 부도기사비율과부도유사도를활용할경우 KMV 모형과유사한형태로부도예측이가능함을알수있다. 또한부도발생시점을기준으로 KMV 모형보다이전기간에부도유사도가상승하여기업부도에대한조기경보지표로서기사정보를이용한텍스트기반의모형결과가활용될수있는충분한가능성을보여주었다. 더욱이텍스트정보기반의부도예측은주가정보가없는비상장기업에도활용이가능하다는점에서 KMV 의단점을보완하는방법론으로더욱의미가있다. 텍스트기반의부도예측방법또한단점을가지고있다. 먼저기업관련뉴스의편중문제이다. 대부분의기업뉴스는일부매우우량하고유명한대기업에대한기사가많이생성되고, 정작부도가많이발생하는규모가작은기업에대한뉴스는상대적으로매우적다. 따라서본방법을적용할수있는분석대상이한계가있었다. 향후이를보완하기위해서는텍스트데이터확보정보원천을미디어뉴스뿐만아니라기업공시자료, 증권 / 투자관련게시판, 해당기업홈페이지등으로확대하여보다광범위한텍스트데이터의확보가필요할것이다. 35

5. 결론및시사점 본연구는기업부도예측과정에서우선비정형데이터인뉴스텍스트데이터를계량화하여새로운정보원천으로활용할수있는방법을제시하였다. 또한기존정보원천과함께텍스트정보를포함한인공지능기반의예측방법론을제시하고기존의방법론과예측력을비교분석하였다. 연구결과, 우선연간모형에서는인공지능기법인 Random forests 기법이가장우수한 예측력이나타나는것으로분석되었다. 또한인공지능을이용한다른방법론들도전반적으로기존의전통적인예측방법보다예측력이우수한것으로나타났다. 뉴스텍스트를추가적인정보원천으로추가한효과는연간예측모형에서는다소미미하였다. 하지만월간예측모형에서는텍스트정보기반의예측모형이시장정보기반의예측모형인 KMV 모형과유사한결론을도출할수있어기업부도예측과정에서조기경보모형으로충분히활용이가능함을실증하였다. 본연구는현재도출된결과로도의미가있지만향후연구의확장이필요하다. 현재분석대상인상장기업의경우재무정보가기업현황을비교적잘반영하고있고, 기업에대하여발생하는정보또한주가에즉각반영되고있는편이기때문에텍스트정보및인공지능도입에대한예측증가수준이미미할수있다고판단된다. 따라서재무정보의신뢰도가떨어지고시장정보의확보가어려운중소기업이나개인에대하여본연구의부도예측방법을적용한다면기존의방법에대하여추가적인예측수준증대를얻을수있을것이다. 다만, 이러한연구시본연구가대상으로한뉴스텍스트정보뿐만아니라웹페이지, 공시자료등추가적인정보원천을포괄하여적용하여야유의미한결과를얻을수있을것이다. 빅데이터및딥 - 러닝분야는아직까지국내금융, 재무분야에서관련연구가부족한상황이다. 하지만본연구에서활용한방법론은타연구에서도충분히응용하여활용이가능하다. 향후 관련연구자들의괄목할만한연구성과가많이도출되기를기대한다. 36

< 참고문헌 > 김민수 구평회 (2013), 인터넷검색추세를활용한빅데이터기반의주식투자전략에대한연구, 한국경영과학학회지, 제 38 권제 4 호, pp. 53-63. 김성규 (2010), 경기변동을반영한부도예측모형에관한실증연구 : 중소기업회계정보기반동태적모형을중심으로, 한양대학교박사학위청구논문, pp. 1~142. 김성진 안현철 (2016), 기업신용등급예측을위한랜덤포레스트의응용, 산업혁신연구, 제 32 권제 1 호, pp. 187-211. 김유신 김남규 정승렬 (2012), 뉴스와주가 : 빅데이터감성분석을통한지능형투자의사결정모형, 지능정보연구, 제 18 권제 2 호, pp. 143-156. 박재빈 (2006), 생존분석이론과실제, 신광출판사. 안성원 조성배 (2010), 뉴스텍스트마이닝과시계열분석을이용한주가예측, 한국컴퓨터종합학술대회논문집, 제 37 권제 1 호, pp. 364-369. 오세경 (2001), 다변량판별분석모형과주식옵션모형을이용한기업도산예측, 산은조사월보, 제 549 호, pp. 1-29. 이광석 (2014), 빅데이터기반의거래기업모니터링, 기술금융연구, 제 4 권제 1 호, pp. 91-131. 이인로 김동철 (2015), 회계정보와시장정보를이용한부도예측모형의평가연구, 재무연구, 제 28 권, 제 4 호, pp. 626-666. 이재식 한재홍 (1995), 인공신경망을이용한중소기업도산예측에있어서의비재무정보의유용성검증, 한국전문가시스템학회지, 제 1 권, 제 1 호, pp. 123-134. 조남옥 신경식 (2016), 빅데이터기반의정성정보를활용한부도예측모형구축, 지능정보연구, 제 22 권, 제 2 호, pp. 33-56. 최정원 오세경 (2016), 생존분석과 KMV 모형을이용한기업부도예측, 상경연구, 제 41 권제 1 호, pp. 91-136. 최정원 한호선 이미영 안준모 (2015), 텍스트마이닝방법론을활용한기업부도예측연구, 생산성논집, 제 29 권제 1 호, pp. 201-228. Addal, S.(2016), Financial forecasting using machine learning, African Institute for Mathematical Science(AIMS), pp. 1-32. Altman, E.(1968), Financial Ratios, Discriminant Analysis and the Prediction of Corporate Bankruptcy., The Journal of Finance, Vol. 23, No. 4, pp. 589-609. Breiman, L.(2001), Random forests, Machine Learning, Vol. 45, No. 1, pp. 5-32. Campbell, J. Y., J. Hilscher, J. Szilagyi(2008), "In search of distress risk", The Journal of Finance, Vol. 63, No. 6, pp. 2899-2939. Chen, H., P. De, Y. Hu, and B. Hwang(2014), "Wisdom of Crowds: The Value of Stock Opinions Transmitted Through Social Media", Review of Financial Studies, Vol. 27, No. 5, pp. 1367-1403. 37

Flood, Mark D., H. Jagadish, L. Raschid (2016), Big data challenges and opportunities in financial stability monitoring Glorot, X., Y. Bengio(2010), Understanding the difficulty of training deep feedforward neural networks, Proceedings of the 13 th International Conference on Artificial Intelligence and Statistics, PMLR 9, pp. 249-256. Gu, X., H. Zhang, D. Zhang and S. Kim(2016), Deep API Learning, In Proceedings of the 24th ACM SIGSOFT International Symposium on the Foundations of Software Engineering (FSE 2016), pp. 1-12. Kim, H., S. So(2010), Support vector machines for default prediction of SMEs based on technology credit, European Journal of Operational Reserch, Vol. 201, pp. 838-846. Kim, K. (2003), Financial time series forecasting using support vector machines, Neurocomputing, Vol. 55, pp. 307-319. Lu, Y.C., C.H. Shen and Y.C. Wei(2013), Revisiting early warning signals of corporate credit default using linguistic analysis, Pacific-Basin Finance Journal, Vol. 24, pp. 1-21. Marko, K., R. T. Krishnamachari(2017), Big data and AI Strategies, Global Quantitative & Derivatives Strategy, JP Morgan, pp. 1-280. Martinez, J. and R. Garcia, F. Sanchez(2012), Semantic-Based Sentiment analysis in financial news, Finance and Economics on the Semantic Web 9 th conference, pp. 38-51. McQuown, J. A.(1993), A Comment on Market vs. Accounting-Based Measures of Default Risk", KMV Corporation working paper. Merton, R. (1973), On the Pricing of Corporate debt: The Risk Structure of Interest Rates", Journal of Finance, Vol. 29, No. 2, pp.449-470. Nam, C., T. Kim, N. Park, and H. Lee(2008), "Bankruptcy prediction using a discrete-time duration model incorporating temporal and macroeconomic dependencies", Journal of Forecasting, Vol. 27, no. 6, pp. 493-506. Ohlson, J. A. (1980), "Financial ratios and the probabilistic prediction of bankruptcy", Journal of accounting research, Vol. 18, No. 1, pp. 109-131. Shumway, T.(2001), "Forecasting bankruptcy more accurately: A simple hazard model", The Journal of Business, Vol. 74, no. 1, pp. 101-124. Tinoco M. H., N. Wilson(2013), financial distress and bankruptcy prediction among listed companies using accounting, market and macroeconomic variables, International Review of Financial Analysis, Vol. 30, pp. 394 419. Vahala, J.(2016), Prediction of financial markets using Deep learning, Bachelor s Thesis, Masaryk University, pp. 1-50. Yeh, S., C. Wang, M. Tsai(2015), "Corporate default prediction via deep learning", Wireless and Optical Communication Conference (WOCC) 24 th, pp. 1-8 38

<Appendix 1 변수정의 > Code 분류 Index 산식 F01 부채비율 총부채 / 총자산 F02 시장부채비율 총부채 / 시장총자산 * F03 금융부채비율 금융부채 / 총자산 F04 금융부채비율 2 금융부채 / 총부채건전성 F05 금융부채변동율당기 - 전기 / 전기금융부채 F06 이자보상배율 영업이익 / 이자비용 F07 유동비율 유동자산 / 유동부채 F08 고정자산비율 고정 ( 비유동 ) 자산 / 총자산 F11 총자산영업이익율 영업이익 / 총자산 F12 총자산순이익율 당기순이익 / 총자산 F13 수익성 시장자산영업이익율 당기순이익 / 시장총자산 * F14 자기자본순이익율 당기순이익 / 총자본 F15 총자산이익잉여금비율 이익잉여금 / 총자산 F21 총자산증가율 당기 - 전기 / 전기총자산 F22 성장성 매출액증가율 당기 - 전기 / 전기매출액 F23 당기순이익증가율 당기 - 전기 / 전기당기순이익 F31 현금자산비율 현금및현금성자산 / 총자산 F32 시장현금자산비율현금및현금성자산 / 시장총자산 * 유동성 F33 자산대비영업현금흐름영업현금흐름 / 총자산 F34 자산대비총현금흐름 총현금흐름 / 총자산 F41 자산회전율매출액 / 총자산활동성 F42 매출채권회전율매출액 / 매출채권 F51 총매출액 ln( 총매출액 ) 규모 F52 총자산 ln( 총자산 ) M01 주가수익률 당기 - 전기 / 전기주가 ** M02 주가초과수익률주가수익률 - 시장수익률시장정보 M03 주가변동성주가변동성 (20 일 ) M04 주가수준 ln( 주가 ) E01 Kbond 국고채 (3 년 ) E02 CD CD 유통수익률 (91 일 ) E03 GDP 국내총생산 ( 실질성장률 ) E04 USD 원 / 미국달러 ( 매매기준율 ) E05 거시경제 KOSPI KOSPI_ 종가 E07 ( 연기준적용 ) dppi PPI 증감 E08 dcpi CPI 증감 E09 House 주택매매가격지수 ( 증감율 ) E10 Oil 국제유가 (Dubai) E11 Unemp 실업률 C01 직원수증감 당기 - 전기 / 전기직원수 C02 직원평균임금증감 당기 - 전기 / 전기인당평균임금 C03 기업특성 최대주주지분율 최대주주지분율 C04 최대주주지분율증감 당기 - 전기지분율 C05 배당수익률 배당수익률 articlenum 비정형정보 연간기사수 해당기업관련총기사수 39

NumNeg_1 ( 뉴스텍스트 ) 부도기사비율 _1 연간부도 (w2v-부도) 기사수 / 연간기사수 NumNeg_2 부도기사비율 _2 연간부도 (w2v-부도& 상폐 ) 기사수 / 연간기사수 NumNeg_3 부도기사비율 _3 연간부도 ( 선행연구단어 ) 기사수 / 연간기사수 w2v1_1 부도유사도 _1 연관도평균 (w2v-부도) w2v1_2 부도유사도 _2 연관도합계 (w2v-부도) / 기사수 w2v2_1 < 부도 + 상장폐지 > 유사도 _1 연관도평균 (w2v-부도& 상장폐지 ) w2v2_2 < 부도 + 상장폐지 > 유사도 _2 연관도합계 (w2v-부도& 상장폐지 ) / 기사수 market 소속시장 KOSPI / KOSDAQ industry 산업표준산업분류기준분석용산업그룹재분류기업특성 group 재벌그룹여부 30 대재벌그룹소속기업 ( 통제변수적용 ) KP200 공공기관여부공기업 & 공기업이대주주기업 Gov 대기업여부 KOSPI200 기업 * 시장총자산 = 주식의시장가치 + 부채의장부가치 ** 주가는지분변동등을고려한수정주가사용 40