DenseNet 을이용한 P2P 소셜대출에서상환예측 김지윤, 조성배 Department of Computer Science, Yonsei University 50, Yonsei-ro, Seodaemun-gu, Seoul, 03722, South Korea Tel: +82-2-2123-3877, Fax: +82-2-365-2579, E-mail: jiyoon_kim@yonsei.ac.kr, sbcho@yonsei.ac.kr 연세대학교컴퓨터과학과 03722, 서울특별시서대문구연세로 50 Tel: +82-2-2123-3877, Fax: +82-2-365-2579, E-mail: jiyoon_kim@yonsei.ac.kr, sbcho@yonsei.ac.kr Abstract Peer-to-Peer(P2P) 대출플랫폼에서는투자자가대출자의채무불이행시에발생하는신용위험을직접부담하기때문에대출자의채무이행여부를예측하는것은중요하다. 하지만대출자와대출상품에대한많고복잡한정보를기반으로예측해야하는어려움이있다. 이전연구에서는컨볼루션신경망을이용하여대출자의상환을예측하였다. 다른기법에비해높은성능을보였지만과적합현상이발생했으며층을많이쌓을수록학습이되지않았다. 본논문에서는이전연구의문제를해결하기위해 P2P 소셜대출에서대출자의상환예측하기위한 DenseNet 의구조를제안한다. DenseNet 은기존컨볼루션신경망에서모든레이어를직접연결한구조를가지며, 정보의흐름을보장하고과적합현상문제에효과적이다. 소셜대출데이터의특성을고려하여 DenseNet 의구조를설계하고, 하이퍼파라미터를분석하였다. 실험결과 79.5% 로이전연구보다높은성능을보였으며, 과적합현상이사라진것을확인하였다. 또한성능을평가하기위해 5- 겹교차검증법을수행하여제안하는방법의유용성을입증하였다. [ blank line] Keywords: DenseNet; Peer-to-Peer; Social Lending; Repayment 1. 서론 Peer-to-Peer(P2P) 대출은어떤금융기관의도움없이온라인플랫폼을통해대출자와투자자를연결해주는핀테크서비스를의미한다. 이때, 투자자는금융기관대신에신용을부담해야되기때문에채무를이행할수있는대출자를선택해야하며, 이러한대출자를예측하는것은중요하다 [1]. 기존은행과달리 P2P 대출플랫폼은정보비대 칭이나투명성등의문제를해결하기위해대출자에대한많은정보를제공한다 [2]. 미국의 Lending Club 에서는 2007 년부터 2016 년까지 111 가지의속성으로이루어진약 1 백만개의데이터를제공하며, 이러한많고복잡한정보를기반으로이행여부를예측하기위해서는이를수용할수있는모델이필요하다. 이전연구 [3] 에서는 Lending Club 에서제공하는데이터를기반으로심층컨볼루션신경망을이용하여소셜대출에서대출자의상환을예측하였다. 컨볼루션신경망은딥러닝기법중하나로, 가중치를가진필터를통해데이터의특징을자동으로추출하는방법이다 [4]. 컨볼루션신경망은크고복잡한데이터 ( 이미지, 비디오등 ) 에대한강력한솔루션을제공하지만, 모델이복잡하거나층을깊게쌓을수록과적합현상이나타나며정보의흐름이약해진다 [5]. 이전연구에서도학습을진행할수록약간의성능은향상되었지만, 과적합현상이발생했으며층을많이쌓을수록학습이진행되지않았다. 그림 1 은컨볼루션신경망의정확도와손실그래프를보여준다. 이러한문제를해결하기위해드롭아웃 [6] 이나정규화 [7] 와같은최적화기법과새로운구조가꾸준히제안되고있다. 본논문에서는소셜대출에서대출자의상환예측을위한 DenseNet 구조를제안한다. DenseNet[8] 은기존의컨볼루션신경망에서향상된방법으로어떤레이어에서후속레이어로피드 - 포워드형식으로직접연결된구조를가진다. 모든레이어사이의연결을통해정보의흐름을보장하고, 과적합문제를해결하였다. Lending Club 데이터는다양한사람들에대한정보를포함하고있어대표성을띄지않으며, 데이터간의상관관계가낮아데이터의특징을보존할필요가있다. 따라서본논문에서는 DenseNet 을이용하여데이터의정보를유지하고과적합을방지하는모델을제안한다.
(a) 정확도 (b) 손실그림 1. 컨볼루션신경망의정확도및손실 2. 관련연구 2.1 컨볼루션신경망컨볼루션신경망은꾸준히다양한구조들이제안되어왔다. 표 1 은대표적인컨볼루션신경망의구조들을보여준다. 표 1. 컨볼루션신경망구조도관련연구 연도 방법 저자 설명 1998 LeNet 최초의컨볼 LeCun 등 [9] 루션신경망 2012 GPU를병렬 AlexNet Krizhevsky 적으로사용 [10] 등높은성능 2015 VGGNet Simonyan 깊은네트워 [11] 등크설계 2015 GoogLeNet 인셉션모듈 Szegedy 등 [12] 제안 2016 Skip ResNet He 등 connection [13] 제안 2017 모든레이어 DenseNet Huang 등를연결한구 [8] 조를제안 LeCun 등 [9] 은최초의컨볼루션신경망을제안 했다. LeNet은컨볼루션-풀링구조의단순한구조 를가지며, 6개의얕은네트워크를형성하였다. Krizhevsky 등 [10] 과 Simonyan 등 [11] 은기존의컨볼루션신경망을기반으로네트워크를보다깊게형성하고높은성능을보이기위한구조를제안했다. Szegedy 등 [12] 과 He 등 [13] 은이러한컨볼루션신경망을활용하여새로운구조를제안했다. Szegedy 등은다양한크기를가진컨볼루션필터를사용하는인셉션모듈을제안했으며, 인셉션모듈과보조분류기 (Auxiliary classifier) 를사용하여과적합문제를해결하였다. He 등은 skip connection을도입하여깊은네트워크를형성하고, 빠르게학습할수있는구조를제안하였다. 하지만네트워크가깊어질수록특징-맵의재사용률이하락하는단점이제기되었다 [14]. Huang 등 [8] 은기존구조와달리모든레이어를연결하여정보의흐름을향상시키고과적합현상을막을수있는구조를제안하였다. 실험을통해특징-맵의재사용률이높은것을입증하였다. 이처럼깊은네트워크를형성하고정보의흐름을향상시키기위해기존의컨볼루션신경망의구조를기반으로짧은경로를추가하거나네트워크를넓게설계하는연구들이수행되었다. 이전연구에서도데이터의정보의흐름을보장하기위해네트워크의구조를변경하는과정이필요하다. 따라서본연구에서는 DenseNet의구조를기반으로최적화하여 Lending Club 데이터의특징을추출한다. 2.2 P2P 소셜랜딩 P2P 대출플랫폼이증가함에따라채무불이행의증가가능성이중요해지고있다 [21]. 표 2는소셜랜딩에서대출자의채무예측및신용평가에대한연구들을보여준다. 표 2. P2P 소셜랜딩관련연구연도저자데이터방법 Serrano-Cinca Lending 회귀분석, 2016 등 [15] Club 결정나무 Lending 2016 Michal 등 [16] 회귀분석 Club 로지스틱 2017 Chen 등 [17] Paipai 회귀분석로지스틱 2017 Lin 등 [18] Yooli 회귀분석 Lin 등 [18] 은중국의 P2P 대출플랫폼인 yooli 데이터를이용하여신용위험평가모델을제안하였다. 대출자의인구통계학적특정을파악하여채무불이행에영향을미치는요소를탐색하였다. 성별, 나이, 결혼상태등총 10개의변수를추출하였고, 로지스틱회귀분석을이용하여신용평가모델을설계하였다. Serrano-Cinca 등 [15] 은비선형관계를고려하기위해의사결정나무를이용하여투자자에게유용한규칙을탐지하였고, 26개의변수를기반으로다변량회귀분석를통해 Lending Club 데이터에대한
그림 2. 제안하는방법의구조도 내부수익률을예측하였다. 위와같이회귀분석을활용하여채무이행에대한예측모델을제안한연구가많았으며, 대부분데이터분석을통해추출된일부변수를사용하였다. 이러한전통적인기계학습방법이나피쳐엔지니어링알고리즘은빅데이터에서일반적으로관찰되는비선형적인패턴을추출하기어렵기때문에많은데이터를사용하지않는다 [19]. 하지만대출자의채무이행에대해더정확히예측하기위해서는모든정보를고려하는것이좋다. 따라서많은정보를다룰수있으며보존할수있는방법이필요하다. 3. 제안하는방법 그림 2는 DenseNet을이용한 P2P 소셜랜딩에서상환예측을위한전체구조도를보여준다. Lending Club 데이터를전처리하여 DenseNet을이용하여학습한다. 컨볼루션층과풀링층을통해특징을추출하며, softmax 분류기를통해분류된다. DenseNet은하나의레이어에서모든후속레이어로서로직접연결된구조를가지며, 식 (1) 과같이 concatenation으로특징-맵을합친다. xl Hl ([ x0, x1,, xl 1]) (1) 이때, concatenation 은크기가동일한특징 - 맵에대해적용할수있기때문에풀링레이어를사용하기때문에어렵다. 따라서 DenseNet 은 dense block 와 transition layer 로나누어 dense block 에서컨볼루션층과활성화함수를통해특징을추출하고, transition layer 에서는풀링층을사용하여특징 - 맵의크기를줄이는구조를가진다. 본논문에서도 dense block와 transition layer로이루어진구조를 가지며, 표 3은 P2P 소셜랜딩에서상환예측을위한 제안하는구조를보여준다. 표 3. DenseNet 구조 레이어 출력크기 구조 Convolution (70, 64) 3 1 conv, stride 1 Pooling (71, 64) 2 1 max pool, stride 1 Dense block (71, 512) 1 1conv 3 3 1conv Transition layer Dense block (70, 608) Classification layer (70, 224) 1 1 conv, stride 1 2 1 max pool, stride 1 1 1conv 3 3 1conv (2) Global average pool Fully-connected, softmax Dense block 는컨볼루션층과활성화함수로이루어져있으며, 1 1 컨볼루션필터를사용하여연산량을줄였다. Transition layer 에는컨볼루션층과풀링층으로구성되어있으며, 풀링층으로특징 - 맵의크기를줄였다. 마지막분류층에서는완결연결층과 softmax 를통해데이터가분류된다. DenseNet 에는성장률 (k) 과압축 (θ) 등의하이퍼파라미터가있다. 성장률 k 는 dense block 의특징 - 맵의크기를결정하며각레이어에기여하는새로운
정보의양을제어한다. 식 (2) 는성장률 k에따른 l 번째층에서특징-맵의수를나타낸다. l th layer k k ( l 1) (2) 0 여기서 k 0 는입력층의특징-맵의수를의미한다. 본논문에서는 128 의 k 값을사용하였다. Lending Club 의데이터가다양성을가지고있어특징을추출하기위해서는많은특징 - 맵의수가필요하다. 또한압축 θ 는 transition layer 에서특징 - 맵의수를줄이는정도를의미하며, 본논문에서는 0.5 값을사용하여특징 - 맵의수를반으로줄였다. 4. 실험 4.1 Lending Club 데이터본논문에서는미국의 Lending Club 에서제공하는 P2P 소셜대출거래데이터를수집했다. 2015-2016 년까지총 855,502ro 데이터를사용하였고, 데이터는예측변수인채무이행여부와대출금액, 지불금액, 대출기간등 110 개속성으로이루어져있다. 대출자의 ID 나 URL, 대출설명등예측에사용할수없는속성과결측값이 80% 이상인속성, 대출자가상환을시작한후에채워지는속성을제외하여 [20] 72 개의속성과 143,823 개데이터를사용하였다. 표 4 는속성설명의일부를보여준다. 표 4. 데이터속성요약 구분 변수명 유형 설명 Loan status Binary Current Predictor status of loan Annual inc Numeric Annual income Emp length Nominal Employment length in Borrower years Info Home Nominal Rent, own, ownership mortgage, other Total pymnt Numeric Payments received to date for Loan total amount Info funded Loan amnt Numeric The amount of the loan Term Nominal 36 or 60 Tot cur bal Numeric Total current balance Credit Tot bc Numeric Total Info limit bankcard high credit limit 컨볼루션신경망은 0에서 1사이의입력형식을가 지기때문에예측에사용되는 72개의속성에대해 전처리한다. 연속형변수는 1% 의이상치를제거하여식 (3) 과같이표준화하고, 범주형변수는이진형변수를가지도록더미변수를생성하였다. X ' X X X X min (3) max 4.2 결과및분석본논문에서는모든구조에대해 1D-DenseNet 을이용하였고, 하이퍼파라미터인 k 는 16~128 으로실험하였다. 그림 3 은컨볼루션신경망과제안하는방법에대한성능을보여준다. 그림 3. 컨볼루션신경망과 DenseNet 의성능실험결과는제안하는방법이기존의컨볼루션신경망보다전체적으로좋은성능을보였다. Lending Club 의데이터는 72 1 의입력크기를가지기때문에레이어를깊게쌓기가어렵다. 따라서기존의컨볼루션신경망보다모든레이어의연결을통해특징 - 맵의정보를보존할수있는 DenseNet 이유용하다. 그림 4. 성장률에따른성능그림 4 는하이퍼파라미터실험에대한성능을보여준다. 성장률 k 가증가할수록높은성능을보였다. 3 장에서언급했듯이, 데이터가다양한정보를가지고있기때문에많은특징 - 맵을사용하여특징을추출하는것이좋으며, 결과적으로 128 일경우높은성능을보였다. 하지만 Recall 의경우 k 가커질수록 min
작아지는경향을보였다. 이것은상환하지못한대출자의수가상환한대출자의수보다적기때문에나타난것으로보인다. 제안하는방법의유용성을보이기위해다른기계학습방법들과 5- 겹교차검증법을수행하였다. DenseNet 은다른방법에비해가장높은성능을보였으며, 다음으로 CNN, MLP, Decision tree 의순서로높은성능을보였다. 그림 5 는 5- 겹교차검증법의상자그림을보여준다. 그림 5. 5- 겹교차검증법상자그림 5. 토의및결론 본논문에서는 P2P 소셜대출에서상환예측을위한 DenseNet 의구조를제안하였다. 컨볼루션신경망을이용한이전연구에서는과적합현상이있었으며, DenseNet 의구조를활용하여문제를해결하였다. 실험을통해기존의기계학습방법과컨볼루션신경망보다높은성능을입증하였다. 하이퍼파라미터실험에는성장률 k 가증가할수록 recall 이작아지는현상이발생하였다. 이것은상환하지못한대출자의수가상환한대출자의수보다적기때문에나타난것으로보인다. 이러한문제를해결하기위해서는상환하지못한대출자의데이터가필요하지만실제로상환하지못한대출자의수가더적기때문에데이터를균형을맞추기가어렵다. 따라서관찰데이터가적은측의데이터 ( 상환하지못한대출자 ) 에더큰가중치를주거나, 이데이터에대해큰손실을부과하여보완할필요가있다. 데이터불균형에대한문제는향후연구에진행할계획이다. 또, 결과에대한추가적인분석이필요하다. 컨볼루션신경망과비교하여정분류및오분류데이터에대해분석하고, 과적합에대한분석을향후에진행할계획이다. 참고문헌 [1] C. Serrano-Cinca, B. Gutiérrez-Nieto, and L. López- Palacios, Determinants of default in P2P lending, PloS One, vol. 10, no.10, e0139427, 2015. [2] J. Yan, W. Yu, and J. L. Zhao, How signaling and search costs affect information asymmetry in P2P lending: The economics of big data, Financial Innovation, vol. 1, no.1, pp. 19, 2015. [3] C.-S. Lee, S.-M. Jo, and S.-B. Cho, Repayment prediction of borrowers in online social lending using deep convolutional neural network, Proceeding of the KIIS, pp. 663-665, 2015. [4] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, Gradient-based learning applied to document recognition, Proceeding of the IEEE, vol. 86, no.11, pp. 2278-2324, 1998. [5] R. Caruana, S. Lawrence and L. Giles, Overfitting in neural nets: Backpropagation, conjugate gradient, and early stopping, Advances in Neural Information Processing Systems, pp. 402-408, 2000. [6] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov, Dropout: A simple way to prevent neural networks from overfitting, Journal of Machine Learning Research, vol. 15, no.1, pp. 1929-1958, 2014. [7] S. Ioffe and C. Szegedy, Batch normalization: Accelerating deep network training by reducing internal covariate shift, International Conference on Machine Learning, pp. 448-456, 2015. [8] G. Huang, Z. Liu, L. Matten, and K.-Q. Weingerger, Densely connected convolutional networks, IEEE conference on Computer Vision and Pattern Recognition, pp. 4700-4708, 2017. [9] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, Gradient-based learning applied to document recognition, Proceeding of the IEEE, vol. 86, no.11, pp. 2278-2324, 1998. [10] A. Krizhevsky, I. Sutskever, and G. E. Hinton, Imagenet classification with deep convolutional neural networks, Advances in neural information processing systems, pp. 1097-1105, 2012. [11] K. Simonyan and A. Zisserman, Very deep convolutional networks for large-scale image recognition, International Conference on Learning Representations, 2015. [12] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich, Going deeper with convolutions, IEEE conference on computer vision and pattern recognition. pp. 1-9, 2015. [13] K. He, X. Zhang, S. Ren, and J. Sun, Deep residual learning for image recognition, IEEE conference on computer vision and pattern recognition, pp. 770-778, 2016. [14] G. Huang, Y. Sun, Z. Liu, D. Sedra, and K. Q. Weinberger, Deep networks with stochastic depth, In European Conference on Computer Vision, pp. 646-661, 2016. [15] C. Serrano-Cinca and B. Gutiérrez-Nieto, The use of profit scoring as an alternative to credit scoring systems in peer-to-peer (P2P) lending, Decision Support Systems, vol. 89, pp. 113-122, 2016. [16] P. Michal and R. Tobias, Determinants of borrowers' default in P2P lending under consideration of the loan
risk class, Jena Economic Research Papers, pp. 1-30, 2016. [17] Y. Chen, Research on the credit risk assessment of chinese online peer-to-peer lending borrower on logistic regression model, DEStech Transactions on Environment, Energy and Earth Science, pp. 216-221, 2017. [18] X. Lin, X. Li, and Z. Zheng, Evaluating borrower s default risk in peer-to-peer lending: Evidence from a lending platform in China, Applied Economics, vol. 49, no. 35, pp. 3538-3545, 2017. [19] M.-M. Najafabadi, F. Villanustre, T.-M. Khoshgoftaar, N. Seliya, R. Wald, and E. Muharemagic, Deep learning applications and challenges in big data analytics, Journal of Big Data, vol. 2, no.1, pp. 1-21, 2015. [20] K. L. Vinod, S. Natarajan, S. Keerthana, K. M. Chinmayi, and N. Lakshmi, Credit risk analysis in peer-to-peer lending system, IEEE International Conference on Knowledge Engineering and Applications, pp. 193, 196, 2016. [21] A. Milne and P. Parboteeah, The business models and economics of peer-to-peer lending, European Credit Research Institute, no. 17, pp. 1-31, 2016.