GOOD MEAN FINAL PROJECT 주제 중신용자의신용평가정확도향상을위한연체예측모형 학과 국민대학교빅데이터 MBA 이름
GOOD MEAN 분석진행순서 : ) 1) 분석개요 분석배경분석목표 분석절차 2) 활용데이터분석모형개발분석모형설명 원변수파생변수 적용기법 1 적용기법 2 성능평가방법 최종모형선정 3) 분석결과 활용시나리오
1.1 분석배경 빈약한중금리대출시장 < 업권별신용대출평균금리 > 분석개요 45 40 35 30 25 20 유독빈약한중금리대출시장 15 10 5 0 시중은행 ~5% 상호금융 5~10% 중금리대출 10~15% 카드 / 캐피탈 15~20% 저축은행 20~25% 대부업 25%~ 고신용자는 5% 이하, 중, 저신용자는 20% 이상의금리로중금리대출시장이빈약한개인신용대출시장이형성 한국은행금융안정보고서 ( 15.12 월 )
1.1 분석배경 중금리대출모형의부재 분석개요 " 은행권이중금리대출에나서지않는것은평판문제도있지만 기본적으로저신용자등급데이터가부족해부실이날까두려워하기때문 - 주재성우리금융경영연구소대표 - 우리대부업체이용자의 47% 가량은신용등급 4~6 등급의고객이다. 조금만더신용등급을관리하면은행대출을받을수있는사람들이 대부업을이용하고있는상황이다 - 대부업체관계자 - 중신용자는은행권대출거절시고금리대출을이용하게될수밖에없는구조 http://biz.chosun.com/site/data/html_dir/2015/06/16/2015061601966.html?main_hot1
1.1 분석배경 기존신용평가방식의한계 < 은행의기존신용평가방식의한계 > 분석개요 中신용고객 은행 적정수준의대출금리니즈존재 금융거래실적부족 중금리대출경험부족 금융거래 Data 활용 보수적인신용평가 은행의기존신용평가방식으로는중신용고객의정확한상환능력 / 의지를파악하기에한계가있음 빅콘테스트 2017 한화생명설명회자료
1.1 분석배경 데이터선정배경 분석개요 그렇다면금융거래실적이부족한 중신용고객을평가할때 어떤데이터를활용해야할까? < 연체경험을파악할수있는데이터 > 조건1. 누구나흔히이용하고조건2. 매월납입금액이존재하고조건3. 납입금액이소액인데이터 보험데이터 통신데이터 빅콘테스트 2017 한화생명설명회자료
1.2 분석목표 새로운데이터를활용한연체예측모형개발 분석개요 금융거래 Data (SCI 평가정보 ) 보험 Data ( 한화생명 ) 금융거래 Data (SCI 평가정보 ) 통신 Data (SK Telecom) 중신용고객의정확한상환능력 / 의지를파악하기위하여 기존의금융거래 Data 에보험, 통신 Data 를포함한연체예측모형을개발 빅콘테스트 2017 한화생명설명회자료
2.1 분석절차 Data 수집 Data 전처리모형설계모형개발활용시나리오 금융데이터 원변수 Decision Tree 통신데이터 Gradient Boosting Gradient Boosting 최종시나리오 보험데이터 파생변수 XG BOOST
2.2 활용데이터 원변수 변수영문명변수명변수설명 AGE 연령한화생명및 SKT 고객이면서대출정보가있는고객의연령 기본 Data SEX 성별한화생명및 SKT 고객이면서대출정보가있는고객의성별 : 1( 남자 ), 2( 여자 ) OCCP_NAME_G 직업산출일기준대분류직업정보 CUST_JOB_INCM 추정소득 직업정보기반추정소득금액 HSHD_INFR_INCM 가구추정소득 가계합산추정소득 ACTL_FMLY_NUM 실가족원수 산출일기준입력된가족원수 LAST_CHLD_AGE 막내자녀나이 산출일기준입력된막내자녀의나이 MATE_OCCP_NAME_G 배우자직업 산출일기준배우자의대분류직업정보
2.2 활용데이터 - 원변수 변수영문명변수명변수설명 BNK_LNIF_CNT 대출정보현재총건수 [ 은행 ] 산출일기준은행권에서발생된총대출건수 CPT_LNIF_CNT 대출정보현재총건수 [ 카드사 / 할부사 / 캐피탈 ] 산출일기준카드사 / 할부사 / 캐피탈에서발생된총대출건수 SPART_LNIF_CNT 대출정보현재총건수 [2 산업분류 ] 산출일기준 2 산업분류에서발생된총대출건수 ECT_LNIF_CNT 대출정보현재총건수 [ 기타 ] 산출일기준기타금융권에서발생된총대출건수 금융거래 Data (SCI 평가정보 ) TOT_LNIF_AMT 대출정보현재총금액산출일기준총대출금액 TOT_CLIF_AMT 대출정보현재총금액 [ 신용대출 ] 산출일기준총신용대출금액 BNK_LNIF_AMT 대출정보현재총금액 [ 은행 ] 산출일기준은행권에서발생한총대출금액 CPT_LNIF_AMT 대출정보현재총금액 [ 카드사 / 할부사 / 캐피탈 ] 산출일기준카드사 / 할부사 / 캐피탈에서발생한총대출금액 CRDT_OCCR_MDIF 대출정보최근개설일로부터현재까지유지기간 [ 신용대출 ] 신용대출개좌개설일부터산출일까지유지개월수 SPTCT_OCCR_MDIF 대출정보최근개설일로부터현재까지유지기간 [2 산업분류 - 신용대출 ] 2 산업분류에서신용대출개좌개설일부터산출일까지유지개월수 CRDT_CARD_CNT 개설정보현재신용개설총건수 [ 신용카드 ] 산출일기준신용카드발급수 CTCD_OCCR_MDIF 개설정보최초개설일로부터현재까지유지기간 [ 신용카드 ] 신용카드개설일부터산출일까지유지개월수 CB_GUIF_CNT 보증정보현재보증총건수산출일기준총보증건수 CB_GUIF_AMT 보증정보현재보증총금액산출일기준총보증금액
2.2 활용데이터 - 원변수 변수영문명변수명변수설명 CUST_FMLY_NUM 보험가입가족원수산출일기준보험가입이력이있는가족원수 CRDT_LOAN_CNT 신용대출건수산출일기준한화생명에서실행된총신용대출건수 MIN_CNTT_DATE 최초대출날짜한화생명에서실행된최초의신용대출의년월 TOT_CRLN_AMT 한화생명신용대출금액산출일기준한화생명에서실행된총신용대출금액 보험 Data ( 한화생명 ) TOT_REPY_AMT 한화생명신용상환금액산출일기준한화생명에서실행된총신용대출금액중총상환된상환금액 CRLN_OVDU_RATE 신용대출연체율한화생명에서실행된신용대출이후경과월수중연체경험월수의비율 CRLN_30OVDU_RATE 30 일이내신용대출연체율한화생명에서실행된 30 일이내연체경험월수 / 30 일이내신용대출월수 *100 LT1Y_CLOD_RATE 최근 1 년신용대출연체율한화생명에서실행된최근 1 년연체경험월수 / 최근 1 년신용대출월수 *100 STRT_CRDT_GRAD 최초신용등급한화생명에서실행된가장오래된대출시점의신용등급 LTST_CRDT_GRAD 최근신용등급한화생명에서실행된가장최근대출시점의신용등급 PREM_OVDU_RATE 보험료연체율총납입보험료횟수중연체한보험료횟수의비율 LT1Y_PEOD_RATE 최근 1 년보험료연체율최근 1 년연체납입횟수 / 총납입횟수 *100 AVG_STLN_RATE 평균약대율월별약관대출가능금액중약관대출받은금액의비율의연중평균 STLN_REMN_AMT 약관대출가능잔액약관대출받은금액
2.2 활용데이터 - 원변수 변수영문명변수명변수설명 LT1Y_STLN_AMT 최근 1 년약대금액최근 1 년약관대출받은금액 LT1Y_SLOD_RATE 최근 1 년약대연체율최근 1 년약관대출연체경험월수 / 최근 1 년약관대출월수 *100 GDINS_MON_PREM 非연금저축상품월납입보험료유효한계약중납입중인보장성상품의월납환산보험료 ( 일시납제외 ) SVINS_MON_PREM 연금저축상품월납입보험료유효한계약중납입중인저축성상품의월납환산보험료 ( 일시납제외 ) FMLY_GDINS_MNPREM 非가구연금저축상품월납입보험료가계합산기준유효한계약중납입중인보장성상품의월납환산보험료 ( 일시납제외 ) 보험 Data ( 한화생명 ) FMLY_SVINS_MNPREM 가구非연금저축상품월납입보험료가계합산기준유효한계약중납입중인저축성상품의월납환산보험료 ( 일시납제외 ) MAX_MON_PREM 최대월납입보험료기준일이전납입한월납입보험료中최대보험료 TOT_PREM 기납입보험료유효한계약의총납입보험료 FMLY_TOT_PREM 가구기납입보험료 가계합산기준유효한계약의총납입보험료 CNTT_LAMT_CNT 실효해지건수 계약해지또는실효난계약건수 LT1Y_CTLT_CNT 최근1 년실효해지건수 최근1 년계약해지또는실효난계약건수 AUTR_FAIL_MCNT 자동이체실패월수 산출일기준총자동이체실패월수 FYCM_PAID_AMT 가구총지급보험금액 가계합산보험금지급총액 FMLY_CLAM_CNT 가구총보험금청구건수가계합산총보험금청구건수 FMLY_PLPY_CNT 가구만기완납경험횟수가구단위만기까지보험료를완납한증번의갯수
2.2 활용데이터 - 원변수 변수영문명변수명변수설명 AVG_CALL_TIME 월통화시간 _ 분월평균통화시간분단위 AVG_CALL_FREQ 월통화빈도월평균통화횟수 TEL_MBSP_GRAD 멤버쉽등급 SKT 멤버쉽등급 ARPU 가입자매출 _ 원월기준회선당평균수익금 통신 Data (SK Telecom) MON_TLFE_AMT 납부요금 _ 원 월기준서비스납부요금 CBPT_MBSP_YN 결합상품가입여부 인터넷, TV 등결합상품가입여부 : Y( 가입 ), N( 미가입 ) MOBL_FATY_PRC 단말기가격 _ 원 사용중인핸드폰단말기출고가액 TEL_CNTT_QTR 가입년월 _ 분기 SKT 가입년월 _ 분기단위 : YYYYQ NUM_DAY_SUSP 정지일수 회선의사용정지일수 CRMM_OVDU_AMT 당월연체금액 _ 원 해당월납부요금의연체금액 TLFE_UNPD_CNT 납부일미준수횟수 핸드폰납부요금의납입일미준수한횟수 LT1Y_MXOD_AMT 년간최대연체금액 _ 원 산출일기준최근1 년이내납부요금연체금액中최대연체금액 PAYM_METD 납부방법 납부요금의납부방법 LINE_STUS 회선상태산출일기준회선의상태 : S( 정지 ), U( 사용 ) MOBL_PRIN 남은할부금 _ 원산출일기준남아있는핸드폰단말기할부원금
2.2 활용데이터 파생변수를위한가설설정 < 파생변수생성을위한가설설정 > 가설1. 고금리대출을받는사람은연체할가능성이높다가설2. 대출건수가많은사람은연체할가능성이높다가설3. 소득대비대출금액이많은사람은연체할가능성이높다가설4. 소득대비신용카드이용량이많은사람은연체할가능성이높다가설5. 신용등급이하락한고객은연체할가능성이높다 가설 6. 연체경험이많은고객은연체할가능성이높다
2.2 활용데이터 - 파생변수 가설 1. 고금리대출을받는사람은연체할가능성이높다. 저금리대출비율고금리대출비율고금리대출여부 저금리대비 고금리대출비율 가설 2. 대출건수가많은사람은연체할가능성이높다. 총대출건수 가중치여부 총대출건수 가설 3. 소득대비대출금액이많은사람은연체할가능성이높다. 총부채상환 비율 (DTI)
2.2 활용데이터 - 파생변수 가설 4. 신용카드이용량이많은사람은연체할가능성이높다. 신용카드 이용량 가설 5. 신용등급이하락한고객은연체할가능성이높다. 신용등급 변화량 가설 6. 연체경험이많은고객은연체할가능성이높다 총부채상환 총연체율 비율 (DTI) 당월연체 금액비율 최고연체 금액비율 실패횟수
2.2 활용데이터 파생변수 가설 1. 고금리대출을받는사람은연체할가능성이높다 저금리대출비율 변수정의 상대적으로낮은금리를가지는신용대출과은행대출금액이전체대출금액에서차지하는비중을나타냄 연체자가미연체자보다저금리대출을 10% 이상적게받음
2.2 활용데이터 파생변수 가설 1. 고금리대출을받는사람은연체할가능성이높다 고금리대출비율 변수정의 상대적으로높은금리를가지는카드사 / 할부사 / 캐피탈대출금액이전체대출금액에서차지하는비중을나타냄 미연체자가연체자보다고금리대출을약 8% 적게받음
2.2 활용데이터 파생변수 가설 2. 대출건수가많은사람은연체할가능성이높다. 총대출건수 변수정의 은행, 카드사 / 할부사 / 캐피탈, 2 산업분류, 기타등모든대출건수를합한총건수 연체자가미연체자보다 2 건이상 25% 이상비율차이남 => 총대출건수가많을수록연체일확률이높다 0 건인경우는제외
2.2 활용데이터 파생변수 가설 3. 소득대비대출금액이많은사람은연체할가능성이높다. DTI ( 총부채상환율 ) 변수정의 대출원금과이자가개인의연소득에서차지하는비중을계산한것으로대출상환능력을파악하기위한파생변수 연체자는미연체자보다 DTI 값이큰비율이상당히높음 -> DTI 가높으면연체일확률이높다
2.2 활용데이터 파생변수 가설 4. 신용카드이용량이많은사람은연체할가능성이높다 신용카드이용량 변수정의 신용카드의총건수와신용카드의유지기간을곱하여고객의신용카드이용량을파악함 연체자가미연체자들보다카드이용량이높아질수록비율이줄어듬 -> 높은카드사용량은미연체자일확률이높다
2.2 활용데이터 파생변수 가설 5. 고금리대출을받는사람은연체할가능성이높다 신용등급 변화량 변수정의 최근신용등급에서최초신용등급을뺀값 값이클수록연체가능성이낮고값이작을수록연체가능성이높다는가정 신용등급이 7-8 등급하락한경우에연체자가미연체자보다약 3% 정도높음 => 신용등급하락폭이클수록연체가능성이높다
2.2 활용데이터 파생변수 가설 6. 연체경험이많은고객은연체할가능성이높다 ㅂ 총연체율 변수정의 최근 1 년신용대출연체율 + 보험료연체율 + 최근 1 년약대연체율을모두더함 모든대출상품에서의연체율을파악하는파생변수 연체자는연체율이높을수록미연체자에비해비중이높아짐
2.2 활용데이터 파생변수가설 6. 연체경험이많은고객은연체할가능성이높다 당월연체 금액비율 변수정의 납부요금이 0 원인사람을제외하고통신비납부요금중당월연체금액비율. 비율이높은고객은대출연체가능성이높을것이라는가정 당월연체금액비율이 1 인경우연체자가미연체자보다 6% 정도높다 => 당월연체금액비율이높을수록연체자일확률이높다
2.2 활용데이터 파생변수가설 6. 연체경험이많은고객은연체할가능성이높다 최고연체 금액비율 변수정의 납부요금이 0 원인사람을제외하고통신비납부요금중연간최대연체금액의비율을파악하여 비율이높은고객은대출연체가능성이높을것이라는가정하에파생변수생성 최고연체금액비율이 1 인경우연체자가미연체자보다약 6% 정도높다 따라서최고연체금액이높을수록연체일확률이높다
2.2 활용데이터 < DATA 형태 > 고객ID TARGET 기본DATA 금융DATA 보험DATA 통신DATA 1 0 ( 연체미발생 ) 2 1 ( 연체발생 ) 전체데이터건수 = 100,233 명연체자수 = 4,287 명전체대출자대비연체자비율 = 4.28 %
2.3. 분석모형개발 적용기법 1 < 불균형데이터처리를위한과표본화기반앙상블학습기법 > 연체자가전체의 4.2% 밖에되지않게때문에연체자데이터를 연체자 4.2% 복제하여매반복시마다연체자수를 2 배씩늘려가며학습하며 연체자의패턴인식률을높인다. 95.8% < 학습회수별 Training set의연체자비율 > Epoch 1 : 3809 / 90209 (4.2 %) Epoch 2 : 7618 / 94018 (8.1 %) Epoch 3 : 11427 / 97827 (11.7 %) Epoch 4 : 15236 / 101636 (15.0 %) Epoch 5 : 19045 / 105445 (18.0 %) https://bi.snu.ac.kr/publications/journals/domestic/kiise_cpl_20_10_kmkim.pdf
2.3. 분석모형개발 적용기법 2 머신러닝장점단점 Decision Tree -데이터가특정변수에수직 / 수평적으로구분되지못 -분석결과가 Tree 구조로표현되기때문에하는경우분류성능이낮다. 이해하기쉬우며처리속도가빠르다. -두변수가정보력이비슷하면 Tree 구성이매번바뀐다. Gradient Boosting -이전학습의결과가다음학습에영향을주는방식으로 over fitting 에강하다. -Hyper parameter 를통해오차를보정함으로써좋은성능을나타낸다. - 분석결과에대한해석이불가능하다. - 적절한 Hyper parameter 를찾기위해많은시간이소 모될수있다. XGBoost -Gradient boosting 알고리즘사용하며, regularization 및 missing values 자동처리해준다. -Loss 값기준으로 early stopping 적용이가능하다. - 다른기법에비해사용하기어렵다.
2.3. 분석모형개발 성능평가방법 구분 정상고객 예측 (Predicted) 연체고객 실제 (Actual) 정상고객 True/Negative False/Positive 연체고객 False/Negative True/Positive 한쪽으로치우친불균형데이터이기때문에정확도 (accuracy) 지표를사용하지않는다. 여기서는정밀도 (precision) 와재현율 (recall) 의조화평균인 F1 score 를성능지표로사용한다.
2.4. 분석모형설명 Decision Tree Classifier < 연체자예측에대한변수의중요도 > Epoch 1 - F1 : 0.285 Epoch 3 - F1 : 0.307 Epoch 5 - F1 : 0.321-2 금융권신용대출유지개월수 - 당월연체금액 - 신용대출유지개월수 - 신용카드개설건수 - 신용대출유지개월수 -2 금융권신용대출유지개월수 - 신용카드개설건수 - 납부요금대비연간최대연체금액비율 - 신용대출유지개월수 -2 금융권신용대출유지개월수 - 신용카드개설건수 - 납부요금대비연간최대연체금액비율 주요변수는거의비슷하지만연체자의비율이높아짐에따라 Test set 에대한 F1 score 가높아진다.
2.4. 분석모형설명 Gradient Boosting Classifier < 연체자예측에대한변수의중요도 > Epoch 1 (F1 : 0.36) Epoch 2 (F1 : 0.452) Epoch 4 (F1 : 0.492) 주요변수요약 1 금융권대출금액대비 2 금융권대출금액비율전체대출건수금융권별대출건수에대한회귀점수 2 금융권신용대출유지개월수신용카드개설건수당월연체금액 ( 통신비 ) 년간최대연체금액 ( 통신비 ) 납부요금대비당월연체금액비율납부요금대비연간최대연체금액비율
2.4. 분석모형설명 Gradient Boosting Classifier < F1 score 변화추세 (GradientBoostingClassifier) > 0.6 0.5 0.452 0.486 0.492 0.488 0.488 0.493 0.485 0.476 F1 score 0.4 0.3 0.36 0.2 0.1 0 1 2 3 4 5 6 7 8 9 epoch
2.4. 분석모형설명 XGBoost Classifier < 연체자예측에대한변수의중요도 > Epoch 7 (F1 : 0.451) - 신용카드개설건수 - 남은할부금 ( 통신비 ) - 신용대출유지개월수 - 대출총금액 -2 금융권신용대출유지개월수 - 신용카드총건수 * 신용카드유지기간
2.4. 분석모형설명 XGBoost Classifier < F1 score 변화추세 (XGBoost Classifier) > 0.5 0.45 0.408 0.444 0.44 0.449 0.451 0.44 0.429 0.4 0.351 0.35 0.3 F1 score 0.25 0.218 0.2 0.15 0.1 0.05 0 1 2 3 4 5 6 7 8 9 epoch
2.5 최종모형선정 Gradient Boosting Classifier < 모형의성능비교 > < 모형적용결과 > 모형 Best F1 score Decision Tree 0.321 최종모형 고객연체예측연체확률 A 0 0.392 B 1 0.857 Gradient Boosting 0.492 XGBoost 0.451 X 0 0.413 Y 0 0.248 Z 1 0.629 최종모형은 F 값이가장높은 Gradient Boosting 로선택했고, 모형을통해고객의연체여부및연체확률을예측할수있다.
2.5 최종모형선정 - Gradient Boosting Classifier < Gradient Boosting 모형의주요변수 > 통신비연체관련변수신용카드관련변수대출관련변수 당월연체금액 ( 통신비 ) 년간최대연체금액 ( 통신비 ) 납부요금대비연간최대연체금액비율납부요금대비당월연체금액비율 신용카드수 X 사용량 전체대출건수금융권대비 2 금융권대출금액비율금융권별대출건수에대한회귀점수 2 금융권신용대출유지개월수
3.1 활용시나리오 분석결과 고객정보이름 : 나대출나이 : 25살 [ 우량사유 ] 채무불이행정보없음 [ 우량사유 ] 연체이력없음 [ 우량사유 ] 채무상환부담없이신용활동진행중 [ 불량사유 ] 신용거래기간 1년이하로짧음 [ 우량사유 ] 통신료연체없음 [ 우량사유 ] 신용카드연체없이우량하게사용중임 기존신용평가모형 대출연체예측모형 고객명연체예측연체확률 홍길동미연체 25% 신청평점미달로대출불가 낮은연체확률로대출가능