지능형보험부당청구탐지와예측 위세아이텍 김상수 0
11
부당청구탐지서비스의차별적경쟁우위를확보하기위함임 도입배경 프로젝트목적 효과적조사대상선정 보험부당청구세그먼트별탐지모형차별화 머신러닝기반탐지정확도향상 기대효과 최신기술기반민첩한탐지 머신러닝을이용한데이터기반모형 학습과탐지모형의구조화 보험사기는해마다다양한방법으로 10% 씩증가하는추세이다. 2016 년한해동안적발된보험사기금액은전년대비 9.7% 가증가했다. 단순히보험사기가증가하는것뿐만아니라그수법이다양해지고있어기존적발규칙을보완할필요성이있다. 또한기존의시스템보다정확도를높이는고도화가필요하다. 신규규칙에대한설명적탐지와근거자료제공 고객, 지급내역레벨의탐지병행 설명적모형적용 ( 의사결정트리 ) 조사결과의피드백및활용 현지조사결과의탐지모형피드백 OLAP, 시각화에의한결과활용 2
마이리얼플랜은실제보험가입자정보를기반으로보험설계사들의경쟁입찰과보험분석알고리즘을통해최적의보험플랜을제공 6 개월만에누적플랜요청 1,200 건을달성 약 50% 의낙찰률 3
Swiss Re( 스위스재보험 ) 언더라이터의계약심사과정을지원하기위해건강및생명보험사업부문에인공지능기술도입 업무효율증대 심사결과 Risk 감소 4
일본후코쿠생명은병원기록, 환자진료이력, 상해정보등을이용해보험금지급업무를 AI가담당 생산성 30% 향상 비용 14 억절감 5
6
정형 Data 와비정형 Data 의결합으로심사효율화와부당지급누수방지등지급심사프로세스개선 최종목표시스템 1 정형 Data 패턴분석을통한신규 Rule 생성 1 단계 : 비지도학습을통한신규패턴분석 2 단계 : 신규패턴적용및기존 Rule 과의결합 ( 월 1 회신규 Rule 적용 ) 기존 Rule 에대한변경, 삭제등업데이트병행 2 Rule 고도화및비정형 Data 활용 모델고도화작업을위한비정형 Data 활용 - 사건뉴스, 분쟁판례, 신규법규적용 Deep Learning 기술을적용 Rule 에대한 SME 검토및판단은유지 Target Process 개선사항 지급심사의업무생산성을높이는지원시스템을인공지능을통해구현 동시에부당청구업무판단지원 지급심사분류작업지원 심사난이도에따라 3 단계로분류 ( 자동심사 / 일반심사 / 세부심사 ) 세부심사는전문심사자를통해판단하고, 적정심사와부당청구로구분 지급심사오류, 누락방지지원 보험이상지급유무판단 ( 특약사항 ) 보험지급분쟁조정판례등외부비정형데이터 활용 ( 분쟁조정결정서등 ) 3 청구심사및지급프로세스개선 청구 Data 全영역으로확대하여지급 / 비지급자동심사 지급오류, 누락, 현장실사업무효율화달성 목표 Model 기존수작업을통한지급보험심사를 KM 기반으로기계학습을통하여업무효율화수준을높여지급심사품질개선 7
Machine Learning, Deep Learning 기술을통해보험사기신규패턴을발굴하고정확도가향상된보험사기탐지모델을제공하는시스템을구현함 접수 고객창구 현장확인여부심사 고객창구 현장확인 손해사정사 지급여부심사 지급심사팀 보험사기심사 지급 & 비지급 SIU 심사팀 보험사기신규패턴분류 보험사기신규패턴판별 청구데이터 전처리 변수선정 프로파일링 부당 룰생성 계약데이터 정상 기존룰시스템적용 지급데이터 부당여부탐지 설계사데이터 부당 신규룰 기존룰 정상 심사결과데이터 8
수행범위는전체업무영역중보험부당청구탐지로제한함 프로젝트의유형목록및모델링적용범위 유형파일럿모형적용범위목표 신규보험부당청구패턴개발 보험부당청구패턴분류모형보험부당청구패턴판별모형 요양급여청구데이터를학습하여숨겨진패턴을분류하고, 분류된패턴중에서알려지지않은새로운보험부당청구유형을정의새롭게분류된패턴유형을학습하고, 학습된판별모형을통해신규청구건에대해해당되는패턴유형을판별 머신러닝알고리즘을이용하여신규보험부당청구패턴의효율적개발가능성을평가새롭게발견된보험부당청구패턴을판별 모형화하여패턴의검증및시범운영을위한방법제공 보험부당청구탐지모형개발 보험부당청구탐지모형 보험부당청구현지조사결과데이터에서보험부당청구패턴을학습하고, 학습된탐지모형을통해신규청구건의부당여부를탐지 기존룰기반탐지시스템대비모형의탐지정확도를비교하여인공지능모형기반보험부당청구탐지의타당성을평가 보험부당청구 보험부당청구 비정형데이터분석을통해보험부당청구탐지모형의신규변 SNS, 기사, 동향보고서등을기반으로보험 탐지모형고도화 고도화탐지모형 수로써활용하여보험부당청구탐지를고도화함 부당청구와관련된비정형데이터분석 9
4 현장조사 5 결과환류 고객 1 접수 지급여부심사팀 2 부당청구의심대상 머신러닝기반보험부당청구탐지시스템 부당 3 검토 보험사기조사팀 (SIU) 4 지급 정상 7 적용 기존룰기반보험부당청구탐지시스템 보험사기조사팀 (SIU) : 사기가의심된다는제보건이나회사내사기인지시스템을통해드러난사기행태의진실여부를밝힌다. 생명보험사중대한, 삼성, 교보에서만보유 / 손해보험사에서는동양, 삼성, 현대, 엘지, 동부, 서울보증에서보유함 10
비지도학습을통한보험부당청구신규패턴분류모형과지도학습을통한부당청구패턴판별모형 청구데이터 계약데이터 지급데이터 보험설계사데이터 전처리 변수선정 [ 분류모형 ] ( 군집알고리즘 ) 분류 [ 패턴분류결과 ] 부당패턴분류 DB 프로파일링 정상패턴 부당패턴 고객데이터 학습 [ 판별모형 ] ( 분류알고리즘 ) 결과적용 판별 [ 패턴판별결과 ] 판별결과 DB [ 일치여부검증 ] 모형알고리즘설명 군집알고리즘 분류알고리즘 K-means Clustering SOM(Self-Organizing Maps) EM & Canopy Decision Tree Random Forest Support Vector Machine 전통적인분류기법으로대상집단을거리의평균값을기준으로 K개의군집으로반복세분화하는기법인공신경망을기반으로훈련집합의입력패턴을가중치로학습하여군집화하는기법주어진초기값으로가능성이최대인것부터반복과정을통해파라미터값을갱신해군집화하는기법분류 Class와변수들의관계를규칙으로도출하고트리의형태로분기하는가장기본적인분류알고리즘수많은 Decision Tree들이 Forest를구성하여각각의예측결과를하나의결과변수로평균화하는알고리즘데이터의분포공간에서가장큰폭의경계를구분하여데이터가속하는분류를판단하는비확률적알고리즘 11
비지도학습을통한보험부당청구신규패턴분류모형 청구데이터에대해클러스터링기법을적용하여거리를기반으로동질청구패턴유형을분류하고새로운부당청구패턴을발견 청구데이터 Clustering 빈도수 군집간분리도 계약데이터 지급데이터 부당의심패턴 정상패턴 보험설계사데이터 고객데이터 모형알고리즘설명 군집알고리즘 K-means Clustering SOM(Self-Organizing Maps) EM & Canopy 전통적인분류기법으로대상집단을거리의평균값을기준으로 K 개의군집으로반복세분화하는기법 인공신경망을기반으로훈련집합의입력패턴을가중치로학습하여군집화하는기법 주어진초기값으로가능성이최대인것부터반복과정을통해파라미터값을갱신해군집화하는기법 12
지도학습을통한보험부당청구신규패턴판별모형 머신러닝은어떤변수에영향을받아분류되었는지알수없음. 따라서설명력이높은 Decision Tree 알고리즘을사용 하여 Decision Tree 그래프와 If {} Then.. Rule 의형태로분류기준을설명가능 보험부당청구데이터 설명 Decision 그래프 학습 [ 판별모형 ] (Decision Tree) 생성된룰을기존시스템에반영가능 Rule :...SEX_TP_CD = 1: :...s1_f3 in {B00,B02,B35,C69,D21,D23,D31,E10,E11,E13,E14,E50,E66,E78,F51, 2,R52,S01,S02,T85, Z01,Z94,Z97}: cluster3 (0) : s1_f3 in {H00,H01,H02,H04,H10,H11,H15,H16,H19,H20,H21,T26,T90,Z96}: : :...s_cnt > 1: cluster3 (1051/15) : : s_cnt <= 1: : : :...PLC_TY_CD <= 2: cluster3 (118/1) : : PLC_TY_CD > 2: : : :...OPRSCD_CNT <= 0: : : :...rvd_damt_tamt_scaled <= 0.096629: cluster3 변수중요도 13
지도학습을통한보험부당청구탐지모형 청구데이터 계약데이터 지급데이터 보험설계사데이터 고객데이터 전처리 변수선정 학습 [ 탐지모형 ] ( 분류 / 예측알고리즘 ) 탐지 [ 부당탐지결과 ] 탐지결과 DB 검증 [ 성능평가 ] 부당 정상 환류 알고리즘 Random Forest Support Vector Machine Extra Tree XGBoost Deep Learning 설명수많은 Decision Tree들이 Forest를구성하여각각의예측결과를하나의결과변수로평균화하는알고리즘데이터의분포공간에서가장큰폭의경계를구분하여데이터가속하는분류를판단하는비확률적알고리즘 Random forest와비슷하나속도가 Random forest에비해빠른알고리즘 Randomforest의 Tree는독립적이라면 XGBoost의 Tree의결과를다음트리에적용하는 boost방식의알고리즘다층구조의 Neural Network을기반으로변수의패턴이결과에미치는영향을가중치로조절하며학습하는알고리즘 14
지도학습을통한보험부당청구탐지모형 부당청구탐지모형의후보알고리즘간성능평가 - 평가지표는 Accuracy, Precison, Recall 를사용하며, 현지조사업무에서는 Y Recall 의향상에중점을둠 실제결과 (Actual) 탐지결과 (Predict) 부당 정상 부당 True Positive(TP) False Positive(FP) 정상 False Negative(FN) True Negative(TN) 재현율 정밀도 Accuracy( 정확도 ) = 모형이탐지한결과와실제결과와일치하는정탐지의비율 (TP + TN) / (Total), 100에가까울수록좋은지표 Precision( 정밀도 ) = 모형이부당이라고탐지한결과중에서실제결과도부당인정탐비율 (TP) / (TP + FP), 1-정밀도 = 오탐율 Recall( 재현율 ) = 전체부당중에서모형이부당이라고정확하게탐지한정탐비율 (TP) / (TP + FN), 1-재현율 = 미탐율 -> 현지조사업무의특성상부당을놓치지않고정확하게탐지하는 Y Recall 의지표가중요함 15
지도학습을통한보험부당청구탐지모형 부당청구탐지모형의후보알고리즘간성능평가 높은정확도도중요하지만부당을부당으로탐지하는 Y Recall 값도고려한다면 Randomforest 와 Extra Tree 알고리즘이우수함 Accuracy 고위험군 _Recall 고위험군 _Precision Randomforest 0.961 0.945 0.928 SVM 0.983 0.705 0.947 Extra Tree 0.963 0.97 0.962 XGBoost 0.962 0.854 0.959 16
딥러닝을이용한보험부당청구탐지모형고도화 부당청구탐지적용알고리즘 Random Forest Deep Learning Deep Learning 을사용하면 Random Forest 보다 안정성과유연성이향상 알고리즘설명장단점 Rule 기반탐지 딥러닝기반탐지 a* 청구금액 +b* 의사수 +c* 수진수 를기준으로판정하거나, 청구금액 >a, 의사수 >b, 수진수 >c 이면 이상 으로분류하는방식 - 이상상태에해당하는 ( 청구금액, 의사수, 수진수 ) 조합을찾아냄 - Convolutional Neural Network(CNN) 은이미지처리에적합 - Recurrent Neural Network(RNN) 은시계열처리에17 적합 - 선형관계를가지는변수를알려진규칙에적용하기적합 - 연관변수가많아지면오히려정확성이떨어질수있음 - 변수의조합을패턴으로학습하여새로운패턴을스스로발견 - 어떤패턴에대해서도이상가능성을산출가능 - 많은변수를대상으로정확도높은예측을수행
머신러닝을이용한부당청구탐지모형 부당청구탐지모형의학습데이터구성 - 분류된패턴군에서고위험군이총 177건으로다른패턴의건수보다현저하게수가적어성능을저하시킴 - 딥러닝은학습의개수가적으면성능이저하되어 upsampling을하여성능을높임 Accuracy Y_Recall Y_Precision Tensorflow 0.964 0.872 0.905 Tensorflow_upsampling 0.955 0.988 0.922 Under Sampling 을통해부당의비율을높여가며비교해보면 전체적인정확도인 Accuracy 는다소 (1%) 낮아지나부당을정확하게예측하는 Y Racall 은급격히 (11%) 높아짐 18
머신러닝을이용한부당청구탐지모형 딥러닝을이용한부당청구탐지모형의구성과탐지결과 정상 : 부당 : : : 구분 항목 1회차 2회차 3회차 4회차 Hidden Layer 1 1 1 1 learning rate 0.006 0.004 0.006 0.005 파라미터 bath size 1000 1200 1300 1500 dropout prob 0.6 0.6 0.8 0.9 Accuracy 0.935 0.937 0.946 0.955 성능 Recall 0.895 0.896 0.953 0.988 Precision 0.912 0.915 0.919 19 0.922 성능향상 딥러닝알고리즘은데이터의량과 Hidden Layer의구조에따라성능의차이가크게달라지기때문에본사업수행시다양한 Layer 구조로성능최적화가필요함
< 사고이미지판독구성도 > 20
2016 년보험사기적발금액은 7,185 억원 ( 적발인원 83,012 명 ) 으로전년대비금액기준 9.7%(636 억원 ) 증가, 인원기준 0.5%(419 명 ) 감소 [ Estimation ] 적발률추정 머신러닝탐지시스템을적용할경우 5~15% 적발률향상 생보 손보 5% 향상 4,816( 백만원 ) 31,108( 백만원 ) 10% 향상 9,633( 백만원 ) 62,216( 백만원 ) 15% 향상 14,450( 백만원 ) 93,325( 백만원 ) 합계 35,924( 백만원 ) 71,848( 백만원 ) 107,772( 백만원 ) 21
22
End of Document