SAS FORUM 빅데이터경영혁신사례신한은행빅데이터센터윤근혁팀장
16.04.28 신한은행빅데이터센터설립그리고 12 명
빅데이터센터조직도 빅데이터센터 ( 총 33 명 ) 본부장 BD 사업팀 (7 명 ) BD 솔루션팀 (18 명 ) BD 플랫폼팀 (7 명 ) 전략수립 / 협업 신기술도입 / 활용 플랫폼 / 솔루션구축및관리 제휴 / 신사업 분석 / 모형개발 데이터거버넌스수립및관리 시장트렌드분석및보고 분석가양성
단계별빅데이터사업추진전략 Phase Ⅲ(2018 年 ~) Phase Ⅰ(2016 年 ~) 빅데이터플랫폼 TEXT 기반구축 Phase Ⅱ(2017 年 ~) 알고리즘기반수익모델개발 은행권최초 빅데이터정보화 사업추진 비정형데이터분석플랫폼구축 (VOC 3.0) 빅데이터기반의사결정체계구축 ( 시각화분석플랫폼 ) AI 코어플랫폼구축 Customer journey 분석솔루션도입 알고리즘기반 Peer Group 상담지원시스템개발 WM 고자산고객가망 / 이탈모형개발 최적상품추천모델 Core Data 개방및가치증대 금융권최초데이터유통생태계선도 주도적 Big Data Alliance 구축
X ML Scientist 최소 17~20 단계이상 데이터담당자 보안담당자 서버담당자 Y
MACHINE LEARNING SCIENTIST AI CORE PLATFORM PLATFORM MANAGER WORK SPACE 2 WORK SPACE 3 OPERATNG SYSTEM LIBRARY 학습 WORKER CLUSTER 플랫폼 관리 사용자승인 / 권한관리 WORKSPACE 승인 / 관리 배포승인 / 관리 WORKSPACE DEVELOP ENVIRONMENT EXPERIMENT EXPERIMENT 추가 / 패치 머신러닝라이브러리추가 / 업데이트 알고리즘, IDE 추가 / 업데이트 ALGORITHM / PARAMETER PLATFORM MANAGER DATA REPOSITORY INTERNAL INFRASTRUCTURE 모니터링 시스템모니터링 사용자동작등로그모니터링 DATA / PRE-PROCESSING EXPERIMENT MODEL SHINHAN BANK SERVICE 운영 WORKER CLUSTER 챗봇 (NLP CHATBOT) MODEL 이상징후감지시스템 (FDS) RELEASE IMG INTERFACE 고객신용평가시스템 (CSS)
Phase Ⅰ 빅데이터플랫폼기반구축 _1) AI CORE PLATFORM 효율적리소스관리환경구축 지속적인업그레이드및확장을위한표준화프로세스구축 ML Scientist 데이터담당자보안담당자 서버담당자 특정업체에서제공한머신러닝라이브러리와알고리즘에 최소 17~20 단계이상 따른서비스확장및자체디지털역량강화에어려움. ML Scientist Platform Manager 최대 7 단계 TensorFlow, H2O, scikit-learn, Keras 등오픈소스기반으로 연구목적에적합한환경을개발자스스로선택가능.
고객명 : 신한쏠직업 : 대기업취미 : 여행가기거래현황 : 입출금통장만보유, 환전거래많음 2017.12 활동고객? 2018.04 이탈고객
Phase Ⅰ 빅데이터플랫폼기반구축 _Customer Journey 분석솔루션도입 도입성과 인지탐색신규거래 환율조회 여행적금신규완료 투자상품 3 회검색 펀드가입 유입 1 고객이해기반개인화마케팅지원 2 마케팅효율성, 효과성제고 3 빅데이터분석생산성향상 여행적금권유 ONLY 입출금 + 환율조회는이탈고객주요패턴 모바일쪽지접촉디지털상품검색후이탈확률높아모바일쪽지로상담 이탈
단계별빅데이터사업추진전략 Phase Ⅱ(2017 年 ~) 알고리즘기반수익모델개발 알고리즘기반 Peer Group 상담지원시스템개발 WM 고자산고객가망 / 이탈모형개발 최적상품추천모델
Data 1.0 Data 2.0 Data 3.0 Data 4.0 2005 2007 2009-2010 2015-2016 2016~ CRP CRP 모델고객가치기반세분화 CRP 기반고객관리체계 JUMP 프로그램 New CRP FCV( 통합고객가치 ) 모델고객 Segment ( 채널, 상품등 ) 상품가입예측모델 CRM 역량강화 EBCM / L2S 최적상품추천통합고객관리 CRM 업그레이드옴니채널마케팅맞춤상품추천캠페인시스템업그레이드 Big Data Peer Group 상담지원시스템 WM 추정 / 이탈모형 CRP : Customer Rediscovery Program( 고객재발견 )
저만그런가요??
Phase Ⅱ 알고리즘기반수익모델개발 _1) Peer Group 상담지원시스템 flow 정보입력 나와같은사람들의평균생활 보유자산비교 나의금융생활점수 베스트상품정보
1 970 만 Peer Group 통계값산출 2 Peer 內고객의금융점수산출 3 개인화상품추천 1 만명 Data 970 만 Segment 값추정 설문 (1 만명 ) 산출 Logic Similarity- Hierarchy Logic 개발 / 적용 : GLM 기반 Factor 별영향도산출및수치화 Peer 값 (970 만 ) 1 실 Data 값이없는 Peer 의유사 Peer 찾기 Peer 를구성하는 10 개 Factor 1) 의영향도를산출하여값이있는가장유사한 Peer 선정 2 유사 Peer 값기반 Peer 통계값산출 GLM(General Linear Model) 기반 10 개 Factor 별영향도를수치화 (Scaling ratio) 후 Peer Group 통계값산출 * Peer 값 = 유사 Peer 값 Scaling ratio 고객금융점수산출을위해 970 만 Peer Group 별자산, 저축, 소비분포추정 / 점수화 [Peer Group A 의금융자산별고객분포 ] 고객수 통계적추정산출값 실제값 금융자산 금액 MIN 고객위치 MAX 1 Peer 內통계값별고객분포추정 Peer Group 內고객수준 Peer 內고객수준을파악하기위해선 Peer 구성원의분포및 Max/Min 값이필요 결합확률밀도함수 (multivariate - Log-normal distribution) 를사용하여전체분포를추정함 2 구성원분포도기반고객점수화점수 = [Min~ 고객위치 ] 면적 100 [MIN ~ Max] 면적 Peer Group Segment 기준을당행고객정보에적용하여고객세분화 ( 당행미수집정보항목제외, 2200 개세분화 ) 1 최근 3 개월 Peer Group 별상품신규수비중을산출하여타 Peer 대비가입비중이가장높은상품,, 순위도출 2 상대적상품선호도순위 절대적상품선호도순위 최근 3 개월간 Peer Group 구성고객이가장많이가입한상품,, 순위도출 3 최종상품추천 Logic Peer Group 별상대적 / 절대적선호상품조합 1 상대적선호 순위상품 2 절대적선호 순위상품 3 상대적선호 순위상품 1) 성, 연령, 거주지, 직업, 소득수준, 결혼여부, 자녀수, 주거형태, 주거소유형태, 맞벌이여부
Phase Ⅱ 알고리즘기반수익모델개발 _2) WM 추정 / 이탈모형 Modeling 타겟정확도 (AR) 유효변수선택 단변량분석 Classing 상관관계분석 고자산고객구분변별력이높은 Factor 선택 (P-value 0.05 이하 ) (T-test, Logistic Regression, 카이제곱검정수행 ) Score 의안정성증대및특정 Factor 값에유연한대처를위해 Factor 값범주화수행후변별력이높은 Factor 선택 (WOE, IV, AR, KS, ROC 기준 ) 각정보영역별항목간상관계수가높은그룹중변별력수준기준대표 Factor 만선별 (Rounding) 누적고자산비율 100% 80% 60% 40% 75.6% 신모델 47.0% 기존모델 Random Mode 모델링 Modeling 등급화 Logistic Regression 을사용하여각 Factor 에대한영향도산출 산출계수값을각변수구간에할당,Score Card 생성 고자산가능성이높은소수의고객을조기에관리하기위함으로, 모형등급체계는고자산소수고객을선별하는방향으로등급부여 20% 0% 28.6% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 전체누적고객수비율
Phase Ⅱ 알고리즘기반수익모델개발 _2) WM 추정 / 이탈모형 Modeling 타겟정확도 (AR) 단변량분석 100% 신모델 유효변수선택 모델링 Classing 상관관계분석 통계모형 Machine Learning 타겟정의 활용 Cut off 산정 모형결합 영업점 / MIDAS 80% 60% 40% 20% 0% 75.6% 예측모형기존모델 47.0% 85% Random Mode 추출 28.6% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 전체누적고객수비율
단계별빅데이터사업추진전략 Phase Ⅲ(2018 年 ~) 은행권최초빅데이터정보화사업추진 Core Data 개방및가치증대 금융권최초데이터유통생태계선도 주도적 Big Data Alliance 구축
C O R E C.A.S.H
Phase Ⅱ 알고리즘기반수익모델개발 _1) C.A.S.H Re-define data 를통해 C.A.S.H. 로재정의한 Core Data 가 Big Data 를만나 Recipe 1) 가되다 Customer Asset Store 2,473만 254조 900 店 + 지리정보 학군정보 상권정보 서울시, 소득편內급여지도 급여편차높은지역양극화해소정책필요 급여금액낮은지역低소득복지정책의주요모니터링지역 History of money 3 억건 업무지구등 1) Recipe : Regional Cash Insights for Person, 지도를통해바라본개인금융생활
Phase Ⅱ 알고리즘기반수익모델개발 _2) 데이터이노베이션센터 : 외부분석가들이다양한관점으로은행데이터를분석, 새로운데이터가치를창출하는물리적공간및가상공간 [ 구성도 ] 데이터및분석환경제공 AWS CLOUD 보유데이터 분석 Tool (BI, M/L) 스타트업연구기관분석가 사업기회발굴연구결과공유
SAS FORUM 창조성은새로운것을생각해내는능력이며혁신은새로운것을하는능력이다. Theodore Levitt-