Auto ML 과 XAI 를위한 H20 Driverless AI 소개 애자일소다컨설팅사업본부이동훈전무 2018.04
1. Intro 2. DAI 주요기능소개 & Demo 3. 결언
What are Auto ML & XAI?
데이타분석관련한기업의고민은 CIO 마케팅팀장 분석가 / 팀장 AI 나 ML 관련해서우리직원들의역량을어떻게끌어올려야할지? 이번에구축한시스템은우리직원들만의역량으로안정화와운영이가능할까? 매번똑같은변수말고새로운관점의변수를찾을방법은없을까? 그리고 time to market이중요한데좀더신속하게모델을 test 해볼수는없을까? 변수변환을해야하는데, 데이터항목만 300개가넘는다. 어떤변수를, 어떻게변환하는게효과적인가? 1차 filtering 만해줘도... 파생변수는어떡하지 DL 알고리즘을적용하여기존의캠페인타겟모델보다설명력이높은모델을 만들었다. 그런데개발한스코어에대한설명이어려워관련팀과바로실행에 옮기지못하고있다. 여러가지알고리즘 (Random forest, 의사결정나무, GBM 등 ) 의분석결과를 비교하면서볼수는없을까?
H2O Driverless AI Auto ML ( 자동화기계학습 ) explainable AI(XAI, 해석가능한 A1) : 2017 년 H2O 위치
DAI 의핵심기능 1. Automated data visualization 버튼한번 click 으로시각화자동화 2. Automated feature engineering 데이타변환및파생변수생성자동화 * 최적모델자동생성 (hyper-parameter 자동 tuning) Ensemble(super learner) 모델링 3. Interpretability Decision Tree 결과, random forest 변수영향도및시각화결과 * 결측치, 표준화, 변환등
1. Intro 2. DAI 주요기능소개 & Demo - Data loading & automatic visualization - 분석 setting & 모델학습 - 결과해석 3. 결언
Demo: Dataset Dataset 내용 : 종업원의직장이탈과관련영향변수 * 데이터사이즈 : 15,000( 行 )*10( 列 ) 훈련 / 테스트 dataset (7:3) 변수 설명변수 종속변수 Left ( 직장이탈 ) Satisfaction_level ( 직장만족도 ) Last_evalution ( 평가 ) Number_project ( 프로젝트수 ) Average_monthly_hours ( 근무시간 ) Time_spend_company ( 근속년수 ) Work_accident ( 직장사고발생율 ) Promotion_last_5 years (5 년간승진여부 ) Sales ( 근무부서 ) Salary ( 급여 ) 출처 : https://www.kaggle.com/lnvardanyan/hr-analytics/data
Demo 순서 Demo 순서 Data loading & automatic visualization 2 분석 setting & 모델학습 결과해석 훈련 / 테스트 dataset loading 데이타 type 에따른자동시각화 (14 종 ) 모델분석조건 setting Automated featuring engineering 학습진행경과모니터링 모델결과해석 ( 원데이타 vs. 파생변수데이타 ) 대체모델연계해석 ( 예 : 변수중요도, 의사결정나무등 )
Automatic visualization 별도의추가코드작성없이 dataset 을다양한형태의그래프와차트로표현 의미파악이가능한형태로 data 의특이치와 trend 정보제공 Data 유형별로적합한시각화자동제공 Visualize click 으로 14 종의그래프가자동생성
Demo 1
1. Intro 2. DAI 주요기능소개 & Demo - Data loading & automatic visualization - 분석 setting & 모델학습 - 결과해석 3. 결언
손쉬운분석 setting 모델의정확도 (accuracy), 계산시간 (time), 설명력 (interpretability) 를 1~10 사이의값으로설정 분석모형 ( 예 : 분류, 수치등 ) 별적합한비교지표선택 2 1
직관적인성능 monitoring 직관적이고일목요연한모델학습성능 monitoring 학습진행단계에따른성능지표, 변수중요도, 작업경과, log 등실시간모니터링정보제공 작업경과 실험조건 Iteration 에따른성능 Iteration 별변수중요도성능차트
Automated feature engineering (1/3) 주어진 dataset 에서자동으로변수를변환하고새로운변수생성 신규생성된변수에대한변수중요도차트제공 첫번째 iteration 수행후변수중요도 11 번째 iteration 수행후변수중요도 ( 파생변수포함 )
Automated feature engineering (2/3) H2O driverless AI 에서지원하는 data transformation 1. Variable Transformation Skewed 분포를가진종속, 설명변수변환 예 : log(x), log(x+1), sqrt(x) 등 2. Feature Encoding 범주형변수를수치형정보로변환 예 : Labelled encoding, one hot vector encoding 등 3. Feature Interaction 새로운변수생성 ( 예 : x1 + x2)
Automated feature engineering (3/3) 근무시간, 프로젝트수, 5 년간승진여부변수를조합한반응평균값 * 사고유무, 근무시간, 프로젝트수등의조합한변수의빈도값 (encoding 처리 ) 조합변수 (5 년간승진여부, 급여, 근속변수 ) 의 WOE** * Out of the mean response ** Weight of evidence
Automated model generation Iteration 별 hyper-parameter 와 ( 파생 ) 변수선택현황정보정보 Iteration 별 hyper-parameter & 파생변수
Demo 2
1. Intro 2. DAI 주요기능소개 & Demo - Data loading & automatic visualization - 분석 setting & 모델학습 - 결과해석 3. 결언
Local Interpretable Model-agnostic Explanations (LIME) Black box 에대한설명시도 부분영역 (local) 과 model-agnostic( 모델무관 ) Black box! 부분 (Local) Model-agnostic 부분영역에설명가능한모델 출처 : M. T. Ribeiro, S. Singh, and C. Guestrin, "Why should i trust you?: Explaining the predictions of any classifier," in Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016, pp. 1135-1144: ACM.
대체 (surrogate) 모델 LIME 을활용한다양한설명가능한대체모델 출처 : Patrick Hall, Wen Phan, and Sri Satish Ambati. Ideas on interpreting machine learning. O'Reilly Ideas, 2017. URL https://www.oreilly.com/ideas/ideas-on-interpreting-machine-learning
Interpretability 모형학습결과및관련의사결정나무, 변수중요도정보, 변수별값에따른영향도정보제공 결과비교 : 전체데이타셋 Vs. K 군집데이타비교지원 원변수 (original variable) 와파생변수 (derived variable) 에대한분석결과각각제공 Global (K-LIME) 차트 변수중요도차트 Random forest 분석결과연계 Decision Tree 결과연계분석 Decision tree 모델 Partial dependency 차트
Demo 3
AI in a Month! 복잡한고민없이 바로내옆에 2 시간이내에 Kaggle Grandmaster 수준의분석수행결과획득
Thank you 애자일소다 www.agilesoda.ai Copyright c 2077 by AgileSoDA This report is soly for the use of client personnel. No part of it may be circulated, quoted, or reproduced for distribution outside the client organization without prior written approval from AgileSoDA. This document provides an outline of a presentation and is incomplete without the accompanying oral commentary and discussion.