빅데이터분석을위한데이터마이닝방법론 SAS Enterprise Miner 활용사례를중심으로 9 주차 예측모형에대한평가 Assessment of Predictive Model 최종후, 강현철
차례 6. 모형평가의기본개념 6.2 모델비교 (Model Comparison) 노드 6.3 임계치 (Cutoff) 노드 6.4 의사결정 (Decisions) 노드 6.5 기타모형화노드들 6.6 연습문제 - 2 -
6.. 목표변수가구간형인경우 (Supervised Prediction) Obs. Sex Age Region y y ^ F 8 A 25 20 2 M 25 D 35 38 3 F 67 D 50 47 4 F 43 B 45 53 5 F 28 A 3 5 6 M 53 C 38 36 7 F 42 A 20 2 Regression Analysis : y ^ = a + b x + b x + L + 2 2 b p x p - 3 -
목표변수가구간형인경우 제품구매력평균 22.53 n 506 연령 Regression Tree <= 40 평균 23.2 n 430 > 40 평균 37.23 n 76 A, B, C 지역 D, E ^ = Mean of each node y 평균 9.25 n 20 평균 28.6 n 30-4 -
목표변수가구간형인경우 y i ^ y i e i - ASE n SSE = = n i = e 2 i / n 25 35 50 45 3 38 20 20 38 47 53 5 36 2 5-3 3-8 -2 2 - n SSE - MSE = = n - p - adj R = - MSE/ [ TSS/( n )] ( 2 0 adj R ) 2 - - AIC = n log + p + e i = 2 e /( n - i p ) ( SSE/n ) 2 ( ) - 5 -
6..2 목표변수가범주형인경우 (Supervised Classification) Obs. Sex Age Region y P ( y = ) 2 3 4 5 6 7 F M F F F M F 8 25 67 43 28 53 42 A D D B A C A 0 0 0 0 0.75 0.2 0.93 0.53 0.5 0.3 0.2 Logistic P(y=) ^ exp( a + b x + b 2 x + 2 L + b p x p ) = Regression + exp( a + b x + b x + L + b x ) - 6-2 2 p p
목표변수가범주형인경우 신용상태나쁨 68 52.0% 좋음 55 47.99% 계 323 (00.00) Classification Tree 월소득 200 만원이하 n % 나쁨 43 86.67 좋음 22 3.33 계 65 (5.08) 연령 200 만원이상 n % 나쁨 25 5.82 좋음 33 84.8 계 58 (48.92) 연령 ^ y = = / n P( ) n i i 35 세미만 35 세초과 25 세미만 25 세초과 n % 나쁨 43 90.5 좋음 5 9.49 계 58 (48.92) n % 나쁨 0 0.00 좋음 7 00.00 계 7 (2.7) n % 나쁨 24 48.98 좋음 25 5.02 계 49 (5.7) n % 나쁨 0.92 좋음 08 99.08 계 09 (33.75) - 7 -
목표변수가범주형 ( 구간형 ) 인경우 X X 2 H H 2 y Neural Network Multi-Layer Perceptron X p 활성함수 결합함수 H = + + + L + H + Y + f ( b w X w 2 X 2 w p X p = 2 f 2 ( b + 2 w 2 X + w 22 X + 2 L w p 2 X p = g ( b + 0 w 0 H w 20 H 2 ) ) ) 절편 (bias) 연결강도 - 8 -
차례 6. 모형평가의기본개념 6.2 모델비교 (Model Comparison) 노드 6.3 임계치 (Cutoff) 노드 6.4 의사결정 (Decisions) 노드 6.5 기타모형화노드들 6.6 연습문제 - 9 -
6.2. 분석사례 - : 구간형목표변수 - 0 -
모델비교 (Model Comparison) 노드 - 결과 - -
모델비교 (Model Comparison) 노드 - 결과 : 출력 - 2 -
회귀 (Regression) 노드 - 속성패널과출력결과 회귀노드의속성패널 - 3 -
6.2.2 분석사례 - 2: 이항형목표변수 y P ( y = ) y ^ ( 0. 50 ) y ^ ( 0. 25 ) 0 Discriminant 판별 0.75 0.2 0.93 Classification 분류 0 0 0.53 0 0 Modeling 0.5 0.3 Cut-off value (Threshold) 0 0 0 0 0.2 0 0 0 0.30 0 0.4 0 0.75-4 -
임계치에따른분류정확도 y ^ ( 0. 50 ) y ^ ( 0. 25 ) 0 Predicted 0 5 0 5 0 Predicted 0 3 2 5 4 6 4 5 0 오류율 (Error rate) = (false negative + false positive)/(grand total) = (+0)/0 = 0% 정확도 (Accuracy) = (true negative + true positive)/(grand total) = (5+4)/0 = 90% 민감도 (Sensitivity) = (true positive)/( total actual positive) = 4/5 = 80% 특이도 (Specificity) = (true negative)/( total actual negative) = 5/5 = 00% - 5-0 5 3 7 5 0 (0+2)/0 = 20% (3+5)/0 = 80% 5/5 = 00% 3/5 = 60%
No-Data Rule Actual Class Predicted Class 0 0 0 44 44 0 06 06 0 50 50 Accuracy = 06/50 = 7% 오류율, 정확도, 민감도, 특이도등은임계치에따라달라지므로, 임계치에의존하지 않는모형평가도구가필요하다. - 6 -
향상도테이블 (Lift Table) Example n = 2000, = 38 Baseline = 38/2000 = 9 % Decile Y= %Captured %Response Lift 74 74/38=45.6 74/200=87.0 87.0/9=4.57 2 0 0/38=28.8 0/200=55.0 55.0/9=2.89 3 38 38/38= 9.9 38/200=9.0 9.0/9=.00 4 4 4/38= 3.6 4/200= 7.0 7.0/9=0.36 5 /38= 2.8 /200= 5.5 5.5/9=0.28 6 0 0/38= 2.6 0/200= 5.0 5.0/9=0.28 7 7 7/38=.8 7/200= 3.5 3.5/9=0.8 8 0 0/38= 2.6 0/200= 5.0 5.0/9=0.26 9 3 3/38= 0.7 3/200=.5.5/9=0.07 0 4 4/38=.0 4/200= 2.0 2.0/9=0.0-7 -
%Response 향상도그래프 (Lift Chart) 00 90 80 70 60 50 40 30 20 0 0 2 3 4 5 6 7 8 9 0-8 -
누적향상도테이블 (Cumulative Lift Table) Decile Y= %Captured %Response Lift 74 74/38=45.6 74/ 200=87.0 87.0/9=4.57 2 284 284/38=74.5 284/ 400=7.0 7.0/9=3.73 3 322 322/38=84.5 322/ 600=53.6 53.6/9=2.82 4 336 336/38=88. 336/ 800=42.0 42.0/9=2.2 5 347 347/38=9.0 347/000=34.7 34.7/9=.82 6 357 357/38=93.7 357/200=29.7 29.7/9=.56 7 364 364/38=95.5 364/400=26.0 26.0/9=.36 8 374 374/38=98. 374/600=23.3 23.3/9=.23 9 377 377/38=98.9 377/800=20.9 20.9/9=.0 0 38 38/38=00 38/2000=9.0 9.0/9=.00-9 -
누적향상도그래프 (Cumulative Lift Chart) 00 80 If 30% of the cases are selected, then 53.6% will respond, cumulative lift = 282%. 60 40 20 0 MRR 0 20 30 40 50 60 70 80 90 00 Selected Cases (%) - 20 -
바람직한향상도그래프 00 80 60 40 20 Preferable Lift Chart 0 2 3 4 5 6 7 8 9 0 00 00 80 80 60 60 40 40 20 20 0 2 3 4 5 6 7 8 9 0 0 2 3 4 5 6 7 8 9 0-2 -
분석사례 - 2 를위한다이어그램 모델비교노드의속성패널 - 22 -
모델비교 (Model Comparison) 노드 - 결과 - 23 -
예 최적향상도 ( 최고의성능을가지는모형 ) - 24 -
데이터옵션대화상자 - 25 -
최적향상도그래프 - 26 -
향상도테이블 - 27 -
정오분류표 (Confusion Matrix, Classification Table) - 28 -
예 민감도와특이도 - 29 -
Sensitivity ROC(Receiver Operation Characteristic) 그래프.0 0.5 0.0 0.0 0.5.0 Specificity - 30 -
ROC(Receiver Operation Characteristic) 그래프 - 3 -
ROC 곡선과향상도그래프의관계 ROC Lift Cumulative Lift 매우좋음 좋음 나쁨 - 32 -
모델비교 (Model Comparison) 노드 - 결과 - 33 -
예 모형평가결과의요약 - 34 -
차례 6. 모형평가의기본개념 6.2 모델비교 (Model Comparison) 노드 6.3 임계치 (Cutoff) 노드 6.4 의사결정 (Decisions) 노드 6.5 기타모형화노드들 6.6 연습문제 - 35 -
예 절단값에따른정확도, 민감도, 특이도 - 36 -
임계치 (Cutoff) 노드 - 결과 - 37 -
임계치 (Cutoff) 노드 - 결과 : 모델짂단테이블 임계치노드의속성패널 - 38 -
컷오프 ( 임계치 ) 설정방법 User Input: 사용자입력임계값 (Cutoff User Input) 필드에사용자가임계치를설정한다. Maximum KS Statistic: 분석용데이터의사전확률 (prior probability) 을임계치로설정한다. Minimum Misclassification Cost Training Prior: 사전확률을반영한예측오류 FPX(-prior)+FNXprior 가최소가되는임계치를설정한다. Maximum True Pos Rate: 민감도 (True Positive Rate) 가최대가되는임계치를설정한다. Maximum Event Precision From Training Prior: 이벤트정밀도가최대가되는임계치를설정한다. Event Precision Equal Recall: 이벤트정밀도와민감도가최대가되는임계치를설정한다. Maximum Cumulative Profit: 누적이득이최대가되는임계치를설정한다 - 39 -
임계치설정에따른결과 - 40 -
차례 6. 모형평가의기본개념 6.2 모델비교 (Model Comparison) 노드 6.3 임계치 (Cutoff) 노드 6.4 의사결정 (Decisions) 노드 6.5 기타모형화노드들 6.6 연습문제 - 4 -
분석사례 - 3 을위한다이어그램 의사결정노드의속성패널 - 42 -
6.4. 사전확률 (Prior Probability) 설정 π, π 2 : 사전확률 (Prior Probability) ρ, ρ 2 : 표본에서의목표변수의비율 사후확률 (posterior probability) 의불편 (unbiased) 추정치 : - 43 -
그래프탐색 (Graph Explore) 노드 - 결과 - 44 -
6.4.2 이득행렬 (Profit Matrix) 의이용 - 45 -
기대이득의계산 - 46 -
모델비교 (Model Comparison) 노드 - 결과 - 47 -
차례 6. 모형평가의기본개념 6.2 모델비교 (Model Comparison) 노드 6.3 임계치 (Cutoff) 노드 6.4 의사결정 (Decisions) 노드 6.5 기타모형화노드들 6.6 연습문제 - 48 -
기타모형화노드들 앙상블 (Ensemble) 노드 자동신경망 (AutoNeural) 노드 Dmine 회귀분석 (Dmine Regression) 노드 DM 신경망 (DMNeural) 노드 그래디언트부스팅 (Gradient Boosting) 노드 LAR(Least Angle Regression)s 노드 MBR(Memory-Based Reasoning) 노드 부분최소제곱법 (Partial Least Squares) 노드 규칙추론 (Rule Induction) 노드 SVM(Support Vector Machine) 노드 - 49 -
여러가지모형화노드들 앙상블노드의속성패널 - 50 -
모델비교 (Model Comparison) 노드 - 결과 - 5 -
차례 6. 모형평가의기본개념 6.2 모델비교 (Model Comparison) 노드 6.3 임계치 (Cutoff) 노드 6.4 의사결정 (Decisions) 노드 6.5 기타모형화노드들 6.6 연습문제 - 52 -
Bagging 방법을위한다이어그램 그룹시작노드의속성패널 - 53 -