슬라이드 1

Similar documents
슬라이드 1

강의록

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

사회통계포럼

슬라이드 1

3 Gas Champion : MBB : IBM BCS PO : 2 BBc : : /45

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

전립선암발생률추정과관련요인분석 : The Korean Cancer Prevention Study-II (KCPS-II)

(, sta*s*cal disclosure control) - (Risk) and (U*lity) (Synthe*c Data) 4. 5.

abstract.dvi

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

untitled

2017 년 6 월한국소프트웨어감정평가학회논문지제 13 권제 1 호 Abstract

nonpara6.PDF

PowerPoint 프레젠테이션

DIY 챗봇 - LangCon

탐색적데이터분석 (Exploratory Data Analysis) 데이터가지닌주요특성 / 개괄을 ( 우선적으로 ) 탐구함으로써 데이터분석을시도하려는형태 모델링이나가설을세우고이를검증하기보다데이터자체 가우리에게말하려고하는것을알아내는것의중요성을강 조하며시각화플롯을많이활용 J

eda_ch7.doc

Lecture12_Bayesian_Decision_Thoery

Chap 6: Graphs

ASETAOOOCRKG.hwp

adfasdfasfdasfasfadf

An Effective Sentence-Extraction Technique Using Contextual Information and Statistical Approaches for Text Summarization

hwp

04김호걸(39~50)ok

빅데이터_DAY key

15인플레이션01-목차1~9

슬라이드 1

Documents Taxonomy - LASSO regression을 중심으로

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

Gray level 변환 및 Arithmetic 연산을 사용한 영상 개선

<31372DB9DABAB4C8A32E687770>

서론 1.1 연구배경및목적 Table 1. Cancer mortality Stomach cancer no. of deaths 11,701 11,190 10,935 10,716 10,563 10,312 m

The characteristic analysis of winners and losers in curling: Focused on shot type, shot accuracy, blank end and average score SungGeon Park 1 & Soowo

고차원에서의 유의성 검정

통계적 학습(statistical learning)

Tree 기반의 방법

PowerPoint Presentation

untitled

슬라이드 1

조사연구 sampling error of polling sites and the additional error which comes from non-response, early voting and second stage sampling error of voters in

PowerPoint 프레젠테이션

김기남_ATDC2016_160620_[키노트].key

<B9CCB5F0BEEEB0E6C1A6BFCDB9AEC8AD5F31322D32C8A35FBABBB9AE5FC3CAC6C731BCE25F6F6B5F E687770>

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jul.; 29(7),

딥러닝 첫걸음

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

untitled

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>


예제 1.1 ( 관계연산자 ) >> A=1:9, B=9-A A = B = >> tf = A>4 % 4 보다큰 A 의원소들을찾을경우 tf = >> tf = (A==B) % A

(Exposure) Exposure (Exposure Assesment) EMF Unknown to mechanism Health Effect (Effect) Unknown to mechanism Behavior pattern (Micro- Environment) Re

PowerPoint 프레젠테이션

Microsoft PowerPoint - chap_11_rep.ppt [호환 모드]

Artificial Intelligence: Assignment 5 Seung-Hoon Na December 15, Numpy: Tutorial 다음 자료를 참조하여 numpy기본을 공부하시오.

untitled

exp

Manufacturing6

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

Introduction to Deep learning

ETL_project_best_practice1.ppt

PowerPoint 프레젠테이션

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

Chapter 7 – Classification and Regression Trees

단순 베이즈 분류기

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

methods.hwp

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

슬라이드 1

chap 5: Trees

광덕산 레이더 자료를 이용한 강원중북부 내륙지방의 강수특성 연구

???? 1

untitled

15_3oracle

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

DBPIA-NURIMEDIA


PowerPoint 프레젠테이션

서재초등학교 5학년 학교생활

Chap 6: Graphs

Oracle Apps Day_SEM

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

정보기술응용학회 발표

PowerPoint 프레젠테이션

김경재 안현철 지능정보연구제 17 권제 4 호 2011 년 12 월

PMP수험서_8-2쇄

자연채무에대한재검토 1. 서론 2. 선행연구 9 Journal of Digital Convergence 214 May; 12(5): 89-99

( )실험계획법-머리말 ok

비선형으로의 확장

untitled

Microsoft PowerPoint - ch10 - 이진트리, AVL 트리, 트리 응용 pm0600

조사연구 aim of this study is to find main cause of the forecasting error and bias of telephone survey. We use the telephone survey paradata released by N

cat_data3.PDF

Microsoft Word - multiple

PCServerMgmt7

R t-..

공휴일 전력 수요에 관한 산업별 분석

Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

Transcription:

빅데이터분석을위한데이터마이닝방법론 SAS Enterprise Miner 활용사례를중심으로 9 주차 예측모형에대한평가 Assessment of Predictive Model 최종후, 강현철

차례 6. 모형평가의기본개념 6.2 모델비교 (Model Comparison) 노드 6.3 임계치 (Cutoff) 노드 6.4 의사결정 (Decisions) 노드 6.5 기타모형화노드들 6.6 연습문제 - 2 -

6.. 목표변수가구간형인경우 (Supervised Prediction) Obs. Sex Age Region y y ^ F 8 A 25 20 2 M 25 D 35 38 3 F 67 D 50 47 4 F 43 B 45 53 5 F 28 A 3 5 6 M 53 C 38 36 7 F 42 A 20 2 Regression Analysis : y ^ = a + b x + b x + L + 2 2 b p x p - 3 -

목표변수가구간형인경우 제품구매력평균 22.53 n 506 연령 Regression Tree <= 40 평균 23.2 n 430 > 40 평균 37.23 n 76 A, B, C 지역 D, E ^ = Mean of each node y 평균 9.25 n 20 평균 28.6 n 30-4 -

목표변수가구간형인경우 y i ^ y i e i - ASE n SSE = = n i = e 2 i / n 25 35 50 45 3 38 20 20 38 47 53 5 36 2 5-3 3-8 -2 2 - n SSE - MSE = = n - p - adj R = - MSE/ [ TSS/( n )] ( 2 0 adj R ) 2 - - AIC = n log + p + e i = 2 e /( n - i p ) ( SSE/n ) 2 ( ) - 5 -

6..2 목표변수가범주형인경우 (Supervised Classification) Obs. Sex Age Region y P ( y = ) 2 3 4 5 6 7 F M F F F M F 8 25 67 43 28 53 42 A D D B A C A 0 0 0 0 0.75 0.2 0.93 0.53 0.5 0.3 0.2 Logistic P(y=) ^ exp( a + b x + b 2 x + 2 L + b p x p ) = Regression + exp( a + b x + b x + L + b x ) - 6-2 2 p p

목표변수가범주형인경우 신용상태나쁨 68 52.0% 좋음 55 47.99% 계 323 (00.00) Classification Tree 월소득 200 만원이하 n % 나쁨 43 86.67 좋음 22 3.33 계 65 (5.08) 연령 200 만원이상 n % 나쁨 25 5.82 좋음 33 84.8 계 58 (48.92) 연령 ^ y = = / n P( ) n i i 35 세미만 35 세초과 25 세미만 25 세초과 n % 나쁨 43 90.5 좋음 5 9.49 계 58 (48.92) n % 나쁨 0 0.00 좋음 7 00.00 계 7 (2.7) n % 나쁨 24 48.98 좋음 25 5.02 계 49 (5.7) n % 나쁨 0.92 좋음 08 99.08 계 09 (33.75) - 7 -

목표변수가범주형 ( 구간형 ) 인경우 X X 2 H H 2 y Neural Network Multi-Layer Perceptron X p 활성함수 결합함수 H = + + + L + H + Y + f ( b w X w 2 X 2 w p X p = 2 f 2 ( b + 2 w 2 X + w 22 X + 2 L w p 2 X p = g ( b + 0 w 0 H w 20 H 2 ) ) ) 절편 (bias) 연결강도 - 8 -

차례 6. 모형평가의기본개념 6.2 모델비교 (Model Comparison) 노드 6.3 임계치 (Cutoff) 노드 6.4 의사결정 (Decisions) 노드 6.5 기타모형화노드들 6.6 연습문제 - 9 -

6.2. 분석사례 - : 구간형목표변수 - 0 -

모델비교 (Model Comparison) 노드 - 결과 - -

모델비교 (Model Comparison) 노드 - 결과 : 출력 - 2 -

회귀 (Regression) 노드 - 속성패널과출력결과 회귀노드의속성패널 - 3 -

6.2.2 분석사례 - 2: 이항형목표변수 y P ( y = ) y ^ ( 0. 50 ) y ^ ( 0. 25 ) 0 Discriminant 판별 0.75 0.2 0.93 Classification 분류 0 0 0.53 0 0 Modeling 0.5 0.3 Cut-off value (Threshold) 0 0 0 0 0.2 0 0 0 0.30 0 0.4 0 0.75-4 -

임계치에따른분류정확도 y ^ ( 0. 50 ) y ^ ( 0. 25 ) 0 Predicted 0 5 0 5 0 Predicted 0 3 2 5 4 6 4 5 0 오류율 (Error rate) = (false negative + false positive)/(grand total) = (+0)/0 = 0% 정확도 (Accuracy) = (true negative + true positive)/(grand total) = (5+4)/0 = 90% 민감도 (Sensitivity) = (true positive)/( total actual positive) = 4/5 = 80% 특이도 (Specificity) = (true negative)/( total actual negative) = 5/5 = 00% - 5-0 5 3 7 5 0 (0+2)/0 = 20% (3+5)/0 = 80% 5/5 = 00% 3/5 = 60%

No-Data Rule Actual Class Predicted Class 0 0 0 44 44 0 06 06 0 50 50 Accuracy = 06/50 = 7% 오류율, 정확도, 민감도, 특이도등은임계치에따라달라지므로, 임계치에의존하지 않는모형평가도구가필요하다. - 6 -

향상도테이블 (Lift Table) Example n = 2000, = 38 Baseline = 38/2000 = 9 % Decile Y= %Captured %Response Lift 74 74/38=45.6 74/200=87.0 87.0/9=4.57 2 0 0/38=28.8 0/200=55.0 55.0/9=2.89 3 38 38/38= 9.9 38/200=9.0 9.0/9=.00 4 4 4/38= 3.6 4/200= 7.0 7.0/9=0.36 5 /38= 2.8 /200= 5.5 5.5/9=0.28 6 0 0/38= 2.6 0/200= 5.0 5.0/9=0.28 7 7 7/38=.8 7/200= 3.5 3.5/9=0.8 8 0 0/38= 2.6 0/200= 5.0 5.0/9=0.26 9 3 3/38= 0.7 3/200=.5.5/9=0.07 0 4 4/38=.0 4/200= 2.0 2.0/9=0.0-7 -

%Response 향상도그래프 (Lift Chart) 00 90 80 70 60 50 40 30 20 0 0 2 3 4 5 6 7 8 9 0-8 -

누적향상도테이블 (Cumulative Lift Table) Decile Y= %Captured %Response Lift 74 74/38=45.6 74/ 200=87.0 87.0/9=4.57 2 284 284/38=74.5 284/ 400=7.0 7.0/9=3.73 3 322 322/38=84.5 322/ 600=53.6 53.6/9=2.82 4 336 336/38=88. 336/ 800=42.0 42.0/9=2.2 5 347 347/38=9.0 347/000=34.7 34.7/9=.82 6 357 357/38=93.7 357/200=29.7 29.7/9=.56 7 364 364/38=95.5 364/400=26.0 26.0/9=.36 8 374 374/38=98. 374/600=23.3 23.3/9=.23 9 377 377/38=98.9 377/800=20.9 20.9/9=.0 0 38 38/38=00 38/2000=9.0 9.0/9=.00-9 -

누적향상도그래프 (Cumulative Lift Chart) 00 80 If 30% of the cases are selected, then 53.6% will respond, cumulative lift = 282%. 60 40 20 0 MRR 0 20 30 40 50 60 70 80 90 00 Selected Cases (%) - 20 -

바람직한향상도그래프 00 80 60 40 20 Preferable Lift Chart 0 2 3 4 5 6 7 8 9 0 00 00 80 80 60 60 40 40 20 20 0 2 3 4 5 6 7 8 9 0 0 2 3 4 5 6 7 8 9 0-2 -

분석사례 - 2 를위한다이어그램 모델비교노드의속성패널 - 22 -

모델비교 (Model Comparison) 노드 - 결과 - 23 -

예 최적향상도 ( 최고의성능을가지는모형 ) - 24 -

데이터옵션대화상자 - 25 -

최적향상도그래프 - 26 -

향상도테이블 - 27 -

정오분류표 (Confusion Matrix, Classification Table) - 28 -

예 민감도와특이도 - 29 -

Sensitivity ROC(Receiver Operation Characteristic) 그래프.0 0.5 0.0 0.0 0.5.0 Specificity - 30 -

ROC(Receiver Operation Characteristic) 그래프 - 3 -

ROC 곡선과향상도그래프의관계 ROC Lift Cumulative Lift 매우좋음 좋음 나쁨 - 32 -

모델비교 (Model Comparison) 노드 - 결과 - 33 -

예 모형평가결과의요약 - 34 -

차례 6. 모형평가의기본개념 6.2 모델비교 (Model Comparison) 노드 6.3 임계치 (Cutoff) 노드 6.4 의사결정 (Decisions) 노드 6.5 기타모형화노드들 6.6 연습문제 - 35 -

예 절단값에따른정확도, 민감도, 특이도 - 36 -

임계치 (Cutoff) 노드 - 결과 - 37 -

임계치 (Cutoff) 노드 - 결과 : 모델짂단테이블 임계치노드의속성패널 - 38 -

컷오프 ( 임계치 ) 설정방법 User Input: 사용자입력임계값 (Cutoff User Input) 필드에사용자가임계치를설정한다. Maximum KS Statistic: 분석용데이터의사전확률 (prior probability) 을임계치로설정한다. Minimum Misclassification Cost Training Prior: 사전확률을반영한예측오류 FPX(-prior)+FNXprior 가최소가되는임계치를설정한다. Maximum True Pos Rate: 민감도 (True Positive Rate) 가최대가되는임계치를설정한다. Maximum Event Precision From Training Prior: 이벤트정밀도가최대가되는임계치를설정한다. Event Precision Equal Recall: 이벤트정밀도와민감도가최대가되는임계치를설정한다. Maximum Cumulative Profit: 누적이득이최대가되는임계치를설정한다 - 39 -

임계치설정에따른결과 - 40 -

차례 6. 모형평가의기본개념 6.2 모델비교 (Model Comparison) 노드 6.3 임계치 (Cutoff) 노드 6.4 의사결정 (Decisions) 노드 6.5 기타모형화노드들 6.6 연습문제 - 4 -

분석사례 - 3 을위한다이어그램 의사결정노드의속성패널 - 42 -

6.4. 사전확률 (Prior Probability) 설정 π, π 2 : 사전확률 (Prior Probability) ρ, ρ 2 : 표본에서의목표변수의비율 사후확률 (posterior probability) 의불편 (unbiased) 추정치 : - 43 -

그래프탐색 (Graph Explore) 노드 - 결과 - 44 -

6.4.2 이득행렬 (Profit Matrix) 의이용 - 45 -

기대이득의계산 - 46 -

모델비교 (Model Comparison) 노드 - 결과 - 47 -

차례 6. 모형평가의기본개념 6.2 모델비교 (Model Comparison) 노드 6.3 임계치 (Cutoff) 노드 6.4 의사결정 (Decisions) 노드 6.5 기타모형화노드들 6.6 연습문제 - 48 -

기타모형화노드들 앙상블 (Ensemble) 노드 자동신경망 (AutoNeural) 노드 Dmine 회귀분석 (Dmine Regression) 노드 DM 신경망 (DMNeural) 노드 그래디언트부스팅 (Gradient Boosting) 노드 LAR(Least Angle Regression)s 노드 MBR(Memory-Based Reasoning) 노드 부분최소제곱법 (Partial Least Squares) 노드 규칙추론 (Rule Induction) 노드 SVM(Support Vector Machine) 노드 - 49 -

여러가지모형화노드들 앙상블노드의속성패널 - 50 -

모델비교 (Model Comparison) 노드 - 결과 - 5 -

차례 6. 모형평가의기본개념 6.2 모델비교 (Model Comparison) 노드 6.3 임계치 (Cutoff) 노드 6.4 의사결정 (Decisions) 노드 6.5 기타모형화노드들 6.6 연습문제 - 52 -

Bagging 방법을위한다이어그램 그룹시작노드의속성패널 - 53 -