슬라이드 1

Similar documents
슬라이드 1

슬라이드 1

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

슬라이드 1

제 4 장회귀분석

abstract.dvi

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Microsoft PowerPoint - IPYYUIHNPGFU

G Power

<352E20BAAFBCF6BCB1C5C320B1E2B9FDC0BB20C0CCBFEBC7D120C7D1B1B920C7C1B7CEBEDFB1B8C0C720B5E6C1A1B0FA20BDC7C1A120BCB3B8ED D2DB1E8C7F5C1D62E687770>

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사


eda_ch7.doc

MATLAB for C/C++ Programmers

비선형으로의 확장

Chapter 8 단순선형회귀분석과 상관분석

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

Microsoft Word - multiple

제 1 절 two way ANOVA 제1절 1 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라


슬라이드 1

슬라이드 1


슬라이드 1

hwp

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Microsoft Word - LectureNote.doc

선형모형_LM.pdf

제 1 부 연구 개요

untitled

시스템경영과 구조방정식모형분석

슬라이드 1

Microsoft PowerPoint - chap_11_rep.ppt [호환 모드]

<C8A3C5DABBEABEF720B0E6B1E2B5BFC7E220BFB9C3F820B8F0B5A8BFA120B4EBC7D120BFACB1B85FC3D6C1BE28C7D1C3A2BFB1292E687770>

R t-..

2 / 27 목차 1. M-plus 소개 2. 중다회귀 3. 경로모형 4. 확인적요인분석 5. 구조방정식모형 6. 잠재성장모형 7. 교차지연자기회귀모형

MATLAB for C/C++ Programmers

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

PowerPoint 프레젠테이션

자료분석론 - 국민건강영양조사 분석

Microsoft PowerPoint - MDA DA pptx

PowerPoint 프레젠테이션

methods.hwp

고객관계를 리드하는 서비스 리더십 전략

Microsoft PowerPoint - LM 2014s_Ch4.pptx

Microsoft PowerPoint - Info R(3) pptx

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

cat_data3.PDF

Endpoint Protector - Active Directory Deployment Guide

<4D F736F F D20B1E2BBF3C5EBB0E85F36C0E55FC7D0BBFD2E646F6378>

PowerPoint Template

임정연 이영민 1) 주저자, 숙명여자대학교인력개발정책학박사과정, 2) 교신저자, 숙명여자대학교여성 HRD 대학원부교수,

Microsoft PowerPoint - SPSS14_모듈별 구성소개

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

자료의 이해 및 분석

자료의 이해 및 분석

슬라이드 1

Microsoft Word - SPSS_MDA_Ch6.doc

¾DÁ ÖÖ„�Àº¨Ö´ä

Chapter 7 분산분석

Microsoft Word - src.doc

nonpara6.PDF

Microsoft Word - 동태적 모형.doc

( )실험계획법-머리말 ok

2002년 2학기 자료구조

ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행

ASETAOOOCRKG.hwp

한국정책학회학회보

<4D F736F F D20C0C0BFEBB0E8B7AE20C1A B0AD202D20B0E8B7AEB0E6C1A6C7D E646F63>

Microsoft PowerPoint - ANOVA pptx

PowerPoint 프레젠테이션

통계적 학습(statistical learning)

슬라이드 1

게임 기획서 표준양식 연구보고서

Microsoft Word - skku_TS2.docx

<4D F736F F D20C0C0BFEBB0E8B7AE20C1A B0AD202D20B0E8B7AEB0E6C1A6C7D E646F63>

4 CD Construct Special Model VI 2 nd Order Model VI 2 Note: Hands-on 1, 2 RC 1 RLC mass-spring-damper 2 2 ζ ω n (rad/sec) 2 ( ζ < 1), 1 (ζ = 1), ( ) 1

2011년 제 9회 최우수상.hwp

Microsoft Word - sbe_anova.docx

22 장정규성검정과정규화변환 22.1 시각적방법 Q-Q 플롯과정규확률그림 Q-Q 플롯( 분위수- 분위수플롯, Quantile-Quantile plot) 은하나의자료셋이특정분포( 정규분 포나와이블분포등) 를따르는지또는두개의자료셋이같은모집단분포로부터나왔는지를


Microsoft PowerPoint - chap06-2pointer.ppt

Microsoft PowerPoint - chap_11_rep.ppt [호환 모드]

표본재추출(resampling) 방법

한약재품질표준화연구사업단 단삼 ( 丹參 ) Salviae Miltiorrhizae Radix 생약연구과

Microsoft Word - ch8_influence.doc


<31372DB9DABAB4C8A32E687770>

Resampling Methods

슬라이드 1

untitled

29-6(본문).pdf


<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

Chapter 7 분산분석

(Microsoft PowerPoint - Ch21_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

untitled

Transcription:

빅데이터분석을위한데이터마이닝방법론 SAS Enterprise Miner 활용사례를중심으로 제 4 장 회귀분석 Chapter 4 Regression Analysis

차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 2 -

회귀분석 (Regression Analysis) 반응변수 (response variable) 목표변수 (target variable) 종속변수 (dependent variable) 설명 ( 예측 ) 되어지는변수 y = f,,, ( 1 2 p ) 설명변수 (eplanatory variable) 입력변수 (input variable) 독립변수 (independent variable) 반응변수를설명 ( 예측 ) 하는데이용되는변수 회귀분석이란반응변수가설명변수들에의해어떻게설명 ( 예측 ) 되는지를알아보기위 해적절한함수식으로표현하여분석하는통계적자료분석방법 - 3 -

회귀분석의종류 선형 (linear) vs 비선형 (nonlinear) 선형회귀분석 : 반응변수와설명변수의관계를선형함수로표현 비선형회귀분석 : 반응변수와설명변수의관계가비선형 단순 (simple) vs 다중 (multiple) 단순회귀분석 : 설명변수가한개 다중회귀분석 : 설명변수가두개이상 일변량 (univariate) vs 다변량 (multivariate) 일변량회귀분석 : 반응변수가한개 다변량회귀분석 : 반응변수가두개이상 - 4 -

- 5 - 회귀분석의종류 y = α + β p p y 2 2 1 1 β β β α + + + + = 2 2 2 2 1 1 2 1 12 2 2 1 1 y δ δ γ β β α + + + + + = ) ep( 1 ) ep( m y β α β α + + + = 3 2 32 1 31 3 3 2 2 22 1 21 2 2 1 2 12 1 11 1 1 + + + + = + + + + = + + + + = p p p p p p y y y β β β α β β β α β β β α 단순선형회귀분석 다중선형회귀분석 다항회귀분석 비선형회귀분석 다변량회귀분석

회귀 (Regression) Francis Galton(1822~1911) : 아버지의키와아들의키의관계를연구 - 6 -

4.1.1 단순회귀모형 (Simple Regression) 판매대수 y i = a + b i + e i 예약대수 i y ŷ 11 19 23 26 29 30 38 39 46 49 29 33 51 40 49 50 69 70 64 89 i 25.5 37.1 42.8 47.1 51.5 52.9 64.4 65.9 76.0 80.3 y = a + b = 9. 74 + 1. 44 i - 7 -

- 8 - 회귀계수 ( 모수 ) 의추정 n i y i i i, 1,, = + + = ε β α 단순선형회귀모형 n i b a y i i i, 1,, ˆ ˆ ˆ = + = + = β α 추정된회귀직선 i i i y y e ˆ = 잔차 (residual) 최소제곱추정 (Least Square Estimation) = = = = = n i n i i i i i n i i b a y y y e Min 1 1 2 2 1 2 ) ( ) ˆ (, ) ( ) )( ( 1 2 1 = = = n i i n i i i y y b b y a =

회귀계수에대한해석과검정 H 0 : β=0 자유도 n-1 인 t- 분포를따른다. s.e.(b) 는 b 의표준오차 (standard error) 이다. - 9 -

- 10-4.1.2 다중회귀모형 (Multiple Regression) n i y i ip p i i i, 1,, 2 2 1 1 = + + + + + = ε β β β α + = n p np n p p n y y y ε ε ε β β α 2 1 1 1 2 21 1 11 2 1 1 1 1 X y X X β ε Xβ y ' ) ' ( ˆ 1 = + =

사례 영업수익평가지수 Correlation Variable Label 1 2 3 4 y 1 창의력 1.0000 2 단순추론능력 0.6010 1.0000 3 복합추론능력 0.1032 0.4208 1.0000 4 계량능력 0.3937 0.5746 0.5477 1.0000 y 영업수익평가지수 0.5310 0.7459 0.4982 0.9443 1.0000 어떤회사에서는신입사원에대해 4과목 (1= 창의력, 2= 단순추론능력, 3= 복합추론능력, 4= 계량능력 ) 의적성검사를실시하여왔다. 이회사에서는이러한적성검사과목들이사원의업무능력을평가하는데타당하지를알아보기위하여입사후일년간의실적을평가하여 업무능력지수 (y) 를산출하였다. - 11 -

분산분석표및회귀계수추정치 Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 4 4816.9644 1204.24110 263.55 <.0001 Error 45 205.6214 4.56936 Corrected Total 49 5022.5858 Root MSE 2.1376 R-Square 0.9591 Dependent Mean 106.6220 Adj R-Sq 0.9554 Coeff Var 2.0048 Parameter Estimates Variable Label DF Parameter Estimate Standard Error t Value Pr > t Standardized Estimate Intercept Intercept 1 73.15526 1.68258 43.48 <.0001 0 1 창의력 1 0.14245 0.10157 1.40 0.1676 0.05498 2 단순추론능력 1 0.84501 0.13186 6.41 <.0001 0.28250 3 복합추론능력 1-0.27220 0.16825-1.62 0.1127-0.06116 4 계량능력 1 0.76269 0.03949 19.31 <.0001 0.79383-12 -

분산분석표 (ANOVA Table) 제곱합의분할 n i= 1 ( y i y) 2 = n n 2 ( yˆ i y) + i= 1 i= 1 ( y i yˆ i ) 2 TSS = SSR + SSE 전체제곱합회귀제곱합오차제곱합 R 2 = SSR TSS = 1 SSE TSS 분산분석표 (ANOVA table) 요인 제곱합 자유도 평균제곱 분산비 회귀 SSR p MSR=SSR/p F=MSR/MSE 오차 SSE n-p-1 MSE=SSE/(n-p-1) (p-value) 전체 TSS n-1 H 0 : β1 = β2 = = β p = 0-13 -

회귀계수에대한검정 회귀계수에대한검정 H : β 0 t = b / s.e.( b ) ~ t( n p 1) 0 j = j j 표준화회귀계수 α β + β + + β + ε y * * * * * = + z z z 1 1 2 2 p p z j = ( j j ) / s j 편상관계수 (partial correlation coefficient) 혈압 0.7 월급 혈압 -0.1 월급 0.8 0.9 나이 - 14 -

예 다중회귀분석의결과 - 15 -

매개변수 (Lurking Variables) 소아마비발병률 8. 0 C2 4. 0 0. 0 2. 0 4. 0 6. 0 8. 0 10. 0 C1 청량음료판매량 - 16 -

매개변수 (Lurking Variables) correlation = 0.734 8. 0 C2 4. 0 0. 0 2. 0 4. 0 6. 0 8. 0 10. 0 C1-17 -

매개변수 (Lurking Variables) correlation = 0.734 여름 C2 8. 0 correlation = 0 4. 0 0. 0 correlation = 0.385 겨울 2. 0 4. 0 6. 0 8. 0 10. 0 C1-18 -

입력변수의선택 전진선택법 (Forward Selection) 입력변수를각변수의기여도에따라서하나씩추가하면서선택하는방법이다. 이방법은계산시간이빠르다는장점이있지만, 한번선택된변수는절대로제거되지않는다는단점이있다. 후진소거법 (Backward Elimination) 모든변수를포함하는완전모형으로부터시작하여불필요한변수를하나씩제거해나가는방법이다. 이방법은중요한변수가모형에서제외될가능성이적으므로비교적안전한방법이라할수있다. 그러나한번제외된변수는다시선택되지못한다는단점이있다. 단계적방법 (Stepwise Method) 전진선택법에후진소거법을결합한것으로서, 매단계마다선택과제거를반복하면서중요한변수를찾아내는방법이다. 이방법은중요한변수를하나씩추가로선택하면서이미선택된변수들이제거될수있는지를매단계마다검토하는방법이다. 그러나이방법에의해서찾아진모형도모든가능한회귀를통해서얻어진모형들보다못할수있다. 모든가능한회귀 가능한모든축소모형을고려하여가장좋은모형을찾아내는방법이다. 이방법은가장안전한방법이라고할수있지만, 입력변수가많은경우에는탐색시간이매우많이걸리며현실적으로사용하기어려운경우가종종있다. - 19 -

변수선택요약 Stepwise Selection: Step 1 Variable 4 Entered: R-Square = 0.8917 and C(p) = 73.0476 Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 1 4478.61411 4478.61411 395.19 <.0001 Error 48 543.97169 11.33274 Corrected Total 49 5022.58580 Summary of Stepwise Selection Step Variable Entered Variable Removed Label Number Vars In Partial R-Square Model R-Square C(p) F Value Pr > F 1 4 계량능력 1 0.8917 0.8917 73.0476 395.19 <.0001 2 2 단순추론능력 2 0.0617 0.9534 7.1888 62.31 <.0001 3 3 복합추론능력 3 0.0038 0.9573 4.9670 4.13 0.0478 4 1 창의력 4 0.0018 0.9591 5.0000 1.97 0.1676 5 1 창의력 3 0.0018 0.9573 4.9670 1.97 0.1676-20 -

분산분석표및회귀계수추정치 Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 3 4807.97642 1602.65881 343.52 <.0001 Error 46 214.60938 4.66542 Corrected Total 49 5022.58580 Root MSE 2.15996 R-Square 0.9573 Dependent Mean 106.62200 Adj R-Sq 0.9545 Coeff Var 2.02581 Parameter Estimates Variable Label DF Parameter Estimate Standard Error t Value Pr > t Standardized Estimate Intercept Intercept 1 73.70797 1.65288 44.59 <.0001 0 2 단순추론능력 1 0.94356 0.11274 8.37 <.0001 0.31545 3 복합추론능력 1-0.33374 0.16413-2.03 0.0478-0.07498 4 계량능력 1 0.77258 0.03927 19.68 <.0001 0.80412-21 -

차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 22 -

4.2.1 로지스틱단순회귀모형 목표변수가이항형또는다항형으로나타나는경우가있다. 예를들어, 소비자가어떤상품을구입할것인지아닌지 ( 구입 =1, 구입하지않음 =0) 를나타내는변수는이항형이고, 고객의신용등급 (A= 매우좋음, B= 좋음, C= 좋지않음, D= 매우좋지않음 ) 을나타내는변수는다항형이다. y ŷ y = 0. 1 + 0. 01 10 100 1000 0 1 1 0.2 1.1 10.1 로지스틱회귀분석 P ( y = 1 ) log 1 P ( y = 1 ) = α + β + ε - 23 -

사례 독성실험자료 번호 용량 (g) 사망유무 1 0 무 2 0 무 3 0 무 4 0 무 5 1 유 6 1 무 7 1 무 8 1 무 9 2 무 10 2 유 11 2 유 12 2 유 13 3 유 14 3 유 15 3 유 16 3 유 분석목적약의성분 사망유무 Y - 24 -

잘못된분포가정 사망유무 추측된선 : E(Y ) 1 사망 = 1 생존 = 0 0 0 1 2 3 투약용량 (g) - 25 -

P(Y =1) 용량 () 실험대상수사망수 (Y ) 사망비율 0 4 0 0 1 4 1 1/4 2 4 2 2/4 3 4 4 1 1/4 = P(Y =1) P(Y =1) 를 에의해쉽게설명한다면. - 26 -

로짓모형 logit P 1 P ( ) P = log odds = ln Probability 0 ½ 1 Odds 0 1 + Logit 0 0 + - 27 -

^ P(Y =1) 1 실제사망확률 예측사망확률 0 0 1 2 3-28 -

4.2.2 로지스틱회귀분석 오즈비 (Odds Ratio) 오즈비가 1보다작다 ( 계수가음의값을갖는다 ) 는것은입력변수 가감소방향으로영향을미침을의미하고, 반대로오즈비가 1보다크다 ( 계수가양의값을갖는다 ) 는것은증가방향으로영향을미침을의미한다. 예를들어, 월수입 ( 단위 100만원 ) 를입력변수로하고어떤상품에대한구입여부 (1= 구입, 0= 구입하지않음 ) y를목표변수로하여분석하는경우에 b=3.73 이라고해보자. 이는 가 1단위 ( 백만원 ) 증가하면구매하지않을확률에대한구매할확률의상대비가 ep(3.73)=42배증가한다는것을의미한다. - 29 -

사례 신용평가문제 대출금 대출금잔액 담보금 대출사유 직업 근무년수신용거래수 신용상태 최초신용 P( 나쁨 ) P( 좋음 ) 2300 102370 120953 HomeImp Office 2 13 0 91 0.04 0.96 2400 34863 47471 HomeImp Mgr 12 21 1 70 0.14 0.86 2400 98449 117195 HomeImp Office 4 13 0 94 0.03 0.97 2900 103949 112505 HomeImp Office 1 13 0 96 0.03 0.97 2900 104373 120702 HomeImp Office 2 13 0 102 0.03 0.97 2900 7750 67996 HomeImp Other 16 8 1 122 0.68 0.32 2900 61962 70915 DebtCon Mgr 2 37 1 283 0.19 0.81 3000 14500 HomeImp Other 3 2 1 9 3000 14100 HomeImp Other 1 19 1 104 3200 74864 87266 HomeImp ProfEe 7 12 0 251 0.08 0.92 3200 23159 HomeImp Mgr 20 9 1 118 3800 73189 0 3300 130518 164317 DebtCon Other 9 33 1 192 1.00 0.00 3600 52337 63989 HomeImp Office 20 20 0 204 0.00 1.00 3700 17857 21144 HomeImp Other 5 9 1 130 0.03 0.97 ^ P( 신용상태 = ep ( 1. 7 + 2. 3 1-0. 45 2 + ) ) = X X 1 + ep ( 1. 7 + 2. 3 X - 0. 45 X + ) 3800 51180 63459 HomeImp Office 20 20 0 204 0.00 1.00 좋음 3900 29896 45960 HomeImp Other 11 14 1 146 0.02 0.98 4000 105164 112774 HomeImp Office 1 13 0 95 0.03 0.97 4000 54543 61777 HomeImp Office 21 19 0 206 0.01 0.99 4000 26572 31960 HomeImp Office 11 8 1 118 0.10 0.90 4100 57992 63797 DebtCon ProfEe 7 31 0 166 0.22 0.78 4200 56544 59218 HomeImp Office 19 20 0 211 0.00 1.00 1 2-30 -

차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 31 -

회귀분석의특징 장점 친밀성 (familiarity) 실제성 (feasibility) 해석상의편리 (interpretability) 단점과대안 부적절하거나불필요한입력변수 : 변수선택방법사용 선형성 : 다항회귀모형, 의사결정나무분석, 신경망분석등사용 교호작용의결여 : 다항회귀모형, 의사결정나무분석등사용 명목형변수 : 가변수 (dummy variable) 사용 결측값 : 대체 (imputation) - 32 -

차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 33 -

4.4.1 분석흐름도작성 데이터소스 : HOUSING 변수 MEDV의역할칼럼을 Target으로지정한다. 변수 CHAS의레벨칼럼을 Binary로지정하고, 나머지변수들의레벨칼럼은 Interval 로지정한다. 데이터분할 (Data Partition) 노드 데이터분할 (Data Partition) 노드의속성패널에서데이터셋할당영역을분석용 70%, 평가용 30%, 검증용 0% 로설정한다. - 34 -

4.4.2 변수들의분포에대한탐색 변수편집메뉴이용 - 35 -

통계량탐색 (StatEplore) 노드 - 결과 - 36 -

멀티플롯 (Multi Plot) 노드 - 결과 - 37 -

4.4.3 회귀 (Regression) 노드의실행과결과보기 - 38 -

회귀 (Regression) 노드 - 결과 : 출력윈도우 - 39 -

차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 40 -

분석사례 - 2 를위한다이어그램 회귀노드의속성패널 - 41 -

4.5.1 변수선택방법의적용 회귀노드의속성패널 1 다이어그램에서회귀 - 변수선택노드를클릭하여이노드의속성패널이나타나게한다. 2 모델옵션 (Model Options) 영역의입력코딩 (Input Coding) 필드를 GLM 으로설정한다. 또한출력옵션영역의계획행렬 (Design Matri) 필드를 ` 예 ' 로설정한다. 3 모델선택영역의모델선택 (Selection Model) 필드를단계별선택으로설정한다. 선택옵션기본값사용 (Use Selection Defaults) 필드를 ` 아니요 ' 로설정한후, 선택옵션 (Selection Options) 필드의... 버튼을클릭한다. 그러면선택옵션 (Selection Options) 대화상자가나타난다. 4 선택옵션 (Selection Options) 대화상자에서변수추가기준유의수준 (Entry Significance Level) 필드에 0.2, 변수제거기준유의수준 (Stay Significance Level) 필드에 0.1 을입력한다. 5 최대단계수 (Maimum Number of Steps) 필드에 100 을입력한다 ( 이필드의값은반드시분석에사용될변수의수보다많거나같아야한다 ). 확인버튼을클릭하여다이어그램으로돌아간다. - 42 -

변수선택과정의요약 - 43 -

회귀계수추정치 - 44 -

범주형변수에대한코딩 : 가변수 (Dummy Variable) - 45 -

4.5.2 교호작용과이차항의추가 1 다이어그램에서회귀 - 다항노드를클릭하여속성패널이나타나게한다. 2 속성패널의방정식 (Equation) 영역에서 2 요인교호작용 (Two-Factor Interactions) 필드와다항식항 (Polynomial Terms) 필드를 ` 예 ' 로설정한다. 이는모든 2 요인교호작용과모든 2 차항들을모형에포함시키도록설정하는것이다. - 46 -

4.5.3 모형평가 - 47 -

4.5.4 예측확률계산 1 다이어그램에서모델비교 (Model Comparison) 노드를클릭하여이노드의속성패널이나타나게한다. 2 속성패널에서선택편집기필드의... 버튼을클릭한후, 회귀 - 변수선택의칼럼을 ` 예 ' 로설정하고다른두칼럼을 ` 아니오 ' 로설정하여라. 3 선택편집기를닫고, 다이어그램에서스코어 (Score) 노드를실행한다. 결과윈도우의내용을살펴보고결과윈도우를닫는다. 모델비교노드의속성패널 - 48 -

스코어 (Score) 노드 - 속성패널 스코어노드의속성패널 4 다이어그램에서스코어 (Score) 노드를클릭하여이노드의속성패널이나타나게한다. 5 속성패널의내보낸데이터필드의... 버튼을클릭한다. 그러면내보낸데이터대화상자가나타난다. 6 내보낸데이터대화상자에서포트칼럼이 SCORE 인열을선택하고탐색 (X) 버튼을클릭한다. - 49 -

스코어 (Score) 노드 - 탐색 - 50 -

차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 51 -

분석사례 -3 을위한분석흐름도 - 52 -

4.6.1 대화식구간화 : Interactive Binning 노드 - 53 -

대화식구간생성 (Interactive Binning) 노드 - 속성패널 대화식구간생성노드의속성패널 1 다이어그램의대화식구간생성 (Interactive Binning) 노드를클릭하여이노드의속성패널이나타나게한다. 2 속성패널의스코어영역에서그룹레벨 (Group Level) 필드를 Nominal로변경한다 ( 초기값 =Ordinal). 또한 Gini 임계치 (Gini Cutoff) 필드를 `0' 으로변경한다 ( 초기값 =20). 모든변수들에대하여범주화를수행 3 속성패널에서대화식범주화 (Interactive Binning) 필드의... 버튼을클릭한다 ( 대화식범주화대화상자가나타난다 ). 이대화상자에서그룹화탭을클릭한다. 4 대화식범주화대화상자에서범주 5를선택한후, 마우스오른쪽버튼을클릭하고팝업메뉴에서범주분할메뉴를선택한다. 그러면범주분할대화상자가나타난다. - 54 -

대화식범주화 : DEBTINC( 구간형변수 ) 의경우 5 범주분할대화상자에새로운임계치 `44' 를입력한다 ( 새로운범주가나타난다 ). 새로운범주를선택한후, 마우스오른쪽버튼을클릭하고팝업메뉴에서그룹 =6 메뉴를선택한다. - 55 -

대화식범주화 - 범주병합 6 그림에서와같이 2 번째범주에서 5 번째범주를동시에선택한다 ( 이들범주들은이벤트비율에큰차이가없다 ). 선택영역을마우스오른쪽버튼으로클릭한후, 팝업메뉴에서범주병합메뉴를선택한다. - 56 -

변수 DEBTINC 에대한범주화 그러면그림과같이 4 개의범주가하나로병합되게된다. 결과적으로 3 개의그룹으로범주화가수행되는데, 이를변수 DEBTINC 에대한최종범주화로사용하기로하자 (Gini 값에큰차이가없음을확인하여라 ). - 57 -

대화식범주화 : DELINQ( 범주형변수 ) 의경우 1 대화식범주화대화상자에서다음화살표를클릭한다 ( 또는선택한변수목록에서변수 DELINQ 를선택한다 ). 2 값이결측값 (missing) 과 0 인범주들을동시에선택한다. 선택영역을마우스오른쪽버튼으로클릭하고팝업메뉴에서할당메뉴를선택한다. 그룹선택대화상자에서 `1' 을선택한다. 3 값이 2 부터 15 인범주들을동시에선택한다. 선택영역을마우스오른쪽버튼으로클릭하고팝업메뉴에서할당메뉴를선택한다. 그룹선택대화상자에서 `3' 을선택한다. - 58 -

대화식범주화 : 변수 CLAGE 의경우 1 대화식범주화대화상자의선택한변수목록에서변수 CLAGE 를선택한다. 2 앞에서와유사하게분할과병합을진행하여 4 개의범주 `MISSING, CLAGE<150, 150<=CLAGE<240, 240<=CLAGE' 를구성한다. 3 `CLAGE<150' 범주를선택한후, 마우스오른쪽버튼으로클릭하고팝업메뉴에서그룹 =1 메뉴를선택한다. 이러한방식으로 MISSING 과 `CLAGE<150' 범주에그룹 1, `150<=CLAGE<240' 범주에그룹 2, `240<=CLAGE' 범주에그룹 3 을할당한다. - 59 -

4.6.2 변수들의설정변경 : Metadata 노드 메타데이터노드의속성패널 1 메타데이터 (Metadata) 노드를실행하고결과윈도우를닫는다. 2 다이어그램에서메타데이터 (Metadata) 노드를클릭하여이노드의속성패널이나타나게한다. 3 변수설정대화상자에서그림과같이각변수들에대한설정을지정한다. 목표변수 BAD의새로운역할칼럼을 Target으로설정한다. 또한새로운순서칼럼을오름차순으로설정한다. 이는목표범주를 0( 신용상태 : 좋음 ) 으로바꾸기위한것이다. 5개의구간화변수 GRP_CLAGE, GRP_DEBTINC, GRP_DELINQ, GRP_ VALUE, GRP_DEROG의새로운역할칼럼을 Input으로설정한다. 나머지 - 모든 60 변수들의 - 새로운역할칼럼을 Rejected로설정한다.

4.6.3 로지스틱회귀분석을이용한계수추정 - 61 -

4.6.4 평점표작성 사후확률추정 회귀계수추정치의보정 보정된추정치 = ( 회귀계수추정치 ) ( 가장작은회귀계수추정치 ) POD 를이용한변환 평점 = 보정된추정치 X [POD/log(2)] - 62 -

평점표작성의예 (POD=50) - 63 -

4.6.4 평점표의타당성평가 - 64 -

K-S(Kolmogrov-Smirnov) 통계량 20 이하 : 이용가치가희박한 40: 적당한 ( 이용할만한 ) 40 ~ 50: 좋은 50 ~ 60: 매우좋은 60 ~ 75: 경이로운 75 이상 : 지나치게좋은 ( 잘못된것이있는지의심할만한 ) - 65 -

민감도와특이도 - 66 -

민감도와특이도 - 67 -

ROC(Receiver Operation Characteristic) 곡선 - 68 -

모델비교 (Model Comparison) 노드 - 결과 - 69 -

모델비교 (Model Comparison) 노드 - 결과 : 테이블보기 - 70 -

차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 71 -

회귀 (Regression) 노드 - 속성패널과항편집기 회귀노드의속성패널 - 72 -