빅데이터분석을위한데이터마이닝방법론 SAS Enterprise Miner 활용사례를중심으로 제 4 장 회귀분석 Chapter 4 Regression Analysis
차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 2 -
회귀분석 (Regression Analysis) 반응변수 (response variable) 목표변수 (target variable) 종속변수 (dependent variable) 설명 ( 예측 ) 되어지는변수 y = f,,, ( 1 2 p ) 설명변수 (eplanatory variable) 입력변수 (input variable) 독립변수 (independent variable) 반응변수를설명 ( 예측 ) 하는데이용되는변수 회귀분석이란반응변수가설명변수들에의해어떻게설명 ( 예측 ) 되는지를알아보기위 해적절한함수식으로표현하여분석하는통계적자료분석방법 - 3 -
회귀분석의종류 선형 (linear) vs 비선형 (nonlinear) 선형회귀분석 : 반응변수와설명변수의관계를선형함수로표현 비선형회귀분석 : 반응변수와설명변수의관계가비선형 단순 (simple) vs 다중 (multiple) 단순회귀분석 : 설명변수가한개 다중회귀분석 : 설명변수가두개이상 일변량 (univariate) vs 다변량 (multivariate) 일변량회귀분석 : 반응변수가한개 다변량회귀분석 : 반응변수가두개이상 - 4 -
- 5 - 회귀분석의종류 y = α + β p p y 2 2 1 1 β β β α + + + + = 2 2 2 2 1 1 2 1 12 2 2 1 1 y δ δ γ β β α + + + + + = ) ep( 1 ) ep( m y β α β α + + + = 3 2 32 1 31 3 3 2 2 22 1 21 2 2 1 2 12 1 11 1 1 + + + + = + + + + = + + + + = p p p p p p y y y β β β α β β β α β β β α 단순선형회귀분석 다중선형회귀분석 다항회귀분석 비선형회귀분석 다변량회귀분석
회귀 (Regression) Francis Galton(1822~1911) : 아버지의키와아들의키의관계를연구 - 6 -
4.1.1 단순회귀모형 (Simple Regression) 판매대수 y i = a + b i + e i 예약대수 i y ŷ 11 19 23 26 29 30 38 39 46 49 29 33 51 40 49 50 69 70 64 89 i 25.5 37.1 42.8 47.1 51.5 52.9 64.4 65.9 76.0 80.3 y = a + b = 9. 74 + 1. 44 i - 7 -
- 8 - 회귀계수 ( 모수 ) 의추정 n i y i i i, 1,, = + + = ε β α 단순선형회귀모형 n i b a y i i i, 1,, ˆ ˆ ˆ = + = + = β α 추정된회귀직선 i i i y y e ˆ = 잔차 (residual) 최소제곱추정 (Least Square Estimation) = = = = = n i n i i i i i n i i b a y y y e Min 1 1 2 2 1 2 ) ( ) ˆ (, ) ( ) )( ( 1 2 1 = = = n i i n i i i y y b b y a =
회귀계수에대한해석과검정 H 0 : β=0 자유도 n-1 인 t- 분포를따른다. s.e.(b) 는 b 의표준오차 (standard error) 이다. - 9 -
- 10-4.1.2 다중회귀모형 (Multiple Regression) n i y i ip p i i i, 1,, 2 2 1 1 = + + + + + = ε β β β α + = n p np n p p n y y y ε ε ε β β α 2 1 1 1 2 21 1 11 2 1 1 1 1 X y X X β ε Xβ y ' ) ' ( ˆ 1 = + =
사례 영업수익평가지수 Correlation Variable Label 1 2 3 4 y 1 창의력 1.0000 2 단순추론능력 0.6010 1.0000 3 복합추론능력 0.1032 0.4208 1.0000 4 계량능력 0.3937 0.5746 0.5477 1.0000 y 영업수익평가지수 0.5310 0.7459 0.4982 0.9443 1.0000 어떤회사에서는신입사원에대해 4과목 (1= 창의력, 2= 단순추론능력, 3= 복합추론능력, 4= 계량능력 ) 의적성검사를실시하여왔다. 이회사에서는이러한적성검사과목들이사원의업무능력을평가하는데타당하지를알아보기위하여입사후일년간의실적을평가하여 업무능력지수 (y) 를산출하였다. - 11 -
분산분석표및회귀계수추정치 Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 4 4816.9644 1204.24110 263.55 <.0001 Error 45 205.6214 4.56936 Corrected Total 49 5022.5858 Root MSE 2.1376 R-Square 0.9591 Dependent Mean 106.6220 Adj R-Sq 0.9554 Coeff Var 2.0048 Parameter Estimates Variable Label DF Parameter Estimate Standard Error t Value Pr > t Standardized Estimate Intercept Intercept 1 73.15526 1.68258 43.48 <.0001 0 1 창의력 1 0.14245 0.10157 1.40 0.1676 0.05498 2 단순추론능력 1 0.84501 0.13186 6.41 <.0001 0.28250 3 복합추론능력 1-0.27220 0.16825-1.62 0.1127-0.06116 4 계량능력 1 0.76269 0.03949 19.31 <.0001 0.79383-12 -
분산분석표 (ANOVA Table) 제곱합의분할 n i= 1 ( y i y) 2 = n n 2 ( yˆ i y) + i= 1 i= 1 ( y i yˆ i ) 2 TSS = SSR + SSE 전체제곱합회귀제곱합오차제곱합 R 2 = SSR TSS = 1 SSE TSS 분산분석표 (ANOVA table) 요인 제곱합 자유도 평균제곱 분산비 회귀 SSR p MSR=SSR/p F=MSR/MSE 오차 SSE n-p-1 MSE=SSE/(n-p-1) (p-value) 전체 TSS n-1 H 0 : β1 = β2 = = β p = 0-13 -
회귀계수에대한검정 회귀계수에대한검정 H : β 0 t = b / s.e.( b ) ~ t( n p 1) 0 j = j j 표준화회귀계수 α β + β + + β + ε y * * * * * = + z z z 1 1 2 2 p p z j = ( j j ) / s j 편상관계수 (partial correlation coefficient) 혈압 0.7 월급 혈압 -0.1 월급 0.8 0.9 나이 - 14 -
예 다중회귀분석의결과 - 15 -
매개변수 (Lurking Variables) 소아마비발병률 8. 0 C2 4. 0 0. 0 2. 0 4. 0 6. 0 8. 0 10. 0 C1 청량음료판매량 - 16 -
매개변수 (Lurking Variables) correlation = 0.734 8. 0 C2 4. 0 0. 0 2. 0 4. 0 6. 0 8. 0 10. 0 C1-17 -
매개변수 (Lurking Variables) correlation = 0.734 여름 C2 8. 0 correlation = 0 4. 0 0. 0 correlation = 0.385 겨울 2. 0 4. 0 6. 0 8. 0 10. 0 C1-18 -
입력변수의선택 전진선택법 (Forward Selection) 입력변수를각변수의기여도에따라서하나씩추가하면서선택하는방법이다. 이방법은계산시간이빠르다는장점이있지만, 한번선택된변수는절대로제거되지않는다는단점이있다. 후진소거법 (Backward Elimination) 모든변수를포함하는완전모형으로부터시작하여불필요한변수를하나씩제거해나가는방법이다. 이방법은중요한변수가모형에서제외될가능성이적으므로비교적안전한방법이라할수있다. 그러나한번제외된변수는다시선택되지못한다는단점이있다. 단계적방법 (Stepwise Method) 전진선택법에후진소거법을결합한것으로서, 매단계마다선택과제거를반복하면서중요한변수를찾아내는방법이다. 이방법은중요한변수를하나씩추가로선택하면서이미선택된변수들이제거될수있는지를매단계마다검토하는방법이다. 그러나이방법에의해서찾아진모형도모든가능한회귀를통해서얻어진모형들보다못할수있다. 모든가능한회귀 가능한모든축소모형을고려하여가장좋은모형을찾아내는방법이다. 이방법은가장안전한방법이라고할수있지만, 입력변수가많은경우에는탐색시간이매우많이걸리며현실적으로사용하기어려운경우가종종있다. - 19 -
변수선택요약 Stepwise Selection: Step 1 Variable 4 Entered: R-Square = 0.8917 and C(p) = 73.0476 Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 1 4478.61411 4478.61411 395.19 <.0001 Error 48 543.97169 11.33274 Corrected Total 49 5022.58580 Summary of Stepwise Selection Step Variable Entered Variable Removed Label Number Vars In Partial R-Square Model R-Square C(p) F Value Pr > F 1 4 계량능력 1 0.8917 0.8917 73.0476 395.19 <.0001 2 2 단순추론능력 2 0.0617 0.9534 7.1888 62.31 <.0001 3 3 복합추론능력 3 0.0038 0.9573 4.9670 4.13 0.0478 4 1 창의력 4 0.0018 0.9591 5.0000 1.97 0.1676 5 1 창의력 3 0.0018 0.9573 4.9670 1.97 0.1676-20 -
분산분석표및회귀계수추정치 Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 3 4807.97642 1602.65881 343.52 <.0001 Error 46 214.60938 4.66542 Corrected Total 49 5022.58580 Root MSE 2.15996 R-Square 0.9573 Dependent Mean 106.62200 Adj R-Sq 0.9545 Coeff Var 2.02581 Parameter Estimates Variable Label DF Parameter Estimate Standard Error t Value Pr > t Standardized Estimate Intercept Intercept 1 73.70797 1.65288 44.59 <.0001 0 2 단순추론능력 1 0.94356 0.11274 8.37 <.0001 0.31545 3 복합추론능력 1-0.33374 0.16413-2.03 0.0478-0.07498 4 계량능력 1 0.77258 0.03927 19.68 <.0001 0.80412-21 -
차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 22 -
4.2.1 로지스틱단순회귀모형 목표변수가이항형또는다항형으로나타나는경우가있다. 예를들어, 소비자가어떤상품을구입할것인지아닌지 ( 구입 =1, 구입하지않음 =0) 를나타내는변수는이항형이고, 고객의신용등급 (A= 매우좋음, B= 좋음, C= 좋지않음, D= 매우좋지않음 ) 을나타내는변수는다항형이다. y ŷ y = 0. 1 + 0. 01 10 100 1000 0 1 1 0.2 1.1 10.1 로지스틱회귀분석 P ( y = 1 ) log 1 P ( y = 1 ) = α + β + ε - 23 -
사례 독성실험자료 번호 용량 (g) 사망유무 1 0 무 2 0 무 3 0 무 4 0 무 5 1 유 6 1 무 7 1 무 8 1 무 9 2 무 10 2 유 11 2 유 12 2 유 13 3 유 14 3 유 15 3 유 16 3 유 분석목적약의성분 사망유무 Y - 24 -
잘못된분포가정 사망유무 추측된선 : E(Y ) 1 사망 = 1 생존 = 0 0 0 1 2 3 투약용량 (g) - 25 -
P(Y =1) 용량 () 실험대상수사망수 (Y ) 사망비율 0 4 0 0 1 4 1 1/4 2 4 2 2/4 3 4 4 1 1/4 = P(Y =1) P(Y =1) 를 에의해쉽게설명한다면. - 26 -
로짓모형 logit P 1 P ( ) P = log odds = ln Probability 0 ½ 1 Odds 0 1 + Logit 0 0 + - 27 -
^ P(Y =1) 1 실제사망확률 예측사망확률 0 0 1 2 3-28 -
4.2.2 로지스틱회귀분석 오즈비 (Odds Ratio) 오즈비가 1보다작다 ( 계수가음의값을갖는다 ) 는것은입력변수 가감소방향으로영향을미침을의미하고, 반대로오즈비가 1보다크다 ( 계수가양의값을갖는다 ) 는것은증가방향으로영향을미침을의미한다. 예를들어, 월수입 ( 단위 100만원 ) 를입력변수로하고어떤상품에대한구입여부 (1= 구입, 0= 구입하지않음 ) y를목표변수로하여분석하는경우에 b=3.73 이라고해보자. 이는 가 1단위 ( 백만원 ) 증가하면구매하지않을확률에대한구매할확률의상대비가 ep(3.73)=42배증가한다는것을의미한다. - 29 -
사례 신용평가문제 대출금 대출금잔액 담보금 대출사유 직업 근무년수신용거래수 신용상태 최초신용 P( 나쁨 ) P( 좋음 ) 2300 102370 120953 HomeImp Office 2 13 0 91 0.04 0.96 2400 34863 47471 HomeImp Mgr 12 21 1 70 0.14 0.86 2400 98449 117195 HomeImp Office 4 13 0 94 0.03 0.97 2900 103949 112505 HomeImp Office 1 13 0 96 0.03 0.97 2900 104373 120702 HomeImp Office 2 13 0 102 0.03 0.97 2900 7750 67996 HomeImp Other 16 8 1 122 0.68 0.32 2900 61962 70915 DebtCon Mgr 2 37 1 283 0.19 0.81 3000 14500 HomeImp Other 3 2 1 9 3000 14100 HomeImp Other 1 19 1 104 3200 74864 87266 HomeImp ProfEe 7 12 0 251 0.08 0.92 3200 23159 HomeImp Mgr 20 9 1 118 3800 73189 0 3300 130518 164317 DebtCon Other 9 33 1 192 1.00 0.00 3600 52337 63989 HomeImp Office 20 20 0 204 0.00 1.00 3700 17857 21144 HomeImp Other 5 9 1 130 0.03 0.97 ^ P( 신용상태 = ep ( 1. 7 + 2. 3 1-0. 45 2 + ) ) = X X 1 + ep ( 1. 7 + 2. 3 X - 0. 45 X + ) 3800 51180 63459 HomeImp Office 20 20 0 204 0.00 1.00 좋음 3900 29896 45960 HomeImp Other 11 14 1 146 0.02 0.98 4000 105164 112774 HomeImp Office 1 13 0 95 0.03 0.97 4000 54543 61777 HomeImp Office 21 19 0 206 0.01 0.99 4000 26572 31960 HomeImp Office 11 8 1 118 0.10 0.90 4100 57992 63797 DebtCon ProfEe 7 31 0 166 0.22 0.78 4200 56544 59218 HomeImp Office 19 20 0 211 0.00 1.00 1 2-30 -
차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 31 -
회귀분석의특징 장점 친밀성 (familiarity) 실제성 (feasibility) 해석상의편리 (interpretability) 단점과대안 부적절하거나불필요한입력변수 : 변수선택방법사용 선형성 : 다항회귀모형, 의사결정나무분석, 신경망분석등사용 교호작용의결여 : 다항회귀모형, 의사결정나무분석등사용 명목형변수 : 가변수 (dummy variable) 사용 결측값 : 대체 (imputation) - 32 -
차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 33 -
4.4.1 분석흐름도작성 데이터소스 : HOUSING 변수 MEDV의역할칼럼을 Target으로지정한다. 변수 CHAS의레벨칼럼을 Binary로지정하고, 나머지변수들의레벨칼럼은 Interval 로지정한다. 데이터분할 (Data Partition) 노드 데이터분할 (Data Partition) 노드의속성패널에서데이터셋할당영역을분석용 70%, 평가용 30%, 검증용 0% 로설정한다. - 34 -
4.4.2 변수들의분포에대한탐색 변수편집메뉴이용 - 35 -
통계량탐색 (StatEplore) 노드 - 결과 - 36 -
멀티플롯 (Multi Plot) 노드 - 결과 - 37 -
4.4.3 회귀 (Regression) 노드의실행과결과보기 - 38 -
회귀 (Regression) 노드 - 결과 : 출력윈도우 - 39 -
차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 40 -
분석사례 - 2 를위한다이어그램 회귀노드의속성패널 - 41 -
4.5.1 변수선택방법의적용 회귀노드의속성패널 1 다이어그램에서회귀 - 변수선택노드를클릭하여이노드의속성패널이나타나게한다. 2 모델옵션 (Model Options) 영역의입력코딩 (Input Coding) 필드를 GLM 으로설정한다. 또한출력옵션영역의계획행렬 (Design Matri) 필드를 ` 예 ' 로설정한다. 3 모델선택영역의모델선택 (Selection Model) 필드를단계별선택으로설정한다. 선택옵션기본값사용 (Use Selection Defaults) 필드를 ` 아니요 ' 로설정한후, 선택옵션 (Selection Options) 필드의... 버튼을클릭한다. 그러면선택옵션 (Selection Options) 대화상자가나타난다. 4 선택옵션 (Selection Options) 대화상자에서변수추가기준유의수준 (Entry Significance Level) 필드에 0.2, 변수제거기준유의수준 (Stay Significance Level) 필드에 0.1 을입력한다. 5 최대단계수 (Maimum Number of Steps) 필드에 100 을입력한다 ( 이필드의값은반드시분석에사용될변수의수보다많거나같아야한다 ). 확인버튼을클릭하여다이어그램으로돌아간다. - 42 -
변수선택과정의요약 - 43 -
회귀계수추정치 - 44 -
범주형변수에대한코딩 : 가변수 (Dummy Variable) - 45 -
4.5.2 교호작용과이차항의추가 1 다이어그램에서회귀 - 다항노드를클릭하여속성패널이나타나게한다. 2 속성패널의방정식 (Equation) 영역에서 2 요인교호작용 (Two-Factor Interactions) 필드와다항식항 (Polynomial Terms) 필드를 ` 예 ' 로설정한다. 이는모든 2 요인교호작용과모든 2 차항들을모형에포함시키도록설정하는것이다. - 46 -
4.5.3 모형평가 - 47 -
4.5.4 예측확률계산 1 다이어그램에서모델비교 (Model Comparison) 노드를클릭하여이노드의속성패널이나타나게한다. 2 속성패널에서선택편집기필드의... 버튼을클릭한후, 회귀 - 변수선택의칼럼을 ` 예 ' 로설정하고다른두칼럼을 ` 아니오 ' 로설정하여라. 3 선택편집기를닫고, 다이어그램에서스코어 (Score) 노드를실행한다. 결과윈도우의내용을살펴보고결과윈도우를닫는다. 모델비교노드의속성패널 - 48 -
스코어 (Score) 노드 - 속성패널 스코어노드의속성패널 4 다이어그램에서스코어 (Score) 노드를클릭하여이노드의속성패널이나타나게한다. 5 속성패널의내보낸데이터필드의... 버튼을클릭한다. 그러면내보낸데이터대화상자가나타난다. 6 내보낸데이터대화상자에서포트칼럼이 SCORE 인열을선택하고탐색 (X) 버튼을클릭한다. - 49 -
스코어 (Score) 노드 - 탐색 - 50 -
차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 51 -
분석사례 -3 을위한분석흐름도 - 52 -
4.6.1 대화식구간화 : Interactive Binning 노드 - 53 -
대화식구간생성 (Interactive Binning) 노드 - 속성패널 대화식구간생성노드의속성패널 1 다이어그램의대화식구간생성 (Interactive Binning) 노드를클릭하여이노드의속성패널이나타나게한다. 2 속성패널의스코어영역에서그룹레벨 (Group Level) 필드를 Nominal로변경한다 ( 초기값 =Ordinal). 또한 Gini 임계치 (Gini Cutoff) 필드를 `0' 으로변경한다 ( 초기값 =20). 모든변수들에대하여범주화를수행 3 속성패널에서대화식범주화 (Interactive Binning) 필드의... 버튼을클릭한다 ( 대화식범주화대화상자가나타난다 ). 이대화상자에서그룹화탭을클릭한다. 4 대화식범주화대화상자에서범주 5를선택한후, 마우스오른쪽버튼을클릭하고팝업메뉴에서범주분할메뉴를선택한다. 그러면범주분할대화상자가나타난다. - 54 -
대화식범주화 : DEBTINC( 구간형변수 ) 의경우 5 범주분할대화상자에새로운임계치 `44' 를입력한다 ( 새로운범주가나타난다 ). 새로운범주를선택한후, 마우스오른쪽버튼을클릭하고팝업메뉴에서그룹 =6 메뉴를선택한다. - 55 -
대화식범주화 - 범주병합 6 그림에서와같이 2 번째범주에서 5 번째범주를동시에선택한다 ( 이들범주들은이벤트비율에큰차이가없다 ). 선택영역을마우스오른쪽버튼으로클릭한후, 팝업메뉴에서범주병합메뉴를선택한다. - 56 -
변수 DEBTINC 에대한범주화 그러면그림과같이 4 개의범주가하나로병합되게된다. 결과적으로 3 개의그룹으로범주화가수행되는데, 이를변수 DEBTINC 에대한최종범주화로사용하기로하자 (Gini 값에큰차이가없음을확인하여라 ). - 57 -
대화식범주화 : DELINQ( 범주형변수 ) 의경우 1 대화식범주화대화상자에서다음화살표를클릭한다 ( 또는선택한변수목록에서변수 DELINQ 를선택한다 ). 2 값이결측값 (missing) 과 0 인범주들을동시에선택한다. 선택영역을마우스오른쪽버튼으로클릭하고팝업메뉴에서할당메뉴를선택한다. 그룹선택대화상자에서 `1' 을선택한다. 3 값이 2 부터 15 인범주들을동시에선택한다. 선택영역을마우스오른쪽버튼으로클릭하고팝업메뉴에서할당메뉴를선택한다. 그룹선택대화상자에서 `3' 을선택한다. - 58 -
대화식범주화 : 변수 CLAGE 의경우 1 대화식범주화대화상자의선택한변수목록에서변수 CLAGE 를선택한다. 2 앞에서와유사하게분할과병합을진행하여 4 개의범주 `MISSING, CLAGE<150, 150<=CLAGE<240, 240<=CLAGE' 를구성한다. 3 `CLAGE<150' 범주를선택한후, 마우스오른쪽버튼으로클릭하고팝업메뉴에서그룹 =1 메뉴를선택한다. 이러한방식으로 MISSING 과 `CLAGE<150' 범주에그룹 1, `150<=CLAGE<240' 범주에그룹 2, `240<=CLAGE' 범주에그룹 3 을할당한다. - 59 -
4.6.2 변수들의설정변경 : Metadata 노드 메타데이터노드의속성패널 1 메타데이터 (Metadata) 노드를실행하고결과윈도우를닫는다. 2 다이어그램에서메타데이터 (Metadata) 노드를클릭하여이노드의속성패널이나타나게한다. 3 변수설정대화상자에서그림과같이각변수들에대한설정을지정한다. 목표변수 BAD의새로운역할칼럼을 Target으로설정한다. 또한새로운순서칼럼을오름차순으로설정한다. 이는목표범주를 0( 신용상태 : 좋음 ) 으로바꾸기위한것이다. 5개의구간화변수 GRP_CLAGE, GRP_DEBTINC, GRP_DELINQ, GRP_ VALUE, GRP_DEROG의새로운역할칼럼을 Input으로설정한다. 나머지 - 모든 60 변수들의 - 새로운역할칼럼을 Rejected로설정한다.
4.6.3 로지스틱회귀분석을이용한계수추정 - 61 -
4.6.4 평점표작성 사후확률추정 회귀계수추정치의보정 보정된추정치 = ( 회귀계수추정치 ) ( 가장작은회귀계수추정치 ) POD 를이용한변환 평점 = 보정된추정치 X [POD/log(2)] - 62 -
평점표작성의예 (POD=50) - 63 -
4.6.4 평점표의타당성평가 - 64 -
K-S(Kolmogrov-Smirnov) 통계량 20 이하 : 이용가치가희박한 40: 적당한 ( 이용할만한 ) 40 ~ 50: 좋은 50 ~ 60: 매우좋은 60 ~ 75: 경이로운 75 이상 : 지나치게좋은 ( 잘못된것이있는지의심할만한 ) - 65 -
민감도와특이도 - 66 -
민감도와특이도 - 67 -
ROC(Receiver Operation Characteristic) 곡선 - 68 -
모델비교 (Model Comparison) 노드 - 결과 - 69 -
모델비교 (Model Comparison) 노드 - 결과 : 테이블보기 - 70 -
차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 71 -
회귀 (Regression) 노드 - 속성패널과항편집기 회귀노드의속성패널 - 72 -