빅데이터분석을위한데이터마이닝방법론 SAS Enterprise Miner 활용사례를중심으로 7 주차 회귀분석 Regression Analysis 최종후, 강현철
차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 2 -
회귀분석 (Regression Analysis) 반응변수 (response variable) 목표변수 (target variable) 종속변수 (dependent variable) 설명 ( 예측 ) 되어지는변수 y f (, 2,, 1 p ) 설명변수 (eplanatory variable) 입력변수 (input variable) 독립변수 (independent variable) 반응변수를설명 ( 예측 ) 하는데이용되는변수 회귀분석이란반응변수가설명변수들에의해어떻게설명 ( 예측 ) 되는지를알아보기위 해적절한함수식으로표현하여분석하는통계적자료분석방법 - 3 -
회귀분석의종류 선형 (linear) vs 비선형 (nonlinear) 선형회귀분석 : 반응변수와설명변수의관계를선형함수로표현 비선형회귀분석 : 반응변수와설명변수의관계가비선형 단순 (simple) vs 다중 (multiple) 단순회귀분석 : 설명변수가한개 다중회귀분석 : 설명변수가두개이상 일변량 (univariate) vs 다변량 (multivariate) 일변량회귀분석 : 반응변수가한개 다변량회귀분석 : 반응변수가두개이상 - 4 -
- 5 - 회귀분석의종류 y p p y 2 2 1 1 2 2 2 2 1 1 2 1 12 2 2 1 1 y ) ep( 1 ) ep( m y 3 2 32 1 31 3 3 2 2 22 1 21 2 2 1 2 12 1 11 1 1 p p p p p p y y y 단순선형회귀분석 다중선형회귀분석 다항회귀분석 비선형회귀분석 다변량회귀분석
회귀 (Regression) Francis Galton(1822~1911) : 아버지의키와아들의키의관계를연구 - 6 -
4.1.1 단순회귀모형 (Simple Regression) 판매대수 y i = a + b i + e i 예약대수 i y yˆ 11 19 23 26 29 30 38 39 46 49 29 33 51 40 49 50 69 70 64 89 i 25.5 37.1 42.8 47.1 51.5 52.9 64.4 65.9 76.0 80.3 y = a + b = 9. 74 + 1. 44 i - 7 -
- 8 - 회귀계수 ( 모수 ) 의추정 n i y i i i, 1,, 단순선형회귀모형 n i b a y i i i, 1,, ˆ ˆ ˆ 추정된회귀직선 i i i y y e ˆ 잔차 (residual) 최소제곱추정 (Least Square Estimation) n i n i i i i i n i i b a y y y e Min 1 1 2 2 1 2 ) ( ) ˆ (, ) ( ) )( ( 1 2 1 n i i n i i i y y b b y a
회귀계수에대한해석과검정 H 0 : β=0 자유도 n-1 인 t- 분포를따른다. s.e.(b) 는 b 의표준오차 (standard error) 이다. - 9 -
- 10-4.1.2 다중회귀모형 (Multiple Regression) n i y i ip p i i i, 1,, 2 2 1 1 n p np n p p n y y y 2 1 1 1 2 21 1 11 2 1 1 1 1 X y X X β ε Xβ y ' ) ' ( ˆ 1
사례 영업수익평가지수 Correlation Variable Label 1 2 3 4 y 1 창의력 1.0000 2 단순추론능력 0.6010 1.0000 3 복합추론능력 0.1032 0.4208 1.0000 4 계량능력 0.3937 0.5746 0.5477 1.0000 y 영업수익평가지수 0.5310 0.7459 0.4982 0.9443 1.0000 어떤회사에서는신입사원에대해 4과목 (1= 창의력, 2= 단순추론능력, 3= 복합추론능력, 4= 계량능력 ) 의적성검사를실시하여왔다. 이회사에서는이러한적성검사과목들이사원의업무능력을평가하는데타당하지를알아보기위하여입사후일년간의실적을평가하여 업무능력지수 (y) 를산출하였다. - 11 -
분산분석표및회귀계수추정치 Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 4 4816.9644 1204.24110 263.55 <.0001 Error 45 205.6214 4.56936 Corrected Total 49 5022.5858 Root MSE 2.1376 R-Square 0.9591 Dependent Mean 106.6220 Adj R-Sq 0.9554 Coeff Var 2.0048 Parameter Estimates Variable Label DF Parameter Estimate Standard Error t Value Pr > t Standardized Estimate Intercept Intercept 1 73.15526 1.68258 43.48 <.0001 0 1 창의력 1 0.14245 0.10157 1.40 0.1676 0.05498 2 단순추론능력 1 0.84501 0.13186 6.41 <.0001 0.28250 3 복합추론능력 1-0.27220 0.16825-1.62 0.1127-0.06116 4 계량능력 1 0.76269 0.03949 19.31 <.0001 0.79383-12 -
분산분석표 (ANOVA Table) 제곱합의분할 n i1 ( y i y) 2 n n 2 ( yˆ i y) i1 i1 ( y i yˆ i ) 2 TSS = SSR + SSE 전체제곱합회귀제곱합오차제곱합 R 2 SSR TSS 1 SSE TSS 분산분석표 (ANOVA table) 요인 제곱합 자유도 평균제곱 분산비 회귀 SSR p MSR=SSR/p F=MSR/MSE 오차 SSE n-p-1 MSE=SSE/(n-p-1) (p-value) 전체 TSS n-1 H 0 : 1 2 p 0-13 -
회귀계수에대한검정 회귀계수에대한검정 H : 0 t b / s.e.( b ) ~ t( n p 1) 0 j j j 표준화회귀계수 * * * * * y 1 z1 2 z2 p z p z j ( j j )/ s j 편상관계수 (partial correlation coefficient) 혈압 0.7 월급 혈압 -0.1 월급 0.8 0.9 나이 - 14 -
예 다중회귀분석의결과 - 15 -
매개변수 (Lurking Variables) 소아마비발병률 8.0 C2 4.0 0.0 2.0 4.0 6.0 8.0 10.0 C1 청량음료판매량 - 16 -
매개변수 (Lurking Variables) correlation = 0.734 8.0 C2 4.0 0.0 2.0 4.0 6.0 8.0 10.0 C1-17 -
매개변수 (Lurking Variables) correlation = 0.734 여름 C2 8.0 correlation = 0 4.0 0.0 correlation = 0.385 겨울 2.0 4.0 6.0 8.0 10.0 C1-18 -
입력변수의선택 전진선택법 (Forward Selection) 입력변수를각변수의기여도에따라서하나씩추가하면서선택하는방법이다. 이방법은계산시간이빠르다는장점이있지만, 한번선택된변수는절대로제거되지않는다는단점이있다. 후진소거법 (Backward Elimination) 모든변수를포함하는완전모형으로부터시작하여불필요한변수를하나씩제거해나가는방법이다. 이방법은중요한변수가모형에서제외될가능성이적으므로비교적안전한방법이라할수있다. 그러나한번제외된변수는다시선택되지못한다는단점이있다. 단계적방법 (Stepwise Method) 전진선택법에후진소거법을결합한것으로서, 매단계마다선택과제거를반복하면서중요한변수를찾아내는방법이다. 이방법은중요한변수를하나씩추가로선택하면서이미선택된변수들이제거될수있는지를매단계마다검토하는방법이다. 그러나이방법에의해서찾아진모형도모든가능한회귀를통해서얻어진모형들보다못할수있다. 모든가능한회귀 가능한모든축소모형을고려하여가장좋은모형을찾아내는방법이다. 이방법은가장안전한방법이라고할수있지만, 입력변수가많은경우에는탐색시간이매우많이걸리며현실적으로사용하기어려운경우가종종있다. - 19 -
변수선택요약 Stepwise Selection: Step 1 Variable 4 Entered: R-Square = 0.8917 and C(p) = 73.0476 Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 1 4478.61411 4478.61411 395.19 <.0001 Error 48 543.97169 11.33274 Corrected Total 49 5022.58580 Summary of Stepwise Selection Step Variable Entered Variable Removed Label Number Vars In Partial R-Square Model R-Square C(p) F Value Pr > F 1 4 계량능력 1 0.8917 0.8917 73.0476 395.19 <.0001 2 2 단순추론능력 2 0.0617 0.9534 7.1888 62.31 <.0001 3 3 복합추론능력 3 0.0038 0.9573 4.9670 4.13 0.0478 4 1 창의력 4 0.0018 0.9591 5.0000 1.97 0.1676 5 1 창의력 3 0.0018 0.9573 4.9670 1.97 0.1676-20 -
분산분석표및회귀계수추정치 Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 3 4807.97642 1602.65881 343.52 <.0001 Error 46 214.60938 4.66542 Corrected Total 49 5022.58580 Root MSE 2.15996 R-Square 0.9573 Dependent Mean 106.62200 Adj R-Sq 0.9545 Coeff Var 2.02581 Parameter Estimates Variable Label DF Parameter Estimate Standard Error t Value Pr > t Standardized Estimate Intercept Intercept 1 73.70797 1.65288 44.59 <.0001 0 2 단순추론능력 1 0.94356 0.11274 8.37 <.0001 0.31545 3 복합추론능력 1-0.33374 0.16413-2.03 0.0478-0.07498 4 계량능력 1 0.77258 0.03927 19.68 <.0001 0.80412-21 -
차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 22 -
4.2.1 로지스틱단순회귀모형 목표변수가이항형또는다항형으로나타나는경우가있다. 예를들어, 소비자가어떤상품을구입할것인지아닌지 ( 구입 =1, 구입하지않음 =0) 를나타내는변수는이항형이고, 고객의신용등급 (A= 매우좋음, B= 좋음, C= 좋지않음, D= 매우좋지않음 ) 을나타내는변수는다항형이다. y yˆ y = 0. 1 + 0. 01 10 100 1000 0 1 1 0.2 1.1 10.1 로지스틱회귀분석 P ( y 1 ) log 1 P ( y 1 ) - 23 -
사례 독성실험자료 번호 용량 (g) 사망유무 1 0 무 2 0 무 3 0 무 4 0 무 5 1 유 6 1 무 7 1 무 8 1 무 9 2 무 10 2 유 11 2 유 12 2 유 13 3 유 14 3 유 15 3 유 16 3 유 분석목적약의성분 사망유무 Y - 24 -
잘못된분포가정 사망유무 추측된선 : E(Y ) 1 사망 = 1 생존 = 0 0 0 1 2 3 투약용량 (g) - 25 -
P(Y =1) 용량 () 실험대상수사망수 (Y ) 사망비율 0 4 0 0 1 4 1 1/4 2 4 2 2/4 3 4 4 1 1/4 = P(Y =1) P(Y =1) 를 에의해쉽게설명한다면. - 26 -
로짓모형 logit P log odds P ln 1 P Probability 0 ½ 1 Odds 0 1 + Logit 0 0 + - 27 -
^ P(Y =1) 1 실제사망확률 예측사망확률 0 0 1 2 3-28 -
4.2.2 로지스틱회귀분석 오즈비 (Odds Ratio) 오즈비가 1 보다작다 ( 계수가음의값을갖는다 ) 는것은입력변수 가감소방향으로영향을미침을의미하고, 반대로오즈비가 1 보다크다 ( 계수가양의값을갖는다 ) 는것은증가방향으로영향을미침을의미한다. 예를들어, 월수입 ( 단위 100 만원 ) 를입력변수로하고어떤상품에대한구입여부 (1= 구입, 0= 구입하지않음 ) y 를목표변수로하여분석하는경우에 b=3.73 이라고해보자. 이는 가 1 단위 ( 백만원 ) 증가하면구매하지않을확률에대한구매할확률의상대비가 ep(3.73)=42 배증가한다는것을의미한다. - 29 -
사례 신용평가문제 대출금대출금잔액담보금 대출사유직업 근무년수신용거래수신용상태최초신용거P( 나쁨 ) P( 좋음 ) 2300 102370 120953 HomeImp Office 2 13 0 91 0.04 0.96 2400 34863 47471 HomeImp Mgr 12 21 1 70 0.14 0.86 2400 98449 117195 HomeImp Office 4 13 0 94 0.03 0.97 2900 103949 112505 HomeImp Office 1 13 0 96 0.03 0.97 2900 104373 120702 HomeImp Office 2 13 0 102 0.03 0.97 2900 7750 67996 HomeImp Other 16 8 1 122 0.68 0.32 2900 61962 70915 DebtCon Mgr 2 37 1 283 0.19 0.81 3000 14500 HomeImp Other 3 2 1 9 3000 14100 HomeImp Other 1 19 1 104 3200 74864 87266 HomeImp ProfEe 7 12 0 251 0.08 0.92 3200 23159 HomeImp Mgr 20 9 1 118 3800 73189 0 3300 130518 164317 DebtCon Other 9 33 1 192 1.00 0.00 3600 52337 63989 HomeImp Office 20 20 0 204 0.00 1.00 3700 17857 21144 HomeImp Other 5 9 1 130 0.03 0.97 3800 51180 63459 HomeImp Office ep ( 120. 7 + 2. 320 1-0. 452042 + 0.00 1.00 3900 ^ ) P( 29896 45960 = HomeImp ) = X X 신용상태좋음 Other 11 14 1 146 0.02 0.98 4000 105164 112774 HomeImp Office 1 + ep ( 11. 7 + 213. 3 X 1-0 0. 4595 X 2 0.03 + ) 0.97 4000 54543 61777 HomeImp Office 21 19 0 206 0.01 0.99 4000 26572 31960 HomeImp Office 11 8 1 118 0.10 0.90 4100 57992 63797 DebtCon ProfEe 7 31 0 166 0.22 0.78 4200 56544 59218 HomeImp Office 19 20 0 211 0.00 1.00-30 -
차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 31 -
회귀분석의특징 장점 친밀성 (familiarity) 실제성 (feasibility) 해석상의편리 (interpretability) 단점과대안 부적절하거나불필요한입력변수 : 변수선택방법사용 선형성 : 다항회귀모형, 의사결정나무분석, 신경망분석등사용 교호작용의결여 : 다항회귀모형, 의사결정나무분석등사용 명목형변수 : 가변수 (dummy variable) 사용 결측값 : 대체 (imputation) - 32 -
차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 33 -
4.4.1 분석흐름도작성 데이터소스 : HOUSING 변수 MEDV의역할칼럼을 Target으로지정한다. 변수 CHAS의레벨칼럼을 Binary로지정하고, 나머지변수들의레벨칼럼은 Interval로지정한다. - 34 -
4.4.2 변수들의분포에대한탐색 변수편집메뉴이용 - 35 -
통계량탐색 (StatEplore) 노드 - 결과 - 36 -
멀티플롯 (Multi Plot) 노드 - 결과 - 37 -
4.4.3 회귀 (Regression) 노드의실행과결과보기 - 38 -
회귀 (Regression) 노드 - 결과 : 출력윈도우 - 39 -
차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 40 -
분석사례 - 2 를위한다이어그램 회귀노드의속성패널 - 41 -
4.5.1 변수선택방법의적용 회귀노드의속성패널 - 42 -
변수선택과정의요약 - 43 -
회귀계수추정치 - 44 -
범주형변수에대한코딩 : 가변수 (Dummy Variable) - 45 -
4.5.2 교호작용과이차항의추가 - 46 -
4.5.3 모형평가 - 47 -
4.5.4 예측확률계산 모델비교노드의속성패널 - 48 -
스코어 (Score) 노드 - 속성패널 스코어노드의속성패널 - 49 -
스코어 (Score) 노드 - 탐색 - 50 -
차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 51 -
분석사례 -3 을위한분석흐름도 - 52 -
4.6.1 대화식구간화 : Interactive Binning 노드 - 53 -
대화식구간생성 (Interactive Binning) 노드 - 속성패널 대화식구간생성노드의속성패널 - 54 -
대화식범주화 : DEBTINC( 구간형변수 ) 의경우 - 55 -
대화식범주화 - 범주병합 - 56 -
변수 DEBTINC 에대한범주화 - 57 -
대화식범주화 : DELINQ( 범주형변수 ) 의경우 - 58 -
대화식범주화 : 변수 CLAGE 의경우 - 59 -
4.6.2 변수들의설정변경 : Metadata 노드 메타데이터노드의속성패널 - 60 -
4.6.3 로지스틱회귀분석을이용한계수추정 - 61 -
4.6.4 평점표작성 사후확률추정 회귀계수추정치의보정 보정된추정치 = ( 회귀계수추정치 ) ( 가장작은회귀계수추정치 ) POD 를이용한변홖 평점 = 보정된추정치 X [POD/log(2)] - 62 -
평점표작성의예 - 63 -
4.6.4 평점표의타당성평가 - 64 -
K-S(Kolmogrov-Smirnov) 통계량 20 이하 : 이용가치가희박한 40: 적당한 ( 이용할만한 ) 40 ~ 50: 좋은 50 ~ 60: 매우좋은 60 ~ 75: 경이로운 75 이상 : 지나치게좋은 ( 잘못된것이있는지의심할만한 ) - 65 -
민감도와특이도 - 66 -
민감도와특이도 - 67 -
ROC(Receiver Operation Characteristic) 곡선 - 68 -
모델비교 (Model Comparison) 노드 - 결과 - 69 -
모델비교 (Model Comparison) 노드 - 결과 : 테이블보기 - 70 -
차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 71 -
회귀 (Regression) 노드 - 속성패널과항편집기 회귀노드의속성패널 - 72 -