슬라이드 1

Similar documents
슬라이드 1

슬라이드 1

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

슬라이드 1

제 4 장회귀분석

<352E20BAAFBCF6BCB1C5C320B1E2B9FDC0BB20C0CCBFEBC7D120C7D1B1B920C7C1B7CEBEDFB1B8C0C720B5E6C1A1B0FA20BDC7C1A120BCB3B8ED D2DB1E8C7F5C1D62E687770>

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

abstract.dvi

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Microsoft PowerPoint - IPYYUIHNPGFU

eda_ch7.doc

G Power

Microsoft Word - multiple

비선형으로의 확장

MATLAB for C/C++ Programmers

Chapter 8 단순선형회귀분석과 상관분석

슬라이드 1

제 1 절 two way ANOVA 제1절 1 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

슬라이드 1

hwp

untitled


<C8A3C5DABBEABEF720B0E6B1E2B5BFC7E220BFB9C3F820B8F0B5A8BFA120B4EBC7D120BFACB1B85FC3D6C1BE28C7D1C3A2BFB1292E687770>

선형모형_LM.pdf

슬라이드 1

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할


슬라이드 1

제 1 부 연구 개요

PowerPoint 프레젠테이션

Microsoft PowerPoint - chap_11_rep.ppt [호환 모드]

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

PowerPoint 프레젠테이션

시스템경영과 구조방정식모형분석

자료분석론 - 국민건강영양조사 분석

Microsoft PowerPoint - LM 2014s_Ch4.pptx

Microsoft PowerPoint - Info R(3) pptx

MATLAB for C/C++ Programmers

Microsoft Word - LectureNote.doc

고객관계를 리드하는 서비스 리더십 전략

<4D F736F F D20B1E2BBF3C5EBB0E85F36C0E55FC7D0BBFD2E646F6378>

자료의 이해 및 분석

Microsoft PowerPoint - MDA DA pptx

슬라이드 1

<4D F736F F D20C0C0BFEBB0E8B7AE20C1A B0AD202D20B0E8B7AEB0E6C1A6C7D E646F63>

Microsoft PowerPoint - SPSS14_모듈별 구성소개

2 / 27 목차 1. M-plus 소개 2. 중다회귀 3. 경로모형 4. 확인적요인분석 5. 구조방정식모형 6. 잠재성장모형 7. 교차지연자기회귀모형

nonpara6.PDF

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

PowerPoint 프레젠테이션

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

Microsoft PowerPoint - ANOVA pptx

methods.hwp

통계적 학습(statistical learning)

R t-..

<4D F736F F D20C0C0BFEBB0E8B7AE20C1A B0AD202D20B0E8B7AEB0E6C1A6C7D E646F63>

Chapter 7 분산분석

슬라이드 1

Microsoft Word - ch8_influence.doc

cat_data3.PDF

ASETAOOOCRKG.hwp

확률과통계 강의자료-1.hwp

untitled

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

<31372DB9DABAB4C8A32E687770>

Microsoft Word - skku_TS2.docx

자료의 이해 및 분석

ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행

22 장정규성검정과정규화변환 22.1 시각적방법 Q-Q 플롯과정규확률그림 Q-Q 플롯( 분위수- 분위수플롯, Quantile-Quantile plot) 은하나의자료셋이특정분포( 정규분 포나와이블분포등) 를따르는지또는두개의자료셋이같은모집단분포로부터나왔는지를

<C0E5B7C1BBF328BEEEB8B0C0CCB5E9C0C729202D20C3D6C1BE2E687770>

¾DÁ ÖÖ„�Àº¨Ö´ä

Microsoft PowerPoint - MDA DA pptx

슬라이드 1

4 CD Construct Special Model VI 2 nd Order Model VI 2 Note: Hands-on 1, 2 RC 1 RLC mass-spring-damper 2 2 ζ ω n (rad/sec) 2 ( ζ < 1), 1 (ζ = 1), ( ) 1

Microsoft Word - 동태적 모형.doc

임정연 이영민 1) 주저자, 숙명여자대학교인력개발정책학박사과정, 2) 교신저자, 숙명여자대학교여성 HRD 대학원부교수,

한국정책학회학회보

Microsoft Word - sbe13_reg.docx

Microsoft Word - ch2_simple.doc

(Microsoft PowerPoint - Ch21_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

Microsoft Word - SPSS_MDA_Ch6.doc

2002년 2학기 자료구조

가능한연구가설제시 가설 1 : 지지후보의선택은유권자의나이에따라차이가있을것이다. 유권자의나이는지지후보의선택에영향을미칠것이다. 유권자의나이에따라지지후보는다를것이다. 가설 2 : 유권자의사회생활만족도는지지후보의선택에영향을미칠것이다. 지지후보의선택은유권자의사회생활만족도에따라차

Microsoft Word - sbe_anova.docx

Chapter 7 분산분석

Microsoft PowerPoint - chap_11_rep.ppt [호환 모드]

( )실험계획법-머리말 ok

29-6(본문).pdf

<4D F736F F F696E74202D FC0E5B4DCB1E220BCF6BFE4BFB9C3F8205BC8A3C8AF20B8F0B5E55D>


표본재추출(resampling) 방법

2011년 제 9회 최우수상.hwp

Resampling Methods

제장 2 비모수 검정(NONPARAMETRIC ANALYSIS) ③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0 )의 기각, 채택 여부를 결정한다. 예를 들어 연구자가 연구자료의 정규성을 검정하기 위하여 유 의수준을 α = 0.05로 설정하고 SPS

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint

Microsoft Word - ch3_residual.doc

Transcription:

빅데이터분석을위한데이터마이닝방법론 SAS Enterprise Miner 활용사례를중심으로 7 주차 회귀분석 Regression Analysis 최종후, 강현철

차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 2 -

회귀분석 (Regression Analysis) 반응변수 (response variable) 목표변수 (target variable) 종속변수 (dependent variable) 설명 ( 예측 ) 되어지는변수 y f (, 2,, 1 p ) 설명변수 (eplanatory variable) 입력변수 (input variable) 독립변수 (independent variable) 반응변수를설명 ( 예측 ) 하는데이용되는변수 회귀분석이란반응변수가설명변수들에의해어떻게설명 ( 예측 ) 되는지를알아보기위 해적절한함수식으로표현하여분석하는통계적자료분석방법 - 3 -

회귀분석의종류 선형 (linear) vs 비선형 (nonlinear) 선형회귀분석 : 반응변수와설명변수의관계를선형함수로표현 비선형회귀분석 : 반응변수와설명변수의관계가비선형 단순 (simple) vs 다중 (multiple) 단순회귀분석 : 설명변수가한개 다중회귀분석 : 설명변수가두개이상 일변량 (univariate) vs 다변량 (multivariate) 일변량회귀분석 : 반응변수가한개 다변량회귀분석 : 반응변수가두개이상 - 4 -

- 5 - 회귀분석의종류 y p p y 2 2 1 1 2 2 2 2 1 1 2 1 12 2 2 1 1 y ) ep( 1 ) ep( m y 3 2 32 1 31 3 3 2 2 22 1 21 2 2 1 2 12 1 11 1 1 p p p p p p y y y 단순선형회귀분석 다중선형회귀분석 다항회귀분석 비선형회귀분석 다변량회귀분석

회귀 (Regression) Francis Galton(1822~1911) : 아버지의키와아들의키의관계를연구 - 6 -

4.1.1 단순회귀모형 (Simple Regression) 판매대수 y i = a + b i + e i 예약대수 i y yˆ 11 19 23 26 29 30 38 39 46 49 29 33 51 40 49 50 69 70 64 89 i 25.5 37.1 42.8 47.1 51.5 52.9 64.4 65.9 76.0 80.3 y = a + b = 9. 74 + 1. 44 i - 7 -

- 8 - 회귀계수 ( 모수 ) 의추정 n i y i i i, 1,, 단순선형회귀모형 n i b a y i i i, 1,, ˆ ˆ ˆ 추정된회귀직선 i i i y y e ˆ 잔차 (residual) 최소제곱추정 (Least Square Estimation) n i n i i i i i n i i b a y y y e Min 1 1 2 2 1 2 ) ( ) ˆ (, ) ( ) )( ( 1 2 1 n i i n i i i y y b b y a

회귀계수에대한해석과검정 H 0 : β=0 자유도 n-1 인 t- 분포를따른다. s.e.(b) 는 b 의표준오차 (standard error) 이다. - 9 -

- 10-4.1.2 다중회귀모형 (Multiple Regression) n i y i ip p i i i, 1,, 2 2 1 1 n p np n p p n y y y 2 1 1 1 2 21 1 11 2 1 1 1 1 X y X X β ε Xβ y ' ) ' ( ˆ 1

사례 영업수익평가지수 Correlation Variable Label 1 2 3 4 y 1 창의력 1.0000 2 단순추론능력 0.6010 1.0000 3 복합추론능력 0.1032 0.4208 1.0000 4 계량능력 0.3937 0.5746 0.5477 1.0000 y 영업수익평가지수 0.5310 0.7459 0.4982 0.9443 1.0000 어떤회사에서는신입사원에대해 4과목 (1= 창의력, 2= 단순추론능력, 3= 복합추론능력, 4= 계량능력 ) 의적성검사를실시하여왔다. 이회사에서는이러한적성검사과목들이사원의업무능력을평가하는데타당하지를알아보기위하여입사후일년간의실적을평가하여 업무능력지수 (y) 를산출하였다. - 11 -

분산분석표및회귀계수추정치 Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 4 4816.9644 1204.24110 263.55 <.0001 Error 45 205.6214 4.56936 Corrected Total 49 5022.5858 Root MSE 2.1376 R-Square 0.9591 Dependent Mean 106.6220 Adj R-Sq 0.9554 Coeff Var 2.0048 Parameter Estimates Variable Label DF Parameter Estimate Standard Error t Value Pr > t Standardized Estimate Intercept Intercept 1 73.15526 1.68258 43.48 <.0001 0 1 창의력 1 0.14245 0.10157 1.40 0.1676 0.05498 2 단순추론능력 1 0.84501 0.13186 6.41 <.0001 0.28250 3 복합추론능력 1-0.27220 0.16825-1.62 0.1127-0.06116 4 계량능력 1 0.76269 0.03949 19.31 <.0001 0.79383-12 -

분산분석표 (ANOVA Table) 제곱합의분할 n i1 ( y i y) 2 n n 2 ( yˆ i y) i1 i1 ( y i yˆ i ) 2 TSS = SSR + SSE 전체제곱합회귀제곱합오차제곱합 R 2 SSR TSS 1 SSE TSS 분산분석표 (ANOVA table) 요인 제곱합 자유도 평균제곱 분산비 회귀 SSR p MSR=SSR/p F=MSR/MSE 오차 SSE n-p-1 MSE=SSE/(n-p-1) (p-value) 전체 TSS n-1 H 0 : 1 2 p 0-13 -

회귀계수에대한검정 회귀계수에대한검정 H : 0 t b / s.e.( b ) ~ t( n p 1) 0 j j j 표준화회귀계수 * * * * * y 1 z1 2 z2 p z p z j ( j j )/ s j 편상관계수 (partial correlation coefficient) 혈압 0.7 월급 혈압 -0.1 월급 0.8 0.9 나이 - 14 -

예 다중회귀분석의결과 - 15 -

매개변수 (Lurking Variables) 소아마비발병률 8.0 C2 4.0 0.0 2.0 4.0 6.0 8.0 10.0 C1 청량음료판매량 - 16 -

매개변수 (Lurking Variables) correlation = 0.734 8.0 C2 4.0 0.0 2.0 4.0 6.0 8.0 10.0 C1-17 -

매개변수 (Lurking Variables) correlation = 0.734 여름 C2 8.0 correlation = 0 4.0 0.0 correlation = 0.385 겨울 2.0 4.0 6.0 8.0 10.0 C1-18 -

입력변수의선택 전진선택법 (Forward Selection) 입력변수를각변수의기여도에따라서하나씩추가하면서선택하는방법이다. 이방법은계산시간이빠르다는장점이있지만, 한번선택된변수는절대로제거되지않는다는단점이있다. 후진소거법 (Backward Elimination) 모든변수를포함하는완전모형으로부터시작하여불필요한변수를하나씩제거해나가는방법이다. 이방법은중요한변수가모형에서제외될가능성이적으므로비교적안전한방법이라할수있다. 그러나한번제외된변수는다시선택되지못한다는단점이있다. 단계적방법 (Stepwise Method) 전진선택법에후진소거법을결합한것으로서, 매단계마다선택과제거를반복하면서중요한변수를찾아내는방법이다. 이방법은중요한변수를하나씩추가로선택하면서이미선택된변수들이제거될수있는지를매단계마다검토하는방법이다. 그러나이방법에의해서찾아진모형도모든가능한회귀를통해서얻어진모형들보다못할수있다. 모든가능한회귀 가능한모든축소모형을고려하여가장좋은모형을찾아내는방법이다. 이방법은가장안전한방법이라고할수있지만, 입력변수가많은경우에는탐색시간이매우많이걸리며현실적으로사용하기어려운경우가종종있다. - 19 -

변수선택요약 Stepwise Selection: Step 1 Variable 4 Entered: R-Square = 0.8917 and C(p) = 73.0476 Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 1 4478.61411 4478.61411 395.19 <.0001 Error 48 543.97169 11.33274 Corrected Total 49 5022.58580 Summary of Stepwise Selection Step Variable Entered Variable Removed Label Number Vars In Partial R-Square Model R-Square C(p) F Value Pr > F 1 4 계량능력 1 0.8917 0.8917 73.0476 395.19 <.0001 2 2 단순추론능력 2 0.0617 0.9534 7.1888 62.31 <.0001 3 3 복합추론능력 3 0.0038 0.9573 4.9670 4.13 0.0478 4 1 창의력 4 0.0018 0.9591 5.0000 1.97 0.1676 5 1 창의력 3 0.0018 0.9573 4.9670 1.97 0.1676-20 -

분산분석표및회귀계수추정치 Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 3 4807.97642 1602.65881 343.52 <.0001 Error 46 214.60938 4.66542 Corrected Total 49 5022.58580 Root MSE 2.15996 R-Square 0.9573 Dependent Mean 106.62200 Adj R-Sq 0.9545 Coeff Var 2.02581 Parameter Estimates Variable Label DF Parameter Estimate Standard Error t Value Pr > t Standardized Estimate Intercept Intercept 1 73.70797 1.65288 44.59 <.0001 0 2 단순추론능력 1 0.94356 0.11274 8.37 <.0001 0.31545 3 복합추론능력 1-0.33374 0.16413-2.03 0.0478-0.07498 4 계량능력 1 0.77258 0.03927 19.68 <.0001 0.80412-21 -

차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 22 -

4.2.1 로지스틱단순회귀모형 목표변수가이항형또는다항형으로나타나는경우가있다. 예를들어, 소비자가어떤상품을구입할것인지아닌지 ( 구입 =1, 구입하지않음 =0) 를나타내는변수는이항형이고, 고객의신용등급 (A= 매우좋음, B= 좋음, C= 좋지않음, D= 매우좋지않음 ) 을나타내는변수는다항형이다. y yˆ y = 0. 1 + 0. 01 10 100 1000 0 1 1 0.2 1.1 10.1 로지스틱회귀분석 P ( y 1 ) log 1 P ( y 1 ) - 23 -

사례 독성실험자료 번호 용량 (g) 사망유무 1 0 무 2 0 무 3 0 무 4 0 무 5 1 유 6 1 무 7 1 무 8 1 무 9 2 무 10 2 유 11 2 유 12 2 유 13 3 유 14 3 유 15 3 유 16 3 유 분석목적약의성분 사망유무 Y - 24 -

잘못된분포가정 사망유무 추측된선 : E(Y ) 1 사망 = 1 생존 = 0 0 0 1 2 3 투약용량 (g) - 25 -

P(Y =1) 용량 () 실험대상수사망수 (Y ) 사망비율 0 4 0 0 1 4 1 1/4 2 4 2 2/4 3 4 4 1 1/4 = P(Y =1) P(Y =1) 를 에의해쉽게설명한다면. - 26 -

로짓모형 logit P log odds P ln 1 P Probability 0 ½ 1 Odds 0 1 + Logit 0 0 + - 27 -

^ P(Y =1) 1 실제사망확률 예측사망확률 0 0 1 2 3-28 -

4.2.2 로지스틱회귀분석 오즈비 (Odds Ratio) 오즈비가 1 보다작다 ( 계수가음의값을갖는다 ) 는것은입력변수 가감소방향으로영향을미침을의미하고, 반대로오즈비가 1 보다크다 ( 계수가양의값을갖는다 ) 는것은증가방향으로영향을미침을의미한다. 예를들어, 월수입 ( 단위 100 만원 ) 를입력변수로하고어떤상품에대한구입여부 (1= 구입, 0= 구입하지않음 ) y 를목표변수로하여분석하는경우에 b=3.73 이라고해보자. 이는 가 1 단위 ( 백만원 ) 증가하면구매하지않을확률에대한구매할확률의상대비가 ep(3.73)=42 배증가한다는것을의미한다. - 29 -

사례 신용평가문제 대출금대출금잔액담보금 대출사유직업 근무년수신용거래수신용상태최초신용거P( 나쁨 ) P( 좋음 ) 2300 102370 120953 HomeImp Office 2 13 0 91 0.04 0.96 2400 34863 47471 HomeImp Mgr 12 21 1 70 0.14 0.86 2400 98449 117195 HomeImp Office 4 13 0 94 0.03 0.97 2900 103949 112505 HomeImp Office 1 13 0 96 0.03 0.97 2900 104373 120702 HomeImp Office 2 13 0 102 0.03 0.97 2900 7750 67996 HomeImp Other 16 8 1 122 0.68 0.32 2900 61962 70915 DebtCon Mgr 2 37 1 283 0.19 0.81 3000 14500 HomeImp Other 3 2 1 9 3000 14100 HomeImp Other 1 19 1 104 3200 74864 87266 HomeImp ProfEe 7 12 0 251 0.08 0.92 3200 23159 HomeImp Mgr 20 9 1 118 3800 73189 0 3300 130518 164317 DebtCon Other 9 33 1 192 1.00 0.00 3600 52337 63989 HomeImp Office 20 20 0 204 0.00 1.00 3700 17857 21144 HomeImp Other 5 9 1 130 0.03 0.97 3800 51180 63459 HomeImp Office ep ( 120. 7 + 2. 320 1-0. 452042 + 0.00 1.00 3900 ^ ) P( 29896 45960 = HomeImp ) = X X 신용상태좋음 Other 11 14 1 146 0.02 0.98 4000 105164 112774 HomeImp Office 1 + ep ( 11. 7 + 213. 3 X 1-0 0. 4595 X 2 0.03 + ) 0.97 4000 54543 61777 HomeImp Office 21 19 0 206 0.01 0.99 4000 26572 31960 HomeImp Office 11 8 1 118 0.10 0.90 4100 57992 63797 DebtCon ProfEe 7 31 0 166 0.22 0.78 4200 56544 59218 HomeImp Office 19 20 0 211 0.00 1.00-30 -

차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 31 -

회귀분석의특징 장점 친밀성 (familiarity) 실제성 (feasibility) 해석상의편리 (interpretability) 단점과대안 부적절하거나불필요한입력변수 : 변수선택방법사용 선형성 : 다항회귀모형, 의사결정나무분석, 신경망분석등사용 교호작용의결여 : 다항회귀모형, 의사결정나무분석등사용 명목형변수 : 가변수 (dummy variable) 사용 결측값 : 대체 (imputation) - 32 -

차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 33 -

4.4.1 분석흐름도작성 데이터소스 : HOUSING 변수 MEDV의역할칼럼을 Target으로지정한다. 변수 CHAS의레벨칼럼을 Binary로지정하고, 나머지변수들의레벨칼럼은 Interval로지정한다. - 34 -

4.4.2 변수들의분포에대한탐색 변수편집메뉴이용 - 35 -

통계량탐색 (StatEplore) 노드 - 결과 - 36 -

멀티플롯 (Multi Plot) 노드 - 결과 - 37 -

4.4.3 회귀 (Regression) 노드의실행과결과보기 - 38 -

회귀 (Regression) 노드 - 결과 : 출력윈도우 - 39 -

차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 40 -

분석사례 - 2 를위한다이어그램 회귀노드의속성패널 - 41 -

4.5.1 변수선택방법의적용 회귀노드의속성패널 - 42 -

변수선택과정의요약 - 43 -

회귀계수추정치 - 44 -

범주형변수에대한코딩 : 가변수 (Dummy Variable) - 45 -

4.5.2 교호작용과이차항의추가 - 46 -

4.5.3 모형평가 - 47 -

4.5.4 예측확률계산 모델비교노드의속성패널 - 48 -

스코어 (Score) 노드 - 속성패널 스코어노드의속성패널 - 49 -

스코어 (Score) 노드 - 탐색 - 50 -

차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 51 -

분석사례 -3 을위한분석흐름도 - 52 -

4.6.1 대화식구간화 : Interactive Binning 노드 - 53 -

대화식구간생성 (Interactive Binning) 노드 - 속성패널 대화식구간생성노드의속성패널 - 54 -

대화식범주화 : DEBTINC( 구간형변수 ) 의경우 - 55 -

대화식범주화 - 범주병합 - 56 -

변수 DEBTINC 에대한범주화 - 57 -

대화식범주화 : DELINQ( 범주형변수 ) 의경우 - 58 -

대화식범주화 : 변수 CLAGE 의경우 - 59 -

4.6.2 변수들의설정변경 : Metadata 노드 메타데이터노드의속성패널 - 60 -

4.6.3 로지스틱회귀분석을이용한계수추정 - 61 -

4.6.4 평점표작성 사후확률추정 회귀계수추정치의보정 보정된추정치 = ( 회귀계수추정치 ) ( 가장작은회귀계수추정치 ) POD 를이용한변홖 평점 = 보정된추정치 X [POD/log(2)] - 62 -

평점표작성의예 - 63 -

4.6.4 평점표의타당성평가 - 64 -

K-S(Kolmogrov-Smirnov) 통계량 20 이하 : 이용가치가희박한 40: 적당한 ( 이용할만한 ) 40 ~ 50: 좋은 50 ~ 60: 매우좋은 60 ~ 75: 경이로운 75 이상 : 지나치게좋은 ( 잘못된것이있는지의심할만한 ) - 65 -

민감도와특이도 - 66 -

민감도와특이도 - 67 -

ROC(Receiver Operation Characteristic) 곡선 - 68 -

모델비교 (Model Comparison) 노드 - 결과 - 69 -

모델비교 (Model Comparison) 노드 - 결과 : 테이블보기 - 70 -

차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 - 1: 선형회귀분석 4.5 분석사례 - 2: 로지스틱회귀분석 4.6 분석사례 - 3: 신용평점표작성 4.7 연습문제 - 71 -

회귀 (Regression) 노드 - 속성패널과항편집기 회귀노드의속성패널 - 72 -