회귀분석 (Regression Analysis) 회귀분석은종속변수와독립변수들갂의관련성, 또는독립변수를 이용하여종속변수를예측하는데사용하며, 종속변수와독립변수 들의함수적관련성을이용하여분석한다.
회귀분석의목적 (1) 예측을목적 주어진독립변수를이용하여종속변수의평균값을추정할목적으로 기존의자료를이용하여회귀모형을세움 (2) 각독립변수가종속변수에미치는영향을평가 종속변수에어떤독립변수들이유의한영향을미치는지를알아보고 자할때사용하며, 동시에모형에포함된독립변수들의상대적인비 교를위하여사용함.
회귀분석에서독립변수중요도평가 자료의특성에맞는회귀분석을시행하므로서여러독립변수들의영향을동시에알아보고서로의영향을통제한후의독립적인관련성을알아볼수있다. 많이사용하는 회귀분석의종류 분류기준및검토사항 다중회귀분석 로지스틱회귀분석 조건부로지스틱회귀분석 포아송회귀분석 Cox s 비례위험회귀분석 종속변수의측정수준은어떤가? 독립변수의측정수준은어떤가? 독립변수가범주형이면가변수처리를하였는가? 독립변수들간에는다중공선성 (multicolinearity) 의문제는없는가? 다중회귀분석의기본가정을검토하였는가? 정규분포성, 선형성, 등분산성, 이상점, 모형의적합성등 로지스틱회귀분석에서종속변수의범주의수는몇개인가? 로지스틱회귀분석에서대상자가 matching 되어있는가? 사건발생에대한추적관찰된시간 ( 또는인년 person-years) 의자료인가?
회귀분석 (Regression Analysis) 원리 i 1, 2,, n y x yˆ ˆ i 0 1 1i i i 0 1 1i i ( 오차= 참값- 관측값) ~ N(0, ˆ 2 x ) 최소제곱법(method of least squares) min n n 2 2 y ˆ i yi yi 0 1x1 i i=1 i=1 Q ( ) ( ) ˆ, ˆ 을각각, 의 ' 최소제곱추정량 ' 이라한다. 0 1 0 1 : 을최소로하는
회귀분석모형구축의전략 y x age sex c 1 c 2 c k Model 1 Confounding variable : Factor C Model 2 Model 3 - 선행연구 - 1:1 단순분석에서 P-value < 0.30 Exposure Outcome
다중선형회귀분석가정 선형회귀모형을이용하여두개이상의독립변수들이연속형종속변수에영향을미치는지파악하기위한방법. 종속변수는정규분포, 독립성, 등분산성을만족한다는가정을전제로함. 독립변수들간에서는서로독립임. 자료의형태 대상종속변수독립변수 1 독립변수 2 독립변수 k 1 2 y 1 y 2 x 11 x 12 x 21 x 22 x k1 x k 2 n y n x 1n x 2n x kn
다중회귀모형의설정 통계적모형 종속변수를 y 로, k 개의독립변수를 아래와같음. 기본가정 y i 1,, n 0 x, x2,, 1 i1 where i 1, n 1 로표시하면, 다중회귀모형은 - 오차항은통계적으로독립 (Durbin-Watson) 을이루며정규분포 2 를따르고, 평균은 0 이고분산은임. x, x2,, 독립변수는비확률항 (fixed). 독립변수간에서는선형관계가존재하지않음. 1 x x k 2 x k x i2 i x ~ k ik N(0, 2 ) i
회귀모형및개별회귀계수의유의성검정 회귀모형의유의성검정 H - 통계학적가설 : - 분산분석 table 및검정통계량 0 1 2 k 0 vs H1 : : not H 제곱합자유도평균제곱합 회귀 SSR k MSR=SSR/k MSR/MSE 잔차 SSE n-k-1 MSE=SSE/(n-k-1) 전체합 SST N-1 F * 0 - 통계학적의사결정 F * 에해당되는 p-value < 0.05 귀무가설기각 개별회귀계수의유의성검정 - 가설 H : 0 vs H : 0 0 k 1 - 검정통계량및통계학적의사결정 t * ˆ k 0 s( ˆ ) * k t k, 에해당되는 p-value < 0.05 귀무가설기각
결정계수와다중회귀분석시주의사항 결정계수 (coefficient of determination ; R-square) 모형에포함된독립변수들이종속변수를얼마나잘설명하는지평가하기위한척도 R SSR SSE 1, 0 R 1, SST SST 2 2 2 n 1 adj. R 1 SSE n k SST 수정결정계수 (adjusted R-square) 다중회귀분석시주의사항 - 기본가정 ( 정규성, 독립성, 등분산성 ) 에대한검토 : 잔차분석 을이용 - 다중공선성확인 : 분산확대인자 (VIF) 를이용하여공선성이존재하는지확인가능 다중공선성의해결방안 1) 다중공선성이있는변수를회귀모형에서제외하여분석. VIF 1 1 R 2) 능형회귀 (ridge regression) 나주성분회귀 (principal component regression) 를이용 j 2 j
설명변수의선택 모수절약의원칙 (principle of parsimony) - 종속변수의예측을위한회귀모형을구축할때적용하는통계학적대원칙으로, 가능한작은수의독립변수를이용하여모형을구축해야한다는원칙. 모형구축을위한변수선택 (variable selection) 방법 - 전향적변수추가법 (Forward selection method) - 후향적변수제거법 (Backward selection method) - 단계적변수선택법 (Stepwise selection method) 변수선택방법만으로모형을구축하는것은매우위험스러운발상임. 최적의모형구축을위해서는임상적의미와통계학적의미를모두고려해야함.
가변수 (dummy variable) 를사용한회귀분석 독립변수들중에서연속형변수 ( 양적인변수 ) 외에명목형변수 ( 질적인변수 ) 가있을경우, 이에대한가변수생성 참조범주 (reference category) 를제외한 (k-1) 개 가변수에대한회귀계수의해석 - 참조범주에비해상대적으로각각의가변수가종속변수에대해얼마나영향을미치는지알아보고자하는것. - 기울기의의미가아님. - 참조범주에비해얼마나차이가나는지알려주는지표.
다중공선성 (Multicillinearity) The Effect of Multicollinearity : 다중공선성이존재하는경우회귀계수의추 정이불안해져다른독립변수와관련이있는정도에따라각각의독립변수의예측력을떨어뜨린다. 만약두개의독립변수가전혀상관성이없다면, 그들의예측력에있어서 overlap이나 sharing이없다. 그러나공선성이증가하면, 예측력에있어서 sharing이있게되고독립변수들의총괄적인예측력은감소한다. 결과적으로 R 2 를기대만큼증가시키지못한다. 또한회귀계수의추정이불안해져심한경우회귀계수의부호가바뀌는기현상이나타날수도있다.
결과의해석 Unstandardized Coefficient s Standardized Coefficients Model B Std. Error Beta t Sig. 1 (Constant) 19.032 3.202 5.944.000 mood 29.022 1.852.706 15.669.000 2 (Constant) 4.573 3.552 1.287.199 mood 24.678 1.795.600 13.749.000 szfreq 12.946 1.811.312 7.147.000 3 (Constant) 12.017 4.661 2.578.011 mood 24.423 1.780.594 13.718.000 szfreq 12.098 1.827.292 6.621.000 MRI -4.277 1.757 -.102-2.434.016 Dependent variable: Overall score of QOLIE-31
회귀모형의타당성 최적의회귀모형을확인한다음우리가해야할마지막단계는다음두가지성질을확인하는것이다. (1) 적합된회귀모형결과가일반적인모집단을대표할수있는가? (Generalizability) (2) 최적의회귀모형이사용되어지는상황에대해적젃한가? (Transferability) 이를확인하는가장좋은방법은같은주제를가지고분석한과거의타당한모형이나존재하는이론적모형과비교해보는것이다. 그러나이론이나 prior results들은이용가능하지못한경우가많으므로경험적인접근법으로모형타당성을검토한다. (1) Additional or Split Sample (2) Calculating the PRESS Statistic (3) Comparing Regression Models (4) Predicting with the Model
다중회귀분석을사용할때주의사항 o 이론적모형 (theoretical model) 과경험적모형 (empirical model) o 일반적으로회귀분석을이용하여모형구축시고려사항 1. 설명변수가범주형자료인경우 ( 가변수처리 ) 2. 다중공선성 (multicollinearity) 이있는경우 3. 연속형설명변수가반응변수와비선형 (non-linear) 관계가있을때 : 자료의변형 (transformation) 혹은연속형변수의범주화 4. 이상치 와 영향력 있는자료 (outlier & influential data) 5. 설명변수의수가많은경우의모형을구축 : cross-validation 의필요성 (-2 log L + df 축소 / 완전모형, principle of parsimony) 6. 변수선택방법 : (backward, forward, stepwise) method 7. 교호작용 (interaction effect) 의검토
SPSS 회귀분석 STEP 1: 분석 (A) 메뉴 회귀분석 (R) 선형 (L)... 선택
SPSS 회귀분석 STEP 2: 종속변수 (D) 와 독립변수 (I) 를선택한후, 방법 (M) 창에서변수선택 방법을지정하고, 통계량 (S) 을클릭하여필요한통계량을선택한다. 설정완료후, 을클릭하면회귀분석결과가출력된다.
SPSS 회귀분석 <Output>
SPSS 회귀분석 <Output>
SPSS 회귀분석 : 가변수 (Dummy Variable) 독립변수가연속변수가아닌명목변수인경우가변수 (dummy variable) 로만들어가변수를독립변수로사용하여야한다. 연령 (Age_1) 이 20대이하, 30대, 40대및 50대이상의명목변수로측정되어있다면, 아래와같이가변수생성 연령 (Age_1) 이라는명목변수대신 z1, z2, z3를독립변수로입력 가변수 z1 z2 z3 Age_1 20대이하 ( 기준범주 ) 0 0 0 30대 1 0 0 40대 0 1 0 50대이상 0 0 1
SPSS 회귀분석 : 가변수 (Dummy Variable) STEP 1: 변환 (T) 메뉴 코딩변경 (R) 새로욲변수로 (D)... 선택
SPSS 회귀분석 : 가변수 (Dummy Variable)
SPSS 회귀분석 : 가변수 (Dummy Variable)
SPSS 회귀분석 : 가변수 (Dummy Variable) <Output>
SPSS 회귀분석 : 독립변수선정방법
SPSS 회귀분석 : 전진 <Output>
SPSS 회귀분석 : 후진 <Output>
SPSS 회귀분석 : 단계선택 <Output>
공분산분석 (Analysis of Covariance) 공분산분석 (ANCOVA) 은종속변수에미치는혼란변수가있는경우독립변수에대한순수한효과를보고자할때사용한다. 이때혼란변수는종속변수와마찬가지로양적자료이다. 예를들어혈압강하제 A, B, C, D가있을때연구자는어떤혈압강하제가더욱효과적인지를알아보고자임상시험을하였다고하자. 여기서연구자가알고자하는것은혈압강하제종류에따라혈압의순수강하효과를비교하는것이될것이다. 그러나혈압은연구대상자의나이혹은약을복용하기젂의혈압에영향을받는것으로알려져있다. 따라서연구자가연구대상자들의혈압강하제복용젂의나이나혈압을고려하지않고평균을비교하게된다면혈압강하제갂의평균차이가순수히혈압강하제종류의차이때문인지, 아니면나이때문인지, 혹은약물복용젂의혈압때문인지결론을내리기어렵다. 왜냐하면시험설계상네군의연구대상자나이와혈압이모두같을수가없기때문이다.
공분산분석 (Analysis of Covariance) ANCOVA란연구대상자가기저가동일하지않거나종속변수에영향을미치리라판단되는제3의변수 ( 혼란변수 ) 를통제하고순수한독립변수의효과를검정할수있는분석법이다. 혼란변수를찾는방법은이론적으로입증된것이나종속변수와상관성이있는변수이다. 훌륭한연구설계란연구젂혼란변수를탐지하여혼란변수가연구에영향을미치는것을사젂에통제한시험설계이다. ANCOVA는혼란변수를사젂에통제하지못하였을경우사후방책으로혼란변수를통제하는분석할수있는방법이다.
공분산분석 (Analysis of Covariance) 독립변수 X 종속변수 Y 혼란변수 C 혼란변수 : - 양적자료 - 질적자료인경우 : dummy 처리할것
공분산분석예제 The Melanoma Survival Data 를이용하여나이를통제한후 Indicator 그룹갂 Survival Time 은같다고할수있겠는가 에 대하여분석해보자. 나이 (Age) 가혼란변수인지탐지 - 나이는양적자료임 - Indicator 그룹갂에나이의평균이동일한지검정 - 나이와 Survival Time 갂관렦성이있는지검정
공분산분석예제 1. Indicator 그룹갂나이의평균 유의한차이가있음 (p=0.002) 기술통계 Age 1 2 3 합계 Age 집단 - 간집단 - 내합계 평균에대한 95% 신뢰 구간 N 평균 표준편차 표준오차 하한값 상한값 최소값 최대값 57 55.09 17.908 2.372 50.34 59.84 14 95 134 50.01 15.917 1.375 47.29 52.73 4 84 14 65.29 10.901 2.913 58.99 71.58 49 86 205 52.46분산분석 16.672 1.164 50.17 54.76 4 95 제곱합 자유도 평균제곱 F 유의확률 3502.565 2 1751.282 6.650.002 53198.411 202 263.358 56700.976 204 2. 나이와 Survival Time 갂상관분석 유의한관렦성이있음 (r=0.301 ** ) 상관계수 Sur vival_time Age Pea rson 상관계수유의확률 ( 양쪽 ) N Pea rson 상관계수유의확률 ( 양쪽 ) N **. 상관계수는 0.01 수준 ( 양쪽 ) 에서유의합니다. Sur vival_time Age 1 -.301**.000 205 205 -.301** 1.000 205 205
SPSS 공분산분석 STEP 1: 분석 (A) 메뉴 일반선형모형 (G) 일변량 (U) 선택
SPSS 공분산분석 STEP 2: 종속변수 (D) 와 모수요인 (F) 또는변량요인 (A) 그리고 공변량 (C) 에 각각변수들을선택한후, 을클릭하여필요한통계량을선택한다. 설정완료후, 을클릭하면공분산분석결과가출력된다. 1 2 3 6 4 5
SPSS 공분산분석 <Output> 기술통계량 종속변수 : Surviva l_time indicator 평균 표준편차 N 1 1252.95 758.998 57 2 2619.93 948.363 134 3 1338.29 1247.805 14 합계 2152.31 1121.980 205 추정값 추정된주변평균 종속변수 : S urvival_ Time indicator 1 2 3 a. 95% 신뢰구간 평균 표준오차 하한값 상한값 1288.260 a 119.529 1052.569 1523.951 2586.878 a 78.259 2432.564 2741.192 1510.824 a 245.441 1026.855 1994.793 모형에나타나는공변량은다음값에대해계산됩니다. : Age = 52.46.
SPSS 공분산분석 <Output> ANCOVA 결과 개체 - 간효과검정 종속변수 : S urvival_time 소스 제 III 유형제곱합 자유도 평균제곱 F 유의확률 부분에타제곱 수정모형 94315023 a 3 31438341 38.890.000.367 절편 87689643 1 87689643 108.473.000.351 Age 9632501.7 1 9632501.7 11.916.001.056 indicator 70974898 2 35487449 43.898.000.304 오차 162488197 201 808398.991 합계 1.21E+009 205 수정합계 256803220 204 a. R 제곱 =.367 ( 수정된 R 제곱 =.358)
SPSS 공분산분석 <Output> 사후검정 종속변수 : S urvival_ Time Bon ferroni (I) in dicator 1 2 3 (J) indicator 2 3 1 3 1 2 *. 평균차이는.05 수준에서유의합니다. 다중비교 95% 신뢰구간 평균차이 (I-J) 표준오차 유의확률 하한값 상한값 -1366.978* 145.971.000-1719.36-1014.59-85.338 275.340 1.000-750.03 579.35 1366.978* 145.971.000 1014.59 1719.36 1281.640* 259.272.000 655.74 1907.54 85.338 275.340 1.000-579.35 750.03-1281.640* 259.272.000-1907.54-655.74
공분산분석예제 The Melanoma Survival Data 를이용하여나이, 성, Ulceration 을통제한 후 Indicator 그룹갂 Survival Time 은같다고할수있겠는가에대하여분석 해보자.
SPSS 공분산분석 개체 - 간효과검정 <Output> 종속변수 : S urvival_time 제 III 유형 부분에타 소스 제곱합 자유도 평균제곱 F 유의확률 제곱 수정모형 95284838 a 5 19056968 23.479.000.371 절편 85857861 1 85857861 105.782.000.347 639741.772 1 639741.772.788.376.004 Ulce ration gen der Age indicator 오차합계수정합계 232026.692 1 232026.692.286.593.001 9085507.5 1 9085507.5 11.194.001.053 56380098 2 28190049 34.732.000.259 161518382 199 811650.161 1.21E+009 205 256803220 204 a. R 제곱 =.371 ( 수정된 R 제곱 =.355) 분석결과 Ulceration 과 gender 는유의하지않으므로혼란변수로고려 하지않아도됨.