의학연구자료의생존분석 김호 서울대학교보건대학원
모집단과표본 모집단 모수 표본 추정치 Y,, 1 Yn 2 N(, ) 1 n Y Y i n i 1 n 2 1 2 ( i ) n 1 i 1 S Y Y
모수 : 가정한모형의통계적성질을완전히결정하는상수 ( 들 ) Y=a+b x 2 N(, ) 1 ( x ) exp 2 2 2 2 Y1, Y2, Yn 2 Yn, Sn
관심모수 : 연구의가설을수학적인모수로표시해야함 두집단에서평균비교 d 1 2 두집단의비율비교 r p p 1 2 p1/(1 p1) OR p /(1 p ) 2 2
생존분석이란? Time to an event 예 : 사망, 질병발생혹은재발, 기업도산, 재범시간, 등다양함 2 가지특성 : 시간은대부분정규분포가아님 중도절단 (censoring) 을고려해야함 연구의종료 추적의실패 Withdraw from the study (drop out) Death from unrelated causes
생존분석자료를 회귀분석을이용해서분석 시간, 혹은 log( 시간 ) 을종속변수로 중도절단 ( 사건이그시점이후에일어남 ) 에대한고려가없음 로지스틱회귀분석을이용해서분석 특정시점 ( 연구조종료일 ) 에서의생존여부 (1,0) 를종속변수로 생존기간이다른자료들이동일한방법으로취급됨 생존분석에서는 ( 시간, 절단 ) 두변수가종속변수로필요함
Make-up data Test: 1, 1, 1, 1+, 4+, 5+ Placebo: 1+, 2+, 3, 3+ (1) Ignore + 1 1 1 1 4 5 13 1 2 3 3 9, 6 6 4 4 (2) Delete + s :???
생존분석자료 Pt time delta sex age 환자 1 t 1 X 1 10 1 1 65 환자 2 t 2 O 2 12 0 2 70 환자3 환자4 t 3 t 4 O X 3 7 0 1 67 4 5 1 2 45 5. 6. 연구시작점 X: 사망, O: 중도절단 연구종료점
문제풀이 외과의사봉달휘군은 11 월 1 일부터 11 월 5 일까지막창자꼬리절제술을받은환자들에서매일아침 gas out 이있었는지문진으로확인하여 gas out 을장폐색의종료로보고수술후기능적장폐색이지속되는기간을기록하였다. 아래그림은그결과의일부를도해한것이다. 생존분석을이용하여본자료를분석하고자할때각각의자료가 complete data 인지, censored data 인지구별하고그이유를쓰시오. 또한각각의장폐색기간 (duration of ileus) 을계산하십시오.
문제풀이 답 ) A: censored data, Termination of the study, 4일 B: complete data (uncensored data), End with Event, 2일 C: censored data, Loss to follow up, 3일 D: censored data, Termination of the study, 1일 E: censored data, Drop-out, 1일 F: censored data, Loss to follow up, 2일
생존함수 T 생존시간을나타내는확률변수 t 특정시간 S( t) P( T t) 생존함수 h( t) lim P( t T t dt T t) / dt dt 0 f ( t) / S( t) 위험함수 생존함수 : 환자가 t 시간이상생존할확률 위험함수 : t 시점까지는생존했다고가정하고바로직후사망할확률
생존함수의이론적형태 S(0) 1, S( ) 0 실제자료에서의생존함수의추정형태 마지막시점에서 0 이아닐수도있음 : 중도절단의효과
생존함수들이이와같은경우, 한집단은연구종료까지피험자의 20% 에서는사건이발생하지않았음을의미 중도절단율이너무높은경우에대비해야함
Kaplan-Meier 곡선 ( 누적한계추정법 ) 대표적인생존함수추정법 신장이식환자호전기간자료 3.0 4.0+ 4.5 4.5 5.5 6.0 6.4 6.5 7. 0 7.5 8.4+ 10.0 10.0+ 12.0 15.0 사망수 / 위험집단수 S(3.0)=1-1/15=0.933, S(4.0)=0.933 으로불변 S(4.5)=0.933*(1-2/13)=0.846.
Rem 자료
rem.xls 파일 -> 열기 -> 데이터 -> 파일형식 ( 엑셀 ) 분석 > 생존분석 > Kaplan-Meier 생존분석 > 사건정의 (1) > 옵션 ( 그래프선택 )
Survival Analysis for t t Time Status Cumulative Standard Cumulative Number Survival Error Events Remaining 3.00 1.00.9333.0644 1 14 4.00.00 1 13 4.50 1.00 2 12 4.50 1.00.7897.1081 3 11 5.50 1.00.7179.1198 4 10 6.00 1.00.6462.1275 5 9 6.40 1.00.5744.1320 6 8 6.50 1.00.5026.1336 7 7 7.00 1.00.4308.1324 8 6 7.50 1.00.3590.1283 9 5 8.40.00 9 4 10.00 1.00.2692.1237 10 3 10.00.00 10 2 12.00 1.00.1346.1135 11 1 15.00 1.00.0000.0000 12 0
Number of Cases: 15 Censored: 3 ( 20.00%) Events: 12 Survival Time Standard Error 95% Confidence Interval Mean: 8.17 1.06 ( 6.10, 10.24 ) Median: 7.00.55 ( 5.92, 8.08 ) Percentiles 25.00 50.00 75.00 Value 12.00 7.00 5.50 Standard Error 2.28.55 1.25
누적생존확률 생존함수 1.0 생존함수 중도절단됨 0.8 0.6 0.4 0.2 0.0 2.50 5.00 7.50 10.00 12.50 15.00 t
log-rank 검정 : 생존함수의비교 ( 비모수적방법 ) 흑색종환자들의생존기간 ( 단위 : 월 ) BCG 처리그룹 33.7+ 3.9 10.5 5.4 19.5 23.8+ 7.9 16.9+ 16.6+ 33.7+ 17.1+ CP 처리그룹 8.0 26.9+ 21.4+ 18.1+ 16.0+ 6.9 11.0+ 24.8+ 23.0+ 8.3 10.8+ 12.2+ 12.5+ 24.4 7.7 14.8+ 8.2+ 8.2+ 7.8+
두그룹의생존함수를총괄적으로비교하기위한가설은 Ho: S 1 (t)= S 2 (t) for all t Ha: S 1 (t) S 2 (t) for some t 두그룹을섞은후한후에서 t i t t... t 1 2 k 으로정리 사망생존계 그룹 1 D 1i N 1i -D 1i N 1i 그룹 2 D 2i N 2i -D 2i N 2i 계 D i N i -D i N i
N 1i, N 2i, D i 가고정되어있다고가정하면 D 1i 는초기하분포를따르게되고그평균과분산은 E(D 1i )=N 1i D i /N i =E k 1i 2 { ( D1 i E1 i)} V(D 1i )=V 1i i 1 T k V 귀무가설하에서 T 는자유도 1 인카이제곱분포를가지게되고, T 의값이임계치보다크게되면두그룹의생존함수가같다는귀무가설을기각하게된다. i 1 1i
로그 - 순위검정법은각시점에서같은가중치를준다. 대안 T k { wi ( D1 i E1 i )} i 1 k wv i 1 2 i Gehan의방법 wi Ni /( N 1) 인원수에비례 Heavy censoring 이있으면급격히감소 Peto/Prentice의방법 wi S ( ti) 천천히감소한다. Tarone-Ware w N /( N 1) i i 1i 2
자료 : m1.xls 분석 > 생존분석 > Kaplan-Meier 생존분석 > 사건정의 (1), 요인에 group 입력, 요인비교에서로그 - 순위검정법입력 > 옵션 ( 그래프선택 )
Survival Analysis for t t Total Number Number Percent Events Censored Censored group 1.00 11 5 6 54.55 group 2.00 19 5 14 73.68 Overall 30 10 20 66.67 Test Statistics for Equality of Survival Distributions for group Statistic df Significance Log Rank.75 1.3873 Breslow 1.00 1.3183 Tarone-Ware.94 1.3328 Gehan 또는 Wilcoxon
누적생존확률 생존함수 1.0 group 1.00 2.00 0.8 1.00- 중도절단됨 2.00- 중도절단됨 0.6 0.4 0.2 0.0 0.00 10.00 20.00 30.00 t
문제풀이. 급성골수구성백혈병 (AML; acute myelocytic leukemia) 을치료하기위한새로운항암제가개발되어 1 차임상시험을마치고 2 차임상시험을시행하고자한다. 환자 23 명을두군으로나누어한군에는신약을, 다른한군에는기존의항암제를투여하고일정기간관찰후생존율을이용하여항암제의효과를비교하고자한다. 생존기간을조사한결과는다음과같다 신약투여군 (11 명 ) 9,13,13+,18,23,28+,31,34,45+,48,161 기존항암제투여군 (12 명 ) 5,5,8,8,12,16+,23,27,30,33,43,45 (+ 는중도절단자료를나타냄 ) 다음은 spss 를이용하여생존분석을시행한결과이다. 치료효과의차이를설명하시오.
Factor 화학요법 = 기존항암제 Time Status Cumulative Standard Cumulative Number Survival Error Events Remaining 5.00 질병악화 1 11 5.00 질병악화.8333.1076 2 10 8.00 질병악화 3 9 8.00 질병악화.6667.1361 4 8 12.00 질병악화.5833.1423 5 7 16.00 중도절단 5 6 23.00 질병악화.4861.1481 6 5 27.00 질병악화.3889.1470 7 4 30.00 질병악화.2917.1387 8 3 33.00 질병악화.1944.1219 9 2 43.00 질병악화.0972.0919 10 1 45.00 질병악화.0000.0000 11 0 Number of Cases: 12 Censored: 1 ( 8.33%) Events: 11 Survival Time Standard Error 95% Confidence Interval Mean: 22.71 4.39 ( 14.11, 31.30 ) Median: 23.00 11.43 (.60, 45.40 ) Factor 화학요법 = 신약 Time Status Cumulative Standard Cumulative Number Survival Error Events Remaining 9.00 질병악화.9091.0867 1 10 13.00 질병악화.8182.1163 2 9 13.00 중도절단 2 8 18.00 질병악화.7159.1397 3 7 23.00 질병악화.6136.1526 4 6 28.00 중도절단 4 5 31.00 질병악화.4909.1642 5 4 34.00 질병악화.3682.1627 6 3 45.00 중도절단 6 2 48.00 질병악화.1841.1535 7 1 161.00 중도절단 7 0 Number of Cases: 11 Censored: 4 ( 36.36%) Events: 7 Survival Time Standard Error 95% Confidence Interval Mean: 52.65 19.83 ( 13.78, 91.51 ) (Limited to 161.00 ) Median: 31.00 7.36 ( 16.58, 45.42 ) Survival Analysis for 시간생존기간 Total Number Number Percent Events Censored Censored 화학요법 기존약 12 11 1 8.33 화학요법 신약 11 7 4 36.36 Overall 23 18 5 21.74 Test Statistics for Equality of Survival Distributions for 화학 요법 Statistic df Significance Log Rank 3.40 1.0653 Breslow 2.72 1.0989
답 ) 기존항암제를사용하던군에서는한건의중도절단이있었고, 새항암제군에서는네건의중도절단이있었다. Survival time 이신약군에서더긴것으로보이나 sample size 가작아서 95% 신뢰구간이넓고 log rank test 상 p=0.065 으로확인되었다. 더많은사례를확보하면 p 값이 0.05 떨어질수도있으므로중도절단의사유가심각한부작용에의한 drop out 이아니라면추가적인연구를생각해볼수있다.
Cox 의비례위험회귀모형 ( 준모수적방법 ) 생존시간 T에영향을주는변수 ( 공변량 ) 들 x 1,x 2,, x k 가있을때 h( t) h ( t)exp( x... x ) 0 1 1 k k log h( t) log h0 ( t) 1x1... kxk h () t 0 기저위험함수 : 모든 x들이 0일때의위험함수 i번째환자와 j번째환자의위험비가시간과무관하게상수가된다. h ( t) / h ( t) exp( ( x x )... ( x x )) i j 1 i1 j1 k ik jk
Cox 모형의계수해석 ( 이산형 ) h ( t) / h ( t) exp( ( x x )... ( x x )) i j 1 i1 j1 k ik jk 만약 x 1 =1 for male, 0 for female log h( t Male) log h0 ( t) 1 2x2... kxk log h( t female) log h0 ( t) 2x2... kxk for male for female h( t male) log h( t male) log h( t female) log 1 h ( t female ) h( t male) exp( 1) Hazard Ratio h( t female) 예 : Beta=0.057, HR=1.059 : 다른변수들의값들이일정할때성별만이여에서남으로변한다고하면 HR 이 5.9% 증가한다.
Cox 모형의계수해석 ( 연속형 ) h ( t) / h ( t) exp( ( x x )... ( x x )) i j 1 i1 j1 k ik jk 만약 x 1 = 연령 log h( t Age x 1) log h0 ( t) 1( x 1) 2x2... kxk log h( t Age x) log h0 ( t) 1x1 2x2... kxk h( t Age x 1) log h( t Age x 1) log h( t Age x) log h( t Age x) h( t Age x 1) exp( 1) Hazard Ratio h( t Age x) 1 예 : Beta=0.027, HR=1.027 : 다른변수들의값들이일정할때연령이 1 세증가할때마다 HR 이 2.7% 증가한다.
PBC 자료 Mayo Clinic trial in primary biliary cirrhosis (PBC) of the liver conducted between 1974 and 1984. 주요변수 : 생존시간, trt(dpenicillamine and placebo), age, sex 외에임상, 생화학지표
자료 : A.xls 분석 > 생존분석 > Cox 회귀모형 > 시간변수, 상태변수, 공변량
케이스처리요약 N 퍼센트 분석가능한케이스사건 (a) 125 40.1% 중도절단 187 59.9% 전체 312 100.0% 삭제케이스결측케이스 0.0% a 종속변수 time: time 음의시간을갖는케이스 0.0% 계층에서가장최근사건이전까지의중도절단케이스 0.0% 전체 0.0% 전체 312 100.0% Trt=1(Dpenicillamine) 이 0 에비해서위험율이높지만통계적인유의성은없다 방정식의변수 B 표준오차 Wald 자유도 유의확률 Exp(B) Exp(B) 에대한 95.0% CI 하한 상한 trt.057.179.102 1.750 1.059.745 1.504
방정식의변수 B 표준오차 Wald 자유도유의확률 Exp(B) Exp(B) 에대한 95.0% CI 하한상한 trt.045.188.058 1.810 1.046.723 1.514 age.036.009 15.101 1.000 1.036 1.018 1.055 sex -.538.245 4.815 1.028.584.361.944 edema 1.642.296 30.680 1.000 5.164 2.889 9.233 bili.129.015 78.532 1.000 1.137 1.105 1.170
변환 > 변수계산로그변환 (bili, proth alb) 분석 > 생존분석 > Cox 회귀모형 > 시간변수, 상태변수, 공변량 stage ( 범주형으로표시 ) 방정식의변수 B 표준오차 Wald 자유도유의확률 Exp(B) Exp(B) 에대한 95.0% CI 하한 상한 trt -.096.186.264 1.607.909.631 1.308 age.027.009 7.904 1.005 1.027 1.008 1.046 sex -.430.257 2.798 1.094.651.393 1.077 edema.821.301 7.427 1.006 2.274 1.259 4.105 logalb -2.789.770 13.128 1.000.062.014.278 logproth 3.129 1.213 6.653 1.010 22.856 2.120 246.406 stage 4.163 3.244 변수이름 stage(1) -1.834 1.029 3.181 1.074.160.021 1.199 변수이름 stage(2) -.341.315 1.172 1.279.711.383 1.319 변수이름 stage(3) -.188.222.714 1.398.829.536 1.281 logbili.839.102 67.947 1.000 2.313 1.895 2.824
변환 > 변수계산로그변환 (bili, proth alb) 분석 > 생존분석 > Cox 회귀모형 > 시간변수, 상태변수, 공변량 stage ( 범주형으로표시 ), 방법 : 전진 Wald 선택 방정식의변수 B 표준오차 Wald 자유도유의확률 Exp(B) Exp(B) 에대한 95.0% CI 단계 1 logbili 1.085.093 135.092 1.000 2.958 2.464 3.552 단계 2 logalb -4.005.676 35.061 1.000.018.005.069 logbili.983.098 101.174 1.000 2.673 2.207 3.238 단계 3 age.036.008 18.007 1.000 1.036 1.019 1.053 logalb -3.675.670 30.103 1.000.025.007.094 logbili.999.096 107.520 1.000 2.715 2.248 3.280 단계 4 age.033.009 14.648 1.000 1.033 1.016 1.051 logalb -3.506.671 27.330 1.000.030.008.112 logproth 3.541.968 13.395 1.000 34.510 5.180 229.903 logbili.915.097 88.621 1.000 2.498 2.064 3.022 단계 5 age.033.009 14.757 1.000 1.034 1.016 1.052 edema.785.299 6.881 1.009 2.192 1.219 3.939 logalb -3.053.724 17.781 1.000.047.011.195 logproth 3.016 1.024 8.676 1.003 20.403 2.743 151.757 logbili.879.099 79.299 1.000 2.409 1.985 2.923 하한 상한
Cox 모형에서의비례성검정 Plot log( log ˆ ( )) S t vs t, q 1,2,..., 0q Q If Parallel: OK Parallel but not equally spaced : transformation needed Schoenfeld residuals should be a random walk!
sex 0 1 Cox 모형에서의비례성검정 Log of Negative Log of SURVIVAL 2 1 0-1 -2-3 -4-5 -6-7 -8 0 1000 2000 3000 4000 5000 time Log of Negative Log of SURVIVAL 1 0-1 -2-3 -4-5 -6-7 0 1000 2000 3000 4000 5000 trt 0 1 time
Cox 모형 생존자료에서다른변수들의효과를보정한후 trt 효과를볼수있는가장대표적인통계모형 Cox 모형의결과는 HR ( 위험율 ) 로해석함 비례가정은반드시확인하는것이원칙임 -> 비례가정이만족되지않을경우 time dependent covariate approach ( 예.Extended Cox 모형 )
생존자료분석요약 1. 생존율산출 1. 생명표법 : 표본수가많을때 (>50) 2. Kaplan-Meier method: 표본수가적을 때 (< 50) 2. 생존율비교Mantel-Haenszel method 1. Mantel-Haenszel method 2. Log-rank method 3. Gehan s generalized Wilcoxon 3. 생존기간에영향을주는인자에대한 HR 추정 Cox proportional Hazard model 1. 단변량분석 ( 평균, 표준편차, 비율등계산 ) 2. t-test, chisquare test ( 두집단비교 ) 3. 회귀분석, 로지스틱회귀 분석 ( 다른변인들의효과를보정한후의주변수효과 )
김호 서울대학교보건대학원 hokim@snu.ac.kr