의학연구자료의 생존분석

Save this PDF as:
 WORD  PNG  TXT  JPG

Size: px
Start display at page:

Download "의학연구자료의 생존분석"

Transcription

1 의학연구자료의생존분석 김호 서울대학교보건대학원

2 생존분석이란? Time to an event 예 : 사망, 질병발생혹은재발, 기업도산, 재범시간, 등다양함 2 가지특성 : 시간은대부분정규분포가아님 중도절단 (censoring) 을고려해야함 연구의종료 추적의실패 Withdraw from the study (drop out) Death from unrelated causes

3 생존분석자료를 회귀분석을이용해서분석 시간, 혹은 log( 시간 ) 을종속변수로 중도절단 ( 사건이그시점이후에일어남 ) 에대한고려가없음 로지스틱회귀분석을이용해서분석 특정시점 ( 연구조종료일 ) 에서의생존여부 (1,0) 를종속변수로 생존기간이다른자료들이동일한방법으로취급됨 생존분석에서는 ( 시간, 절단 ) 두변수가종속변수로필요함

4 Make-up data Test: 1, 1, 1, 1+, 4+, 5+ Placebo: 1+, 2+, 3, 3+ (1) Ignore , (2) Delete + s :???

5 생존분석자료 Pt time delta sex age 환자 1 t 1 X 환자 2 t 2 O 환자3 환자4 t 3 t 4 O X 연구시작점 X: 사망, O: 중도절단 연구종료점

6 문제풀이 외과의사봉달휘군은 11 월 1 일부터 11 월 5 일까지막창자꼬리절제술을받은환자들에서매일아침 gas out 이있었는지문진으로확인하여 gas out 을장폐색의종료로보고수술후기능적장폐색이지속되는기간을기록하였다. 아래그림은그결과의일부를도해한것이다. 생존분석을이용하여본자료를분석하고자할때각각의자료가 complete data 인지, censored data 인지구별하고그이유를쓰시오. 또한각각의장폐색기간 (duration of ileus) 을계산하십시오.

7 문제풀이 답 ) A: censored data, Termination of the study, 4일 B: complete data (uncensored data), End with Event, 2일 C: censored data, Loss to follow up, 3일 D: censored data, Termination of the study, 1일 E: censored data, Drop-out, 1일 F: censored data, Loss to follow up, 2일

8 생존함수 T 생존시간을나타내는확률변수 t 특정시간 S( t) P( T t) 생존함수 h( t) lim P( t T t dt T t) / dt dt 0 f ( t) / S( t) 위험함수 생존함수 : 환자가 t 시간이상생존할확률 위험함수 : t 시점까지는생존했다고가정하고바로직후사망할확률

9 생존함수의이론적형태 S(0) 1, S( ) 0 실제자료에서의생존함수의추정형태 마지막시점에서 0 이아닐수도있음 : 중도절단의효과

10 생존함수들이이와같은경우, 한집단은연구종료까지피험자의 20% 에서는사건이발생하지않았음을의미 중도절단율이너무높은경우에대비해야함

11 생명표를이용한생존함수추정표본수가아주크거나구간별자료만이가능한경우 사망자수 중도절단수 (0-1] 85 0 (1-2] 32 8 (2-3] (3-4] (4-5] (5-6] (6-7] (7-8] (8-9] (9-10] (10-11] 9 18 (11-12] 5 10 (12-13] 5 7 ( (0-1] 위험그룹인원수 : 총사망자수 + 총중도절단수 = 유효인원수 = 577-0/2 =577 사망률 = 사망자수 / 유효인원수 =85/577= 생존율 =1-사망률 = 생존함수 =1 사망확률 =1- 생존함수 이전의사망자수지금의중도절단수 (1-2] 위험그룹인원수 : =492 이전의중도절단수유효인원수 = 492-8/2 =488 사망률 = 사망자수 / 유효인원수 =32/488= 생존율 =1-사망률 = 생존함수 =1*0.8527= 사망확률 =1- 생존함수 = = 생존함수는누적적으로곱해준다.

12 생명표를이용한생존함수추정 사망자수 중도절단수 (0-1] 85 0 (1-2] 32 8 (2-3] (3-4] (4-5] (5-6] (6-7] (7-8] (8-9] (9-10] (10-11] 9 18 (11-12] 5 10 (12-13] 5 7 (

13 SPSS 를이용한생명표작성 예. PBC 자료 Mayo Clinic trial in primary biliary cirrhosis (PBC) of the liver conducted between 1974 and 주요변수 : 생존시간, trt(dpenicillamine and placebo), age, sex 외에임상, 생화학지표

14 자료 : A.xls 분석 > 생존분석 > 생명표 > 시간변수, 시간간격, 상태변수

15

16

17 This subfile contains: 312 observations Life Table Survival Variable time time Number Number Number Number Cumul Intrvl Entrng Wdrawn Exposd of Propn Propn Propn Proba- Start this During to Termnl Termi- Sur- Surv bility Hazard Time Intrvl Intrvl Risk Events nating viving at End Densty Rate The median survival time for these data is

18 누적생존확률 생존함수 SE of SE of Intrvl Cumul Proba- SE of Start Sur- bility Hazard Time viving Densty Rate ,000 2,000 3,000 4,000 5,000 time

19 문제풀이 2. 다음표는 171 명의자궁암환자에대한생존자료이다. 이자료의생명표를완성하고, 생존함수그래프를그리시오. 표. 자궁암환자의생존자료

20 누적생존 자궁암환자의생존표 유효인원수 : 구간에서의위험그룹인원수에서중도절단된인원수의 1/2 을뺀수 생존함수는일정기간까지의구간생존확률의누적치이다. 즉그구간까지의각구간생존확률의곱으로구할수있다. 처음두구간의생존확률을계산해보자. 첫번째구간의위험그룹인원수와유효인원수는각각 171, 명이므로이때의생존율은 1-32/155.5= 이다. 두번째구간의위험그룹인원수는 =108 이고, 유효인원수는 /2=97 이된다. 이구간에서의사망률은 31/97= 이므로생존율은 = 이다. 두번째구간까지생존할확률은첫번째구간의생존율이 이므로 x = 이다 자궁암환자의추정된생존함수그래프 구간

21 Kaplan-Meier 곡선 ( 누적한계추정법 ) 대표적인생존함수추정법 신장이식환자호전기간자료 사망수 / 위험집단수 S(3.0)=1-1/15=0.933, S(4.0)=0.933 으로불변 S(4.5)=0.933*(1-2/13)=0.846.

22 문제풀이 3. 폐암으로새로이진단받고항암화학치료를받은 10 명환자들의생존기간이다음표와같았다. 여기서 + 로표시된것은중도절단된자료를가리킨다. 각시점에서생존함수를누적한계추정법을이용하여추정하여보시오. < 표 > 폐암환자에서항암화학치료시행후생존기간 ( 단위 : 월 ) 3.5, 4.0+, 4.5, 4.5, 5.0, 6.0, 6.4+, 6.7, 7.0, 7.5 답 ) 우선가장짧은시간인 3.5 에서의생존확률, 즉 S(3.5)=P(t>3.5)=p1 의추정치를생각해보자. 이시점에서위험그룹의인원수는 10 명이고한명이이때사망 q1( 구간생존확률 )=1-1/10=0.9 이다. 다음데이터는 4.0 에서중도절단되었으므로이환자의생존시간은 4.0 보다는크다. 따라서이시점에서의사망자수는 0 명이되어 S(4.0)=0.9 이다. 4.5 에서는이때까지생존했던 8 명중두명이사망하였으므로구간생존확률은 1-2/8=0.75 가되고이때의생존함수추정치는 S(4.5)=0.9*0.75=0.675 가된다. 이를반복하면생존함수를구할수있게된다.

23 누적생존확률 폐암환자에서항암화학치료시행후누적한계추정치 시점 생존분포의추정치 사망률 누적사망자수 남은인원수 * * 생존함수 1.0 생존함수중도절단됨 time

24 Rem 자료

25 rem.xls 파일 -> 열기 -> 데이터 -> 파일형식 ( 엑셀 ) 분석 > 생존분석 > Kaplan-Meier 생존분석 > 사건정의 (1) > 옵션 ( 그래프선택 )

26 Survival Analysis for t t Time Status Cumulative Standard Cumulative Number Survival Error Events Remaining

27 Number of Cases: 15 Censored: 3 ( 20.00%) Events: 12 Survival Time Standard Error 95% Confidence Interval Mean: ( 6.10, ) Median: ( 5.92, 8.08 ) Percentiles Value Standard Error

28 누적생존확률 생존함수 1.0 생존함수 중도절단됨 t

29 문제풀이 5. 다음은 40 명의급성심근경색환자들의 1 년생존자료로생존기간을주수로표현하였다. 2, 3, 3, 5,6, 7+, 8, 8, 9, 10, 10, 11, 11+, 12, 12, 13, 14, 14, 16, 17+, 20, 21, 23, 30, 39, 40, 40+, 42, 42, 44, 45, 46, 46,,48, 48+, 52, 52+, 52+, 52+ (+ 는중도절단자료를나타냄 ) 이자료를바탕으로 SPSS 를사용하여구한결과이다. 분석결과를보고다음물음에답하시오.

30 문제풀이

31 a) 중도절단의수는얼마인가? 8 명 b) 심근경색환자의 50% 가생존하고있는기간은몇주인가? 23 주, 95% CI (3.04, 42.96) c) 자료에서 40 명의환자중 20 명의환자가사망하지않고추적관찰되고있는시간은 17 주이다. 생존함수에서구한환자의 50% 가사망하지않고생존하고있을기간과다른이유는무엇인가? 누적한계추정치는중도절단시간에서는변하지않고사망이관찰되는시점 ti 에서 ( ni-di)/ni 를곱해준만큼씩감소하는단계함수이다. 중도절단의효과는각단계에서의크기 ni 의값에서나타나게된다. 따라서중도절단의효과를고려하지않고단순히추적관찰중인피수검자의수가 50% 남아있는것과중도절단의효과를고려한누정한계추정치에의한중위수값은다르게된다.

32 log-rank 검정 : 생존함수의비교 ( 비모수적방법 ) 흑색종환자들의생존기간 ( 단위 : 월 ) BCG 처리그룹 CP 처리그룹

33 두그룹의생존함수를총괄적으로비교하기위한가설은 Ho: S 1 (t)= S 2 (t) for all t Ha: S 1 (t) S 2 (t) for some t 두그룹을섞은후한후에서 t i t t... t 1 2 k 으로정리 사망생존계 그룹 1 D 1i N 1i -D 1i N 1i 그룹 2 D 2i N 2i -D 2i N 2i 계 D i N i -D i N i

34 t=3.9 사망생존계 BCG CP 계 t=5.4 사망 생존 계 BCG CP 계 t=7.7 사망 생존 계 BCG CP 계

35 N 1i, N 2i, D i 가고정되어있다고가정하면 D 1i 는초기하분포를따르게되고그평균과분산은 E(D 1i )=N 1i D i /N i =E k 1i 2 { ( D1 i E1 i)} V(D 1i )=V 1i i 1 T k V 귀무가설하에서 T 는자유도 1 인카이제곱분포를가지게되고, T 의값이임계치보다크게되면두그룹의생존함수가같다는귀무가설을기각하게된다. i 1 1i

36 로그 - 순위검정법은각시점에서같은가중치를준다. 대안 T k { wi ( D1 i E1 i )} i 1 k wv i 1 2 i Gehan의방법 wi Ni /( N 1) 인원수에비례 Heavy censoring 이있으면급격히감소 Peto/Prentice의방법 wi S( ti) 천천히감소한다. Tarone-Ware w N /( N 1) i i 1i 2

37 자료 : m1.xls 분석 > 생존분석 > Kaplan-Meier 생존분석 > 사건정의 (1), 요인에 group 입력, 요인비교에서로그 - 순위검정법입력 > 옵션 ( 그래프선택 )

38 Survival Analysis for t t Total Number Number Percent Events Censored Censored group group Overall Test Statistics for Equality of Survival Distributions for group Statistic df Significance Log Rank Breslow Tarone-Ware Gehan 또는 Wilcoxon

39 누적생존확률 생존함수 1.0 group 중도절단됨 중도절단됨 t

40 문제풀이 4. 급성골수구성백혈병 (AML; acute myelocytic leukemia) 을치료하기위한새로운항암제가개발되어 1 차임상시험을마치고 2 차임상시험을시행하고자한다. 환자 23 명을두군으로나누어한군에는신약을, 다른한군에는기존의항암제를투여하고일정기간관찰후생존율을이용하여항암제의효과를비교하고자한다. 생존기간을조사한결과는다음과같다 신약투여군 (11 명 ) 9,13,13+,18,23,28+,31,34,45+,48,161 기존항암제투여군 (12 명 ) 5,5,8,8,12,16+,23,27,30,33,43,45 (+ 는중도절단자료를나타냄 ) 다음은 spss 를이용하여생존분석을시행한결과이다. 치료효과의차이를설명하시오.

41 Factor 화학요법 = 기존항암제 Time Status Cumulative Standard Cumulative Number Survival Error Events Remaining 5.00 질병악화 질병악화 질병악화 질병악화 질병악화 중도절단 질병악화 질병악화 질병악화 질병악화 질병악화 질병악화 Number of Cases: 12 Censored: 1 ( 8.33%) Events: 11 Survival Time Standard Error 95% Confidence Interval Mean: ( 14.11, ) Median: (.60, ) Factor 화학요법 = 신약 Time Status Cumulative Standard Cumulative Number Survival Error Events Remaining 9.00 질병악화 질병악화 중도절단 질병악화 질병악화 중도절단 질병악화 질병악화 중도절단 질병악화 중도절단 7 0 Number of Cases: 11 Censored: 4 ( 36.36%) Events: 7 Survival Time Standard Error 95% Confidence Interval Mean: ( 13.78, ) (Limited to ) Median: ( 16.58, ) Survival Analysis for 시간생존기간 Total Number Number Percent Events Censored Censored 화학요법 기존약 화학요법 신약 Overall Test Statistics for Equality of Survival Distributions for 화학 요법 Statistic df Significance Log Rank Breslow

42 답 ) 기존항암제를사용하던군에서는한건의중도절단이있었고, 새항암제군에서는네건의중도절단이있었다. Survival time 이신약군에서더긴것으로보이나 sample size 가작아서 95% 신뢰구간이넓고 log rank test 상 p=0.065 으로확인되었다. 더많은사례를확보하면 p 값이 0.05 떨어질수도있으므로중도절단의사유가심각한부작용에의한 drop out 이아니라면추가적인연구를생각해볼수있다.

43 Cox 의비례위험회귀모형 ( 준모수적방법 ) 생존시간 T에영향을주는변수 ( 공변량 ) 들 x 1,x 2,, x k 가있을때 h( t) h ( t)exp( x... x ) k k log h( t) log h0 ( t ) 1x1... kxk h0( t) 기저위험함수 : 모든 x들이 0일때의위험함수 i번째환자와 j번째환자의위험비가시간과무관하게상수가된다. h ( t) / h ( t) exp( ( x x )... ( x x )) i j 1 i1 j1 k ik jk

44 Cox 모형의계수해석 ( 이산형 ) h ( t)/ h ( t) exp( ( x x )... ( x x )) i j 1 i1 j1 k ik jk 만약 x 1 =1 for male, 0 for female log h( t Male) log h0 ( t) 1 2x2... kxk log h( t female) log h0 ( t) 2x2... kxk for male for female h( t male) log h( t male) log h( t female) log 1 h ( t female ) h( t male) exp( 1) h( t female) Hazard Ratio 예 : Beta=0.057, HR=1.059 : 다른변수들의값들이일정할때성별만이여에서남으로변한다고하면 HR 이 5.9% 증가한다.

45 Cox 모형의계수해석 ( 연속형 ) h ( t)/ h ( t) exp( ( x x )... ( x x )) i j 1 i1 j1 k ik jk 만약 x 1 = 연령 log h( t Age x 1) log h0 ( t) 1( x 1) 2x2... kxk log h( t Age x) log h0 ( t) 1x1 2x2... kxk h( t Age x 1) log h( t Age x 1) log h( t Age x) log h( t Age x) h( t Age x 1) exp( 1) h( t Age x) Hazard Ratio 1 예 : Beta=0.027, HR=1.027 : 다른변수들의값들이일정할때연령이 1 세증가할때마다 HR 이 2.7% 증가한다.

46 PBC 자료 Mayo Clinic trial in primary biliary cirrhosis (PBC) of the liver conducted between 1974 and 주요변수 : 생존시간, trt(dpenicillamine and placebo), age, sex 외에임상, 생화학지표

47 자료 : A.xls 분석 > 생존분석 > Cox 회귀모형 > 시간변수, 상태변수, 공변량

48 케이스처리요약 N 퍼센트 분석가능한케이스사건 (a) % 중도절단 % 전체 % 삭제케이스결측케이스 0.0% a 종속변수 time: time 음의시간을갖는케이스 0.0% 계층에서가장최근사건이전까지의중도절단케이스 0.0% 전체 0.0% 전체 % Trt=1(Dpenicillamine) 이 0 에비해서위험율이높지만통계적인유의성은없다 방정식의변수 B 표준오차 Wald 자유도 유의확률 Exp(B) Exp(B) 에대한 95.0% CI 하한 상한 trt

49 방정식의변수 B 표준오차 Wald 자유도유의확률 Exp(B) Exp(B) 에대한 95.0% CI 하한상한 trt age sex edema bili

50 변환 > 변수계산로그변환 (bili, proth alb) 분석 > 생존분석 > Cox 회귀모형 > 시간변수, 상태변수, 공변량 stage ( 범주형으로표시 ) 방정식의변수 B 표준오차 Wald 자유도유의확률 Exp(B) Exp(B) 에대한 95.0% CI 하한 상한 trt age sex edema logalb logproth stage 변수이름 stage(1) 변수이름 stage(2) 변수이름 stage(3) logbili

51 변환 > 변수계산로그변환 (bili, proth alb) 분석 > 생존분석 > Cox 회귀모형 > 시간변수, 상태변수, 공변량 stage ( 범주형으로표시 ), 방법 : 전진 Wald 선택 방정식의변수 B 표준오차 Wald 자유도유의확률 Exp(B) Exp(B) 에대한 95.0% CI 단계 1 logbili 단계 2 logalb logbili 단계 3 age logalb logbili 단계 4 age logalb logproth logbili 단계 5 age edema logalb logproth logbili 하한 상한

52 Cox 모형에서의비례성검정 Plot log( log ˆ ( )) S t vs t, q 1,2,..., 0q Q If Parallel: OK Parallel but not equally spaced : transformation needed Schoenfeld residuals should be a random walk!

53 sex 0 1 Cox 모형에서의비례성검정 Log of Negative Log of SURVIVAL time Log of Negative Log of SURVIVAL trt 0 1 time

54 Cox 모형 생존자료에서다른변수들의효과를보정한후 trt 효과를볼수있는가장대표적인통계모형 Cox 모형의결과는 HR ( 위험율 ) 로해석함 비례가정은반드시확인하는것이원칙임 -> 비례가정이만족되지않을경우 time dependent covariate approach ( 예.Extended Cox 모형 )

55 생존자료분석요약 1. 생존율산출 1. 생명표법 : 표본수가많을때 (>50) 2. Kaplan-Meier method: 표본수가적을 때 (< 50) 2. 생존율비교Mantel-Haenszel method 1. Mantel-Haenszel method 2. Log-rank method 3. Gehan s generalized Wilcoxon 3. 생존기간에영향을주는인자에대한 HR 추정 Cox proportional Hazard model 1. 단변량분석 ( 평균, 표준편차, 비율등계산 ) 2. t-test, chisquare test ( 두집단비교 ) 3. 회귀분석, 로지스틱회귀 분석 ( 다른변인들의효과를보정한후의주변수효과 )

56 피험자수계산 시간형결과의비교 ( 생존분석이용 ) 모수적방법 ( 지수분포이용 ) 총사건수 D 2 ( Z Z ) 4, 2 (log( )) 위험비 예 ) 검정력 90% 를가지고위험비 2.0을 95% 유의수준의양쪽검정으로유의하게감지할수있는검정을위해서는 2 ( ) event 가필요하다. 2 (log(2.0)) 즉실험군비교군각각 44 개의사건이필요하게된다. 표 7 과동일한결과

57 시간형결과의비교 ( 생존분석이용 ) 비모수적방법 ( 로그순위검정이용 ) 단형할당의경우총사건수 2 2 ( Z Z ) ( 1) D 4 2 ( 1) 예 ) 검정력 90% 를가지고위험비 1.75를 95% 유의수준의양쪽검정으로위험비 1로부터유의하게감지할수있는검정을위해서는 (1.75 1) D= 141 event 표7 2 (1.75 1) 만약 30% 가실험종료까지사건이발생하지않는다면 (event free) ( 중도절단비, censoring rate=30%), 총표본수는 141/0.30=202 로주어진다.

58 표 7. 로그순위검정을이용한비교를위해필요한 ( 두집단의 ) 총표본수표 ( 위 : 모수적, 아래 : 비모수적방법 ) β=0.1 β=0.2 양측 α=0.05 α=0.10 α=0.05 α=

59 김호 서울대학교보건대학원 plaza.snu. ac.kr/ ~hokim -> 열린강의실 -> 수업외자료방 -> 의학연구자료의생존분석법