생존분석의 추정과 비교 : 보충자료 이용희 December, 8 Cotets 생존함수와 위험함수. 생존함수와 위험함수....................................... 예제: 지수분포.......................................... 예제: 와이블분포......................................... 모수의 최대가능도 추정.................................... 생명표방법을 이용한 생존함수 추정 누적한계추정법에 의한 생존함수 추정 6 비모수적 방법을 이용한 생존함수의 비교. 분할표에서 두 비율의 비교................................ 코크란-맨텔-핸젤 검정..................................... 8. 비모수적 방법을 이용한 생존함수의 비교.......................... 9
생존함수와 위험함수. 생존함수와 위험함수 확률변수 T를 생존시간이라고 하고 f (t)를 확률밀도함수라고 하자. T의 누적분포함수(cumulative distributio fuctio; CDF)는 다음과 같이 정의된다. F (t) P( T t) Z t f (t)dt 또한 생존함수(Survival fuctio)은 다음과 같이 정의된다. S(t) P( T > t) F (t) 위험함수(hazrd fuctio)의 정의는 다음과 같으며 만약 생존시간이 t 보다 클때 바로 사망할 확률을 의미하며 순간위험율이다.. h(t) lim dt P(t < T t + dt T t) dt f (t) S(t) 생존함수와 위험함수는 다음과 같은 관계를 가지고 있다. f (t) S(t) f (t) F (t) log[ F (t)] t log S(t) t h(t) 따라서 다음의 관계가 성립힌다. S(t) exp[ H (t)] 여기서 H (t) Z t 이며 H (t)를 누적위험함수라고 한다. h(t)dt
. 예제: 지수분포 만약 생존시간 T가 지수분포(Expoetial distributio)을 따른다고 하자. f (t; λ) λe λt 위에서 λ 는 흔히 사망률, 실패율(failure rate)라고 부르며 E( T ) /λ이다. 생존함수(survaival fuctio)와 위험함수(hazard fuctio)은 다음과 같이 주어진다. 만약 생존시간이 지수분포를 따른다면 위험함수는 상수 λ 이므로 S(t) P( T > t) P( T t) Z t λe λt ( e λt ) e λt h(t) f (t) S(t) λe λt /e λt λ 누적위험함수는 아래와 같다. H (t) Z t h(t)dt λt. 예제: 와이블분포 만약 생존시간이 와이블 분포(Weibull distributio)를 따른다면 확률밀도함수는 다음과 같다. " # t λ λtλ exp, f (t) θ θλ θ, λ >, t. 평균은 E( T ) θγ( + /λ) 이다. 여기서 λ 이면 지수분포가 된다. 이때 생존 함수는 다음과 같다. λ # t S(t) exp dt λ θ θ " # t λ exp. θ Z t λ λt "
또한 위험함수는 다음과 같다. f (t) S(t) h(t) h λ i exp θt h λ i exp θt λ t λ. θλ λtλ θλ 위에서 볼 수 있듯이 λ 이면 지수분포가 되고 위험함수는 상수이다. 만약에 λ > 이면 위험함수 는 시간에 따라 증가하며 λ < 이면 위험함수는 감소한다. 누적위험함수는 아래와 같다. H (t) Z t h(t)dt (t/θ )λ. 모수의 최대가능도 추정 생존시간 T, T,..., T 을 독립적으로 분포 f θ (t)에서 추출하였다고 가정하고 중도절단시간 C, C,..., C 도 독립적으로 분포 g(c)에서 추출하였다고 가정하자. 생존시간 T와 중도절단시간 C가 서로 독립이라고 가정하며 이러한 가정을 임의중도절단(radom cesorig)이라고 한다. 이제 관측한 생존시간 Xi 는 다음과 같이 정의한다. Xi mi( Ti, Ci ) i,,..., 또한 절단 표시변수 δi 는 다음과 같이 정의한다. δi Ti < Ci Ti > Ci 이제 생존시간 T의 분포 Fθ (t) 가 주어졌을 때 표본 X, X,..., X 의 가능도 함수 L 는 다음과 같이 나타낼 수 있다. L(θ; x, δ) i UC Pθ ( Ti xi ) Pθ ( Ti > xi ) i C i UC f θ ( xi ) [ Fθ ( xi )] i C 여기서 집합 UC는 실제 생존시간이 관측된 자료들, 집합 C는 중도절단된 자료을 의미한다. 모수의 최대가능도 추정은 L(θ; x, δ)를 최대로 하는 θ를 찾는 방법이다. 이제 예제로서 생존시간의 분포가 지수분포를 따른다고 가정하고 가능도함수를 구해보자.
L(λ; x, δ) Pλ ( Ti xi ) Pλ ( Ti > xi ) f λ ( xi ) [ Fλ ( xi )] i UC i UC h i C i C λe λxi iδi h e λxi i δi i λδi e λxi i λ i δi e λ i xi 이제 위의 가능도함수를 최대화하는 모수를 찾기위하여 로그가능도함수를 고려하고 i i `(λ; x, δ) log L(λ; x, δ) log λ δi λ xi 로그가능도함수를 모수 λ에 대하여 미분하고 으로 놓고 풀면 최대가능도 추정량을 구할 수 있다. δ `(λ; x, δ) i i xi λ λ i 따라서 최대가능도 추정량은 다음과 같이 주어진다. i δi i xi λ ML 만약 중도절단자료가 없다면 최대가능도 추정량은 일반적인 경우와 같이 다음과 같다. λ ML i xi 생명표방법을 이용한 생존함수 추정 시간 (, )구간을 다음과 같은 경계선을 이용하여 k + 개의 구간으로 나누었다고 가정하자. (t ) ( t, t ] ( t, t ]... ( t k, t k ] ( t k, ) 생존함수는 다음과 같은 조건부 확률의 축차식으로 구할 수 있다.
S ( ti ) p ( T > ti ) P ( T > t i T > t i ) P ( T > t i ) P ( T > t i T > t i ) P ( T > t i T > t i ) P ( T > t i ) P ( T > t i T > t i ) P ( T > t i T > t i ) P ( T > t i )... P ( T > t T > t ) P ( T > t ) 생명표방법을 이용한 생존함수 추정은 표를 이용하면 편리하다. 다음은 표를 생명표방법을 이용하여 생존함수를 추정하는 예를 보여준다. 구간 Ii 위험그룹인원수 i 사망자 수 di 중도절단 수 ci 유효인원수 i 사망율 di i 생존율 di 생존함수 추정 S (ti ) - - - - - 6 6 8 9 9 6 6... 6........6.9.9.88..6.... i 위에서 유효인원수는 다음과 같이 계산한다. ci i i 또한 생존함수의 추정식은는 조건부 확률의 축차식을 이용하여 다음과 같이 계산한다. i S (ti ) i p k k k di i 누적한계추정법에 의한 생존함수 추정 표본으로 추출한 생존시간들을 순서대로 나열한 다음 누적한계추정법은 생존함수를 다음의 식으로 추 정한다. S (t) ti t d k k δi ti t k dk k δi 다음 주어진 자료로부터 생존함수를 추정하는 방법을 알아보자. +는 중도절단된 자료를 표시한다. 9,, +, 8,,, 8+,,,,,, +,, 8,, 6+ 6
누적한계추정법은 생존함수를 다음과 같이 축차적으로 구할 수 있다. S () 9 S (9) S () 8 6 S (8) S () S () S () S (9) S () S () S (8) S () S () S () S (8).9.8..6.9..8 비모수적 방법을 이용한 생존함수의 비교. 분할표에서 두 비율의 비교 다음과 같은 분할표에서 두 비율을 비교한다고 가정하자. 처리/반응여부 반응 a c m 반응 안함 b d m 처리 과 가 서로 독립인 집단에 적용되었다면 두 집단의 반응 비율이 같다는 가설 H : p p 를 다음과 같은 통계량으로 검정할 수 있다. z p p p p ( p )(/ + / ) 위에서 p a p c p m 이 충분히 크면 귀무가설 하에서 통계량 z는 정규분포를 따르므로 z > zα/ 이면 귀무가설을 기각한다. 카이제곱 분포의 정의에 의하여 통계량 z의 제곱 χ z 은 자유도가 인 카이제곱분포를 따른다.
이때 통계량 z의 제곱은 분할표에서 동일성 검정에 대한 카이제곱 통계량(교과서 6 페이지) 과 동일하다. χ z ( ad bc) m m 만약에 귀무가설이 참이고 주변합,, m, m 가 고정되어 있다고 가정하면 첫번째 행, 첫번째 열의 값 A a의 분포는 다음과 같은 초기하분포(Hypergeometric distributio)를 따른다. P( A a) (a )(m a) (m ) 위의 초기하분포에서 A a의 기대값과 분산은 다음과 같다. E ( A) m, Var ( A) m m ( ) 따라서 다음이 성립하며 ad bc [ a E ( A)], m m ( )Var ( A) 이제 분할표에서 동일성 검정에 대한 카이제곱 통계량은 초기하분포와 다음과 같은 관계를 가진다. ( ad bc) χ z m m " a E ( A) p var ( A) #. 코크란-맨텔-핸젤 검정 교과서 - 페이지 참조 전체 자료가 다음과 같이 K 개의 분할표로 나누어 진다면 처리/반응여부 반응 k k k + 반응 안함 k k k + k+ k+ k 전체 자료에 대하여 처리의 반응률에 대한 다음과 같은 가설검정을 H : pk pk, k,,..., K vs. H : ot H 다음과 같은 코크란-맨텔-핸젤 검정 통계량(CMH 검정 통계량)으로 검정할 수 있다. 8
QCMH [ kk k kk E(k H )] kk Var (k H ) 위의 통계량에서 각 분할표에 대한 기대값과 분산은 다음과 같이 계산할 수 있다. E(k H ) k+ k+ k Var (k H ) k+ k+ k+ k+ k (k ) CMH 검정 통계량 QCMH 은 귀무가설 H 가 옳은 경우에 자유도 을 가지는 카이제곱 분포를 따른다.. 비모수적 방법을 이용한 생존함수의 비교 두 개의 독립 집단에 대하여 다음과 같이 생존시간을 관측하였다고 하자. group ( X, δ ), ( X, δ ),..., ( X, δ ) group ( X, δ ), ( X, δ ),..., ( X, δ ) 두 개의 집단에 대한 생존함수가 동일하다는 다음 가설을 고려하자. H : S 6 S H : S S 위의 가설은 두 집단의 생존시간을 모두 합쳐서 순서대로 나열하고 중도절단이 없는 자료들에서 다음과 같은 분할표를 작성한 다음 CMH-검정 통계량을 이용하여 검정할 수 있다. 처리/반응여부 사망 a c m 생존 b d m 다음과 같은 예제 자료를 고려해보자 [group ],,, 9 +, 8 [group ], 9,, +, + 두 표본을 합쳐서 순서대로 놓으면 다음과 같다. 9
,,, 9 +, 8, 9,, +, + 이제 중도절단이 없는 자료들(,,,, 8, 9, )에 대하여 각각 분할표를 작성하고 CMH검정 통계량을 계산할 수 있다. 각 분할표와 관련 통계량을 다음과 같은 표로 정리할 수 있다. X 8 9 9 8 6 m a E ( A)...8.. a E ( A)..6.6 -..8 m m / ( ) /..69..89.6 이제 다음과 같이 CMH 통계량을 계산할 수 있다. CMH χ [ ( a E ( A))] [m m /( )][ / ] 여기서 (a E ( A)). +.6 +.6. +.8. [m m /( )][ / ] ()(.) + ()(.69) + ()(.) + ()(.89) + ()(.6) + ()() + ()(). 따라서 CMH χ (.).96. 유의수준 α.에서 χ (,.9).89 <.96이므로 H 를 기각한다. 즉 두 집단의 생존 함수는 같지 않다.