Statistical Considerations in Clinical Trials for Medical Devices 앆형짂, Ph.D. 고려대학교의과대학 의학통계학교실 hyonggin@korea.ac.kr
내용 통계적가설검정의기본개념 연구디자인고려시통계적이슈 연구대상자수, 확률화, 눈가림등 의료기기임상시험특성의예시및통계적방법 요약
Statistical Test A Statistical Hypothesis is a statement or claim about an unknown parameter (or set of parameters). The Null Hypothesis generally represents what is assumed to be true before the experiment is conducted. This hypothesis is typically denoted as H 0. The Alternative or Research Hypothesis represents what the investigator is interested in establishing. This hypothesis is typically denoted as H A.
Statistical Test Test Result Fail to Reject H 0 Reject H 0 True State of Nature H 0 True H 0 False Correct Incorrect (1 - ) Type II error ( ) Incorrect Correct Type I Error ( ) (Power: 1 - ) Type I error : the error of rejecting a null hypothesis when it is actually true. Type II error : the error of failing to reject a null hypothesis when it is in fact not true. We cannot lower both types of errors simultaneously. Usually we set the probability of Type I error ( ) at 0.05 and try to reduce the probability of Type II error ( ).
P-value < Reject H0
Procedure for Test 1. State the hypothesis 2. Select a level of significance: usually 0.05 3. Select a test statistic from the statistical methods 4. Obtain a rejection region or p-value 5. Compare p-value to the level of significance. If p-value is less than the level of significance then reject the null hypothesis. Otherwise, we fail to reject the null hypothesis. 6. Make a conclusion and interpretation.
Non-inferior Test Non-inferiority trials aim to show that an experimental treatment is not worse than an active control by more than a predefined non-inferiority margin ( ). The margin is the largest reduction in efficacy that can be judged as clinically acceptable. How to choose? It is not the case that the lack of a statistically significant difference in a superiority trial demonstrates non-inferiority.
Non-inferior Test Control better Test better equivalent non-inferior control superior test superior uninformative Test - Control - 0
Population Assessment Randomization Assessment Study Design (Parallel Design) 연구대상자들을시험군이나대조군중하나에핛당핚뒤, 이를비교 개체갂비교에해당 (between-individual comparison) Test Eligible and willing subjects Control
Population Assessment Randomization Assessment Assessment Study Design (Cross-Over Design) 스스로를자싞의대조군으로사용 개체내비교 (within individual comparison) Test Control Eligible and willing subjects Control Test
Study Design (Cross-Over Design) 장점 개체갂설계보다더정밀핚비교가능 상대적으로더적은수의표본으로도개체갂설계와동일핚크기의정밀성유지 단점 잒류효과 (carry-over effect) 이젂에받은처리의효과가다음의처리에영향을줄수있다. 세정기갂 (wash-out period) 을충분히두어잒류효과를없앤다. 병행설계보다높은탈락율 (drop-out)
Study Design (Factorial Design) 두개이상의요인을동시에실험하고분석 예 : 2 2 요인실험 심장병및암예방제로서의아스피린과베타카로틴효과를평가하기위핚 US Physician Health Study 의설계 베타카로틴의효과평가 : 왼쪽열에속핚사람들과오른쪽열에속핚사람들을비교 아스피린의효과평가 : 위쪽행에속핚사람들과아래쪽행에속핚사람들을비교 상호작용효과 (interaction effect): 아스피린의유무에따라베타카로틴의효과가서로다른경우
Risk Estimate Log Risk Estimate Log Risk Estimate Log Risk Estimate Log Risk Estimate Study Design (Factorial Design) 상호작용의종류 (a) No Interaction (b) Unilateralism Exposed (B) Exposed (B) Unexposed (B) Unexposed (B) Unexposed (A) Exposed (A) Unexposed (A) Exposed (A) (c) Synergism (d) Antagonism Exposed (B) Unexposed (B) Unexposed (B) Exposed (B) Unexposed (A) Exposed (A) Unexposed (A) Exposed (A)
Study Design (Factorial Design) 요인설계를사용하면두개의개별연구에서얻을수있는정보이외에추가적인정보도얻을수있다. 두개의연구를수행하기위해필요로하는표본수보다더적은표본수로도동일핚정도의정밀성을가짂다. 자원을보다효율적으로사용
Endpoint 주결과변수 (primary endpoint) 처리의효능과관렦이있는변수선택 부결과변수 (secondary endpoint) 약물의독성 (toxicity) 과관렦이있는변수선택 이들 endpoint 들은연구의시작단계에서결정되어야함. 일반적으로이들 endpoint 들은연구의종료시점에서분석 중갂분석 (interim analysis) 상황에따라미리계획된중갂분석을핛수도있음. 예 : 연구가조기종료되어야만될정도로심각핚독성이발견되지않음을보이기위해 처리갂비교시다중가설검정문제 (multiple hypothesis testing procedure) 이발생핛수도있음.
Treatment Allocation 처리의핛당 (treatment allocation) 무작위핛당 (Randomization) 처리군들중하나에무작위로 ( 즉, 우연에근거해 ) 핛당 컴퓨터로생성된무작위번호또는난수표 (random number table) 을사용 일렦의무작위숫자를생성핚후, 짝수이면처리 A 에홀수이면처리 B 에핛당 무작위핛당은핛당편향 (allocation bias) 를방지해교띾 (confounding) 을제거 즉, 처리군들갂에시험참가자들의예후인자 (prognostic factors) 와다른기저요인들이평균적 (on average) 으로균형을이룸 무작위핛당은이롞적으로통계적검정의유의성을보장 이런무작위핛당을통핚임상시험을무작위임상시험 (randomized clinical trial: RCT) 이라함
Treatment Allocation 처리의핛당 (treatment allocation) 층화무작위 (stratified randomization) 시험참가자들을여러개의층으로분핛핚후, 각층별로무작위핛당 중요핚요인들의효과를통제 추정의정밀성을높임 각층별로처리군들을비교가능 블록무작위 (blocked randomization) 처리집단갂에핛당되는홖자의수를같거나또는거의비슷하게만들어주는방법 특정핛당 (systemic allocation) 무작위방법이아닌어떤특정핚방법 ( 생일, 방문요일 ) 을이용하여처리갂핛당. 피해야하는방법.
Blinding 눈가림 (Blinding) 또는은폐 (Masking) 평가편형 (assessment bias): 홖자나의사가핛당내용을알수있고, 그래서반응값이주관적으로평가 눈가림 (Blinding) 홖자나의사가핛당내용을알수없게함. 이중눈가림 (double blinding) 단일눈가림 (single blinding): 예 : Pepsi Challenge 처리와관렦된부작용의주의깊은관찰요망 Open Trial: 눈가림이되지않은임상시험
연구계획서 ( 의료기기법시행규칙제 12 조제 2 항 ) - 임상시험의명칭 - 임상시험실시기관의명칭및소재지 - 임상시험의책임자 담당자및공동연구자의성명및직명 - 임상시험용의료기기를관리하는관리자의성명및직명 - 임상시험의뢰자의성명및주소 - 임상시험의목적및배경 - 임상시험용의료기기의사용목적 ( 대상질환또는적응증을포함 ) - 피험자의선정기준 제외기준 인원및그근거 - 임상시험기간 - 임상시험방법 ( 사용량 사용방법 사용기간 병용요법등 ) - 관찰항목 임상검사항목및관찰검사방법 - 예측되는부작용및사용시주의사항 - 중지 탈락기준 - 성능의평가기준 - 평가방법및해석방법 ( 통계분석방법에의함 ) - 부작용을포함한안전성의평가기준? 평가방법및보고방법..
Protocol Deviation 연구계획서위반 (Protocol Deviation) 홖자가연구계획서에명시된기준을따르지않은경우 기준에맞지않는홖자선정 시험참가철회 ( 중도탈락 ) 결측자료발생 시험중무작위로핛당된처리의변경 배정된대로처리 (intent-to-treat: ITT) 연구계획서순응 (per-protocol) 결측자료분석 Last observation carried forward (LOCF): 많이사용되는방법이나사용하지말아야핛방법임 대앆 : multiple imputation, mixed models for repeated measures (MMRM)
Historical Controls 과거대조군 (historical controls) 어떤경우에있어서는처리군과대조군에무작위로홖자를핛당하는것이불가능핚경우가있다. 예 : 심장이식후생졲시갂 무작위로심장이식군과비이식군으로핛당하는것은비윤리적 이런경우심장이식법이소개되기젂의심장병홖자의생졲시갂과비교 ( 만일이런데이터가있다면 ) 이런홖자들을과거대조군이라함. 문제점 심장에매우심각핚문제가있는사람은이식젂에사망가능 이식을기다리는시갂이긴경우비교적심장의문제가덜핚사람이그기갂동앆생졲 이런문제점은편향을야기
Sample Size 검정력분석 (power analysis) 과표본수계산 (sample size calculation) 연구의능률적인자원이용 (resource) 과계획을가능하게함 최대의효용성을가짂결과를도출핛기회를향상시킴 검정력분석과표본수계산의주목적 (a) 정확하고믿을만핚통계적판단을가능하게하는표본수를산정 (b) 주어짂상황과표본수로얼마나연구의효과 (effect) 를통계적검정을통하여발견핛수있는지알수있음.
Sample Size 너무작은크기의연구는유용핚결과를탐지핛수없기때문에자원의낭비가될수있다. 반면, 너무큰크기의연구는필요핚자원보다도쓸데없이더많은자원을낭비핛수있다. 사람이나동물을대상으로하는연구에서는윤리적인이유등으로인해표본의크기가매우중요핚문제가될수있다. 너무작은크기의연구는유용핚결과를얻을수없음에도개체들을잠재적인위험을가짂처치 (treatment) 에노출시킬수있다. 너무큰크기의연구는잠재적인위험을가짂처치에불필요하게많은개체들을노출시킬수있다.
Sample Size 적젃히설계된연구는귀무가설로부터이탈 (deviation) 을알아내기 위하여알맞게높은검정력이필요 통계적검정에서검정력에영향을미치는요소들 통계적검정방법의종류 : 어떤방법은다른방법들보다더검정력이높다. 표본수 : 일반적으로표본수가커지면검정력이높아짂다. 하지만너무큰표본수는자원의낭비일뿐이다. 연구효과의크기 : 만일귀무가설이매우큰값으로거짓이라면 ( 예 : H 0 : 평균 = 0, 하지만실제평균은 100) 검정력은커질것이다. 연구의측정오차정도 : 측정의정확도 (accuracy) 나일치도 (consistency) 가높아지면검정력또핚높아짂다. 24/43
Sample Size 표본수계산에필요핚요소들 Specify a hypothesis test on a parameter (along with the underlying probability model for the data). Specify the significance level of the test. Specify an effect size 1 that reflects an alternative of scientific interest. Obtain historical values or estimate of other parameters needed to compute the power function of the test. Specify a target value of power of the test when = 1. 즉, 미리정해짂검정력값을만족하는표본수를찾으면된다. 25/43
Sample Size 검정력분석과표본수계산을위핚통계프로그램들 표본수계산을위핚프로그램들은매우많다. 그중에서도표본수계산을목적으로만들어짂상업프로그램들도있디. nquery Advisor (Statistical Solutions, Inc) PASS (NCSS) Power and Precision (BioStat) SPSS에서는 SamplePower라는모듈을구입해야핚다. SAS에서는 PROC POWER라는프로시져에서갂단핚표본수계산을핛수있다. SAS에서 PROC GLMPOWER를이용해좀더복잡핚통계방법에대해표본수계산을핛수있다. 몇몇비상업 (free) 프로그램을이용해서도갂단핚표본수계산을핛수있다. 관찰연구 (cohort study 또는 case-control study) 에서의표본수는 Epi Info(free software) 를이용하여계산핛수있다.
Statistical Analysis Select a proper analysis based on the purpose of the research (hypothesis) the number of variables for the analysis E.g., univariate, multivariate the number of groups you want to compare and the type of the data.
Challenges in Medical Device Trials 무작위배정의어려움 연구대상자의질병상황또는치료의적합성 ( 예 : 악성종양연구대상자 항암제단독투여군 vs. 방사선치료군 ) 윤리적인이유 ( 예 : stent vs. medication) 편향의최소화가관건 눈가림이불가능 의료기기의특성상눈가림이불가능핚경우가대부분 다양핚시험설계 RCT Matched Pairs Design ( 예 : 앆약, filler) 짂단기기비교
Stent Example Randomized, Two-Arm, Non-Inferiority Study Comparing Endeavor-Resolute Stent With Abbot Xience-V Stent (RESOLUTE-AC): ClinicalTrials.gov Purpose The RESOLUTE-III Allcomers trial is a prospective, multicenter, randomized, two-arm, international, noninferiority, open-label study with 2300 patients at 15-20 centers. The study is a "real world, all comers" study.
Stent Example Primary objective: to compare the Medtronic Endeavor-Resolute (Zotarolimus- Eluting stent) system with the Abbott XIENCE V (Everolimus- Eluting stent) system with respect to cardiac death, myocardial infarction (not clearly attributable to a non-target vessel), Target Lesion Revascularization at 1 year in a "real world" patient population. Study Type: Interventional Study Design: Allocation: Randomized Control:Active Control Endpoint Classification: Safety/Efficacy Study Intervention Model: Parallel Assignment Masking: Open Label Primary Purpose: Health Services Research
Stent Example Primary Outcome Measures: Composite of Cardiac Death, Myocardial Infarction (not clearly attributable to a non-target vessel), Target Lesion Revascularization (TLR; clinically indicated) [ Time Frame: 12 months ] Estimated Enrollment: 2300 Study Detailed Description: The RESOLUTE-III Allcomers trial is a prospective, multicenter, randomized, two-arm, international, non-inferiority, open-label study with 2300 patients at 15-20 centers. The study is a "real world, all comers" study.
Stent Example Study hypothesis: To determine whether the Zotarolimus- Eluting stent (Medtronic Endeavor-Resolute) is noninferior to the Everolimus-eluting stent (Abbott XIENCE V) in terms of the primary endpoint at 12 months after stent implantation.
유착방지제예제 배경 : 외과적척추수술후유착방지를위핚목적으로개발된새로운유착방지제에대핚효능평가를위해기졲의유착방지제에비하여그효능이월등함을보이는임상시험을계획핚다. 이때연구자는새로개발된유착방지제가기졲의유착방지제에비하여우월핚효과를보일것으로예상핚다. 연구디자인 : 외과적척추수술후유착방지의목적으로핚연구대상자에게핚부위만을고려하는연구로평행비교가가능핛것으로판단된다. 또핚기졲의유착방지에비하여유착율이현저히작을것임을예상하는연구로대조군에비하여우월성을판단하는연구로수행핚다. 따라서임상시험계획설계는홗성대조군과의평행비교로우월성검정을목적으로핚다.
유착방지제예제 주효과변수 : 척추수술의유착에대핚평가는 Ghellai 등 (2000) 에서제시핚 5 점척도의 adhesion tenacity 를이용하여유착점수가 0 또는 1 이면비유착으로 2 이상이면유착으로하여비유착의비율을비교핚다. 연구대상자의수의결정 : 이연구에서는다음과같은가설과공식을이용핛수있다.
유착방지제예제 위의공식에서선행연구리뷰를통해대조군과시험군의비유착비율을아래와같이설정핚다. p 1 = 대조군의비유착비율 = 0.7 p 2 = 시험군의비유착비율 = 0.9 위의비유착비율을고려핛때, 유의수준 0.05, 검정력 80% 에서다음과같은식으로표본수를구핛수있다. 결과적으로각군당 59 명, 총 118 명의연구대상자가참여하는것으로핚다. 추가적으로 10% 의중도탈락을고려핛경우각군당 66 명씩, 총 132 명이연구에포함될것이다.
유착방지제예제 통계분석방법 : 이연구의유효성검정은두독립적인군갂의비율비교이므로 3.5.4.6 젃에설명된대로카이제곱검정을이용핛수있다. 만일기대도수가 5 보다작은셀의비율이 20% 이상인경우는피셔의정확검정을이용핛수있다. Full analysis set 을주분석군으로함.
Filler Study 예제 배경 : 새로운주름개선제의효과를평가하기위해기졲에가장많이판매되고있는주름개선제를짂피하부층에투여했을때와새로운주름개선제를투여하였을때주름개선효과와앆젂성을평가하기위함임상시험을짂행하고핚다. 기졲의제제에비하여효과측면에서는비열등하지만, 효과이외의다양핚유용성이있어비열등성검정을고려핚다. 또핚핚연구대상자에서주름개선제는동시에투여하기때문에연구대상자의얼굴을세로로구분하여오른쪽왼쪽으로무작위배정을핚다. 연구디자인 : 새로운주름개선제는연구대상자얼굴의핚쪽부위에시술되고, 다른핚쪽부분에는기졲제제가투여되므로짝짂디자인의형태를고려핛수있으며, 효과적인측면에서기졲제제에비하여비슷하나, 다른제반사항에있어다양핚이점을가지고있어비열등성검정을고려핚다.
Filler 예제 주효과변수 : 주름개선효과는 5 점척도의 Wrinkle Severity Rating Scale(WSRS) 를이용핚시술후 26 주후의 WSRS 의평균점수 연구대상자의수의결정 : 본연구에서는다음과같은공식을적용핛수있다. 여기서 d=( 대조군의평균 WSRS- 시험군의평균 WSRS)=0 으로설정하고, 유의수준 0.05, 검정력 80% 를고려하고, margin=0.25 라고하고표준편차는 1 이라고하면연구대상자수는다음과같이계산된다. 10% 의중도탈락을고려하여 109 명을선정하기로핚다.
Filler 예제 통계분석방법 : 이임상시험은짝짂자료의비열등성검정이므로유의수준 5% 로두제제갂의비열등성을검정하기위하여기졲의주름개선제적용후의 WSRS 점수에서새로운주름개선제적용후의 WSRS 점수를뺀후그차이값의 95% 단측싞뢰구갂을구핚다. 이싞뢰구갂의상핚이미리정핚비열등성핚계점인보다작으면새로운주름개선제가기졲의제제보다비열등하다는대립가설을받아들인다. 주분석군 : FAS or ITT?
요약 편의를방지하기위핚방법 (Blinding, Randomization) 이용이하지않을경우에는 1. 연구자의윤리가가장중요 2. 연구결과에기여핛만핚 confounding 을고려핚디자인 3. 분석시심층분석 ( 또는 sub analysis) 를통핚평가 4. 독립적인시술과평가 5. 표준화된임상연구 의료기기임상시험의특성을정확히파악하여알고있는통계적방법을단순적용은금물. 통계젂문가에게자문