1 진단검사의정확도평가를위한체계적고찰방법론 Methodological issues for Systematic Reviews of Diagnostic Tests Accuracy
2 Abstract The Cochrane Collaboration says that the Cochrane handbook for diagnostic test accuracy reviews is in development now. That means the methodology of systematic reviews (SR) of diagnostic tests assessments is still a matter of debate. At this point in time, comparison of methodological issues for SR of between interventions and diagnostic tests would be helpful to understand these situations. Key words: Review literature as topic, Meta-analysis as topic, Diagnostic test, Clinical trial
3 1. 서론 최근들어비교효과연구 (Comparative Effectiveness Research, CER) 와의료기술평가 연구 (Health Technology Assessment, HTA) 가활성화되면서그연구방법론으로메타분석 (meta-analysis) 을적용한체계적고찰연구 (systematic review) 가크게부각되고있다 [1-3]. 특히약물이나시술같은개입 (intervention) 의효과를비교하는무작위배정임상시험을 집중적으로다루는방법론에있어, 코크란연합 (Cochrane Collaboration) 의 Higgins & Green 이저자인개입연구 (intervention) 를대상으로한체계적고찰의지침서 (Handbook) 가개발되어확산된것이주된배경이라본다 [4]. 그런데 CER 이나 HTA 연구에는개입연구뿐만아니라, 진단검사도분석대상으로삼 고있다. 사실현대의학은진단학 (Diagnostics) 이라할정도로진단이정확해야만제대로 된치료서비스를제공할수있고, 생존율등에서최선의성과를얻어낼수있기때문이다. 따라서진단검사의평가 (Diagnostic Test Assessment, DTA) 에대한체계적고찰연구방법론 도당연히필요하다. 그런데 DTA 에대한코크란연합의홈페이지에서알수있듯이진단 검사와관련한방법론은현재개발중에있다 [5,6]. 이런현시점에서코크란연합이지금 까지제안한 DTA 관련개념들과방법들을, 개입연구의방법론과상호대조하여살펴보고자 한다. 2. 체계적고찰진행단계별방법론검토 Table 1 은체계적고찰의수행단계에따라관련한개념과지표들을개입연구와진 단검사로나누어상호대조시켜정리한표이다. 이표내용을중심으로관련내용들을펼치
4 고자한다. 가. 질문설정 체계적고찰의첫시작은답할수있는질문들 (Answerable questions) 로전환시키는것 이다. 이에개입연구는환자특성 (Patient), 개입처치 (Intervention), 대조처치 (Comparator), 예상하는성과 (Outcomes) 의 4 가지관련어앞자를따서 PICO 란도구를제 시하고있다 [7]. 반면진단검사는 PPP-IP-PTR 의 8 가지관련내용을제시토록요구하고있다 [6]. 첫번 째 P 는환자특성으로개입연구의 P 와동일하지만, 두번째와세번째 P 는환자들의주된 증상이나증후를제시하는 Presentation, 과해당환자를진단할때사용한 Prior tests 를각각 의미한다. 4 번째 I 는체계적고찰을하려는검사 (Index test) 이며, 5 번째 C 는 Comparator test 로통상적으로시행하고있어 Index test 와비교하려는검사이다. 따라서진단검사의 IC 는개입연구의 IC 와짝을지을수있겠다. 6 번째 P 는연구목적 Purpose 이며, 3 가지로대분 할수있다. 1 기존의 Comparator test 를 Index test 로대치하는것 (Replacement) 2 Index test 를시행하여양성이나온대상에게 Comparator test 를시행하여보다세분된진단을얻 으려는것 (Triage) 3 Comparator test 를시행하여음성이나온대상에게 Index test 를시행하 여위음성을낮추려는것 (Add-on). 7 번째 T 는 target disorder 는새로운검사로진단하려는 특정질환을뜻하여개입연구 PICO 의 O 와개념상짝지어볼수있다. 마지막 8 번째 R 은 Reference standard 로확진검사 (Gold standard) 를의미한다. 이처럼진단검사의평가를위해체계적고찰을하려면검토해야할내용들이매우 다양하다는것을짐작할수있다. 특히검사에있어 Prior test, Index test, Comparator test, Reference standard 같이 4 가지종류를정리하도록요구하고있어, 이에대한개념구분이
5 필요하다. 예를들어유방촬영술상치밀유방으로나온고위험유방암검진자들에게추가검 사로유방초음파를하는경우와유방 MRI 를할경우유방암진단의타당성을평가하는연 구를수행한다고가정한다면, Index text 는유방 MRI, Comparator test 는유방초음파, Prior test 는유방촬영술, Reference standard 는유방조직의해부병리판독이될것이다. 나. 논문검색 검색전략에사용할주요검색어로는개입연구라면 PICO 의 I 에해당하는개입이될것 이지만, 진단검사에서는 index test (I) 와 target disorder (T) 가해당될것이다. 또한개입연구 는대부분무작위배정임상시험 (Randomized Controlled Trial, RCT) 연구설계를적용하고있 기때문에연구설계방법을필터링하면서개입에관한중심어로검색하는것이효과적인 검색전략이된다. 그러나진단검사는비교를위한 RCT 뿐만아니라단면연구 (crosssectional study) 등의다양한연구설계를적용하기때문에, 연구설계를필터링하는검색전 략은무의미하다. 다. 개별논문의평가및정보추출 개별연구의질적수준을평가하는도구로개입연구는 Cochrane 연합이제시한 ROB (Risk of Bias 가있다면 [8], 진단검사는 QUADAS-2 (the Quality Assessment of Diagnostic Accuracy Studies) 도구가개발되어있다 [9] 년도에개발한 QUADAS 를수정보완하여 2011 년도에발표한 QUADAS-2 은대상자선정 (patient selection), index test, reference standard, 연구수행과정 (flow and timing) 의 4 가지영역으로나누고있으며, 이중앞의 3 가 지영역에속한질문들에대하여 Yes (High), No (Low), Unclear 의 3 가지중하나를답변토록 요구한다 [10]. QUADAS-2 를국내연구진들이이해하기쉽고활용하기좋게번안하는작업 이있기를기대한다.
6 선정된관련논문들의결과에서얻어낼정보로는, 개입연구일경우처치군 (treatment group) 과비교군 (control group) 간의반응분율 (%) 에관련한수치들이다. 반면진단검사일 경우민감도 (sensitivity) 와특이도 (specificity) 가된다 [11]. 진단검사에서는예측도 (predictive value) 결과도있지만연구대상자의유병률 (prevalence) 에따라변하는값이기에 체계적고찰의특성에적합하지않다 [12]. 반면민감도와특이도는유병률과무관하기에우 선적으로활용을하게된것이다 [13]. 그렇지만이들또한기준점 (threshold) 에따라변동을 한다는한계를가지고있어, Receiver operator characteristic curve (ROC 곡선 ) 를같이제시하 는것이필수적이다 [14]. 추출한정보로부터새로운의미들을알아보기위하여관련지표들을산출하는데, 개입 연구는처치군과비교군의반응률의차이의역수를구하여 Number Needed to Treat (NNT) 로제시한다 [15]. 반면진단검사는 True results 에속하는민감도와특이도의곱을 False results 에속하는수치들의곱으로나누어 Diagnostic Odds Ratio (DOR) 이란지표를따로산 출한다 [16,17]. 이값은 2*2 표에서얻어내는 ad/bc 와같은수식형태를갖기에 OR 이라하 며, 이값이클수록민감도와특이도가상대적으로더크다는뜻이다. 달리해석하자면 ROC 곡선에서좌상 (Left & Upper) 의꼭지점으로더접근한다는것을의미하며, 그만큼곡선아래 의면적 (Area under the curve, AUC) 이커진다는의미한다 [14]. 추출한정보들을일목요연하게보여주기위하여개입연구는 Forest plot 을사용한다 [18]. 그런데진단검사는민감도와특이도라는두가지정보를같이보여주는 Coupled forest plot 으로제시한다 [19]. 또한앞서언급한것처럼민감도와특이도는기준점에따라변동하 기때문에 summary ROC (SROC) 곡선을같이제시한다 [20]. 논문대상자수나표준오차에 따라표기되는기호의크기를달리할수있다.
7 라. 메타분석 메타분석을하려면대상논문들간의이질성을반드시확인해야한다. 개입연구는최근 I 2 통계값을활용하여그정도를평가하고있다 [21]. 이에맞추어동질성이확보되면 fixed effect model 에따라, 이질성이확인되면 random effect model 에따라요약통계값을산출하 는것이다. 그렇지만진단검사는민감도와특이도의 trade-off 속성등의한계를감안하여특별한 경우가아니면이질성이있다고간주하고있다. 특히고혈압진단기준처럼기준점이계속 달라져온경우에는이를반영하는공변수 (covariate) 에따라하부군분석 (subgroup analysis) 를해야만한다 [10]. 따라서이질성을평가하는통계법이아직정해진것이없으며, 다층모델 (Hierarchal random effect model) 에따른추가분석을대부분요구하고있다. 현재 Bivariate method 와 Rutter & Gatsonis HSROC method 두가지방식이개발되어있는데, 실 무적용에있어이둘간의차이는산출에사용하는통계값이다른것이다 [6]. Bivariate method 는민감도와특이도를그대로, HSROC method 는 threshold 와 DOR 를사용한다 [20]. 그런데 RevMan 5.3 에서는이두가지분석모두를직접지원하지않으며, SAS (PROC NLMIXED) 나 STATA (METANDI) 에서분석하여얻어낸통계값을추가로입력하면 RevMan 은 그요약통계값을보여주고있는수준이다 [21]. 만약에대상논문수가적고기준점의변동이 없다는전제라면 Moses-Littenberg SROC 를요약통계값으로활용할수는있겠다. 마. 결과작성 체계적고찰의대상이되는원저 (original article) 에있어개입연구의결과를제시하는 지침으로 CONSORT (Consolidated Standards of Reporting Trials) 가있는반면 [23], 진단검사 는 STARD (the Standards for Reporting of Diagnostic Accuracy) 가있다 [24]. 그리고개입연구
8 를대상으로체계적고찰을시행하여얻어낸결과를보고하는지침으로 PRISMA (Preferred Reporting Items for Systematic reviews and Meta-analysis) 가개발된반면 [25], 진단검사에관 한체계적고찰보고지침은아직없다. 그리고출판과정에서생길수있는오류를간접확 인하는방법으로개입연구는 Funnel Plot 을활용할수있으나, 진단검사는아직이에대한 평가를할수있는도구가개발된것이없다. 3. 결론및제언 진단검사논문들의체계적고찰을위한연구방법론은현재개발중이라는것은그만큼 검토해야할것이많다는것이다. 관련전문가들간의이견을좁히지못하고있을뿐만아 니라, 진단검사가갖는특별한속성때문에개입연구보다더극복해야할방법론이슈들이 아직산재해있기때문이다 [26]. 이번고찰에서제시된내용들이이후에얼마든지바뀔수 있다는가능성은분명열려있다. 그럼에도불구하고, 현시점에서이렇게방법론을비교고 찰해본것은국내연구진들이이에대한관심을가지고적극개입하기를바라는의도이다. 통계학전공자뿐만아니라역학자들도진단검사의체계적고찰을많이시도할자극이되기 를바라며이만줄인다. 감사의글 이논문은 2014 학년도제주대학교학술진흥연구비지원사업에의하여연구되었음
9 References 1. Drummond MF, Schwartz JS, Jőnsson B, Luce BR, Neumann PJ, Siebert U, et al. Key principles for the improved conduct of health technology assessments for resource allocation decisions. Int J Tech Assess Health Care 2008;24: Manchikanti L. Evidence-based medicine, systematic reviews, and guidelines in interventional pain management, part I: introduction and general considerations. Pain Physician 2008;11: Kim SY, Park JE, Seo HJ, Seo HS, Son HJ, Shin CM, et al. Development of Manual for Systematic reviews and clinical practice guideline; 2010 [cited 2014 Aug 11]. Available from: 3d Higgins JPT, Green S. Cochrane handbook for systematic reviews of interventions. The Cochrane Collaboration. John Wiley & Sons: Chichester, UK; The Cochrane Collaboration. Cochrane handbook for diagnostic test accuracy reviews. [cited 2014 Aug 11]. Available from: 6. Diagnostic Test Accuracy Working Group. Handbook for DTA reviews. [cited 2014 Aug 11]. Available from: 7. Tseng TY, Dahm P, Poolman RW, Preminger GM, Canales BJ, Montori VM. How to use a systematic literature review and meta-analysis. J Urol 2008;180: Higgins JPT, Altman DG, Gøtzsche PC, Jüni P, Moher D, Oxman AD, et al. The Cochrane Collaboration s tool for assessing risk of bias in randomised trials. BMJ 2011;343:d Whiting PF, Rutjes AWS, Westwood ME, Mallett S, Deeks JJ, Reltsma JB, et al. QUADAS-2: a revised tool for the quality assessment of diagnostic accuracy studies. Ann Intern Med 2011;155: Schuetz GM, Zacharopoulou NM, Schlattmann P, Dewey M. Meta-analysis: noninvasive coronary angiography using computed tomography versus magnetic resonance imaging. Ann Intern Med
10 2010;152: Honest H, Khan KS. Reporting of measures of accuracy in systematic reviews of diagnostic literature. BMC Health Services Research 2002;2; Montori VM, Wyer P, Newman TB, Keitz S, Guyatt G, for the Evidence-Based Medicine Teaching Tips Working Group. Tips for learners of evidence-based medicine: 5. The effect of spectrum of disease on the performance of diagnostic tests. CMAJ 2005;173: Schünemann HJ, Oxman AD, Brozek J, Glasziou P, Jaeschke R, Vist GE, et al. Grading quality of evidence and strength of recommendations for diagnostic tests and strategies. BMJ 2008l;336: Deeks JJ. Systematic reviews of evaluations of diagnostic and screening tests. BMJ 2001;323: Cook RJ, Sackett DL. The number needed to treat: a clinically useful measure of treatment effect. BMJ 1995;310: Glas AS, Lijmer JG, Prins MH, Bonsel GJ, Bossuyt PMM. The diagnostic odds ratio: a single indicator of test performance. J Clin Epidemiol 2003;56: Devillé WL, Buntinx F, Bouter LM, Montori VM, de Vet HC, van der Windt DA, et al. Conducting systematic reviews of diagnostic studies: didactic guidelines. BMC Med Res Methodol 2002;2: Engberg S. Systematic reviews and meta-analysis. J Wound Ostomy Continence Nurs 2008;35: Leeflang MM, Debets-Ossenkipp YJ, Visser CE, Scholten RJ, Hooft L, Bijlmer HA, et al. Galactomannan detection for invasive aspergillosis in immunocompromized patients. Cochrane Database Syst Rev 2008;4:CD Irwig L, Tosteson ANA, Gatsonis C, Lau S, Colditz G, Chalmers TC, et al. Guidelines for metaanalyses evaluating diagnostic tests. Ann Intern Med 1994;120: Higgins JPT, Thompson SG. Quantifying heterogeneity in a meta-analysis. Stat Med 2002;21;1539-
11 Zhang Z, Lu B, Sheng X, Jin N. Accuracy of stroke volume variation in predicting fluid responsiveness: a systematic review and meta-analysis. J Anesth 2011;25: Altman DG, Schulz KF, Moher D, Egger M, Davidoff F, Elboume D, et al. The revised CONSORT statement for reporting randomized trials: explanation and elaboration. Ann Intern Med 2001;134: Simel DL, Rennie D, Bossuyt PM. The STARD statement for reporting diagnostic accuracy studies: application to the history and physical examination. J Gen Intern Med 2008;23: Liberati A, Altman DG, Tetzlaff J, Mulrow C, Gøtzsche PC, Ioannidis JPA, et al. The PRISMA statement for reporting systematic reviews and meta-analyses of studies that evaluate health care interventions: explanation and elaboration. Ann Intern Med 2009;151:W65-W Oakley A, Strange V, Bonell C, Allen E, Stephenson J, RIPPLE Study Team. Process evaluation in randomised controlled trials of complex interventions. BMJ 2006;332:
12 Table 1. Comparison of issues related to systematic reviews for intervention trials and diagnostic test studies STEP Issues for Intervention for Diagnostic test Ask Making Questions PICO PPP-IP-PTR Acquire Main keyword Intervention Index test & Target disorder Searching Filtering No filtering Assess Quality Level ROB QUADAS-2 Extracting Results Proportion of Response (%) Sensitivity & Specificity New Index NNT DOR Summary Figures Forest Plot Coupled Forest Plot & SROC Analysis Heterogeneity index I 2 (SROCs by prediction region) on Homogeneous Fixed effect model (Moses-Littenberg SROC) on Heterogeneous Random effect model Hierarchal models Report Standard for original article CONSORT STARD Standard for summary results PRISMA Not available Publication bias Funnel Plot Not available
