체계적고찰과메타분석의개요 신우종 http://dx.doi.org/10.7599/hmr.2015.35.1.9 pissn 1738-429X eissn 2234-4446 한양대학교의과대학마취통증의학교실 An Introduction of the Systematic Review and Meta-Analysis Woo Jong Shin Department of Anesthesiology and Pain Medicine, Hanyang University College of Medicine, Seoul, Korea Systematic reviews and meta-analysis represent a specific type of medical research in which an original article is a unit of analysis. These methods of research are essential tools in integrating scientific information, increasing the internal and external validity of the conclusions of original articles, and suggesting areas for future research. Meta-analysis is becoming popular because it can combine results from similar studies to calculate an overall estimate of a treatment effect. They are also necessary for the practice of evidence-based medicine and the medical decision making. However, conducting good quality systematic reviews is not easy and difficult to interpret. Since analysis of a data with meta-analysis is a relatively new field of research, many clinicians have not had the opportunity to learn about systematic review and meta-analysis systematically. An introduction of the rationale for carrying out meta-analysis will be helpful to the clinician in interpreting the results of metaanalysis. Key Words: Evidence-Based Medicine; Meta-Analysis; Review Correspondence to: Woo Jong Shin 우 471-701, 경기도구리시경춘로 153, 한양대학교구리병원마취통증의학과 Departments of Anesthesia and Pain Medicine, Hanyang University Guri Hospital, 153 Kyungchoon-ro, Guri 471-701, Korea Tel: +82-31-560-2390 Fax: +82-31-563-1731 Email: swj0208@hanyang.ac.kr Received 26 November 2014 Revised 24 December 2014 Accepted 31 December 2014 This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited. 서론 1. 메타분석이란? 매년많은의학논문이출판되고있으므로임상의사들은많은연구정보를요약하여습득할수있는능력이필요하게되었고, 일반종설 (narrative review) 에서생길수있는비뚤림 (bias) 을막기위하여여러연구결과를요약하는체계적인방법의개발이필요하다. 근거중심의학 (evidence-based medicine), 체계적고찰 (systematic reviews), 그리고메타분석 (meta-analyses) 등에의해의학의진보와혁신이이루어지게되었다. 체계적분석은 특정한주제에관하여연관된모든연구물의체계적결합, 예리한평가, 그리고결합을통하여비뚤림을줄이는과학적인전략의적용 (the application of scientific strategies that reduce bias by the systematic assembly, critical appraisal, and synthesis of all relevant studies on a specific topic) 으로정의될수있는데재현가능성이있으며명백한방법론에의해확고한연구방법과목적으로이루어진문헌들의종합이다. 이는비뚤림과확률적오차 (random error) 를줄이는방법을사용하여다양한연구의결과를통합한다. 모든적절한문헌을검색하고, 연구물의연구설계와특성을조사하고자료를종합하여그결과를추정하는것이다. 메타분석은서로다른연구들의양적인효과크기결과들을통계적으로통합하기위한방법이다. 체계적분석으로각연구결과로부터얻은효과크기 (effect size) 의추정값즉평균차, 상대위험도 (relative risk), 승산비 (odds ratio) 등의자료를통계적기법을사용하여결합하여각중재법의가중치의평균요약추정치를얻은뒤, 이결과들을분석하여종합적인결론을얻는다. 그러므로체계적분석이항상메타분석을포함하는것은아니다. 체계적고찰을하는중에메타분석방법을사용할수도있지만통합하고자하는변수에대한충분한정보가각연구문헌들에 http://www.e-hmr.org 2015 Hanyang University College of Medicine 9
Woo Jong Shin An Introduction of the Systematic Review and Meta-Analysis 서제공되지않거나각연구들의동질성이없는경우에는메타분석을못할수도있다. 메타분석은모든과정을재현할수있으며대상이되는모든연구들을합하여정밀한결과를추정할수있다는장점이있다. 그러나연구대상이나치료중재법그리고결과변수에대하여대상연구들간에충분한동질성이있는지를사전에검사한뒤통계적인메타분석사용여부를결정하여야한다. 비록메타분석은시간이많이소모되고노동집약적이며임상이나통계의전문가가필요하다는단점이있지만잘계획되고시행된분석은고급의근거를제공하는유용한도구가될수있다. 2. 왜메타분석인가? 무작위대조군연구 (randomized controlled trials, RCTs) 의체계적고찰과메타분석은근거중심의기준 (evidence-based guidelines) 의등급체계에있어서매우높은수준의근거로여겨지고있다 [1]. 메타분석은비용이많이들어가는대규모의무작위대조군연구를하기곤란할때유용하다. 또한어떤경우에는무작위대조군연구를시행하는것이비윤리적이어서많은임상의사들이참여하기를거부할때유용한분석방법이될수도있다. 이런경우에는비교관찰연구 (observational study) 가대신사용할수있는연구방법이될수있고, 이러한경우에도비교관찰연구로부터얻은자료를이용하여메타분석을할수도있다. 그러나이경우에는개별일차연구들에내재된비뚤림으로인하여메타분석이매우복잡하여분석이어려울수도있다. 비교관찰연구에서는많은교란변수들로인하여효과크기가왜곡될수도있기때문이다. 비교관찰연구의메타분석의제약에대해많은연구가이루어졌다 [2-4]. 어떤연구자들은메타분석이연구물의불완전한문헌검색, 일차연구물의선택과포함기준의비뚤림, 각연구물의이질적인자료의잘못된결합, 비교관찰연구에서시행한메타분석, 분석결과얻은결과의임상적용의어려움그리고대상연구물에대한지식의부족등을이유로메타분석을비난하기도하지만이러한단점에도불구하고수많은메타분석연구결과의보고가시간이갈수록증가하고있다. 이연구방법에대한관심이증가함에따라여기서는체계적고찰과메타분석에대한소개와더불어임상의사들이이러한연구를할때각단계에서생기는문제들과요점에대해살펴보기로한다. 시작하기전에먼저체계적고찰과메타분석을시작하기전에연구자는반드시기존에같은주제의체계적고찰이수행되었는지아니면현재진행중인지조사하여알아보고자하는연구주제가적당한지알아본다. 만약이미같은주제의체계적고찰이있다면새로진행하려는체계적고찰의방향을위하여충분한질평가가이루어져야한다. 일차연구물을선택또는배제하기위한투명하고적절한기준이 있어야하며각연구물의자료를평가, 추출하여통합하는과정에서비뚤림이없어야하고투명하고재현가능성이있어야한다. 잘구성된평가계획서는잘맞추어진연구관심사, 문헌검색전략, 일차연구물에서요약하고종합하는자료의종류, 그리고양적인통합의요약된자료등을포함하여야한다. 이때각단계에서생길수있는여러가지예상하지못한비뚤림을막을수있어야한다. 연구방법을사전에미리정하는것이고찰을작성할때비뚤림이생기는것을줄일수있다. 체계적고찰의결과를보면어떠한치료의중재법이더효과적인지구별할수있고더신뢰할수있는치료법으로대치할수있을것인지알수있다 [4]. 체계적고찰의목적은첫째방대한양의정보를다룰수있는크기정도로줄여서일차연구물들의결과가서로일치하는지아니면결과를일반화할수있는지결정할수있도록도와주고, 둘째로연구결과의출판과새로운효과적인치료법의시행사이의기간을줄여준다. 셋째로는각연구물의정보를통합하여전체표본의크기를증가시켜비뚤림을감소시키고연구의신뢰도와정밀도를높이며연구결과의검정력을배가시킨다. 새로운연구를시행하는것보다체계적고찰을하는것이비용이적게들며더빠를수있다. Berman과 Parker 등은 메타분석이빠르지도않고쉽지도않다 (meta-analysis is neither quick nor easy) 라고하여메타분석은간단하게연구자료를결합하는방법이아니라고하였다 [1]. 사전에상당한준비작업과잘정비된연구계획이개발되어야메타분석이의미가있다. 그래서각연구디자인에따라무작위대조군연구의경우에는 Preferred Reporting Items for Systematic review and Meta-Analysis (PRIS- MA) [2], 그리고비교관찰연구의경우에는 Meta-analysis of Observational Studies in Epidemiology (MOOSE) [3] 와같은준비계획서가만들어졌으며이두가지기준을참고로하여메타분석을수행하는데필요한각단계를살펴보고자한다. 메타분석을수행하기위해서는먼저 1) 구체적질문의설정 (define the research question), 2) 문헌검색 (perform the literature search), 3) 일차연구의선택 (select the studies), 4) 결과자료의추출 (extract the data), 5) 자료의분석 (analyze the data), 그리고 6) 결과의보고 (report the results) 와같은과정을거치게된다. 구체적질문만들기구체적질문을만드는목적은기존에존재하는근거에의해결정해야할연구주제에대한결론을얻기위하여작성한다. 질문은네가지특성을포함하고있으며, 영문머리글자를따서 PICO라고명명하였다. 환자대상문제 (population; P), 치료또는중재 (intervention; I), 비교자 (comparator; C), 그리고결과 (outcomes; O) 와같은어휘로요약할수있으며이러한연구의문의구성요소는연구디자인 (study design; S) 과함께일차연구물을선택할때사용될수있도 10 http://www.e-hmr.org
신우종 체계적고찰과메타분석의개요 록더정교하게만들어져야한다. PICO 설정은우선 평가가필요한가 에대한답변을얻기위해관련문헌을찾는과정에서검색초안을잡는다. PICOS의설정은연구의범위를정하는데중요한영향을미치므로세심하고정교하게구성되어야한다 [5]. 계획서에실제로평가가이루어지기전에구체적질문이나문헌선택기준등을명확히기술하고수행과정을자세히제공하여야비뚤림이적은근거를얻을수있다. 평가계획서는평가방법에대한구체적내용이기술되며, 주관성을배제하기위하여평가가수행되기전에작성되어야한다. 계획서는검증을받아야하며, 사전에계획되지못한부분이나과정중에수정또는추가사항이있는경우에는전문가의의견을반영하여야하며연구배경, PICOS, 평가방법, 검색어, 검색데이터베이스, 출판형태, 연구유형, 언어, 문헌선택및배제기준, 질평가도구와방법, 자료추출및전략등과같은내용이포함되어야한다. 1. 연구대상집단 (Population) 포함된연구대상집단은명확히정의되어야하고연구대상의건강및질환이있는지고려하여야하며대상집단을제한할때는명확하고합리적인기준을제시하여야한다. 초록에서대상으로하고있는군을찾아어떤환자군까지대상으로할것인지를결정한다. 범위는이질적인연구를통합하는결과를초래하지않도록한다. 2. 중재법과대조군 (Interventions and comparators) 시행되는중재법에대한정확한정의가필요하며최대한상세히기술한다. 중재법의시술방법을어떤범위까지포함해야하는지결정해야한다. 중재법을제한할때는명확하고합리적인기준을제시한다. 대조군의기술은사전에검토한초록을토대로비교된시술을정리하고현실을고려하여어떤범위까지를비교대상으로해야할지를정해야하며구성요소를최대한자세히기술하고정의한다. 이에따라선택배제의범위가달라진다. 처치를하지않은경우에는그의미를명확히해주어야한다. 3. 결과평가변수 (Outcomes) 핵심기술자체의결과와해당의료기술의사용으로인해환자에게미치는결과를구분하여야한다. 해당의료기술에따라측정되는의료결과는다르므로전문가의의견을고려한다. 이에따라안전성과유효성의결과를산출한다. 핵심적결과및연관된기존문헌고찰에서사용된결과항목의사용을고려한다. 사망률, 합병증률등안전성에대한자료와생존율, 증상개선, 삶의질, 만족도등의유효성자료등을해당의료기술별로, 초록을토대로정해야한다. 결에가장적합한연구디자인을선택하고디자인선택의논리를제시한다. 이상적으로치료적시술에대한의료기술평가는무작위대조군연구를포함하는것이가장타당한결과를산출할수있는연구유형이나, 의료기술평가는새로운기술이많으므로해당연구주제에서무작위대조군연구가부족하다. 그러므로어떤연구유형까지평가에포함시켜야할것인지전문가와함께결정해야한다. 특히안전성은증례연구를통해유용한정보를얻을수있다. 문헌검색연구질문에대한 PICO가결정되면구체적질문에대한답을주는문헌을찾고, 비뚤림을제거하기위해계획단계에서선택및배제기준을각각제시한다. 선택과배제기준은논리적으로서술되어야하며배제기준중하나라도해당되면그문헌은배제한다. 두명의평가자가독립적으로수행한뒤일치여부를확인한다. 사용할데이터베이스로는 Scottish Intercolegiate Guidelines Network (SIGN) 기준에따라, 체계적문헌고찰을위한검색의비뚤림을최소화하기위해 MEDLINE, EMBASE, CINAHL 및 Cochrane Library 데이터베이스를검색한다. 이단계가메타분석에서중요한단계이다. 가능한많은연구물이포함될수있도록광범위한검색을한다. 연구의포함기준은연구주제와일치하는모든연구를추출하는것이다. 만약연구의포함범위를너무광범위하게설정하면포괄적이며외적타당도가증가하나추출된연구물이방대하여자료의비교합성에어려움이있으며범위를너무축소하면작성이쉽고읽기는쉬우나여러개의세부적인검토가필요하고연구결과의일반화에어려움이있을수있다 [6,7]. 검색전략은가능한한투명하고다시재현할수있도록서술되어야한다. 검색어는관련문헌에서표현하는용어를통해선정한다. 일반적으로 Patient 용어와 Intervention 용어를함께연구유형과조합하여검색전략을수립한다. 일부 Comparator 용어도같이쓰기도하나일반적으로는검색어로사용하지는않는다. 일반적인데이터베이스로검색하였을때정보가충분하지않은경우더많은정보를수집하기위해수기검색으로검색하기도한다. 수기검색은찾은전자문헌에서인용한참고문헌을통하여얻을수있으며과학문헌인용색인을이용하여검색할수도있다. 서지정보를통해서도출판정보가나타나지않아확인이어려운문헌을통칭하는회색문헌 (gray literature) 으로는학위논문, 진행중인연구, 학회자료집, 그리고연구보고서등이있다. 출판비뚤림을줄이기위해회색문헌의검토여부를결정한다. 또한현재진행되고있는연구를확인한다. 4. 연구디자인 (Study design) 포함된연구디자인의종류가연구결과의신빙성과효과크기의 타당도를결정하는중요한역할을한다. 그러므로연구질문의해 비뚤림 이상적으로는체계적고찰은출판비뚤림을피하기위해모든연 http://www.e-hmr.org 11
Woo Jong Shin An Introduction of the Systematic Review and Meta-Analysis 구물을포함해야한다. 무작위대조군연구나비교관찰연구중일부는출판되지못하여문헌검색에누락될때출판비뚤림이생길수있다. 출판되지못한, 유의성이부족했던결과를보인연구물을제외하고분석하게되는경우, 훨씬더과장된결과를나타낼수있으므로주의해야한다 [8]. 통계적으로유의성이있는연구결과는유의미한연구결과로인식되어출판의도를높이고학술지의게재가능성이높다 [9-11]. 통계적으로유의한결과를보인자료는출간되는시간이짧으며검색될확률도높다 [10]. 반면출간되지않은연구물은찾기가어렵다. Easterbrook 등은유의한결과를보인비교관찰연구가무작위대조군연구보다더많이출간된다고하였다 [9]. 이러한특성은출간된연구결과를결합하는메타분석에서는분석결과가실제보다과장되어추정될수있다. 통계적으로유의한결과는주로영어로출판되는저널에게재될가능성이높으며 ( 언어비뚤림 : language bias), 다른저널에중복출판될가능성도높다 ( 중복출판비뚤림 : multiple publication bias). 또한다른논문에서인용될확률도높다 ( 문헌참고비뚤림 : citation bias)[11]. 이러한비뚤림은모두출판비뚤림과관련된특성으로나타나며, 고찰의결과에영향을미칠수있으므로고찰의결론과추론을이끌어낼때반드시고려해야한다 [8]. 영어를공용어로사용하지않는국가에서수행된연구물이통계적으로유의한결과를보인경우영어로쓰인저널에더잘게재되는경우에언어비뚤림이생길수있다 [12]. 그러므로메타분석에서영어로쓰인연구물만포함하는경우결합효과의크기가왜곡되게과장될수있다 [12]. 메타분석에서문헌검색을영어로출간된연구로제한하는경우또다른비뚤림이생길가능성이있다. McAuley 등은회색문헌을제외하고메타분석을다시할때평균 12% 의통합효과크기가영향을받는다고하였다 [13]. Sutton 등은 Cochrane database 에서체계적고찰을분석한결과출판비뚤림이어느정도있다고하였다 [14]. 만약저널들이긍정적인결과를보인연구물을더많이게재하면연구자들은부정적인결과를보인연구물들을투고하지않으려할것이다 [9]. 또한출간되지못한연구들은연구디자인이부실하여분석에서제외되었을가능성도있을수있다. Easterbrook 등은긍정적인결과를보인연구가그렇지않은연구보다더좋은디자인을보인다는근거는없다고하였다 [9]. 회색문헌과출간되지않은연구를찾기란쉽지않다. 연구기관의사서정보전문가의도움으로이러한문헌을찾을수있다. 깔때기그림 (funnel plot) 은가로축에일차연구로부터얻은중재효과의추정치를설정하고세로축에는추정치의정밀도를나타내는표준오차의역수또는연구표본수등을설정하여시각적으로그려진산점도 (scatter plot) 를의미하는데이를통해시각적으로판단하는방법이출판비뚤림을평가하는데도움이된다. 깔때기그림이대칭일경우출판비뚤림의가능성은줄어들며, 비대칭일경우출판비뚤림의가능성이높아진다. 그러나비대칭적이라고하여반드시출판비뚤림이있음을의미하는것이아니라선택비뚤림, 연구의질이낮 은경우, 이질성, 부적절한분석등과같은다른원인으로인해발생할수도있다. 표본수가적은연구들은그래프의아래에넓게분포되고, 표본수가많은연구들은깔때기위쪽의좁은부분에분포된다. 그러므로깔때기그림은다양한표본수를가진다수의연구들이필요하다는한계가있다. 현재진행되고있는연구를찾는것은후속연구와연구의보완을위해유용한근거를제공한다는점에서매우중요하다. 연구자들은 www.clinicaltrials.gov 이나 www. who.int/trialsearch 와같은웹사이트를방문하여현재진행되고있는연구를찾을수있다. 또한일반인터넷에서도출간되지않은보고서, 또는학회초록과같은회색문헌을찾을수있다. 방대한양의출판된서적을조사하는것도 (text mining) 유용한접근법이다. 현재탐색중이며조만간관련연구를찾는데중요한부가적방법이될것이다. 출판된서적을찾는것은외견상관련이없는사실이나새로운아이디어나가설을만드는연결고리가될것이며이런과정을통해비뚤림이나오류를감소시킬것이다. 문헌의선택과질평가문헌검색이완료되면각연구들은포함기준에따라분류한다. 포함배제기준은메타분석초기에정의되어야하며연구의선택은주제에맞는연구를모두포함시키는것이다 [15,16]. 구체적질문에대한답을주는적절한문헌을찾기위하여명확한선택과배제기준을각각제시하여야하며목적에따라논리적으로구성하여야한다. 문헌을선택할때설정된배제기준중하나라도해당되면해당문헌은배제해야하며선택기준은모두만족해야한다. 연구의선택은두단계를거치는데첫째로제목과초록을보고선택한다. 둘째로제목과초록만으로는결정을못하는경우본문을보고결정을한다. 한명의평가자가연구를선택할경우약 8% 의누락이있을수있는데비해두명의평가자가독립적으로수행할경우에는해당하는모든연구물을찾을수있다고한다 [17]. 두명의평가자가참여하여독립적으로수행한뒤일치 (inter-assessor reliability) 여부를 kappa 통계를통하여확인하고전문가의자문과함께최종적으로문헌을선택한다 [18]. 비뚤림은결과의신뢰도에영향을줄수있으므로연구의질 (quality) 을평가하여야한다. 연구의질이란연구설계, 수행, 분석, 임상적타당성 (clinical relevance) 및보고의질과관련이있는다차원적개념이다. 질평가과정은각논문이주는정보가객관적이고타당성있는지를알아보는과정이다. 모든논문의주장이다객관적인근거가있는것은아니므로객관적인결과에영향을주는비뚤림이개입될가능성이있다. 질평가는주로연구유형에초점을두며연구결과의타당성에영향을미치는비뚤림이얼마나존재하는지에의해결정된다. 그러므로비뚤림에의해중요한중재효과가모호해지기쉽다. 포함된연구의장, 단점을기록하여연구의결과가연구디자인이나수행에의하여영 12 http://www.e-hmr.org
신우종 체계적고찰과메타분석의개요 향을받는지알아볼수있다. 내적타당성이란임상연구에서계통적오류 (systematic error) 를최소화한정도를말한다. 내적타당성을위협하는비뚤림은선택비뚤림, 실행비뚤림, 탈락비뚤림, 결과확인비뚤림등이있다. 메타분석의타당성은포함된연구의질에좌우되므로질평가는반드시필요한과정이라할수있다. 연구자들은가능한많은연구물을포함시키기를원하지만질이낮은연구는메타분석에서제외하는것이연구자로하여금적은자료로더완벽한분석을할수있게한다 [19]. 질평가는근거의강점을제공할뿐아니라후속연구에필요한기준을제공한다. 질평가는연구의결과가치료나예방, 진단과정책의결정에충분히방향을제시할수있는지해답을얻는데도움을준다. 또한질평가는연구목적에맞는디자인의적절성, 비뚤림의위험도, 연구의질에관련된여러가지이슈, 측정결과의선택, 통계적인문제, 중재와보고의질, 그리고일반화등에관한내용등을포함하여야한다. 이러한질과관련된여러문제의중요성은고찰의성격과핵심내용에따라다르다. 무작위대조군연구의질을평가하는여러종류의방법이개발되어왔다 [20]. 점검목록방식 (checklist) 은무엇을보고해야하는지에대한지침서역할을하는반면척도방식 (scale) 은연구에서비뚤림을정량화하는데도움이된다. 즉연구의특성을점수화하는반면, 점검목록방식은점수와는상관이없다. 비록질평가가필요하지만이러한점검목록방식이나척도방식을사용하는데주의를해야한다 [20,21]. Moher 등은체계적고찰에서질은연속적이지않으므로독자들이무비판적으로받아들이지말것을제안하였다 [22]. Delaney 등은중환자논문에서메타분석의질을체계적으로평가하여전반적인질이낮다고보고하였으며임상의사들은이러한연구결과들을임상에적용하기전에연구물들을평가해보아야한다고하였다 [23]. 비록체계적고찰과메타분석이폭발적으로증가하고있지만이러한연구의질과관련한연구들을보면, 모든체계적고찰이반드시체계적이지않다는것을알수있다 [3,24]. 더욱이, 체계적고찰의질은매우다양하여방법론적인질평가는반드시필요할뿐아니라필수적으로해야한다 [25,26]. 이러한비판적이고광범위한고찰이있은뒤새로운지침이 (A measurement tool to assess the methodological quality of systematic reviews, AMSTAR) 체계적고찰을평가하는가장적합한가이드라인으로개발되었다 [27]. 이런질과관련된내용은전문가나고찰을수행하는인적자원에의해많이달라진다. 대부분의연구목적은의료기술의효과와합병증을포함하여야하는데일반적으로무작위대조군연구는안전이나합병증에관한내용을자세히보고하지는않고비교관찰연구에서더자세히보고되고있다. 자료의추출 필요한정보자료를체계적으로추출하고정리하는단계이다. 연구자는의료기술의목적과평가의형식에맞는자료추출양식을개발하여얻고자하는정보의양이너무자세하지않고, 또너무간결하지도않게중요한자료를추출하여야한다. 동일한표본으로서로다른연구자에의해검토를한뒤사용한다. 연구자는필요한정보가무엇인지고려하여분석에요구되는자세한정보및자료를추출한다. 일차연구물의결과크기와형식이서로달라서자료추출에있어어려움이있을수있으며, 자료를합성할때약간의변형이필요할수있다 [28]. 만약자료의합성이어려운경우에는합성을그만두고체계적고찰로분석을종료할수있다. 일반적으로자료추출의정확성과일관성을유지하는것이주관적인판단으로인한실수를줄일수있다. 두명의연구자에의해독립적으로수행되어야하며내용이일치하지않을경우토론을통해상호협의하고, 합의되지않을경우전문가의도움이요구된다. 자료의합성과분석선택된논문에서얻은결과로양적인합성을하고, 그결과를제시하는단계로통합하는방법이나연구디자인및결과의형태에따라다를수있다. 기술적결과합성은각문헌의의료결과를기술하고해석의유의점, 근거의타당성, 이질성등을기술한다. 얻은자료를합성할때일차연구들에서얻은치료중재의효과가연속성이있는지, 불연속성의가능한원인이무엇인지등을알아보아야한다. 이단계는개별연구를명확하게서술적으로요약하여야알수가있다. 즉서술적고찰이체계적분석에서반드시필요한이유이다. 메타분석에서각일차연구결과의합성은중재효과를추정하는정밀도와검정력을증가시킨다. 대부분의메타분석은먼저각연구의결과를먼저계산하고분석한뒤일차연구물의통계치를결합하여전반적인효과의결합값을얻는다. 이때효과크기의정밀도와역분산 (inverse of the variance of the effect estimate) 에비례하는가중치를사용하기도한다 [1,19]. 그러므로대규모의연구는소규모의연구에비해결합값에더많은영향을미칠수있다 [29]. 각연구의가중값에의해얻은결합값은더욱믿을만하다. 양적인합성결과는신뢰구간 (confidence intervals) 과함께점추정치 (point estimates) 로표시하거나정확한 P값으로표시한다. 민감도분석 (sensitivity analyses) 은메타분석결과가분석에사용된특정방법들이나각연구에서얻어진결론들에얼마나영향을받는지를평가하기위하여주된메타분석결과에서특정자료나분석방법에변화를준뒤다시분석하여얻은결과의견고함 (robustness) 을살펴보아결과에영향을미치는지알아보는방법으로얻은자료의임상적통계적인이질성이의심될경우할수있다 [30]. 자료추출은선택된논문에대해연구의특징과결과물에대한 http://www.e-hmr.org 13
Woo Jong Shin An Introduction of the Systematic Review and Meta-Analysis 고정 - 또는변량효과모형 (Fixed-Effect and Random-Effect Model) 메타분석을수행할때두가지분석모형에따라분석방법을다 르게할수있다. 고정효과모형 (fixed-effect model) 방법은모든연 구들은동일한중재효과 (effect of treatment) 를가지고있는데연 구결과들간에변량 (variation) 이나타나는이유는단지연구들의 표본추출변동 (random error) 때문이라고가정하는모형이다. 따라 서각연구들의중재효과들간에보이는변동 (variability in results within-study) 의크기가단순한표본추출오차에의한것이라고믿 어지는경우즉각연구들의연구디자인이나방법등이서로비슷 한경우에사용되는모형이다. 이방법으로분석하는경우에는, Mantel-Haenszel 방법, inverse variance 방법, 그리고 Peto 방법을 선택할수있으며각연구에적합한방법을선택한다. Fig. 1 은이모 형의예를보여준다. 변량효과모형 (random-effect model) 은결과 를합성하고자하는연구들사이에이질성 (heterogeneity) 이있다 는가정하에분석하는모형이다. 각효과크기들사이에관찰되는 변동은표본추출변동 (variability in results within-study) 과각연 구들사이의변동 (variability in results between-study) 이같이표 현된것이라고가정한다. 연구들사이에설명할수없는이질성이 있다는근거가있을경우에사용하며비록이질성검사결과유의 하지않은결과가나왔더라도연구들이동질하지않다고가정할 때이방법을사용한다. Fig. 2 에서두가지의변동을볼수있다. 이질성조사 (Exploring Heterogeneity) 이질성이란결합하고자하는일차연구들의다양성으로인하여 생기는차이를의미한다. 임상적또는연구방법론적인다양성으 로인해나타난다. 임상적인원인은연구가이루어진지역이나연구 대상의특성, 연구에이용된중재법의양이나강도, 또는의료결과 의차이등을의미하며, 방법론적인다양성은연구디자인과질그 리고결과의분석차이등에기인한다. 만약동질하지않다면결합된효과추정치는분석하기곤란하므로이질성의원인을알아야하며원인을밝힐수없을경우결합된요약추정치를제시하지말아야한다. 이질성을확인하는방법으로는첫번째, 숲그림 (forest plot) 을통한시각적방법과두번째, 각연구들의중재효과가공통중재효과값으로부터얼마나차이가나는지를검정하는방법인 Cochran s Q-test (chi-square test) 방법이있다. 이방법은대부분의연구대상이변량이존재하지않으며동질하다는귀무가설 (null hypothesis) 에서시작하며이를기각할수있는통계적인 power가낮다. 즉비록연구대상들사이에이질성이존재하더라도이를기각할수있는일반적인유의수준에서는유의하지않은결과를나타낼수있으므로유의수준을좀더크게 (P< 0.1) 정하여야한다. P 값이 0.10 이상일경우고정효과모형으로메타분석을수행하며, 0.10 미만일경우, 변량효과모형을고려할수있다. 그리고마지막으로비일관성을정량화시킨 Higgins I 2 -statistic 방법이있다. I 2 값이 25% 까지는이질성이낮다고하며, 50% 까지는이질성이중간정도이고, 75% 까지는 이질성이높다 라고해석한다 [31]. 그러나이질성정도의해석은효과크기의방향과정도그리고이질성에대한근거의강도에따라달라진다. 만약통계적인이질성이관찰되면, 변량의가능한원인을반드시찾아야할것이며연구들을결합할것이적절한지또는어떻게할것인지결정해야한다 [32]. 가장좋은방법은항상변량효과모형을사용하거나아니면두가지모형을모두사용한뒤치료효과의결과를비교하여보는것이다. 메타회귀분석 (meta-regression) 방법이치료효과의추정에필요한연구들의특성을조사하는데사용할수있다 [33]. 메타회귀분석은연구수준의공변량에대한연구요약추정치의회귀분석이다. 따라서분석단위는개별연구이다. 치료효과와조사된연구특성간에선형관계가있다면메타회귀분석은하위그룹분석보다통계적검정력이더크다. 메타분석과마찬가지로대규모연구는소규모의연구보다연구효과의정밀도에더큰영향을주어가중되는회귀값을나타낸다. 하위그룹분석은연구들간의이질성이임상적인원 Study A Observed True Study A Study B Observed True Study B Fig. 1. Fixed-effect model; distribution of random error. Fig. 2. Random-effect model; between study and within study variance. 14 http://www.e-hmr.org
신우종 체계적고찰과메타분석의개요 인이나 ( 성, 연령, 연구가이루어진지역이나연구대상의특성, 연구에이용된중재법의양이나강도, 질병의중증도, 진단기준, 결과변수의정의, 추적기간또는의료결과의차이등 ) 방법론적인다양성 ( 연구디자인과질, 무작위방법의차이, 연구질의차이, 그리고결과의분석차이등 ) 등에의해기인한것인지를파악하고자환자군이나연구방법의특성이비슷한연구들을소그룹으로만들어분석하는방법을말한다. 하위그룹분석은포함된연구의수가작아지므로검정력이낮아져위양성이나위음성의결과의가능성이증가하므로해석에신중하여야하며, 분석결과는연구주제에대한결론을내리기위한것이아니라이질성의원인을찾고후속연구를위한새로운가설을제시하기위한용도로사용한다. 결과의보고연구자는연구의결과를투명하게보고해야한다. 그러나연구방법과대상, 연구의수행및분석방법이명료하게보고되지않은경우가많다. 정확하지않은보고는결과의해석을어렵게할뿐아니라문헌평가에서중요한세부항목이누락된경우는결점이많은방법론으로인해부적절한것으로간주된다. 여러연구그룹에서연구의질을향상시키고자연구디자인별로꼭포함되어야할항목들을정리하여표준화된보고지침을제공하였다. 메타분석의수행과무관하게체계적고찰을보고하는흐름도 (flow chart) 와권고안이예전에는 quality of reports of meta-analyses of randomized controlled trials (QUOROM) [5] 그룹이었던 PRISMA [2] 그룹에의해개발되었다. 가독성이 (readability) 보고의가장중요한점이며독자들이실제로읽는유일한부분이요약문이나초록이므로보고에서가장중요한부분이되었다. 무작위대조군연구의메타분석에대한자세한보고지침이 PRISMA 권고안에기술되어있다 [34]. 제목에는반드시메타분석임을표시하여야하고방법에서는문헌검색과사용한데이터베이스도언급하여야한다. 문헌의선택, 질평가, 자료의추출방법과합성도기술한다. 결과항목에선연구선택의각단계에서포함된연구를보여주는흐름도를제시하여야하고 각연구의결과를보여주는숲그림으로이질성이있는지제시하고결합된요약통계치를 95% 신뢰구간과함께표시한다. 만약민감도검사나메타회귀분석을하였으면함께표시한다. 토의항목에선주요결과와가능한비뚤림과이질성의원인을기술한다. 숲그림은추정되는효과크기와신뢰구간, 그리고요약추정치를함께표시하는중요한그림이다. 각연구는크기와특성에따라구분하여있어서독자들로하여금이질성을알수있도록한다. 만약신뢰구간이겹치지않는다면연구들사이에변량이상당히있어서메타분석이어려울수도있다. 이런경우에는변량의원인을조사하여환자와연구결과사이에관계를추정하는것이필요하다. Fig. 3과 4 에서각각고정 - 또는변량효과모형의분석의사례를보여주며각연구의효과크기와신뢰구간을보여준다. 각연구의효과크기를 x 축에, 그리고정밀도를 y축에표시한산점도를보여주는깔때기그림은출판비뚤림을평가하는데사용한다 [19,35]. 전체적인표본의크기를 y축에표시할수도있으나표준오차의역의값도많이사용된다 [14]. 만약출판비뚤림이없다면산점도그림은깔때기를뒤집은모양이될것이다. 표본수가작은연구는그림에서깔때기의밑부분이넓게분포하고표본의크기가크면윗부분에모이는효과추정치의모습을보일것이다. 만약부정적인결과를보인표본크기가작은연구는출간되지않을것이며그림의왼쪽밑부분 Mean N Relative weight Mean and 95% confidence interval Study A 99.1 200 17.5% Study B 101.2 200 17.5% Study C 101.8 800 30.0% Study D 98.1 200 17.5% Study E 99.1 200 17.5% Summary 100.1 1,600 100.00% 94 100 106 Fig. 4. Example of a random-effect analysis. 20 Precision (1/SE) Mean N Relative weight Mean and 95% confidence interval Study A 99.1 200 12.5% Study B 101.2 200 12.5% 10 Study C 101.8 800 50.0% Study D 98.1 200 12.5% Study E 99.1 200 12.5% Summary 100.6 1,600 100.00% 94 100 106 0-2.0 0 2.0 Log odds ratio Fig. 3. Example of a fixed-effect analysis. Fig. 5. Example of a funnel-plot of precision by log odds ratio. http://www.e-hmr.org 15
Woo Jong Shin An Introduction of the Systematic Review and Meta-Analysis 에자료의점이없는비대칭적인그림을나타낼것이다. Fig. 5 는이 론적인깔때기그림의예를보여주고있다. 비록메타분석이근거 의최상위급의연구로여겨지고다른연구설계보다많이인용되지 만여전히잘수행된무작위대조군연구와비교할때타당성에관 한의문이여전히남아있다 [36]. 그러나메타분석의결과는치료효 과를시험하기위하여후속적인대규모무작위대조군연구를계 획하는데유용하나대규모후속연구와결과를비교하면일치하 는정도가비교적낮은편이다 [37]. 그렇다고메타분석의결과를신 뢰하지못하고메타분석을배척해야한다는것을의미하지는않는 다. 오히려메타분석과관련하여제한점과비뚤림을찾아내어비 뚤림이적은잘계획된메타분석을할필요성을보여준다. 결론 지금까지의내용은메타분석의연구에관심이있는임상의에게 실질적인내용을보여주었다. 아직까지우리나라에서메타분석은 일부에서연구물을내는초보단계이며각전문분야에서광범위하 게연구가시행되지는않고있는실정이다. 메타분석은때로는본 래가지고있는한계때문에비판을받지만그러한비판은메타분 석그자체의문제가아니라주로방법의실행중에생기는문제이 다. 메타분석은비뚤림이있는결론을피하기위해연구의질평가 와더불어엄격한방법을적용하여수행된다. 메타분석은적절하 게적용이되었을경우각연구들로부터얻은자료를확실하고명 료하게결합시키는장점이있으며또한결합에사용되는강력한도 구로서연구들에서얻은자료로부터잘못된결론을내리는것을 피하고의미있는결론을도출하는데많은도움을준다. 궁극적으 로특별한주제에대하여환자에관한결정을하는것은임상의사 이므로메타분석은근거의양및질과일관성, 연구결과의일반화 가능성, 대상집단에의직접적용가능성, 임상적영향, 수행가능성 등의내적타당도를분석한자료를바탕으로해당중재기술의안전 성및유효성에관한최종결정을하는데보다더정밀한도구로서 사용될수있다. REFERENCES 1. Berman NG, Parker RA. Meta-analysis: neither quick nor easy. BMC Med Res Methodol 2002;2:10. 2. Liberati A, Altman DG, Tetzlaff J, Mulrow C, Gotzsche PC, Ioannidis JP, et al. The PRISMA statement for reporting systematic reviews and metaanalyses of studies that evaluate health care interventions: explanation and elaboration. J Clin Epidemiol 2009;62:e1-34. 3. Stroup DF, Berlin JA, Morton SC, Olkin I, Williamson GD, Rennie D, et al. Meta-analysis of observational studies in epidemiology: a proposal for reporting. Meta-analysis Of Observational Studies in Epidemiology (MO- OSE) group. JAMA 2000;283:2008-12. 4. Petrie A, Bulman JS, Osborn JF. Further statistics in dentistry Part 8: systematic reviews and meta-analyses. Br Dent J 2003;194:73-8. 5. Moher D, Cook DJ, Eastwood S, Olkin I, Rennie D, Stroup DF. Improving the quality of reports of meta-analyses of randomised controlled trials: the QUOROM statement. Quality of Reporting of Meta-analyses. Lancet 1999;354:1896-900. 6. Horwitz RI. Large-scale randomized evidence: large, simple trials and overviews of trials : discussion. A clinician s perspective on meta-analyses. J Clin Epidemiol 1995;48:41-4. 7. Eysenck HJ. Meta-analysis and its problems. BMJ 1994;309:789-92. 8. Song F, Eastwood AJ, Gilbody S, Duley L, Sutton AJ. Publication and related biases. Health Technol Assess 2000;4:1-115. 9. Easterbrook PJ, Berlin JA, Gopalan R, Matthews DR. Publication bias in clinical research. Lancet 1991;337:867-72. 10. Stern JM, Simes RJ. Publication bias: evidence of delayed publication in a cohort study of clinical research projects. BMJ 1997;315:640-5. 11. Egger M, Smith GD. Bias in location and selection of studies. BMJ 1998; 316:61-6. 12. Egger M, Zellweger-Zahner T, Schneider M, Junker C, Lengeler C, Antes G. Language bias in randomised controlled trials published in English and German. Lancet 1997;350:326-9. 13. McAuley L, Pham B, Tugwell P, Moher D. Does the inclusion of grey literature influence estimates of intervention effectiveness reported in meta-analyses? Lancet 2000;356:1228-31. 14. Sutton AJ, Duval SJ, Tweedie RL, Abrams KR, Jones DR. Empirical assessment of effect of publication bias on meta-analyses. BMJ 2000;320: 1574-7. 15. Slavin RE. Best evidence synthesis: an intelligent alternative to meta-analysis. J Clin Epidemiol 1995;48:9-18. 16. Oxman AD, Guyatt GH. The science of reviewing research. Ann N Y Acad Sci 1993;703:125-33; discussion 33-4. 17. Edwards P, Clarke M, DiGuiseppi C, Pratap S, Roberts I, Wentz R. Identification of randomized controlled trials in systematic reviews: accuracy and reliability of screening records. Stat Med 2002;21:1635-40. 18. Kraemer HC. Correlation coefficients in medical research: from product moment correlation to the odds ratio. Stat Methods Med Res 2006;15:525-45. 19. Sutton AJ, Abrams KR, Jones DR. An illustrated guide to the methods of meta-analysis. J Eval Clin Pract 2001;7:135-48. 20. Moher D, Jadad AR, Nichol G, Penman M, Tugwell P, Walsh S. Assessing the quality of randomized controlled trials: an annotated bibliography of scales and checklists. Control Clin Trials 1995;16:62-73. 21. Juni P, Witschi A, Bloch R, Egger M. The hazards of scoring the quality of clinical trials for meta-analysis. JAMA 1999;282:1054-60. 22. Moher D, Tetzlaff J, Tricco AC, Sampson M, Altman DG. Epidemiology and reporting characteristics of systematic reviews. PLoS Med 2007;4:e78. 23. Delaney A, Bagshaw SM, Ferland A, Manns B, Laupland KB, Doig CJ. A systematic evaluation of the quality of meta-analyses in the critical care literature. Crit Care 2005;9:R575-82. 24. Jadad AR, Cook DJ, Jones A, Klassen TP, Tugwell P, Moher M, et al. Methodology and reports of systematic reviews and meta-analyses: a comparison of Cochrane reviews with articles published in paper-based journals. JAMA 1998;280:278-80. 25. Mulrow CD. The medical review article: state of the science. Ann Intern Med 1987;106:485-8. 26. McAlister FA, Clark HD, van Walraven C, Straus SE, Lawson FM, Moher D, et al. The medical review article revisited: has the science improved? Ann Intern Med 1999;131:947-51. 27. Shea BJ, Hamel C, Wells GA, Bouter LM, Kristjansson E, Grimshaw J, et al. AMSTAR is a reliable and valid measurement tool to assess the meth- 16 http://www.e-hmr.org
신우종 체계적고찰과메타분석의개요 odological quality of systematic reviews. J Clin Epidemiol 2009;62:1013-20. 28. Egger M, Schneider M, Davey Smith G. Spurious precision? Meta-analysis of observational studies. BMJ 1998;316:140-4. 29. Egger M, Smith GD, Phillips AN. Meta-analysis: principles and procedures. BMJ 1997;315:1533-7. 30. Thompson SG. Controversies in meta-analysis: the case of the trials of serum cholesterol reduction. Stat Methods Med Res 1993;2:173-92. 31. Higgins JP, Thompson SG. Quantifying heterogeneity in a meta-analysis. Stat Med 2002;21:1539-58. 32. Thompson SG. Why sources of heterogeneity in meta-analysis should be investigated. BMJ 1994;309:1351-5. 33. Greenland S, Salvan A. Bias in the one-step method for pooling study results. Stat Med 1990;9:247-52. 34. Moher D, Liberati A, Tetzlaff J, Altman DG. Preferred reporting items for systematic reviews and meta-analyses: the PRISMA statement. PLoS Med 2009;6:e1000097. 35. Egger M, Davey Smith G, Schneider M, Minder C. Bias in meta-analysis detected by a simple, graphical test. BMJ 1997;315:629-34. 36. Davey Smith G, Egger M. Meta-analysis. Unresolved issues and future developments. BMJ 1998;316:221-5. 37. LeLorier J, Gregoire G, Benhaddad A, Lapierre J, Derderian F. Discrepancies between meta-analyses and subsequent large randomized, controlled trials. N Engl J Med 1997;337:536-42. http://www.e-hmr.org 17