메타분석에서통계학적고려사항들 강현 http://dx.doi.org/0.7599/hmr.205.35..23 pissn 738-429X eissn 2234-4446 중앙대학교의과대학마취통증의학과 Statistical Considerations in Meta-Analysis Hyun Kang Department of Anesthesiology and Pain Medicine, Chung-Ang University College of Medicine, Seoul, Korea The increase in medical research has led to a large body of related studies. The huge volume of research brings about a problem of how to organize and summarize the findings of studies. Meta-analysis is a statistical technique for combining the results from two or more studies, which addresses a similar hypothesis in a similar way. Meta-analysis includes the complete coverage of all relevant studies, and describes the results of each study via a quantitative index of effect size. Meta-analysis presents the precise estimate of treatment effect via combining these estimates across studies. Further, meta-analysis looks for the presence, degree and cause of heterogeneity, and explores the robustness of the main findings using statistical techniques. The author dealt with the some statistical issues and considerations which should be considered in conducting and presenting meta-analysis with explanation (ie. Effect size, Fixed and Random effect model, Heterogeneity, Reporting bias, and Meta-analysis Packages). This article may remind readers to conduct and evaluate the meta-analysis systematically and comprehensively. Key Words: Research Design; Heterogeneity; Meta-Analysis; Review; Statistics Correspondence to: Hyun Kang 우 56-755, 서울시동작구흑석로 02, 중앙대학교의과대학마취통증의학과 Department of Anesthesiology and Pain Medicine, Chung-Ang University College of Medicine, 224- Heukseok-ro, Dongjak-gu, Seoul 56-755, Korea Tel: +82-2-6299-257 Fax: +82-2-6299-2585 E-mail: roman00@naver.com Received December 204 Revised 26 December 204 Accepted 9 January 205 This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited. 서론의학분야에서는환자의생명을연장하기위하여그리고삶의질을향상시키기위하여많은연구들이시행되었으며, 시행되고있다. 이중많은연구들이비슷한질문에답하기위한, 비슷한주제를다루고있다. 하지만이연구들이항상비슷한결과를보이는것은아니며, 오히려상반된결과를보이는경우도있다. 연구들중에는특정한중재가유의하게좋은효과를보인경우, 중재가좋은효과가있어보이지만통계학적으로유의성에이르지는못한경우, 중재가오히려나쁜결과를보인연구등도있을수있다. 이럴경우우리는연구의결과들을받아들이고, 현실에적용하는데있어어려움을느끼게될것이다. 또한어떤주제에있어서는개별적인연구들이중재군에서대조군에비하여좋은효과가있어보이지만적은표 본수로인하여, 통계학적으로유의한효과를보이지못할수도있다. 이결과들을적절한통계학적방법을이용하여통합할경우유의한결과를보일수있다. 메타분석 (meta-analysis) 은두개이상의개별적인연구들의추정치를종합하여요약추정치 (pooled estimate) 를합성하는통계적방법을말한다. 다시말해, 연구들에서제시된결과들의통합된요약추정치를정량적으로 (quantitatively) 산출하여효과및효율성을평가하기위해사용되는통계적기법이다. 그렇기때문에메타분석을분석들의분석이라고부르기도한다. 체계적문헌고찰 (Systematic review) 과메타분석은흔히같은의미로혼용되어사용되고있지만, 이둘은명확한차이가있다. 체계적문헌고찰은특정한연구질문에답하기위하여객관적이고재현성이확보된방법론을사용하여확보가능한모든연구들을수집한후, 이연구들에서나온결과에대 http://www.e-hmr.org 205 Hanyang University College of Medicine 23
Hyun Kang Statistical Considerations in Meta-Analysis 한고찰과분석을실시하여, 그것들을제시하는것이다. 따라서많은체계적문헌고찰에서메타분석을시행하고있지만, 반드시메타분석을시행하여야하는것은아니며, 메타분석을시행할수도, 시행하지않을수도있다. 예를들어연구들간의특성이너무이질적이면자료의통합을시도하지않을수있다. 반대로메타분석또한많은경우에서체계적문헌고찰을시행한후메타분석을시행하지만, 체계적문헌고찰을시행하지않고도메타분석을시행할수있다 [,2]. 메타분석과체계적문헌고찰을시행할경우생기는장점은 () 실험환경에차이가있는독립적인연구들을종합하여일반화시킬수있으며, (2) 많은개별적인연구결과를근거로가설을검증하므로, 일부연구결과에만치우치지않는종합된결과를제시할수있으며, (3) 표본수가증가하므로단일연구로부터개발한효과크기 (effect size) 보다는신뢰할만한효과추정치를얻을수있으며, (4) 상이한연구결과가있을때, 그원인규명이가능하며, (5) 상반된연구들사이에서발생하는논쟁을조절할수있다는장점이있다 [3,4]. 하지만, () 마치사과와오렌지를한데섞는것과같이서로비교할수없는다른성질의연구결과들을종합하려는것은비논리적이며, (2) 타당성이낮은연구와높은연구의결과를구별하지않고그대로종합하여왜곡된결론을유도할수있으며, (3) 동일한연구에서여러개의결과를얻었을때이중하나만사용할경우에는정보를상실할수있으며, 여러개모두쓸경우비독립적인자료를독립적인것처럼사용할수있으며그리고 (4) 종합할연구를수집할때대개출판된연구만을표집대상으로하기때문에연구물표집의대표성이문제될수있다는비판을받고있다 [5-7]. 메타분석을위해서는통합하고자하는주제와관련된선행연구물들의수가충분하여야한다. 연구자는연구자가시행하고자하는연구에서의질문과분석목적에관련된선행연구들을조사하고수집하며, 선행연구들에서제시한정보들중, 통합가능한정보들을수집한후, 종합하여통합된연구결과를제시한다. 연구결과를종합하는데있어, 동일한주제를대상으로시행된연구들이라할지라도서로일치하지않은척도를가진경우에는, 그결과들을요약하기위하여동일척도로바꾸어주는표준화과정이필요하게되는데, 이러한표준화된척도를효과크기 (effect size) 라한다. 효과크기 (effect size) 효과크기는메타분석에서연구의결과를요약하기위해사용되는정량적인 (quantitative) 지수이다. 즉효과크기는각연구에서관심을가지고있는관계의크기혹은강도를반영한다. 어떤의미에서, 효과크기는모든연구의결과들이쉽게해석, 비교, 통합될수있도록, 표준화된척도로요약하는것이다. 효과크기에는많은종류의효과크기가있으며, 메타분석을시행할때, 연구의결과를쉽게분석할수있게하고, 연구들간비교를할수있도록효과크기 를선택하여야한다. 먼저, 효과크기의추정치 (estimate) 와효과크기의모수 (parameter, 실제효과크기 ) 를구별하는것이중요하다. 효과크기의추정치는표본을대상으로한연구에서구해진표본에서의효과크기로, 연구마다얻어진표본이다르므로, 연구에서제시된효과크기가약간씩다를수있지만, 효과크기의모수는모집단에서의효과크기로, 모집단은고정되어있으므로, 변하지않는실제효과크기이다. 조사한연구에서얻을수있는것은효과크기의추정치이며, 우리는효과크기의추정치를이용하여, 효과크기의모수에대한추정을하게된다. 만일연구의표본이매우크거나표본의변동이무시할수있을정도로작을경우에는, 효과크기의추정치가효과크기의모수라고가정할수있다. 효과크기의선택은개별연구에서사용된, 연구디자인, 결과측정방식, 통계적용방식등에따라달라질수있다. 연구에서사용된효과크기는대부분, D family ( 표준화된평균차등 ), Odds ratio family ( 승산비등 ), r family ( 상관계수등 ) 중하나로분류할수있다.. D family: 평균차 (mean difference) 와표준화된평균차 (standardized mean difference) 많은연구에서치료혹은처치의효과에대한결과를연속형척도로제시하거나, 척도의수가많은순서형척도로제시하게된다. 이런경우에는평균차 (mean difference) 혹은표준화된평균차 (standardized mean difference) 를효과의크기로사용하게된다. 동일한측정도구로측정한경우에는평균차이 (mean difference, MD) 를이용하며, 다양한측정도구로측정한경우에는연구결과를동일한단위로표준화한, 표준화된평균차 (standardized mean difference, SMD) 를이용한다. 표준화된평균차는치료군에서의표본평균과대조군에서의표본평균의차를통합표준편차로나눈값이다. 표준화된표본평균차의공식은다음과같다. X T - X C d = S X T : 치료군에서의표본평균, : 대조군에서의표본평균, S: 통 X C 합표본표준편차여기에서통합표본표준편차의공식은다음과같다. (n T - )ST 2 + (n C - )SC 2 S = n T + n C - 2 n T : 치료군의표본수, n C : 대조군의표본수, S T : 치료군의표준편차, S C : 대조군의표준편차여기에서표준화된표본평균차에해당되는표준화된평균차의모수값은다음과같다. μ T - μ C δ = σ 24 http://www.e-hmr.org
강현 메타분석에서통계학적고려사항들 μ T : 치료군에서의모평균, μ C : 대조군에서의모평균, σ: 통합모표 준편차 이러한표준화된평균차는표준편차의단위가평균의단위와 같으므로쉽게해석할수있으며, 다른측정도구를이용한연구들 에서도동일한의미를갖는것으로해석할수있다 [8]. 표본추출할때표준화된평균차에생기는불확실성 (uncertainty) 은다음과같은분산 (variance) 의공식으로나타낼수있다. n T + n C V = + δ 2 n T n C 2(n T + n C ) n T : 치료군의표본수, n C : 대조군의표본수, δ: 표준화된평균차 의모수값, 여기에서표준화된평균차의모수값 (δ) 은표준화된표 본평균차 (d) 로대신할수있다. 이공식에서치료군과대조군의표 본수를알아야, 분산을계산할수있다는점을알아야한다. 표준화된평균차는정규분포를따르는경우가많으며, 표준화 된평균차가정규분포를따르고있다면, 분산의제곱근인표준편 차를이용하여효과크기의모수값 ( 즉실제효과크기 ) 에대한신 뢰구간을계산할수있다. 효과크기의모수값 (δ) 에대한 95% 신뢰구간은다음과같이계 산할수있다. d -.96 V δ d+.96 V d: 표본에서얻어진표준화된평균차, V: 표본추출에서의표준 화된평균차의분산 표준화된평균차에대한몇개의다른공식들이효과크기의모 수값 ( 실제평균차 ) 을계산하는데사용할수있다 [9]. 2. Odds ratio family: 승산비 (odds ratio), 상대위험도 (relative risk), 위험차 (risk difference), 효과발현필요 증례수 (number needed to treat, NNT) 이산형변수는대개승산비, 상대위험도, 위험차, 효과발현필요 증례수중한가지로보고하고있다 (Table )[0]. ) 상대위험도 (risk ratio or relative risk): 두군간의사건이발생할 Table. Results presenting as dichotomous data Number of events Number of non-events Total Experimental Group a b a+b Control Group c d c+d Total a+c b+d a+b+c+d 확률간의비율 Table 에서중재군에서사건이발생할확률 (p T a ) 은 a+ b이며대조군에서사건이발생할확률 (p C c ) 은 c+ d 이므로, 대조군에서사건이발생할확률에대한중재군에서사건이발생할확률의비율 (relative risk, RR) 은다음과같다. P T = P C 2) 승산비 (odds ratio): 두군간의사건의오즈에대한비율 Odds의정의는사건이일어나지않을확률이다. 여기에서사건이일어날확률과일어나지않을확률의합은 이므로, 사건이일어날확률을 p 라고생각하면사건이일어나지않을확률은 -p가되며, 사건에대 p 한 odds는 p 가된다. Table 에서중재군에서사건이일어날확률 (p T a ) 은 a+ b 이므로중재군에서사건에대한 odds T 는다음과같다. 대조군에서사건이일어날확률 (p C c ) 은 c+ d 이므로, 대조군에서사건에대한 odds C c 는같은요령으로계산하면 d 가된다. 따라서두군간의사건의 odds의비율 (odds ratio, OR) 은다음과같다. a odds T b a d = c = odds C b c d 3) 위험차 (risk difference): 두군간의사건이발생할확률의차이 a 중재군에서사건이발생할확률 (p T ) 은 a+ b 이며대조군에서사건이발생할확률 (p C c ) 은 c+d 이므로, 두군간의사건이발생활확률에대한차이는다음과같다. p T p C a c = a+ b c+ d 4) 효과발현필요증례수 (number needed to treat, NNT): 위해를 피하거나편익을발생시키기위해대조중재에비해시험중재를 더받아야하는증례의수 효과발현필요증례수는다음과같다. 이산형변수에서는표준화된비율차 (risk difference), 로그승산 비그리고로그상대위험도등으로유효크기 (effect size) 를정의한다. 로그승산비를예를들어설명하면, 표본에서의로그승산비는 다음과같다. odds T : 표본치료군에서사건이발생할오즈, odds C : 표본대조군 에서사건이발생할오즈, p T : 표본치료군에서사건이발생할확률, p C : 대조군에서사건이발생할확률 표본로그승산비에해당하는로그승산비의모수 ω 값은다음 과같다. a a+ b c c+ d = (c+d) a (a+b) c 사건이일어날확률 a a a P T = a+ b = a+ b = a+b a = a P T (a+b)-a a b a+ b a+ b a+b = = Risk Difference pt pc a c a+b c+d p T log(or) = log( odds T p ) = log( T ) odds C p C p C http://www.e-hmr.org 25
Hyun Kang Statistical Considerations in Meta-Analysis π T 다음과같다. ω = log( ODDS T π ) = log( T ) ODDS C π C + r π C z = log( ) 2 r ODDS T : 모치료군에서사건이발생할오즈, ODDS C : 모대조군 에서사건이발생할오즈, π T : 모치료군에서사건이발생할확률, π C : 모대조군에서사건이발생할확률 로그승산비는연구간에비슷한의미를가지고있기때문에결 합하여통합추정치를만들더라도적절한것으로알려져있어서이 분형변수의분석에서자주사용되고있다 [0]. 표본추출할때로그승산비에생기는불확실성은다음과같은 분산의공식으로나타낼수있다. V = + + + n T p T n T ( p T ) n C p C p C ( p C ) = + + + (a+b) a (a+b) b (c+d) c (c+d) d (a+b) (a+b) (c+d) (c+d) = a + b + c + d n T : 치료군의표본수, n C : 대조군의표본수, p T : 표본치료군에서 사건이발생할확률, p C : 표본대조군에서사건이발생할확률 표준화평균차의경우와같이, 로그승산비도대략정규분포를 따르는경우가많으며, 분산의제곱근인표준편차를이용하여로 그승산비의모수값, 즉실제효과크기에대한신뢰구간을계산할 수있다. 효과크기의모수값 ω 의 95% 신뢰구간은다음과같이계산할 수있다. log(or) -.96 V ω log(or) +.96 V r: 표본상관계수, z: 표본상관계수를 z-transformation 한값 표본상관계수의 z-transformation 에해당하는모상관계수의 z- transformation 은다음과같다. r 에상응하는모상관계수는모집단의상관계수이며, z 에상응하 는 ζ 는 ρ 의 Fisher z-transformation 을시행한값이다. 상관계수를 z-transformation 한값은대체로정규분포를따르 며, z-transformation 한상관계수의표본추출의불확실성또한분 산공식을이용하여표시할수있다. n: 연구에서의표본수 효과크기의모수값 ρ 의 95% 신뢰구간은다음과같이계산할수 있다. + ρ ζ = log( ) 2 ρ V = n 3 r -.96 V ρ r +.96 V 앞서설명한각효과크기는상호간에전환이가능하며, 이에해 당되는공식들이제시되고있으나, 이를적용할때는전환여부에 대한충분한검토가이루어져야만한다. 고정효과모형 (fixed effect model) 과변량효과모형 (random effect model) 이분형변수에서는위험비, 위험차와같은것들이효과크기를 계산하는데사용할수있으며, 로그위험비와로그위험차의분산공식은다음과같다. V log(risk ratio) = + a a+b c c+d V ab cd log(risk difference) = + (a+b) 3 (c+d) 3 표준화된평균차에대한몇개의다른버전의공식을효과크기 를계산하는데사용할수있다. Odds ratio family 의로그승산비, 로그상대위험도, 로그상대위험차는대표본에서정규분포를한 다는가정을이용한정규근사를이용하게된다. 3. The r family: 상관계수 (correlation coefficient) 많은연구들에서두가지의연속형변수사이의관계를측정하 고있으며, 상관계수를이용하여효과크기를제시하고있다. 이러 한상관계수에서통계분석을수행하기위하여 Fisher 의 z-transformation 을시행하게된다 []. Fisher 의 z-transformation 공식은 메타분석은먼저개별연구의요약추정치 (summary estimate) 를계산하며, 각각의연구에가중치를준후, 가중치가부여된평균 (weighted average) 을이용하여각연구들을종합한통합요약통계통계량을산출하는순서로진행이된다. 여기에서가중치는대개표본수의크기에근거하여부여하게되는데, 소규모의연구는대규모의연구에비해우연에의한영향을더많이받을수있기때문에요약추청치를계산하는데있어대규모연구에대하여상대적으로더많은가중치를부여하는것이다 [2]. 요약추정치의모수값을추정하는데있어, 앞서설명한효과크기의계수들중어떤것을사용하더라도메타분석의통계방법은유사하다. 메타분석에서유효크기들을통합하는방법에는동일한모집단을가정하여, 각모수들의변화량을연구내의변동량에의해서만설명하는고정효과모형 (fixed effect model) 과연구간의변동량을추가로고려하는변량효과모형 (random effect model) 이있다. 이들두모형의차이는얻어진요약추정치가어떤분포에서얻어진자료인지에대한통계학적관점의차이라고도할수있다 [8]. 대개메타분석은먼저연구내의변동만을고려하는고정효과모 26 http://www.e-hmr.org
강현 메타분석에서통계학적고려사항들 형으로분석을실시한다. 하지만동일하지않은실험환경, 대상, 연 구방법에의하여, 연구들간의동질성을만족하지않는경우가발 생한다. 동질성을만족하지못하는연구결과들을대상으로연구 간변동을고려하지않고통합하게되면비뚤림 (bias) 을유발할수 있다. 이러한이유로유효크기의모집단에대한동질성검사를실 시하여야하며, 동질성을만족하지못하면연구간의변동을고려 한변량효과모형을가정하여추론한다.. 고정효과모형 (fixed effect model) 고정효과모형은통합하고자하는연구들의연구집단, 중재법이 동질하다고판단되는경우, 연구들의수가매우적은경우에사용할 수있다. 고정효과모형은각연구들에있어모집단은동일하며, 중재 효과의참값은단하나만존재 (common true treatment effect) 한다 는전제하에, 관찰된치료효과값들의차이는표본추출의오차 (sampling error) 때문이라는가정에서출발하는모형이다 (Fig. ). (θ : 표본추출된효과크기, μ: 효과크기의모수와 ε : 표본추출의 오차 ) θ = μ + ε 이때, 평균 θ 는단하나의값만가지고있으므로고정된상수이 며, ε 는표본추출에의하여발생한오차이다. 연구들의효과크기차이에관련된변동은단지 i 번째연구의연 구내변동 (within-study variation) 인 Var( θi) 라고가정하며, 효과 크기의추정량 θ 은정규분포를따르거나, 최소한근사적으로정규 분포를따른다고가정한다. 그러면, 효과크기의추정량 θ 는 θi ~N(θ i, Var( θi)), i =, 2, 3,.., k 로표현할수있다. 앞서기술한효과크기들중, 표준화된평균차와 Fisher z-transformed 상관계수에서는정규성에대한가정이거의완벽하게맞아 떨어지지만, z-transformation 되지않은상관계수나로그승산비에 서는정규성에대한가정이표본수가아주많이커지지않은이상 Effect Size Extimate (θ) in Each Study Effect Size Parameter (μ) = True Effect Size Fig.. Graphical presentation of fixed effect model. With-in Study Variation (ε) = Random Error 성립되지않는다. 개별연구의요약추정치 (summary estimate) 에가중치를부여한 평균 (weighted average) 을이용하여각연구들을종합한통합요약 통계량을산출하게되는데, 가중평균은다음의식으로계산이가 능하다. θ = θ: 합성된유효크기의가중평균, θi: i번째연구에서추정된효과 크기, wi: i 번째연구의가중치 고정효과모형에서사용하는방법은역분산 (generic inverse variance) 추정법, 멘텔 - 헨젤 (Mantel-Haenszel) 추정법, Peto 추정 법, 최대우도 (Maximum likelihood) 추정법등이있다 [8]. ) 역분산추정법 (generic inverse variance estimation method) 메타분석에서가중치를주는데있어가장많이사용되는방법 으로, 효과추정치분산의역수를개별연구의가중치로사용한다. 표본수가큰연구는작은분산을가질것이고, 분산의역수는커지 게될것이므로, 표본수가큰연구에더큰가중치를주기위해사 용하는방법이다. 이방법은결합하고자하는연구들의수는적지 만, 각연구들의표본수가큰연구들인경우에효과적인방법이다. 역분산추정법을이용한 i번째연구에서추정된효과크기 θ 의 통합추정량은다음의식으로계산된다. 여기에서가중치인 w 이며, 는 i = N θ, SE 2 θ가고정된값을 Σ k w i= i 가지며, 평균 θ와분산인정규분포를한다고가정한다는것 을나타낸다. 2) 멘텔 - 헨젤추정법 (Mantel-Haenszel estimation method) 2 by 2 table 을만들수있는자료에서사용이가능하며, 사건발 생률이낮거나, 표본수가작지만연구의수가많을때효과적인방 법이다. 이방법은승산비나상대위험도, 위험도차에대해로그변 환을실시하지않고있는값자체를사용한다. θ: 합성된유효크기의가중평균 θi: i번째연구에서추정된효과 크기, wi: i 번째연구의가중치 θ가승산비일경우 a d θi는 b c 이며 여기에서 wi는 VAR 이며 VAR은 i번째연구에서의분산이다. 역분산법에서와같이승산비, 상대위험도, 위험차에대한분산공식 은다르다. θ w i Σ k i= Σ k w i= i Σ k i= Σ k w i ( ) θ w i θ = ~ N θ, Σ k w i= i= i θ = θ w i Σ k i= Σ k w i= i Σ k w i= i ( ) http://www.e-hmr.org 27
Hyun Kang Statistical Considerations in Meta-Analysis (a + b) + (c + d) () VAR(OR) = b c (a + b) + (c + d) (2) VAR(RR) = (a + b) c (a + b) + (c + d) (3) VAR(RR) = (a + b) (c + d) 멘텔-헨젤추정법에서는공동승산비 (pooled odds ratio), 공동 상대위험도 (pooled relative risk), 공동위험차 (pooled relative difference) 를추정하여이용하게된다. 3) Peto 의추정법 Peto 의방법은승산비에서만사용가능하며, 이경우로그승산 비를유효효과로정의하고추정하게된다. 결과수가적거나, 사건 발생률이낮을경우 ( 사건발생률이 % 미만 ), 그리고실험군이나 대조군에서결과가발생하지않은경우 ( 빈칸 (zero cell) 이있는경 우 ) 에효과적인방법이다. 이방법은치료효과크기가작을경우 ( 승 산비가 에가까운 ), 개별연구들이각각유사한수의실험군과대 조군을가지고있을때사용하게된다. 집단간표본수에불균형이 클경우에는효과를과대추정하게하며, 실제효과크기가큰경우 에는과소추정을하는경향이있다. 따라서, 두군간의대상환자 수가매우다르거나, 효과크기가매우크거나, 사건발생률이 5% 이상이라면멘텔 - 헨젤방법을사용하는편이나을수있다. 2. 변량효과모형 (random-effects model, dersimonian-laird estimation method) 변량효과모형은각연구들에있어중재효과의참값은단하나만 존재하는것이아니라각연구들에있어중재법의효과는어떤중 재효과평균참값 (true average treatment effect) 을중심으로정규 분포를따른다고가정하는모형이다. 즉, 각연구들은중재효과평 균참값을중심으로퍼져있는모집단내연구들로부터무작위로 추출된연구들이고, 이추출된연구들의평균값은평균참값을중 심으로정규분포를따른다는의미이다 (Fig. 2). Between Study Variation (τ) Effect Size Extimate in Each Study (Τ) Effect Size Parameter in Each Study (θ) Common Effect Size Parameter (μ) Fig. 2. Graphical presentation of random effect model. Within Study Variation (ε) Between Study Variation follows Normal Distribution 변량효과모형은다음과같이표시할수있다. T = θ + ε = μ + τ + ε (T: 진실된중재효과 θ 과변동 ε 을가진분포로부터표본추출 된효과크기. 여기서중재효과의참값 θ 은평균 μ 와변동 τ 을가진 분포로부터표본추출된것임 ) 따라서각연구의중재효과들간에관찰되는변동 (variation) 은 각연구들간의변동 (between-study variation, τ) 과표본추출의오 차 (within-study variation: random variation, ε) 를포함한것이라 고가정한다. 그러므로, 자료통합시연구들간의변동과표본추출 의오차를모두고려한가중치를사용하여야한다. 변량효과모형에서의가중치 연구간변동의추정치가 0 인경우 ( 연구간이질성이없는경우 ) 변량효과모형은고정효과모형과동일한추정치를제공한다. 하지 만연구간의이질성이심할때변량효과모형은더많은변동을인 정하기때문에, 고정효과모형에비해치료효과의유의성에대해 좀더보수적인추정치 ( 더넓은신뢰구간 ) 를제공한다. 변량효과모 형은고정효과모형에비해작은규모의연구에더높은가중치를 주고, 더큰규모의연구에는더낮은가중치를주기때문에치료 효과의추정치는두모형간에다를수있다. 변량효과모형에서각연구들은동일한중재효과를추정하기보 다는다른중재효과를추정하며, 다음과같은경우에변량효과모 형을고려할수있다. () 메타분석에포함된연구의인구집단, 중재법등이동질하지 않다고판단될때 (2) 메타분석의목적이일반적으로폭넓은인구집단에서일반화 시키는것일때 ( 예, 연구대상이나중재법의다양성으로하나의치료효과크기 를가정하기어려운경우 ) 변량효과모형에서의가중치는연구간변이 (between studies variation, τ) 가포함된다는것이고정효과모형과다른점이며어떤 추정방법을사용하느냐에따라연구간변이를구하는방법이달 라진다. 이를위한통계적방법으로는가중최소제곱 (weighted least squares) 추정법, 비가중최소제곱 (unweighted least squares) 추정법, 최대우도 (maximum likelihood) 추정법등이있다. 변량효과모형에서가중치를추정할때일반적으로사용되는방 법은가중최소제곱추정법인 Dersimonian and Laird 추정법이다 [3]. weight = variancewithin study + variance between study (τ 2 ) weight = w i = D + variance w i 이질성이있을경우변량효과모형을사용하게되지만, 변량효과 모형이이질성문제를해결하기위한이상적인방법은아니다. 변량 28 http://www.e-hmr.org
강현 메타분석에서통계학적고려사항들 효과모형은비뚤림이나교란변수를보정해주지않으며, 이질성 (heterogeneity) 을일으키는원인을해결해주는것도아니기때문에연구간이질성이심할경우변량효과모형으로부터계산된효과추정치는부적절할수있다. 그러므로변량효과모형이이질성을설명하기위한것으로대체되어사용되어서는안된다. 연구들간에나타난이질성정도가지나치게클경우에는변량효과모형을이용한통합방법을사용하지않고, 결과를따로제시하는것이더좋은방법이될수있다. 이질성 (heterogeneity) 메타분석을시행하는목적은요약추정치 (summary estimate) 를알아내는것만이아니며, 연구결과에서의양상을알아내는것또한중요하다. 연구결과의양상이일관되게나타난다면그의미가무엇인지, 일관되지않게나타난다면, 그의미가무엇인지, 일관되지않게만드는원인을파악하는것이중요하다. 여기서일관되지않게나타나는성질을이질성이라고하며, 메타분석에서의이질성이란메타분석에서통합되는개별연구들의결과에서나타나는변이 (variation) 가표본추출에서생기는변이이상으로관찰되어, 변이가우연에의하여발생하였다고설명할수없는경우를의미한다. 이질성은임상적다양성, 방법론적다양성, 우연 (chance), 비뚤림에의해발생할수있다. 임상적다양성은연구에서대상이된환자나집단들의연령, 성별, 질병의중증도, 진단명등과같은성격, 연구에서사용된중재법, 병용중재법, 결과를측정하기위해사용된방법및척도의차이, 추적조사기간등에의해발생할수있으며, 방법론적다양성은사용된연구의유형과배정순서은폐, 눈가림과같은비뚤림을일으킬수있는요소를포함하는연구방법에서의질적차이등에의하여발생할수있다. 이질성은또한우연에의해발생할수있는데, 표본크기가작은연구나사건발생률이낮은연구들은표본추출시우연히효과가크게나타날수있다. 이질성은연구비출처나출판등에의한비뚤림에의해서도발생할수도있다. 이질성의존재여부및정도는그래프를이용한시각적검사나, 통계적검정에의하여확인할수있다. 그래프를이용한시각적검사방법에서가장대표적인방법은숲그림 (Forest plot) 을그린후개별연구들의치료효과값의방향성과신뢰구간이겹치는지확인함으로써이질성을확인하는방법이다. 만일신뢰구간이겹친다면, 이질성이적은것으로판정하며, 신뢰구간이겹치는부분이적게된다면, 추가적으로통계적검정방법을통하여이질성여부및정도를확인하여야한다. 그래프를통한이질성여부및정도를확인하는또다른방법으로 L Abbe Plot과 Galbraith plot을이용하는방법이있다. L Abbe Plot은이항변수자료에대하여대조집단과중재집단의확률을통합과정에서사용되는가중치가고려된원들을 X-Y 평면에표시 하여시각적으로확인하는방법으로연구들이원점에가까운구 름모양의직선형태이면동질성을만족한다고판정한다. Galbraith plot 효과크기의표준오차의역수와표준화된효과크기를 X-Y 평면에표시하여시각적으로확인하는방법이다. 원점을지나 는회귀선을추정하고회귀선을기준으로 ±2 안에점들이들어있 으면, 동질성을만족한다고판정한다. 하지만이두방법모두흔히 사용되지는않는다. 이질성을확인하기위한통계적검정방법으로는카이제곱검정 법 (Q statistics), Higgin s I 2 statistic 등이있다.. 카이제곱검정법 (Q statistic) 이질성검정을위한카이제곱검정은 Q 통계량이라고도하며, 각연구들의중재효과가공통중재효과추정치로부터얼마나멀리 떨어져있는지검정하는방법이다. Cohe 의 Q 통계량은 k 개의연구결과들이동질하다는귀무가설 H0 : W = W2 = = Wk 을검정하게된다. Q 통계량은다음과같은공식으로부터계산이가능하다. Q= Σ k W i (Y i M) 2 ~ χ 2 (k ) i= 여기에서 W i = = 이므로 v i s 2 i Y i M = Σ k ( ) 2 i= Si ( ) ( ) Y i Y i M M = Σ k 2 2 ( 2 + ) i= Si Si Si Y i Y i M M = Σ k 2 2Σ k + Σ k i= Si 2 i= Si i= Si 2 = Σ k W Y 2 i= i i (Σ k W Y ) 2 i= i i Σ k i= W i Wi: i 번째연구의가중치, Yi: i 번째연구의효과크기, V i: i 번째연 구의분산, S i: i 번째연구의표준편차, M: 요약추정치 ( 공통중재효과 ) 만일 Q 값이크면 M 의변동성이크다는것을의미하므로귀무가 설 H0 : W = W2 = = Wk 를기각하여연구결과가서로동질적 이지않다고결론을내린다. 카이제곱검정은 χ 2 분포를이용하여, P 값을제시해주므로, 객관 적인판단을할수있게해주기는하지만, 효과크기에민감하지않 고, 연구의수에민감한특징을가진다. 따라서연구들이작은규모 이거나포함된연구의수가적을때낮은검정력을가지며, 연구수 가많을때는높은검정력을가지게된다. 메타분석에서는연구의 수가적으므로, 낮은검정력을가지게되어, 중요하지않은이질성 을발견해낼가능성이증가하게되므로, 해석에주의를기울여야 한다. 그러므로낮은검정력을가질수있다는점을고려하여, 0.05 대신 0.0 을통계적유의수준으로사용한다 [4]. 2 http://www.e-hmr.org 29
Hyun Kang Statistical Considerations in Meta-Analysis 2. Higgin s I 2 statistic [5]. Higgin s I 2 통계량은이질성의정도를정량화시킨통계량이다 Q df I 2 = 00% Q Q: 카이제곱통계량 (Q-statistic), df: Q statistic 의자유도 I 2 는일종의 noise ratio 로관찰효과의전체변동량중이질성으 로인한변동량의비율이다. I 2 는 Q 통계량과는달리, 척도나연구 의수모두에민감하지않은특징을가진다. I 2 는 0% 에서 00% 사이의값을가지게되며, 이질성이없다면 0% 가되며, 이질성이증가함에따라 I 2 값이증가하게된다. 여러가지해석기준이존재하고있으나, 일반적으로해석을위 해제시된기준은다음과같다. 0% I 2 25%: 이질성이낮음 25% I 2 75%: 중간정도의이질성이있을수있음 75% I 2 00%: 상당한이질성이있음 보통고정효과모형과변량효과모형의선택은 I 2 = 50% 를기준으 로하게된다. 이질성이있는경우의메타분석 메타분석을실시하는도중에이질성이확인되었다면, 먼저문 헌선정에서부터입력된자료들이정확한지다시한번확인하여야 한다. 메타분석의기본적인가정인동질성을충족시키지못한다고 판단이된다면메타분석을시행하지않고, 체계적문헌고찰만을 실시할수있다. 어느정도이질성이있는경우, 이질성이있는연구들의통합을 위하여변량효과모형을사용할수있다. 이질성이있는연구들에 서변량효과모형은고정효과모형에비해상대적으로작은규모의 연구들에더많은가중치를준다. 변량효과모형의분산은고정효 과모형에서의표본추출오차에추가적으로연구간변동을포함 한다. 따라서변량효과모형에서의변동이커지게되며, 요약추정치 의신뢰구간은고정효과모형에서보다상대적으로넓어지게된다. 또한이질성이존재할경우이질성의원인을찾아볼수있는데, 이를위해서는하위그룹분석이나, 메타회귀분석, 민감도분석을실 시할수있다 [6].. 하위그룹분석 (subgroup analysis) 연구들간의이질성을해석하고이질성의원인을분석하기위해 서는, 동질할것으로기대되는하위그룹을나눈후하위그룹별로 분석한후이를비교하여원인을분석해볼수있다. 하위그룹분석 의목적은연구들간의이질성이임상적인특성이나방법론적인 특성에기인하는지파악하고자하는것이다. 임상적인특성에는포 함, 배제기준, 기저질환, 인구학적특성, 진단기준, 결과변수에대한정의등이포함되며, 방법론적인이질성에는연구설계의차이, 연구의질의차이등에기인하는지파악하는것이다. 무작위대조군연구에서하위그룹분석을연구전에사전에계획하라고제시되는것처럼, 메타분석에서도하위그룹분석은사전에계획되어야한다. 하지만분석을수행할변수를사전에모두알기는어렵기때문에이질성을확인한후몇몇변수에대해서하위그룹분석을할수는있으나, 사후하위그룹분석을시행할경우해석에많은주의를기울여야한다. 또한하부그룹분석을시행할경우연구의수가더욱작아지기때문에검정력이낮아지게되며, 이로인해해석에더욱주의를기울여야만한다. 사전에구체화된특성들에서하위그룹의수를제한하여통계적인오류의가능성을줄여야하며, 하위그룹이분석되는데영향을미치는연구결과들을연구자가모르게하여비뚤림이있는결과를이끌어낼가능성을줄여야한다. 2. 메타회귀분석 (meta-regression) 메타회귀분석은개별연구들에서하나혹은그이상의공변량에대한연구요약추정치의회귀분석이다. 공변량이개개의대상의수준이아니라연구수준이라는점을제외하면개별연구에서이용하는회귀분석을메타분석에적용하였다고생각해볼수있다. 치료효과와조사된연구특성간에선형관계가있다면메타회귀분석은하위그룹분석보다통계적검정력이더크다 [7]. 회귀분석에서종속변수인 y축에는중재효과크기인로그변환된승산비 (lnor), 표준화된평균차 (SMD), 가중평균차 (WMD), 로그변환된상대위험도 (lnrr), 로그변환된 hazard ratio (lnhr) 등이되며, 설명변수인 x축은중재효과의크기에영향을미칠수있는공변량인연구들의특성이된다. yi = β0 + βx + β2x2 + + ε yi: i번째연구의효과크기, β0: 추정된전체효과크기, xi: 중재효과의크기에영향을미칠수있는연구의특성, ε: 연구간변동연구들간의모든변동은회귀모형에포함되는공변량으로설명이가능하다고생각될때고정효과메타회귀분석을사용하는것이적절하며, 변량효과메타회귀분석은공변량에의해설명되지않는연구들간의변동인잔여이질성 (residual heterogeneity) 을허용하므로, 공변량으로설명이가능하지않을경우변량효과메타회귀분석을사용하는것이적절하다. 그러나이질성의원인이모두설명이가능하다고가정하는것은합리적이지않으므로, 연구수준의인자에의해설명되지않는잔여이질성 (residual heterogeneity) 을허용하기위해서는고정효과메타회귀분석대신변량효과메타회귀분석을수행하는것이합리적이다. 만일단변량메타회귀분석을여러번나누어실시하게되거나다변량메타회귀분석을여러개의공변량을이용하여실시하게되면, 위양성확률을증가시 30 http://www.e-hmr.org
강현 메타분석에서통계학적고려사항들 켜 종오류의가능성을높일수있다. 3. 민감도분석 (sensitivity analysis) 민감도분석은메타분석의결과가각단계에서행해진결정사항이나, 가정들을변화시킴으로써쉽게변화되는지를파악하고자하는분석이다 [2]. 가정들에서의결정사항이나, 가정들을변화시켰을때에도결과의변화가민감하지않다면 (robust) 우리는그결과를더욱신뢰할수있기때문이다. 출판되지않은연구, 질이낮은연구, 결측값등을제외시킨후결과들이변하는지확인함으로써, 민감도분석을행하게된다. 보고비뚤림 (reporting bias) 보고비뚤림은연구결과의보고및확산이결과의특성과방향에의해영향을받을때발생하는비뚤림으로서, 이에는출판비뚤림 (publication bias), 언어비뚤림 (language bias), 위치비뚤림 (Location bias), 시간지연비뚤림 (time lag bias) 등이있다. 이중가장대표적인것은출판비뚤림 (publication bias) 으로, 이는통계적으로유의한차이를보이는연구가통계적으로차이가없는연구보다출판될가능성이높게되며, 따라서메타분석을위한문헌검색시에도통계적으로유의한결과를보인연구가더많이파악되어, 메타분석결과가왜곡되어발생하는비뚤림이다 [8]. 비뚤림은연구결과를과대추정혹은과소추정하게만들며, 잘못된연구결과를야기하게되어, 잘못된해석이나해석에있어어려움을일으키게된다. 보고비뚤림의존재나정도를추정하는방법에는그래프를이용한방법과통계적검정방법이있다. 그래프를이용하는방법중가장대표적인방법은깔때기그림 (Funnel plot) 을이용하는것이다. 깔때기그림은 Y축에연구의표본크기를, X축에효과크기를위치시킨후, 각연구들을점으로표현하는산포도로, 위쪽이좁으며아래쪽은넓은깔때기를엎어놓은모양을가지게된다. 보통 Y 축은 표준오차 로표시하며, 연구에서표본수가증가하게되 면, 표준오차는감소하게될것이며, 은증가하게될것이다. 표준오차그러므로 Y축의상단은표본수가큰연구, 다시말해대규모의연구가위치하게된다. X축은효과크기가되며, 오른쪽으로갈수록효과크기가증가하게되고, 왼쪽으로갈수록효과크기가감소하게된다. 깔때기그림을시각적으로판단하여대칭여부에따라보고비뚤림여부를판단하게되는데, 만일엎어진깔때기의좌측하단이비어있게된다면, 소규모연구로효과크기가적은연구가출판되지않았음을의미하며, 우측하단이비어있게된다면, 소규모연구로효과크기가큰연구가출판되지않았음을의미한다. 이는보고비뚤림을시사하는소견이다. Contour-enhanced funnel plot은깔때기그림에통계적유의성을나타내는선을추가하여제시하여 주는방법이다 [9]. 통계적검정을이용하는방법으로는 Begg and Mazumbar s rank correlation test [20], Egger s test [2] 등이있다. Egger s test의검정은중재효과값의역수에가중치가부여된, 표준오차에대한중재효과추정치의선형회귀검정으로 Y 절편이 0과유의하게다른지평가한다. 만일보고비뚤림이있을경우, 비뚤림이중재효과에미치는영향을확인하여, 보정을하여중재효과에변화가있는지확인할수있다. 이중가장대표적인방법은절삭과채움방법 (Trim and fill method) 이다 [22]. 절삭과채움방법의순서는먼저결측되거나보고되지않았을것으로생각되는연구들의수를추정한다음, 이연구들을절삭 (trimming) 한다. 다음으로, 대칭인연구들을대상으로메타분석을실시하여중재효과에대한추정치를계산한다. 비대칭성이남아있지않을때까지이과정을반복한다. 그리하여요약통계량을계산한다. 메타분석관련프로그램메타분석을수행하기위한프로그램들은많이있다. 그중에서무료로제공되면서메타분석전문프로그램인 RevMan (http:// www.cc-ims.net/revman), MIX (http://www.meta-analysismade-easy.com/download/) 과 R (http://cran.r-project.org/bin/ windows/base/) 등이있으며, 유료이면서메타분석전문프로그램인 Comprehensive Meta-Analysis Software (Version5.0, http:// www.meta-analysis.com), 그리고상용통계분석전문소프트웨어이면서고급화된메타분석수행이가능한 STATA (http://www. stata.com), SAS 등을들수있다. 결론메타분석은비슷한질문에연구들에서근거를합성하는체계적이며, 양적인방법을제공한다. 메타분석은독립적인연구들을종합하여일반화시킬수있으며, 일부연구결과에만치우치지않는종합된결과를제시할수있으며, 또한신뢰할만한효과추정치를얻을수있으며, 상이한연구결과가있을때, 그원인규명이가능하다는장점이있다. 현재메타분석으로시행된연구들이증가하고있으며, 이영역에서급속히발전이이루어지고있다. 그렇기때문에, 연구자들은메타분석의장점과단점, 그리고메타분석에서시행되고있는방법론, 특히통계적방법에서의이슈에대한이해도를높이고, 친숙해져야만할것이다. 메타분석에서제시하는결과를무비판적으로받아들이거나, 임상에적용해서는안될것이며, 메타분석에대한지식및경험, 임상적근거등을통합하며, 비판적으로수용할수있는역량을키워나가야하겠다. http://www.e-hmr.org 3
Hyun Kang Statistical Considerations in Meta-Analysis REFERENCES. Greenhalgh T. How to read a paper: papers that summarise other papers (systematic reviews and meta-analyses). BMJ 997;35:672-5. 2. Higgins JP, Green S (editors). Cochrane Handbook for Systematic Reviews of Interventions Version 5..0 [updated March 20]. The Cochrane Collaboration, 20. Available from: http://www.cochrane-handbook.org. 3. Wolf FM. Meta-Analysis: Quantitative Method for Research Synthesis. Beverly Hills, CA: SAGE Publications, Inc; 986. 4. Pillemer DB, Light RJ. Synthesizing outcomes: how to use research evidence from many studies. Harvard Educ Rev 980;50:76-95. 5. Egger M, Smith GD. Bias in location and selection of studies. BMJ 998;36:6-6. 6. Egger M, Smith GD, Altman DG. Systematic reviews in health care: meta-analysis in context. London: BMJ Publishing Group; 200. 7. Furberg CD, Morgan TM. Lessons from overviews of cardiovascular trials. Stat Med 987;6:295-306. 8. Hedges LV, Olkin I. Statistical methods for meta-analysis. Academic Press; 985. 9. Rosenthal, R. Parametric measures of effect size. In Cooper H, Hedges LV, eds. The handbook of research synthesis. New York: Russell Sage Foundation;994;23-44. 0. Baumeister RF. Self-regulation, ego depletion, and inhibition. Neuropsychologia 204;65:33-9.. Fisher RA. Frequency distribution of the values of the correlation coefficient in samples from an indefinitely large population. Biometrika 95; 0:507-2. 2. Egger M, Smith GD, Phillips AN. Meta-analysis: principles and procedures. BMJ 997;35:533. 3. DerSimonian R, Kacker R. Random-effects model for meta-analysis of clinical trials: an update. Contemp Clin Trials 2007;28:05-4. 4. Fleiss JL. Analysis of data from multiclinic trials. Control Clin Trials 986;7:267-75. 5. Higgins JP, Thompson SG, Deeks JJ, Altman DG. Measuring inconsistency in meta-analyses. BMJ 2003;327:557-60. 6. Song F, Sheldon TA, Sutton AJ, Abrams KR, Jones DR. Methods for exploring heterogeneity in meta-analysis. Eval Health Prof 200;24:26-5. 7. Thompson SG, Higgins JP. How should meta-regression analyses be undertaken and interpreted? Stat Med 2002;2:559-73. 8. Simes RJ. Confronting publication bias: a cohort design for meta-analysis. Stat Med 987;6:-29. 9. Peters JL, Sutton AJ, Jones DR, Abrams KR, Rushton L. Contour-enhanced meta-analysis funnel plots help distinguish publication bias from other causes of asymmetry. J Clin Epidemiol 2008;6:99-6. 20. Begg CB, Mazumdar M. Operating characteristics of a rank correlation test for publication bias. Biometrics 994;50:088-0. 2. Egger M, Davey Smith G, Schneider M, Minder C. Bias in meta-analysis detected by a simple, graphical test. BMJ 997;35:629-34. 22. Duval S, Tweedie R. Trim and fill: a simple funnel-plot-based method of testing and adjusting for publication bias in meta-analysis. Biometrics 2000;56:455-63. 32 http://www.e-hmr.org