메타분석: 통계적 방법의 기초

메타분석: 통계적 방법의 기초 서울시립대학교 통계학과 이용희 209년 4월 23일 Contents 하나의 실험과 효과의 크기 관심있는 모수: 효과의 크기 2 모수의 추정량 3 추정량에 대한 믿음 4 추정량의 분산과 표준오차 5 추정량의 분산과 모집단의 분산 6 통계적 효과의 크기 7 신뢰구간 8 일반적인 관심 모수 2 2 2 3 개의 실험의 비교 실험들의 이질성 집단간의 변동 집단내 변동 3 3 3 5 3 효과들의 결합 3 고정효과 모형 32 임의효과 모형 33 고정효과 모형과 임의효과 모형의 차이 5 5 6 8 4 이질성의 측도 9 2 여러 2 22 23 5 메타분석: 참고사항 0 References 하나의 실험과 효과의 크기 관심있는 모수: 효과의 크기 예를 들어 두 독립적인 집단에서 평균의 차이, 즉 효과의 크기(effect size) θ 를 알고싶다고 하자 θ = µ t µc

2 모수의 추정량 X 와 Y 를 각각 두 집단에서 추출한 크기가 n, n2 인 표본 X, X2,, Xn 과 Y, Y2,, Yn2 의 평균이 라고 하면 평균의 차이에 대한 추정량는 다음과 같다 θ = X Y 3 추정량에 대한 믿음 두 집단의 차이에 대한 추론에서 평균의 차이에 대한 추정량 θ 이 얼마나 믿을만 한지에 대한 정도 (degree in strength of evidence)가 필요하다 이러한 믿을만 한지에 대한 통계적 정도(precision) 는 다음과 같은 두 요인을 고려한다 원래 자료가 퍼진 정도(모집단의 분산 σ 2 ) 표본의 크기 (n) 4 추정량의 분산과 표준오차 추정량 θ 의 믿음직성(ˆˆ)을 반영하는 통계적인 양은 추정량의 분산이다 하지만 분산은 관측값을 제 곱하여 구한 것이므로 의 제곱근인 표준오차(standard error)를 주로 사용한다 즉 추정량의 분산 v 2 과 표준오차 v 의 관계는 다음과 같다 v 2 = V ar(θ ), v = se(θ ) = q V ar(θ ) () 추정량의 표준오차 v 는 작을수록 추정량이 믿음직하다 모집단의 분산이 커질수록 추정량의 표준오차는 증가한다 표본의 크기가 커질수록 추정량의 표준오차는 감소한다 5 추정량의 분산과 모집단의 분산 추정량의 분산 v 2 과 모집단의 분산 σ 2 은 같지 않다 하지만 일반적으로 다음과 같은 관계를 가진다 E(v 2 ) 6 σ2 n σ or E(v ) n 통계적 효과의 크기 이제 두 집단의 차이에 대한 상대적인 크기, 즉 통계적인 효과의 차이(statistical effect size) 를 다음과 같이 통계량 δ 으로 나타낸다 δ = θ se(θ ) 2 = θ v (2)

평균의 차이를 추정하는 문제에서 δ 는 아래와 같은 t-통계량 또는 z-통계량으로 나타나며 이 값이 크면 클수록 처리집단과 제어집단 간의 차이가 크다 t= X Y X Y = p s /n + /n2 se(x Y ) 위에서 s2 은 모집단의 분산 σ 2 에 대한 합동분산 추정량이다 s2 = 7 Pn i= (Xi 2 X )2 + ni= (Yi Y )2 n + n2 2 P 신뢰구간 또한 추정량의 믿음직성를 표현하는 방법으로 평균의 차이에 대한 95% 신뢰구간(confidence interval) 을 이용할 수 있다 (L, U ) = (θ 2se(θ ), θ + 2se(θ )) = (θ 2v, θ + 2v ) (3) 신뢰구간의 넓이 d = L U 는 추정량의 표준오차에 비례하므로 구간의 길이가 넓을수록 추정량에 대한 믿음은 작아진다 보통 식 (6) 의 t-통계량이 2보다 크면 효과가 있다고 판단하며 이는 식 (3)에 주어진 신뢰구간이 0을 포함하지 않는 경우이다 8 일반적인 관심 모수 일반적으로 자료에 기반한 실험이나 관측연구의 목적은 두 집단을 비교하기 위한 것이 대부분이다 두 집단을 비교한다는 것은 처리(treatment)나 개입(intervention)의 효과를 측정하는 것이다 관심있는 모수, 즉 절대적인 효과의 크기 θ의 대표적인 예는 다음과 같다 평균의 비교: θ = µt µc 비율의 비교: 비율의 차이: θ = pt pc 상대위험: θ = pt /pc c) 오즈비: θ = pptc( p ( pt ) 2 2 여러 개의 실험의 비교 실험들의 이질성 이제 같은 목적을 가진 서로 다른 실험이나 연구가 K번 있었다고 하자 따라서 각 실험에서 얻어진 효과의 크기는 모두 K개가 있다 δ = θ, v δ 2 = θ 2, v 2 3, δ K = θ K v K (4)

메타분석(mata analysis)은 위와 같이 같은 목적을 가진 서로 다른 연구의 결과를 결합하여 하나의 효과의 크기로 요약하는 방법이다 이제 다시 실험이나 연구에서 얻은 결과가 얼마나 믿을만 한지에 대한 정도(degree in strength of evidence)를 판단하는 요인에 대하여 생각해 보자 연구의 연구의 연구의 연구의 연구의 통계적 방법(실험 vs 관측연구, 눈가림, 임의화) 표본 크기 시점 지역 계획 및 실행(protocoal and mangement) 효과의 크기 어떻게 연구들을 선택하고 그 결과들을 어떻게 합칠 것인가? 다음 그림 은 4개의 분야에서 여러 가지 연구들에 대한 비교를 신뢰구간을 이용하여 제시한 그림이다 (Higgins and Thompson (2002)) 22 집단간의 변동 위 그림 에서 본 실험 또는 연구들의 이질성은 두 가지의 기준으로 분리할 수 있다 첫 번째는 각 연구들의 결과에서 나타난 추정된 효과의 크기들이 다르다는 것이다 θ, θ 2,, θ K 즉 실험에서 추정된 효과의 크기들이 차이가 매우 크거나 또는 서로 다른 방향으로 나왔다면 각 추정 치를 어떤 식으로 결합하여도 효과의 크기에 대한 믿음은 감소하게 된다 이러한 추정된 효과의 크기의 변동을 일반적으로 집단간 변동(between-group variance)라고 부르며 메타분석에서는 연구의 이질성 (heterogeneity) 으로 부른다 이러한 연구의 이질성은 다음과 같은 측도 τ 2 로 나타낼 수 있다 이는 효과의 크기들 θ, θ2,, θk 의 단순한 분산이다 τ2 = k= (θk PK θ )2 K (5) 여기서 θ 는 K개의 효과 크기들의 평균이다 θ = 23 PK k= θk K 집단내 변동 다른 하나의 변동은 각 연구에서 추정된 효과의 크기들 자체가 가지고 있는 변동이다 각 연구의 추정된 효과의 크기 θ k 는 표준오차 v k 를 가지고 있다 v, v 2,, v K 4

Figure : heterogeneity among studies 5

이 표준오차는 각 연구가 나타내는 결과에 대한 믿음의 크기로 생각할 수 있다 즉 두 개의 연구결과를 비교할 때 추정치의 표준오차가 작은 것이 통계적으로 더 신뢰할 수 있다 추정량의 표준오차(또는 분 산)는 모집단의 분산과 표본의 크기에 비례한다는 것을 유의하자 추정량의 분산은 하나의 실험 내에서 관측값들의 변동이므로 집단내 변동(within-group variation)이라고 부른다 이러한 이유로 각 추정량을 결합할 때 표준오차가 큰 추정치와 작은 추정치를 동일한 증거의 크기로 보고 결합하는 것은 합리적이지 않다 표준오차가 상대적으로 작은 추정치에 더 믿음을 주어야 합리적 이다 그림 2은 집단간의 변동과 집단내의 변동을 4개의 경우에 대하여 비교한 그림이다 Figure 2: between-group and within-group variation 3 3 효과들의 결합 고정효과 모형 앞 절에서 논의하였듯이 여러 개의 실험에서 추정된 효과의 크기들을 결합하는 경우 각 추정치에 대한 믿음의 정도에 따라서 결합하는 것이 합리적이다 추정량에 대한 믿음의 정도는 추정량의 분산이고 분산이 커지면 믿음의 크기가 감소하므로 다음과 같은 가중평균 사용한다 PK wk θ k k= wk θ F = Pk= K 위에서 가중치 wk 는 k번째 실험에서 추정된 효과 크기의 분산의 역수이다 6 (6)

wk = v k2 (7) 각 효과의 크기를 그 분산으로 나누어 상대적으로 분산이 크면 믿음을 감소시키는 방향으로 결합하는 것이다 위 식 (6)의 추정식을 고정효과 추정식(fixed effect estimator)이라고 부른다 이 추정량의 분산은 다음과 같이 주어진다 vf = V ar(θ F ) = PK k= wk 32 (8) 임의효과 모형 앞 절에서 집단내의 변동과 집단 간의 변동에 대하여 알아보았다 식 (6)의 고정효과 추정식은 각 추정 치의 가중값을 추정량 분산의 역수로 사용하였으며 이는 각 실험에서 나타난 집단내의 변동을 반영해 준 것이다 이제 그림 2에서 네 개의 경우(Case 2 3 4)를 비교해 보자 각 경우 내에서 모든 실험의 집단내 변동이 같다면 (6)의 고정효과 추정식은 4개의 경우에 대하여 모두 동일한 결과(단순 평균)를 준다 하지만 각 집단내의 변동이 틀리기 때문에 Case 과 Case 3의 고정효과 추정식의 분산은 같고 Case 2과 Case 4의 분산보다 작다 θ F = θ F 2 = θ F 3 = θ F 4, vf = vf 3 < vf 2 = vf 4 위의 고정효과 추정식 결과에 의하면 Case 과 Case 3는 같은 정도의 믿음을 주는 것이다 하지만 두 경우 Case 과 Case 3 는 우리에게 통계적으로 같은 정도의 믿음을 주는가? 또한 Case 2과 Case 4 도 같은 정도의 믿음을 주는가? 고정효과 추정식 (6) 은 각 집단내의 변동만 가중치로 주기 때문에 실험들 사이에 나타나는 집단간의 변동을 반영하지 못한다 이러한 고정효과 추정식의 특징은 처리의 효과에 대한 추론에서 실험들 간의 이질성에 대한 변동을 반영하지 못한다 예를 들어 새로운 진통제의 효과를 측정하는 실험이 미국(case )과 한국(case 3)에서 실시되고 각 국가에서 서로 다른 4개의 실험을 수행하였다고 하자 그림 2과 같은 결과를 얻었다면 고정효과 추정식 (6) 으로는 미국과 한국에서의 약의 효과크기가 동일하게 나타나는 것이다 이러한 결과는 합리적이지 않으며 개선을 위해서는 집단간의 변동을 반영해야 한다 위와 같은 이유로서 다음과 같이 집단간의 변동을 반영하는 임의효과 추정식(random effect estimator) 가 제안되었다 (DerSimonian and Laird (986)) PK wk θ k k= wk θ R = Pk= K (9) 위에서 wk 은 k번째 실험에서 추정량의 분산(집단내 변동)과 실험간 변동(집단간 변동)의 합의 역수 이다 wk = (v k2 + τ 2 ) 7 (0)

위 식 (9)의 추정식을 임의효과 추정식(random effect estimator)이라고 부른다 이 추정량의 분산은 다음과 같이 주어진다 vr = V ar(θ R ) = PK k= wk () 식 (9)의 추정식을 임의효과 추정식은 집단간의 변동 τ 2 를 반영하였기 때문에 그림 2에서 네 개의 경우 (Case 2 3 4)가 모두 분산이 다르다 vr < vr3 vr2 < vr4 그림 2에서 나타나는 분포를 예제로서 간단한 숫자로 나타내어 추정량 (6) 과 (9), 분산 (8)와 ()을 비교하면 다음과 같다 theta2 <- theta <- c(-2, -,, 2) # case 2 \theta theta3 <- theta4 <- c(-6, -3, 3, 6) # case 3 4 \theta sig <- sig3 <- c(,,, ) # case, 3 within var sig2 <- sig4 <- c(3, 3, 3, 3) # case 2, 4 within var tau <- tau2 <- c(,,, ) # case, 2 between var tau3 <- tau4 <- c(3, 3, 3, 3) # case 3, 4 between var w <- /(sig + tau) w2 <- /(sig2 + tau2) w3 <- /(sig3 + tau3) w4 <- /(sig4 + tau4) estfix <- c(sum(theta/sig)/sum(/sig), sum(theta2/sig2)/sum(/sig2), sum(theta3/sig3)/sum(/ sum(theta4/sig4)/sum(/sig4)) estran <- c(sum(theta * w)/sum(w), sum(theta2 * w2)/sum(w2), sum(theta3 * w3)/sum(w3), sum(t w4)/sum(w4)) varfix <- c(/sum(/sig), /sum(/sig2), /sum(/sig3), /sum(/sig4)) varran <- c(/sum(w), /sum(w2), /sum(w3), /sum(w4)) estfix # fixed effect estimator ## [] 0 0 0 0 estran # random effect estimator ## [] 0 0 0 0 varfix # var of fixed eff est ## [] 025 075 025 075 varran # var of random eff est ## [] 05 0 0 5 33 고정효과 모형과 임의효과 모형의 차이 두개의 추정식 (6) 와 (9)은 각각 고정효과 모형과 임의효과 모형에서 유도되는 추정식이라고 할 수 있다 8

그림 3은 두 모형의 차이를 도식적으로 표시한 것이다 Figure 3: fixed effect model vs random effect model ykj 를 k 번째 실험에서 j번째 관측값라고 하면 두 모형을 다음과 같이 나타낼 수 있다 고정효과모형 ( 단계 모형) ykj = θf + ekj, ekj N (0, σ 2 ) 고정효과모형에서는 변동의 요인이 개이며 같은 실험에 속한 관측값은 독립이다 V ar(ykj ) = σ 2, cor(ykj, yki ) = 0 임의효과 모형 (2단계 모형, 계층모형) θk N (θ, τ 2 ) ykj θk = θk + ekj, ekj N (0, σ 2 ) 즉 다음과 같이 쓰며 모형을 쓸수 있으며 이때 ηk 를 임의효과(random effect)라고 부른다 θk = θ + η k, ηk N (0, τ 2 ) 임의 효과 모형을 다음과 같이 나타낼 수 있다 ykj = θ + ηk + ekj, ekj N (0, σ 2 ), ηk N (0, τ 2 ) 임의효과 모형에서는 변동의 요인이 2개이며 같은 실험에 속한 관측값은 독립이 아니다 V ar(ykj ) = σ 2 + τ 2, cor(ykj, yki ) = 9 τ2 =ρ τ 2 + σ2

4 이질성의 측도 앞에서 언급한 바와 같이 실험들간의 이질성(heterogeneity)가 메타분석에서 효과의 크기 추정의 믿음 에 큰 영향을 미친다 이 장에서는 Higgins and Thompson (2002) 가 제안한 이질성을 측정할 수 있는 몇 개의 통계량에 대하여 살펴보고자 한다 먼저 DerSimonian and Laird (986) 가 식 (5)에 정의된 실험간의 변동을 나타내는 모수 τ 2 을 추정하는 식을 다음과 같이 제안하였다 Q (K ) P 2 τ 2 = P w wk Pk wk k (2) k 여기서 wk 는 식 @ref{eq:fixwgt}에서 정의된 고정효과 추정식의 가중치이며 Q는 다음과 같다 Q= X wk (θ k θ F )2 위에서 통계량 Q는 각 실험들의 추정량 θ,, θ K 이 얼마나 퍼저 있는지에 대한 측도이다 Higgins and Thompson (2002) 은 다음과 같이 집단내 변동 모수 σ 2 와 집단간 변동 모수 τ 2 의 조함을 이용하여 실험 간의 이질성(heterogeneity)의 반영하는 두 가지의 모수를 고려하였다 두 개의 모수는 집단간의 변동과 집단 내의 변동의 비율인 ρ = τ 2 /σ 2 의 함수이다 ρ= τ2 σ2 총변동/집단내 변동 σ2 + τ 2 σ2 (3) ρ τ2 = 2 ρ+ σ + τ2 (4) H2 = ρ + = 2 집단간 변동/총변동 (intraclass correlation) I2 = 위의 두 측도는 다음과 같이 추정이 가능하다 H 2 = Q, K H 2 Iˆ2 = H 2 위의 추정량 H 2 과 Iˆ2 은 다음과 같은 성질을 가진다 집단간의 변동 τ 2 = 0 이면 H 2 이고 Iˆ2 0 이다 집단간의 변동 τ 2 이 증가하면 H 2 과 Iˆ2 모두 증가한다 관측값의 단위에 영향을 받지 않는다 실험의 개수 K에 영향을 받지 않는다 0

가장 널리 쓰이는 이질성의 측도는 Iˆ2 이며 @Higgins and Thompson (2002) 는 다음과 같은 기준을 제사하였다 5 Iˆ2 = 25%: 낮은 이질성 Iˆ2 = 50%: 중간정도의 이질성 Iˆ2 = 75%: 높은 이질성 메타분석: 참고사항 메타분석에서는 통계적인 방법도 중요하지만 실험들을 선택하는 절차와 과정에 대한 계획을 세우고 실행하는 것이 더 중요하다 (그림 4 참조) 2 위에서 논의한 방법들은 일반적인 추정량 θ k 와 그에 대한 표준오차 vk 들이 있으면 적용가능하 다 예를 들어 관심있는 모수가 오즈비(odds ratio)이면 메타분석에서 고려하는 연구들에 나타난 오즈비의 추정량과 표준편차(또는 추정량의 분산)가 있으면 기본적인 분석이 가능하다 3 반면 적지않은 연구들이 추정량과 표분오차를 제시하지 않고 검정통계량이나 p-값(p-value)만을 보고하는데 이러한 경우 메타분석이 쉽지 않다 통계적 가설검정의 결과는 귀무가설, 즉 효과의 크기가 없다는 가설에 대한 반대되는 증거이므로 이러한 정보를 효과의 크기 추정에 사용하기 어렵다 4 R 프로그램을 이용한 메타분석은 패키지들이 많이 개발되어 있으며 (Polanin, Hennessy, and Tanner-Smith (207)) 최근에 발표된 유용한 패키지는 meta 와 metafor 가 있다 또한 친절한 온라인 책으로 https://bookdownorg/mathiasharrer/doing_meta_analysis_in_r/ 가 있다 5 메타분석의 통계적 방법에 대한 자세한 내용은 Kulinskaya, Morgenthaler, and Staudte (2008) 과 Borenstein et al (20) 에 나타나 있다 6 출판편향(publication Bias)은 실패한 실험이나 보고되지 않은 연구들이 메타분석에 포함되지 않아서 발생하는 편향이다 분야마다 그 정도가 다르지만 메타분석을 수행하면 최소한의 편향은 언제나 존재한다고 생각해야 한다 References Borenstein, Michael, Larry V Hedges, Julian P T Higgins, and Hannah R Rothstein 20 Introduction to Meta-Analysis John Wiley & Sons DerSimonian, R, and N Laird 986 Meta-Analysis in Clinical Trials Control Clin Trials 7 (3): 77 88 Higgins, Julian P T, and Simon G Thompson 2002 Quantifying Heterogeneity in a Meta-Analysis Stat Med 2 (): 539 58 Kulinskaya, Elena, Stephan Morgenthaler, and Robert G Staudte 2008 Meta Analysis: A Guide to Calibrating and Combining Statistical Evidence Wiley Series in Probability and Statistics Wiley Polanin, Joshua R, Emily A Hennessy, and Emily E Tanner-Smith 207 A Review of Meta-Analysis Packages in R J Educ Behav Stat 42 (2) American Educational Research Association: 206 42

Figure 4: heterogeneity among studies 2