Review Article Ewha Med J 2017;40(1):9-16 https://doi.org/10.12771/emj.2017.40.1.9 pissn 2234-3180 eissn 2234-2591 검사법평가 : 검사법비교와신뢰도평가 공경애 이대목동병원임상시험센터 Statistical Methods: Reliability Assessment and Method Comparison Kyoung Ae Kong Clinical Trial Center, Ewha Womans University Mokdong Hospital, Seoul, Korea The reliability of clinical measurements is critical to medical research and clinical practice. Newly proposed methods are assessed in terms of their reliability, which includes their repeatability, intra- and interobserver reproducibility. In general, new methods that provide repeatable and reproducible results are compared with established methods used clinically. This paper describes common statistical methods for assessing reliability and agreement between methods, including the intraclass correlation coefficient, coefficient of variation, Bland-Altman plot, limits of agreement, percent agreement, and the kappa statistic. These methods are more appropriate for estimating reliability than hypothesis testing or simple correlation methods. However, some methods of reliability, especially unscaled ones, do not clearly define the acceptable level of error in real size and unit. The Bland-Altman plot is more useful for method comparison studies as it assesses the relationship between the differences and the magnitude of paired measurements, bias (as mean difference), and degree of agreement (as limits of agreement) between two methods or conditions (e.g., observers). Caution should be used when handling heteroscedasticity of difference between two measurements, employing the means of repeated measurements by method in methods comparison studies, and comparing reliability between different studies. Additionally, independence in the measuring processes, the combined use of different forms of estimating, clear descriptions of the calculations used to produce indices, and clinical acceptability should be emphasized when assessing reliability and method comparison studies. (Ewha Med J 2017;40(1):9-16) Received December 29, 2016 Accepted January 4, 2017 Corresponding author Kyoung Ae Kong Clinical Trial Center, Ewha Womans University Medical Center, 1071 Anyangcheon-ro, Yangcheon-gu, Seoul 07985, Korea Tel: 82-2-2650-2069, Fax: 82-2-2650-6141 E-mail: kkong@ewha.ac.kr Key Words Validation studies; Reliability; Reproducibility of results; Agreement; Method comparison 서론임상또는의학연구에서위험요인을선별하거나질병을진단하거나또는환자의예후를추정하기위해측정을하게되며, 적절한측정방법, 검사법의선택은임상적결정을내리는과정과연구의질을보장하는데있어필수적이다. 검사법은주로타당도와신뢰도의측면에서평가되곤한다. 타당도 (validity) 는검사법 이측정하고자하는바를제대로반영하는능력이나실제모수의값을정확하게관찰하는능력을의미하며정확도 (accuracy) 와동일한의미로사용된다 [1-3]. 신뢰도 (reliability) 는검사시기, 실험실, 평가자등측정조건과상관없이검사결과가얼마나일관되게나타나는지의일관성 (consistency), 또는측정오차 (measurement error) 가없는것을말하는것으로, 반복성 (repeatability), 재현성 (reproducibility), 일치도 (agreement, concordance) 등이동일한 THE EWHA MEDICAL JOURNAL 9
Kong KA 의미로사용되곤한다 [1,3]. 반복성은동일대상자를동일조건 ( 동일도구나방법, 동일한평가자, 측정하고자하는대상에변화가없을짧은시간차이 ) 에서반복측정한값들에서의변동 (variation) 를의미하며, 따라서반복성연구에서동일대상자의측정값변이는측정과정그자체에기인한오차에만기인한다 [4]. 재현성은다른조건하에서동일대상자에대한측정값의변이를말하는데, 다른조건이란다른검사법이나도구, 다른평가자, 측정하고자하는변수에무시할수없는변화가일어날수있을정도의시간경과등을의미한다. 반복성과재현성은평가방법이동일하며, 다만재현성을평가하려면먼저반복성이평가되고인정되어야한다 [5]. 또한반복성과평가자간재현성과같은신뢰도는검사법비교나타당도평가의전제조건이다 [1,5]. 검사법을평가하는또다른접근은검사법비교 (method comparison) 이다 [3]. 검사법이새롭게개발되면먼저기존에사용되고있는검사법과비교를통해평가받게되는데, 표준검사법은황금기준검사법이라고불리기도하지만오류없이측정해낸다는뜻은아니다 [6]. 기존검사법과새로운검사법중어느것이더올바르게측정해내는지분명하지않을수있으며, 대개는두검사법간일치의정도를평가하게된다. 따라서검사법비교는재현성연구의일종이라고할수있다. 검사법비교를타당도연구의특별한종류로언급한경우도있기는하지만 [3], 민감도, 특이도, ROC (receiver operating characteristics) 곡선등을이용하는진단검사법의타당도연구와는사용하는통계방법이나해석이다르고오히려신뢰도연구에서와유사한방법들을사용하는경우가많다. 여기서는검사법비교와신뢰도평가에흔히사용되는통계적방법과지표들을살펴보고자한다. 본론 1. 검사법의측정값이연속형변수인경우 1) 급내상관계수급내상관계수 (intraclass correlation coefficient, ICC) 또는신뢰도계수 (reliability coefficient) 는반복성과재현성을평가하는데매우흔하게사용되는지표로, 측정값들의총변동중개인간변동에의해야기된부분에대한추정치이다 [2]. 이를구하는공식은아래와같다. ICC = = + V T : 총변동 (total variance), V b 와 V e 의총합 V b : 일반적인신뢰도연구에서는개인간변동 (variance between individuals) V e : 개인내변동 (variance within individuals), 원하지않은변 동, 오차, 동일대상에대한여러측정값들간분산의추정치 ICC 는 0 ( 전혀일치하지않음 ) 부터 1 ( 완벽하게일치함 ) 사이의값을갖는다. Shrout 와 Fleiss [7] 는분산분석의종류 ( 일원배치혹은이원배치 ), 평가자효과 ( 평균측정치의차이 ) 고려여부, 분석단위 ( 개별또는평균측정치 ) 에따라어떤 ICC 를선택해야할지제시하였다. 첫두가지는통계적모형선택과관련되며, 두번째와세번째는연구결과의용도와관련된것이다. 전형적인평가자간신뢰도연구에서는 n명의대상자가 k명의평가자에의해독립적으로평가를받게되는데, 다음과같은세가지경우로분류할수있다 : (1) 각대상자가평가자집단으로부터무작위추출된, k명으로구성된서로다른평가단 ( 평가자세트 ) 에의해평가 ; (2) 평가자집단으로부터무작위추출된 k명의평가자각각이 n명의대상자모두를평가 ; (3) 연구의관심대상인 k명의평가자가있으며, 이들각각이 n명의대상자각각을평가. 이중 (1) 의경우는일원배치분산분석으로분석한다 Shrout 와 Fleiss [7] 의 ICC(1,1). (2) 의경우는해당결과를인구집단내의다른평가자들에게까지일반화하는목적이있으며, 평가자를임의효과로취급하는이원배치변량 ( 임의 ) 효과모형 (two-way random effects model) 으로분석한다 ICC(2,1). 측정값의변동에서평가자의효과를고려하며, 이때의 ICC 는신뢰도연구에서일반적으로목표하는일치도 (agreement) 로서, 평가자들의교환가능성이라고도할수있다. (3) 의경우는연구의관심이단한명의평가자또는고정된 k명의평가자로서, 평가자를고정효과로가정하는이원배치혼합효과모형 (two-way mixed effects model) 을이용한다 ICC(3,1). 이모형에서는평가자에의한변동을고려하지않으며, 산출된 ICC 는평가자간일관성 (consistency) 으로해석한다. 대부분의신뢰성연구에서연구자들은일관성이아니라일치도에관심이있고그들의평가척도가여러평가자에게사용되기를바랄것이므로일반적으로는이원배치변량효과모형이적절하다 ICC(2,1). 신뢰도의분석단위는실제로측정값들을산출하는정황과관련되는데, 개별측정값들이아니라여러평가자가측정한값들의평균을분석단위로이용하는경우에는평균 ICC 를사용하게된다 ICC(1,n), ICC(2,n), ICC(3,n). 일반적으로개별 ICC 보다평균 ICC 가더높지만, 이검사를이용하는실제상황에서여러평가자의평균값을이용하는것이아니라면평균 ICC 를사용하는것은적절하지않다. 일치도의지표로서 ICC 는상관계수보다더좋은지표로여겨지는데, 상관관계와측정값간바이어스의정보를둘다포함하고있기때문이다 [2]. 두번의측정값들간에구조적인차이가있는경우 ( 예를들어두번째측정값이첫번째측정값보다항상 0.5만큼낮게측정된다거나첫번째측정값의 80% 크기로측정되는경 10 THE EWHA MEDICAL JOURNAL
Reliability Assessment and Method Comparison 우 ) 에도두측정값들이선형적관련성을나타내는직선에가깝게모인다면상관계수는매우높게나타나게되지만, ICC 는이와같은바이어스를반영하여상관계수보다낮다 (Fig. 1). ICC 는연구집단에서의측정값들의범위에영향을받기때문에해석할때주의가필요하다. 예를들어연구집단의측정값들이전체적으로다높은수준이고범위가작다면개인내변동 ( 오차 ) 에비해상대적으로개인간변동이작고 ICC 가낮다. 이와같이표본의특성이반영되므로서로다른연구집단의 ICC 는비교하기어렵다 [5]. 또한 0.40 미만은좋지않음 (poor), 0.4 0.6은보통 (fair), 0.6 0.75 는좋음 (good), 0.75 1.00 은매우좋음 (excellent) 등으로분류되기도한다 [8,9]. 하지만절대적인기준은없고, 단위가없는지표이므로오차의실제크기와상관이없어서연구에서나타난오차가임상적으로받아들일수있는수준인가하는관점에서해석하기어렵다. ICC 는반복성과평가자내또는평가자간재현성연구에많이이용되며, 검사법비교연구에서는검사법간직접비교에사용되는경우도있긴하지만 [10,11] 주로두검사법의신뢰도를각각 ICC 로제시하고대조해보는용도로사용되곤한다. 때로는동일한대상으로부터얻어진두검사법의평가자내, 평가자간 ICC 를직접비교하기도하는데, 이때는 Fisher 의 Z-검정, Konishi- Gupta 의수정 Z-검정등을할수있으나 [12], 흔히사용하는통계패키지내에들어있는기능은아니다. 2) Bland-Altman 그림과일치한계값들 Bland-Altman 그림 [6,13,14] 은동일대상에대한두세트의측정값에서각측정값의짝마다평균과차이 (mean of and difference between each pair of measurements) 를계산한다음평 Second reading Method 1 Correlation coefficient=1.0 ICC (2,1) agreement=1.0 Method 2 Correlation coefficient=1.0 ICC (2,1) agreement=0.865 First reading Fig. 1. Intraclass correlation coefficient and Pearson s correlation coefficient as indices for intra- or interobserver reliability. ICC, intraclass correlation coefficient; correlation coefficient, Pearson s correlation coefficient. 균을 x축, 차이를 y축으로하는산점도인데, 반복성과재현성평가에서뿐만아니라서로다른두검사법에의한측정값들간의불일치 (disagreement) 양상을살펴보기에매우유용해서검사법비교연구에서많이사용되고 [11,15] 권고되는방법이다 [3,4,6,13,14,16,17]. 두측정값중하나가황금-기준검사법에의한참값인경우에는그값을 x축으로하기도한다. Bland-Altman 그림에는일반적으로 x축과평행한세개의가로선을표시하는데, 불일치의정도를요약하는값들이라고할수있다. 가운데가로선은평균차이 (mean difference, d), 즉측정값의짝간차이의평균 (mean of the differences between measurements) 을나타내는데, 0으로부터이값까지의거리는두검사법 ( 또는평가자 ) 간바이어스의추정치라고할수있다. 변동은측정값간차이의표준편차 (standard deviation of the differences, s d ) 로부터추정하게된다. 먼저차이의표준편차의 1.96 배값 (1.96s d ) 을구하는데, 동일한방법으로동일한대상에서얻어진측정값들인경우에는이값을반복성계수 (repeatability coefficient) 라고한다 [4-6]. 이값을평균차이에더하고뺀값 (d±1.96s d ) 을구하여 95% 일치한계값들 (limits of agreement, LOA) 이라고한다. 95% 일치한계상한값 (upper LOA): d+1.96s d 95% 일치한계하한값 (lower LOA): d-1.96s d 평균차이를나타내는가로선의위와아래에있는가로선은 95% LOA 상한값과하한값을나타내며, 측정값간차이들이정규분포를따른다면차이의대략 95% 는 LOA 상한과하한사이에존재하게된다. 주의할점은평균차이와 95% LOA 는측정값의전범위에걸쳐바이어스와변동이균일한경우에만의미가있다는것이다 ( 뒷부분의 Fig. 2와 Fig. 3 해석에서추가설명 ). 평균차이와 95% LOA 는표본으로부터의추정치이므로표준오차나 95% 신뢰구간과같은정밀성의정보를같이제공하게되는데, 계산방법은다음과같다 [6,13,16]. 평균차이의표준오차 : 측정값 간차이의표준편차를표본수 (n) 의제곱근으로나눈 값 ( ) LOA 의표준오차 : 1 + 1.96 2( 1), 평균차이의표준오차 의약 1.71 배 ( 2.92 ). 95% 신뢰구간상하한값 : 해당추정치 ( 평균차이,LOA 상하한값 )±t n -1,.975) 해당표준오차때로는각검사법 ( 또는각평가자 ) 에대해반복적으로측정을하고, 반복측정값의평균을각검사법에대한측정치로사용하는 THE EWHA MEDICAL JOURNAL 11
Kong KA Difference between 2 measurements Mean difference Difference between 2 measurements Mean difference Mean of two measurements Fig. 2. Graphical presentation of agreement. A case where the greater magnitude of measurements has the greater difference. Mean of two measurements Fig. 3. Graphical presentation of agreement. A case where an increase in the variability of the differences is based on an increase in the magnitude of measurements. 경우가있다. 그러나이값들을이용해서검사법을비교하면검사법간차이의표준편차가과소추정되므로 ( 반복측정오차의효과중일부가제거되었기때문 ), 아래와같이수정된표준편차를구한후이를 LOA 계산에사용해야한다. = + 1 + 1 : 방법 x와방법 y 간차이의수정된표준편차 : 방법 x의반복측정평균과방법 y의반복측정평균의차이의분산 m x, m y : 방법 x와방법 y의각대상자당관찰개수 ( 반복측정 횟수 ), : 방법 x와방법 y 각각에서의개체내변이 - 각방법별로측정값들을종속변수로하고각대상자를요인으로하는일원분산분석을했을때평균제곱오차 (mean square error) 로추정 이렇게각방법별로반복측정값들의평균을이용해서얻어진방법간차이의평균에수정된표준편차 ( ) 의 1.96 배값을더하고빼서 95% LOA 를구한다. 이 LOA 의표준오차와 95% 신뢰구간을구하는방법은 Bland 와 Altman [6,13,16] 의논문에소개되어있다. Bland-Altman 그림과평균차이, LOA 는대략세단계로살펴보게된다. 먼저 x축값 ( 참값이나측정값짝의평균 ) 의크기에따른불일치의분포양상을살펴보게된다. Fig. 2에서는값이클수록짝진두측정값간의차이가양의방향으로커지고, Fig. 3에서는값이클수록짝진두측정값간차이의변동이커진다. 이와같이불일치정도가측정값의크기와관련이되는경우에는평균차이와 LOA 를제시하는것은의미가없으며 [4,5], 그림과함께측정값과관련된불일치의양상을기술하는것이더적절할수있 다. 또한 Fig. 3에서와같이값이커질수록오차가커지는경우에는측정값들을로그변환하여분석하는방법을고려해볼수있고 [4,6,13,14], Fig. 2와같은양상을나타내는경우에는차이 ( 불일치 ) 를측정값의크기에따른함수로모형화하는회귀분석적인접근방법을고려해볼수있다 [6]. 측정값짝간차이의변동이측정값들의전범위에서일정하다면, 다음단계로는두검사법 ( 또는평가자 ) 간일치 / 불일치를나타내는지표들을정량화하여제시하고해석한다. 평균차이는두검사법 ( 또는평가자 ) 간바이어스 ( 구조적차이 ) 가있는지, 한방법이다른방법에비해평균적으로과다혹은과소추정하는경향이있는지알려준다 [4]. 반복성연구에서는평균차이가 0일것을가정하고있으며그렇지않은경우사실상반복측정치가아닐가능성을검토해보게되는반면, 검사법비교나재현성연구에서는바이어스가있을수있다고인정하고이를평균차이로요약하는것이다. 평균차이가 0에매우가깝다면바이어스의가능성은적고, 한방법이다른방법보다과다혹은과소추정하는경향은없다고할수있다. Fig. 4는서로다른두영상의학적검사법 A와 B로얻어진폐결절의크기평균과차이에대한 Bland-Altman 그림이다. 방법 A로측정된결절의크기는방법 B로측정된결절의크기보다평균적으로 0.25 mm 작은데, 아마도이정도의과소추정은임상적으로받아들일수있다고해석하게될것이다. 때로는바이어스를평가하기위해평균차이가 0이라는귀무가설을가지고짝진 t-검정이나일표본 t-검정을시행하고, P값이큰경우에는바이어스의근거가없다고언급하곤한다. 그러나이러한검정들은평균차이가 0에매우가까운경우뿐만아니라방법간의무작위오차 ( 차이들의변동 ) 가큰경우에도귀무가설을기각하지못하며 [3], 두방법간바이어스가크지않다는오해를일으키기쉽다. 또한평균차이는두방법간차이가평균적으로 0에가까운지, 즉 12 THE EWHA MEDICAL JOURNAL
Reliability Assessment and Method Comparison Difference (Method A and Method B) 1.2 0.8 0.4 0.0 0.4 0.8 1.2 2 3 4 5 6 7 8 9 10 11 Mean of Method A and Method B Upper limit of agreement 0.45 Mean difference 0.25 Lower limit of agreement 0.96 Fig. 4. Measurements of pulmonary nodule size using two radiological methods (shown is a Bland-Altman plot). 두방법중하나가평균적으로과소 / 과다추정하는경향만을검토하는것이므로평균차이에대한검정이유의하지않다고해서두방법의측정값이대부분일치한다거나두방법을교환해서사용할수있다는의미가아니라는점을유의해야한다. 이런면에서신뢰성연구나두검사법을비교하는연구에서짝진 t-검정을시행하고해석하는데에는특별한주의가필요하며, 이결과만을단독으로제시하지말고다른평가방법들의결과와함께제시해야한다 [18]. 마지막으로는 95% LOA 의값과범위를평가하게된다. 검사법에따른측정값간차이들이정규분포를따른다면차이의대략 95% 는 95% LOA 상한과하한사이에있을것이므로, LOA 값들과범위가임상적으로받아들여질만하다면두검사법은교환가능하다고할수있다. Fig. 4의 LOA 상한, 하한값은 0.45 와 -0.96 mm 이고두방법간차이의 95% 는이 1.5 mm (=0.45 (-0.96)) 범위이내에존재할것이므로, 이값들과범위가임상적으로수용가능하다면 A 방법과 B 방법은서로바꾸어사용할수있다. 때로는임상적으로의미있는크기나기준이잘알려져있지않은생체지표를서로다른방법으로측정하는경우가있는데, 이런경우에는불일치의크기를측정값들의범위와비교해서해석하기도한다. Fig. 4에서측정값들의임상적의미가명확하지않다면 LOA 의폭인 1.5를측정값의범위인 8.5 ( 대략 2.5 11) 와비교해서두검사법간차이의변동 ( 오차의범위 ) 이받아들일만한수준인지를판단해볼수있다. Fig. 3에서와같이측정값이클수록변동이커지는경우에는자료를로그변환하면측정값과변동이더이상관련이없게되는경우가많다. 이런경우에는로그변환자료로부터구한 LOA 를역변환하여검사법간비의한계 (limits for the ratio of the actual measurements) 를제시할수있다 [6,13]. 먼저모든측정값들을로 12 그변환한다음, 각짝마다평균과차이를구하여이를 x축과 y 축으로하는산점도를그리고측정값의크기에따른변동의크기가균일한것을확인한다. 로그변환된값들의차이의평균과표준편차로부터 LOA 를구한뒤이를역변환하여비의한계를구한다. 만약로그변환된자료로부터차이의평균과 LOA 상한, 하한값이 0.05, -0.07, 0.17 이라면역대수값 (antilog) 은 1.05, 0.93, 1.19 이다. 로그변환된두값차이의역대수값은비이므로, 대략 95% 의경우에검사법 A를이용한측정치는검사법 B를이용한측정치의 0.93 1.19 배사이에있을것이다 또는 대부분의경우검사법 A에의한측정값은검사법 B보다 7% 작거나 19% 큰정도이내의차이가있을것이다 라고해석할수있다. 다른예로, 로그변환값차이의평균과 LOA 의역대수값이 1.16, 1.11, 1.22 이라면, 대부분의경우검사법 A에의한측정값은검사법 B 보다 11% 22% 클것이라고해석할수있으며 1.16 을변환계수 (conversion factor) 로이용해서검사법 A에의한측정값들을먼저 1.16 으로나누면두검사법간일치도는훨씬높아질것이다. 로그변환값들의차이를이용하지않고각짝에서직접두측정값의비를계산해서이값들의평균과표준편차로부터 LOA 를구할수도있으며, 그림을그릴때 y축을평균에대한백분율로나타내는경우도있다 [6]. 3) 변동계수변동계수 (coefficient of variation, CV) 는실험실적인연구나생화학적분석에서신뢰도또는측정오차의지표로사용된다. 검사법비교에는거의사용되지않는다. 일반적으로 CV 는자료의표준편차를평균으로나누고 100 을곱하는것이라고말하지만, 신뢰도연구에서 CV 를계산하는데에는여러방법이있다. 가장단순한방법은각개인별로측정값들의 CV (individual CV) 를내고, 개인별 CV 로부터평균 CV (mean CV) 를계산하는방법이지만, CV를사용하는데에는여러가지고려할점과제약이있다 [3]. 자료가음의값을가질수있거나측정척도의중간에 0 값이있는경우에는 CV 가의미없을수있고이를사용하는것은부적절하다. 실제적인의미를이해하는데에도주의가필요하다. 예를들어, CV 가 10% 라는것은측정간변이 ( 차이 ) 를나타내는모든값이항상평균의 10% 이내에있다는것을의미하는것이아니라자료의정규분포를가정했을때차이의 68% 가자료평균의 10% 이내에있다는의미이고, 나머지 32% 에대해서는언급하지않은것이다. 특히개인별 CV 로부터계산된평균 CV 는측정간변동을실제보다과소평가할수있고전체가아니라평균적인, 즉, 표본에있는사람들의 50% 에서의변동만을반영할수있어분석의목표가되는경우는드물다. CV 는불일치의정도가측정값의크기에따라커진다는것을가정하고있고그러한자료에적용된다. 따라서로그변환된자료에서각대상자를변량효과로처리하는분산 THE EWHA MEDICAL JOURNAL 13
Kong KA 분석 (random-effects model one-way ANOVA) 을하고, 개체내평균제곱 ( 평균제곱오차항 mean square error term) 에기반해서원척도에서의 CV 를계산하는것이더적절한방법으로제시된다 (CV=평균제곱오차 100% ) [3,9]. 일반적으로 CV 가 20% 미 만인것을 바람직한 것으로, 30% 이상은적절하지않은것으로판단한다 [9]. 2. 진단방법의측정값이범주형변수인경우 1) 일치율측정결과가범주형변수이고관찰값의세트가둘인경우 ( 두검사법이나두명의평가자에의한측정, 시간을두고두번반복측정한경우등 ), 관찰값들의짝중판정이일치하는짝의비율을일치율 (percent agreement) 이라고하며 Table 1에서다음과같이계산된다 [1,2]. percent agreement (%)=100 (a+d)/(a+b+c+d) 일치율은매우간단하고판정범주의개수가세개이상인경우에도쉽게산출할수있다는장점이있지만, 연구집단의양성율 ( 질병유무를측정해내는검사인경우는유병률 ) 이낮은경우에는두검사법 ( 평가자 ) 모두음성으로판정하는음성-음성결과가차지하는비율이높아져서일치율이과다하게높게추정되는단점이있다 [2]. 2) 양성일치율인구집단에서측정하고자하는상태의유병률이매우낮거나높은경우에신뢰도지표로서의일치율의단점을극복한두가지양성율이있다 [2]. 첫째는양성일치율 (percent positive agreement) 로, 두평가자모두양성으로판정한관찰값의수를두평가자가각각양성으로판정한관찰값수의평균으로나누어계산한다. Percent positive agreement = 100 = 100 2 (2 + + ) Table 1. Agreement between observers A and B on binary measurements Observer A Observer B Positive Negative Total Positive a b a+b Negative c d c+d Total a+c b+d N 다른하나는 Chamberlain 양성일치율 (Chamberlain s percent positive agreement) 로, 두평가자모두양성으로판정한관찰값의수를적어도한평가자가양성으로읽은관찰값의수로나누어계산한다. Chamberlain s percent positive agreement=100 a/(a+b+c) 3) 카파통계량과가중카파통계량일치율은두평가자의판정이우연히일치하는부분을고려하지못한다는단점이있다. 평가자가검사대상을판정할때무작위로절반은양성으로, 절반은음성으로판정하는경우를생각해보면, 두평가자가서로독립적으로판정을했다고할지라도우연에의해대략절반정도는두평가자의판정이일치하게될것이다. 카파통계량 (Cohen s kappa statistic) 은이와같은우연에의한일치를감안한일치도로, 다음과같이계산된다 [2]. 우연에의하지않은관찰된일치율 Cohen 의 kappa= 우연에의하지않은최대일치율 관찰된 일치율 우연에 의한 일치율 = 최대일치율 (1.0) 우연에의한일치율 위의식에서우연에의한일치율은각평가자가무작위로판정을했다고가정했을때기대되는일치율로, 각평가자가양성으로판정한비율에근거하여구하게된다. 예를들면 Table 1에서두평가자모두양성으로판정한칸 (a) 에서기대되는우연에의한일치율 ( 즉, 평가자둘다우연에의해양성으로판정할확률 ) 은평가자 A가양성으로판정한비율과평가자 B가양성으로판정한비율의곱 ( 두판정이독립이라는가정하에서의결합확률 ) 으로구하고, 전체우연에의한일치율은판정이일치하는대각선상에있는모든칸의우연에의한일치율을합해서얻는다. 우연에의한일치율 + + + = + + = + + +( + )( + ) 카파통계량은판정이두범주가아니라더많은범주로이루어진경우에도일치를나타내는모든칸들로부터관찰일치율과우연에의한일치율을구해서계산하면된다. 다만판정의범주가많아지면카파값은낮아진다 [5]. 카파통계량은계산상으로는 -1부터 1까지가능하지만 0 미만의값은우연보다도낮은일치를나타내므로실제적인범위는 0 ( 전혀일치하지않음 ) 에서 1 ( 완벽한일치 ) 이다. Landis 와 14 THE EWHA MEDICAL JOURNAL
Reliability Assessment and Method Comparison Koch [19] 는 0.80 보다크면거의완벽한일치 (almost perfect), 0.61 0.80 은상당한크기의일치 (substantial), 0.41 0.60 은적당한크기의일치 (moderate), 0.21 0.40 은어느정도의일치 (fair), 0.0 0.20 은약간의일치 (slight), 0 이하는일치도나쁨 (poor) 으로, Fleiss [20] 는 0.75 이상은매우좋음 (excellent), 0.4 0.75 는어느정도일치에서좋음사이 (fair to good), 0.40 미만은좋지않음 (poor) 으로, Altman [21] 은 0.8 이상은매우좋음 (very good), 0.6 0.8은좋음 (good), 0.4 0.6는적당 (moderate), 0.2 0.4 는어느정도 (fair), 0.2 미만은좋지않음 (poor) 으로분류하였다 [2,5]. 카파통계량에는대부분 P값을붙이지않는데카파값이 0 이라는귀무가설 ( 동일대상자에대한측정인데전혀일치하지않음 ) 에대한검정은의미가없어서일반적으로시행하지않기때문이며 [5], 이는 ICC 에대해서도마찬가지이다. 판정이여러범주로이루어진경우, 어느정도가까운범주로판정해낸경우는부분적으로일치한것으로인정해줄수있기도하고어떤범주간의불일치는특별히심각한것일수있는데, 이와같은상황에대한고려하여불일치의정도에따라가중치를부여해서계산하는것이가중카파통계량 (weighted kappa) 이다 [2]. Table 2에가중치를부여하는예를제시하였다. 두판정이일치하는대각선상의칸들 (a, f, k, p) 은가중치를 1로부여하고, 불일치하되인접하는판정인경우 (b, g, l, e, j, o) 는가중치를 0.75 로, 한칸더떨어진거리로판정하는경우 (c, h, i, n) 는가중치를 0.5 로부여한다면, 관찰된일치율과우연에의한일치율은각칸의관찰빈도또는우연에의한일치빈도에가중치를곱하는다음과같은식으로계산한다. + + + 1.0 관찰된일치율 = +b+g+l+e+j+o 0.75 +(c+h+i+n) 0.5 Table 2. Agreement between methods A and B on measurements with four-category results Method A Method B Definite Probable Possible Absent Total Definite a (1.0) b (0.75) c (0.5) d (0.0) A1 Probable e (0.75) f (1.0) g (0.75) h (0.5 or 0) A2 Possible i (0.5) j (0.75) k (1.0) l (0.75 or 0) A3 Absent m (0.0) n (0.5 or 0) o (0.75 or 0) p (1.0) A4 Total B1 B2 B3 B4 N Number in parentheses indicates the weight used for calculation of the weighted kappa. 우연에의한일치율 A1 B1 + A2 B2 + A3 B3 + A4 B4 1 A1 B2 + A2 B3 + A3 B4 + = +A2 B1 + A3 B2 + A4 B3 0.75 +A1 B3 + A2 B4 + A3 B1 + A4 B2 0.5 관찰된일치율 우연에의한일치율 Weighted kappa = 1.0 우연에의한일치율 질병이아니라고잘못판단하는것이심각한문제라고생각한다면, 똑같은간격을두고떨어져있다고할지라도한검사법에서질병이아니라고판정한경우 (d, h, l, m, n, o칸 ) 는가중치를 0을줄수도있다. 가중치는자료가사용될실제상황을고려했을때이불일치가얼마나심각한문제인가에대한연구자의인식에기초해서부여하게되는데이러한인위성은가중카파의약점중하나이며, 특히연속형변수를여러개의범주로만든순위형변수의경우에문제가될수있다 [2]. 카파통계량을해석할때는몇가지주의해야할점이있다. 첫째로각집단의실제양성유병률 (prevalence of true positivity) 이 0이나 1에가까우면카파값은작아지고 0에가까워지는경향이있기때문에서로다른집단의검사법신뢰도를비교할때는주의를요한다. 또한두평가자 ( 또는두검사법 ) 가판정한양성률이비슷할때보다서로다를때의카파값이더큰경향이있다. 따라서카파통계량은일치율과같은일치도의다른측도들을함께제시하고, 해석을할때해당조건의유병률및관찰자들간양성유병률이얼마나비슷한지를고려할필요가있다. 세명이상의관찰자가평가를한경우또는세번이상의반복측정이이루어진경우 (multiple ratings) 에는 Fleiss [22] 의카파통계량을이용할수있다. Fleiss 의카파는 Cohen 의카파와는달리모든대상자가동일한평가자에의해평가를받아야한다는가정을갖고있지않으며, 각대상자가서로다른관찰자에의해평가받는경우를가정한다 [23]. 두명의관찰자가평가한경우에 Cohen 의카파와는다르다는지적을받기도하지만, 일반적으로는세명이상의평가자가평가한경우에대한카파의확장으로 Fleiss 의카파를사용하고있으며, STATA 등많이사용하는통계패키지로분석할수있다. 결론 지금까지의학문헌에서검사법비교와신뢰도평가에흔하게사용되는통계방법과지표들을살펴보았다. 신뢰도나검사법비교연구는가설검정을사용하는일이적고결과해석에주관적이고기술적인면이많아연구자들에게어렵게생각될수있다. 각신뢰도평가방법의장점과제한점을고려하여적절한몇가지를 THE EWHA MEDICAL JOURNAL 15
Kong KA 같이사용하고제시하는것이권고된다 [18]. 지표들의산출방법은자료변환, 반복측정한값들중어느값을사용했는지, 사용한통계분석절차같은면까지좀더정확하게기술하고, 검사법의활용과관련된임상적의의를고려하여해석하는것이필요할것으로생각된다. 신뢰도연구에서주의할점을다시몇가지언급한다면, 반복성은재현성의전제조건이며반복성과평가자간재현성은검사법간비교의전제조건일수있으므로, 전제조건에해당하는신뢰도가먼저확인되어야한다. 반복성평가에서얻어진여러반복측정값들을평균을내서사용하면검사법간비교나재현성평가에서변동을잘못추정할수있으므로평균을사용하지않거나평균을사용할때적절한통계방법을사용해야한다. 서로다른연구에서얻어진신뢰도는직접비교하기어렵다. 마지막으로, 각관찰은서로독립으로이루어져야한다. 매우당연하고쉬운일인것같지만기존임상자료를재구성하여신뢰도연구를하거나검사법간비교를하는경우에는평가자가해당영상이나환자를기억하거나관련정보를갖고있을수있으므로각관찰에서독립성을확보하기위하여주의를기울여야할것이다. References 1. Korean Society for Preventive Medicine. Preventive medicine and public health. 2nd ed. Seoul: Gyechuk Munwhasa; 2013. 2. Szklo M, Nieto FJ. Epidemiology: beyond the basics. 2nd ed. Sudbury, MA: Jones and Bartlett Publishers; 2007. 3. Atkinson G, Nevill AM. Statistical methods for assessing measurement error (reliability) in variables relevant to sports medicine. Sports Med 1998;26:217-238. 4. Bartlett JW, Frost C. Reliability, repeatability and reproducibility: analysis of measurement errors in continuous variables. Ultrasound Obstet Gynecol 2008;31:466-475. 5. Petrie A, Sabin C. Medical statistics at a glance. 3rd ed. Chichester, UK: John Wiley & Sons; 2009. 6. Bland JM, Altman DG. Measuring agreement in method comparison studies. Stat Methods Med Res 1999;8:135-160. 7. Shrout PE, Fleiss JL. Intraclass correlations: uses in assessing rater reliability. Psychol Bull 1979;86:420-428. 8. Cicchetti DV. Guidelines, criteria, and rules of thumb for evaluating normed and standardized assessment instruments in psychology. Psychol Assess 1994;6:284-290. 9. Rosner B. Fundamentals of biostatistics. 7th ed. Boston, MA: Duxbury Press; 2006. 10. Hirschmann MT, Konala P, Amsler F, Iranpour F, Friederich NF, Cobb JP. The position and orientation of total knee replacement components: a comparison of conventional radiographs, transverse 2D-CT slices and 3D-CT reconstruction. J Bone Joint Surg Br 2011;93:629-633. 11. Kim CH, Chung CK, Hong HS, Kim EH, Kim MJ, Park BJ. Validation of a simple computerized tool for measuring spinal and pelvic parameters. J Neurosurg Spine 2012;16:154-162. 12. Donner A, Zou G. Testing the equality of dependent intraclass correlation coefficients. J R Stat Soc Ser D Stat 2002;51:367-379. 13. Bland JM, Altman DG. Statistical methods for assessing agreement between two methods of clinical measurement. Lancet 1986;1:307-310. 14. Bland JM, Altman DG. Applying the right statistics: analyses of measurement studies. Ultrasound Obstet Gynecol 2003;22:85-93. 15. Johnsson AA, Fagman E, Vikgren J, Fisichella VA, Boijsen M, Flinck A, et al. Pulmonary nodule size evaluation with chest tomosynthesis. Radiology 2012;265:273-282. 16. Bland M. Correction to section Measuring agreement using repeated measurements in Bland and Altman (1986) [Internet]. 2009 July 3 [cited 2016 Dec 19]. Available from: https://wwwusers.york.ac.uk/~mb55/meas/repeated.htm. 17. Hanneman SK. Design, analysis, and interpretation of methodcomparison studies. AACN Adv Crit Care 2008;19:223-234. 18. Bruton A, Conway JH, Holgate ST. Reliability: what is it, and how is it measured? Physiotherapy 2000;86:94-99. 19. Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics 1977;33:159-174. 20. Fleiss JL. Statistical methods for rates and proportions. 2nd ed. New York, NY: John Wiley and Sons; 1981. 21. Altman DG. Practical statistics for medical research. London, UK: Chapman & Hall/CRC; 1991. 22. Fleiss JL, Levin B, Paik MC. Statistical methods for rates and proportions. 3rd ed. Hoboken, NJ: John Wiley & Sons; 2003. 23. StataCorp. STATA base reference manual (release 13). College Station, TX: Stata Press; 2013. 16 THE EWHA MEDICAL JOURNAL