임상연구에필요한통계분석 () - 범주형자료에대한분석 - 순천향대중앙의료원의학통계상담실이지성 totoro96@schmc.ac.kr Introduction Categorical data: 그변수가가질수있는값이명목형 (nomial) 척도또는순위형 (ordinal) 척도인경우 명목형척도 : 혈액형 (A,B,AB,O), 성별 ( 남, 여 ) 처럼그값들이서로다르다는것을표현함. 순위형척도 : 상, 중, 하또는mild, moderate, severe 와같은증상이나상태의심한정도를상대적으로나타냄. 이러한변수들이갖는각값들을범주 (category) 라고함. 이들의분포를표현할때에는, 각범주에속하는상대적인빈도 (relative frequency) 즉, 비율 (proportion 혹은 rate) 을사용 분석방법 : Chi-square test, Fisher s exact test, McNemar s Test, Kappa statistic, Linear trend test, Cochran-Mantel-Haenzel Test 등
두범주형변수들간연관성검정 동질성검정 (Homogeneity test) 표본수가한변수의각수준에대해미리정해지는경우 이때보고자하는것은다른변수에대한위변수의각수준별반응분포가동일한가? ( 예 ) 각병원별외과수술환자들의사망률은모두동일한가? 외과수술결과 병원 사망 생존 Total A 130 1970 100 B 90 710 800 C 10 1380 1500 3 두범주형변수들간연관성검정 독립성검정 (Independence test) 전체표본수가정해지는경우 이때보고자하는것은두변수가서로관련이없는가 ( 즉, 서로독립인가?) ( 예 ) 교육수준과소득수준은서로관련이없는가, 즉, 서로독립인가? 소득수준 교육수준 상 중 하 대졸 55 105 81 고졸 110 9 66 중졸 90 113 88 동질성검정이든독립성검정이든상관없이모두카이제곱검정이라는것을사용함. 귀무가설 : 두범주형변수간에관련성이없다 ( 즉, 두변수는서로독립이다 ). 4
A Contingency table : a table composed of two rows crossclassified by two columns 예 : 예방접종 (exposure) 1. Chi Square Test 인플루엔자 Case(= 걸림 ) Control( 안걸림 ) Total 맞지않음 n 11 n 1 n 1+ 맞음 n 1 n n + Total n +1 n + n 예방접종여부와인플루엔자감염여부는서로독립적인가아니면서로관련이있는가? 만일관련이있다면, 예방접종을받지않으면인플루엔자에걸릴위험이증가하는가? 그렇다면그위험의크기는얼마나되는가? O E nij Eij ~ 1 E E Pearson s chi-square statistic where i1 j1 E 위의검정통계량은모든칸에대해서기대빈도 (m ij ) 가모두 5 이상이어야타당함. 각칸의관찰빈도 (O) 와이에해당하는기대빈도간의차이가크면클수록두집단의비율은다르다는것을의미. ij ni n n j i1 j1 ij 5 예방접종 인플루엔자 (exposure) Case(= 걸림 ) Control( 안걸림 ) Total 맞지않음 80 140 0 맞음 0 0 40 Total 100 360 460 H 0 : 예방접종유무와인플루엔자에걸리게될사건은독립이다. H 1 : 두사건은서로관련이있다. ( 귀무가설이사실이라는가정하에서 ) 기대빈도계산 예방접종 인플루엔자 (exposure) Case(= 걸림 ) Control( 안걸림 ) Total 맞지않음 100 0/460=47.83 360 0/460=17.17 0 맞음 100 40/460=5.17 360 40/460=187.83 40 Total 100 360 460 카이제곱검정통계량 (80 47.83) 47.83 (140 17.17) 17.17 (0 5.17) 5.17 (0 187.83) 187.83 53.01 ~ 1 기각역 : Reject H 0 if χ > 3.84 (p-value=<.001) 결론 : p-value = <.001 < = 0.05 reject H 0 두사건은독립이아니다. 6
SPSS: Chi Square Test 7 행에는 예방접종 을, 열에는 인플루엔자 를선택한다. 통계량버튼을눌러서카이제곱을선택하고, 셀버튼을눌러서퍼센트들을선택한다. 8
관찰빈도 (observed frequency)=80 예방접종의 % = 36.4% = 80/0 인플루엔자의 % = 80.0% = 80/100 전체 % = 17.4% = 80/460 를각각의미함 P value p 값 ( 유의확률 ) <.001 은유의수준 () 으로설정된 0.05 보다작으므로, 따라서귀무가설기각. 즉, 예방접종여부와인플루엔자여부는관련이있다고볼수있다. 예방접종맞지않음맞음 P-value by Chi-square test 인플루엔자걸림 인플루엔자안걸림 n (%) n (%) P value 80 0 (36.4) (8.3) 140 0 (63.6) (91.7) <.001 9 카이제곱검정의타당성 카이제곱검정의타당성 분할표의경우 (n 은 Total number of observation) n > 40 또는 0 < n < 40 이면서, 각칸의기대빈도 (expected frequency) 가모두 5 이상일때 r c 분할표의경우 : 기대빈도가 5 이하인칸이전체칸의 0% 이하이고, 1 보다작은기대빈도를가지는칸이없을때 자료가위의타당성조건을만족시키지못할때 : 해당행이나열을합하여위의조건들을만족시키도록함. 다음과같은경우에는 Fisher 의정확검정 (Fisher s exact test) 을사용함. n < 0 또는 0 < n < 40 이면서, 각칸의기대빈도중제일작은것이 5 이하일때 10
. Fisher s Exact Test Data concerning the possible association between high fat diet and the risk of coronary heart disease Heart Disease Exposure Yes No Total High Cholesterol Diet 11 4 15 Low Cholesterol Diet 6 8 Total 13 10 3 기대빈도 E 11 =13(8)/3=4.5, E 1 =10(8)/3=3.48 Two of the four cells have expected values less than 5. 즉, Data 가 small 또는 zero cell count 를포함하고있는경우, 카이제곱검정은타당하지않음. Fisher 의정확검정 (Fisher s exact test) 을사용 11 자료 : FatComp.sav SPSS : Fisher s exact test 1
Chi-square test Fisher s exact test CHD=Yes CHD=No Diet High Low P value by Fisher s exact test n (%) n (%) P value 11 (73.3) (5.0) 4 6 (6.7) (75.0) 0.039 13 3. The strength of an association 카이제곱검정결과유의한차이가있는것으로나타났으면그연관성의강도 (the strength of an association) 을평가할필요가있음. Cohort study(prospective) 의경우, RR 을 incidence rate( 발생율 ) 에대한 relative risk measure 로사용 Case-control study(retrospective) 의경우, Interest outcome 이 Rare disease 인경우에는 OR 을 relative risk measure 로사용 Common disease 인경우에는 relative risk measure 의계산이불가능함. 이경우 OR 은단지 measure of association 으로사용할수있을뿐임. 노출여부와질병여부간연관성측정 Exposure Disease Yes No Total Yes a b a+b no c d c+d Total a+c b+d n 14
Ex) 460 명대상, 예방접종여부 ( 아니오 / 예 ), 인플루엔자 ( 걸림 / 안걸림 ) 인플루엔자예방접종걸림안걸림 Total 맞지않음 80 140 0 맞음 0 0 40 Total 100 360 460 예방접종여부와인플루엔자감염여부는서로독립적인가아니면서로관련이있는가? 만일관련이있다면, 예방접종을받지않으면인플루엔자에걸릴위험이증가하는가? 그렇다면, 그위험의크기는얼마나되는가? 카이제곱검정결과 p-value<.001 reject H 0 결과적으로예방접종을받지않은사람이예방접종을받은사람에비해더자주인플루엔자에걸리게된다고말할수있다 (36.4% vs. 8.3%) 어느정도나더자주걸리게되는가?( 즉, 몇배나더위험한가?) 15 Odds Ratio(OR) vs. Risk Ratio (RR) - Case-control study: OR=(80/140)/(0/0) = 6.86 예방접종을받지않은사람이인플루엔자에걸릴 odds 는예방접종을받은사람이인플루엔자에걸릴 odds 의 6.86 배이다. - Cohort study: RR=(80/0)/(0/40)=4.364 예방접종을받지않은사람이인플루엔자에걸릴 risk는예방접종을받은사람이인플루엔자에걸릴 risk의 4.364배이다. 16
전향적연구의경우 Disease Exposure Yes No Total Yes a b a+b no c d c+d Total a+c b+d n 질병의발생률 (incidence rate) 파악이가능한연구설계 위험요인에노출된집단이질병에걸릴 Risk, R 1 =a/(a+b) 위험요인에비노출된집단이질병에걸릴 Risk, R =c/(c+d) 비노출집단에대한노출집단이질병에걸릴 risk ratio, RR=R 1 /R =a (c+d)/c(a+b) 노출집단이질병에걸릴 risk 는비노출집단이질병에걸릴 risk 의 RR 배이다. 17 후향적연구의경우 Disease Exposure Yes No Total Yes a b a+b no c d c+d Total a+c b+d n 질병에걸린집단이위험에노출될 odds, odds D =a/c 정상인집단이위험에노출될 odds, odds ND =b/d 정상집단에대한질병집단의위험요인노출 odds ratio, OR=odds D /odds ND =ad/bc 질병집단이위험요인에노출된 odds는정상집단이위험요인에노출된 odds의 OR 배이다. 노출중심으로해석해보면, 위험요인에노출된집단이질병에걸릴 odds, odds E =a/b 위험요인에비노출된집단이질병에걸릴 odds, odds NE =c/d 비노출집단에대한노출집단의질병에걸릴 odds ratio, OR=odds E /odds NE =ad/bc 결국 OR 은같게된다. 따라서질병여부에따라설계된연구이지만해석은, odds 의개념을이용해서, 노출집단이질병에걸릴 odds 는비노출집단이질병에걸릴 odds 의 OR 배이다 라고해석 18
단면연구 (cross sectional study) 인경우 Disease Exposure Yes No Total Yes a b a+b no c d c+d Total a+c b+d n 전체인원수 n 명을대상으로노출여부및질병여부를파악한연구설계 단면연구에서는노출여부와질병여부간의인과관계를파악할수없음. 따라서 relative risk measure 의측정은의미가없다. 이경우에는질병의발생률 (incidence) 가아닌유병률 (prevalence) 만이파악될수있다. 즉, 유병률비 (prevalence ratio:pr) 를계산한다. 위험비 (RR) 을계산한뒤, 이값을 PR 값으로해석한다. 즉, 몇배가더위험함 이아닌 몇배더유병하고있음 으로해석한다. 19 자료 : 인플루엔자 -coding1.sav SPSS : 위험도분석 0
앞예제의분석결과에대한해석 예방접종 = 맞음 인경우에비해, 예방접종 = 맞지않음 인경우에인플루엔자가걸릴 OR 및해당 CI 예방접종 = 맞음 인경우에비해, 예방접종 = 맞지않음 인경우에인플루엔자가걸릴 RR 및해당 CI 예방접종 = 맞음 인경우에비해, 예방접종 = 맞지않음 인경우에인플루엔자가걸리지않을 RR 및해당 CI 1 4. 맥니마검정 (McNemar s Test) Matched case-control study Control Case + - Total + 13 4 38-5 9 96 Total 17 117 134 134 cases and 134 matched controls, for a total of 68 subjects. Concordant pair(=13 pairs, 9 pairs) No information about the association between risk factor and disease McNemar test uses only the number of discordant pairs. R S 1 5 4 1 R S 5 4 13.79 ~ 결론 : p-value = <.001 < =0.05 There is an association between risk factor and disease. 1
SPSS : McNemar s test 3 P-value H 0 : Case 군의양성률과 Control 군의양성률은같다. H 1 : Case 군의양성률과 Control 군의양성률은다르다. P-value=<.001 < =0.05 reject H 0 4
5. Cohen s Kappa 일치성척도 (Agreement measurement) 두관찰자간의측정범주값에대한일치성정도를측정하는방법 두관찰자의평가가우연히일치할가능성을보정한두관찰자간의일치도 5 The Kappa Statistic 의이론적배경 Cohen(1968) 의 kappa 계수 Kappa, K = p o p e / 1 p e p o : observed agreement proportion = (15 + 70)/100 = 0.85 p e :by chance alone ( expected agreement proportion) = [(n 1 /n) (m 1 /n)]+[(n 0 /n) (m 0 /n)] = [(5/100) (0/100)]+[(75/100) (80/100)] = 0.05 + 0.6 = 0.65 Kappa = (p o p e )/(1 p e ) = (0.85 0.65)/(1 0.65) = 0.57 Moderate agreement 6
Example 두산부인과의사가 140 명의환자를 transvaginal ultrasonography 를시행하여난소암의여부와정도를진단하였다. 두의사의난소암판정정도는일치하는가? Doctor A Doctor B negative + ++ 전이 negative 3 3 0 + 5 10 11 0 ++ 0 4 4 0 전이 0 1 15 15 Kappa 계수 (Kappa coefficient) 로평가 7 자료 : Kappa.sav SPSS : Kappa 분석 분석을시작하기전에 count 를 가중설정 을해주어야한다. 8
9 SPSS output Kappa=0.59 Moderate agreement 30
6. Chi Square Test for Trend 예 ) Contingency Table Blood Pressure Data Class Ⅰ Ⅱ Ⅲ Ⅳ High 5 11 1 14 Blood Pressure Not High In the form of k contingency table, the rows have a distinct order(i.e., time points, ages, or doses), this information is not used in the standard chi-square test. The rows are ordered, and you may wish to ask whether there is a linear trend. That is, whether the prevalence of hypertension changes linearly with class. Null hypothesis: There is no correlation between row (class) number and the proportion of subjects who are hypertensive (in left row). 5 19 19 16 31 SPSS : Trend Test 분석을시작하기전에 count 를 가중설정 을해주어야한다. 3
33 SPSS output Chi-Square Test for Trend( 선형대선형결합 ): p-value = 0.018 There is a significant linear trend among the ordered categories defining the rows and the proportion of subjects in the left column. Chi-square test for trend uses more information and tests a narrower set of alternative hypotheses than does the chi-square test for independence. Chi-Square Test : p-value = 0.091 The row and column variables are not significantly associated. 34
7. Cochran Mantel Haenzel Test 4 개의병원으로부터호흡기곤란환자들을기존치료제와새로운치료제에랜덤하게할당한후호전의유무를조사한자료임. 치료제에따라호전도의차이가있는가이며, 병원의효과를제어하고싶다 병원치료제호전호전되지않음 A B C D 기존치료제새로운치료제 기존치료제새로운치료제 기존치료제새로운치료제 기존치료제새로운치료제 9 11 7 8 4 7 18 6 5 6 5 3 6 5 11 4 35 Cochran Mantel Haenzel (CMH) Test 독립된 K 개의그룹이있을때, 그룹의효과를제어한반응률의차이가있는지를검정하는방법 처리와반응률의자료가독립된여러병원으로부터얻어졌을때, 병원을하나의층 (strata) 로보고이를제어한처리와반응사이의연관성을알아보는경우 병원을층 (strata) 으로두고두처리간반응률의차이를조사하는것은병원에따라처리간반응률이달라질수있기때문임. 병원이라는층변수 (stratification variable) 를제어하면서전체적인반응률의차이를조사하는방법 따라서 K 개의층이있고처리 1 에서의반응율을 p 1, 처리 에서의반응율을 p 라고두처리간에전체적인반응률의차이가있는지를검정하고함. 36
SPSS: Cochran Mantel Haenzel Test 분석을시작하기전에 count 를 가중설정 을해주어야한다. 37 38
The significant p-value (=0.041) 병원을통제한결과, 치료제에따라호전여부는다르다는것은통계적으로유의하다. 39 The Breslow-Day test : a method for the testing for homogeneity of the odds ratio over multiple strata Adjusted OR(=1.65) can be used. The common OR(Mantel-Haenszel OR) =.147 95% CI: 1.019 4.50 40
Thank you for your attention 41