제장 비모수 검정(nonparametric analysis) 모집단의 분포를 알 수 없거나 모집단이 정규분포를 따른다고 가정할 수 없는 경우에는 모수적 검정을 사용할 수 없다. 이 경우에 자료의 부호나 순위로 가설 검정을 실시하며 이러한 검정 방법을 비모수 검정이라고 한다. 제절 적합도 검정(goodness of fit test) 주어진 자료가 어떠한 통계적 모델을 따른다고 할 수 있는지 검정하는 방법으로 범주형 자료분석에서 이미 소개하였다. 이 절에서 주어진 자료가 특정한 분포를 따른다고 할 수 있는지 검정해 보자. 이 검정방법은 SPSS에서 비모수 검정 레거시 대화 상자 일표본 k-s 메뉴를 선택한다. 검정방법은 정규분포, 균일분포, 포아송분포, 지수 분포 등이 있다. ① 귀무가설 H0 : goodness of fit of a probability model (의미 : 어떤 확률모델을 따른다.) 대립가설 H : not H0 (의미 : 어떤 확률모델을 따르지 않는다.) 사례 :. (정규성 검정) 어떤 자료가 정규를 따른다고 할 수 있는지 검정해보 자. ② SPSS로 통계적 모델에 대하여 출력결과를 얻는다(그림.).
제장 2 비모수 검정(NONPARAMETRIC ANALYSIS) ③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0 )의 기각, 채택 여부를 결정한다. 예를 들어 연구자가 연구자료의 정규성을 검정하기 위하여 유 의수준을 α = 0.05로 설정하고 SPSS 출력결과 유의확률이 0.048(그림.(b)) 이라면 귀무가설(H0 )를 기각한다. 따라서 주어진 자료가 정규분포를 따르지 않 는다고 할만한 통계적 근거가 있으므로 단일표본 t 검정을 사용할 수 없고 비모수 검정을 실시해야 한다. 사례 :.2 (정규성 검정 결과) 다음 자료는 어떤 2개 제품의 수명을 나타낸 것이다 (표.). 이 자료는 정규분포를 따른다고 할 수 있는지 검정하여라. 그림.의 출력결과 유의확률이 0.048이므로 이 자료는 정규분포를 따른다고 할 수 없다. 500 520 5000 5500 500 00 520 500 20 5000 5 200 표.: 정규성 검정 (a) 정규성 검정 설정 (b) 정규성 검정 결과 그림.: 정규성 검정 제2절 부호검정(sign test) 단일 집단의 분포가 정규분포를 따른다고 가정할 수 없는 경우 중앙값 θ를 θ0 로 할 수 있는지 검정하는 방법으로 SPSS에서 비모수 검정 레거시 대화 상자 이항 메뉴를 선택한다.
제 2 절 부호검정(SIGN TEST) ① 귀무가설 H0 : θ = θ0 (의미 : 어느 집단의 중앙값은 θ0 이다.) 대립가설은 다음 세 가지 중 하나를 연구자가 정한다. 대립가설 H : θ > θ0 (의미 : 어느 집단의 중앙값은 θ0 보다 크다.) 단측 검정 대립가설 H : θ < θ0 (의미 : 어느 집단의 중앙값은 θ0 보다 작다.) 단측 검정 대립가설 H : θ 6= θ0 (의미 : 어느 집단의 중앙값은 θ0 가 아니다. 즉 집단의 중앙값은 0보다 크거나 0보다 작다) 양측검정 사례 : 2. (부호 검정) 표.에서 중앙값이 520인지 검정해 보자. 귀무가설 H0 : θ = 520 (의미 : 제품 수명의 중앙값은 520이다.)이고 대립가설은 다음 세 가지 중 하나를 연구자가 정한다. 대립가설 H : θ > 520(의미 : 제품 수명의 중앙값은 520보다 크다.) 대립가설 H : θ < 520(의미 : 제품 수명의 중앙값은 520보다 작다.) 대립가설 H : θ 6= 520(의미 : 제품 수명의 중앙값은 520이 아니다. 즉 520보다 크거나 520보다 작다) ② SPSS로 통계적 모델에 대하여 출력결과를 얻는다(그림.2). ③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0 )의 기각, 채택 여부를 결정하고, 그 결과를 해석한다. 연구자가 유의수준을 α = 0.05로 설정하고 SPSS 출력결과 유의확률(양측)이 0.09(그림.2(b))라면 단측검정인 경우는 유의확률이 0.09/2=0.085이므로 귀무가설을 기각 못 하고 양측검정인 경우도 유의확률이 0.09이므로 귀무가설을 기각할 수 없다. 500 + 520 5000 5500 500 00 + 520 표.2: 부호 평가 500 20 5000 5 200
제장 4 비모수 검정(NONPARAMETRIC ANALYSIS) (a) 부호 검정 설정 (b) 부호 검정 결과 그림.2: 부호 검정 제절 Wilcoxon 부호 순위 검정(Wilcoxon signed rank test) 분포를 알 수 없는 쌍으로 된 대응 표본의 차이 검정에 사용하며 SPSS에서 비모수 검정 레거시 대화 상자 대응 2-표본 메뉴를 선택한다. ① 귀무가설 H0 : = 0 (의미 : 어느 집단 차이의 중앙값은 0이다.) 대립가설은 다음 세 가지 중 하나를 연구자가 정한다. 대립가설 H : > 0(의미 : 어느 집단 차이의 중앙값은 0보다 크다.) 단측검정 대립가설 H : < 0(의미 : 어느 집단 차이의 중앙값은 0보다 작다.) 단측검정 대립가설 H : 6= 0(의미 : 어느 집단 차이의 중앙값은 0이 아니다. 즉 집단차의 중앙값은 0보다 크거나 0보다 작다) 양측검정 사례 :. (Wilcoxon 부호 순위 검정) 두 종류의 청량음료를 20명의 지원자 에게 맛을 보게 한 다음 0에서 00점까지 점수로 평가하였다. 귀무가설 H0 : = 0 (의미 : 두 청량음료 점수 차이에 대한 중앙값은 0이다.) 이고 대립가설은 다음 세 가지 중 하나를 연구자가 정한다. 대립가설 H : > 0(의미 : 두 청량음료 점수 차이에 대한 중앙값은 0보다 크다.)
제 절 Wilcoxon 부호 순위 검정(Wilcoxon signed rank test) 5 대립가설 H : < 0(의미 : 두 청량음료 점수 차이에 대한 중앙값은 0보다 작다.) 대립가설 H : 6= 0(의미 : 두 청량음료 점수 차이에 대한 중앙값은 0이 아니다. 즉 0보다 크거나 0보다 작다) ② SPSS로 통계적 모델에 대하여 출력결과를 얻는다(그림.). ③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0 )의 기각, 채택 여부를 결정하고, 그 결과를 해석한다. 연구자가 유의수준을 α = 0.05로 설정하고 SPSS 출력결과 유의확률(양측)이 0.042(그림.(b))라면 단측검정인 경우는 유의확률이 0.02이므로 귀무가설을 기각 못하고 양측검정인 경우도 유의확률이 0.042이므로 귀무가설을 기각할 수 없다. (a) Wilcoxon 부호 순위 검정 설정 (b) Wilcoxon 부호 순위 검정 결과 그림.: Wilcoxon 부호 순위 검정 음료 70 85 7 7 65 50 80 7 80 5 음료 2 65 4 45 80 84 50 7 52 42 78 부호순위 7 4-6 - 7 5 - 음료 72 76 79 65 59 72 84 90 56 57 음료 2 62 8 80 65 54 67 87 90 8 4 부호순위 8 5 - -2 0 9 표.: 부호 순위 평가
제장 6 제4절 비모수 검정(NONPARAMETRIC ANALYSIS) McNemar 검정 McNemar 검정은 명목형 자료가 2 2 분할표로 표현되는 대응 표본에 대한 검정이다. 이 분석은 SPSS에서 비모수 검정 레거시 대화 상자 대응 2-표본 메뉴를 선택한다. ① 귀무가설 H0 : p2 = p2 (의미 : 주변분포의 확률은 같다.) 대립가설 H : p2 6= p2 (의미 : 주변분포의 확률은 같지 않다.) 사례 : 4. (McNemar 검정) 경구용 약이 특별한 질병에 효과가 있는지 연구 중이다. 이 연구에서 조사는 약 복용전 질병 유무와, 약 복용후 질병 유무를 조 사하였다. 즉 한 사람에게 두 번 검사하였다. 약 복용전과 복용후 질병 발병율이 차이가 있는지 검정하자. 귀무가설 H0 : pbp = pap (의미 : 복용전 질병(bp) 발병율과 복용후 질병(ap) 발병율은 같다)이고 대립가설 H : pbp 6= pap (의미 : 복용전 질병(bp) 발병율과 복용후 질병(ap) 발병율은 같지 않다) ② SPSS로 통계적 모델에 대하여 출력결과를 얻는다(그림.4). ③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0 )의 기각, 채택 여부를 결정하고, 그 결과를 해석한다. 연구자가 유의수준을 α = 0.05로 설정하고 SPSS 출력결과 유의확률(양측)이 0.0004(그림.4(b)) 이하이고, 양측검정인 경우도 유의확률이 0.0004 이하이므 로 귀무가설을 기각할 수 없다. (a) McNemar 검정 설정 (b) McNemar 검정 결과 그림.4: McNemar 검정
제 5 절 Wilcoxon 순위합 검정(Wilcoxon rank sum test, Mann Whitney U test) 7 제5절 Wilcoxon 순위합 검정(Wilcoxon rank sum test, Mann Whitney U test) 모수 검정에서 독립인 두 표본에 대한 검정은 독립 표본 t 검정을 하였다. 그러나 서로 독립인 두 표본 검정에서 분포를 모르거나 분포의 독립성을 보장할 수 없을 때에는 Wilcoxon 순위합 검정을 실시해야 한다. 이 검정방법은 SPSS에서 비모수 검정 레거 시 대화 상자 독립 2-표본 메뉴를 선택하여 분석할 수 있다. ① 귀무가설 H0 : θ = θ2 (의미 : 두 집단의 순위 평균은 같다.) 대립가설 H : θ 6= θ2 (의미 : 두 집단의 순위 평균은 같지 않다) 사례 : 5. (Wilcoxon 순위합 검정) 두 식이요법 A와 B를 실시한 후, 체중의 증가율을 조사한 자료이다(그림.5(a)). 두 가설은 귀무가설 H0 : θ = θ2 (의미 : 두 식이요법의 순위 평균은 같다.)이고 대립가설 H : θ 6= θ2 (의미 : 두 식이요법의 순위 평균은 다르다.) ② SPSS로 통계적 모델에 대하여 출력결과를 얻는다. ③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0 )의 기각, 채택 여부를 결정하고, 그 결과를 해석한다. 연구자가 유의수준을 α = 0.05로 설정하고 SPSS 출력결과 유의확률이 0.05(그 림.5(b)) 이므로 귀무가설을 기각한다. 즉 두 집단의 식이요법 결과 체중 증가 율이 다르다고 할 수 있다. (a) Wilcoxon 순위합 검정 설정 (b) Wilcoxon 순위합 검정 결과 그림.5: Wilcoxon 순위합 검정
제장 비모수 검정(NONPARAMETRIC ANALYSIS) A 방법 A 방법 A 방법 A 방법 A 방법 A 방법 2.8 4.9.9.7 2.86.2 9 2 6 4 B 방법 B 방법 B 방법 B 방법 B 방법 B 방법 B 방법 4.67 5.8.89 4.67.58 4.96.98 0 7 0 5 2 8 8 식이요법 체중증가율 순위 식이요법 체중증가율 순위 표.4: 순위합에서 순위 평가 제6절 Kruskal Wallis 검정 서로 독립인 세 지단 이상의 평균 비교는 분산분석으로 하였다. 그러나 정규성을 보장할 수 없어서 분포를 알 수 없는 경우에는 Kruskal Wallis 검정으로 세 집단의 분포비교 를 한다. 이 분석방법은 서로 독립인 세 집단 이상에서 집단별 순위 평균을 비교하는 검정방법이다. 순위는 모든 집단에 전체 순위를 계산하여 각 집단의 순위 비교로 SPSS 에서 비모수 검정 레거시 대화 상자 독립 k-표본 메뉴를 선택한다. ① 귀무가설 H0 : θ = θ2 = = θk (의미 : k 집단의 순위 평균은 같다.) 대립가설 H : not H0 (의미 : k 집단 중 순위 평균이 같지 않은 집단이 있다.) 사례 : 6. (Kruskal Wallis 검정) 독일어 교육을 서로 다른 세 개의 집단으로 나누고 교육이 끝난 후 시험을 보았다. 각 집단은 은 교실에서 수업과 회화 실습실에서 실습을 병행 2는 교실에서 수업 은 학생 스스로 공부한 경우 두 가설은 귀무가설 H0 : θ = θ2 = θ (의미 : 세 집단 순위 평균은 같다.)이고 대립가설 H : not H0 (의미 : 세 집단 중 순위 평균이 같지 않는 집단이 있다.) ② SPSS로 통계적 모델에 대하여 출력결과를 얻는다(그림.6). ③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0 )의 기각, 채택 여부를 결정하고, 그 결과를 해석한다.
제 7 절 Cochran Q 검정 9 연구자가 유의수준을 α = 0.05로 설정하고 SPSS 출력결과 유의확률이 0.05(그 림.6(b)) 이므로 귀무가설을 기각한다. 즉 세 집단의 순위 평균은 모두 같다고 할 수 없다. (a) Kruskal Wallis 검정 설정 (b) Kruskal Wallis 검정 결과 그림.6: Kruskal Wallis 검정 독립인 세 표본 순위 대응된 세 표본 순위 ID 집단 집단 2 집단 ID 집단 집단 2 집단 7 2 2 5 8 2 2 4 9 2 4 0 2 5 4 2 5 4 6 2 5 표.5: 독립 표본과 대응 표본의 순위 평가 제7절 Cochran Q 검정 세 집단 이상의 대응 표본에서 관측할 수 있는 값이 성공, 실패와 같이 두 개인 경우 각 집단의 비율이 같은지 비교하는 분석방법이다. 이 분석은 SPSS에서 비모수 검정 레거시 대화 상자 대응 k-표본 메뉴를 선택한다. ① 귀무가설 H0 : p = p2 = = pk (의미 : k 집단의 성공 비율은 모두 같다.) 대립가설 H : not H0 (의미 : k 집단 중 성공 비율이 같지 않은 집단이 있다.)
제장 0 비모수 검정(NONPARAMETRIC ANALYSIS) 사례 : 7. (Cochran Q 검정) 직물원단을 4 가지 방법으로 가공하여 방수원단 을 만들려고 한다. 6 종류의 원단으로 효율성을 검사하였으며 만족하면, 그렇지 않으면 0으로 평가하였다. 두 가설은 귀무가설 H0 : p = p2 = p (의미 : 세 집단의 성공 비율은 같다.)이고 대립가설 H : not H0 (의미 : 세 집단 중 성공 비율이 같지 않는 집단이 있다.) ② SPSS로 통계적 모델에 대하여 출력결과를 얻는다(그림.7). ③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0 )의 기각, 채택 여부를 결정하고, 그 결과를 해석한다. 예를 들어 연구자가 유의수준을 α = 0.05로 설정하고 SPSS 출력결과 유의확률 이 0.025(그림.7(b)) 이므로 귀무가설을 기각한다. 즉 세 집단의 성공 비율은 모두 같지 않다고 할 수 있다. (a) Cochran Q 검정 설정 (b) Cochran Q 검정 결과 그림.7: Cochran Q 검정 제8절 Friedman 검정 세 집단 이상의 대응 표본의 중앙값을 비교하는 분석방법이다. 모수 검정에서 반복측 정 분산분석(repeated measures ANOVA)이 있다. 이 분석 방법은 각 블록(block)마다 순위를 계산하여 각 집단의 순위를 비교한다. 이 분석 방법은 SPSS에서 비모수 검정 레거시 대화 상자 대응 k-표본 메뉴를 선택한다. ① 귀무가설 H0 : θ = θ2 = = θk (의미 : k 집단의 순위 평균은 같다.) 대립가설 H : not H0 (의미 : k 집단 중 순위 평균이 같지 않은 집단이 있다.)
제 8 절 Friedman 검정 사례 : 8. (Friedman 검정) 8 마리의 쥐에게 0, 24, 72 시간 동안 굶기고 음식 을 주었을 때 음식 소비량을 조사하였다. 굶긴 시간에 따라 음식 소비량이 차이가 있는지 검정해 보자. 두 가설은 귀무가설 H0 : θ = θ2 = θ (의미 : 세 집단의 순위 평균은 같다.)이고 대립가설 H : not H0 (의미 : 세 집단중 순위 평균이 같지 않는 집단이 있다.) ② SPSS로 통계적 모델에 대하여 출력결과를 얻는다(그림.8). ③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0 )의 기각, 채택 여부를 결정하고, 그 결과를 해석한다. 연구자가 유의수준을 α = 0.05로 설정하고 SPSS 출력결과 유의확률이 0.00(그 림.8(b)) 이므로 귀무가설을 기각한다. 즉 세 집단의 순위 평균은 모두 같지 않다고 할 수 있다. (a) Friedman 검정 설정 (b) Friedman 검정 결과 그림.8: Friedman 검정
제2장 범주형 자료분석 자료의 종류가 몇 개의 범주(category)로 나누어 진 것을 범주형 자료(categorical data) 라고 부른다. 범주형 자료에는 명목형 자료(nominal data) : 범주에 가중치가 없는 자료(예 : 남자, 여자; 강원도, 경기도, 충청도 등) 순위형 자료(ordinal data) : 범주에 가중치가 있는 자료(예 : 상류층, 중류층, 하류층; 급, 2급, 급 등) 이 있으며, 자료의 형태에 따라 분석방법이 다른 것들도 있다. 범주형 자료는 발생 범주의 수/ 총 범주의 수와 같은 율 을 사용하며 이 단어에 대하여 알아보자. 구성비(proportion) 발생할 수 있는 모든 사건 중 특정 사건이 점유하는 비를 말한다. 예를 들어 위암으로 사망한 건 수가 50건이고 다른 질병으로 사망한 건수가 50 건이라면 사망에 대한 위암 구성비는 50 50+50 = 0.25이다. 확률(probability) 사건이 발생할 수 있는 실험을 오랫 동안 반복하였을 경우 그 사건 이 차지하는 구성비이다. 위에서 소개한 구성비는 이미 발생한 상태에서 계산하고 확률은 아직 발생하지 않았지만 이후 발생할 가능성을 나타낸다. 예로 동전을 던 지지 않았지만 무한하게 동전 던지기를 시행하면 동전의 앞면이 나올 확률은 0.5 에 가깝게 될 것이다. 순간 발생률(rate) 한 순간에 발생하는 비율로 사건 발생에 대한 속도를 의미한다. 즉 전체 발생한 사건에 대하여 일정한 구간으로 나누어 측정한 후 구간 비율 을 계산한다. 예를 들어 00명을 년간 관찰하였더니 명이 사망하였다고 하 자. 이때 명의 생존 기간이 개월, 6개월, 9개월이면 사망자의 사망위험에 노출
제2장 4 된 시간은 +6+9 2 범주형 자료분석 =.5년이고 생존자의 사망노출시간은 97명이므로 97년이다. 따라서 총 사망노출시간은.5+97=98.5년이다. 연당 사망자의 순간 발생률은 98.5 = 0.005이다. 월당 사망자의 순간 발생률은 사망자의 노출월이 +6+9=8, 생존자의 노출월이 97 2=64이므로 00명 중 명이 사망하였으므로 00 8+64 = 0.0025 이다. 사망 구성비는 = 0.0으로 시간에 따라 일정하지만 순간 발생률은 시간의 단위에 따라 그 값이 다르다. 비(ratio, 比) 한 사건이 일어날 사건수와 배반(disjoint)된 다른 사건이 일어날 사건 의 비이다. 통계학에서 비에 대한 통계량은 승산(odds) p p p2 p2 p p, 승산비(odds ratio) 이 있다. 예를 들어 테니스 시합에서 6번 이기고 4번 졌다면 이기는 비는 6:4 또는 6/4=.5이다. 제절 적합도 검정(goodness of fit test) 이 검정법은 통계적 모델에 자료가 적합한지 Pearson χ2 검정한다. 이 경우 각 셀의 값, 즉 각 해당 범주의 값이 5이상되어야 근사확률이 정확한 확률에 근접하며 그렇지 않은 경우에는 유의확률에 대한 보장이 어렵다. ① 귀무가설 H0 : goodness of fit of a probability model (의미 : k개 범주의 비율은 p = p0, p2 = p20,..., pk = pk0 이다.) 대립가설 H : not H0 (의미 : k개 범주의 비율은 p = p0, p2 = p20,..., pk = pk0 가 아니다.) 사례 :. (적합도 검정) 어떤 나무의 자가수정 결과로 나올 수 있는 유전 형태 가 세 종류일 때 생물학에서 유전적 비율이 : 2 : 로 알려져 있을 때 00 개의 나무에 대하여 적합도 검정을 실시해 보자. 귀무가설 H0 : p = 0.25 : p2 = 0.5 : p = 0.25 (의미 : 나무의 유전적 비율은 :2:)이고 대립가설은 H : not H0 (나무의 유전적 비율은 :2: 이 아니다.) ② SPSS로 통계적 모델에 대하여 출력결과를 얻는다(그림 2.). ③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0 )의 기각, 채택 여부를 결정하고, 그 결과를 해석한다.
제 2 절 독립성 검정 5 (a) 적합도 분석 메뉴 (b) 가중치 설정 (c) 검정변수와 기대값 설정 (d) 출력결과 그림 2.: 적합도 검정 사례 :.2 (적합도 검정 결과) 연구자가 유의수준을 α = 0.05로 설정하고 SPSS 출력결과 유의확률이 0.27이라면 유의확률이 0.27이므로 귀무가설을 기각 못하므로 나무의 자가수정 비율은 통계적으로 :2:이라고 할 수 있다. 제2절 독립성 검정 독립성 검정(independence test)은 두 집단이 서로 독립인지 검정한다. ① 귀무가설 H0 : P [i, j] = P [i] P [j] for all i, j (의미 : 두 변수는 서로 독립이다.) 대립가설 H : not H0 (의미 : 두 변수는 서로 독립이 아니다.)
제2장 6 범주형 자료분석 사례 : 2. (독립성 검정) 텔레비젼에 방송되는 오락물에 대한 사람들의 의견이 성별과 관련있는지 알아보려고 250명을 임의추출하여 성별(남성, 여성)과 오락 물 방영(너무많다, 적당하다, 너무 적다)에 대한 의견을 조사하였다. 성별에 따른 오락불 방영에 의견은 서로 연관성이 있다고 할 수 있는가? 귀무가설 H0 : P [i, j] = P [i] P [j] for i =, 2j =, 2, (의미 : 성별에 따라 오락물 방영에 대한 의견은 서로 관련없다.) 대립가설은 H : not H0 (성별에 따라 오락물 방영에 대한 의견은 서로 관련있다.) ② SPSS로 통계적 모델에 대하여 출력결과를 얻는다(그림 2.2). ③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0 )의 기각, 채택 여부를 결정하고, 그 결과를 해석한다. 사례 : 2.2 (독립성 검정 결과) 연구자가 유의수준을 α = 0.05로 설정하고 SPSS 출력결과 유의확률이 0.270(그림 2.2(f))이므로 귀무가설을 기각 못하므로 성별에 따 른 오락물 방영비율은 서로 독립이다고 할 수 있다. 독립성 검정에서 두 변수의 범주가 모두 두 개일 때, 즉 2 2인 경우 두 변수의 연관성 (association)의 척도로 상대 위험도(relative risk, RR)와 승산비(odds ratio, OR)가 있다. 상대 위험도는 두 변수의 성공일 확률이 p, p2 일 때 RR = p p2 이다. 이 값은 한 변수에 대하여 두 범주의 성공 비율을 비교할 수 있을 때는 명확한 설명을 제시한다. 예를 들어 남자의 음주율과 여자의 음주율이 몇 배가 차이가 있는지 알아보려면 쉽게 계산되며 그 의미도 이해할 수 있다. 그러나 상대 위험도는 코호트 연구(cohort study)나 실험군과 대조군을 사전에 정의한 후 그 결과를 관찰하는 임상시 험에서는 계산할 수 있지만, 사례조사연구 (case control study)와 같이 대조군의 수가 미리 연구자에 의해 미리 결정되었을 때 비율 계산이 불가능하므로 사용할 수 없으며 이 때에는 승산비를 사용해야 한다. 승산(odds)은 어떤 실험에서 성공일 확률을 p라 할 때 odds = p p
제 2 절 독립성 검정 7 (b) 가중치 설정 (a) 독립성 검정과 가중치 (c) 행과 열에 변수 입력 (e) 셀에 출력값 설정 (d) 카이제곱 통계량 (f) 출력결과 그림 2.2: 독립성 검정
제2장 8 범주형 자료분석 이며, 승산이 주어졌을 때 성공 확률은 p= odds + odds 이다. 예를 들어 년에 감기가 걸리는 확률이 0.4라면 승산은, 즉 감기에 안 걸리기 보다 오히려 걸리는 승산, 0.4/( 0.4) = 0.667이다. 이런 경우 우리는 흔히 감기 걸리는 것과 안 거리는 비는 2:이라고 표현한다. 반면 감기 걸리는 승산이 2/일 때, 감기 걸리는 확률은 2/ +2/ = 0.4로 계산한다. 두 변수의 성공일 확률이 p, p2 일 때 승산비(odds ratio)는 p odds p p2 = odds 2 p2 이다. 승산비는 각 승산(성공비율/실패비율)의 비율을 제시하기 때문에 직관적인 해석 이 어려울 수 있다. 그러나 승산비 OR은 근사적으로 평균이 log(or)이고 분산이 σ 2 인 정규분포를 따른다고 알려져 있기 때문에 통계적 유의성을 평가할 수 있다. 두 그룹의 승산이 같다면 승산비는 이다. 따라서 승산비에 대한 귀무가설 H0 : odds = 로 odds2 설정한다. X N (log(or), σ 2 ) 위 식에 표준오차(standard error)는 근사적으로 r + + + S.E = n n2 n2 n22 로 알려져 있다. 두 변수에 대한 상대 위험도와 승산비의 관계는 RR = p p2 = OR p2 p 이다. 사례 : 2. (오즈비 검정) 음주율이 남녀별 연관성이 있는지 알아려고 각 성별마다 00명씩 조사한 결과 남자는 80명이 지난주 음주하였고 여자는 0명이 음주하였다고 하자(표 2.). 이 때 남여별 음주가 연관성이 있는지 알아보고 만일 연관성이 있다면 얼마만큼 차이가 있는지 알아보자. ① 귀무가설 H0 : odds = odds2 대립가설 H : odds 6= odds2
제 2 절 독립성 검정 9 지난주 음주여부 음주 금주 합계 남자 80 20 00 여자 0 70 00 합계 0 90 200 성별 표 2.: 승산비 ② SPSS로 통계적 모델에 대하여 출력결과를 얻는다(그림 2.). 승산비 설정는 독립성 검정 단계 중 그림 2.2(d)에서 위험도 메뉴를 선택한다 (그림 2.). ③ 그림 2.(b)에 표 2. 자료의 출력결과가 있으며 남자 음주율과 여자 음주율에 대 한 승산비는 9.이며 이 통계량에 대한 95% 신뢰구간은 (4.870, 7.886)이다. 만일 두 승산비가 통계적으로 같다면 신뢰구간에 을 포함할 것이고 같지 않다 면 을 포함하지 않을 것이다. SPSS에서는 유의확률을 제공하지 않기 때문에 확인할 수 없으므로 직접 구해보면 " P Z log(9.) r + + + 80 20 0 70 # = P [Z 6.7] = 8.425 0 2 이며, 통계적으로 승산비가 이 아니라고 할만큼 매우 큰 유의성을 가진다. 주어진 변수가 개이고 2 2 k인 범주형 자료에 대하여 알아보자. 이 경우는 2 2보다 분석할 것이 k 개 집단별 2 2에 대한 분할표 k 개 집단별 2 2에 대한 독립성 검정 k 개 집단별 2 2에 대한 승산비 검정 전체 승산비에 대한 동질성 검정 전체 승산비에 대한 독립성 검정 전체 공통 승산비에 검정
제2장 20 (a) 승산비 설정 범주형 자료분석 (b) 승산비 출력결과 그림 2.: 승산비 검정 이다. 다음 예를 보자. 사례 : 2.4 (오즈비 검정(2 2 k)) )중국 8개 도시를 대상으로 흡연과 폐암에 대한 자료이다. 이 분석에 변수 설정은 그림 2.4(a), 통계량 설정은 그림 2.4(b)를 참조한다. 각 도시별 2 2에 대한 분할표(그림 2.4(c)) 각 도시도시별 2 2에 대한 독립성 검정(그림 2.4(d)) 각 도시별 2 2에 대한 승산비 검정(그림 2.4(e)) 전체 승산비에 대한 동질성 검정(그림 2.4(f)) 전체 승산비에 대한 독립성 검정(그림 2.4(f)) 전체 공통 승산비에 검정(그림 2.4(f)) 제절 동일성 검정 동일성 검정(homogeneity test)은 반응변수 집단의 범주에 대하여 모집단을 부그룹 (subgroup)로 나눈 경우 부그룹의 비율이 모두 같은지 검정한다. ① 귀무가설 H0 : PA = PB,..., PAk = PBk (의미 : k 개 반응변수마다 부그룹(A, B)의 비율은 모두 같다.) 대립가설 H : not H0 (의미 : k 개 반응변수마다 부그룹(A, B)의 비율은 같지 않다.)
제 절 동일성 검정 2 (a) 각 집단을 레이어에 추가 (b) 통계량 설정 (c) 분할표 출력 (d) 각 집단의 카이제곱 통계량 (e) 각 집단의 승산비 (f) 레이어 전 대상의 통계량 그림 2.4: 승산비 검정(2 2 k)
제2장 22 범주형 자료분석 사례 :. (동일성 검정) 두 가지 식이요법을 비교하기 위하여 50명 환자를 임의로 두 집단으로 80명과 70명으로 나눈 후 한 집단에는 식이요법 A를 다른 집단에는 식이요법 B를 적용한 후 건강상태를 세 가지 범주(좋음, 보통, 않좋음) 로 나누었을 때 환자의 건강상태에 따른 식이요법 비율이 같은지 검정해 보자. 귀무가설 H0 : PA = PB, PA2 = PB2, PA = PB (의미 : 환자의 건강상태에 따른 식이요법 비율은 모두 같다.) 대립가설은 H : not H0 (환자의 건강상태의 마다 식이요법 비율은 모두 같지 않다.) ② SPSS로 통계적 모델에 대하여 출력결과를 얻는다(출력과정은 독립성 검정과 같음). ③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0 )의 기각, 채택 여부를 결정하고, 그 결과를 해석한다. 사례 :.2 (동일성 검정 결과) 연구자가 유의수준을 α = 0.05로 설정하고 SPSS 출력결과 유의확률이 0.6이라면 유의확률이 0.6이므로 귀무가설을 기각 못하므로 통계적으로 환자의 건강 상태의 범주 비율은 식이요법마다 모두 같다고 할 수 있다. 제4절 likelihood ratio test 우도비 검정(likelihood ratio test)은 귀무가설 H0 와 대립가설 H 의 두 모델의 적합 성을 비교하는 통계적 가설검정법으로 범주형 자료에서도 당연히 적합도를 검정할 수 있다. 통계적 모델에 대한 적합성을 검정하기 위한 검정통계량을 deviance라고 하며 이 값은 D = 2 log LH0 Lmax 로 나타낸다. 여기서 L은 우도함수(尤度函數, likelihood function)이며 통계량은 χ2 (df ) 분포를 따른다. 우도(likelihood)란 어떤 관측값에 통계적 모형을 적용하였을 때 실제로 관측한 자료에 대한 확률을 통계적 모수(parameter)의 함수로 나타낸 것이다. 확률은 확률변수(random variable)의 함수란 점이 우도와의 차이점이다. 우도함수는 모수 추 정에 있어 가능한 추정치 중 우도가 큰 것이 더 그럴듯한(more likely) 추정치란 것이다. 만일 추정이 가능한 모수의 값이 2개일 때 우도가 큰 값을 모수의 추정치로 결정한다.
제 4 절 LIKELIHOOD RATIO TEST 2 사례 : 4. (우도함수) 0명의 환자를 일정 기간 동안 관찰한 결과 4명이 사망하고 6 명이 생존하였을 경우 사망확률이 동일하고 서로 독립이라면 사망자수의 분포는 이항 분포를 따른다고 할 수 있다. 이 경우 우도 함수 L은 0 4! p4 ( p)6 로 나타낼 수 있다. 만일 사망확률이 0.2와 0.5 두 가지가 가능하단면 어떤 확률이 더 그럴듯한 확률인지 계산해 보자. L(0.2) = 20(0.2)4 ( 0.2)6 = 0.088 L(0.5) = 20(0.5)4 ( 0.5)6 = 0.2508 계산 결과 L(0.5)가 L(0.)보다 크기 때문에 미지의 모수(사망확률)에 더 그럴듯한 값이라 할 수 있다. 우도비 검정에서 이항계수 부분은 같은 값을 모든 모수 추정에 계산하므로 실제 로 이 부분은 제외하고 대수우도(對數尤度, log likelihood)를 계산하며 l로 표시한다. 사례 4.에서 대수우도 l은 l(0.2) = 4 log(0.2) + 6 log( 0.2) = 7.777 l(0.5) = 4 log(0.5) + 6 log( 0.5) = 6.9 이며 l(0.5) > l(0.2)이므로 0.5가 그렇듯한 모수의 추정치이다. 여기서 가설은 부모집단 (subgroup)에 대하여 ① 귀무가설 H0 : goodness of fit of a probability model (의미 : k개 범주의 비율은 p = p0, p2 = p20,..., pk = pk0 이다.) 대립가설 H : not H0 (의미 : k개 범주의 비율은 p = p0, p2 = p20,..., pk = pk0 가 아니다.) 사례 : 4.2 (우도비 검정) 표 2.2에 우도비를 검정할 자료로 각 범주는 근로자의 독소 노출 상태와 천식증상이다. 독소노출에 따라 천식증상이 연관이 있다고 할 수 있는가? ② SPSS로 통계적 모델에 대하여 출력결과를 얻는다(출력은 독립성 검정과 같음). 표 2.2에서 L0 은 L(p, p, p) = pq 9 p2 q p7 q = p0 q 5
제2장 24 독소 노출 없음 보통 강함 없음 9 있음 2 7 천식 증상 범주형 자료분석 표 2.2: 우도비 검정 이고 L 은 L(p, p2, p ) = p q9 p22 q2 p7 q 이다. 여기서 p = 0., p2 = 0.4, p = 0.7이다. 따라서 log L0 L 는 log L0 log L = 0 log p + 5 log q (log 0. + 9 log 0.9 + 2 log 0.4 + log 0.6 + 7 log 0.7 + log 0.) = 4.008 여기서 p = 0 25, q = 5 25 이다. 따라서 deviance likelihood χ2 통계량은 χ2 = 2 ( 4.008) = 8.205 이며, 이 때 유의확률은 0.066이다. SPSS로 실행해 보면 이 값이 같음을 확인할 수 있다. ③ 유의확률이 0.066이므로 귀무가설을 기각한다. 따라서 천식정도는 독소 노출 정도에 따라 다르다고 할 수 있다. SPSS에서 분석과정 및 출력결과는 독립성 검정과 같으므로 생략한다. 제5절 linear by linear association 선형대 선형결합(linear by linear association)은 범주형 자료가 순위형(ordinal) 자료 인 경우 두 변수에 대한 연관성을 검정한다. 이 경우 Pearson χ2 과는 달리 셀의 갯수가 5보다 작더라도 관계없다는 면에서 유용하게 사용할 수있다. 이 분석방법은 로그 선형 모델에서 계수에 대한 검정으로 통계적인 모델은 Y log µij = λ + λx i + λj + βui vj 이며, 각 범주는 u u2 ui, v v2 vi 이다. 분석과정은
제 5 절 LINEAR BY LINEAR ASSOCIATION 25 ① 귀무가설 H0 : β = 0 (의미 : 두 범주는 서로 연관성이 없다.) 대립가설 H : β 6= 0 (의미 : 두 범주는 서로 연관성이 있다.) 사례 : 5. (선형대 선형결합) 표 2.에 0대 여성의 출생제한과 미성년자 성관 계에 대한 조사결과가 있다. 0대 여성의 출생제한과 미성년자 성관계가 서로 연관성이 있는지 알아보자. 0대 출생제한 매우반대 반대 찬성 매우찬성 항상 잘못됨 8 68 60 8 거의 잘못됨 24 26 29 4 가끔 잘못됨 8 4 74 42 전혀 잘못없음 6 57 6 57 미성년자 성관계 표 2.: 선형대 선형결합 ② SPSS로 통계적 모델에 대하여 출력결과를 얻는다(출력과정은 독립성 검정과 같음). ③ 분석결과 유의확률이 0.0005 미만이므로 귀무가설을 기각한다. 즉 0대 여성의 출생제한과 미성년자 성관계는 의견은 서로 연관성이 있다고 할 수 있다. SPSS 에서 분석과정 및 출력결과는 독립성 검정과 같으므로 생략한다.