Ch4 one-way ANOVA
ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행
One-way ANOVA 란? Group Sex pvas NSAID 남 7.3 NSAID 남 6.5 NSAID 여 8.4 NSAID 여 7.2 DMARDs 남 3.5 DMARDs 남 4.1 DMARDs 여 3.6 DMARDs 여 2.9 Steroid 남 3.3 Steroid 남 2.8 Steroid 여 2.5 Steroid 여 2.9 용어정리 Ø 종속변수 독립변수에의해변하는변수 ( 결과 ) Ø Factor( 요인 ) 실험에서의독립변수. Ø Level( 수준 ) 실험단위에가해지는특정조건 pvas Factor 치료방법 NSAID DMARDs Steroid 7.3 3.5 3.3 6.5 4.1 2.8 8.4 3.6 2.5 7.2 2.9 2.9 Level One-way ANOVA Ø Factor : 치료방법 Ø Level : 3 가지 à 다음과같이 Factor 가 1 개이고 Level 이여러개인경우를분석하기위해제한된방법
1-way ANOVA 절차 NO K 개의표본분산이등분산인가? 독립 Start K 개의집단이서로독립인가, 종속인가 종속 Repeated Measured ANOVA 공통분산계산 YES 표본의크기가 30 이상인가? NO YES 모수적접근방법 1-way ANOVA YES 정규성검정을만족하는가? NO 비모수적접근방법 Kruskal-Wallis test Post Hoc test YES 집단간에차이가나는가? NO 결론
One-way ANOVA 조건 독립성 Ø 집단간서로독립 정규성 Ø 각집단간정규성을만족 등분산성 Ø 각집단의분산은등분산 균형자료 Ø 각그룹마다 sample size 가같으면 Balanced data( 균형자료 ) Ø 그렇지안으면 Unbalanced data( 불균형자료 )
ANOVA 의원리 factor 의 Level sample 1 2 3 k 1 y 11 y21 y 31 y k1 2 y 12 y 22 y 32 y k2 3 y 13 y 23 y 33 y k3 n y 1n y 2n y 3n y kn mean y 1 y 2 y 3 y k y
전체분산의계산 분산 제곱합 / 자유도 전체분산 = 집단간분산 + 집단내분산 총제곱합 Ø (Y ij -Y) 2 = (Y i -Y) 2 + (Y ij -Y i ) 2 à 총제곱합 = 집단간제곱합 + 집단내제곱합 자유도 SST = SSA + SSE Ø 전체 (N-1) = 집단간 (k-1) + 집단내 (k(n-1)=n-k) 전체분산 = SSA/k-1 + SSE/N-k à MSA + MSE
df(degree of freedom)- 자유도 통계추론때표본자료중모집단에대한정보를주는독립적인자료의수 일반공식 Ø df = N-k( 사례수 - 통계적제한조건의수 ) 예 ) Ø 표본분포의각통계치의자유도 n-1
f 검정 t 검정 t = X -μ Sx = 표본평균- 모평균추정표준오차 Sx S = n = 표본표준편차표본크기 àdifference mean/estimated SE= 표본간차이 / 우연에의한차이 f 검정 ( 분산비 ) SSA 1 표본간분산 f = k - = SSE 우연에의한분산 N - k between group variability à within group variability t,f à 우연에의한차이에비해실제에대한차이가얼마인가.
F 비의분포 F a = df df a e 특징 Ø Peak값 F=1에서 peak치를갖는다. Ø F값은항상양수 표본간분산 / 우연에의한분산
ANOVA 에서의 F 비분포 F ~ F(2 12) 일때 Ø ( 집단간분산의자유도, 집단내분산의자유도 ) Ø (k-1, N-k)
F 분포표
ANOVA 표 Factor Sum of Square df Mean Square F-value Treatment SSA k-1 MSA Error SSE N-k MSE MSA MSE Total SST N-1
예제 처방 NSAID DMARDs Steroid 7.3 3.5 3.3 6.5 4.1 2.8 8.4 3.6 2.5 7.2 2.8 2.9 8.5 3.9 3.6 5.8 4.3 3.3 7.5 4.5 3.5 7.4 3.5 4.3 6.3 3.6 3.1 6.7 3.3 3.4 가설설정 Ø H0 : 치료방법에따른 pvas 의평균차이가없다. 검정통계량계산 집단간분산 NSAID DMARDs Steroid 평균 7.2 3.7 3.3 전체평균 4.7 SSA 92.1 MSA 46.05 집단내분산 NSAID DMARDs Steroid 평균 7.2 3.7 3.3 편차제곱함 6.78 2.27 2.23 SSE 11.28 MSE 0.42
예제 ANOVA 표 Factor Sum of Square df Mean Square F-value Treatment 92.1 2 46.05 Error 11.28 27 0.42 109.64 Total 103.38 29 결론 Ø ~F(2, 27) : α = 0.05 일때, Fα = 3.35 Ø F-value = 109.64 3.35<109.64 H0 기각 : 세집단의평균 pvas 값은차이가난다.
Kruskal-Wallis test 정규성을만족하지못하는비모수적일때사용 처방 NSAID DMARDs Steroid 7.3 3.5 3.3 6.5 4.1 2.8 8.4 3.6 2.5 7.2 2.8 2.9 8.5 3.9 3.6 5.8 4.3 3.3 7.5 4.5 3.5 7.4 3.5 4.3 6.3 3.6 3.1 6.7 3.3 3.4 Ø 다음표본들을 1 개의그룹으로합침 Ø 낮은점수부터등수를구한다. pvas 7.3 6.5 8.4 7.2 8.5 5.8 7.5 7.4 6.3 6.7 등위 26 23 29 25 30 21 28 27 22 24 pvas 3.5 4.1 3.6 2.8 3.9 4.3 4.5 3.5 3.6 3.3 등위 11 17 14 2.5 16 18.5 20 11 14 7 pvas 3.3 2.8 2.5 2.9 3.6 3.3 3.5 4.3 3.1 3.4 등위 7 2.5 1 4 14 7 11 18.5 5 9 동일한점수가있으면그순위값들의평균! üex>1 위와 2 위가동일점수 = 1.5
Kruskal-Wallis test 처방 NSAID DMARDs Steroid 26 11 7 23 17 2.5 29 14 1 25 2.5 4 30 16 14 21 18.5 7 28 20 11 27 11 18.5 H = 12 å k Rj ( N( N + 1) n ) - 3( N + 1) 22 14 5 24 7 9 α=0.05 일때 H0 기각조건 χ 2 5.99 n1=10 R1=255 n2=10 R2=131 n3=10 R3=79 j= 1 Rj = 표본 j 의순위의합 nj= j 집단의사례수 χ 2 분포를따름 df = 3-1 = 2 j 2 H = 12 30(31) 255 ( 10 2 131 + 10 21.099 5.99 이므로 H0 를기각한다. 2 2 79 + ) - 3(31) = 21.099 10
χ 2 분포
Post-hoc test( 사후검정 )- 다중비교 언제시행하나? Ø H0 을기각했을경우 왜하는가? Ø 집단 k 개중어느것과어느것의평균이같거나다른지알고자함 Ø 어느집단간에차이가있는지알아보기위해실시 방법 검정법 비교시기 비교집단 표본수 Fisher LSD 사후비교 모든짝 다른표본 Tukey HSD 사후비교 모든짝 같은표본 Newman-Keuls 사후비교 모든짝 같은표본 Duncan 사후비교 모든짝 다른표본 Scheffe 사후비교 모든조합 다른표본 Dunnett 사전비교 대조군 다른표본 Bonfernni 사전비교 모든조합 다른표본
SPSS 실습
SPSS-One Way ANOVA 등분산검정 Te s t of Homog e ne ity of Va r ia nc e s pvas Levene Statistic df1 df2 Sig. 1.973 2 27.159 ANO VA pvas Between Groups With in Groups Tota l Sum of Squ ares df Mea n Squ are F Sig. 90.761 2 45.380 108.874.000 11.254 27.417 102.015 29
SPSS-One Way ANOVA Post hoc Dependent Varia ble: pvas Mu ltiple C ompa r is on s Tukey HSD Scheffe (I) group (J) group *. The mean difference is significant at the.05 level. Tukey HS D a Duncan a Scheffe a Mea n Diffe rence 95% Confidence Interva l (I-J) Std. Error Sig. Lower Bound Upper Bound 3.45000*.28873.000 2.7341 4.1659 3.89000*.28873.000 3.1741 4.6059-3.45000*.28873.000-4.1659-2.7341.44000.28873.296 -.2759 1.1559-3.89000*.28873.000-4.6059-3.1741 -.44000.28873.296-1.1559.2759 3.45000*.28873.000 2.7022 4.1978 3.89000*.28873.000 3.1422 4.6378-3.45000*.28873.000-4.1978-2.7022.44000.28873.328 -.3078 1.1878-3.89000*.28873.000-4.6378-3.1422 -.44000.28873.328-1.1878.3078 group Sig. Sig. Sig. pvas Subset for alpha =.05 N 1 2 10 3.2700 10 3.7100 10 7.1600.296 0 10 3.2700 10 3.7100 10 7.1600.139 0 10 3.2700 10 3.7100 10 7.1600.328 0 Mea ns for groups in homoge neous subs ets ar e displayed. a. Use s Har monic Mean Sample Size = 10.000.
SPSS-One Way ANOVA 등분산이아닐때 Dependen t Varia ble: pvas Dunnett T3 (I) group (J) group Mu ltiple C ompa r is on s Mea n Diffe rence 95% Confidence Interva l (I-J) Std. Error Sig. Lower Bou nd Upper Bou nd 3.45000*.31681.000 2.6006 4.2994 3.89000*.31596.000 3.0422 4.7378-3.45000*.31681.000-4.2994-2.6006.44000.22336.175 -.1449 1.0249-3.89000*.31596.000-4.7378-3.0422 -.44000.22336.175-1.0249.1449 *. The mean differe nce is significant a t the.05 level.
SPSS-One Way ANOVA 비모수적접근방법 -Kruskal-Wallis test Ra n ks Te s t S ta tis tics a,b pvas group Tota l N Mea n Rank 10 25.50 10 13.10 10 7.90 30 Chi-Squa re df Asymp. S ig. pvas 21.165 2.000 a. Kruskal Wallis Test b. Grouping Variable: group
SPSS-One Way ANOVA 비모수적접근방법 -Kruskal-Wallis test 사후검정
SPSS-One Way ANOVA Te s t of Homog e ne ity of Va r ia nc e s RANK of pvas Levene Statistic df1 df2 Sig. 1.314 2 27.285 Dependent Varia ble: RANK of pvas Mu ltiple C ompa r is on s RANK of pvas Between Groups With in Groups Tota l ANO VA Sum of Squ ares df Mea n Squ are F Sig. 1635.200 2 817.600 36.470.000 605.300 27 22.419 2240.500 29 Tukey HSD Sch effe (I) group (J) group *. The mean differe nce is significant at the.05 level. Mea n Diffe rence 95% Confidence Interva l (I-J) Std. Error Sig. Lower Bou nd Upper Bou nd 12.400000* 2.117476.000 7.14989 17.65011 17.600000* 2.117476.000 12.34989 22.85011-12.400000* 2.117476.000-17.65011-7.14989 5.200000 2.117476.053 -.05011 10.45011-17.600000* 2.117476.000-22.85011-12.34989-5.200000 2.117476.053-10.45011.05011 12.400000* 2.117476.000 6.91567 17.88433 17.600000* 2.117476.000 12.11567 23.08433-12.400000* 2.117476.000-17.88433-6.91567 5.200000 2.117476.066 -.28433 10.68433-17.600000* 2.117476.000-23.08433-12.11567-5.200000 2.117476.066-10.68433.28433