분산분석
분산분석 (ANOVA: ANALYSIS OF VARIANCE) 두개이상의모집단의차이를검정 예 : 회사에서세종류의기계를설치하여동일한제품을생산하는경우, 각기계의생산량을조사하여평균생산량을비교 독립변수 : 다른변수에의해영향을주는변수 종속변수 : 다른변수에의해영향을받는변수 요인 (Factor): 독립변수 예에서의요인 : 기계의종류 (I, II, III) 요인수준 (Factor level, treatment): 요인내에서영향을미치는형태 ( 기계 I, 기계 II, 기계 III) 예에서의종속변수 : 생산량 일원분산분석 (One factor ANOVA): 요인이하나인경우 2
분산분석의가정및종류 분산분석의가정 각요인수준에대응하는모집단은동일한분산을가진다. 각요인수준에대응하는모집단은정규분포이다. 각요인수준에대한관찰치들은임의로얻어지는것이며독립적이다. 일원분산분석 (One factor ANOVA): 요인이하나인경우 이원분산분석 (Two factor ANOVA) : 요인이두개인경우 반복이없는경우 반복이있는경우 3
일원분산분석 (ONE FACTOR ANOVA) 기계 I 기계 II 기계 III 25 21 22 생산량 20 25 20 16 20 21 26 15 4
일원분산분석 (ONE FACTOR ANOVA) 표본 (i) 처리 (j) 1 2 3 총계 1 2 3 4 Y 11 = 25 Y 21 = 20 Y 31 = 25 Y 41 = 26 Y 12 = 21 Y 22 = 20 Y 32 = 16 Y 42 = 15 Y 13 = 22 Y 23 = 20 Y 33 = 21 합계 Y 1 = 96 Y 2 = 72 Y 3 = 63 Y = 231 평균 = 24 = 18 = 21 = 21 표본갯수 n 1 = 4 n 2 = 4 n 3 = 3 n = 11 요인수준효과 α 1 = 3 α 2 = -3 α 3 = 0 5
일원분산분석 (ONE FACTOR ANOVA) 변동의분해 25 21 22 20 20 20 25 16 21 26 15 = 21 21 21 21 21 21 21 21 21 21 21 + 3 3 0 3 3 0 3 3 0 3 3 + 1 3 1 4 2 1 1 2 0 2 3 ( 관찰치 ) ( 전체평균 ) ( 요인수준효과 ) ( 잔차 ) 4 0 1 1 1 1 4 5 0 5 6 = 3 3 0 3 3 0 3 3 0 3 3 + 1 3 1 4 2 1 1 2 0 2 3 ( 총편차 ) ( 요인수준효과 ) ( 잔차 ) 6
일원분산분석 (ONE FACTOR ANOVA) (a) 총편차 30 20 Y = 21 10 기계 I 기계 II 기계 III (b) 처리효과편차 30 20 10 Y 1 = 24 Y 2 = 18 Y 3 = 21 Y = 21 기계 I 기계 II 기계 III (c) 잔차 30 20 10 Y 1 = 24 Y = 21 Y 2 = 18 Y 3 = 21 기계 I 기계 II 기계 III 7
분산분석의용어 총변동 (SST: Sum of Squares Total) 각관찰치와전체표본평균의편차제곱의합 Σ(Y ij Y ) 2 = (25-21) 2 +(20-21) 2 + ---- +(21-21) 2 = 122 그룹간변동 (SSB: Sum of Squares Between groups) ( 각그룹의평균과전체표본평균의편차제곱 )* 그룹의표본크기의합 Σ n j (Y j Y ) 2 = 4 (24-21) 2 + 4 (18-21) 2 + 3 (21-21) 2 = 72 그룹내변동 (SSW: Sum of Squares Within groups) 그룹내관찰치와그룹의평균간의편차제곱합 Σ Σ n j (Y ij Y j ) 2 = {(25-24) 2 + ---- + (26-24) 2 } + {(21-18) 2 + ---- + (15-18) 2 } + {(22-21) 2 + ---- + (21-21) 2 }= 50 SST = SSB + SSW 그룹간평균제곱 (MSB: Mean Squares Between groups): MSB = SSB/(g-1) 그룹내평균제곱 (MSW: Mean Squares Within groups) : MSW = SSW/(n-g) 8
분산분석의가설검정 H 0 : 모든그룹의평균은같다. ( 요인수준에따른차이가없다 ) H 1 : 모든그룹의평균이다같은것은아니다. ( 평균이서로다른그룹이존재한다. 요인수준에따른차이가있다 ) IF p-value > 유의수준, Then H 0 채택 IF p-value < 유의수준, Then H 0 기각, H 1 채택 => 서로다른그룹을찾아냄 (Post hoc analysis, 사후분석시행 ) 9
사후분석 Fisher s Least Significant Difference 두수준별평균비교검정에사용한다. LSD 를구하고평균의차이가그보다크면귀무가설을기각한다. Tukey 가장보수적인방법으로자연과학에서많이사용 Student-Newman-Keuls procedure Tukey 와결과동일 Duncan Multiple range test Tukey 와유사, 수준별표본평균으크기순으로나열하여차이가큰것을비교해가면서유의수준을 1-(1-α)r 으로조정해가면서검정. R 은검정단계순서. 귀무가설을기각할가능성이높음 Scheffe s S Method 사회과학에많이사용 10
반복측정이없는분산분석 생산실적표 기계작업자 기계 Ι 기계 ΙΙ 기계ΙΙΙ 합 평균 1년 25 20 21 66 22 4년 28 22 19 69 23 8년 22 18 23 63 21 합 75 60 63 198 평균 25 20 21 22 11
반복측정이없는이원분산분석표 원천제곱합자유도평균제곱 F 요인 1(A) 요인 2(B) SSA= c SSB= g g i= 1 c i= 1 ( Y i Y ( Y j Y 2 ) 2 ) g-1 c-1 MSB =SSA/(g-1) MSW =SSB/(c-1) MSA/MSE MSB/MSE 잔차 SSW = g c i= 1 i= 1 ( Y ij Y i Y j + Y 2 ) (g-1)(c-1) SSW MSE= ( g 1)( c 1) 합계 SST= i= 1 i= 1 ( Y ij Y SST=(25-22) 2 +(28-22) 2 + + (23-22) 2 =76 SSA=3{(25-22) 2 +(20-22) 2 +(21-22) 2 }=42 SSB=3{(22-22) 2 +(23-22) 2 +(21-22) 2 }=6 g c gc-1 SSW= (25-25-22+22) 2 +(28-25-23+22) 2 + +(23-21-21+22) 2 =28 2 ) SST=SSA+SSB+SSW 12
반복이있는이원분산분석모형 화학공장의수율자료 온도 저온 고온 압력 200 250 300 98 108 104 89 99 111 86 114 100 99 115 106 102 109 99 102 121 92 13
상호작용효과및가설 하나의요인이다른요인의변화에영향을미침 요인의변화에따른기대반응치의변화를분석함 프로파일작성 상호교차점이있거나평행에서많이벗어나는경우상호작용을있다고추측 상호작용이없을경우상호작용항을제거 상호작용 H 0 : 모든상호작용 = 0 이다. ( 상호작용이없다 ) H 1 : 모든상호작용 = 0 인것은아니다. ( 상호작용이있다 ) 14
실습 1- 일원분산분석 다음세종류의기계에서생산되는생산량의차이가있는지여부를유의수준 0.05 에서검정하시오. 생산량 기계 Α 기계 Β 기계 Χ 25 20 25 26 21 20 16 15 22 20 21 실습파일 (anova1.sav) 을이용 15
16
ANOVA 생산량 Between Groups Within Groups Total Sum of Squares df Mean Square F Sig. 70 2 36.000 5.760.028 50.000 8 6.250 120 10 H 0 : 평균이동일 H 1 : 평균이다르다 17
Test of Homogeneity of Variances 생산량 Levene Statistic df1 df2 Sig. 3.115 2 8.100 H 0 : 모분산이동일하다 H 1 : 모분산이동일하지않다 18
Multiple Comparisons Dependent Variable: 생산량 Scheffe LSD *. (I) 기계 (J) 기계 The mean difference is significant at the.05 level. Mean Difference 95% Confidence Interval (I-J) Std. Error Sig. Lower Bound Upper Bound 6.00000* 1.76777.028.7209 11.2791 000 1.90941.341-2.7020 8.7020-6.00000* 1.76777.028-11.2791 -.7209-000 1.90941.341-8.7020 2.7020-000 1.90941.341-8.7020 2.7020 000 1.90941.341-2.7020 8.7020 6.00000* 1.76777.009 1.9235 10.0765 000 1.90941.155-1.4031 7.4031-6.00000* 1.76777.009-10.0765-1.9235-000 1.90941.155-7.4031 1.4031-000 1.90941.155-7.4031 1.4031 000 1.90941.155-1.4031 7.4031 19
20
실습 2 - 반복이없는이원분산분석 기계종류와작업자의경력수준에따라생산량의차이가있는지유의수준 0.05 에서검정하시오. 작업자 기계 기계 I 기계 II 기계 III 1 년 25 20 21 4 년 28 22 19 8 년 22 18 23 실습파일 (anova2.sav) 을이용 21
22
1 3 2 4 5 23
1 2 3 24
25
Tests of Between-Subjects Effects Dependent Variable: 생산량 Type I Sum Source of Squares df Mean Square F Sig. Corrected Model 48.000 a 4 10 1.714.307 Intercept 4356.000 1 4356.000 622.286.000 작업자 6.000 2 0.429.678 기계 40 2 20 0.160 Error 28.000 4 7.000 Total 4430 9 Corrected Total 76.000 8 a. R Squared =.632 (Adjusted R Squared =.263) H 0 : 작업자별평균생산량이동일 H 0 기계별평균생산량이동일 26
Multiple Comparisons Dependent Variable: 생산량 Scheffe LSD (I) 작업자 (J) 작업자 Based on observed means. Mean Difference 95% Confidence Interval (I-J) Std. Error Sig. Lower Bound Upper Bound -00 2.16025.901-9.0507 7.0507 00 2.16025.901-7.0507 9.0507 00 2.16025.901-7.0507 9.0507 00 2.16025.678-6.0507 10.0507-00 2.16025.901-9.0507 7.0507-00 2.16025.678-10.0507 6.0507-00 2.16025.667-6.9978 4.9978 00 2.16025.667-4.9978 6.9978 00 2.16025.667-4.9978 6.9978 00 2.16025.407-3.9978 7.9978-00 2.16025.667-6.9978 4.9978-00 2.16025.407-7.9978 3.9978 27
Multiple Comparisons Dependent Variable: 생산량 Scheffe LSD (I) 기계 (J) 기계 Based on observed means. Mean Difference 95% Confidence Interval (I-J) Std. Error Sig. Lower Bound Upper Bound 5.0000 2.16025.183-3.0507 13.0507 4.0000 2.16025.290-4.0507 12.0507-5.0000 2.16025.183-13.0507 3.0507-00 2.16025.901-9.0507 7.0507-4.0000 2.16025.290-12.0507 4.0507 00 2.16025.901-7.0507 9.0507 5.0000 2.16025.082 -.9978 10.9978 4.0000 2.16025.138-1.9978 9.9978-5.0000 2.16025.082-10.9978.9978-00 2.16025.667-6.9978 4.9978-4.0000 2.16025.138-9.9978 1.9978 00 2.16025.667-4.9978 6.9978 28
29
실습 3 반복이있는이원분산분석 화학공장의수율이다음과같을때온도와압력에따른수율의차이가있는지유의수준 0.05 에서검정하시오. 온도 저온 고온 압력 200 250 300 98 108 104 89 99 111 86 114 100 99 115 106 102 109 99 102 121 92 실습파일 (anova3.sav) 을이용 30
31
32
33
34
Tests of Between-Subjects Effects Dependent Variable: 수율 Type III Sum Source of Squares df Mean Square F Sig. Corrected Model 984.000 a 5 196.800 5.492.007 Intercept 190960 1 190960 5329.172.000 온도 70 1 70 9.182 압력 684.000 2 340 9.544.003 온도 * 압력 228.000 2 114.000 3.181.078 Error 430.000 12 35.833 Total 192376.000 18 Corrected Total 1414.000 17 a. R Squared =.696 (Adjusted R Squared =.569) H 0 : 온도별평균수율이동일 H 1 : 압력별평균수율이동일하지앟다. H 0 : 온도와압력간상호작용은없다 35
Multiple Comparisons Dependent Variable: 수율 Scheffe LSD (I) 압력 (J) 압력 Based on observed means. *. The mean difference is significant at the.05 level. Mean Difference 95% Confidence Interval (I-J) Std. Error Sig. Lower Bound Upper Bound -15.0000* 3.45607.003-24.6341-5.3659-6.0000 3.45607.261-15.6341 3.6341 15.0000* 3.45607.003 5.3659 24.6341 9.0000 3.45607.068 -.6341 18.6341 6.0000 3.45607.261-3.6341 15.6341-9.0000 3.45607.068-18.6341.6341-15.0000* 3.45607.001-22.5301-7.4699-6.0000 3.45607.108-13.5301 1.5301 15.0000* 3.45607.001 7.4699 22.5301 9.0000* 3.45607.023 1.4699 16.5301 6.0000 3.45607.108-1.5301 13.5301-9.0000* 3.45607.023-16.5301-1.4699 36
37