R 과데이터분석 집단의차이비교 t- 검정 양창모 청주교육대학교컴퓨터교육과 2015 년겨울
t- 검정 변수의값이연속적이고정규분포를따른다고할때사용 t.test() 는모평균과모평균의 95% 신뢰구간을추청함과동시에가설검증을수행한다.
모평균의구간추정 - 일표본 t- 검정 이가설검정의귀무가설은 모평균이 0 이다 라는귀무가설이다. > x <- rnorm(30) > t.test(x) One Sample t-test data: x t = -0.87719, df = 29, p-value = 0.3876 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: -0.5858220 0.2341414 sample estimates: mean of x -0.1758403
모평균의구간추정 - 일표본 t- 검정 다른정규분포의모평균에대한귀무가설은 mu 를이용해지정해 주면수행할수있다. > x <- rnorm(30, mean = 10) > t.test(x, mu = 10) One Sample t-test data: x t = 0.28387, df = 29, p-value = 0.7785 alternative hypothesis: true mean is not equal to 10 95 percent confidence interval: 9.672189 10.433475 sample estimates: mean of x 10.05283
모평균의구간추정 - 일표본 t- 검정 예 ) 소비자만족도조사 > ans <- c(75, 63, 49, 86, 53, 80, 70, 72, 81, 80, 69, 59, 60, + 76, 85, 95, 66, 77, 77, 63, 58, 74, 68, 90, 82)
모평균의구간추정 - 일표본 t- 검정 예 ) 소비자만족도조사 표본이정규분포를이루는모집단에서추출된것임을 shapiro.test(vector) 함수를사용하여검정 귀무가설 : 표본이정규분포를이루는모집단에서추출된것 > shapiro.test(ans) Shapiro-Wilk normality test data: ans W = 0.98914, p-value = 0.9929 p value = 0.9929 > 0.5 이므로귀무가설을채택
모평균의구간추정 - 일표본 t- 검정 예 ) 소비자만족도조사 > t.test(ans) One Sample t-test data: ans t = 31.172, df = 24, p-value < 2.2e-16 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 67.53176 77.10824 sample estimates: mean of x 72.32 p value < 2.2e 16 이므로 평균이 0 이다 라는귀무가설을기각 추정된평균은 72.32 이고 95% 신뢰구간은 [67.53176, 77.10824]
모평균의구간추정 - 일표본 t- 검정 예 ) 소비자만족도의평균이 70 이상인지신뢰수준 95% 에서검정 > t.test(ans, mu=70, conf.level=.95, alternative = "greater") One Sample t-test data: ans t = 1, df = 24, p-value = 0.1636 alternative hypothesis: true mean is greater than 70 95 percent confidence interval: 68.35075 Inf sample estimates: mean of x 72.32 p value = 0.1636 > 0.05 이므로 평균이 70 보다크지않다 라는 귀무가설을채택
모평균의구간추정 - 일표본 t- 검정 예 ) 소비자만족도의평균이 60 이상인지신뢰수준 99% 에서검정 > t.test(ans, mu=60, conf.level=.99, alternative = "greater") One Sample t-test data: ans t = 5.3103, df = 24, p-value = 9.489e-06 alternative hypothesis: true mean is greater than 60 99 percent confidence interval: 66.53819 Inf sample estimates: mean of x 72.32 p value = 9.489e 06 < 0.01 이므로 평균이 60 보다크지않다 라는귀무가설을기각
모평균의구간추정 - 일표본 t- 검정 sleep 데이터집합을사용하여설명한다. extra: 수면시간의증가량, group: 사용한수면제의종류, ID: 환자식별번호 > head(sleep) extra group ID 1 0.7 1 1 2-1.6 1 2 3-0.2 1 3 4-1.2 1 4 5-0.1 1 5 6 3.4 1 6 > str(sleep) data.frame : 20 obs. of 3 variables: $ extra: num 0.7-1.6-0.2-1.2-0.1 3.4 3.7 0.8 0 2... $ group: Factor w/ 2 levels "1","2": 1 1 1 1 1 1 1 1 1 1... $ ID : Factor w/ 10 levels "1","2","3","4",..: 1 2 3 4 5 6 7
모평균의구간추정 - 일표본 t- 검정 sleep에서수면증가 (extra) 의평균이 0인지를유의수준 95% 에서검정하라. sleep에서수면증가 (extra) 의평균이 0이상인지를유의수준 99% 에서검정하라.
독립이표본 t- 검정 two-group independent t-test 독립이표본은서로독립인두개의표본집단이있는경우
독립이표본 t- 검정 two-group independent t-test 두모집단의평균이같은지검정한다. 두모집단은독립적이며정규분포를따른다고가정한다. 때문에 R에서독립이표본검정을하려면먼저 var.test() 함수를사용하여두모집단이같은분산을갖는지를검정하는등분산검정을실시하여야한다.
독립이표본 t- 검정 two-group independent t-test 1 번수면제와 2 번수면제를서로다른집단에각각처치했을때 효과의차이가있는지검정 1 번수면제와 2 번수면제를처치한그룹으로나눈다. > grp <- data.frame(group1=sleep$extra[sleep$group==1], + group2=sleep$extra[sleep$group==2]) > grp group1 group2 1 0.7 1.9 2-1.6 0.8 3-0.2 1.1 4-1.2 0.1 5-0.1-0.1 6 3.4 4.4 7 3.7 5.5 8 0.8 1.6 9 0.0 4.6
등분산검정 var.test() 함수는귀무가설로 두변수의분산비율은 1이다 를사용한다. var.test(y x, data=) x - 범주형변수 y - 수치형변수
등분산검정 grp 의 group1 변수의값과 group2 변수의값의분산이같은지를 var.test() 함수를사용하여검정한다. > var.test(grp$group1, grp$group2) F test to compare two variances data: grp$group1 and grp$group2 F = 0.79834, num df = 9, denom df = 9, p-value = 0.7427 alternative hypothesis: true ratio of variances is not equal to 95 percent confidence interval: 0.198297 3.214123 sample estimates: ratio of variances 0.7983426
등분산검정 검정결과 p = 0.7427 > 0.5 이므로귀무가설을채택하여두변수의 분산이같다고결론내릴수있다. > var.test(grp$group1, grp$group2) F test to compare two variances data: grp$group1 and grp$group2 F = 0.79834, num df = 9, denom df = 9, p-value = 0.7427 alternative hypothesis: true ratio of variances is not equal to 95 percent confidence interval: 0.198297 3.214123 sample estimates: ratio of variances 0.7983426
독립이표본 t- 검정 two-group independent t-test t.test(y1, y2, data=) y1, y2 - 수치형변수 data= 행렬또는데이터프레임 단측검정one-sided test) 을위하여 alternative="less" 또는 alternative="greater" 사용
독립이표본 t- 검정 two-group independent t-test grp의 group1 변수의값과 group2 변수값의분산이동일하므로, grp의 group1 변수의값과 group2 변수값의차이를양측검정two-tailed test으로비교할수있다.
독립이표본 t- 검정 two-group independent t-test p = 0.07939 > 0.01 이므로두변수의평균의차이가 0 이라는 귀무가설을채택한다. 1 번, 2 번수면제의차이는없다라고결론내릴수있다. > t.test(grp$group1, grp$group2) Welch Two Sample t-test data: grp$group1 and grp$group2 t = -1.8608, df = 17.776, p-value = 0.07939 alternative hypothesis: true difference in means is not equal t 95 percent confidence interval: -3.3654832 0.2054832 sample estimates: mean of x mean of y 0.75 2.33
독립이표본 t- 검정 two-group independent t-test 예 어린이성장과사회환경에관한연구 부모가고등교육을받지못한경우와받은경우초등학교 1 학년생들의언어능력비교연구 부모가고등교육을받지못한 1학년생 ( 집단1) 66명의언어능력 - 평균 : 305, 표준편차 : 29 부모가고등교육을받은 1학년생 ( 집단2) 38명의언어능력 - 평균 : 311, 표준편차 : 40 두집단의언어능력은같은지유의수준 5% 에서검정
독립이표본 t- 검정 two-group independent t-test 예 어린이성장과사회환경에관한연구 부모가고등교육을받지못한 1 학년생 (s1) 66 명의언어능력 - 평균 : 305, 표준편차 : 29 부모가고등교육을받은 1 학년생 (s2) 38 명의언어능력 - 평균 : 311, 표준편차 : 40 s1 <- rnorm(66, mean = 305, sd=29) s2 <- rnorm(38, mean = 311, sd=40)
독립이표본 t- 검정 two-group independent t-test 예 어린이성장과사회환경에관한연구 두표본이동일한연속분포를이루는모집단에서추출된 것임을검정 Kolmogorov-Smirnov test ks.test(vector, vector) 두표본이동일한연속분포를이루는모집단에서추출된것 이라는귀무가설 > ks.test(s1,s2) Two-sample Kolmogorov-Smirnov test data: s1 and s2 D = 0.23206, p-value = 0.1234 alternative hypothesis: two-sided
독립이표본 t- 검정 two-group independent t-test 예 어린이성장과사회환경에관한연구 두집단의모분산이동일한지를검정 > var.test(s1,s2) F test to compare two variances data: s1 and s2 F = 0.48093, num df = 65, denom df = 37, p-value = 0.009721 alternative hypothesis: true ratio of variances is not equal to 95 percent confidence interval: 0.2635913 0.8377697 sample estimates: ratio of variances 0.4809257
독립이표본 t- 검정 two-group independent t-test 예 어린이성장과사회환경에관한연구 두집단의모분산이동일하지않을때는 var.equal=f 라는 인자를기술하여 t- 검정실시 > t.test(s1, s2, var.equal=f) Welch Two Sample t-test data: s1 and s2 t = -1.02, df = 57.804, p-value = 0.312 alternative hypothesis: true difference in means is not equal t 95 percent confidence interval: -21.196368 6.887163 sample estimates: mean of x mean of y 305.6117 312.7663
독립이표본 t- 검정 two-group independent t-test 예 목초의종류에따른우유생산량의차이확인 13마리의젖소에게는인공적으로건조시킨목초를줌 - 평균 : 45.15, 표준편차 : 7.998 12마리의젖소에게는들판에서말린목초를줌 - 평균 : 42.25, 표준편차 : 8.740
짝지은이표본 t- 검정 paired two-group t-test 두개표본이짝지은순서쌍처럼구해진경우
짝지은이표본 t- 검정 paired two-group t-test 한반학생들의수업전후점수를비교하고자한다. > pretest <- c(25, 41.7, 41.7, 54.2, 29.2, 50.0, 54. + 54.2, 33.3, 33.3, 54.2, 37.5, 12.5, 29.2, 41.7) > posttest <- c(41.7, 66.7, 91.7, 70.8, 70.8, 54.2, + 70.8, 50.0, 58.3, 79.2, 87.5, 45.8, 66.7, 45.8) > PrePostScore <-data.frame(pretest, posttest)
짝지은이표본 t- 검정 paired two-group t-test 한반학생들의수업전후점수를비교하고자한다. 동일집단에대한다른처치이므로짝지은이표본 (paired=true) t- 검정 > attach(prepostscore) > t.test(pretest, posttest, paired=t) Paired t-test data: pretest and posttest t = -6.723, df = 15, p-value = 6.832e-06 alternative hypothesis: true difference in means is not equal t 95 percent confidence interval: -33.03302-17.12948 sample estimates: mean of the differences -25.08125
짝지은이표본 t- 검정 paired two-group t-test 두점수의차이로일표본검정을하면, 짝지은이표본 t- 검정과 동일한결과를얻는다. > diffscore <- posttest-pretest > t.test(diffscore) One Sample t-test data: diffscore t = 6.723, df = 15, p-value = 6.832e-06 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 17.12948 33.03302 sample estimates: mean of x 25.08125
셋이상의집단비교 정규분포에따르는모집단에서독립적으로추출된셋이상의집단을비교하려면, 분산분석analysis of variance ANOVA 를사용한다.