제 6 장. 두모집단평균들의차이 μ 1 - μ 에대한추론 모집단 1 ( μ 1, ) 모집단 ( μ, σ ) 표본크기 : 표본크기 : n X 1 X 표본 1 표본 - 두모집단의평균들을비교예 ) 1 당뇨병환자군과정상군의평균콜레스테롤수치의차이 두지역간평균소득의차이 3 약물투여를하기전과후의혈압비교 1. 과 σ 가알려져있을때 μ 1 - μ 에대한추론 X 1 μ 1 X μ X 1 - X μ 1 - μ X 1 - X 의표본분포 1 X 1 - X d 정규분포 ( 중심극한정리 ) E ( X 1 - X ) = μ X 1 - X = μ 1 - μ 3 Var( X 1 - X )= σ X 1 - X = + σ n E ( X 1 - X ) = E ( X 1 )- E ( X )= μ 1 - μ Var( X 1 - X )= Var ( X 1 ) + Var ( X ) ( X 1, X 독립 ) = + σ n σ X 1 - X = n + σ n
Z = ( X 1 - X ) - ( μ 1 - μ ) + σ n d N ( 0, 1 ) as n H 0 : μ 1 - μ = D 0 검정통계량 : (1 - α) 100% 구간추정 ; Z = ( X 1 - X ) - D 0 + σ n ( X 1 - X ) ± z α + n 예 ) 어느백화점에서광주시내에있는새로운두동네중한곳에분점개설고려. 두동네주민들의월평균가구당소득이같은가? = 100 X 1 = 170 ( 만 ) n = 75 X = 178 ( 만 ) = σ = 0 ( 만 ) known α = 0.05 하에서검정 1 H 0 : μ 1 - μ = 0 H a : μ 1 - μ 0 T.S : Z = ( X 1 - X )- 0 + σ n 3 R.R : Z > z α = z 0.05 = 1.96 이면 H 0 기각 4 Z= 5 차이가있다. 170-178 400 100 + 400 75 =.6 > 1.96 95% 신뢰수준하에서 ( μ 1 - μ ) 의신뢰구간 : ( X 1 - X ) ± z α/ ( σ 1 + σ n ) (170-178) ± (1.96) ( -13.9878, -.01 ) 400 100 + 400 75
. 과 σ 가알려지지않은경우 μ 1 - μ 에대한추론 - σ 1 과 σ 을추정해서검정통계량공식에대입 - S 1, S : 표본분산 1) 30, n 30 ( 대표본 ) 경우 1 검정통계량 : Z = ( X 1 - X ) - ( μ 1 - μ ) S 1 + S n (1-α) 100% 신뢰구간 : d N ( 0,1 ) ( X 1 - X ) ± z α/ S 1 + S n ) <30, n <30 ( 소표본 ) 이면 σ 1 = σ 인경우 - 동일분산 σ 1 = σ = σ 에대한추정량필요 - 두표본을결합하여계산 S p = ( - 1)S 1 + ( n - 1)S + n - 합동표본분산 ( pooled variance estimator ) 1 검정통계량 (1-α) 100% 신뢰구간 : t = ( X 1 - X ) - ( μ 1 - μ ) S 1 p ( + 1 ) n t + n - ( X 1 - X )± t α/, df S p ( 1 + 1 n ), df = + n - 3) <30, n <30 ( 소표본 ) 이며 σ 1 σ 인경우 Welch 의근사 t 검정 1 검정통계량 t' = ( X 1 - X ) - ( μ 1 - μ ) S 1 + S n t d.f.
df = ( S 1 / + S /n ) (S 1 / ) - 1 + ( S /n ) n - 1 round down nearest integer (1-α) 100 % 신뢰구간 : ( X 1 - X )± t α/ df S 1 + S n [ 예제 8.] 사료와우유생산량자료 H 0 : 두가지사료에의한평균우유생산량간에는차이가없다. H a : 두가지사료에의한평균우유생산량간에는차이가있다. 유의수준 0.05 에서검정하시오. 분석 -> 평균비교 -> 독립표본 T 검정 집단통계량 우유생산 사료 1 N 평균 표준편차 준오차평균의표 8 56.00 7.76.75 8 60.00 8.18.89 독립표본검정 Levene 의등분산검정 평균의동일성에대한 t- 검정 우유생산 등분산이가정됨등분산이가정되지않음 유의확률 차이의표 차이의 95% 신뢰구간 F 유의확률 t 자유도 ( 양쪽 ) 평균차 준오차 하한 상한.01.914-1.003 14.333-4.00 3.99-1.55 4.55-1.003 13.963.333-4.00 3.99-1.55 4.55 1) 등분산성검정 H 0 :σ 1 = σ v s H a :σ 1 σ p-value = 0.914 > 유의수준 = 0.05 ==> 등분산 ) 등분산이가정된 t 검정결과 p-value = 0.333 > 유의수준 = 0.05 ==> 두집단간유의한차이없음
Remark : 소표본에서두집단의관측값들이정규분포를따르지않으면위의 t 나 t' 검정을할수없다. 해결책?? 대안 1 : 정규분포를따르도록자료를변환 대안 : 비모수적방법 ( nonparametric method ) 비모수적방법 - 분포의형태에대한가정완화 : 모수를매개로하지않음 - distribution free method 비모수적방법의특성 1 분포의가정이거의없다. 양적관측값에의존하지않고이들의상대적평가에의존 3 계산이단순 4 주어진표본이정규분포를따를경우고전적 ( 모수적 ) 방법과검정력에있어서거의대등그렇지않은경우비모수적방법이우월 비모수적검정방법의분류와모수적방법과의대응 자료의구조두개의독립표본 ( x 1,,x n ) (y 1,,y m ) 짝을이룬관측치 ( x 1,y 1 )...(x n,y n ) 정규분포가정모수적방법두표본 t 검정대응표본 ( 짝비교 ) t 검정 비모수적방법 Wilcoxon 순위합검정 (Mann-Whitney 검정 ) 부호검정 Wilcoxon 부호순위검정 k 개의독립표본 1 요인분산분석 Kruskal-Wallis 검정 k 개의연관된관찰치 ( 확률화블록계획법 ) 요인분산분석 (-way ANOVA w/o replication) Friedman 검정
두독립표본검정 (Two Sample Test) Wilcoxon 순위합검정 ( 또는 Mann-Whitney 검정 ) 예 ) 부동산의감정가격과실거래가격의비율 강북 (N) 강남 (S).49.68.59.7.67.75.68.77.6.48.59.51.66.55.67.43.51.48.60.71.53.44.65.75 H 0 : 강남의가격비율 = 강북가격비율 H 0 : E ( X ) = E ( Y ) 모집단 1 표본 1 : x 1,x,,x n 모집단 표본 : y 1,y,,y m 두표본을합쳐서순서대로배열 R(x i ) : x i 의순위 R(y j ) : y j 의순위 ( 관찰치들이동률일때는평균순위로함 ) - Wilcoxon 검정통계량 : W = n i = 1 R ( x i ) - Mann - Whitney 검정통계량 : { { (x i,y j ) } n i = 1 } m j= 1 중에서 x 값이 y 값보다큰짝 (pair) 의수 U = n i = 1 m j = 1 I ( x i - y j > 0 )
- W 와 U 의관계 U = W - n ( n - 1 ) - W 통계량과 U 통계량은근본적으로동일한검정절차를수행 Under H 0, E ( W ) = m ( n + m + 1 )/ var( W ) = mn( n + m + 1)/1 ( tie 가없을때 ) ( mn/1) { n + m + 1 - t j (t j - 1)/( m + m )( m + n - 1 ) } ( tie 가있을때, t j : tie 의갯수 ) 대표본근사이론 : Z = W - E ( W ) Var( W ) N ( 0,1 ) 분석 -> 비모수검정 -> 독립 - 표본 [ 예제 17.6.] H 0 : 식이요법간체중증가에있어차이가없다. Mann-Whitney 검정 순위 증가율 식이요법 A B 합계 N 평균순위 순위합 6 4.17 5.00 7 9.43 66.00 13 검정통계량 b Mann-Whitney 의 U Wilcoxon의 W Z 근사유의확률 ( 양쪽 ) 정확한유의확률 [*( 한쪽유의확률 )] 증가율 4.000 5.000 -.43.015.014 a a. 동률에대해수정된사항이없습니다. b. 집단변수 : 식이요법 p-value = 0.015 < 유의수준 = 0.05 ==> 두집단간유의한차이있음
6 5 4 3 증가율 1 0 N = 6 A 7 B 식이요법 정규성검정 Kolmogorov-Smirnov a Shapiro-Wilk 식이요법 통계량 자유도 유의확률 통계량 자유도 유의확률 증가율 A.180 6.00*.919 6.468 B.06 7.00*.946 7.661 *. 이것은참인유의확률의하한값입니다. a. Lilliefors 유의확률수정 T- 검정 집단통계량 증가율 식이요법 A B N 평균 표준편차 준오차평균의표 6.667 1.094.4937 7 4.4471.647.446 독립표본검정 Levene 의등분산검정 평균의동일성에대한 t- 검정 증가율 등분산이가정됨등분산이가정되지않음 유의확률 차이의표 차이의 95% 신뢰구간 F 유의확률 t 자유도 ( 양쪽 ) 평균차 준오차 하한 상한.969.113-3.46 11.005-1.805.558 -.9778 -.6631-3.304 7.385.01-1.805.5510-3.1097 -.531
3. 대응표본 ( 짝을이룬자료 ) 의 μ 1 - μ 에대한추론 예 ) 새로운교육방법의효과를알아보기위해학생들을두그룹으로나누어교육실시. 만약한그룹에는공부를열심히하는학생들로, 다른그룹에는열심히하지않은학생들로나누어져있다면, 이표본들을가지고두가지교육방법들에관하여비교추론할때그결과는두가지교육방법의차이라기보다는두표본을이루는성원들간의차이에좌우됨. 두처리 (treatment) 간의차이이외에다른요인에의하여야기될수있는차이를최소화하도록두그룹으로나누는것이바람직. 똑같은실험단위를독립적으로택하여서로다른처리를각실험단위에실시 짝비교 (matched pair comparison) 예 ) 1 약의효과를알아보기위한복용전과복용후의비교 일란성쌍둥이들을대상으로한명에게는처리 1을다른한명에게는처리 를실시 짝번호 처리 1 처리 1 x 1 y 1 x y : : : n x n y n μ j : 처리 j 의평균 j=1, μ D = μ 1 - μ = 0 두처리간에차이가없다. D i = X i - Y i, i = 1,,..., n D = n i = 1 D i /n 으로 μ D 추정 S D = n ( D i - D ) /( n - 1 ) i = 1 1) n 30 ( 대표본 ) 경우 (1) { H 0 : μ D = 0 H a : μ D 0 ( μ D > 0, μ D < 0 ) () 검정통계량 Z = (3) 기각역 : D - μ D σ D / n ( 혹은 D - μ D s D / n ) N ( 0,1 )
Z z α/ 일때 H 0 기각 (H a : μ D 0) Z > z α 일때 H 0 기각 (H a : μ D > 0 ) Z < - z α 일때 H 0 기각 (H a : μ D < 0 ) (4) (1-α) 100 % μ D = μ 1 - μ 의신뢰구간 : D ± z α/ (σ D / n) 혹은 D ± z α/ (s D / n ) ) n<30 ( 소표본 ) 경우 (1) 검정통계량 : t = D - μ D s D / n t n - 1 () (1-α) 100 % μ D = μ 1 - μ 의신뢰구간 : D ± t n - 1,α/ (s D / n) 분석 -> 평균비교 -> 대응표본 T 검정 [ 예제 8.3] H 0 : 첨가제사용시평균주행거리 = 첨가제비사용시평균주행거리 H a : 첨가제사용시평균주행거리 > 첨가제비사용시평균주행거리 대응표본통계량 대응 1 사용함사용안함 평균의표 평균 N 표준편차 준오차 1.4000 5.9351 1.316 11.9600 5.8841 1.898 대응표본상관계수 대응 1 사용함 & 사용안함 N 상관계수유의확률 5.995.000 대응표본검정 대응차 대응 1 사용함 - 사용안함 평균표준편차평균의표차이의 95% 신뢰구간유의확률준오차하한상한 t 자유도 ( 양쪽 ).4400.3050.1364 6.134E-0.8187 3.6 4.03 p-value = 0.03/ = 0.016 < 유의수준 = 0.05 ==> 첨가제사용시평균주행거리가증가한다.
비모수적방법 - 부호검정, Wilcoxon 의부호순위검정 예 ) 쌍둥이의적극성에관한심리검사자료 쌍번호 1 3 4 5 6 7 8 9 10 11 1 13 14 15 먼저나온쌍둥이 (X) 65 68 70 63 64 73 78 64 73 80 67 8 79 85 71 나중나온쌍둥이 (Y) 63 69 68 60 65 7 70 66 70 78 63 78 70 76 93 H 0 : 먼저태어난쌍둥이와나중태어난쌍둥이사이에는적극성 (aggressiveness) 에차이가없다. 부호검정 (sign test) - 가장오랜역사처리 1 : x 1,x,,x n 처리 : y 1,y,,y n H 0 : E ( X ) = E ( Y ) D i = X i - Y i D = n i = 1 I ( D i > 0 ) under H 0, D Bin ( n, 1/ ) d = 표본으로부터계산된 D값 P-value = *P(D d) <α 이면 H 0 기각 Wilcoxon 의부호순위검정 (Signed rank test) - D i 의부호만을고려한부호검정과는달리상대적인크기도고려 - D 의분포가대칭이어야함 검정통계량 D i 를크기순으로배열 R i : D i 의순위 { D i= 0 인경우제외 tie 일때평균순위부여 W + = n i = 1 R i I ( D i > 0 ) : 양 (+) 의값을갖는차이 D i 의절대값순위합
Under H 0, E ( W + ) = n ( n + 1 )/4 Var( W + ) = Z = W + - E ( W + ) Var( W + ) n ( n + 1 )( n+ 1)/4, No tie { n(n + 1)(n + 1) - 1 t( t - 1)( t +1) }/4, tie N ( 0,1 ) 분석 -> 비모수검정 -> 대응 표본 [ 예제 17.8.] H 0 : 청량음료 A의맛 = 청량음료 B의맛 H 1 : 청량음료 A의맛 청량음료 B의맛 Wilcoxon 부호순위검정 순위 음료B - 음료A 음의순위양의순위동률합계 a. 음료B < 음료A b. 음료B > 음료A c. 음료A = 음료B N 평균순위 순위합 1 a 9.96 119.50 5 b 6.70 33.50 3 c 0 검정통계량 b 음료B - 음료A Z -.037 a 근사유의확률 ( 양쪽 ).04 a. 양의순위를기준으로. b. Wilcoxon 부호순위검정 p-value = 0.04 < 유의수준 = 0.05 ==> 두가지음료맛이다르다.
부호검정 빈도분석 음료B - 음료A 음수차 a 양수차 b 동률 c 합계 a. 음료B < 음료A b. 음료B > 음료A c. 음료A = 음료B N 1 5 3 0 검정통계량 b 음료B - 음료A 정확한유의확률 ( 양쪽 ).143 a a. 이항분포를사용함. b. 부호검정 p-value = *(1-CDF.BINOM(11,17,.5)) = 0.143 > 유의수준 = 0.05 ==> 두가지음료맛이다르지않다.