모수검정과비모수검정 제 6 강 지리통계학
통계적추정의목적 연구자가주장하는연구가설을입증하기위한것 1 연구목적에맞는연구가설을설정 2 연구목적과수집된자료에부합되는적절한통계적검정방법을선택 3 귀무가설과연구가설 ( 대립가설 ) 을진술 4 유의수준을결정한후각분포유형에따라분포표를이용하여임계치를구하고기각역을설정 5 통계적검정유형에필요한통계량을각검정유형의공식을이용하여계산 6 임계치와통계량을비교하여귀무가설의기각과수용결정 7 연구결과를검정결과에따라밝힘.
모수적통계의전제조건 1 표본의모집단이정규분포를이루어야한다. 2 집단내의분산은같아야한다. 3 변인은등간척도나비율척도로측정되어야한다. à 이조건이충족되지않으면비모수통계를사용
모수검정방법의사용예 모평균과표본평균과의차이 -> z 분포, t 분포 표본평균간의차이 -> z 분포, t 분포 모분산과표본분산과의차의 -> F 분포, 카이제곱분포 표본분산간의차이 -> F 분포, 카이제곱분포
1. 모집단의평균에대한검정 표본집단이클경우 N(μ, δ 2 ), 이경우표본평균 X라고하면귀무가설과모집단평균과표본평균이같은것이된다. 표본집단크기가 n>30 이면정규분포로간주하여 Z 분포를이용한다. 표본집단이작거나모집단의표준편차를모를경우표본통계량의평균과표분편차 (s) 를이용하여통계량을산출. 표본이 30 이하면 t 분포사용, 이때자유도를고려함. Z = X - m s t = X - m s / n
2. 두모집단의평균의차에대한검정 1) 표본집단이클경우
2) 표본집단이작을경우 정규분포를이루지만모집단의분산을모르는경우표본의크기가작을때에는 t 검정을이용하여두표본평균간의차에대한유의성을검정 서로독립적인두모집단의표준편차가동일하다고가정하고, 이들이정규분포를이룬다는전제에서 t 값을도출
3) 동일표본집단의시계열평균에대한비교 한모집단에서시간간격을두고표본을추출한후기간동안에나타난평균의유의적인차이를검정하는경우
두집단의평균비교 Two-sample t-test vs. Paired t-test 9
질문 : 왜평균을비교할까? Þ 대표값질문 : 평균은항상자료들을대표하는값일까? Þ 정규분포일때에만 예. 정규분포가아닌경우 70, 74, 94, 112, 500. 평균 850/5=170. 평균은이상점의영향을받기때문에적절한대표값이될수없다. 중앙값 10
정규분포를하는자료 Þ 모수적검정 정규분포를하지않는자료 Þ 비모수적검정 모수적검정 비모수적검정 Two-sample t-test Þ Wilcoxon rank sum test (Mann-Whitney U test) Paired t-test Þ Wilcoxon signed rank test 11
Two-sample t-test 독립인두집단의평균비교가정 : 정규분포, 두집단의분산동일 비모수적검정 (Wilcoxon rank sum test), 변수변환 Smith-Satterthwaite test, 비모수적검정, 변수변환 12
t 검정 (t-test) 하나또는두집단의평균비교 13
t 검정 하나또는두개집단의평균을비교하는모수적검정법 (parametric test) 평균을비교 : 측정값들이정규분포를하여, 평균이그집단의대표값으로서의역할을하고있다는것을의미 이상점 (outlier) 이있는비정규분포자료는 t 검정의대상이아니다. 14
연속변수 : 구간척도또는비척도로측정된값 t 검정과 Wilcoxon 검정측정값들이정규분포를하는지여부에따라구분 t 분포 William Gosset(1876-1937), Student 라는필명 ( 익명 ) 으로논문을발표 Student t 분포 15
t 분포는 0 을중심으로좌우대칭 표준정규분포 (N(0, 1)) 보다두터운꼬리 분포의모양은자유도 (d.f., degree of freedom) 에따라달라지므로, 자유도가 t 분포의모수 (parameter) 표준정규분포와자유도 5 인 t 분포 자유도가커질수록꼬리가얇아지고중심부분이높아져, 자유도가무한대 ( ) 가되면, 표준정규분포와동일한모양 16
T 분포 : 두집단의평균에대한비교 한집단의평균과다른기준값을비교 다른기준값 - 다른연구결과에서나온값또는지금까지알려져온값 귀무가설 ( 모집단의평균이 μ 0 이다 ) 이옳을때, 자유도 n-1 인 t 분포 17
3. 모집단의분산에대한검정 100 년동안평균기온의표준편차와 15 년간측정한기온의표준편차가유의있게감소하였는지등을조사. 분산에대한가설검정방법에는두가지방법이존재 1 모집단의분산과표본분산을비교하여모집단의분산에대한가설을검정하는경우 2 두표본집단간의분산의차를통해두모집단간의분산의차가유의성이있는지검정하는경우
1) 모집단분산과표본분산을비교하는경우 분산의표본분포는언제나오른쪽꼬리가긴형태를보이며, 표본의크기가커질수록정규분포에가까운형태를이루는 X 2 카이자승 (chi square) 분포를나타낸다. 카이자승분포는자유도에따라분포의형태가바뀐다.
2) 두표본집단의분산의차에대한검정 두표본집단의분산의유의성을검정할경우 F 분포를사용. 분산이같고정규분포를이루는두모집단에서 n 1 과 n 2 의크기의표본을추출하여, 두표본으로부터계산한분산을각각 S 12, S 22 라고할때이두통계량의비를 F 통계량이라고한다. F 분포는 S 12, 의자유도 (n 1-1) 과 S 2 2 의자유도 (n 2-1) 에따라그모양이달라진다. 두개의분산값이비슷하면 1 에가까와진다.
비모수검정 모집단이정규분포한다는가정을할수없는경우 à 모집단의분포유형에관계없이적용할수있는방법 변수가명목척도나서열척도로측정하는경우 à 분류기준과분류방법의독립성검정가능 모집단의특성을나타내는모수에대한검정의목적이아닐경우 à 이론분포와경험분포간의적합도 (goodness of fit test) 를검정가능
비모수검정의종류
검정 기대빈도와관찰빈도와의부합정도, 차이를측정하며, 관찰빈도와기대빈도사이에차이가많이날수록값이커지며귀무가설을기각. 카이자승분포의자유도는표본의크기 (n) 이아니라범주의크기 (k) 에따라달라짐
분할표 (contingency table) 단일표본카이자승검정은모집단의분포와표본분포를비교하는데비해, 두표본간의카이자승검정은범주화된두표본집단간의분포의차이가표본오차에의한우연인지여부를통계적으로검정하는것. 기대빈도와자유도는표본집단이 2 개이상일경우분할표를이용. 분할표는자료를변수별속성별로구분하여그에대응하는관찰빈도를각칸에기록하여작성 자유도는각행과열의범주수에서 1 을뺀것을곱한값.
카이자승검정의제한점 자료변수가이산적이고독립적이며상호배타적이어야한다. 관찰빈도는절대적수치로만관찰되어야하며비율이나비례로나타나는상대적도수자료는적용할수없다. 관찰빈도분할수의칸수가 5 미만이거나, 각칸의기대빈도가운데어느하나라도 5 이상이아니면안된다.( 계급수가 5 이상, 기대빈도최소값 5 이상에만적합도검정이가능 ) 이조건을충족시키기위해변수를조정하여집단을합하는등의조정이필요
콜모고로프 - 스미르노프 (Kolomogorov-Smirnov) D 검정 단일표본검정 각셀의기대빈도 5 미만의경우에도사용가능하며, 연속적변수의확률분포에도적용 통계량 D 는표본의누적확률분포와가설로설정된누적확률분포와의최대차이를의미. D 가클수록귀무가설을기각
맨 - 휘트니 (Mann-Whitney) U 검정 두개의표본집단간의차이검정 정규분포의전제가불필요한비모수검정 표본의관측치가무작위로추출되고, 측정값을순위화하여야함. 등간척도자료를쉽게순위화할수있으므로 t- 검정의대안으로이용 소규모표본의경우에도이용할수있는장점
U 검정계속 U 검정의가장큰특징은 U 의통계치가 U 의임계치보다작아야귀무가설을기각할수있다는점.
크루스칼 - 월리스검정 (Kruskal- Wallis) H 검정 3개의표본집단이상 k (k 2) 에서그차이점에대한유의성을검정하는데이용등간척도나비율척도로측정한자료검정에도서열척도로바꾸어적용가능. 검정방법은각표본집단의측정값을집단이나표본크기에관계없이배열후크기순으로순위를정한다. 각변량에대한순위가정해지면각집단별로순위의평균치를구하고서로비교한다. H 검정은 K-1의자유도를가지며, 카이자승확률분포를이용하여유의수준과자유도에따른임계치를구한다. 사례수가 5 이하일경우 H 검정표를이용한다.
< 예제 14.11> 통계수업이 3 개반으로나뉘어진행 각반에서 10 명씩뽑아시험을치른점수 - 75 - 분반 1 분반 2 분반 3 점수순위점수순위점수순위 83 19 73 13.5 88 24 97 30 66 8 55 1 68 9.5 85 21 73 13.5 95 29 64 7 79 16 86 22 73 13.5 62 6 70 11 80 17 82 18 87 23 60 4 59 3 94 28 61 5 73 13.5 84 20 93 27 89 25 90 26 58 2 68 9.5 r 1 = 217.5 r 2 = 118 r 3 = 129.5 각반에속한학생들의학업성취도가같은가? n1 = n2 = n3 = 10, n = 30
H 의값 : 12 æ r r r ö h = + + - 3 + 1 n n n n n 2 2 2 1 2 3 ç + è 1 2 3 ø ( 1) 2 모든 n i ³ 5 이므로 c 분포를이용하면 ( n ) ( 217.5) ( 118) ( 129.5) 2 2 2 12 ìï üï = í + + ý - 3 31 = 7.65 30 31 îï 10 10 10 þï Þ h = 7.65 > 5.991 = c Þ 2 0.05 0 세반의학업성취도가같지않다고판단. H 를기각 - 76 -