제 3 장. 비모수적방법 (Dstrbuto-free Method) 모수적방법 (parametrc method): 관측값이어느특정한확률분포, 예를들면정규분포, 이항분 포등을따른다고전제한후그분포의모수 (parameter) 에대한검정을실시하는방법이다. 비모수적방법 (oparametrc method): 관측값이어느특정한확률분포를따른다고전제할수 없거나또는모집단에대한아무런정보가없는경우에실시하는검정방법으로모수에대한언급이없으며분포무관방법이라고도한다. 요약하면자료가정규분포가아니거나표본의크기가작으면분포에대한기본가정을필요로하지않는통계적기법이다. 비모수적방법은주로모집단의분포가대칭이라든가또는중앙값이어디라든가하는정도의가정을하는것이보통이며, 자료의관측값은확률변수의실제값을이용하기보다는부호나순위등의형태를이용하는경우가많다. 즉자료가관측치자체보다부호나순위만이의미가있는경우에자주이용된다. 약점으로는검정력이약하다. 비모수적방법의특성비모수적통계추론 (oparametrc statstcal ferece) 은 945년 Wlcoxo 검정이효시. 현재는추정, 분산분석 (Aalyss of Varace: ANOVAR), 회귀분석, 시계열분석등에응용된다. 다음표는주로사용되는비모수검정방법이다. 표 [3-] 비모수적검정 표본 단일표본 서열척도 -Kolmogorov-Smrov 검정 검정방법 - 검정 - Ru 검정 명목척도 종속표본 개 - 부호검정 -Wlcoxo 의부호순위검정 - Mcemar 검정 k 개 - Fredma 검정 - Cochra 의 Q 검정 - Wlcoxo 의순위합검정 독립표본 개 - Ma-Whtey U 검정 - Kolmogorov-Smrov 검정 - Moses 의극단반응검정 - 검정 - Fsher 의정확확률검정 k 개 - 중위수검정 - Kruska-Walls 검정 - 검정 () 분포의가정이완화되어있으므로어떠한형태의모집단에대한비교도가능. () 실제의양적관측치에의존하지않고이들의상대적평가 ( 순위 : rak) 에의존하므로이상값의영향을감소시킴. 95
(3) 추론에서계산이모수적방법보다훨씬단순. (4) 사용자가이의논리를스스로발견하게하며이해하기쉬움. (5) 표본이정규분포를따를때에도검정력에큰손실이없으며, 정규분포와상이한경우에이의검정력은정규분포에의한방법보다크다. 3. 부호검정 (Sg test) 모집단의중앙값에대한검정으로관찰된표본중에서중앙값을초과하는값이몇개인지를파악 하며, 모평균과모중앙값은분포의위치를나타내는모수로써분포의형태가대칭이면두모수는 일치한다. 확률변수 의중앙값이 M 이라하면다음의관계를만족한다. P( M ) P( M ) 즉, 전체 개의표본중 /개는중앙값초과, / 과하는수또는미달된수가검정통계량이다. 개는중앙값미달이며따라서중앙값을초 모집단의중앙값이 M 인연속확률분포에서추출한 인표본을,,, 이라하면, 이때 중앙값 M 에관한귀무가설 ( 영가설 ) 과이에대한대립가설 ( 연구가설 ) 은 H : M M H : () M M () M M (3) M M 이가설들에대한비모수적검정통계량 : ( M) 의부호 (sg). 이때각 에대해서부호를나타내는확률변수 M S M 단 M 검정통계량 : 는제외시킨다. B S 검정통계량 B 는중앙값 M 보다큰 귀무가설 H 하에서 M 가중앙값이므로각 S 를 들의개수가된다. S 가 이될확률은 / 이고 S 는서로독립이므 로 B 의분포는모수가 (, / ) 인이항분포를따르게된다. 여기서 은 M 를제외 시킨자료의개수다. 만일표본의수가 인경우는이항분포를이용할수없고, 정규분포에근사하므로표준화된 부호검정통계량을이용할수있다. 귀무가설 H : M M 하에서부호통계량 B 의평균과분산은 B ( ) Var B 4 96
표준화된통계량 : H 에서 이클때 B B ( / ) /4 B 의분포는근사적으로표준정규분포 N(,) 을따른다. [ 보기 3_] 우리나라대학생의 IQ 중앙값은 M 5 이다. J대학학생의 IQ 중앙값이 5이 상이라고주장한다. 이주장이옳은지를확인하기위해서임의로 명을추출하여 IQ 를조사한 자료는다음과같다. 유의수준.5 에서비모수방법으로검정하여라. 8 5 9 8 3 6 5 5 8 5 37 6 7 9 6 ( 풀이 ) () 가설 H : M 5, 가설 H : M 5 () 중앙값 : 크기순으로나열하고중앙값 M 을찾아보면 5 6 6 8 5 5 6 7 8 9 9 5 8 3 37 (3) 중앙값보다큰, 즉 6 부터 37 까지의자료수 : B M 를제외한표본수 : 8 (8/ ) B.948 8/ 4 (4) 5 (5) 표준화값 : (6) 확률 : PB ( ).43 부호검정표에서 B, 8이교차하는값을찾아보면그값은.43 이다. (7) 결론 : 이것은유의수준.5 보다값이크므로 H 가채택된다. 즉 J 대학의 IQ 의중앙 값은 5 이상이라는가설은맞지않다. 3. Wlcoxo 의부호순위검정 부호검정은두자료를비교하고자할때관측치의크기는무시하고 B 는 M 를중심으로크고 작은것만을고려하는것이었다. 여기에얼마나크고작은지도고려할때 Wlcoxo 부호순위검 정을한다. 모집단의중앙값 M 을중심으로대칭인연속분포에서추출한크기 인표본을,,, 이라하자. 이때중앙값 M 에관한귀무가설과이에대한대립가설은 H : M M H : () M M () M M (3) M M 이가설들에대한비모수적검정통계량 ( 부호순위검정 ): ( M) 의부호와 M 위를이용하며이때 S 와 ( M) S ( M) R 를다음과같이정의한다. 에서의순 97
여기서 M R M 는자료로부터제외시킨다. 의 { M M M,( ),, } 에서의순위 단동점인경우에는해당순위들의평균을사용한다. 부호순위검정통계량 : 단 R 는 W SR 가 M 보다큰경우 M 위를사용한다. 귀무가설 H 하에서 W 는다. 그러나그특징을살펴보면 () W 의최소값은 S 들이모두 인경우에 그리고최대값은 터 까지의순위의합인 ( ) /. 의순위이며, 동일한관측값이있는경우에는평균순 분포는 에따라다르며일반적인형태는존재하지않 S 들이모두 인경우에 부 () H 하에서 M 는 을중심으로대칭이므로 W 분포도대칭인분포이며그중심은최대 값과최소값의중간지점인 ( ) / 4 그러므로 ( ) / 4 로부처거리가같은양쪽의두점 은 * P( W x) P( W x ) p 이다. x x x * *, ( x ) 에대해 W 의양끝의확률 [ 보기 3_] 앞의 [ 보기문제 ] 에서주어진자료가비대칭이므로다시 5 명을임의로추출한자 료가다음과같다. 유의수준.5 에서부호순위를검정하라. 6 3 8 8 3 6 5 5 5 7 35 6 ( 풀이 ) 중앙값 : 크기순으로나열하여표를만들면다음과같다. 단 Mo 5 인자료는제외하라. 5 6 8 5 5 6 6 7 8 3 3 35 표 [3-] 중앙값순위 W 5 5 S - -9 9-7 7 8-4 4 6-3 3 4.5 R.5.5 3 3 3 4.5 5 5 7 8 8 9 5 5 3 S R.5.5 3 4.5 7 9 3 5.5 98
중앙값 : M 5 () 영가설 H : M Mo, 연구가설 H : M M () 부호순위통계량 (W ) 분포표 P( W x) 에서 x 5.5 와 3 PW ( 5.5).354 이다. o 이만나는점의값은 이값은유의수준.5 보다크므로영가설 H 가채택된다. 즉이학교의학생 IQ는중앙값 이 5 이상이라고말할수없다. 3.3 독립두표본의비모수검정 (Ma-Whtey 검정 ) 두모집단간의중심위치를비교하기위한비모수적검정법으로 Ma-Whtey-Wlcoxo 순위 합검정또는단순히 Ma-Whtey U 검정이라한다. 연속이며동일한분포형태를갖는두개 의독립인모집단 과 로부터확률표본,,, m 과,,, ( m ) 을각각추출하였 다고하자. 이때두모집단간중앙값의차 에대한귀무 ( 영 ) 가설과대립 ( 연구 ) 가설은각각다음 과같다. 귀무 ( 영 ) 가설 H : 대립 ( 연구 ) 가설 H : 또는 또는 이때두모집단의혼합표본에서 Ma-Whtey 순위합검정통계량 U 는 ( ) U W 여기서 W Rj, j j j 의순위를나타낸다. R 는두모집단의혼합표본 {,,, m,,, j, } 에서 U 의값은혼합표본에동점이없는경우두표본을합해서가장작은값부터크기순으로배열하 여표본 의값보다작은표본 의값을구하고, 이값을표본 의모든관측값에대하여 합한값을나타낸다. SPSS 통계처리문제 ( 독립표본비모수검정 ) [ 보기 3_3] 두 TV 방송국에서같은시간대에방영하는유사한두연속극, 에대해 연 속극이 연속극보다시청률이낮다고주장한다. 이주장이타당한지확인하기위하여시청자의 시청률을각각 9회, 8회에걸쳐서조사한결과가다음과같다. 유의수준.5 에서검정하라. 여기서숫자는시청률로단위가 % 이다. 표 [3-3] 두방송국 TV 시청률 6.3 6.8 5.7 8.4 7. 5.6 4.3 6.6 3.8 7.8 6.3 5.7 8.6 9.8 6.4. 6.5 99
( 풀이 ) 와 를크기순으로나열하면 표 [3-4] 시청률순위 3.8 4.3 5.6 5.7 6.3 6.6 6.8 7. 8.4 5.7 6.3 6.4 6.5 7.8 8.6 9.8. (a) 의중앙값 : 6.3 () 의중앙값 : 6.5 7.8 7.5 () 중앙값의차 : 6.3 7.5.85 (3) (b) 가설 H :, 가설 H : (4) (c) 혼합표본을크기순으로나열하여순위 (rak) 를나타내자. 표 [3-5] 혼합순위 3 4.5 4.5 6.5 6.5 8 9 3 4 5 6 7 3.8 4.3 5.6 5.7 5.7 6.3 6.3 6.4 6.5 6.6 6.8 7. 7.8 8.4 8.6 9.8. 3 4 5 3 4 6 7 8 5 9 6 7 8 여기서 bold face 의숫자는 R ( 의 rak), 이것을제외한것은 값이같은것은두순위의합을 로나누어나타낸다. 이것을 와 가분리된 [ 의순위 R ] 와 [ 의순위 j R j ( 의 rak) 를나타낸다. R j ] 를표로요약하면다음과같다. 표 [3-6] 와 의순위합및순위평균 번호 R 5.7 4.5 3.8 R j 6.3 6.5 4.3 3 6.4 8 5.6 3 4 6.5 9 5.7 4.5 5 7.8 3 6.3 6.5 6 8.6 5 6.6 7 9.8 6 6.8 8. 7 7. 9 순위합계 89 8.4 4 V W 64 순위평균.5 7. (d) 자료개수 : m 9, 8. (5) mm ( ) Ma-Whtey 순위합검정통계량 U : U W (6)
9(9 ) U 64 9 (7) (e) Ma-Whtey U 통계량분포표에서 P( U u) 를얻으려면 m 9 인표에서 8, u 9 가만나는곳의값이다. 즉 PU ( 9).57 (8) 6) 결론 : 확률이유의수준.5 보다크므로 H 를기각할수없다. 즉유의수준 5% 내에서 연속극이 연속극보다시청률이낮다고할수없다. 즉 H ( 시청률은차이가없다 ) 는영가 설을채택한다고해도 5% 의오차밖에지나지않는다는의미이다. SPSS 통계처리 [3_3_TVsoap.sav] SPSS 로얻은결과를위에서계산한값들과비교하여비모수독립표본통계를이해하도록하자. 분석 > 비모수검정 > 독립 -표본보조창이뜨면 [ 시청률 ] 을검정변수로이동 [ 연속극 ] 을집단변수로이동하고집단정의를클릭하여집단 에, 집단 에 를입력. 여기서집단 은 연속극, 집단 는 연속극을대표하는수이다. 검정유형에 Ma-Whtey(U) 를선택후확인 비모수검정결과 Ma-Whtey 검정 순위 시청률 연속극 연속극 연속극합계 N 평균순위 순위합 9 7. 64. 8.3 89. 7 검정통계량 b Ma-Whtey 의 U Wlcoxo 의 W 근사유의확률 ( 양측 ) 정확한유의확률 [*( 단측유의확률 )] 시청률 9. 64. -.638..4 a a. 동률에대해수정된사항이없습니다. b. 집단변수 : 연속극 결과분석. 순위분석 () N 은측정수로 연속극은 9, 연속극은 8.
() 평균순위 : 표 의순위 (rak) 합인 64 W 와 V 89 를측정수로나누면 의평균순위 : 64 7. 9, 의평균순위 : 89.3 8 (3) 위의이론계산에서순위합인 W 64 와 V 89 를얻는방법을참조할것.. 검정통계량분석 () 이론계산에서 Ma-Whtey U 를계산하는방법 (6) 과결과 (7) 을참조할것. ) 이론계산에서 Wlcoxo의 W를계산하는방법을참조할것. (3) 의순위 (rak) 가정규분포라고보면 여기서 는순위의평균으로 7., 는표준편차이다. 4) P( z.638) P( z.638).949.58 근사유의확률양측 : P( z.638) P( z.638).9493 (.57). (5) *( 단측유의확률 ) 의.4는보기문제 (8) 에서계산한 PU ( 9).57 에 배를한값이 다. 이유의확률때문에영가설즉 연속극이 연속극보다시청률이낮다고할수없다. [ 보기 3_4] 흡연이운전기술에미치는영향을평가하기위하여경력 5년이상의모범운전자를무작위로추출하여이들의운전습관, 주의력, 속도감등을점수한결과가다음과같다. 두집단사이의운전기술에대한차이가있는지비모수검정독립 -표본으로검정하고그결과값들을이론으로계산하여맞았는지확인하라. 채택된가설검정은무엇인가? 표 [3-7] 비흡연자흡연자의운전기술점수 비흡연자 ( ) 3 35 6 43 8 44 78 38 85 63 46 3 47 57 흡연자 ( ) 8 53 39 7 4 68 7 8 45 48 65 78 [ 비모수독립 - 표본예제 (p374)] SPSS 통계처리 [regsur.sav] 성별에따라이웃으로부터생활용품을빌리는차이를검증한다. 분석 > 비모수검정 > 독립 -표본용품빌리기 [3]-검정변수로이동성별-집단변수로이동집단정의단추를누르고집단 에, 집단 에 를쳐넣고계속정확 단추를눌러점근적검정선택 검정유형에서 Ma-Whtey U 를선택하고확인. 비모수검정
Ma-Whtey 검정 용품빌리기 성남자여자합계 순위 N 평균순위 순위합 75 3.6 54533. 4 85.5 687. 585 검정통계량 a Ma-Whtey 의 U Wlcoxo 의 W 근사유의확률 ( 양측 ) a. 집단변수 : 성 용품빌리기 367. 687. -.9.57 해석은위의보기문제와동일하다..4 대응표본의비모수검정 일명 Wlcoxo Matched Pars Sged-Raks Test 표본이쌍으로관측된경우모집단간의비교를대응비교 (pared comparso) 라한다. 분포가연속이고중앙값이 M 과 M (, ), (, ),, (, ) 인두모집단으로부터 개를쌍으로추출한대응표본을 이라하자. 이때 D 라정의하면 D, D,, D 은분포가연속이고중앙값이 인 개 의모집단으로추출한크기 인표본으로간주할수있다. 이경우에두모집단간의위치를비 교하는문제는 개의모집단에서그의중앙값 에대한검정문제로바꾸어생각할수있다. 따라서앞에서다루었던단일표본인경우에부호검정과부호순위검정을대응비교의비모수적 검정법으로사용할수있다. 방법은 D 에순위를매기고 D 는제외한다. 그리고원래 하여이들중에서 부호를가진순위합인검정통계량 W 를구한다. D 가가지고있던부호를부여 SPSS 통계처리문제 ( 대응표본비모수검정 ) [ 보기 3_5] 새로운 AB, 두가지음료를개발하여시음을실시한다. 임의로 명을추출하여 맛을보고점수를나타낸자료는다음과같다. 표 [3-8] 음료의점수 시음자 3 4 5 6 7 8 9 A B 55 75 58 65 9 68 5 55 9 7 63 8 65 65 8 75 45 63 87 75 두청량음료의맛에차이가있다고볼수있는지유의수준.5 에서검정하여라. 3
( 풀이 ) () 부호검정 : D B A 는다음과같다. 표 [3-9] 음료의부호검정표 시음자 3 4 5 6 7 8 9 A B 55 75 58 65 9 68 5 55 9 7 63 8 65 65 8 75 45 63 87 75 D 8 5 7-7 -5 8-3 5 () 귀무가설과대립가설은다음과같이설정한다. H :, H : () (3) D 자료중 인것을제외하면 9 통계량은 B 6 이므로통계표에서이것의확률은 이고 9 개중양의값을갖는수는 6 개이다. 따라서부호 PB ( 6).539 () 유의확률 : PB ( 6) (.539).578 (3) (4) 결론 : 유의확률이유의수준보다크므로 H 가채택된다. 즉두음료의맛의차이는없다. Wlcoxo 부호순위검정 : 표 [3-] Wlcoxo 부호순위검정표 W D D D 를크기순으로나열하고순위를부여하면 S R - 9-5 5 3-3 3 5 5 3 5 5 3 7 7 5.5 7 7 5.5 8 8 7.5 8 8 7.5 S R 3 3 5.5 5.5 7.5 7.5 3 D 에서 5는 3개가있다. 따라서순위는, 3, 4가이들에해당되며이순위의평균은 3으로 R 에서모든 5는 3이되었다. 음의순위합 : W 3 R 3 9 3 (4) 평균순위 : 3 4.33 3 (5) 4
양의순위합 : W 6 R 3 3 5.5 5.5 7.5 7.5 3 (6) 평균순위 : 3 5.33 6 (7) B ( / ) 검정통계량 : B /4 SPSS 통계처리 [3_5_drk.sav] 분석 > 비모수검정 > 대응 표본 [ 시음자A] 와 [ 시음자B] 를검정대응변수로이동 검정유형에서 Wlcoxo 과부호를 check 후확인 비모수검정 Wlcoxo 부호순위검정 순위 시음자 B - 시음자 A a. 시음자 B < 시음자 A b. 시음자 B > 시음자 A c. 시음자 B = 시음자 A 음의순위양의순위동률합계 N 평균순위 순위합 3 a 4.33 3. 6 b 5.33 3. c 검정통계량 b 근사유의확률 ( 양측 ) a. 음의순위를기준으로. 시음자 B - 시음자A -.3 a.58 b. Wlcoxo 부호순위검정 부호검정 시음자 B - 시음자 A 빈도분석 a. 시음자 B < 시음자 A b. 시음자 B > 시음자 A c. 시음자 B = 시음자 A 음수차 a 양수차 b 동률 c 합계 N 3 6 5
검정통계량 b 시음자B - 시음자A 정확한유의확률 ( 양측 ).58 a a. 이항분포를사용함. b. 부호검정 해석 : P(.3) P(.3).877.93 양측의확률 : (.93).586 정확한유의확률 ( 양측 ) 은이론계산의수식 () 와 (3) 을참고하라. [ 보기 3_6] 두생산라인에서생산된전구를 일동안관측한결과각생산라인의일별불량품의수가다음표와같이관측되었다. 두생산라인의일별생산량이동일하다고할때아래자료를이용하여두라인에서생산된제품중에서불량품수의분포가동일한가를비모수검정의대응 -표본으로검정하고 SPSS 프로그램검정하고나온값을공부한이론으로맞추어보아라. 표 [3-] 일별두생산라인의전구불량품 일자 3 4 5 6 7 8 9 Le 7 79 4 84 74 4 9 69 6 Le 64 59 95 77 7 83 79 7 [ 비모수대응 - 표본, 교과서예제 (p377)] SPSS 통계처리 [regsur.sav] 용품빌리기 [v3]- 경조사참석 [v33] 을대응비교하여결과를분석한다. 분석 > 비모수검정 > 대응 - 표본 용품빌리기 [3]- 경조사참석 [v33] 두개를 hghlght 하여 - 검정대응변수로이동 검정유형에서 Wlcoxo 과부호를 check 한후확인. 비모수검정 Wlcoxo 부호순위검정 순위 경조사참석 - 용품빌리기 a. 경조사참석 < 용품빌리기 b. 경조사참석 > 용품빌리기 c. 경조사참석 = 용품빌리기 음의순위양의순위동률합계 N 평균순위 순위합 4 a.67 735. 84 b.38 856. 349 c 575 6
검정통계량 b 근사유의확률 ( 양측 ) a. 양의순위를기준으로. b. Wlcoxo 부호순위검정 경조사참석 - 용품빌리기 -4.75 a. 부호검정 빈도분석 경조사참석 - 용품빌리기 a. 경조사참석 < 용품빌리기 b. 경조사참석 > 용품빌리기 c. 경조사참석 = 용품빌리기 음수차 a 양수차 b 동률 c 합계 N 4 84 349 575 검정통계량 a 근사유의확률 ( 양측 ) a. 부호검정 경조사참석 - 용품빌리기 -3.79. 검정결론 : 위의모든값은앞에서이론으로공부한방법으로모두얻을수있다. 검정통계량의. 이기때문에영가설이기각되고대립가설즉경조사참석과용품빌리기는 아무련관련이없으며경조사참석을생활용품빌리는것보다더많이하고있음을알수있다. 7