통계자료분석 강희모 2014년 5월 14일
목차 제 1장 여러가지평균비교 1 1.1. 단일표본검정.............................. 2 1.2. 독립인두표본검정........................... 4 1.3. 대응표본검정.............................. 9 제 2 장 분산분석(ANalysis Of VAriance) 13 2.1. one way ANOVA............................. 13 2.1.1. 평균비교............................. 14 2.1.2. 다중비교(multiple comparison)................. 15 2.1.3. 대비(contrast).......................... 17 2.2. two way ANOVA............................. 21 제 3 장 공분산분석(ANCOVA; ANalysis of COVAriance) 25 제 4 장 반복측정 분산분석(repeated measures anova) 35 4.1. one way repeated measures....................... 36 4.2. two way repeated measures....................... 39 제 5 장 회귀분석(regression analysis) 45 제 6장 범주형자료분석 51 6.1. 적합도검정(goodness of fit test).................... 51 6.2. 독립성검정................................ 52 6.3. 동일성검정................................ 59 6.4. likelihood ratio test............................ 59 6.5. linear by linear association....................... 62 i
참고 문헌 62 ii
표목차 3.1 나병간균환자.............................. 26 3.2 순차제곱합................................ 27 3.3 부분제곱합................................ 28 3.4 나병간균환자.............................. 29 4.1 근전도자료................................ 37 6.1 승산비................................... 56 6.2 우도비검정................................ 61 6.3 선형대선형결합............................. 62 iii
그림목차 1.1 H 1 : µ > µ 0 일때............................. 2 1.2 단일표본검정.............................. 4 1.3 SPSS출력결과(단일표본)........................ 4 1.4 독립인두표본검정........................... 7 1.5 SPSS출력결과(독립인두표본).................... 8 1.6 대응표본검정.............................. 10 1.7 SPSS출력결과(대응표본)........................ 10 2.1 자료입력및분산분석.......................... 15 2.2 분산분석설정.............................. 17 2.3 등분산을가정한경우분산분석..................... 19 2.4 등분산을가정하지않는경우분산분석................ 20 2.5 이원배치분산분석설정......................... 22 2.6 이원배치분산분석출력결과...................... 23 3.1 일원배치분산분석............................ 26 3.2 공분산분석과정1............................. 30 3.3 공분산분석과정2............................. 32 4.1 반복측정분석과정............................ 37 4.2 다변량과구형성............................. 38 4.3 개체내효과와대비검정........................ 38 4.4 사후검정................................. 39 4.5 반복측정분석과정(2원배치)...................... 41 4.6 다변량과구형성............................. 42 4.7 개체내효과................................ 42 4.8 사후검정결과.............................. 43 v
5.1 회귀분석설정.............................. 48 5.2 회귀분석 저장............................. 49 5.3 회귀분석분석결과............................ 50 6.1 적합도검정................................ 53 6.2 독립성검정................................ 55 6.3 승산비검정................................ 57 6.4 승산비검정(2 2 k)........................... 58
제 1장 여러가지평균비교 모집단의평균비교검정은단일표본에대한평균검정,독립인표본에대한평균 차이검정,대응표본평균검정등이있으며이장에서는이검정의사용방법을소 개한다.우선검정방법을알아보기전에검정에사용하는용어에대하여알아보 자.통계적가설검정계산에사용하는몇가지용어를소개하고그림 1.1에나타내 었다. 귀무가설 (null hypothesis;h 0 ) :이미전에연구자가입증한가설 대립가설 (alternative hypothesis;h 1 ) :연구자가연구결과입증하려는가설로 귀무가설이아닌가설 유의수준 (significance level;α) : 연구자가 귀무가설이 옳은데도 잘못하여 귀무가설을 기각하는오류의최대허용한계의확률로많은경우 0.05로설정 기각역 (rejection region for H 0 ) :유의수준에서귀무가설을기각하는영역 유의확률 (probability value) : 데이터에서 구한 검정통계량이 귀무가설이 옳은 데도잘못하여귀무가설을기각하는오류의확률 검정통계량 (test statistic) : 귀무가설의 기각, 채택여부 판정할 때 사용하는 통 계량으로관측한데이터에서계산 제 1종의 오류 (type I error; α) :유의수준과동일한의미 제 2종의 오류 (type II error;β) :귀무가설이옳지않을때귀무가설을기각하 지않는오류의확률 1
검정력 (power;1 β) :귀무가설이옳지않을때귀무가설을기각하는오류의확 률 H 0 : µ = µ 0 H 1 : µ = µ a β α µ 0 µ a acceptance region for H 0 rejection region for H 0 σ c = µ 0 +z α n σ = µ a z β n 그림 1.1: H 1 : µ > µ 0 일때 1.1. 단일표본검정 이검정은한집단의평균값이특정한값이라고할수있는지검정하는방법이다. 1 귀무가설 H 0 : µ = µ 0 (의미 :어느집단의평균은 µ 0 이다.)이며,예전에조사 한결과알려진평균이다. 대립가설은다음세가지중하나를연구자가정한다. 대립가설 H 1 : µ > µ 0 (의미 :어느집단의평균은 µ 0 보다크다.) 단측 검정 대립가설 H 1 : µ < µ 0 (의미 :어느집단의평균은 µ 0 보다작다.) 단측 검정 대립가설 H 1 : µ µ 0 (의미 :어느집단의평균은 µ 0 이아니다.즉µ 0 보 다크거나 µ 0 보다작다) 양측검정 2 SPSS로통계적모델에대하여출력결과를얻는다. 3 연구자는 SPSS출력결과에서유의확률을확인하여귀무가설(H 0 )의기각,채 택여부를결정하고,그결과를해석한다. 예를들어연구자가유의수준을α = 0.05로설정하고SPSS출력결과유의확률(양 측)이 0.07이라면 2
단측검정인 경우는 유의확률이 0.035이므로 귀무가설을 기각하고 양측검정인 경우는 유의확률이 0.07이므로 귀무가설을 기각하지 못한 다. 사례 : 1.1. (단일표본검정)어느도시의남자중학생평균키가 5년전에 159cm으 로알려져있다고하자.현재중학생의평균키와같은지알아보려고 30명의중학 생의키를조사하였다. 5년전과현재중학생의키의평균이동일한지검정과정을 알아보자. 귀무가설 H 0 : µ = 159 (의미 :어느도시의중학생평균키는 159cm이다.)이고 대립가설은다음세가지중하나를연구자가정한다. 대립가설 H 1 : µ > 159(의미 :어느도시남자중학생의평균키는 159cm보다 크다.) 대립가설 H 1 : µ < 159(의미 :어느도시남자중학생의평균키는 159cm보다 작다.) 대립가설 H 1 : µ 159(의미 :어느도시남자중학생의평균키는 159cm가아 니다.즉159cm보다크거나 159cm보다작다) 여기서대립가설의설정은 H 1 : µ > 159라고하자.그러면검정과정은다음과같 다. 1 가설설정 귀무가설 H 0 : µ = 159 (의미 :어느도시의중학생평균키는 159cm이다.)이 고 대립가설 H 1 : µ > 159(의미 :어느도시남자중학생의평균키는 159cm보다 크다.) 2 SPSS설정(그림 1.2)및출력결과(그림 1.3) SPSS에서단일표본검정에대한자료입력은데이터 보기시트에서한열에 모든값을입력한다.단일표본검정은분석 평균비교 일표본 T 검정메 뉴를클릭하여그림 1.2창에여러가지설정한후분석을실행한다.이창에 설정값으로 검정변수에는 검정에 사용할 변수를 추가하고, 검정값에는귀무가설의설정값을입력한후 3
그림 1.2:단일표본검정 그림 1.3: SPSS 출력결과(단일표본) 확인버튼을누르면분석이완료된다. 3 결론 : 그림1.3에서양쪽유의확률이0.282이므로단측유의확률은0.141이며유의수준 α = 0.05에서귀무가설을기각할수없다. 1.2. 독립인두표본검정 이검정법은독립인두집단의평균이같다고할수있는지알아보는방법이다.먼 저두집단이분산이같은지다른지에따라통계량계산이다르므로두집단의분 산이같은지동일성검정을한다(등분산성검정).등분산성에대한검정은 SPSS출 4
력결과에서확인할수있으며,검정과정은다음과같다. 1 가설설정(Levene 검정) 귀무가설 H 0 : σ 2 1 = σ2 2 (의미 :두집단의분산은같다.) 대립가설 H 1 : σ1 2 σ2 2 (의미 :두집단의분산은같지않다.) 2 SPSS의출력결과에서 Levene등분산검정의유의확률을확인한다. 3 등분산성에대한검정결과해석및평균비교방법선택 유의확률이 0.05보다 작으면 두 집단의 분산은 서로 다르다고 할 수 있으며두집단의평균을비교할때두집단의분산이다른경우의 유의확률로 검정한다. 유의확률이 0.05보다크면두집단의분산은서로같고할수있으며두 집단의평균을비교할때두집단의분산이같은경우의유의확률로검 정한다. 두집단의평균비교과정은다음과같다. 1 귀무가설 H 0 : µ 1 µ 2 = 0 (의미 :두집단의평균차이는 0이다.) 대립가설은다음세가지중하나를연구자가정한다. 대립가설 H 1 : µ 1 µ 2 > 0(의미 :두집단의평균차이는 0보다크다.) 단측검정 대립가설 H 1 : µ 1 µ 2 < 0(의미 :두집단의평균차이는 0보다작다.) 단측검정 대립가설 H 1 : µ 1 µ 2 0(의미 :두집단의평균차이는 0이아니다.즉 두집단의평균차이는 0보다크거나 0보다작다) 양측검정 2 SPSS로통계적모델에대하여출력결과를얻는다. 3 연구자는 SPSS출력결과에서유의확률을확인하여귀무가설(H 0 )의기각,채 택여부를결정하고,그결과를해석한다. 예를들어연구자가유의수준을α = 0.05로설정하고SPSS출력결과유의확률(양 측)이 0.07이라면 단측검정인 경우는 유의확률이 0.035이므로 귀무가설을 기각하고 양측검정인 경우는 유의확률이 0.07이므로 귀무가설을 기각하지 못환 다. 5
즉 대립가설이 H 1 : µ 1 µ 2 > 0일때귀무가설을기각하므로통계적으로 두젖소집단의우유생산량평균차는 0보다크다고할수있고, 대립가설이 H 1 : µ 1 µ 2 0일때귀무가설을기각하지못하므로통계 적으로두젖소집단의우유생산량평균차는 0라고할수있다. 사례 : 1.2. (독립인두표본검정)두종류의사료가젖소의우유생산량에차이 가있는지알아보기위하여 16마리의젖소를임의로두집단으로나눈후8마리 에는사료 A를다른 8마리는사료 B를먹이고우유생산량을조사하였다.사료 A 를먹은소의우유생산량과사료 B를먹은소의우유생산량이차이가있다고할 수있는가? SPSS는등분산성검정의한종류로 Levene등분산성검정방법을사용한다. Levene 검정결과가 두집단의분산이같다면그림 1.5의등분산이 가정됨에서평균의 동일성에 대한 검정의유의확률을사용하고 두 집단의 분산이 같지 않다면 그림 1.5의 등분산이 가정되지 않음에서 평균의 동일성에 대한 검정의유의확률을사용한다. 두종류의젖소의우유생산량자료로유의수준 α = 0.05에서가설검정하자. 귀무가설 H 0 : µ 1 µ 2 = 0 (의미 :두젖소집단의우유생산량평균차는 0이 다.)이고 대립가설은다음세가지중하나를연구자가정한다. 대립가설 H 1 : µ 1 µ 2 > 0(의미 :두젖소집단의우유생산량평균차는 0보 다크다.) 대립가설 H 1 : µ 1 µ 2 < 0(의미 :두젖소집단의우유생산량평균차는 0보 다작다.) 대립가설 H 1 : µ 1 µ 2 0(의미 :두젖소집단의우유생산량평균차는 0이 아니다.즉0보다크거나 0보다작다) 여기서대립가설의설정은 H 1 : µ 1 µ 2 0일때다음과같은검정과정을진행하 자. 6
(a)독립인두표본자료입력 (b)독립인두표본설정창 (c)독립인두표본집단설정 그림 1.4:독립인두표본검정 1 1 두집단의분산의동일성에대한가설설정 귀무가설 H 0 : σ 2 1 = σ2 2 (의미 :두집단의분산은같다.) 대립가설 H 1 : σ1 2 σ2 2 (의미 :두집단의분산은같지않다.) 7
그림 1.5: SPSS출력결과(독립인두표본) 출력결과그림 1.5에서 Levene등분산검정의유의확률이 0.914이므로두집 단의분산은같다고할수있다.따라서등분산을가정하고두집단의평균비 교에대한검정을한다. 1 2 두집단의평균차에대한가설설정 귀무가설 H 0 : µ 1 µ 2 = 0 (의미 :두젖소집단의우유생산량평균차는 0이 다.) 대립가설 H 1 : µ 1 µ 2 0 (의미 :두젖소집단의우유생산량평균차는 0이 아니다.즉0보다크거나 0보다작다) 2 SPSS설정(그림 1.4)및출력결과(그림 1.5) SPSS에서자료분석하기전데이터의입력에대하여알아보자.데이터를입 력할때 한열에는분석에사용할종속변수인관측값을입력하고, 다른한열에는두집단을구분하는집단변수의구분값을 입력한다(그림 1.4(a)). 데이터가 올바르게 입력되었다면 분석을 실행하자. SPSS에서독립인두표본검정은분석 평균비교 독립표본 T 검정메뉴 를클릭한다(그림 1.4(b)).이창의설정값은 검정변수에는검정에사용할종속변수를추가하고, 집단변수에는두집단을구분하는변수를추가하며 8
집단정의버튼을누른후집단 정의에사용한각집단의구분값을입력 하고(그림 1.4(c)) 확인버튼을누르면분석이완료된다. 3 결론 : 그림1.5에서양쪽유의확률이0.333이므로유의수준α = 0.05에서귀무가설을 기각할수없다.즉두종류사료로먹인소의우유생산량은통계적으로차 이가없다고할수있다. 1.3. 대응표본검정 두집단의자료가쌍으로된경우(한개체에서두번자료를관측하거나동일한종 류의기계두대에서자료를관측하는경우)로쌍으로된두집단차이의평균을 δ라고할때이값에대하여검정하는방법이다.만일두집단의차이가없다면 δ는 0이된다. 1 귀무가설 H 0 : δ = δ 0 (의미 :쌍으로구성된두집단차이의평균은 δ 0 이다.) 대립가설은다음세가지중하나를연구자가정한다. 대립가설 H 1 : δ > δ 0 (의미 :쌍으로구성된두집단차이의평균은 0보 다크다.) 단측검정 대립가설 H 1 : δ < δ 0 (의미 :쌍으로구성된두집단차이의평균은 0보 다작다.) 단측검정 대립가설 H 1 : δ δ 0 (의미 :쌍으로구성된두집단차이의평균은 0이 아니다. 양측검정즉쌍으로구성된두집단차이의평균은 0보다크 거나 0보다작다) 2 SPSS로통계적모델에대하여출력결과를얻는다. 3 연구자는 SPSS출력결과에서유의확률을확인하여귀무가설(H 0 )의기각,채 택여부를결정하고,그결과를해석한다. 예를들어연구자가유의수준을α = 0.05로설정하고SPSS출력결과유의확률(양 측)이 0.07이라면 단측검정인 경우는 유의확률이 0.035이므로 귀무가설을 기각하고 양측검정인 경우는 유의확률이 0.07이므로 귀무가설을 기각하지 못환 다. 9
(a)대응표본자료입력 (b)대응표본설정창 그림 1.6:대응표본검정 그림 1.7: SPSS 출력결과(대응표본) 즉 대립가설이 H 1 : δ > 0라면귀무가설을기각하므로통계적으로두집단 의평균차이는 0보다크다고할수있고, 대립가설이 H 1 : δ 0라면귀무가설을기각하지못하므로두집단의평 균차이는 0라고할수있다. 사례 : 1.3. (대응표본검정)첨가제를사용하는차량과사용하지않는차량의주 행거리가같은지검정하려고다섯종류의동일한새차 2대를추출하여임의로첨 가제를사용한경우와첨가제를사용하지않은경우주행거리를보고두경우가차 이가있는지알아보자. 10
귀무가설 H 0 : δ = 0 (의미 :첨가제와휘발유를주유한차량의주행거리는같 다.)이고 대립가설은다음세가지중하나를연구자가정한다. 대립가설 H 1 : δ > 0(의미 :첨가제와휘발유를주유한차량의주행거리차이 의평균은 0보다크다.) 대립가설 H 1 : δ < 0(의미 :첨가제와휘발유를주유한차량의주행거리차이 의평균은 0보다작다.) 대립가설 H 1 : δ 0(의미 :첨가제와휘발유를주유한차량의주행거리차이 의평균은 0이아니다.즉주행거리차이의평균은 0보다크거나 0보다작다) 1 가설설정 귀무가설 H 0 : δ = 0 (의미 :첨가제주입차량과주입하지않은차량의주행 거리차이의평균은 0이다.)이고 대립가설 H 1 : δ (의미 :첨가제주입차량과주입하지않은차량의주행거 리차이의평균은 0이아니다.) 2 SPSS설정(그림 1.6)및출력결과(그림 1.7) SPSS에서자료분석하기전데이터의입력에대하여알아보자.데이터를입 력할때한열에는반복측정한변수값을입력하고,나머지열에반복측정한 또다른변수값을입력한다((그림 1.6(b)). SPSS에서대응표본검정은분석 평균비교 대응표본 T 검정메뉴를클릭한다(그림 1.6(b)).이창에 대응변수에검정에사용할반복측정한두변수를추가하고 확인버튼을누르면분석이완료된다. 3 결론 : 그림1.7에서양쪽유의확률이0.032이므로유의수준α = 0.05에서귀무가설을 기각한다.첨가제주입한차량과주입하지않은차량의주행거리는통계적으 로같지않다고할수있다. 11
제 2장 분산분석(ANalysis Of VAriance) 모수적검정에서한집단이나두집단의평균비교는 t 검정을사용하고셋이상 집단의평균비교는 F 검정을사용한다.이장에서는세집단평균비교인분산분 석(ANOVA)에 대하여 알아보자. 2.1. one way ANOVA 한요인(factor)에대하여셋이상집단의평균비교에대한통계학적모델을일원 배치 분산분석(one way ANalysis Of VAriance; one way ANOVA)이라고 하며 y ij = µ+τ i +ǫ ij, ˆµ = y, ˆτ i = y i. y (2.1) 이며다음과같은조건을만족해야한다. ǫ ij 서로독립이다. ǫ ij 는 N(0,σ 2 )인정규분포를따른다. 각처리집단의분산은모두같다. 만일위의조건에서첫번째,두번째조건은만족하고세번째조건에서처리집단 간분산이같은지같지않은지에따라분석방법을다르다.따라서셋이상집단의 평균을비교하기전에모든집단의분산이모두같은지등분산성에대한검정을해 야한다. 가설설정 귀무가설 H 0 : σ1 2 = σ2 2 = = σ2 k (의미 : k집단의분산은같다.) 대립가설 H 1 : not H 0 (의미 :적어도한집단은분산은같지않다.) 13
등분산성검정은 17페이지그림 2.2(c)에서분산 동질성 검정을선택하고분 석하면 19페이지그림 2.3(a)에서분산의동질성검정에대한결과를확인할 수있다. 등분산성검정결과 유의확률이 0.05보다크면모든집단의분산이같다고할수있고분산 분석으로평균을비교한다(그림 2.3, 19페이지). 유의확률이 0.05보다작으면셋이상의집단중분산은같지않은집단 이하나이상존재하며이런경우는 Welch검정으로평균을비교한다. 이검정은 17페이지그림 2.2(c)에서 Welch선택하고분석을실행하면 20페이지그림 2.4(a)의출력결과를확인할수있다. 2.1.1. 평균비교 1 귀무가설 H 0 : µ 1 = µ 2 =... = µ k (의미 : k개집단평균은모두같다.) 대립가설 H 1 : not H 0 (의미 : k개집단에서평균이다른집단이적어도한개 이상이다.) 사례 : 2.1. (분산분석)레코드테이프의코팅처리가음질의재생에효과가 있는지알아보기위하여코팅처리가다른네종류의테이프에대하여잡음을 조사하였다면 귀무가설 H 0 : µ 1 = µ 2 = µ 3 = µ 4 (의미 :네종류테이프의잡음소리의평균 은모두같다.)이고 대립가설 H 0 : not H 0 (의미 : 4종류테이프에서잡음의평균이다른테이프 가적어도한개이상있다.) 2 SPSS로통계적모델에대하여출력결과를얻는다. SPSS에서자료분석하기전데이터의입력에대하여알아보자.데이터를입 력할때 한열에는분석에사용할종속변수인관측값을입력하고, 다른한열에는 k집단을구분하는집단변수의구분값을 입력한다(그림 2.1(a)). 데이터가 올바르게 입력되었다면 분석을 실행하자. SPSS에서독립인두표본검정은분석 평균비교 일원배치 분산분석메 뉴를 클릭한다(그림 2.1(b)). 이 창에서 14
(a)분산분석 자료입력 (b)분산분석 화면 그림 2.1:자료입력및분산분석 종속변수에는검정에사용할종속변수를추가하고, 요인에는 k집단을구분하는변수를추가하고(그림 2.1(b)) 확인 버튼을 누르면 분산분석표가 출력된다(그림 2.3(a), 19 페이지). 분산분석에서는기본값으로각그룹마다기술통계량을보여주지않기때문 에 17페이지그림 2.2(c)에서기술통계를선택하고분석하면출력결과에기 초통계량을확인할수있다. 3 연구자는 SPSS출력결과에서유의확률을확인하여귀무가설(H 0 )의기각,채 택여부를결정하고,그결과를해석한다. 연구자가유의수준을 α = 0.05로설정하고SPSS출력결과유의확률이0.03이 라면 유의확률이 0.03이므로귀무가설을기각하므로통계적으로네개의레 코드중적어도한집단의평균은다르다고할수있다 2.1.2. 다중비교(multiple comparison) 귀무가설 H 0 : µ i = µ 2 =... = µ k 를기각한경우적어도한집단의평균이다르므 로어떤집단의평균이다르다고할수있는지알아보자.집단수가 ( ) k인경우두집 k 단씩묶어서평균차를비교하는개수는 이다.비교방법은 2 등분산을가정할때LSD, Duncan, Tukey, SNK등14개와 15
등분산을가정하지않을때Tamhane, Dunnett등4개 모두 18개를 제공한다. 다중비교의 분석과정은 1 귀무가설 H 0 : µ i µ j = 0 for all i,j(의미 :두집단평균은같다.) 대립가설 H 1 : µ i µ j 0 (의미 :두집단의평균은같지않다.) 사례 : 2.2. (다중비교)귀무가설 H 0 : µ 1 = µ 2 = µ 3 = µ 4 을기각하였을때 ( ) 4 어떤집단의평균이다르다고할수있는지다중비교를하려면 = 6 2 개쌍의평균차를비교한다. 2 SPSS로통계적모델에대하여출력결과를얻는다. 3 연구자는 SPSS출력결과에서유의확률을확인하여귀무가설(H 0 )의기각,채 택여부를결정하고,그결과를해석한다. 사례 : 2.3. (다중비교결과(LSD))연구자가유의수준을 α = 0.05로설정 하였을때, 4개집단에서 2개집단씩비교하는개수는 6개며 SPSS결과가 H 0 : µ 1 µ 2 = 0일때유의확률이 0.004면귀무가설을기각하며통계 적으로두집단의평균은같지않다. H 0 : µ 1 µ 3 = 0일때유의확률이 0.008이면귀무가설을기각하며통 계적으로두집단의평균은같지않다. H 0 : µ 1 µ 4 = 0일때유의확률이 0.044이면귀무가설을기각하며통 계적으로두집단의평균은같지않다. H 0 : µ 2 µ 3 = 0일때유의확률이 0.494이면귀무가설을기각못하며 통계적으로두집단의평균은같다. H 0 : µ 2 µ 4 = 0일때유의확률이 0.192면귀무가설을기각못하며통 계적으로두집단의평균은같다. H 0 : µ 3 µ 4 = 0일때유의확률이 0.442면귀무가설을기각못하며통 계적으로두집단의평균은같다. 16
(a) 다중비교 (b) 대비 (c) 옵션 그림 2.2:분산분석설정 2.1.3. 대비(contrast) 대비는사후검정결과통계적으로다른집단이존재한경우각변수를두개의그 룹으로나누어두그룹의평균이차이가있다고할수있는지검정하는것이다. 1 귀무가설 H 0 : c 1 µ 1 +c 2 µ 2 + +c k µ k = 0(의미 :두그룹의평균은같다.) 대립가설 H 0 : c 1 µ 1 +c 2 µ 2 + +c k µ k 0 (의미 :두그룹의평균은같지않 다.) k개그룹에대한대비는 C = c 1 µ 1 +c 2 µ 2 + +c k µ k 로정의하며상수 c는 k i=1 c i = 0이되도록설정한다. 사례 : 2.4. (대비)그림 2.2(b)에계수의합이 0이되도록설정하였고계수 가음수인첫번째변수를한그룹,계수가양수인나머지세개의변수를다 른한그룹으로나눠두그룹을비교하였으며그림 2.3(b)(19페이지)에그 결과가있다.다시말하자면그룹을 µ 1 과 µ 2,µ 3,µ 4 로하였을때귀무가설은 H 0 : 3µ 1 +µ 2 +µ 3 +µ 4 = 0으로각상수의합이 0이되도록한다. 2 SPSS로통계적모델에대하여출력결과를얻는다. 3 연구자는 SPSS출력결과에서유의확률을확인하여귀무가설(H 0 )의기각,채 택여부를결정하고,그결과를해석한다. 사례 : 2.5. (대비결과)연구자가유의수준을 α = 0.05로설정하였을때 유의확률이 0.049라면귀무가설을기각하므로집단 1과집단 2,집단 3,집단 4개를묶은그룹의평균은통계적으로다르다고할수있다. 17
사례 : 2.6. (등분산인경우분산분석)레코드테이프의질을향상시키려고네종 류 A, B, C, D의코팅처리에대하여음질의재생에얼마나효과가있는지를비교 하려고한다.데이터는레코드의잡음소리를기록한것이다. 1 1 네집단의분산의동일성에대한가설설정 귀무가설 H 0 : σ1 2 = σ2 2 = σ2 3 = σ2 4 (의미 :네집단의분산은같다.) 대립가설 H 1 : not H 0 (의미 :적어도한집단은분산은같지않다.) 결과 그림 2.3(a)에서 Levene등분산검정의유의확률이 0.101이므로유의수준 α = 0.05에서귀무가설을기각할수없으므로네집단의분산은모두같다고할 수있다.따라서등분산을가정하고네집단의평균비교에대한검정을한다. 1 2 네집단의평균차에대한가설설정 귀무가설 H 0 : µ 1 = µ 2 = µ 3 = µ 4 (의미 :네종류레코드의음질처리에대한 잡음소리평균은모두같다.) 대립가설 H 1 : not H 0 (의미 :적어도한종류의레코드는평균이다르다.) 결과 그림 2.3(a)에서분산분석결과유의확률이 0.018이므로유의수준 α = 0.05에 서귀무가설을기각한다.따라서적어도한레코드의평균이다르다는것을 알수있다. 2 사후검정레코드의잡음에대한평균이적어도한집단이다르므로네개의 ( ) 4 집단을두집단씩묶는개수가 = 6개이므로이것들에대하여두집단 2 의평균비교를한다. 귀무가설 H 0 : µ i µ j = 0 for all i,j when i j (의미 :두집단의평균은 같다) 대립가설 H 1 : not H 0 (의미 :두집단의평균은같지않다.) 그림 2.3(b)에서사후검정결과 A레코드와 B, C, D레코드의잡음에대한평 균이같은집단을묶을수있다.그림 2.4(b)에서적용한검정방법은등분산 을가정한경우 Duncan을사용하였다. 3 대비 레코드 A와레코드 B, C, D그룹으로나눈후두그룹의평균이같다고할수 있는지 검정한다. 귀무가설 H 0 : 3µ 1 = µ 2 +µ 3 +µ 4 (의미 :두그룹의평균은모두같다) 18
대립가설 H 1 : not H 0 (의미 :두그룹의평균은다르다.) 그림 2.3(c)에서양쪽유의확률이 0.003(등분산가정)이므로유의수준 α = 0.05에서귀무가설을기각한다.따라서레코드 A그룹과레코드 B, C, D그 룹의평균은같지않다. (a)등분산성 검정 및 분산분석 (b)사후검정 (c)대비 그림 2.3:등분산을가정한경우분산분석 사례 : 2.7. (등분산이아닌경우분산분석)네종류의비료종류에대한수확량의 평균을 비교하려고 한다. 19
(a)등분산성 검정 및 분산분석 (b)사후검정 (c)대비 그림 2.4:등분산을가정하지않는경우분산분석 1 1 네집단의분산의동일성에대한가설설정 귀무가설 H 0 : σ 2 1 = σ2 2 = σ2 3 = σ2 4 (의미 :네집단의분산은같다.) 대립가설 H 1 : not H 0 (의미 :적어도한집단은분산은같지않다.) 결과 그림 2.4(a)에서 Levene등분산검정의유의확률이 0.013이므로유의수준 α = 0.05에서귀무가설을기각하므로적어도한집단의분산은다르다고할수있 다.따라서등분산을가정하지않고네집단의평균비교에대한검정을한다. 1 2 네집단의평균차에대한가설설정 귀무가설 H 0 : µ 1 = µ 2 = µ 3 = µ 4 (의미 :네종류비료로경작한작물의수확 량의평균은모두같다.) 20
대립가설 H 1 : not H 0 (의미 :적어도한종류의수확량의평균은다르다.) 결과 그림 2.4(a)에서 Welch검정결과유의확률이 0.000이하이므로유의수준 α = 0.05에서귀무가설을기각한다.따라서적어도한비료에대한수확량평균이 다르다는것을알수있다. 2 사후검정농작물수확량에대한평균이적어도한집단이다르므로네개의 ( ) 4 집단을두집단씩묶는개수가 = 6개이므로이것들에대하여두집단 2 의평균비교를한다. 귀무가설 H 0 : µ i µ j = 0 for all i,j when i j (의미 :두집단의평균은 같다) 대립가설 H 1 : not H 0 (의미 :두집단의평균은같지않다.) 그림 2.4(b)에서사후검정결과비료종류 1, 4와비료종류 3, 4는서로평균이 다르다고할수있다.그림 2.4(b)에서적용한검정방법은등분산을가정하지 않은 경우 Dunnect의 T3을 사용하였다. 3 대비 비료 1,4와비료 2,3그룹으로나눈후두그룹의평균이같다고할수있는 지검정한다. 귀무가설 H 0 : µ 1 +µ 4 = µ 2 +µ 3 (의미 :두그룹의평균은모두같다) 대립가설 H 1 : not H 0 (의미 :두그룹의평균은다르다.) 그림 2.4(c)에서 양쪽 유의확률이 0.000이하(등분산 가정하지 않음) 이므로 유의수준 α = 0.05에서귀무가설을기각한다.따라서비료 1, 4그룹과비료 2, 3그룹의평균은같지않다. 2.2. two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라고 한다. 교호작용은두변수의곱에대한검정으로유의확률이의미있는결과라면두변수 는서로영향을준다고할수있으며수학적으로는두변수는서로독립이아니라 고할수있다.이원배치분산분석의통계학적모델은다음과같다. Y ij = µ+α i +β j +(αβ) ij +ǫ ijk 데이터가조건에맞는지알아보기위하여오차분산의동일성검정을한다. 21
가설설정 귀무가설 H 0 : V(ǫ) = σ 2 (의미 :오차분산은 σ 2 이다.) 대립가설 H 1 : not H 0 (의미 :오차분산은 σ 2 이아니다.) 등분산성검정결과유의확률이 0.05보다작으면위의모델을사용하여분석 할수없다. (a)변수 설정 (b)모형 설정 (c)사후 분석 (d)옵션 그림 2.5:이원배치분산분석설정 이원배치 분산분석은 요인의 종류가 모수 효과(fixed effect)와 변량 효과(random effect)인경우에따라계산의차이가있다. 모수요인(fixed effect) : 인자의수준이고정되어있는경우로그예로는인 종,부모교육수준,성별,학년변수등이있다. 22
변량요인(random effect) :인자의수준이임의로된경우로그예로는수요 일과토요일에만자료를얻었을때요일변수,춘천시 10개고등학교중3개 학교의학생점수를얻었을때변수등이변량요인이다. 이원배치 분산분석에서 두요인이모두모수요인인경우 두요인이모두변량요인인경우 한요인은모수요인한요인은변량요인인경우 자료분석자가 적절하게 분석방법을 설정한다. SPSS에서 이원배치분산분석은 (a)분산분석표 (b)분산의 동질성 검정 (c) 사후분석1 (d) 사후분석2 그림 2.6:이원배치분산분석출력결과 1. 분석 일반선형모형 일변량메뉴를선택 23
2. 분석에교호작용은그림 2.5(a)에서모형버튼을클릭한후그림 2.5(b)의 요인 및 공변량에서두변수를선택하고추가버튼을누르면모형에추가된 다. 3. 사후분석은 일원배치 분산분석과 유사하게 그림 2.5(c) 창에 검사후검정변수에 변수를추가한후사후검정방법을선택한다. 4. 기술통계량,동일성 검정등은그림 2.5(a)에서옵션버튼을클릭한후그림 2.5(d) 창에서 통계량이나 그림을 선택한다. 분석방법은이원배치분산분석결과두변수간교호작용이있는지우선판단하고 그결과에따라각요인에대한평균이다른지검정한다.만일교호작용이의미있 는결과를얻었다면각요인의평균비교결과가유의한결과가나타났다고하더라 도두변수가서로독립이아니므로각요인에대한평균비교는의미가없다. 그림 2.5에이원배치분산분석의출력결과를일부분나타내었다. 그림 2.6(a)에교호작용을포함한분산분석결과를보여주고있다.여기서제 곱합은 Type III이며,분석결과교호작용이유의한것으로나타났다. 그림 2.6(b)에각그룹마다오차분산에대한동질성검정결과로유의확률이 0.221로귀무가설 H 0 : V(ǫ) = σ 2 를기각하지못하므로각요인의집단간오 차분산은같다고할수있다. 그림 2.6(c)에유리강도요인에대한 Turkey, Scheffe, LSD등세가지분석에 대한평균차,유의확률,신뢰구간의정보가출력되며,그림 2.6(d)에사후분 석결과에대한동일집단군표시에대한결과를보여준다. 24
제 3장 공분산분석(ANCOVA; ANalysis of COVAriance) 실험에서얻어지는다변량자료들은연속형자료와이산형자료들이혼합되어있 는경우가대다수이다.이때성격이다른자료들을일반선형모델(generalized linear modeling)로 분석할 경우 공분산분석(ANCOVA, ANalysis of COVAriance)이라고 한다.즉독립변수들이이산형,연속형변수이고종속변수가연속형자료인경우에 해당된다. 공분산분석은 분산분석모형 에 공변량(covariate)을 추가하면 이되며각추정량들은 ˆµ = y ˆτ i = y i. y ˆβ(x i. x) ˆβ = Sxy S xx y ij = µ+τ i +ǫ ij, ˆµ = y, ˆτ i = y i. y (3.1) y ij = µ+τ i +β(x ij x)+ǫ ij (3.2) 이다.이렇게분산분석모형에회귀분석모형을추가하면모델의설명력이높아지 기때문에오차를줄이면서추정의정밀도를높이게된다. 공분산분석에추가되는연속변수공변량은종속변수에영향을주며,종속변수 의값과함께관측되지만실험자가그값을마음대로조절하지못하는변수이다. 25
그러나랜덤화블록설계에서는실험자가임의로블록요인의수준을조정하는것 이가능하였다.따라서공분산분석의핵심은종속변수의값에영향을미치는공변 량의 영향을 보정(adjust)하는데 있다. 나병환자의치료법을연구하기위하여 A, D두항생제의효과를비교하려고한 다.실험에참여하는나병환자를랜덤하게 30명을뽑은후10명에게는항생제 A, 10명에게는항생제 D,나머지 10명대조군에게는생리식염수를투여하고그경과 를관찰하였다.일정기간치료한후환자의몸에서나병간균(leprosy bacilli)을측정 한결과가표3.1에있다.이자료를일원배치분산분석(one way ANOVA)방법으로 항생제 A 항생제 B 대조군 F 6 0 13 0 2 10 2 3 18 8 1 5 11 18 23 4 4 12 13 14 5 1 9 16 8 1 1 0 9 20 표 3.1:나병간균환자 분석한결과가그림 3.1에있다.그림 3.1(a)의분산분석표에서유의확률이 0.03으 (a) 분산분석표 (b) 그룹간 다중비교 그림 3.1:일원배치분산분석 로귀무가설 세집단의평균은모두같다 를기각한다.그러면어느집단의평균 26
sequential sum of squares SSR SSR(β 1,β 2,β 3 β 0 ) SSR(β 1 β 0 ) SSR(β 2 β 0,β 1 ) SSR(β 3 β 0,β 1,β 2 ) SSE SSE(β 0,β 1,β 2,β 3 ) 표 3.2:순차제곱합 이다른지그림 3.1(b)에다중비교한결과유의수준 5%에서항생제 A와대조군 F, 항생제 D와대조군 F의평균이다른것으로분석되었다. 표 3.4에는표3.1의자료에치료전환자의나병간균자료가추가되어있다.환 자의세균수는치료전의세균수에많은영향을줄수있기때문에치료전세균수 를공변량(covariate)에포함시키는것이바람직할것이다.따라서독립변수가이 산형,연속형자료가모두포함되기때문에공분산분석을실시하면더명확한분 석이진행될것이다. 공분산분석에서관심있는요인의수준간효과차이에대한검정은귀무가설H 0 : τ 1 = τ 2 = = τ i = 0에대한가설검정으로이것을기각하면요인수준간효과차 이가있다고할수있다.공분산분석이나분산분석,회귀분석모두일반선형모델 이다.일반선형모델에서변수를선택할때모델을설명하는제곱합으로그방법은 네종류가있다.세가지변수에대하여일반선형모델을설정한후제곱합에대하 여알아보자.세변수에대한일반선형모델은 Y i = β 0 +β 1 X i1 +β 2 X i2 +β 3 X i3 +ǫ i (3.3) 이며이식으로제곱합을알아보자. Type I(sequential) Sums of Squares : 순차제곱합으로 부르기도 한다. 추가되 는변수에따라제곱합이증가하며추가되는변수의순서에따라제곱합이 다르다.식3.3의순차제곱합은표3.2에나타내었다. Type II Sums of Squares :완전모형(full model)에서변수를제거할때감소 하는 제곱합이다. Type III(partial) Sums of Squares :부분제곱합이다.변수가 p개일때p 1개 의독립변수가이미추가되어있고나머지한변수가추가될때증가되는제 곱합이다.식3.3의부분제곱합은표3.3에나타내었다. 27
partial sum of squares H 0 SSR(β 1 β 0,β 2,β 3 ) β 1 = 0 SSR(β 2 β 0,β 1,β 3 ) β 2 = 0 SSR(β 3 β 0,β 1,β 2 ) β 3 = 0 SSE(β 0,β 1,β 2,β 3 ) 표 3.3:부분제곱합 Type IV Sums of Squares : 결측값이없는경우 Type III(partial) Sums of Squares와 같다. 일반선형모델에서특이사항으로각변동의제곱합을모두합하더라도그합이 총제곱합이되지않는제곱합이있는것을위에서확인하였다.즉SST SSR+ SSE인제곱합의종류가존재한다.공분산분석도일반선형모델에속하기때문에 총제곱합이회귀제곱합과오차제곱합의합과같지않는제곱합이있다.공분산 분석에서는범주형자료의제곱합및오차제곱합이연속형자료인공변량에대 하여보정되었기때문이다.따라서요인간효과가있을때사후검정을실시하는 경우각처리집단의평균은보정한자료를가지고비교하게된다.보정된처리평 균(y i.(adj) )은 y i.(adj) = y i. ˆβ(x i. x) (3.4) 으로 정의하여 계산한다. 공분산분석을실시하려면다음과같이몇가지조건이만족되어야한다. 종속변수와공변량사이에는선형회귀관계가있어야한다.공변량이회귀관 계가존재하지않다면회귀분석으로제거할수있는변동이없으므로이때는 분산분석의결과와별로다른결과가없을뿐만아니라오차의자유도만소 모되어검출력이오히려나빠질수있다.따라서귀무가설 H 0 : β = 0을기각 해야한다. 종속변수와공변량사이의회귀계수가처리집단간동일해야한다.공분산분 석을 올바로 수행하려면 기울기의 동질성(homogeneity of slopes)이 보장되어 야하고귀무가설 H 0 : β 1 = β 2 = = β t = β를검정하여귀무가설을기 각한다면공분산분석의의미가줄어든다.즉각처리집단마다기울기가모두 같아야보정된처리효과의평균을사용할수있다.종속변수의각그룹마다 기울기의동질성검정은독립변수와공변량의교호작용이유의성검정으로 28
한다.교호작용이통계적으로유의하지않으면종속변수의집단마다각기울 기가모두같은것을의미한다.따라서교호작용이존재하지않으면공분산 분석을실시할수있다. 표 3.4자료로공분산분석을실행해보자.치료후자료나병환자의세균수(y) 항생제를투여한두집단과대조군한집단모두세집단의평균이차이가있는지 치료전 세균수(x)를 통제하여 분석하자. 항생제 A 항생제 B 대조군 F 치료전 치료후 치료전 치료후 치료전 치료후 11 6 6 0 16 13 8 0 6 2 13 10 5 2 7 3 11 18 14 8 8 1 9 5 19 11 18 18 21 23 6 4 8 4 16 12 10 13 19 14 12 5 6 1 8 9 12 16 11 8 5 1 7 1 3 0 15 9 12 20 표 3.4:나병간균환자 표 3.4자료가공분산분석을실시하여도적합한지알아보자.먼저교호작용변 수를포함한공분산분석을시행한후출력결과를보고판단한다. SPSS에서공분 산분석은 1. 분석 일반선형모형 일변량메뉴를선택 2. 일변량 분석창에서종속변수에치료후변수,모수요인에항생제변수,공변량에 치료전 변수를 추가(그림 3.2(a)) 3. 모형버튼클릭후일변량 : 모형창에서사용자정의선택하고항생제변 수,치료전변수,두변수의교호작용인항생제*치료전을모형에추가하며, 제곱합의 종류와 절편을 포함시킬지 결정(그림 3.2(b)) 4. 옵션버튼클릭후일변량 : 옵션창에서표시할변수에대한통계량이나 검정방법을 선택(그림 3.2(c)) 29
5. 출력결과 :그림 3.2(d),그림 3.2(e) 출력결과일부분 (a)일변량 분석 (b)일변량 : 모형(교호작용추가) (c)일변량 : 옵션 (d)통계량 (e) 분산분석표 공분산분석 출력결과를 살펴보자. 그림 3.2:공분산분석과정1 30
그림 3.2(e)에서 교호작용 항생제*치료전 변수의 유의확률이 0.551로 통계적 으로유의하지않기때문에독립변수항생제변수의각그룹마다기울기가 같다고할수있다.따라서교호작용변수는분석에서제외하고나머지변수 들로다시분석한다. 참고로교호작용변수에대한검정결과유의하였다면독립변수의각그룹 별회귀식이서로교차하는것을의미하고유의하지않은것은각그룹별회 귀식이서로평행한것을의미한다.독립변수와공변량의교호작용에대한 귀무가설은 H 0 : (αβ) ij = 0이다. 그림 3.2(e)에서공변량치료전변수에대한유의확률이 0.000으로매우유 의하므로회귀계수는 0이아니라고할수있다.공변량의회귀계수에대한 귀무가설은 H 0 : β = 0이다. 따라서표3.4자료가공분산분석에적합하다고할있다.그러면독립변수와공변 량의교호작용를분석에서제외하고다음과같이다시분석해보자. 1. 분석 일반선형모형 일변량메뉴를선택 2. 일변량 분석창에서종속변수에치료후변수,모수요인에항생제변수,공변량에 치료전 변수를 추가(그림 3.2(a)) 3. 모형버튼클릭후일변량 : 모형창에서사용자정의선택하고항생제변 수,치료전변수는모형에추가하고,두변수의교호작용인항생제*치료전는 모형에서 제외(그림 3.3(b)) 4. 옵션버튼클릭후일변량 : 옵션창에서표시할변수에대한통계량이나 검정방법을 선택(그림 3.3(b)) 5. 출력결과 :그림 3.3(c),그림 3.3(d),그림 3.3(f),그림 3.3(g),그림 3.3(h) 출 력결과 일부분 다시분석한결과항생제종류에대한유의확률이 0.138(그림 3.3(c))로항생제 종류에따라나병세균수가다르다고할만한통계적근거가없으며,회귀계수에대 한 검정에서는 유의확률이 0.000(그림 3.3(c))으로 계수가 통계적으로 매우 의미가 있으므로공분산분석에사용하는것이적합하다고판정할수있다. 식 3.4로보정된처리집단의평균(adjusted treatment mean; y i.(adj) )은 y 1.(adj) = 5.30 (0.987)(9.30 10.73) = 6.715 31
(a)일변량 : 모형 (b)일변량 : 옵션 (c)분산분석표 (d)모수 추정 (e)치료전 통계량 (f)치료후 통계량 (g)보정 평균 (h)사후 분석 그림 3.3:공분산분석과정2 32
y 2.(adj) = 6.10 (0.987)(10.00 10.73) = 6.284 y 3.(adj) = 12.30 (0.987)(12.90 10.73) = 10.161 로계산된다.여기서y i. 는그림3.3(f), ˆβ은그림3.3(d)의분석결과에계산된값이다. 또한 x i. 와 x는 SPSS에서분석 평균비교 일원배치분산분석메뉴를실행하고 요인분석에항생제,종속변수에치료전을입력한후옵션버튼을눌러기술통계를 선택하고실행하여구하였으며그결과는그림 3.3(e)에있다. 항생제별나병환자의세균수가차이가있는지검정한결과 일원배치분산분석결과 항생제를 사용한 환자군과 항생제를 사용하지 않은 환자군이 차이가 있는 것으로 분석되었으나(그림 3.1(a)) 공분산분석을실시하여공변량(치료전나병환자균)을모델에포함하여분석 한결과나병환자의균수는통계적으로차이가없는것으로분석되었다(그 림 3.3(c)). 33
제 4장 반복측정 분산분석(repeated measures anova) 반복측정자료는동일한개체가통제된실험에참여하여여러번자료를관찰한것 이다.이자료는변수들이서로독립이아니기때문에일원배치에서서로독립적 으로시행된결과와분석방법이약간다르다.반복측정도분산분석이므로정규성, 독립성,등분산성등몇가지가정이있다.그중에서구형성가정에대하여알아보 자. 구형성(sphericity)이란 분산분석에서 분산의 동일성(homogeneity of variance)과 같은것으로만일구형성가정이위배된다면검정력을잃어서 F 검정으로분석 을실행할수없다. SPSS에서구형성검정은 Mauchly s test를사용하며통제된상 태에서관찰한자료이므로각시행에서각변수의차이에대한분산의동일성검 정법이다. 구형성 검정에서 귀무가설 H 0 : σ 2 y 1 y 2 = σ 2 y 1 y 3 = = σ 2 y k 1 y k 대립가설 H 1 : not H 0 로가설을설정할수있으며각변수의차이에대한개수는 k(k 1)/2개이다. 구형성검정결과유의확률이 0.05보다작으면구형성을보장할수없으므로 이런경우에는자유도를보정하여다시분석해야한다. SPSS에서자유도보정은 epsilon(ǫ)으로출력되며 ǫ > 0.75인경우는 Hyunh Feldt correction그이외의경 우는 Greenhouse Geisser corrected value를 이용하여 검정한다. 위에서설명한반복측정자료에대한분석방법을요약하면다음과같다 1. 1 Andy Field(2009)[1]가제안 35
구형성이보장되는경우 :구형성에대한검정결과유의확률이 0.05보다크면 반복측정자료 검정 구형성이보장되지않고 ǫ > 0.75인경우 : Hyunh Feldt correction로반복측 정자료검정 구형성이보장되지않고 ǫ <= 0.75인경우 : Greenhouse Geisser corrected value로 반복측정자료 검정 분석결과귀무가설을기각하였다면어느집단차이가유의한지사후검정으로 알아본다.만일귀무가설을기각하지못한상태에서사후검정을시행하더라도유 의한집단차이를보이는것들이있을수도있으나주효과에서기각하지못하였 다면결과를무시해도된다. 또한반복측정자료가어떤요인에대한차이가있는지검정하는방법은다변량 ANOVA로분석할수있으며다음과같이여러가지검정방법이있다. Pillai s Trace Wilks Lambda Hotelling s Trace Roy s Largest Root 4.1. one way repeated measures 단일변량반복측정분산분석에대하여알아보자.다음자료는 22명에게세가지 서로다른종류의음악을같은순서로들려주고음악에따른표정의미세한변화 를알아보기위한실험(Vasey and Thayer(1987))에서얻은자료이다.이실험에서 편안한음악(1),경쾌한음악(2),격렬한음악(3)을순서대로들려주고각단계에 서 mean electromyographic(emg) amplitude(단위: µv; 근전도)를 왼쪽 눈섭부근 에서측정하였다.각각의음악은 90초간들려주었다.음악간의차이에대하여알 아보자. 표 4.1를이용하여반복측정자료에대한분석을실행해보자.실행과정은 1. SPSS에서분석 일반선형모형 반복측정메뉴를선택 2 2. 요인의 수준 수를 설정(그림 4.1(a)) 2 이메뉴는 SPSS를 basic로설치한경우에는없고 advanced로설치해야사용할수있다. 36
음악 1 2 3 4 5 6 7 8 9 10 11 1 143 142 109 123 276 235 208 267 183 245 324 2 368 155 167 135 216 368 175 358 193 268 507 3 345 161 356 137 232 398 207 698 631 572 556 음악 12 13 14 15 16 17 18 19 20 21 22 1 148 130 119 102 279 244 196 279 167 345 524 2 378 142 171 94 204 365 168 358 183 238 507 3 342 150 333 93 229 382 199 822 731 572 520 표 4.1:근전도자료 (a)요인의수준수설정 (b)설명변수설정 (c)사후분석 그림 4.1:반복측정분석과정 3. 반복측정에서 설명변수 설정(그림 4.1(b)) 4. 사후분석(그림 4.1(c)) 그림 4.2,그림 4.3,그림 4.4에일변량반복측정출력결과가있다. 그림 4.2에반복측정에대한다변량검정결과유의확률이매우의미있는결 과가나왔으므로각변수차에대하여서로다르다고할수있다. 그림 4.2에구형성검정결과유의확률이 0.002로매우유의하므로구형성을 가정할 수 없다. 따라서 자유도를 보정한 Greenhouse Geisser 또는 Huynh Feldt로 검정해야 한다. 37
그림 4.3에 엡실론이 Huynh Feldt인 경우 0.716으로 0.75보다 작으므로 변수 차이에대한검정은 Greenhouse Geisser로하는것이적합하다고할수있다. Greenhouse Geisser에서 유의확률이 0.0009이하이므로 변수간 차이가 있다 고할수있다. 그림 4.3에대비에대한검정결과선형모형에대한유의확률이 0.0009이하이 므로선형모형이라고할수있고, 2차선형모형은유의확률이 0.069로유의하 지않으므로 2차선형모델을따른다고할수없다. 그림 4.4에사후분석결과 1과 3, 2과 3변수차이가유의한결과를보였으며 1과 2변수차이는유의하지않았다. 그림 4.2:다변량과구형성 그림 4.3:개체내효과와대비검정 38
그림 4.4:사후검정 4.2. two way repeated measures 2개의 요인에 대하여 반복측정한 경우를 이원배치 반복측정(two way repeated measures)이라고 한다. SPSS 메뉴 사용법은 단일요인 반복측정과 동일하다. 다 음자료는 30명에게 3가지연령대(10, 15, 20)에학교생활과직업에대한관심도를 조사하였다.나이는 10세, 15세, 20세로구분하여학교생활관심도와직업관심도 를측정하였다. s10 s15 s20 w10 w15 w20 5 5 3 1 3 5 5 5 3 1 3 5 4 3 1 1 2 4 4 5 4 2 2 4 3 5 4 2 3 3 3 1 2 2 2 3 2 1 1 1 3 2 2 1 1 3 5 5 1 2 1 3 5 5 1 3 1 1 2 4 5 5 3 1 2 4 5 5 3 1 2 4 39
5 4 2 2 2 3 5 4 2 2 2 3 5 5 3 2 2 3 4 5 4 1 3 4 4 5 5 1 3 3 4 5 5 1 3 1 4 3 4 1 2 1 4 3 1 1 2 3 3 4 1 1 2 3 3 4 1 1 1 3 3 4 2 2 1 4 3 4 3 2 1 4 3 5 2 2 2 5 2 3 2 2 3 5 3 2 1 2 3 5 4 3 2 1 3 5 5 5 3 1 3 4 3 4 2 1 3 4 이원배치반복측정을하려면원자료(raw data)의변수를이용하여새로운변수 를생성하여분석해야한다.그과정은다음과같다.학교생활의수준수도 3,직업 의수준수도 3개이면총9(3 3)개의새로운변수가필요하며 SPSS에서변환 변수계산메뉴에서다음과같은변수를만든다. 10세학교생활관심도, 10세직업관심도 = 10세학교생활변수 + 10세직업 관심도변수 10세학교생활관심도, 15세직업관심도 = 10세학교생활변수 + 15세직업 관심도변수 10세학교생활관심도, 20세직업관심도 = 10세학교생활변수 + 20세직업 관심도변수 15세학교생활관심도, 10세직업관심도 = 15세학교생활변수 + 10세직업 관심도변수 15세학교생활관심도, 15세직업관심도 = 15세학교생활변수 + 15세직업 관심도변수 40
15세학교생활관심도, 20세직업관심도 = 15세학교생활변수 + 20세직업 관심도변수 20세학교생활관심도, 10세직업관심도 = 20세학교생활변수 + 10세직업 관심도변수 20세학교생활관심도, 15세직업관심도 = 20세학교생활변수 + 15세직업 관심도변수 20세학교생활관심도, 20세직업관심도 = 20세학교생활변수 + 20세직업 관심도변수 위에서설정한자료를이용하여 SPSS로이원배치분산분석을실시하자.설정과 (a)요인의수준수설정 (b)설명변수설정 그림 4.5: 반복측정 분석과정(2원배치) 정은 1. 그림 4.5(a)에학교생활관심도의수준수와직업관심도의수준수를설정하 고 2. 그림 4.5(b)에 2원배치분산분석을하기위하여변환한변수 9개를추가하며 나머지과정은일원배치반복측정분산분석과동일하다.출력결과는 41
그림 4.6:다변량과구형성 그림 4.6에다변량검정결과와구형성에대한검정결과 그림 4.7에두반복측정요인에대한개체내효과의검정결과 그림 4.7:개체내효과 그림4.8에반복측정한두요인에대하여사후검정결과가있으며그림4.8(a)에 school요인에대한사후검정결과가그림 4.8(b)에 work요인에대한검정결 과가있다. 다른 2원배치반복측정에대한통계적모델을소개하면한요인은반복측정한요 인이고다른한요인은반복측정하지않은요인이다.이런경우에는그림 4.5(b)에 42
(a) 사후검정(school) (b) 사후검정(work) 그림 4.8:사후검정결과 개체 내변수에반복측정한변수를추가하고 개체 간변수에반복측정하지않은변수를 추가한다. 2원배치분산분석에대한 SPSS출력결과는 개체 내변수에대한검정결과와 개체 간변수에대한검정결과를 모두확인할수있다.다음자료는 27마리쥐의체중을실험시작시(wt0)부터일주 일마다 4주간측정하였으며쥐를 3개의그룹으로나누었는데 첫번째그룹은대조군 두번째그룹은 thiouracil을마실물에첨가 세번째그룹은 thyroxin을마실물에첨가하였다 이자료는다음과같다. group mouse wt0 wt1 wt2 wt3 wt4 1 1 57 86 114 139 172 1 2 60 93 123 146 177 1 3 52 77 111 144 185 1 4 49 67 100 129 164 43
1 5 56 81 104 121 151 1 6 46 70 102 131 153 1 7 51 71 94 110 141 1 8 63 91 112 130 154 1 9 49 67 90 112 140 1 10 57 82 110 139 169 2 1 61 86 109 120 129 2 2 59 80 101 111 122 2 3 53 79 100 106 133 2 4 59 88 100 111 122 2 5 51 75 101 123 140 2 6 51 75 92 100 119 2 7 56 78 95 103 108 2 8 58 69 93 114 138 2 9 46 61 78 90 107 2 10 53 72 89 104 122 3 1 59 85 121 146 181 3 2 54 71 90 110 138 3 3 56 75 108 151 189 3 4 59 85 116 146 177 3 5 57 72 97 120 144 3 6 52 76 97 116 140 3 7 52 70 105 138 171 44
제 5장 회귀분석(regression analysis) 회귀분석은한개이상의독립변수와한개의종속변수의관계를분석하는방법이 다.회귀분석모델중단순선형회귀는종속변수와독립변수가모두한개인경우 이고다중선형회귀는여러개의독립변수와한개의종속변수인것이다.이장에 서는회귀분석과정및회귀분석모델에대한성능평가,진단등을소개한다. 1. 모형의성능평가방법중많이알려진것으로결정계수(coefficient of determination) R 2 과수정된(adjusted coefficient of determination) R 2 이있으며,수 정된결정계수(adj R 2 )를사용하기를권장한다.결정계수는 0 1사이의값 을가지며모델의성능을나타낸다.만일수정된결정계수가 0.750이었다면 이선형회귀모델은자료를 75%설명한다고할수있다(설정은그림 5.1(b), 결과는그림 5.3에서확인). 2. 분산분석 :모든변수를분석에사용한경우 full모델이라고하고이때모든 변수의최소제곱추정치 β에대한가설검정 1 귀무가설 H 0 : β 1 = β 2 = = β p = 0 대립가설 H 1 : not H 0 (의미 : p개회귀계수는적어도 1개는 0이다.) 2 SPSS로통계적모델에대하여출력결과를얻는다. 3 연구자는 SPSS출력결과에서유의확률을확인하여귀무가설(H 0 )의기 각,채택여부를결정하고,그결과를해석한다. 예를들어연구자가유의수준을 α = 0.05로설정하고 SPSS출력결과 유의확률이 0.007이라면귀무가설을기각하므로계수중적어도한개 는 0이아니라고할수있다. 45
3. 계수 :각계수마다별도로유의한지검정하는방법(별도설정없으며그림 5.3에서 확인) 1 귀무가설 H 0 : β 0 = 0 대립가설 H 1 : β 0 0(상수계수값은 0이아니다.) 귀무가설 H 0 : β 1 = 0 대립가설 H 1 : β 1 0(소득변수의계수값은 0이아니다.) 귀무가설 H 0 : β 2 = 0 대립가설 H 1 : β 2 0(자녀수변수의계수값은 0이아니다.) 2 SPSS로통계적모델에대하여출력결과를얻는다. 3 연구자는 SPSS출력결과에서유의확률을확인하여귀무가설(H 0 )의기 각,채택여부를결정하고,그결과를해석한다. 예를들어연구자가유의수준을 α = 0.05로설정하고 SPSS출력결과각 변수의계수값에대한유의확률이각각 0.069, 0.376, 0.042이라면첫번 째상수와세번째자녀수변수는귀무가설을기각하지못하고두번째 소득변수의계수는귀무가설을기각할수있다. 4. 유의한 설명변수의 선택 : 모든 가능한 회귀(all possible regression), 앞으로부 터 선택(forward selection), 뒤로부터 제거(backward elimination), 단계적 회 귀(stepwise regression)이 있다. 모든 가능한 회귀 : p개의독립변수중에서일부를포함하는모든가능 한회귀모형을얻어서이중가장적절한회귀모형선택(그림 5.1(a)에 서입력선택) 앞으로부터 선택 :가장유의한독립변수부터하나씩추가하는방법(그 림 5.1(a)에서전진선택) 뒤로부터 제거 :모두유의하다고생각되는독립변수를모형에추가한 다음유의하지않은독립변수를하나씩제거(그림 5.1(a)에서후진선 택) 단계적 회귀 :앞으로부터선택과뒤로부터제거를번갈아가면서변수 를선택(그림 5.1(a)에서단계 선택) 5. 다중공선성(multicolinearity)은 다중회귀분석에서 독립변수들 사이의 상 관관계가높을경우회귀계수 β i 의추정치분산이커쳐서추정량의밀도가떨 46
어지게 된다. 다중공선성에 대한 척도로 VIF(variance inflation factor)가 있 으며 1 VIF k = 1 Rk 2 로계산한다. Rk 2은 x k를종속변수로 x 1,x 2,...,x k 1,x k+1,...,x p 를종속변수로 계산한결정계수이다. VIF가 10이상이면다중공선성을의심하고, 10미만이 면 다중공선성이 없다고 판단한다(그림 5.1(b)에서 공선성진단 선택). 6. 회귀분석에서 이상치(outlier)은 회귀모형에 적합하였을 때 지나치게 모형을 벗어나는것을말하고영향치(influential data)는회귀계수 β나표준편차 σ 영향을 주는 것이다(그림 5.2). 스트던트화 잔차(studentized residual) : 이상치 판별에 사용하며 r i = e i MSE (i) (1 h ii ) 로 MSE (i) 는 MSE에서 i번째자료를제외하고계산하였고, h ii 는 H = X(X X) 1 X 의대각원소이다.이값이 r i > t n p 1;α/2이면유의수준 α에서 이상치로 판별한다. DFFITS i (Difference in Standardized Fit)는회귀계수와표준편차에영 향을주는자료를판단하며 DFFITS i = xt i (b b (i) ) h ii MSE (i) 로계산한다.영향력관측치는 DFFITS i > 2 p/n을만족하는값이다. 공분산비율(covariance ratio)은 표준편차에 영향을 주는 관측치를 판단 하며 COVRATIO i = (Xt (i) X (i) ) 1 MSE (i) X t X 1 ) MSE 로계산된다.영향력관측치는 COVRATIO i > 3p/n을만족하는값이 다. DFBETAS j,i (difference in betas)는 i번째자료를제외할때b j(i) 와포함 할때b j 의변화를관찰하며 로계산된다. DFBETAS i = b i b j(i) MSE (i) (X t X) 1 jj 47
(a) 선도표 회귀모형 (b) 통계량 (c)도표 (d)옵션 그림 5.1:회귀분석설정
그림 5.2:회귀분석 저장 49
(a) 전체모델 분석결과 50 (b) 단계선택 분석결과 그림 5.3:회귀분석분석결과
제 6장 범주형자료분석 자료의종류가몇개의범주로나누어진것을범주형자료라고부른다.범주형자 료에는 명목형자료(nominal data) :범주에가중치가없는자료(예 :남자,여자;강 원도,경기도,충청도등) 순위형자료(ordinal data) :범주에가중치가있는자료(예 :상류층,중류층, 하류층; 1급, 2급, 3급등) 이있으며,자료의형태에따라분석방법이다른것들도있다. 6.1. 적합도 검정(goodness of fit test) 이검정법은통계적모델에자료가적합한지 Pearson χ 2 검정한다.이경우각셀 의값,즉각해당범주의값이 5이상되어야근사확률이정확한확률에근접하며 그렇지않은경우에는유의확률에대한보장이어렵다. 1 귀무가설 H 0 : goodness of fit of a probability model (의미 : k개범주의비율 은 p 1 = p 10,p 2 = p 20,...,p k = p k0 이다.) 대립가설 H 1 : not H 0 (의미 : k개범주의비율은 p 1 = p 10,p 2 = p 20,...,p k = p k0 가아니다.) 사례 : 6.1. (적합도검정)어떤나무의자가수정결과로나올수있는유전 형태가세종류일때생물학에서유전적비율이 1 : 2 : 1로알려져있을때 100개의나무에대하여적합도검정을실시해보자. 51
귀무가설 H 0 : p 1 = 0.25 : p 2 = 0.5 : p 3 = 0.25 (의미 :나무의유전적비율은 1:2:1)이고 대립가설은 H 1 : not H 0 (나무의유전적비율은 1:2:1이아니다.) 2 SPSS로통계적모델에대하여출력결과를얻는다(그림 6.1). 3 연구자는 SPSS출력결과에서유의확률을확인하여귀무가설(H 0 )의기각,채 택여부를결정하고,그결과를해석한다. 사례 : 6.2. (적합도검정결과)연구자가유의수준을 α = 0.05로설정하고 SPSS 출력결과 유의확률이 0.27이라면 유의확률이 0.27이므로귀무가설을기각못하므로나무의자가수정비 율은통계적으로 1:2:1이라고할수있다. 6.2. 독립성검정 독립성 검정(independence test)은 두 집단이 서로 독립인지 검정한다. 1 귀무가설 H 0 : P[i,j] = P[i] P[j] for all i,j (의미 :두변수는서로독립이 다.) 대립가설 H 1 : not H 0 (의미 :두변수는서로독립이아니다.) 사례 : 6.3. (독립성검정)텔레비젼에방송되는오락물에대한사람들의의 견이 성별과 관련있는지 알아보려고 1250명을 임의추출하여 성별(남성, 여성) 과오락물방영(너무많다,적당하다,너무적다)에대한의견을조사하였다. 성별에따른오락불방영에의견은서로연관성이있다고할수있는가? 귀무가설 H 0 : P[i,j] = P[i] P[j] for i = 1,2j = 1,2,3 (의미 :성별에따라 오락물방영에대한의견은서로관련없다.) 대립가설은 H 1 : not H 0 (성별에따라오락물방영에대한의견은서로관련 있다.) 2 SPSS로통계적모델에대하여출력결과를얻는다(그림 6.2). 3 연구자는 SPSS출력결과에서유의확률을확인하여귀무가설(H 0 )의기각,채 택여부를결정하고,그결과를해석한다. 52
(a)적합도 분석 메뉴 (b)가중치 설정 (c)검정변수와 기대값 설정 (d)출력결과 그림 6.1:적합도검정 53
사례 : 6.4. (독립성검정결과)연구자가유의수준을 α = 0.05로설정하고 SPSS 출력결과 유의확률이 0.270(그림 6.2(f))이므로 귀무가설을 기각 못하므로 성별에 따른오락물방영비율은서로독립이다고할수있다. 독립성검정에서두변수의범주가모두두개일때,즉2 2인경우두변수의연 관성(association)의 척도로 승산비(odds ratio)가 있다. 승산(odds)은 어떤 실험에 서성공일확률을 p라할때 odds = p 1 p 이며,승산이주어졌을때성공확률은 p = odds 1+odds 이다.두변수의성공일확률이 p 1, p 2 일때승산비는 p 1 1 p 1 p 2 1 p 2 = odds 1 odds 2 이다.또한두변수에대한상대위험도(relative risk)는 p 1 p 2 = odds ratio 1 p 2 1 p 1 이다.상대위험도는한변수에대하여두범주의성공비율을비교할수있을때는 명확한설명을제시한다.예를들어남자의음주율과여자의음주율이몇배가차 이가있는지알아보려면쉽게계산되며그의미도이해할수있다.그러나이값은 분모값에제약이있기때문에많이사용되지않는다.그예로분모의확률이 0.5라 면분자의최대값이 1이고이값은 1 0.5 = 2를넘을수없는단점이있다. 반면승산비는각승산(성공비율/실패비율)의비율을제시하기때문에직관적 인해석이어려울수있다.그러나승산비 OR은근사적으로평균이 log(or)이고 분산이 σ 2 인정규분포를따른다고알려져있기때문에통계적유의성을평가할수 있다.두그룹의승산이같다면승산비는 1이다.따라서승산비에대한귀무가설 H 0 : odds 1 odds 2 = 1로설정한다. X N(log(OR),σ 2 ) 위 식에 표준오차(standard error)는 근사적으로 1 S.E = + 1 + 1 + 1 n 11 n 12 n 21 n 22 로알려져있다. 54
(a)독립성 검정과 가중치 (b)가중치 설정 (c)행과 열에 변수 입력 (d)카이제곱 통계량 (e)셀에 출력값 설정 (f)출력결과 그림 6.2:독립성검정 55
사례 : 6.5. (오즈비검정)음주율이남녀별연관성이있는지알아려고각성별마 다 100명씩조사한결과남자는 80명이지난주음주하였고여자는 30명이음주하 였다고하자(표 6.1).이때남여별음주가연관성이있는지알아보고만일연관성 이있다면얼마만큼차이가있는지알아보자. 성별 지난주음주여부 음주 금주 합계 남자 80 20 100 여자 30 70 100 합계 110 90 200 표 6.1:승산비 1 귀무가설 H 0 : odds 1 odds 2 = 1 대립가설 H 1 : odds 1 odds 2 1 2 SPSS로통계적모델에대하여출력결과를얻는다(그림 6.3). 승산비설정는독립성검정단계중그림 6.2(d)에서위험도메뉴를선택한 다(그림 6.3). 3 그림 6.3(b)에표6.1자료의출력결과가있으며남자음주율과여자음주율에 대한승산비는 9.333이며이통계량에대한 95%신뢰구간은 (4.870, 17.886)이 다.만일두승산비가통계적으로같다면신뢰구간에 1을포함할것이고같 지않다면 1을포함하지않을것이다. SPSS에서는유의확률을제공하지않 기때문에확인할수없으므로직접구해보면 [ ] 1 P Z log(9.333) 80 + 1 20 + 1 30 + 1 70 = P [Z 6.731] = 8.425 10 12 이며,통계적으로승산비가 1이아니라고할만큼매우큰유의성을가진다. 주어진변수가3개이고 2 2 k인범주형자료에대하여알아보자.이경우는2 2보 다분석할것이 56
(a)승산비 설정 (b)승산비 출력결과 그림 6.3:승산비검정 k개집단별 2 2에대한분할표 k개집단별 2 2에대한독립성검정 k개집단별 2 2에대한승산비검정 전체승산비에대한동질성검정 전체승산비에대한독립성검정 전체공통승산비에검정 이다.다음예를보자. 사례 : 6.6. (오즈비검정(2 2 k)) )중국 8개도시를대상으로흡연과폐암에대 한자료이다.이분석에변수설정은그림 6.4(a),통계량설정은그림 6.4(b)를참 조한다. 각도시별 2 2에대한분할표(그림 6.4(c)) 각도시도시별 2 2에대한독립성검정(그림 6.4(d)) 각도시별 2 2에대한승산비검정(그림 6.4(e)) 전체승산비에대한동질성검정(그림 6.4(f)) 전체승산비에대한독립성검정(그림 6.4(f)) 전체 공통 승산비에 검정(그림 6.4(f)) 57
(a)각 집단을 레이어에 추가 (b)통계량 설정 (c)분할표 출력 (d)각 집단의 카이제곱 통계량 (e)각 집단의 승산비 (f)레이어 전 대상의 통계량 그림 6.4: 승산비 검정(2 2 k) 58
6.3. 동일성검정 동일성 검정(homogeneity test)은 반응변수 집단의 범주에 대하여 모집단을 부그 룹(subgroup)로나눈경우부그룹의비율이모두같은지검정한다. 1 귀무가설 H 0 : P A1 = P B1,...,P Ak = P Bk (의미 : k개반응변수마다부그 룹(A, B)의비율은모두같다.) 대립가설 H 1 : not H 0 (의미 : k개반응변수마다부그룹(a, B)의비율은같지 않다.) 사례 : 6.7. (동일성검정)두가지식이요법을비교하기위하여 150명환자 를임의로두집단으로 80명과 70명으로나눈후한집단에는식이요법 A를 다른집단에는식이요법 B를적용한후건강상태를세가지범주(좋음,보통, 않좋음)로나누었을때환자의건강상태에따른식이요법비율이같은지검 정해보자. 귀무가설 H 0 : P A1 = P B1,P A2 = P B2,P A3 = P B3 (의미 :환자의건강상태에 따른식이요법비율은모두같다.) 대립가설은 H 1 : not H 0 (환자의건강상태의마다식이요법비율은모두같지 않다.) 2 SPSS로통계적모델에대하여출력결과를얻는다(출력과정은독립성검정 과같음). 3 연구자는 SPSS출력결과에서유의확률을확인하여귀무가설(H 0 )의기각,채 택여부를결정하고,그결과를해석한다. 사례 : 6.8. (동일성검정결과)연구자가유의수준을 α = 0.05로설정하고 SPSS 출력결과 유의확률이 0.16이라면 유의확률이 0.16이므로 귀무가설을 기각 못하므로 통계적으로 환자의 건강상태의범주비율은식이요법마다모두같다고할수있다. 6.4. likelihood ratio test 우도비검정(likelihood ratio test)은귀무가설 H 0 와대립가설 H 1 의두모델의적 합성을비교하는통계적가설검정법으로범주형자료에서도당연히적합도를검정 59
할수있다.통계적모델에대한적합성을검정하기위한검정통계량을 deviance라 고하며이값은 ( ) LH0 D = 2log L max 로나타낸다.여기서 L은우도함수( 尤 度 函 數, likelihood function)이며통계량은 χ 2 (df)분포를따른다.우도(likelihood)란어떤관측값에통계적모형을적용하였 을때실제로관측한자료에대한확률을통계적모수(parameter)의함수로나타낸 것이다. 확률은 확률변수(random variable)의 함수란 점이 우도와의 차이점이다. 우도함수는모수추정에있어가능한추정치중우도가큰것이더그럴듯한(more likely)추정치란것이다.만일추정이가능한모수의값이 2개일때우도가큰값을 모수의 추정치로 결정한다. 사례 : 6.9. (우도함수) 10명의환자를일정기간동안관찰한결과 4명이사망하 고 6명이생존하였을경우사망확률이동일하고서로독립이라면사망자수의분포 는이항분포를따른다고할수있다. 이경우우도함수 L은 ( 10 4 ) p 4 (1 p) 6 로나타낼수있다.만일사망확률이 0.2와 0.5두가지가가능하단면어떤확률이 더그럴듯한확률인지계산해보자. L(0.2) = 210(0.2) 4 (1 0.2) 6 = 0.0881 L(0.5) = 210(0.5) 4 (1 0.5) 6 = 0.2508 계산결과 L(0.5)가 L(0.1)보다크기때문에미지의모수(사망확률)에더그럴듯한 값이라할수있다. 우도비검정에서상수부분은같은값을모든모수추정에계산하므로실제로 이부분은제외하고대수우도( 對 數 尤 度, log likelihood)를계산하며 l로표시한다. 사례 6.9에서대수우도 l은 l(0.2) = 4log(0.2) +6log(1 0.2) = 7.777 l(0.5) = 4log(0.5) +6log(1 0.5) = 6.931 이며 l(0.5) > l(0.2)이므로 0.5가그렇듯한모수의추정치이다.여기서가설은부모 집단(subgroup)에 대하여 60
1 귀무가설 H 0 : goodness of fit of a probability model (의미 : k개범주의비율 은 p 1 = p 10,p 2 = p 20,...,p k = p k0 이다.) 대립가설 H 1 : not H 0 (의미 : k개범주의비율은 p 1 = p 10,p 2 = p 20,...,p k = p k0 가아니다.) 사례 : 6.10. (우도비검정)표 6.2에우도비를검정할자료로각범주는근 로자의독소노출상태와천식증상이다.독소노출에따라천식증상이연관이 있다고할수있는가? 천식증상 독소노출 없음 보통 강함 없음 9 3 3 있음 1 2 7 표 6.2:우도비검정 2 SPSS로통계적모델에대하여출력결과를얻는다(출력과정은독립성검정 과같음).표6.2에서 L H0 는 이고 L Hmax 는 L(p,p,p) = pq 9 p 2 q 3 p 7 q 3 = p 10 q 15 L(p 1,p 2,p 3 ) = p 1 q 9 1 p2 2 q3 2 p7 3 q3 3 이다.여기서 p 1 = 0.1,p 2 = 0.4,p 3 = 0.7이다.따라서 log( LH0 L max )는 logl H0 logl max = 10logp+15logq (log0.1+9log0.9+2log0.4+3log0.6+7log0.7+3log0.3) = 4.1008 여기서 p = 10 15 25,q = 25 이다.따라서 deviance likelihood χ2 통계량은 χ 2 = 2 ( 4.1008) = 8.2015 이며,이때유의확률은 0.0166이다. SPSS로실행해보면이값이같음을확 인할수있다. 3 유의확률이 0.0166이므로귀무가설을기각한다.따라서천식정도는독소노 출정도에따라다르다고할수있다. SPSS에서분석과정및출력결과는독립 성검정과같으므로생략한다. 61
6.5. linear by linear association 선형대 선형결합(linear by linear association)은 범주형 자료가 순위형(ordinal) 자 료인경우두변수에대한연관성을검정한다.이경우 Pearson χ 2 과는달리셀의 갯수가 5보다작더라도관계없다는면에서유용하게사용할수있다.이분석방법 은로그선형모델에서계수에대한검정으로통계적인모델은 logµ ij = λ+λ X i +λ Y j +βu iv j 이며,각범주는 u 1 u 2 u I, v 1 v 2 v I 이다.분석과정은 1 귀무가설 H 0 : β = 0 (의미 :두범주는서로연관성이없다.) 대립가설 H 1 : β 0 (의미 :두범주는서로연관성이있다.) 사례 : 6.11. (선형대선형결합)표 6.3에 10대여성의출생제한과미성년자 성관계에대한조사결과가있다. 10대여성의출생제한과미성년자성관계가 서로연관성이있는지알아보자. 10대출생제한 매우반대 반대 찬성 매우찬성 미성년자 성관계 항상 잘못됨 81 68 60 38 거의 잘못됨 24 26 29 14 가끔 잘못됨 18 41 74 42 전혀 잘못없음 36 57 161 157 표 6.3:선형대선형결합 2 SPSS로통계적모델에대하여출력결과를얻는다(출력과정은독립성검정 과같음). 3 분석결과유의확률이 0.0005미만이므로귀무가설을기각한다.즉10대여성 의출생제한과미성년자성관계는의견은서로연관성이있다고할수있다. SPSS에서분석과정및출력결과는독립성검정과같으므로생략한다. 62
저서목록 [1] Field, A. P.(2009). Discovering statistics using SPSS:and sex and drug and rock n roll(3rd Edition). London: Sage. [2] Harman, H. H. (1976). Modern Factor Analysis (3rd Ed.). Chicago : University of Chicago Press. (pp. 320-327). 63