External Use SPSS 를이용한분산분석 (ANOVA) 013 년 11 월 13 일 임찬수 0
Table of Contents 1 분산분석과실험계획법 일원배치분산분석 (One-way ANOVA) 3 사후분석 (Post-hoc test) 4 일원배치분산분석의예제 5 HomeWork 1
1 분산분석과실험계획법 분산분석 분산분석 : 평균값을기초로하여여러집단을비교하고, 이들집단간에차이점이있는지가설검정을통해파악하는통계분석기법 분산분석종류에는일원분산분산분석 (One-way ANOVA), 이원분산분산분석 (Two-way ANOVA), 반복측정일원분산분석 (Repeate Measures One-way ANOVA), 반복측정이원분산분석 (Repeated Measures Two-way ANOVA) 가있다. 그리고사후검점 (Post-hoc test) 을위한다중비교 (Multiple comparisons) 가있다. 앞에서우리는두개의모집단의평균을비교하기위한통계적인방법을배웠다. 이제두개의집단이아니라세집단이상의평균비교를해야하는경우가있다. 이런경우에사용하는방법이분산분석이다. 분산분석은실험계획법을위한분석방법으로우리는우선실험계획법에대하여알아보도록하자.
1 분산분석과실험계획법 실험계획법의용어 실험 (Experiment) 실험자의의도가개입 (intervention) 된다는점에서관찰연구 ( 표본조사, 횡단면연구 ) 와는구분된다. 일반적으로실험의목적은한변수의변화 ( 독립변수, 설명변수 ) 가다른한변수 ( 종속변수, 반응변수 ) 에미치는영향과인과관계를연구하는것. 실험계획법의용어 실험단위 (unit, subject) : 실험의대상이무엇인가를말한다. 실험단위가사람일수도있고세포일수도있고, 동물일수도있다. 변수 : 실험대상들이지니는특성 ( 성별, 나이, 키, 몸무게등 ) 이다. 주효과변수 ( 종속변수 ) : 실험의요인의처리에따라변화를가장잘알수있다고생각하는가장중요한변수로서종속변수, 반응변수라고한다. 요인 (factor, 독립변수 ) : 주효과변수에영향을미치는변수. 실험에서의독립변수를요인 (Factor) 라고한다. 처리 : 실험단위에가해지는특정한실험조건, 처리는일반적으로수준 (level) 이라고불린다. 요인은하나이고처리는여러개인경우, 요인은두개이고, 처리는여러개인경우, 요인도여러개, 처리도여러개인경우 3
1 분산분석과실험계획법 실험계획법의용어와고려사항 실험에서의반복 요인에따른처리 ( 즉, level) 에대한실험은반복되어야한다. 각수준 (level) 의반복은동일하면좋다. 만약, 실험을한번만수행한다면각집단또는수준마다하나의값만나오면단한번의실험으로나타난주효과변수의값 ( 종속변수 ) 를비교하는것은의미가없기때문이다. 각집단또는수준 (level) 의반복이같으면균형자료 (balanced data) 라하고같지않으면비균형자료 (unbalanced data) 라한다. 실험이유효하고실험설계 (experimental design) 를잘하기위해서는아래의사항을고려해야한다. 연구목적, 연구가설이무엇인가? 요인및수준의수 ( 처리의수 ) 는몇개로해야할까? 주평가변수 ( 주효과변수 ) 는무엇이며, 다른측정가능한변수는무엇인가? 반복 : replication( 각집단, 또는 level에따른표본수 ) 은어느정도이어야하는가? 무작위배정법 : randomization 실험의순서를랜덤하게선택해야한다는의미 균형화 : blocking 재료의개수, 하루에할수있는실험의횟수, 작업자의수등에제한이있는경우에는전체실험을완전확률화할수없게된다. 이런경우에는실험을부분적으로확률화해야한다. 이때배치, 실험일, 작업자등검출하지않아도되는인자를블록인자로하고모든블록 (block) 안에서실험환경을동질적으로해주어야한다. 4
1 분산분석과실험계획법 실험계획법의요인과수준 요인 (factor) : 주효과변수 ( 관측값 ) 에영향을주는변수이다. 수준 (level) : 요인의여러가지조건 수준 (Level) 요인 (Factor) 치료방법 A B C 혈압 주효과변수 이실험에서주효과변수 ( 관측값 ) 은혈압이다. 연구자는치료방법에따라혈압의차이를보이는지알아보려고실험하였다. 그러므로관측값에영향을주는속성, 즉 요인 은치료방법이다. 또한, 요인인치료방법은 A, B, C의 3가지로나누어지므로수준은 A, B, C이다. 이와같이요인이하나이고, 요인에따른수준의수가여러개인경우를일원배치실험설계라고하며, 수준에따른주효과의변수의차이를보기위한방법이분산분석이다. 5
일원배치분산분석 (one-way ANOVA) 일원배치분산분석 일원배치분산분석은다양한분산분석의기본이된다. 그러므로일원배치분산분석에원리에대해서알아보자. 일원배치분산분석의원리 : 요인 (Factor) 이하나이고, 요인의수준 (level) 이여러개인경우, 독립변수 ( 설명변수 ) 의 수준 (level) 에따른종속변수 ( 반응변수 ) 의차이가있는가를검정하는방법이다. 그룹 1 그룹 그룹 3 그룹 k x 1 x 1 x 1 x 1 x x x x x n x n x n x n x 1, s 1 x, s x x k, sk 3, s 3 일원배치분산분석조건 독립성 : 각집단과집단간은서로독립이어야한다. 정규성 : 각집단은각각정규성을만족해야한다. 등분산성 : 각집단의분산은등분산이어야한다. 6
일원배치분산분석 (one-way ANOVA) 일원배치분산분석 일원배치분산분석절차 집단간의평균차이검정 집단간의차이가있는지확인. 사후검점실시 집단간의차이가있으며, 어느집단과어느집단이차이가나는지확인한다. 요인 ( 수준 i) 관측치 ( 반복 j) 요인별평균 1 x 11, x 1,, x 1m x 1. x 1, x,, x m l x l1, x i,, x lm x. x i. x x i. m j 1 m x ij 수준별평균 x m l j i 1 1 lm x ij 전체평균 7
일원배치분산분석 (one-way ANOVA) 일원배치분산분석 일원배치의모형식 x ij e i ij 여기서 μ i 는요인의각수준의모평균, e ij ~N(0, σ E ) 이고서로독립임을가정 μ i =μ+α i (μ=σμ i /l, α i =μ-μ i ) 여기서, α i 는 i 번째수준의효과 인자의효과 αi 는미지의상수로 Σα i = Σ(μ i - μ) = Σμ i Σμ = lμ lμ = 0 최종적인모형식 x ij e i ij 가설 귀무가설 H 0 : μ 1 = μ = = μ l 대립가설 H 1 : not H 0 8
일원배치분산분석 (one-way ANOVA) 변동의분해 자료의변동분해 합계제곱합 집단간제곱합 ( 집단내제곱합 ) xij x xi. x xij xi. ) xij x xi. x ( ( xij xi. ) 이를 SST=SSA+SSE라표현하며, SST는총제곱합 (sum of squares of total) 으로자료의총변동을의미하며, SSA는처리제곱합 (sum of squares of treatment) 으로인자 A의변동을의미하며, SSE는오차제곱합 (sum of square of error) 로오차변동을의미한다. 자료의변동을요인 A 의변동으로 SST SSA SSE 설명이가능함 요인으로설명이가능, 요인수준별평균이차이가있다고판단. 자료의변동을요인 A 의변동으로 SST SSA SSE 설명이어려움 요인으로설명이불가, 요인수준별평균차이가없다고판단. 9
일원배치분산분석 (one-way ANOVA) F- 검정 앞에서변동분해로통해서요인의영향을찾아볼수있다. 그럼어떻게통계적으로 SSA 와 SSE 의차이를볼수 있을까? 기억이나질모르지만예전수업시간에 F 분포를가지고분산의차이가검정을한다는것을배웠으며, F- 분포를이용한 F- 검정을통해분산차이를확인한다. F SSA/ A SSE / E MSA MSE 여기서 ϕ A =l-1로요인의자유도, ϕ E =lm-1로오차의자유도를의미한다. MSA는평균제곱 (mean square of A) 와 MSE는평균제곱오차 (mean square of error) 라한다. 이를 SST=SSA+SSE라표현하며, SST는총제곱합 (sum of squares of total) 으로자료의총변동을의미하며, SSA는처리제곱합 (sum of squares of treatment) 으로인자 A의변동을의미하며, SSE는오차제곱합 (sum of square of error) 로오차변동을의미한다. F 값이 1 에서점점커진다면 MSA 가더크다는것을의미함. 이는요인 A 의평균의차이가있다고판단할수 있는근거가됨. 10
일원배치분산분석 (one-way ANOVA) 분산분석표 앞장에서본내용으로일원배치분산분석표를작성할수있다. 요인 제곱합 자유도 평균제곱 F-value A SSA l-1{=ϕ A ) MSA(=SSA/ϕ A ) MSA/MES E SSE l(m-1){=ϕ E } MSE(=SSE/ϕ E ) T SST lm-1 F분포의모수는두개의자유도 (d.f) 이다. 여기서 F값을결정하는데각각 MSA, MSE의비를이용하므로각각의자유도 ϕ A, ϕ E 를가지고의사판단한다. 즉, F값이 F(ϕ A, ϕ E, α) 보다크면귀무가설기각, 작으면귀무가설을기각할수없다. 귀무가설을기각하면, 요인 A의수준별로평균의차이가있다고판단하며귀무가설을기각하지못하면, 요인 A의수준별로평균의차이가없다고판단한다. SPSS에서는앞에서배웠던 p-value와유의확률 (α) 와비교하여판단한다. 즉, p-value가유의확률 (α) 보다크면귀무가설을기각하지못하고, p-value가유의확률 (α) 보다작으면귀무가설을기각한다. 11
3 사후분석 (Post-hot test) 사후분석 분산분석을통해집단간의차이가있다고밝혀졌다면, 이제는과연 l개의 level에서어느수준이차이가나는지를알아봐야한다. 이를위해시행하는것이사후검정이라고한다. 분산분석에서귀무가설을기각한다는것은 μ 1, μ,, μ l 중어느하나라도다른것과평균이다르다는것을의미한다. 다른말로하면하나만다른것과달라도이영향으로차이가난다라고말할수있는것이다. 이제각수준별평균이다른경우에어느것과어느것이평균이같다고할수있으며어느것과어느것이다르다고할수있는가? 이를사후분석으로다중비교 (Multiple Comparison) 를시행한다. 그룹 1 그룹 그룹 3 그룹 1 그룹 그룹 4 Mean:15.5 Mean:14.3 Mean:19.6 Mean:15.5 Mean:14.3 Mean:15.4 S.D:.4 S.D:.1 S.D:.7 S.D:.4 S.D:.1 S.D:. 다중비교 그룹 4 Mean:15.4 S.D:. 그룹 5 Mean:18.9 S.D:.5 그룹 3 Mean:19.6 S.D:.7 그룹 5 Mean:18.9 S.D:.5 1
3 사후분석 (Post-hot test) 사후분석의종류 LSD(Fisher s Least Significant Difference) : pairwise( 두수준별평균비교 ) 검정을하는방법으로 3개그룹의평균들을비교할때적절한방법이다. 여러방법중에서가장덜보수적인방법이다.. 즉, 그룹간의평균차이를가장잘찾아내는검정법이다. 실제로평균들간의차이가있는데없다고놓치는경우가거의없기때문에가장 powerful한검정법이라고할수있다. 단점으로는동시검정에적용하는것은무리 Bonferroni s Adjustment : 그룹의수가 k개이라면비교할 pair의수 (k(k-1)/) 가그룹간의 degrees of freedom(d.f) (k- 1) 보다큰경우에사용하는검정법으로사전에관심있는두집단에대한검정에유용하다. 각 cell의크기가다르더라도사용할수있는장점이있다. 단점으로필요이상으로넓은신뢰구간을제시한다. Newman-Keuls 검정법 : 평균치들을낮은것에서큰순서대로등위를지어서비교하는방법이다. 주의할점은높은기준치와비교해오다가처음으로유의하지않는것이나오면그행의비교는거기서멈춰야한다. 그래야큰평균차는유의하지않고낮은평균차는모순이생기지않게된다. Bonferroni의방법과같은경우에사용하는방법으로 Bonferroni의방법보다는덜보수적이고더 powerful하다. Tukey HSD(honestly significant difference) : 모든집단들의표본수가같을때사용하는방법으로한개의기준치를사용하여 1대 1의짝의비교를하는방법이다. 가장보수적인 ( 귀무가설을기각하지않음 ) 방법으로집단간차이를가장정밀하게감지한다. 자연과학, 공학에서많이사용한다. 13
3 사후분석 (Post-hot test) 사후분석의종류 Student-Newman-Keuls(SNK) test : 표본의평균을크기순서에따라다수의범위를이용하여신뢰구간을구하여모집단평균간의차이에대한검정만을할수있는절차이다. Tukey 방법의변형한것으로표만다르다. 즉, 임계치 (critical value) 만차이가있다. 전체적인동질성집단의유무를가리는것에목적 ( 동시검정 ) 을둔경우에사용하는방법이다. Duncan s multiple range test : Tukey방법과매우유사하나수준별표본평균을크기순으로나열하여차이가가장큰것을비교해가면서유의수준을 1-(1-α)r으로조절해가면서검정한다. r은검정단계순서이다. 귀무가설을기각할확률이매우높으며, 전체적인동질성집단의유무를가리는것에목적 ( 동시검정 ) 을둔경우에사용하는방법이다. 사회과학, 심리학, 교육학에서가장많이사용하는방법이다. Seheffe s 검정법 : 집단들의표본수가아니어도사용할수있는방법이며, 대비 (contrast) 까지고려하여모든가능한집합에대하여동시에적용 ( 다중비교 ) 할수있는신뢰구간을제공한다. 단점으로필요이상으로넓은신뢰구간을제시하며, 대단히보수적인방법이다. 사회과학에서많이사용하는방법 Dunnett s test : 처리효과의수준하나가 control( 실험집단 ) 인경우 ( 예 : placebo집단, 교육을하지않는집단, 이전약투여집단 ) 이집단과다른집단들을 pairwise 비교할경우사용된다. Power 가높은순서 : LSD > Duncan > SNK > Tukey > Scheffe 14
4 일원배치분산분석의예제 일원배치분산분석의예제 대학생 Health Data 를통해대학생들의주거형태에따라섭취하는에너지 (kcal) 와단백질 (g) 에차이가있는자 살펴보자 Group 에너지 (Kcal) 단백질 (g) 1: 부모와함께, : 자취, 3: 하숙,4: 기숙사 연속형변수 연속형변수 문제가요인 ( 주거형태 ) 이하나이며, 네가지수준 ( 부모와함께, 자취, 하숙, 기숙사 ) 으로이루어져있다. 요인의수준별평균의차이가있는지살펴보는문제 일원배치분산분석시행. 자료수가 30이상. CLT에의해정규성만족. 실제분산분석에서정규성이만족한다고가정한다. 왜냐하면, 분산분석은실험계획법에기초로만들어진방법으로정규성이만족하게끔실험이설계되었다고가정하기때문이다. 가설설정 : 귀무가설 (H 0 ) : μ1=μ=μ3= μ4( 요인에따른평균차이는없다 ) vs 대립가설 (H 1 ) : not H 0 ( 요인에따른평균차이는있다. 적어도하나이상은다르다 ) 15
4 일원배치분산분석의예제 일원배치분산분석의예제 ( 에너지섭취량 ) 일원배치분산분석 분석-평균비교-일원배치분산분석 차이가있는지알아보고싶은요인을요인으로지정. 평균의차이를볼변수를종속변수로지정. 사후분석과옵션을지정하고마지막에확인을누른다. 사후분석과옵션은다음장에서살펴보자. 16
4 일원배치분산분석의예제 일원배치분산분석의예제 일원배치분산분석옵션지정 사후분석에서는 Tukey 로지정 자연과학이므로 Tukey 로지정. 다른것도가능함 기술통계를지정. 차이가있다면어떤수준이높은지 낮은지를판단. 검정결과 유의확률이 0.05 보다작으므로귀무가설을기각. 즉, 대립가설을채택 요인별수준에따라적어도하나이상의평균은차이가 있는것을알수있다. 어떤차이가있는가? 사후분석 17
4 일원배치분산분석의예제 일원배치분산분석의예제 사후분석 자취와부모와함께, 기숙사는 1이라는그룹에속함. 하나의그룹에속하면평균이같다고생각할수있음. 즉, 자취하는학생, 부모님과함께사는학생, 기숙사에생활학생은일일평균에너지섭취량이같다고할수있음 기숙사, 하숙은 라는그룹에속함. 즉, 기숙사, 하숙하는학생들의일일평균에너지섭취량은같음 그룹 1에속한자취, 부모와함께와그룹에속한하숙은각각다른그룹에있으므로이두그룹은차이가존재. 즉, 하숙의평균칼로리가 3766으로자취하는학생, 부모와함께사는학생들에비해일일평균섭취칼로리가상대적으로많음을알수있음 ( 반대로자취, 부모와함께하는학생들은하숙에비해섭취하는일일평균에너지가상대적으로낮음을의미 ) 기숙사의경우다른주거형태와차이가없음 18
4 일원배치분산분석의예제 일원배치분산분석의예제 ( 단백질 ) 직접실습해볼것 가설은? 분석결과는? 유의확률과유의수준을통한결과는? 하나이상의차이가존재한다면어떤차이가? 19
Homework Homework 대학생 Heath Data 를이용하여다음의질문에대하여가설검정을실시하시오. 가구소득에따라섬유소의섭취량에는차이가있을까?( 유의수준 0.1 에서검정 ) 주거형태에따라지방, 철분의섭취량에는차이가있을까?( 유의수준 0.05 에서확인 ) 0
질의응답 Question & Answer 1