External Use SPSS 를이용한분산분석 (ANOVA) 009 년 11 월 09 일 임찬수 0
Table of Contents 1 분산분석과실험계획법 일원배치분산분석 (One-way ANOVA) 3 사후분석 (Post-hoc test) 4 일원배치분산분석의예제 5 이원배치분산분석 (Two-way ANOVA) 1
Table of Contents 6 일원배치반복측정분산분석 7 이원배치반복측정분산분석 8 사후분석 (Post-hoc test) 9 일원배치분산분석의예제 10 이원배치분산분석과예제
1 분산분석과실험계획법 분산분석 분산분석 : 평균값을기초로하여여러집단을비교하고, 이들집단간에차이점이있는지가설검정을통해파악하는통계분석기법 분산분석종류에는일원분산분산분석 (One-way ANOVA), 이원분산분산분석 (Two-way ANOVA), 반복측정일원분산분석 (Repeate Measures One-way ANOVA), 반족측정이원분산분석 (Repeated Measures Two-way ANOVA) 가있다. 그리고사후검점 (Post-hoc test) 을위한다중비교 (Multiple comparisons) 가있다. 앞에서우리는두개의모집단의평균을비교하기위한통계적인방법을배웠다. 이제두개의집단이아니라세집단이상의평균비교를해야하는경우가있다. 이런경우에사용하는방법이분산분석이다. 분산분석은실험계획법을위한분석방법으로우리는우선실험계획법에대하여알아보도록하자. 3
1 분산분석과실험계획법 실험계획법의용어 실험 (Experiment) 실험자의의도가개입 (intervention) 된다는점에서관찰연구 ( 표본조사, 횡단면연구 ) 와는구분된다. 일반적으로실험의목적은한변수의변화 ( 독립변수, 설명변수 ) 가다른한변수 ( 종속변수, 반응변수 ) 에미치는영향과인과관계를연구하는것. 실험계획법의용어 실험단위 (unit, subject) : 실험의대상이무엇인가를말한다. 실험단위가사람일수도있고세포일수도있고, 동물일수도있다. 변수 : 실험대상들이지니는특성 ( 성별, 나이, 키, 몸무게등 ) 이다. 주효과변수 ( 종속변수 ) : 실험의요인의처리에따라변화를가장잘알수있다고생각하는가장중요한변수로서종속변수, 반응변수라고한다. 요인 (factor, 독립변수 ) : 주효과변수에영향을미치는변수. 실험에서의독립변수를요인 (Factor) 라고한다. 처리 : 실험단위에가해지는특정한실험조건, 처리는일반적으로수준 (level) 이라고불린다. 요인은하나이고처리는여러개인경우, 요인은두개이고, 처리는여러개인경우, 요인도여러개, 처리도여러개인경우 4
1 분산분석과실험계획법 실험계획법의용어와고려사항 실험에서의반복 요인에따른처리 ( 즉, level) 에대한실험은반복되어야한다. 각수준 (level) 의반복은동일하면좋다. 만약, 실험을한번만수행한다면각집단또는수준마다하나의값만나오면단한번의실험으로나타난주효과변수의값 ( 종속변수 ) 를비교하는것은의미가없기때문이다. 각집단또는수준 (level) 의반복이같으면균형자료 (balanced data) 라하고같지않으면비균형자료 (unbalanced data) 라한다. 실험이유효하고실험설계 (experimental design) 를잘하기위해서는아래의사항을고려해야한다. 연구목적, 연구가설이무엇인가? 요인및수준의수 ( 처리의수 ) 는몇개로해야할까? 주평가변수 ( 주효과변수 ) 는무엇이며, 다른측정가능한변수는무엇인가? 반복 : replication( 각집단, 또는 level에따른표본수 ) 은어느정도이어야하는가? 무작위배정법 : randomization 실험의순서를랜덤하게선택해야한다는의미 균형화 : blocking 재료의개수, 하루에할수있는실험의횟수, 작업자의수등에제한이있는경우에는전체실험을완전확률화할수없게된다. 이런경우에는실험을부분적으로확률화해야한다. 이때배치, 실험일, 작업자등검출하지않아도되는인자를블록인자로하고모든블록 (block) 안에서실험환경을동질적으로해주어야한다. 5
1 분산분석과실험계획법 실험계획법의요인과수준 요인 (factor) : 주효과변수 ( 관측값 ) 에영향을주는변수이다. 수준 (level) : 요인의여러가지조건 수준 (Level) 요인 (Factor) 치료방법 A B C 혈압 주효과변수 이실험에서주효과변수 ( 관측값 ) 은혈압이다. 연구자는치료방법에따라혈압의차이를보이는지알아보려고실험하였다. 그러므로관측값에영향을주는속성, 즉 요인 은치료방법이다. 또한, 요인인치료방법은 A, B, C의 3가지로나누어지므로수준은 A, B, C이다. 이와같이요인이하나이고, 요인에따른수준의수가여러개인경우를일원배치실험설계라고하며, 수준에따른주효과의변수의차이를보기위한방법이분산분석이다. 6
일원배치분산분석 (one-way ANOVA) 일원배치분산분석 일원배치분산분석은다양한분산분석의기본이된다. 그러므로일원배치분산분석에원리에대해서알아보자. 일원배치분산분석의원리 : 요인 (Factor) 이하나이고, 요인의수준 (level) 이여러개인경우, 독립변수 ( 설명변수 ) 의 수준 (level) 에따른종속변수 ( 반응변수 ) 의차이가있는가를검정하는방법이다. 그룹 1 그룹 그룹 3 그룹 k x 1 x 1 x 1 x 1 x x x x x n x n x n x n x 1, s 1 x, s x 3, s 3 x k, sk 일원배치분산분석조건 독립성 : 각집단과집단간은서로독립이어야한다. 정규성 : 각집단은각각정규성을만족해야한다. 등분산성 : 각집단의분산은등분산이어야한다. 7
일원배치분산분석 (one-way ANOVA) 일원배치분산분석 일원배치분산분석절차 집단간의평균차이검정 집단간의차이가있는지확인. 사후검점실시 집단간의차이가있으며, 어느집단과어느집단이차이가나는지확인한다. 요인 ( 수준 i) 관측치 ( 반복 j) 요인별평균 1 x 11, x 1,, x 1m x 1. x 1, x,, x m l x l1, x i,, x lm x. x i. x x i. m j 1 m x ij 수준별평균 x m l j i 1 1 lm x ij 전체평균 8
일원배치분산분석 (one-way ANOVA) 일원배치분산분석 일원배치의모형식 x ij e i ij 여기서 μ i 는요인의각수준의모평균, e ij ~N(0, σ E ) 이고서로독립임을가정 μ i =μ+α i (μ=σμ i /l, α i =μ-μ i ) 여기서, α i 는 i 번째수준의효과 인자의효과 αi 는미지의상수로 Σα i = Σ(μ i - μ) = Σμ i Σμ = lμ lμ = 0 최종적인모형식 x ij e i ij 가설 귀무가설 H 0 : μ 1 = μ = = μ l 대립가설 H 1 : not H 0 9
일원배치분산분석 (one-way ANOVA) 변동의분해 자료의변동분해 합계제곱합 집단간제곱합 ( 집단내제곱합 ) xij x xi. x xij xi. ) xij x xi. x ( ( xij xi. ) 이를 SST=SSA+SSE라표현하며, SST는총제곱합 (sum of squares of total) 으로자료의총변동을의미하며, SSA는처리제곱합 (sum of squares of treatment) 으로인자 A의변동을의미하며, SSE는오차제곱합 (sum of square of error) 로오차변동을의미한다. 자료의변동을요인 A 의변동으로 SST SSA SSE 설명이가능함 요인으로설명이가능, 요인수준별평균이차이가있다고판단. 자료의변동을요인 A 의변동으로 SST SSA SSE 설명이어려움 요인으로설명이불가, 요인수준별평균차이가없다고판단. 10
일원배치분산분석 (one-way ANOVA) F- 검정 앞에서변동분해로통해서요인의영향을찾아볼수있다. 그럼어떻게통계적으로 SSA 와 SSE 의차이를볼수 있을까? 기억이나질모르지만예전수업시간에 F 분포를가지고분산의차이가검정을한다는것을배웠으며, F- 분포를이용한 F- 검정을통해분산차이를확인한다. F SSA/ A SSE / E MSA MSE 여기서 ϕ A =l-1로요인의자유도, ϕ E =lm-1로오차의자유도를의미한다. MSA는평균제곱 (mean square of A) 와 MSE는평균제곱오차 (mean square of error) 라한다. 이를 SST=SSA+SSE라표현하며, SST는총제곱합 (sum of squares of total) 으로자료의총변동을의미하며, SSA는처리제곱합 (sum of squares of treatment) 으로인자 A의변동을의미하며, SSE는오차제곱합 (sum of square of error) 로오차변동을의미한다. F 값이 1 에서점점커진다면 MSA 가더크다는것을의미함. 이는요인 A 의평균의차이가있다고판단할수 있는근거가됨. 11
일원배치분산분석 (one-way ANOVA) 분산분석표 앞장에서본내용으로일원배치분산분석표를작성할수있다. 요인 제곱합 자유도 평균제곱 F-value A SSA l-1{=ϕ A ) MSA(=SSA/ϕ A ) MSA/MES E SSE l(m-1){=ϕ E } MSE(=SSE/ϕ E ) T SST lm-1 F분포의모수는두개의자유도 (d.f) 이다. 여기서 F값을결정하는데각각 MSA, MSE의비를이용하므로각각의자유도 ϕ A, ϕ E 를가지고의사판단한다. 즉, F값이 F(ϕ A, ϕ E, α) 보다크면귀무가설기각, 작으면귀무가설을기각할수없다. 귀무가설을기각하면, 요인 A의수준별로평균의차이가있다고판단하며귀무가설을기각하지못하면, 요인 A의수준별로평균의차이가없다고판단한다. SPSS에서는앞에서배웠던 p-value와유의확률 (α) 와비교하여판단한다. 즉, p-value가유의확률 (α) 보다크면귀무가설을기각하지못하고, p-value가유의확률 (α) 보다작으면귀무가설을기각한다. 1
3 사후분석 (Post-hot test) 사후분석 분산분석을통해집단간의차이가있다고밝혀졌다면, 이제는과연 l개의 level에서어느수준이차이가나는지를알아봐야한다. 이를위해시행하는것이사후검정이라고한다. 분산분석에서귀무가설을기각한다는것은 μ 1, μ,, μ l 중어느하나라도다른것과평균이다르다는것을의미한다. 다른말로하면하나만다른것과달라도이영향으로차이가난다라고말할수있는것이다. 이제각수준별평균이다른경우에어느것과어느것이평균이같다고할수있으며어느것과어느것이다르다고할수있는가? 이를사후분석으로다중비교 (Multiple Comparison) 를시행한다. 그룹 1 그룹 그룹 3 그룹 1 그룹 그룹 4 Mean:15.5 Mean:14.3 Mean:19.6 Mean:15.5 Mean:14.3 Mean:15.4 S.D:.4 S.D:.1 S.D:.7 S.D:.4 S.D:.1 S.D:. 다중비교 그룹 4 Mean:15.4 S.D:. 그룹 5 Mean:18.9 S.D:.5 그룹 3 Mean:19.6 S.D:.7 그룹 5 Mean:18.9 S.D:.5 13
3 사후분석 (Post-hot test) 사후분석의종류 LSD(Fisher s Least Significant Difference) : pairwise( 두수준별평균비교 ) 검정을하는방법으로 3개그룹의평균들을비교할때적절한방법이다. 여러방법중에서가장덜보수적인방법이다.. 즉, 그룹간의평균차이를가장잘찾아내는검정법이다. 실제로평균들간의차이가있는데없다고놓치는경우가거의없기때문에가장 powerful한검정법이라고할수있다. 단점으로는동시검정에적용하는것은무리 Bonferroni s Adjustment : 그룹의수가 k개이라면비교할 pair의수 (k(k-1)/) 가그룹간의 degrees of freedom(d.f) (k- 1) 보다큰경우에사용하는검정법으로사전에관심있는두집단에대한검정에유용하다. 각 cell의크기가다르더라도사용할수있는장점이있다. 단점으로필요이상으로넓은신뢰구간을제시한다. Newman-Keuls 검정법 : 평균치들을낮은것에서큰순서대로등위를지어서비교하는방법이다. 주의할점은높은기준치와비교해오다가처음으로유의하지않는것이나오면그행의비교는거기서멈춰야한다. 그래야큰평균차는유의하지않고낮은평균차는모순이생기지않게된다. Bonferroni의방법과같은경우에사용하는방법으로 Bonferroni의방법보다는덜보수적이고더 powerful하다. Tukey HSD(honestly significant difference) : 모든집단들의표본수가같을때사용하는방법으로한개의기준치를사용하여 1대 1의짝의비교를하는방법이다. 가장보수적인 ( 귀무가설을기각하지않음 ) 방법으로집단간차이를가장정밀하게감지한다. 자연과학, 공학에서많이사용한다. 14
3 사후분석 (Post-hot test) 사후분석의종류 Student-Newman-Keuls(SNK) test : 표본의평균을크기순서에따라다수의범위를이용하여신뢰구간을구하여모집단평균간의차이에대한검정만을할수있는절차이다. Tukey 방법의변형한것으로표만다르다. 즉, 임계치 (critical value) 만차이가있다. 전체적인동질성집단의유무를가리는것에목적 ( 동시검정 ) 을둔경우에사용하는방법이다. Duncan s multiple range test : Tukey방법과매우유사하나수준별표본평균을크기순으로나열하여차이가가장큰것을비교해가면서유의수준을 1-(1-α)r으로조절해가면서검정한다. r은검정단계순서이다. 귀무가설을기각할확률이매우높으며, 전체적인동질성집단의유무를가리는것에목적 ( 동시검정 ) 을둔경우에사용하는방법이다. 사회과학, 심리학, 교육학에서가장많이사용하는방법이다. Seheffe s 검정법 : 집단들의표본수가아니어도사용할수있는방법이며, 대비 (contrast) 까지고려하여모든가능한집합에대하여동시에적용 ( 다중비교 ) 할수있는신뢰구간을제공한다. 단점으로필요이상으로넓은신뢰구간을제시하며, 대단히보수적인방법이다. 사회과학에서많이사용하는방법 Dunnett s test : 처리효과의수준하나가 control( 실험집단 ) 인경우 ( 예 : placebo집단, 교육을하지않는집단, 이전약투여집단 ) 이집단과다른집단들을 pairwise 비교할경우사용된다. Power 가높은순서 : LSD > Duncan > SNK > Tukey > Scheffe 15
4 일원배치분산분석의예제 일원배치분산분석의예제 C 의과대학류마티스내과에서증상이비슷한류마티스관절염환자를 3 그룹으로나누어각각 NSAID, DMARDs, Steroid 를처방하고난후 3 개월뒤에환자가느끼는통증을 VAS(Visual Analog Scale) 로측정하였다. 각처방약에따라 통증정도에는차이가있는지유의수준 0.05 에서검정해보자. Group Sex Age pvas 1:NSAID, :DMARDs, 3:Steroid 0: 남자 1: 여자 연속형변수 연속형변수개인 VAS 문제가요인 ( 처방약 ) 이하나이며, 세수준 (NSAID, DMARDs, Steroid) 으로이루어져있다. 요인의수준별평균의차이가있는지살펴보는문제 일원배치분산분석시행. 자료수가 30이상. CLT에의해정규성만족. 실제분산분석에서정규성이만족한다고가정한다. 왜냐하면, 분산분석은실험계획법에기초로만들어진방법으로정규성이만족하게끔실험이설계되었다고가정하기때문이다. 가설설정 : 귀무가설 (H 0 ) : μ1=μ=μ3( 요인에따른평균차이는없다 ) vs 대립가설 (H 1 ) : not H 0 ( 요인에따른평균차이는있다. 16
4 일원배치분산분석의예제 일원배치분산분석의예제 SPSS 에자료입력 일원배치분산분석 분석-평균비교-일원배치분산분석 차이가있는지알아보고싶은요인을요인으로지정. 평균의차이를볼변수를종속변수로지정. 사후분석과옵션을지정하고마지막에확인을누른다. 사후분석과옵션은다음장에서살펴보자. 17
4 일원배치분산분석의예제 일원배치분산분석의예제 일원배치분산분석옵션지정 사후분석에서는 Tukey 로지정 자연과학이므로 Tukey 로지정. 다른것도가능함 기술통계를지정. 차이가있다면어떤수준이높은지 낮은지를판단. 검정결과 유의확률이 0.05 보다작으므로귀무가설을기각. 즉, 대립가설을채택 요인별수준에따라평균의차이가있는것을알 수있다. 어떤차이가있는가? 사후분석 18
4 일원배치분산분석의예제 일원배치분산분석의예제 사후분석 다중비교결과 NSAID는 DMARDs와 Steroid에서차이가있다. DMARDs는 NSAID와차이가있다. Steroid는 NSAID와 DMARDs에서차이가있다. 이를각각수준별평균과비교하여차이를판단. 아... 복잡일부방법은이렇게개별적으로살펴보나 Tukey는정리를하여보여준다. Steroid, DMARDs는그룹1에포함되고 NSAID는그룹에포함된다. 즉, NSAID가다른약에비해평균통증이 7.160으로 Steroid와 DMARDs보다낮다. 최종적으로, 분산분석을통해서요인의수준별로통증에는차이가있는것을알수있으며, 사후분석결과 NSAID는통증이가장높고다른두가지약은통증이낮게나타났다. 그러므로 Steroid와 DMARDs는 NSAID보다통증에효과가있는것을알수있다. 그리고 Steroid와 DMARDs간에는통증완화에는차이가없는것을알수있다. 19
5 이원배치분산분석 (Two-way ANOVA) 이원배치분산분석 (Two-way ANOVA) 이원배치분산분석은일원배치분산분석에서요인이하나더늘어난것이다. 앞의예제를이용하여살펴보자. 같은자료에서처방약과성별이통증에영향을주는지살펴보자. Group Sex Age pvas 1:NSAID, :DMARDs, 3:Steroid 1: 남자 : 여자 연속형변수 연속형변수개인 VAS 문제가요인이처방약 (1,,3) 과성별 (1,) 이두개이므로이두변수에따라통증에차이가있는지살펴보는것으로이원배치분산분석을실시해야한다. 그런데, 처방약과성별이같이합쳐져서작용할까? 이를교호작용이라고하며이또한살펴봐야한다. 자료수가 30이상. CLT에의해정규성만족. 실제분산분석에서정규성이만족한다고가정한다. 왜냐하면, 분산분석은실험계획법에기초로만들어진방법으로정규성이만족하게끔실험이설계되었다고가정하기때문이다. 가설설정 : 귀무가설 (H 0 ) : 각요인에따른평균차이는없다 vs 대립가설 (H 1 ) : 각요인에따른평균차이는있다. 0
5 이원배치분산분석 (Two-way ANOVA) 이원배치분산분석 (Two-way ANOVA) 이원배치분산분석과정 분석-일반선형모형 -일변량선택 차이가있는지알아보고싶은요인이 Group과 Sex이므로이를모수요인에넣고, 평균의차이를볼통증정도변수를종속변수로지정. 변수지정후모형, 도표, 사후분석, 옵션을선택하여지정하고확인을누른다. 다음장에서각각의추가지정을살펴보도록하자. 1
5 이원배치분산분석 (Two-way ANOVA) 이원배치분산분석 (Two-way ANOVA) 이원배치분산분석과정에서추가지정 모형에서어떤모형을검정할지지정한다. 사용자정의를선택하고각각개별요인을지정하고두요인을같이선택하여지정하여교호작용을고려 도표를선택하여도표를그려본다. 두개의요인을각각수평축변수와선구분변수로지정하고추가를누르면도표라는곳에두변수가지정된다. 그리고계속을누른다.
5 이원배치분산분석 (Two-way ANOVA) 이원배치분산분석 (Two-way ANOVA) 이원배치분산분석과정에서추가지정 사후분석에서요인을사후검정변수에지정하고아래에서 Tukey방법을지정하고계속을누른다. 옵션에서각요인과상호작용에평균출력을위해기준으로지정하고기술통계량을지정한다. 그리고계속을눌러일변량분석창에서확인을누르면결과가나온다. 3
5 이원배치분산분석 (Two-way ANOVA) 이원배치분산분석 (Two-way ANOVA) 이원배치분산분석결과 분산분석결과 Group만이통계적으로유의하다. 즉, Group만이수준별로평균이차이가있고 Sex와 Group과 Sex의교호작용에따라통증은차이가없다는것을알수있다. 교호작용이통계적으로유의하지않으면 모형에서삭제하고분산분석을실시한다. 이를 풀링 (pooling) 이라고한다. 그래프를보면처방약에따라평균통증이있는것을볼수있다. 그리고 Sex에따라평균통증은크게차이가없는것을알수있다. 그래프가교차하면교호작용이있다고판단한다. 그래프를보면겹쳐보이기는해도교차하지않는것을알수있다. 이에그래프를통해서도교호작용이없다는것을판단할수있다. 교호작용을제외하고다시분석하자. 4
5 이원배치분산분석 (Two-way ANOVA) 이원배치분산분석 (Two-way ANOVA) 이원배치분산분석결과 교호작용을빼고다시분석한결과이다. 여전히 Group만통계적으로유의하다. Group의사후분석을통해 Group간차이만보면된다. 일원배치결과와사후분석이같음. 최종적으로 Group( 처방약 ) 에따라평균통증에는차이가있으며, Steroid와 DMARDs는평균통증을감소시키나 NSAID는통증을완화시키지못하는것을알수있다. 그리고 Sex와 Group과 Sex의교호작용은통증에아무런영향을주지않는다는것을알수있다. 5
Homework Homework 16명의치과병원환자를네명씩무작위로그룹지어서네개의회사의칫솔을사용하게하였다. 칫솔사용후네그룹의치태지수를조사한결과자료와같은결과를얻었다. 유의수준 0.05에서칫솔사용의효과에대한분산분석을하시오. 각회사의칫솔사용후측정된치태지수에대한정규성을따른다고가정한다. A회사 B회사 C회사 D회사 0.46 0.73 0.99 0.66 0.74 0.54 0.78 0.49 0.6 0.47 0.63 0.3 0.55 0.59 0.81 0.09 6
Homework Homework 한치과병원에서칫솟질방법과시간에따른치태지수를분석한결과에대한연구에서, 각각의칫솔직방법과시간에따른치태지수에차이가없는지검정하려고한다. 이러한방법과시간들에따른치태지수가유사한결과를주는지유의수준 0.05에서검정하시오. 방법 (A) 시간 (B) 30초 1분 3분 5분 A 0.99 0.9 0.73 0.74 B 0.81 0.84 0.59 0.55 C 0.63 0.7 0.47 0.6 7
질의응답 Question & Answer 8