예제데이터 R. A. Fisher (1919 영국통계학자, 생물학자, 수학자 - 분산분석창시자 iris 분꽃데이터 - 3 개종, 4 개변수관측데이터 - sepal 꽃받침 ( 길이, 넓이 - petal 꽃잎 ( 길이, 넓이 분산개념정의 변수의데이터흩어짐의척도이다. (x s i x = n 1 활용 변동계수 Coefficient of Variation CV - CV = s x 표준편차를평균으로나눈값으로축정단위가다른데이 터의흩어짐 ( 반대꾸준함 비교할때사용 : > sd(iris$sepal.length/mean(iris$sepal.length 0.1417113 품질 - 분산의역수 의사결정 - 위험, 분산이클수록위럼이높음 분산분석이란 데이터가움직인공간에대한척도, 관측값이큰개체, 작은개체, 개체들간변수관측값왜이렇게변동이있나? 이변동을어떻게설명할수없을까? 꽃받침의길이의변동을설명하는방법? 1 품종에따라 ( 범주형, 정성적 받침의길이는달라지지않을까? - 분산분석 꿏받침넓이에따라 ( 측정형, 정량적 달라지지않을까? - 회귀분석 Y (length = α + βx(width + e 한남대학교권세혁교수 http://wolfpack.hnu.ac.kr 1/ 7 Page
품종에따른받침받침길이차이? 품종에따른꽃받침의길이차이가있는지어떻게증명할까? 각품종의평균이유의적으로다르면품종이꽃받침을값의변동을설명할수있을것이다. µ 1,µ,µ 3 통계적으로증명하려면모수형태로 - 이각각다름을검정하면된다. 폼종이 개이면서로독립인 집단모평균차이 t- 검정을실시하면된다. 품종이 3개이므로 3개의귀무가설 ( H 0 : µ 1 = µ ( H 0 : µ 1 = µ 3 ( H 0 : µ = µ 3 동시에하면된다. 3개가 설을유의수준 5% 에서동시에하게되면, 1 (1 α 3 = 0.14, 즉 14% 가유의수준이다. 일원 ( 요인 1 개 분산분석모형 : One Way ANOVA Model 데이터구조 수준 1 수준 수준 k 행합 y11 y1 y1k y1. y1 y yk y. yn11 yn ynkk ynk. y.1 y. y.k y1. 한남대학교권세혁교수 http://wolfpack.hnu.ac.kr / 7 Page
모형 model : y ij = µ + α i + e ij, ( 가정 e ij ~ (0,σ 기호 : i = 1,,...,k ( 집단의개수 j = 1,,...,n i ( 집단 i 반복크기, n= 총데이터개수 Y ij : 종속변수, 반응변수 response variable - 범주형변수 ( 집단 를이용하여변동을설명하고픈변수 요인 factor : 범주형집단변수, 실험설계에서는처리효과 treatment effect µ i µ =i 모집단평균 = 전체모집단평균 y ij 의관측값의변동은집단의 평균 ( 집단에의해설명되는부분 과 오차 ( 랜덤 부분으로나뉜다. 만약집단의평균의차이 ( µ i = µ + α i 가유의적인차이가있다면집단이종속변수의변동을잘설명함 MVUE 추정 : ˆµ = y.., ˆµ i = y i. 변동분해 1 총변동 total sum of squares SST 종속변수의변동 SST = (y ij - 검은색화살표 y.. (y ij + y i. 집단간변동 between SS, SSB 요인변동이라고도하며총변동중요인의집단 ( 수준 에의해설명되는변동 y 1. y. y 3. SSB = (y i. - 주황색화살표 y 3 3 집단내변동 within SS, SSW 오차변동이라고도하며, 총변동중요인이설명하지못하는변동 SSE = (y ij - 파랑색화살표 한남대학교권세혁교수 http://wolfpack.hnu.ac.kr 3/ 7 Page
3 번째집단, 번째관측값 y3 전체평균으로부터관측값이벗어난변동중집단 3 의평균에의해설명되는부분 ( 주황색 까지는설명이되나, 나머지변동 ( 파랑색 은설명하지못함 y 3 y 3. y. 평균변동 Mean Sum of Squares y.. y 1. 변동 (Sum of Squares 값을자유도로나눈값 : 변동의평균적개념, n= 총관측값개수, k= 집단의개수 집단간평균변동 MSB(Mean SSE = SSB/(k-1 집단내평균변동 MSE(Mean SSW = SSE/(n-k 변동의분포오차의가정 : e ij ~ (0,σ -> y ij ~ (µ i,σ SSB (y i. = ~ χ (n k σ σ / SSE (y ij = ~ χ (n 1 σ σ 평균변동기대값 MSE 기대값 MSB 기대값 EMSE = E( EMSB = E( (y ij = σ (n k (y i. n = σ i (µ i µ + (k 1 k 1 EMSB 그러므로집단간평균의차이가없다면, 차이가유의적이면 1보다많이커진다. EMSE = 1 한남대학교권세혁교수 http://wolfpack.hnu.ac.kr 4/ 7 Page
분산분석표 ANOVA analysis of variance table - F 검정 요인 변동합 자유도 평균변동 F-통계량 집단간 ( 품종 SSB k-1 MSB=SSB/(k-1 MSB/MSE~F 오차 SSE, SSW n-k MSE=SSE/(n-k 총변동 SST=SSB+SSE n-1 귀무가설 : 집단의평균은동일하다. µ 1 = µ =... = µ k, 혹은 α 1 = α =... = α k ( 귀무가설이맞다면 F- 통계량은 1 이다 대립가설 : 적어도하나의집단평균은다르다. <=> 모든집단평균이동일한것은아니다 사후검정 Post Hoc Test 다중비교 Multiple Comparison 데이터분석전에설정된가설에대한검정이아니라분산분석의 F- 검정에관계없이집단간평균의차이가있는지검정함 여러개가설 ( 집단간차이, 집단의수가 k개이면 c = k C 개개별가설필요 을동시에검정하면실제유의수준 5% 가아니라높아진다. 조정된실험유의수준 (controlled experimental error rate 이라하고 1 (1 α 이다 c Fisher s Least Significant Difference 두집단별평균비교검정에사용하나이는다중비교에해당되지는않는다. 두모집단평균차이검정에서통합분산 (pooled variance 대신 MSE 사용한다. LSD = t α / (n k MSE( n 1 i + n 1 j for (y i. y j. Tukey HSD(honestly significant difference procedure HSD = q( MSE( n 1, q에대한분포표제공 i + n 1 j 가장보수적인 ( 귀무가설기각하지않음 방법으로자연과학에서가장많이이용한다. Student-Newman-Keuls procedure Tukey 방법의변형한것으로표만다르다. 즉임계치 (critical value 만차이가있고방법은 Tukey 와동일하다. Duncan Multiple range test Tukey 방법과매우유사하나수준별표본평균을크기순으로나열하여차이가가장큰것을비교해가면서 r 1 (1 α 유의수준을으로조정해가면서검정한다. r은검정단계순서이다. 귀무가설을기각할확률이매우높아자주사용하지않는다. 한남대학교권세혁교수 http://wolfpack.hnu.ac.kr 5/ 7 Page
Scheffe s S method 대비 (contrast 까지고려하여유의수준을고려한다중비교방법으로 (Tukey >Scheffe > Duncan 순으로보수적 사회과학분야에서주로사용 대비 Q = c i µ i, c i = 0 -> 추정치 ˆQ = ci y i., 평균 E( ˆQ = c i µ i, 분산 V( ˆQ σ = c i n i 대비의신뢰구간 ˆQ ± c i MSE F(1,n k ni Dunnett s procedure 처리효과의수준하나가 control ( 실험집단 인경우 ( 예 : placebo 집단, 교육을하지않는집단, 이전약투여집단 이집단과다른집단들을 pairwise 비교할경우사용된다. IN R : IRIS.csv 데이터 이상치가있음 (virginica 종에있음 - 107 번째, 다시이상치존재 - 13 번째, 이를삭제하면 TukeyHSD(iris.aov by(iris$sepal.length,iris$species,sd by(iris$sepal.length,iris$species,mean diff lwr upr p adj versicolor-setosa 0.930 0.694 1.165 0 virginica-setosa 1.61 1.38 1.859 0 virginica-versicolor 0.691 0.45 0.99 0 한남대학교권세혁교수 http://wolfpack.hnu.ac.kr 6/ 7 Page
요인변동합자유도평균변동 F- 통계량 집단간 ( 품종 64.7 3.5 130.8 오차 3.5 145 0.5 (<0.001 총변동 97. 147 품종 평균 (M 표준편차 (SD versicolor (a 5.01 0.35 setosa (b 5.94 0.5 virginica (c 6.63 0.60 분산분석 (F=130.8, 유의확률 <0.001 결과품종간꽃받침길이는차이가있음 Tukey HSD 검정결과쌍체집단의차이는모두유의하여 Virginia 꽃받침길이가가장길고 versicolor 종의길기가가장짧다. 다중비교결과는평균표에알파벳으로표시, 동일알파벳이면유의적차이가없음 Case Study I : ear_infection.csv Keller 9th Managerial Statistics 아이들의귀염증을치료하는방법은 (1 염증제거수술 ( Surfafurazole 약처방 (3 플라시보 placebo 3 가지가있다. 병의치료가효과가있는지다음으로판단한다. a 아픈증상나타난회수 (number of episodes of the illness b 재발로인한소아과의사방문회수 (visits c 처방전회수 (prescription d 호흡기염증지속기간 (days 어떤치료방법이가장효과적인지분석하시오. Case Study II : Jobs.csv Keller 9th Managerial Statistics 성별, 학력 (E1= 고졸미만,E= 고졸, E3= 대학수료 E4= 대졸 에따른직장의수에차이가있는지 (37 세 ~45 세 분석하시오. 일단개별변인으로판단하시오. Case Study III : bank.csv Keller 9th Managerial Statistics 여성 CEO 에대한차별분석에서 (1 승인률은차이가없었고 ( 이자율에서는남성 CEO 에비해높아, 차별이있다고분석되었다. 그러나은행은이자율을결정할때는대출신청기업의기업형태를보고결정한다고했다. 이를알아보기위한분석을실시하시오. Business 종류 1= 개인, = 파트너쉽, 3= 주식회사 한남대학교권세혁교수 http://wolfpack.hnu.ac.kr 7/ 7 Page