분산분석개념및기초 인과관계 casual relationship X=>Y Y 종속변수, 반응변수, 내생변수 X 설명변수, 독립변수, 요인 ( 처리효과 ), 내생변수 X 측정형 Y 범주형 로지스틱회귀분석 측정형 회귀분석 범주형교차분석분산분석 DOE Design of Experiment ( 실험설계 ) 관심대상에대한정보를얻기위한계획된테스트나관측 절대실험 absolute experiment: 3G 서비스에대한고객만족도 현상을관찰 ( 관측 ) 하여관심대상에어떤현상이나타나는지분석 비교실험 comparative experiment: 기존마케팅전략과새로운마케팅전략비교 관심현상에영향을요인 (factor) 을조절하여반응변화분석 Control vs. Experimental group Placebo 효과 Pre and Post test 용어 실험단위 : 처리 ( 실험조건, 요인수준 ) 가가해지는최소단위 관찰단위 : 개체의최소단위 반응 (response): 관심대상의측도, output, Y 요인 (factor): 제어가능하며반응에영향을주는인자, X s 회귀분석의설명변수에해당 수준 (level): 실험에사용되는요인의값 범주형이거나실험에서설정된측정형값제어요인 (Controllable Factors) X 1 X 2 X p 요인 Inputs Outputs 실험 Y=X s+e Z 1 Z 2 Z q 비제어인자 (Uncontrollable Factors) 95
DOE 기본원리 실험설계원리 Randomization ( 랜덤화 ): 실험단위의배정과실험순서랜덤하게결정 실험의객관성보장. ( 예 ) 농지 6개, 비료 (A, B, C) Replication( 반복 ): 동일처리를 2개이상의실험단위에가함 실험오차계산 Blocking( 블록화 ): 랜덤화불가능, 실험의정도를높인다 반응치 response C B A A B C 전체평균 + 처리효과 (Σ 주효과 +Σ 교호효과 )+( 블록효과 +)+( 실험오차 ) 데이터형태 반응 : 측정형, 회귀분석종속변수와동일개념 요인 : 범주형, 측정형인경우몇개값을수준으로 요인유의성? ( 요인하나, 수준 3 개인경우 ) 각수준반응치평균차이가있나? 세집단이상집단간평균비교 두집단평균차이검정 : t- 검정 각수준의분포가 ( 적어도분산 ) 동일해야가능하다. 두집단평균비교의등분산가정과동일 분산분석에서는분산차이 : Bartlett 검정 μ Y ijk = μ + α + β + ( αβ ) + ε i j ijk ijk 용어 주효과 (main effect): 요인이반응변수에미치는영향 교호효과 (interaction effect): 인자의결합조건이반응변수에미치는영향 교락 (confounding): 두개이상의효과를분리할수없는경우 μ 1 μ 2 μ 3 Y ij = μ + α + ε i ij 96
One-Way 개념 분산분석이란 반응의변동을분해 요인에의한설명변동 + 오차변동 집단 ( 수준 ) 내 (within) 변동 2집단 ( 수준 ) 간 (between) 변동 3 총변동 (Total Sum of Squares) 총변동3=SSB 2 + SSW 총변동분해 (decomposition) 모형 : Y ij =μ+α i +e ij ( 요인이하나인경우, 일원분산분석 ) j j i=3, j=(1, 2, 3), (1, 2, 3), (1, 2, 3, 4) => 총표본개수 n=10 총변동 (SST: Total SS) ( Y ij Y ) i j 집단간변동 (SSB: Between SS) SSA : 요인 A 변동 ( Y i. Y ) i j SST 요인각수준의평균차이 Between Sum of Squares 집단내변동 (SSW: Within SS) ( Y ij Y ) i. SSE: 오차변동 i j 2 2 2 Within Sum of Squares 요인유의성? 요인설명변동의크기의유의성검정 : F-검정 요인수준별반응평균의차이가크면요인은반응변수에영향을준다. 사후검점 Post-Hoc Y Y 1. Y 2. Y 3. 수준 (1) 수준 (2) 수준 (3) 97
분산분석표 Table 요인유의성 귀무가설 : μ 1 = μ 2 = = μ a ( 수준 ( 집단 ) 별반응변수평균은동일하다 ) α 1 = α 2 = = α a =0 집단이 2개이면독립인 t-검정 대립가설 : 적어도한집단의평균은다르다. 주효과, 교호효과모두각수준별평균차이의유무분석 사후검정 (post-hoc test) 집단간 (pairwise) 평균차이, 집단그룹간 (contrast) 평균차이 귀무가설 : μ i = μ j ( 집단 i와 j의평균은같다 ) 대립가설 : 집단 i의평균과집단 j의평균은다르다. 분산분석 F-검정결과에관계없이시행 다중비교 (multiple comparison) Tukey Honestly Significant Difference( 자연과학 ) Scheffe( 사회과학 ), Dunnett (control 집단과비교 ) Fihser / Bonferroni Least Significant Difference (1종오류높음) 변동자유도 SS MS F Between ( 요인 A) a-1 SSA(=SSB) MSB=SSB/(a-1) Within ( 오차 ) n-a SSE(=SSW) MSE=SSE/(n-a) F=MSB/MSE Total ( 총 ) n-1 SST (MSE 는 σ 2 추정치 ) 98
예제 ( SHIP.XLS) 데이터설명 유람선운영 S 사는배의크기에따른고객만족도점수의차이가있는지알아보기위한조사, 배크기별로 8 개유람선임의추출, 각유람선탑승고객의평가점수를평균한측정치 In SPSS 한열마다변수 : 평가점수그리고그룹 분산분석절차 상자-수염그림 이상치제외, 이분산 (?) 너무차이가나면데이터재수집 분산분석 :F검정 다중비교 : Scheffe, Tukey 방법 주효과, 교차효과평균도표그리기 99
가 크기 small 인집단 ( 배 ) 에이상치존재 => 제거후분산분석 SPSS 절차및결과 나무상자그리기 100.00 메뉴 평균비교에 일원배치분산분석 있지만 수 평균비교에 일원배치분산분석 있지만 90.00 평점80.00 S L M S 그룹 100
SPSS 절차및결과 (2) 프로파일도표 : 집단간평균출력 평가점수의추정된주변평균 95.00 92.50 추정된주변평 균 90.00 87.50 85.00 사후검정메뉴 L M 그룹 S 101
SPSS 절차및결과 (3) 옵션메뉴 결과해석 F 검정 ( 유의확률 =0.003) 배의크기에따른평가점수의차이있음 다중비교 (S, L) 집단차이만유의 102
이원분산분석 (Two-way ) 요인설계 : Factorial Design 예제중심 가솔린종류 (A, B, C) 와첨가제 (1, 2, 3, 4) 에따른연비의차이가있는알아보기위하여동일차종 24 대를이용하여 ( 물론차에의한차이도있을것이라생각되지만무시한다 ) 측정한결과이다. 첨가제가솔린 1 2 3 4 A 27.4 28.6 33 32 33.5 32.3 30.8 29.7 B 33.3 34.5 35.6 34.4 33.4 33.1 29.6 30.6 C 33 33.5 34.7 33.33 33 32 28.6 29.8 메뉴 103
이원분석결과 연비의추정된주변평균 첨가제 35.00 1 2 34.00 3 4 33.00 추정된주변평균 32.00 31.00 30.00 29.00 28.00 A B 가솔린 C 104
이원분석결과 (2) 평균프로파일과평균출력비교 #1 NFL2.XLS HW #13 Due 2008.06.05 105
HW #13 Due 2008.06.05 #2 Resorts.XLS #3 #4 106