통계분석가이드라인 통계 (Statisitcs) 란? Second Language in Science 전남대학교치의학전문대학원임회정 1 2 모집단 (Population) 과표본 (Sample) 통계분석단계 Sampling 추정 1. 귀무가설수립 2. 검정통계량계산 ( 어떤검정을실시할것인가를결정 ) 3. 귀무가설을기각? 채택? (p 값으로결정 - 유의수준 0.05 기준 ) 모집단 ( 모수 ) 표본 ( 통계량 ) 3 4 관측척도 (Scale of measurement) [I] 연속변수 (Continuous variable) ( 예 ) Height, Weight, Overjet in mm, Mandibular plane angle, Shear bond force in megapascals. 관측척도 (Scale of measurement) [II] 범주형변수 (Categorical variable) 명목척도 (Nominal scale) 특성만 ( 예 ) race, sex, Angle s classification of malocclusion(class I, II, III) 결혼상태 ( 기혼, 이혼, 별거, 사별, 미혼 ) 순서척도 (Ordinal scale) 특성 + 순서 ( 예 ) 교육정도 ( 중졸, 고졸, 대졸 ) 아픈정도 (Mild/Moderate/Severe) 5 6 1
데이터파일의구성 Outcome: 연속변수일때 번호성별나이종교학력키몸무게 1 남 29 기독교 대졸 175 70 2 남 31 천주교 고졸 170 62 3 여 24 불교 대졸 158 45 4 남 38 무 대졸 179 75 5 여 25 불교 고졸 155 42 6 여 37 무 대졸 163 52 7 여 33 기독교 고졸 160 50 8 남 55 무 대졸 180 72 9 남 22 천주교 고졸 165 58 10 여 42 기독교 고졸 161 50 독립인두집단의평균비교 : indep. t-test 독립인세집단의평균비교 : ANOVA 연관된두집단의평균비교 : paired t-test 연관된세집단의평균비교 : RM ANOVA (RM ANOVA: Repeated Measures Analysis of Variance) ( 그러나 RM ANOVA 는제한이많다.) 7 8 Outcome: 범주형변수일때 독립인두변수의관련성 : chi-square test (sample size 가작을때 : Fisher s Exact test) 연관된두변수의관련성 : Mc Nemar s test 두변수이상에서관련성 : 독립인범주형변수 (0/1) 가결과변수일때 : binary 로지스틱회귀분석 연관이있는 clustered 혹은반복측정된범주형변수 (0/1) 가결과변수일때 : GEE Part I 종속 ( 반응 ) 변수가연속형변수인경우 9 Assumptions of ind. ANOVA and ind. T-test 정규성? Yes No 1. Independence ( 각집단은서로독립 ) 2. Sampling distributions of sample means must be normally distributed. ( 각모집단은정규분포를이루어야 ) 3. The groups should have nearly equal variances. ( 각집단별분산정도가비슷해야 ) 독립? No Paired T Yes 등분산성? Indep T No Wilcoxon Signed rank 독립? Yes Mann-Whitney 11 모수 비모수 12 2
종속변수가연속형인경우 1. 집단의수파악 2. 집단의수는몇개인가? 집단이 2개? Treatmt group vs. Control group 집단이 3개? A group vs. B group vs. C group 집단이 6(3x2) 개? 코팅A 코팅B 스크류 A 스크류 B 스크류 C 1) 집단이 2 개이면 3 번으로가시오. 2) 집단이 3 개이상이면 6 번으로가시오. 3. 집단간독립인가? 1) 독립이면 4 번으로가시오. 2) 독립이아니면 5 번으로가시오. 13 Type ( 구강교육 ) 독립인두집단의평균비교 치태지수 A 0.46 1.33 0.74 0.26 0.55 0.26 0.55 B 0.66 0.69 0.90 0.70 1.14 0.51 0.83 4. 두그룹이독립이면 4-1. 각그룹별정규성검정시행 1) 정규성을만족하면 Independent t-test 시행 2) 정규성을만족하지않으면비모수검정인 Mann-Whitney U test 시행 4-2. 등분산검정에따른 p-value 선택하여검정 14 독립이아닌두집단의평균비교 치태지수 Levene 의등분산검정 F 유의확률 t 자유도 유의 확률 ( 양쪽 ) 평균의동일성에대한 t- 검정 평균차 차이의표준오차 차이의 95% 신뢰구간 등분산이가정됨.294.591-1.001 38.323 -.08039.08039 -.24321.08225 등분산이가정되지않음 하한 상한 -.999 37.210.324 -.08048.08056 -.24368.08273 사용 치태지수 ( 전동칫솔 ) 전 0.46 1.33 0.74 0.26 0.55 0.26 0.55 후 0.26 0.73 0.43 0.15 0.59 0.18 0.39 1. 두집단이독립이아니면, 2. 두집단의차이값 (x-y) 에대한정규성검정시행 1) 정규성을만족하면 Paired t-test 시행. 2) 정규성을만족하지않면비모수검정인 Wilcoxon Singed Rank test 시행. 15 16 # 논문의 data analysis 표현방법 ( 연구목적 ) 이갈이환자와정상집단모두에서 occlusal splint 의사용이타액흐름속도를증가시킨다는가설을검정하고자한다. 대조군과이갈이군의비교를위하여데이터분포에따라 unpaired t-test (independent T) 와 Mann-Whitney U test 를시행하였다. 동일인에대하여스프린트를사용했을때와사용하지않았을때의타액흐름속도의평균비교를위하여데이터분포에따라 paired t-test 와 Wilcoxon signed-rank test 를시행하였다. 연구목적 : 이갈이환자와정상집단모두에서 occlusal splint의사용이긴장을풀고있는동안, 이를악물고있는동안, 씹는것같은운동을하고있는동안의타액흐름속도를증가시킨다는가설을검정하려. 17 (Miyawaki S et al. Salivary flow rates during relaxing, clenching, and chewing-like movement with maxillary occusal splints. AJODO 2004;126:367-70.) 3
대조군과이갈이군의비교를위하여데이터분포에따라정규분포를따르면 ( 모수 / 비모수적 ) 방법으로, 정규분포를따르지않으면 ( 모수 / 비모수적 ) 방법으로 ( Ind t ) test와 ( Mann-Whitney U ) test를시행하였다. 또한동일인에대하여스프린트를사용했을때와스프린트를사용하지않았을때를구분하여군을나누어타액흐름속도 (Salivary flow rate) 의평균비교를위하여데이터분포에따라 ( Paired t ) test와 ( Wilcoxon signed rank ) test를사용하였다. ( 예제 ) Independent t-test/paired t-test/mann-whitney U test/ Wilcoxon signed rank test 19 결과 대조군과이갈이군에서타액흐름속도에서유의한차이가없었다는결과와스프린트를사용한군과사용하지않은군사이에서는유의한차이가있었다는결과를표현 20 비모수방법은언제하나? 1. Transformation 으로해결이안될때 2. 표본수가너무적어 (6 이하 ) 분포를알수없는경우 3. 집단들의표본수가서로크게다를경우 4. 변수가명칭혹은순서척도일때 5. 중앙값의비교가목적일때 6. 최소한의가정. 즉등분산성, 정규분포등의가정을만족못할때 21 모수 : 비모수 Independent t-test : Mann-Whitney test Paired t-test : Wilcoxon signed rank test 1-way ANOVA : Kruskal-Walis test (# 비모수의사후검정 : Mann-Whitney test with Bonferroni correction) 1-way RM ANOVA : Friedman test (# 비모수의사후검정 : Wilcoxon signed rank test with Bonferroni correction (more than 4 pairs)) 22 등분산성 구형성 세집단이상의평균비교 분산 1 = 분산 2 = 분산 3 diff diff 차이의분산 1= 차이의분산 2 등분산성이란? H 0 : The variances in different samples are equal. 구형성이란? H 0 : The variances of the differences between all possible pairs of groups are equal. 23 1. 요인의수를파악 스크류 A B C D One-way ANOVA 6-1 로가시오 처리 ( 독립 ) 스크류처리 A 처리 B A B C D Two-way ANOVA 8 번으로가시오 처리 ( 독립 X) 스크류 사전 사후 A B C D ANCOVA 9번으로가시오 반복측정 ( 동일한개체 ) 스크류 1주 2주 3주 4주 A B C D RM ANOVA 7번으로가시오 4
6-1. 그룹간독립인가? 1) 각그룹이독립이라면 6-2 로가시오. 2) 각그룹이독립이아닐경우 2 번으로가시오. (ex) 토끼한마리의다리에여러종류의임플란트식립 6-2. One-way ANOVA ( 일원배치분산분석 ) 7. 1-way Repeated-Measures(RM) ANOVA ( 반복측정분산분석 ) ex) 시간의흐름에대한반복측정일경우시간, dose 등 : 반복요인그룹 : 처리요인 요인이 2 개이므로 2-Way RM ANOVA 7-1. 차이에대한정규성검정 (x-y, y-z) 1) 정규성을만족하면 7-2 로가시오. 2) 정규성을만족하지못하면 7-5 으로가시오. 7-2. 구형성검정 1) 구형성을만족하면 7-3 으로가시오. 2) 구형성을만족하지않으면 7-4 로가시오. 7-3. P-value 를확인하고유의하면사후검정 7-4. ε<0.75 이면 Greenhouse-Geisser, ε>0.75 이면 Huynh-Feldt 의 p-value 를확인하고유의하면사후검정 7-5. Friedman test 를시행하고 p-value 가유의하면사후분석으로 Wilcoxon Signed Rank test 를하고유의수준 0.05 를사용하여사후검정 How to write RM ANOVA in your article... Mauchly s test indicated that the assumption of sphericity had been violated ( 2 =0.903, p=0.011), therefore degrees of freedom were corrected using Greenhouse-Geisser estimates of sphericity (ε=0.53). Repeated-measures(RM) ANOVA 는아래의가정이만족할경우에사용되어진다. (1) 각그룹의결과변수간의차이가등분산일때, (2) Balanced data 일때, (3) 같은 ID 에대하여반복측정된 time interval 이같을때. (4) 반복측정된관찰치들간의 correlation 이같을때 The results show that the evaluator s ratings of three profiles differed significantly, F(1.06,5.28)=10.22, p=0.022. Post hoc tests revealed that extraction group was rated significantly different from either of the other groups. 27 그러나결과변수가연속변수이고반복측정되어지더라도이러한가정들을만족하지못하는경우 Mixed effect Model 을사용한다. (: Generalization of RM ANOVA) 8. Two-way ANOVA ( 이원배치분산분석 ) # 논문의 data analysis 표현방법 ( 연구목적 ) Conventional primer 와 hydrophilic Primer 에대해서 shear bond strength 를가지고 blood contamination 의효과를평가하고자한다. two-way anova 를적용하여사후검정으로 Scheffe 검정을하였다. ARI 점수의그룹간의차이를알아보기위하여 chi-square test 를사용하였다. (Cacciafesta V.et al. Effects of blood contamination on the shear bond strengths of conventional and hydrophilic primers. Am J Ortjpd Demofacial Orthop 2004;126:207-212) 5
( 연구목적 ) 치과의사와일반인에의해평가된한국사람들의발치혹은비발치치료후측모심미의변화를측정하기위해수행되었다. Repeated-Measures ANOVA 가 main effects(treatment/panel) 와 interaction effect (treatment*panel) 를검정하는데사용되어졌다. 31 (Lim HJ et al. Esthetic impact of premolar extaction and nonextraction treatments on Korea borderline patients. Am J Orthod Dentofacial Orthop 2008;133(4): 524-531) # 분산분석시자주범하는오류 전체적인분석을하지않고 One-Way ANOVA + Independent t-test or Paired t-test + Mann-Whitney U test or Wilcoxon Singed Rank test + One-Way ANOVA 등혼합하여사용하는경우 Type I error 가증가한다. 이러한경우에는각상황에적합한전체적인분석을해야한다. Ex) 한치과병원에서칫솔질방법과시간에따른치태지수를분석한결과에대한연구에서, 각각의칫솔질방법과시간에따른치태지수에차이가없는지검정하고자한다. 방법 (a) 시간 (b) 30 초 1 분 3 분 5 분 A 0.99 0.92 0.73 0.74 B 0.81 0.84 0.59 0.55 C 0.63 0.72 0.47 0.26 34 이원배치분산분석 Method 에대한일원배치분산분석 ( H 0 : 칫솔질방법에따른치태지수는차이가없다.) 유의수준 0.05 에서기각역에속하지못하므로칫솔질방법에따른치태지수의차이가없다고할수있다. H 0 H 0 ( : 칫솔질방법에따른치태지수는차이가없다. : 칫솔질시간에따른치태지수는차이가없다.) Time 에대한일원배치분산분석 유의수준 0.05 에서기각역에속하므로칫솔질방법과시간에따른치태지수의차이가있다고할수있다. 35 ( : 칫솔질시간에따른치태지수는차이가없다.) H 0 유의수준 0.05 에서기각역에속하지못하므로칫솔질시간에따른치태지수의차이가없다고할수있다. 36 6
9. ANCOVA ( 공분산분석 ) 9-1 정규분포와등분산가정도검토한다. 9-2. 가정 : 종속변수와공변량은선형성을만족한다. 공변량의유의성을확인 (p<0.05) 1) 공변량이유의하면 4-3 로가시오. 2) 공변량이유의하지않으면 ANCOVA 를할수없다. ( 다른방법모색, RM ANOVA 등 ) 9-3. 집단간기울기동질성 (Homogeneity of Regression Slopes) 가정검정확인방법 : 종속변수와공변량이집단에따라같은지통계적으로검정. 즉, 공변량과집단간의교호작용을검정하여유의하지않으면 (p>0.05) 동질한것임. 1) 기울기가동일하면 4-4 으로가시오. 2) 기울기가동일하지않으면 4-5 로가시오. 9-4. 교호작용을제거하고주효과의유의성확인유의하면사후검정 공분산분석 분산분석과마찬가지로집단간차이를검증하는것이나 직접통제하기어려운교란변인의효과를제거한후실시하는분석방법 9-5. 각집단에따라종속변수와공변량의관련성을각각추정해야함. 각집단의기울기에따라조정된종속변수로집단간평균차이검정 Ex) 아래의데이터는 20 마리의쥐를 4 마리씩 4 개의그룹으로나눈다음, 그룹에따라 4 개의다이어트프로그램을시행하여시행전과시행후의몸무게를측정한것이다. 이데이터에대하여시행전수치를공변량으로하고시행후의수치를반응변수로하여공변량분석을시행하라. 시행전의몸무게는차이가났으나시행후의몸무게는차이가없었다. 등분산임을입증! 집단간기울기동질함을입증! 7
공변량 ( 전 ) 을보정했을때그룹에따라몸무게에차이를보인다. 만약, 공변량을보정하지않는다면그룹에따라몸무게의차이가보이지않는다는결론이나온다. 사후분석결과 1 그룹, 2 그룹, 3 그룹간에는유의한차이가없었으나 1vs4, 2vs4, 3vs4 그룹간에는유의한차이가보였다. 회귀분석 ( Regression Analysis ) 독립변수와종속변수사이의인과관계에따른수학적모델인선형적관계식을구하여 어떤독립변수가주어졌을때, 이에따른종속변수를예측하는분석방법 1) 종속변수와독립변수의산점도를그려본다. 선형성을보이지않으면변수변환또는비선형회귀분석 이상치, 영양치진단및다중공선성체크 2) 오차가정 : 독립성, 정규성, 등분산성 (1) 오차의정규성 : PP 도표와 QQ 도표등으로판단한다. 정규성을만족하지않을경우변수변환하여분석 (2) 등분산성 : 잔차와예측치의산점도가이상이없는지확인 이상이있다면변수변환을하거나비선형회귀또는새로운설명변수를추가하여분석 3) 종속변수와독립변수의상관분석을하여종속변수에유의한독립변수를선택한다. 8
4) 상관분석을통해얻은독립변수들을가지고변수선택법을이용하여최종모형을선택한다. 독립변수가범주형이면더미변수를이용 # 변수선택법 1 전진선택법 : 절편항만을포함한모형에서시작하여그효과가가장유의하다고판단되는설명변수를하나씩차례로추가하는방법 2 후진제거법 : 모든설명변수를포함한모형에서시작하여그효과가가장유의하지않다고판단되는설명변수부터하나씩차례로제거하는방법 3 단계적선택법 : 모형에유의한설명변수를하나씩추가하면서남아있는설명변수들중에서추가되는설명변수로인하여필요없게되는설명변수를제거하는방법 상관분석 (Correlation Analysis) 1) Pearson 상관분석두변수가연속형일경우사용 데이터의분포가이상치의영향을많이받을경우에는이상치를제거하여분석하거나 Spearman 상관분석을하는것이바람직하다. 5) 회귀계수에대한유의성을확인하고종속변수에대한영향력을비교한다. 독립변수끼리비교는표준화된회귀계수를이용 2) Spearman 상관분석둘중한의변수라도순위변수이거나비모수인경우사용 6) 결정계수를확인하여모형의설명력을확인한다. Ex) 연구자가 DEET( 치의학전문대학원입학시험 ) 와 TEPS( 영어능력검증시험 ) 의관계를연구하고자한다. IQ 가이들의관련성에어떻게영향을미치는지알아보고자편상관계수를구해보기로결정하였다. Part II 종속 ( 반응 ) 변수가범주형변수인경우 상관계수 편상관계수 51 2 성공실패남자여자 2X2 분할표 test( 카이제곱검정 ) 범주형자료로구성된분할표에서변수간의연관성을검정할때사용 Exposure Yes No Odds Ratio (OR) Disease Yes No a b c d cell 의 20% 에기대빈도가 5 이하인셀이있을경우 Fisher s Exact test 시행 (2*2 에서만가능 ) Freeman-halton extension of the Fisher s exact test (2*3 이상인경우 ) Trend 카이제곱검정 : 범주가순서형일경우에사용 Odds Ratio = a / c OR b / d OR : 위험요인을가진그룹이 ad bc 위험요인을가지지않은그룹에비해 질병에걸릴위험이 OR(=2: 예 ) 배만큼존재한다. 54 9
Logistic Regression Analysis 종속변수는범주형 ( 이분형, 순서형, 명목형 ) 일때, 독립변수는연속형, 범주형일경우사용가능하다. 1) 각각의독립변수와종속변수간에 Logistic Regression 을해보고 p <0.25* 인변수를선택한다. (* Am J Epidemiology) 2) 1) 에서선택된독립변수를변수선택법으로 Logistic Regression Analysis 를다시돌려최종모형을구축한다. 3) Hosmer-Lamshow test 로최종모형의적합성을검정한다. (p>0.05 인경우모형적합 ) 4) 오즈비 (Odds Ratio) 를해석한다. ( 유의한변수에한하여 ) GEE (Generalized Estimating Equations) 임플란트성공 / 실패에대해어떤요인이유의한영향을주는지알아보기위해한사람에게임플란트를한개씩식립하였을경우에는독립성이위배되지않아 Logistic regression 이가능하지만, 그렇지않은경우에는독립성이위배되므로한개체에여러개의임플란트를식립하여얻어진 clustered data 에대하여 GEE 를사용해야한다. ( 분석법 : 문헌참고 ) 57 58 참고문헌 1. 강동완, 서윤암, 오남식, 임회정. 대한치과보철학회지에서볼수있는통계적오류의고찰 (2006-2010). 대한치과보철학회지 2012;50(4):258-270. 2. 임회정. SPSS 를이용한치의학통계입문및자료분석 I. 나래출판사. 59 10
Further statistical methods Survival data analysis (Cox PH model) for implant study Mixed effect model for repeated measures GEE for clustered binary outcomes Systematic review and Meta analysis for combining results from different studies 3-dimensional data (x,y,z) analysis Thank you for your attention! 61 62 11