<4D F736F F F696E74202D20BECBB7B9B8A3B1E2C7D0C8B C0CEBBF3BFACB1B8BFA1BCADC8E7C8F7BBE7BFEBB5C7B4C22E707074>

임상연구에서흔히사용 하는의학통계의실제 김호서울대학교보건대학원미래세대를위한교육강좌 2007/6/17

Outline 통계적가설검정의기본개념들 가설검정, 통계적오류, 검정력및표본수 연속형자료에서의통계분석 T-test, ANOVA, 회귀분석 ( 단순회귀, 중회귀 ) 범주형자료에서의통계분석 카이제곱검정, 로지스틱회귀분석 유전자형자료분석의기본개념

기본개념들 모집단과표본 ( 모수 ) p-value 통계적검정력과표본수계산 모수적방법과비모수적방법 정규성검정 변수의종류에따른분석법 통계적가설검정

통계적사고 <-> 결정론적사고 모집단과표본 정규분포를결정하는모수 ( 평균과분산 ) 평균 : 위치 분산 : 산포 ( 정밀도 )

모집단과표본 모집단 : 연구자가최종적으로관심을가지는집단 표본 : 모집단에대한통계적결정을하기위하여모집단으로부터대표성있게뽑은집단 표본이대표성이있게모집단을반영하여야함

모집단과표본 모집단 모수 2 N ( µ, σ ) 표본 추정치 Y,, 1 Yn 1 n Y = Y i n i = 1 n 2 1 2 = ( i ) n 1 i= 1 S Y Y

모수 : 가정한모형의통계적성질을완전히결정하는상수 ( 들 ) Y=a+b x 2 N ( µ, σ ) 1 ( x µ ) exp 2 2πσ 2σ 2

관심모수 : 연구의가설을수학적인모수로표시해야함 두집단에서평균비교 d = µ 1 µ 2 두집단의비율비교 r = p p 1 2 OR = p p /(1 p ) /(1 p ) 1 1 2 2

연구가설 두집단에서평균비교 귀무가설 Ho : d = µ µ = 0 1 2 대립가설 ( 양측검정 ) Ha : d = µ µ 0 1 2 대립가설 ( 단측검정 ) 혹은 Ha : d = µ µ > 0 1 2 Ha : d = µ µ < 0 1 2

연구가설 두집단의비율비교귀무가설 대립가설 ( 양측검정 ) 대립가설 ( 단측검정 ) 혹은 Ho r p p1/(1 p1) = = Ho : OR = = 1 p p /(1 p ) 1 : 1 Ho r Ho r Ho r 2 1 : 1 2 2 2 p p1/(1 p1) = Ho : OR = 1 p p /(1 p ) p p 1 : = > 1 p p 2 1 : = < 1 2 Ho OR 2 2 p /(1 p ) = > p /(1 p ) 1 1 : 1 Ho OR 2 2 p /(1 p ) = < p /(1 p ) 1 1 : 1 2 2

P-value (1) 연구목적 : 관심변수의 ( 모 ) 평균이두집단에서다르다. 첫번째집단에서의표본평균 Y 1 두번째집단에서의표본평균 Y 2 만약두집단에서의모평균이같다고하면 두표본평균은비슷할것이다. 표본평균의차이를반복적으로구해보면

P-value (2) 0 통계적으로대단히일어나기어려운사건

P-value (3) P-value = 두집단의평균이같다고가정했을때우리의자료, 혹은더차이가나는자료를얻을확률 작은 p-value : 위의확률이작다 통계적으로가능하지않은일이일어났다. 두집단의평균이같다는가정에문제가있다. 두집단의평균은같지않다고결론내린다.

P-value (3) 작지않은 p-value : 두집단의평균이같다고가정하면우리의자료를관측할확률이작지않다. 두집단의평균이같다는가정에문제가없다. 양쪽검정, 한쪽검정

A( 얻은자료 ) -> B ( 연구가설 ) -B -> -A 귀무가설 (-B) : 두집단에차이가없다. (Ho) 대립가설 (B) : 두집단에차이가있다. (Ha) 일종의오류 : 옳은귀무가설을기각할확률 = Pr (reject Ho Ho is true) 이종의오류 : 틀린귀무가설을받아들일확률 = Pr (Not reject Ho Ha is true) β Power = 1- ( 있는차이를발견할확률 ) α β

가설검정시발생가능한 4 가지상황 표본을이용한가설검정결과 H 0 채택 H 0 기각 H 0 참 옳음 (1- α ) 제1종오류 ( α) 모집단의진실 H 0 거짓 (Ha 참 ) 제2종오류 ( β) 옮음 ( 검정력 =1- β )

검정방법 A( 모수적인방법, 검정력 =90%) 의검정방법 B ( 비모수적인방법, 검정력 =70%) 보다더큰검정력을주었다. -> 실제로차이가있을때 A 방법을 100 번실시했을때 90 번의경우차이가있다고 ( 귀무가설기각 ) 결정하였도 B 방법을실시하였을때는 100 번중 70 번귀무가설을기각하였다. -> A 가더좋은방법! ( 실제차이 =?) 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 10 20 30 40 50 Total Sample Size Mean 10 Std Dev 14.142 20 21.213

표본수계산, Get Motivated < 예시 1> χ 2 χ + - ( / ) Trt A n 11 52 Trt B n 12 48 n 21 48 n 22 52 n 2+ n +1 n +2 ( 52 100 100 / 200) n 1+ n ++ 2 2 n11 n+ 1n1 + n++ n1 + n2+ n+ 1n+ 2 =, v11 = 2 v11 n++ n++ ( 1) = = 0.32, p > 0.05 ( ) ( 2 100 100 100 100 / 200 199) 2

n = 100 n 2 χ ij ij 라고하고, 를다시계산하면 χ = 100 /100 χ = 32.00, p < 0.01 2 2 2 두예에서비율은정확히같음에도불구하고통계적유의성은상당히다르다.??? 전통적통계적가설검정의유의성은표본수에크게의존한다. 통계적유의성이없었던경우라도표본수를크게하면유의성을볼수있다. 표본수 ( 실험의비용 ) 와통계적유의성 ( 실험의효용성 ) 의균형을맞추는것이요구됨 최소의비용으로효과를증명하고싶다.

통계학에서의표본수계산 표본조사의경우 - 목적 : 추정 (estimation) - 도구 : 표본오차 - 예 : 여론조사 임상시험의경우 - 목적 : 검정 (testing) - 도구 : 제1종의오류, 제2종의오류 - 예 : 임상시험

단순임의추출 (simple random sampling) 에서 N : 모집단의크기, n : 표본의크기라면 ˆ µ = y= y / n ( ) Var y n i= 1 i 2 σ N n = n N 1 2 σ N n 1.96 Var( y) 2 = B: n N 1 2 Nσ n= D= B 2 ( N-1) D+ σ 2, /4 95% 신뢰구간 ( 표준오차 )

만약가 0 혹은 1 의값을가지게되면, y y i 는비율이되고, 이경우 Npq n = 가된다. ( N 1) D+ pq 예1) N=2000, 95% 신뢰수준, B=0.05이라면 n은? >> 사전정보가없다면 p=q=0.5 대입 D 2 2 = B = = / 4 0.05 / 4.000625 2000 0.5 0.5 n = = 1999.000625 + 0.5 0.5 333.56 최소한 334 명의표본이필요하다.

연속형변수의비교 예 ) 새로운관절염치료제의치료효과에대한임상실험을실시한다고하자. 치료효과는 2주간치료후혈중 Prostag-landing 양이평균 10, 표준편차 2 이면치료가된것으로간주한다. 치료후두집단의혈중 Prostaglandin 양의변동이 20% 미만이면두치료제의효과는동등한것으로간주한다. 단측검정으로연구대상수를구하시오. 또동일한가정으로양측검정의결과와비교하시오. 검정력 =90%, 결과의척도 :Prostaglandin농도 ( 연속형 )

n c = 2( Z ) 2 2 α + Zβ σ ( µ µ ) c t 2 A = µ 1 µ 2 = 2 µ gm / dl(10 0.2), σ = 2.0 µ gm / dl Z n α t = 1.645, Z = 1.282 β ( ) 2 2 2 1.645 + 1.282 2.0 = nc = = 17.13 18 2 2 ( µ µ )/ σ Effective Size (=E/S)= 1 2

proc power; twosamplemeans test=diff meandiff = 2 stddev = 2 power=0.90 sides=1 npergroup=. ; run;

The POWER Procedure Two-sample t Test for Mean Difference Fixed Scenario Elements Distribution Normal Method Exact Number of Sides 1 Mean Difference 2 Standard Deviation 2 Nominal Power 0.9 Null Difference 0 Alpha 0.05 Computed N Per Group Actual N Per Power Group 0.902 18

proc power; onesamplemeans means = 10 stddev =14.142 power=. ntotal=10 ; plot x=n min=10 max=50 ; run; 1.0 0.9 0.8 0.7 0.6 0.5 10 20 30 40 50 TotalSampleSize

proc power; onesamplemeans means = 10 20 1.0 run; 0.9 stddev =14.142 21.213 /* 10*sqrt(2) 15*sqrt(2) */ power=. ntotal=10 ; plot x=n min=10 max=50 ; 0.8 0.7 0.6 0.5 0.4 0.3 0.2 10 20 30 40 50 Total Sample Size Mean 10 Std Dev 14.142 20 21.213

모수적방법과비모수적방법 (1) 자료 1,2,3,4,5 1,2,3,4,5,100 평균 3 19 중앙값 3 3.5 중앙값 (median) 은평균에비하여이상치에대해서둔감 (robust) 하다. 자료의정규성분포가정을하면평균과분산을통하여모집단의성질을완전히파악할수있다. ( 모수적방법 )

모수적방법과비모수적방법 (2) 비모수적방법은자료의 ( 정규성 ) 분포가정을하지않는다 자료의평균과분산이아닌순위를이용한방법을사용한다. 자료의분포가정 (eg 정규성 ) 이만족되면효율이떨어진다. Robust 한결과를준다. (outlier 에둔감 )

자료의정규성검정 (SAS 예제 ) data ; input diameter @@; label diameter='diameter in mm'; datalines; 5.501 5.251 5.404 5.366 5.445 5.576 5.607 5.200 5.977 5.177... ; run; proc univariate data=rods normal; histogram diameter / normal (mu=est sigma=est) midpoints = 5 to 6.30 by 0.15; run;

귀무가설 : 자료가정규분포를따른다

proc univariate data=rods noprint; probplot diameter / normal (mu=est sigma=est); run; Skewed to the right

Box plot

변수의분류 수학적개념 ( 척도 ) 에의한분류 1 명칭 or 명목척도 (nominal scale) - 범주로만의미 ex) 성별, 혈액형 2 순위척도 (ordinal scale) - 명목 + 대소관계 - 가감승제와같은수학적조작은불가능 ex) 교육정도 ( 국졸 / 중졸 / 고졸 / 대졸 ) 사회경제수준 ( 상 / 중 / 하 ) 특정사항에대한의견 ( 아주찬성 / 찬성 / 중립 / 반대 / 아주반대 )

3 간격척도 (interval scale) - 측정치간의간격에의미가있는경우 ex) 병리소견에 0 의간격과 0+ 의간격이같은가? 온도의경우 20, 30 와 10, 20 의 10 는본질적으로같다. - 가감은가능, 승제는불가능 즉, 비 (ratio) 의개념은가지지못함. ex) 100 /50 212 /122 왜냐하면 0, 0 는인위적인영점을정한것이기때문

4 비척도 (ratio scale) - 절대영점을가지게되므로수학적으로가장완전한형태의변수 ex) 40 세는 20 세에비해 20 살많고 ( 간격 ), 2 배 ( 비 ) 더살았다 어떤변수를어떤분류로할것인가를미리정해야함 ex) 연령 11, 12, 13 비척도 9, 10 19, 20 순위척도성년 / 미성년 명칭척도 ( 순위척도 with 2 categories)

DATA 범주형변수 연속형변수 (categorical variable) (continuous variable) 명목변수순위변수등간변수비율변수 (nominal) (ordinal) (interval) (ratio)

인과관계에따른변수 독립변수 ( 설명변수 ) independent (explanatory) variable: 원인종속변수 ( 반응변수 ) dependent (response) variable : 결과 전산입력형식에따른변수숫자변수문자변수날짜변수

변수종류에따른통계분석법 종속변수 독립변수 통계분석법 연속변수 ( 혈압 ) 연속변수 ( 혈압 ) 범주형 ( 병발생여부 ) 연속형 ( 아기의체중 ) 연속형 ( 출생시체중 ) 명목척도 (2 개범주 ) 범주형 (3 개이상 ) 범주형 ( 투약여부 ) 연속형 ( 재태임신기간 ) 연속형 + 범주형 ( 재태기간 smoking 여부 ) T 검정, paired T 검정 분산분석 (ANOVA) 카이제곱검정 ( 하나의독립변수 ) 로지스틱회귀분석 ( 둘이상의변수 ) 회귀분석 공분산분석 (ANCOVA) 생존시간 ( 연속형, >0) 연속형나이 + 범주형 smoking 여부 생존분석

자료의성격 종속변수가범주형종속변수가연속형두개의독립된집단두개의짝지은집단세개이상의집단제3의변수의영향고려상관분석 모수적방법 카이제곱검정 T-test Paired t-test ANOVA 2-way ANOVA Pearson correlation 비모수적방법 Fisher s exact test Ncnemar test Cochran s Q Wilcoxon rank sum test Man-whitney median test Wilcoxon signed rank test Kruscal-Wallis test Friedman s 2-way ANOVA Spearman s correlation Kendall s tau Stuart s tau

t-test ( 연속변수의두집단평균비교 )

T-test 관심변수가연속일때 ( 정규분포를따를때 ) 두집단간에평균의차이를보는검정 : 두개의독립적인집단간의차이 Paired( 짝지은 ) t-test : 한개체에서짝지은관찰치들의동질성을볼때 : 처치전의값과후의값을비교할때 ( 처치전과후에상관관계가존재한다는가정을고려 ) 표본수가적은경우에는정규분포가정을확인하기가곤란하다. -> 비모수적방법 두개이상의집단혹은다른변수로보정을할때 -> ANOVA ( 분산분석 )

Single Sample Analysis dataset: peppers Peppers Dataset Obs angle 1 3 2 11 3-7 4 2 5 3 6 8 7-3 8-2 9 13 10 4 11 7 12-1 13 4 14 7 15-1 16 4 17 12 18-3 19 7 20 5 21 3 22-1 23 9 24-7 25 2 26 4 27 8 28-2

roc means data=peppers mean std stderr t probt; un; ptions. stderr: the standard error of the mean. t: H : µ = 0 0 을검정하는 t test. probt: the significance probability of the t test The MEANS Procedure 분석변수 : angle 평균값표준편차표준오차 t값 Pr > t ----------------------------------------------------------------- 3.1785714 5.2988718 1.0013926 3.17 0.0037 -------------------------------------------------------------------

Two Independent Samples Bullets Dataset dataset: bullets Obs powder velocity 1 1 27.3 2 1 28.1 3 1 27.4 4 1 27.7 5 1 28.0 6 1 28.1 7 1 27.4 8 1 27.1 9 2 28.3 10 2 27.9 11 2 28.1 12 2 28.3 13 2 27.9 14 2 27.6 15 2 28.5 16 2 27.9 17 2 28.4 18 2 27.7

oc ttest data=bullets; r velocity;class powder; n; The TTEST Procedure Lower CL Upper CL Lower CL Variable powder N Mean Mean Mean Std Dev velocity 1 8 27.309 27.638 27.966 0.2596 velocity 2 10 27.841 28.06 28.279 0.2106 velocity Diff (1-2) -0.771-0.422-0.074 0.2582 Upper CL Variable powder Std Dev Std Dev Std Err Minimum Maximum velocity 1 0.3926 0.799 0.1388 27.1 28.1 velocity 2 0.3062 0.5591 0.0968 27.6 28.5 velocity Diff (1-2) 0.3467 0.5276 0.1644 Variable Method Variances DF t Value Pr > t velocity Pooled Equal 16-2.57 0.0206 velocity Satterthwaite Unequal 13.1-2.50 0.0267 Equality of Variances Variable Method Num DF Den DF F Value Pr > F velocity Folded F 7 9 1.64 0.4782 For H0: Variances are equal, F = 1.64 DF = (7,9)

Two Related Samples : paired t-test Pulse Dataset dataset: pulse Obs pre post d 1 62 61 1 2 63 62 1 3 58 59-1 4 64 61 3 5 64 63 1 6 61 58 3 7 68 61 7 8 66 64 2 9 65 62 3 10 67 68-1 11 69 65 4 12 61 60 1 13 64 65-1 14 61 63-2 15 63 62 1 d = pre-post (difference in rate)

roc means data=pulse mean std stderr t probt; ar d; un; The MEANS Procedure 분석변수 : d 평균값표준편차표준오차 t 값 Pr > t ------------------------------------------------------------------- 1.4666667 2.3258383 0.6005289 2.44 0.0285 ------------------------------------------------------------------- Two-sided p-value One-sided p-value=0.0285/2=0.0143 for H0 : d = 0 vs. H1 : d > 0

ANOVA (Analysis of Variance) 분산분석세집단이상에서의연속변수평균들의비교

ANOVA (Analysis of Variance) 수 brand: 5개의비닐 Brand wear: 얼마나약한가 i odel yij i = µ + τi = µ i + ε ij 수준의평균 + ε ij i = ACME 전체평균 수준의효과 AJAX CHAMP TUFFY XTRA Obs brand wear 1 ACME 2.3 2 ACME 2.1 3 ACME 2.4 4 ACME 2.5 5 CHAMP 2.2 6 CHAMP 2.3 7 CHAMP 2.4 8 CHAMP 2.6 9 AJAX 2.2 10 AJAX 2.0 11 AJAX 1.9 12 AJAX 2.1 13 TUFFY 2.4 14 TUFFY 2.7 15 TUFFY 2.6 16 TUFFY 2.7 17 XTRA 2.3 18 XTRA 2.5 19 XTRA 2.3 20 XTRA 2.4

ANOVA for One-Way Classification oc anova data=veneer; class brand; del wear=brand; run; pendent Variable: wear The ANOVA Procedure Sum of urce DF Squares Mean Square F Value Pr > F del 4 0.61700000 0.15425000 7.40 0.0017 ror 15 0.31250000 0.02083333 rrected Total 19 0.92950000 Square Coeff Var Root MSE wear Mean 663798 6.155120 0.144338 2.345000 urce DF Anova SS Mean Square F Value Pr > F and 4 0.61700000 0.15425000 7.40 0.0017

east Significant Difference Comparisons of BRAND Mean oc anova data=veneer; ass brand; del wear=brand; ans brand/lsd; n; The ANOVA Procedure t Tests (LSD) for wear Alpha 0.05 Error Degrees of Freedom 15 Error Mean Square 0.020833 Critical Value of t 2.13145 Least Significant Difference 0.2175 Means with the same letter are not significantly different. T Grouping Mean N brand A 2.6000 4 TUFFY B 2.3750 4 XTRA B B 2.3750 4 CHAMP B B 2.3250 4 ACME C 2.0500 4 AJAX

Sas 예제 options pageno=1 nodate ls=130 ps=60 nocenter; filename inbrakes 'c:\myweb\int\taillite.dat'; data one; infile inbrakes ; input id vehtype group positn speedzn resptime follotme folltmec; if group=1; label vehtype='vehicle Type' group='group - Light On=1 Light Off=2' positn='light Position' speedzn='speed Zone' resptime='response Time' follotme='following Time in Vedio Frames' folltmec='following Time in Categories' ;run; proc sort; by vehtype; /* Let's do one-way ANOVA to see the effect of vehicle type */ proc anova; class vehtype; model resptime=vehtype; title 'Parametric ANOVA analysis'; run; /* What's wrong with this? We didn't check the normality assumption. Let's do proc univariate to check the normality

The ANOVA Procedure Class Level Information Class Levels Values vehtype 4 1 2 3 4 Number of Observations Read 733 Number of Observations Used 733 Parametric ANOVA analysis 2 The ANOVA Procedure Dependent Variable: resptime Response Time Sum of Source DF Squares Mean Square F Value Pr > F Model 3 3886.5377 1295.5126 3.75 0.0109 Error 729 252025.5278 345.7140 Corrected Total 732 255912.0655 R-Square Coeff Var Root MSE resptime Mean 0.015187 41.91847 18.59339 44.35607 Source DF Anova SS Mean Square F Value Pr > F vehtype 3 3886.537689 1295.512563 3.75 0.0109

proc univariate data=one normal plot; var resptime; by vehtype; histogram resptime /cfill=blue kernel(color=red) normal(color=black); probplot resptime / normal (mu=est sigma=est); title 'Normality Check'; run; proc boxplot data=one ; plot resptime*vehtype /boxstyle =SCHEMATIC cboxes =blue cboxfill =gray idcolor=red ; run;

Vehicle Type=1 UNIVARIATE 프로시저변수 : resptime (Response Time) 적률 N 157 가중합 157 평균 42.9617834 관측치합 6745 표준편차 17.6402386 분산 311.178017 왜도 1.79175355 첨도 5.20936144 제곱합 338321 수정제곱합 48543.7707 변동계수 41.0603033 평균의표준오차 1.40784431.. 정규분포에대한적합도검정 검정 ----- 통계량 ----- ------p- 값 ------- Kolmogorov-Smirnov D 0.13553580 Pr > D <0.010 Cramer-von Mises W-Sq 0.78799637 Pr > W-Sq <0.005 Anderson-Darling A-Sq 4.60747650 Pr > A-Sq <0.005

Kolmogorov-Smirnov D 0.05711477 Pr > D >0.150 Cramer-von Mises W-Sq 0.08162639 Pr > W-Sq 0.204 Anderson-Darling A-Sq 0.49951454 Pr > A-Sq 0.215 proc npar1way wilcoxon; class vehtype; var resptime ; title 'Nonpara One-Way ANOVA for Tail Light Study'; run; /* The other way is transformation. Let's take log transformation so that we have normal distribition. */ data t; set one; t=log(resptime); label t='ln (response time)'; run; proc sort; by vehtype; proc univariate data=t normal plot; var t; by vehtype; histogram t /cfill=blue kernel(color=red) normal(color=black); probplot t / normal (mu=est sigma=est); title 'Normality Check for transformed variable'; run; 정규분포에대한적합도검정 검정 ----- 통계량 ----- ------p- 값 -------

/* The transformed variable seems to normally ditributed. Then we can do parametric ANOVA with normality assumption */ proc anova; class vehtype; model t=vehtype; title 'ANOVA for the log transformed response time'; run; proc boxplot data=t ; plot t*vehtype /boxstyle =SCHEMATIC cboxes =blue cboxfill =gray idcolor=red ; run; The ANOVA Procedure Dependent Variable: t ln (response time) Sum of Source DF Squares Mean Square F Value Pr > F Model 3 1.0313778 0.3437926 2.44 0.0633 Error 729 102.7458858 0.1409409 Corrected Total 732 103.7772636 R-Square Coeff Var Root MSE t Mean 0.009938 10.09838 0.375421 3.717634 Source DF Anova SS Mean Square F Value Pr > F vehtype 3 1.03137782 0.34379261 2.44 0.0633

회귀분석 (Regression Analysis) 연속형설명변수가연속형종속 변수에미치는영향을분석

회귀계수의의미 단순회귀 : X 1 단위증가시 Y 증가분의기대치 Let Y = β + β X+ ε 0 1 E x x ( Y X = + 1) = β + β ( + 1) 0 1 - E( Y X = x) = β + β x = β = EY ( X = 0) 0 0 1 β 1

단순회귀와중회귀에서회귀 계수들의의미차이중회귀 : 다른 X 들이일정한값으로남아있을때관심 X 가 1 단위증가시 Y 의기대치의증가분 Let Y= β + βx + β X + ε 0 1 1 2 2 E( Y X = x + 1, X = x ) = β + β( x + 1) + β x 1 2 1 2 - ( Y X, X ) 1 2 1 2 0 1 1 2 E = x = x = β + βx + β x = 0 1 1 2 β 1 2 2

* 편 Y X 2 * = β + β X + ε 0 1 1 이라면 은와는아무런관계없이 X1, Y의그림에서의기울기이다. β X1 2 * 약 1 과β 이다르다면의효과를보는데있어서 X 1 를려하느냐마느냐하는것에따라서결론이다르게된다. X 2 러한경우를혼란변수 (confounder) 하고한다. 혼란변수를고려하지않은모형에서의결론은올바른결론이라할수없다. 연구설계시부터혼란변수로작용할수있는모든변수들을고려해야한다.

가상적예제 Y= 수축기혈압 X1= 고혈압여부, X2= 연령 * Y= β + β X + ε 0 2 2 * 의모형에서 β 2 는고혈압여부와상관없이단순이자료에서연령이증가함에따라혈압이얼마나증가하는가를나타내고있다. 하지만 Y= β + βx + β X + ε 0 1 1 2 2 의모형에서 β 2 는가상의사람이고혈압상태가같다고할때의연령과혈압과의관계를나타낸다. 어떠한모수에우리가더관심이있는가?

자료 중회귀 Y : 가축시장을운영하는비용 (COST) X : 각가축의수 CATTLE CALVES HOGS SHEEP 모형 = β + β( ) + β( ) + β( ) + β( ) + ε, COST CATTLE CALVES HOGS SHEEP ε 0 1 2 3 4 2 iid (0, σ ) N

Proc reg data=auction; model cost=cattle calves hogs sheep; Model: MODEL1 Dependent Variable: cost SAS 시스템 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 4 7936.73649 1984.18412 52.31 <.0001 Error 14 531.03865 37.93133 Corrected Total 18 8467.77514 Root MSE 6.15884 R-Square 0.9373 Dependent Mean 35.29342 Adj R-Sq 0.9194 Coeff Var 17.45040 Parameter Estimate Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept 1 2.28842 3.38737 0.68 0.5103 cattle 1 3.21552 0.42215 7.62 <.0001 calves 1 1.61315 0.85168 1.89 0.0791 hogs 1 0.81485 0.47074 1.73 0.1054 sheep 1 0.80258 0.18982 4.23 0.0008

중회귀방정식을위한 독립변수의선정 Forward selection Backward elimination Stepwise selection

분석 -> 회귀분석 -> 선형회귀분석 -> 방법 : 단계선택

진입 / 제거된변수 모형 1 2 3 4 5 6 a. 진입된변수 제거된변수 방법 단계선택 ( 기준 : 입력할 F의 income. 확률 <=. 050, 제거할 F의확률 >=. 100). aircapac. 단계선택 ( 기준 : 입력할 F의확률 <=. 050, 제거할 F의확률 >=. 100). applidx. 단계선택 ( 기준 : 입력할 F의확률 <=. 050, 제거할 F의확률 >=. 100). 단계선택 ( 기준 : 입력할 F의. income 확률 <=. 050, 제거할 F의확률 >=. 100). 단계선택 ( 기준 : 입력할 F의 housize. 확률 <=. 050, 제거할 F의확률 >=. 100). family. 단계선택 ( 기준 : 입력할 F의확률 <=. 050, 제거할 F의확률 >=. 100). 종속변수 : peak 모형 1 2 3 4 5 6 모형요약 추정값의 R R 제곱 수정된 R 제곱 표준오차.930 a.865.863.52986.972 b.944.942.34401.980 c.960.958.29185.979 d.959.958.29306.983 e.966.964.27075.984 f.969.966.26245 a. 예측값 : ( 상수 ), income b. 예측값 : ( 상수 ), income, aircapac c. 예측값 : ( 상수 ), income, aircapac, applidx d. 예측값 : ( 상수 ), aircapac, applidx e. 예측값 : ( 상수 ), aircapac, applidx, housize f. 예측값 : ( 상수 ), aircapac, applidx, housize, family

모형 1 2 3 4 5 6 선형회귀분석잔차합계선형회귀분석잔차합계선형회귀분석잔차합계선형회귀분석잔차합계선형회귀분석잔차합계선형회귀분석잔차합계 a. 예측값 : ( 상수 ), income b. 예측값 : ( 상수 ), income, aircapac 분산분석 g 제곱합 자유도 평균제곱 F 유의확률 104.305 1 104.305 371.518.000 a 16.284 58.281 120.589 59 113.844 2 56.922 480.983.000 b 6.746 57.118 120.589 59 115.819 3 38.606 453.255.000 c 4.770 56.085 120.589 59 115.694 2 57.847 673.550.000 d 4.895 57.086 120.589 59 116.484 3 38.828 529.681.000 e 4.105 56.073 120.589 59 116.801 4 29.200 423.941.000 f 3.788 55.069 120.589 59 c. 예측값 : ( 상수 ), income, aircapac, applidx d. 예측값 : ( 상수 ), aircapac, applidx e. 예측값 : ( 상수 ), aircapac, applidx, housize f. 예측값 : ( 상수 ), aircapac, applidx, housize, family g. 종속변수 : peak

모형 1 2 3 4 5 6 housize aircapac applidx family housize applidx family housize family housize family income family income income 제외된변수 g 공선성통 계량 진입-베타 t 유의확률 편상관 공차한계.213 a 2.327.024.295.259.500 a 8.978.000.765.316.135 a.997.323.131.127.012 a.254.800.034.993.188 b 3.301.002.404.259.372 b 4.816.000.541.118.016 b.512.611.068.993.149 c 3.009.004.376.251.033 c 1.230.224.164.977.154 d 3.283.002.402.275.036 d 1.335.187.176.985.116 d 1.214.230.160.077.053 e 2.145.036.278.951.033 e.354.725.048.071.003 f.034.973.005.069 a. 모형내의예측값 : ( 상수 ), income b. 모형내의예측값 : ( 상수 ), income, aircapac c. 모형내의예측값 : ( 상수 ), income, aircapac, applidx d. 모형내의예측값 : ( 상수 ), aircapac, applidx e. 모형내의예측값 : ( 상수 ), aircapac, applidx, housize f. 모형내의예측값 : ( 상수 ), aircapac, applidx, housize, family g. 종속변수 : peak

카이제곱검정 두이산변수간의관련성검정

카이제곱검정 (1) Satisfied Not Total Drug A 16 (45.2%) 15 31 Drug B 9 (36.4%) 3 22

카이제곱검정 (2) 두사건A와B가독립 <-> P(A and B) = P(A) P(B) 만약약제와반응이독립이라면기대값은 Satisfied Not Total Drug A 31/53 * 25/53 * 53=14.6 31 Drug B 22 Total 25 28 53

카이제곱검정 (3) 카이제곱통계량은이기대치 (14.6) 와실제값 (16) 의차이의제곱의함수이다. 카이제곱통계량이크다 ( 작은 p-value) -> 기대치와실제값이다르다 -> 기대치를계산하기위한가정 ( 귀무가설 : 두변수가독립이다 ) 이틀리다 -> 두변수간에상관이있다 ( 약품에따라반응이다르다 ) 는대립가설을채택한다.

2 2 table Chi-square statistics 1 2 1 2 n 11 n 12 n 21 n 22 n n +1 +2 n 1+ n 2+ N Mantel-Haenszel Chi-square Q = ( n m ) 11 11 v 11 Pearson chi-square Q P 2 2 =ΣΣ i= 1 j= 1 2 ( n m ) ij m ij ij 2

data respire; input treat $ outcome $ count ; cards; test f 40 test u 20 placebo f 16 placebo u 48; proc freq; weight count; tables treat*outcome/chisq; run;

treat outcome SAS 시스템 FREQ 프로시저 treat * outcome 교차표 빈도 백분율 행백분율 칼럼백분율 f u 총합 -----------+--------+--------+ placebo 16 48 64 12.90 38.71 51.61 25.00 75.00 28.57 70.59 -----------+--------+--------+ test 40 20 60 32.26 16.13 48.39 66.67 33.33 71.43 29.41 -----------+--------+--------+ 총합 56 68 124 45.16 54.84 100.00

treat * outcome 테이블에대한통계량 통계량 자유도 값 확률값 ---------------------------------------------------------- 카이제곱 1 21.7087 <.0001 우도비카이제곱 1 22.3768 <.0001 연속성수정카이제곱 1 20.0589 <.0001 Mantel-Haenszel 카이제곱 1 21.5336 <.0001 파이계수 -0.4184 분할계수 0.3860 크래머의 V -0.4184 Fisher 의정확검정 ---------------------------- (1,1) 셀빈도 (F) 16 하단측 p 값 Pr <= F 2.838E-06 상단측 p 값 Pr >= F 1.0000 테이블확률 (P) 2.397E-06 양측 p 값 Pr <= P 4.754E-06 표본크기 = 124

data severe; input treat $ outcome $ count ; cards; Test f 10 Test u 2 Control f 2 Control u 4 ; proc freq order=data; tables treat*outcome / chisq nocol; weight count; run;

treat outcome SAS 시스템 FREQ 프로시저 treat * outcome 교차표 빈도 백분율 행백분율 f u 총합 -----------+--------+--------+ Test 10 2 12 55.56 11.11 66.67 83.33 16.67 -----------+--------+--------+ Control 2 4 6 11.11 22.22 33.33 33.33 66.67 -----------+--------+--------+ 총합 12 6 18 66.67 33.33 100.00

treat * outcome 테이블에대한통계량 통계량자유도값확률값 ---------------------------------------------------------- 카이제곱 1 4.5000 0.0339 우도비카이제곱 1 4.4629 0.0346 연속성수정카이제곱 1 2.5313 0.1116 Mantel-Haenszel 카이제곱 1 4.2500 0.0393 파이계수 0.5000 분할계수 0.4472 크래머의 V 0.5000 경고 : 셀들의 75% 가 5 보다작은기대도수를가지고있습니다. 카이제곱검정은올바르지않을수있습니다. Fisher 의정확검정 ---------------------------- (1,1) 셀빈도 (F) 10 하단측 p 값 Pr <= F 0.9961 상단측 p 값 Pr >= F 0.0573 테이블확률 (P) 0.0533 양측 p 값 Pr <= P 0.1070 표본크기 = 18

Exact Test Table Cell (1,1) (1,2) (2,1) (2,2) probabilities 12 0 0 6.0001 11 1 1 5.0039 10 2 2 4.0533 9 3 3 3.2370 8 4 4 2.4000 7 5 5 1.2560 6 6 6 0.0498

Table Probabilities One-tailed p-value p = 0.0533 + 0.0039 + 0.0001 = 0.0573 Two-tailed p-value p = 0.0533+ 0.0039 + 0.0001+ 0.0498 = 0.1071

Difference in Proportions E{ p p } = π π v d 1 2 1 2 p1(1 p1) p2(1 p2) = + n 1 n 1 1+ 2+ 1 1 1 d ± { zα vd + ( + )} 2 2 n n + 1 + 2

Odds Ratio and Relative Risk OR f v f p /(1 p ) n n = = p /(1 p ) n n 1 1 11 22 2 2 12 21 log{ OR} log p /(1 p ) = log{ p /(1 p )} log{ p /(1 p )} 1 1 = = p2 /(1 p2) 1 1 2 2 1 1 1 1 = + + + n n n n 11 12 21 22 exp( f ± z v ) α 2 f

RR RR = p p 1 2 = OR 1 ( ) 1 21 22 ( ) 11 12 if n and n are small relative to n and n 11 21 12 22 rare outcome assumption + + n n n n Group1 Yes No n n 11 12 total n 1+ Proportion Yes p = n n 1 11 22 Group2 n n 21 22 n 2+ p2 = n21 n12 total n n +1 +2 N

data stress; input stress $ outcome $ count ; cards; low f 48 low u 12 high f 96 high u 94 ; proc freq order=data; tables stress*outcome / chisq measures nocol nopercent; weight count; run ;

FREQ 프로시저 stress * outcome 교차표 stress outcome 빈도 행백분율 f u 총합 -----------+--------+--------+ low 48 12 60 80.00 20.00 -----------+--------+--------+ high 96 94 190 50.53 49.47 -----------+--------+--------+ 총합 144 106 250 stress * outcome 테이블에대한통계량 통계량자유도값확률값 ---------------------------------------------------------- 카이제곱 1 16.2198 <.0001 우도비카이제곱 1 17.3520 <.0001 연속성수정카이제곱 1 15.0354 0.0001 Mantel-Haenszel 카이제곱 1 16.1549 <.0001 파이계수 0.2547 분할계수 0.2468

Fisher 의정확검정 ---------------------------- (1,1) 셀빈도 (F) 48 하단측 p 값 Pr <= F 1.0000 상단측 p 값 Pr >= F 3.247E-05 테이블확률 (P) 2.472E-05 양측 p 값 Pr <= P 4.546E-05 통계량값점근표준오차 ---------------------------------------------------------- 감마 0.5932 0.1147 Kendall 의타우 -b 0.2547 0.0551 Stuart 타우 -c 0.2150 0.0489 Somers D C R 0.2947 0.0631 Somers D R C 0.2201 0.0499 Pearson 상관계수 0.2547 0.0551 Spearman 상관계수 0.2547 0.0551 람다비대칭 C R 0.0000 0.0000 람다비대칭 R C 0.0000 0.0000 람다대칭 0.0000 0.0000 불확실계수 C R 0.0509 0.0231 불확실계수 R C 0.0630 0.0282 불확실계수대칭 0.0563 0.0253

상대위험도의추정값 ( 행 1/ 행 2) 연구유형값 95% 신뢰한계 ----------------------------------------------------------------- 사례대조연구 ( 오즈비 ) 3.9167 1.9575 7.8366 코호트 ( 칼럼1 리스크 ) 1.5833 1.3104 1.9131 코호트 ( 칼럼2 리스크 ) 0.4043 0.2389 0.6841 표본크기 = 250

data respire; input treat $ outcome $ count ; cards; test yes 29 test no 16 placebo yes 14 placebo no 31 ; proc freq order=data; tables treat*outcome / measures chisq nocol nopercent; weight count; run ;

FREQ 프로시저 treat * outcome 교차표 treat outcome 빈도 행백분율 yes no 총합 -----------+--------+--------+ test 29 16 45 64.44 35.56 -----------+--------+--------+ placebo 14 31 45 31.11 68.89 -----------+--------+--------+ 총합 43 47 90 상대위험도의추정값 ( 행 1/ 행 2) 연구유형값 95% 신뢰한계 ----------------------------------------------------------------- 사례대조연구 ( 오즈비 ) 4.0134 1.6680 9.6564 코호트 ( 칼럼 1 리스크 ) 2.0714 1.2742 3.3675 코호트 ( 칼럼 2 리스크 ) 0.5161 0.3325 0.8011 표본크기 = 90

McNemar Test : Matched pairs

Frequency Percent Row Pct Col Pct yes no Total ---------+----------+----------+ yes 20 5 25 44.44 11.11 55.56 80.00 20.00 66.67 33.33 ---------+----------+-----------+ no 10 10 20 22.22 22.22 44.44 50.00 50.00 33.33 66.67 ---------+----------+----------+ Total 30 15 45 66.67 33.33 100.00 Statistics for Table of hus_resp by wif_resp McNemar's Test ----------------------- Statistic (S) 1.6667 DF 1 Pr > S 0.1967 Ho : husband and wife 의 approval rates 는같다 를기각하지못함.

Simple Kappa Coefficient ------------------------------- Kappa 0.3077 ASE 0.1402 95% Lower Conf Bound 0.0329 95% Upper Conf Bound 0.5825 신뢰구간이 0을포함하지않으므로 =0 이라는귀무가설을 95% 신뢰수 Sample Size = 45 준에서기각한다. Kappa=1 >> perfect agreement, Kappa > 0.8 >> excellent agreement Kappa > 0.4 >> moderate agreement

Logistic Regression 로지스틱회귀분석설명변수 ( 연속, 혹은이산 ) 가이산형종속변수에미치는영향분석

Y = 1 for disease X1 = 1 for male X 2 = age 0 for non-disease 0 for female 불연속연속 ( Y = 1) β + β X + β X lin ea r p red icto r ( Y = 1 ) ( Y = ) ( ) [ ] ( Y 1 ) 0 1 1 2 2 ( ) p og logit link function 1- p 1 o g it p Y = 1 = β + β X + β X p = = exp 0 1 1 2 2 ( β + β X + β X ) 0 1 1 2 2 ( β β X β X ) 1 + ex p + + 0 1 1 2 2 1 = 1 + ex p ( β β X β X ) 0 1 1 2 2

PY ( = 1 X ) 1= X2= 0 β0= log, X ( ) 1= X2= 0 1 PY= 1 X1= X2= 0 PY ( = 1 X ) 1 = 1, X2 = x log = β ( ) 0+ β1+ β2x 1 PY= 1 X1 = 1, X2 = x PY ( = 1 X ) 1 = 0, X2 = x log 1 PY= 1 X1 = 0, X2 = x ( ) = β0+ β2x 일때의 log odds 값 β 1 = 연령으로보정한후 ( 연령이같은값으로남아있을때 ) 성별 이남일때 ( 여에비하여 ) 병걸릴확률이 log odds ratio의증가분. odds ratio의증가분 exp( β 1) =

2 ( ) ( ) ( ) ( ) P Y = 1 X1= a, X2 = x+ 1 P Y = 1 X1= a, X2 = x = log log 1 P Y = 1 X = a, X = x+ 1 1 P Y = 1 X = a, X = x 1 2 1 2 : 다른 x들이일정한값으로남아있을때 ( 성별이일정할때, 성별의효과를보정한후 ) 연령이한단위증가할시병걸릴확률의log odds ratio의증가분 exp( β 2 ) =... odds ratio 의증가분

proc logistic data=esr descending; model response=fibrin globulin; title 'ESR Data'; run; y=0,1 인경우 default 는작은값 (0) 을기준으로, 큰값을기준으로하려면 descending option 이필요

The LOGISTIC Procedure Model Information Data Set WORK.ESR Response Variable response Number of Response Levels 2 Number of Observations 32 Link Function Logit Optimization Technique Fisher's scoring Response Profile Ordered Total Value response Frequency 1 1 6 2 0 26 Model Convergence Status Convergence criterion (GCONV=1E-8) satisfied.

Model Fit Statistics Intercept Intercept and Criterion Only Covariates AIC 32.885 28.971 SC 34.351 33.368-2 Log L 30.885 22.971 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 7.9138 2 0.0191 Score 8.2067 2 0.0165 Wald 4.7561 2 0.0927

Analysis of Maximum Likelihood Estimates Parameter Standard Wald Standardized riable DF Estimate Error Chi-Square Pr > ChiSq Estimate tercept 1-12.7920 5.7964 4.8704 0.0273 brin 1 1.9104 0.9710 3.8708 0.0491 0.6710 obulin 1 0.1558 0.1195 1.6982 0.1925 0.3936 Analysis of Maximum Likelihood Estimtemates Odds Variable Ratio Intercept fibrin 6.756 globulin 1.169

유전자형자료분석의기본 개념 Genotype Freq, Allele Freq, Hardy-Weinberg Disequilibrium, (Mendelian) Genetic Models, LD, Haplotype, Heritability, SNP Association Study, Multiple Comparisons

Genotype

Allele frequency

Genotype frequency

Hardy-Weinberg In a stable population with random mating, allele freq predicts genotype freq. Goodness-of-fit can be applied to test H-W Equilibrium

통계기본이론 Chi-square Test Ho: 우리의자료가특정모형 2 (HWE) 을따른다 qp q ( 관찰값- 기대값) p 2 2 χ df 기대값 pq 자유도 = 범주의개수 -1- 추정한모수의수 2 q

HWE 예제 1 개수 관찰값 기대값 AA 298 294.3063 Aa 489 496.3875 aa 213 209.3063 total 1000 1000 빈도 관찰값 기대값 0.2980 0.2943 0.4890 0.4964 0.2130 0.2093 1 1 - p = (2ⅹ298+489)/(2ⅹ1000) = 0.5425 q = (489+2ⅹ213)/(2ⅹ1000) = 0.4575 - P(A) = p 2 =(0.5425) 2 =0.2943 P(Aa) = 2pq= 2ⅹ(0.5425)ⅹ(0.4575)=0.4964 P(aa) = q 2 =(0.4575) 2 =0.2093 - 기대값 (expected frequency) AA = P(AA)ⅹ1000 = 294.3064 Aa = P(Aa)ⅹ1000 = 496.3875 aa = P(aa)ⅹ1000 = 209.3063

검정통계량 2 (298 294.3063) (489 496.3875) (213 209.3063) χ = + + 294.3063 496.3875 209.3063 = 0.2215 자유도 =3-1-1=1 2 2 2 자유도가 1 인카이제곱분포에근거가 p 값이 0.6379 이므로관찰된값은 Ho (HWE 상태 ) 를기각할수있는충분한근거가없다. 즉 HWE 상태라고결론내린다. 실무에서는 genotype error check 의방법으로많이사용된다.

통계기본이론 Test of association (Odds ratio, Chi-square test) R = Case Total 2 p qp Control 1 n 11 n 21 n +1 pq 2 q 2 n 12 n 22 n +2 Total n 1+ n 2+ p /(1 p ) ( n / n ) /( n / n ) n / n n n = = = p /(1 p ) ( n / n ) /( n / n ) n / n n n 1 1 11 1+ 12 1+ 11 12 11 2 2 2 21 2+ 22 2+ 21 22 21 1 N 2 q Chi-square test with df=(#col =(#col-1)(#row-1) : Ho: OR=1 Expected cell freq is bigger than 5, if not use Fisher s s Exact

Chi-square 예제 : Genotype-based (Codominant model) Case Control Total MM n 2A n 2O n 2+ OR = MM/mm OR = Mm/mm = = 2 p qp Mm n 1A n 1O n 1+ n n n n pq 2 q 2A 0O 2O 0A n n n n 1A 0O 1O 0A mm n 0A n 0O n 0+ Total n +A n +O N Co-dominant model MM Mm mm 간의관계를가정하지않음 자유도 2 인검정 2 q

Chi-square 예제 : Genotype-based (Dominant Model) Case Control Total p 2 MM or Mm qp n 2A + n 1A n 2O +n 1O n 2+ +n 1+ pq 2 q mm n 0A n 0O n 0+ Total n +A n +O N 2 q OR MM or Mm /mm Dominant model (MM = Mm) > mm 자유도 1 인검정

Chi-square 예제 : Genotype-based (Recessive model) Case Control Total MM n 2A n 2O n 2+ 2 p qp Mm pq or mm q 2 n 1A +n 0A n 1O +n 0O n 1+ +n 0+ Total n +A n +O N 2 q OR MM/Mm or mm Recessive model MM > (Mm=mm) 자유도 1 인검정

Chi-square 예제 : Genotype-based (Additive Model) Case Control Total OR = OR MM/Mm MM n 2A n 2O n 2+ Mm/mm 2 p qp Mm n 1A n 1O n 1+ OR = 2 OR = 2 OR pq 2 q mm n 0A n 0O n 0+ MM/mm Mm/mm MM/Mm Additive model Total n +A n +O (MM-Mm)=(Mm-mm) Dose-Response 가정 자유도 1 인검정 N 2 q

Linkage Disequilibrium Alleles at different sites should occur in a combinations relative to their SNP allele freq

LD Block

Shaw et al. Am J of Medical Genet 114 205-213 (2002)

From SNP to Haplotype Phenotype Black eye Brown eye Black eye Blue eye Brown eye Brown eye 1 2 3 4 5 6 SNP SNP GATATTCGTACGGA-T GATGTTCGTACTGAAT GATATTCGTACGGA-T GATATTCGTACGGAAT GATGTTCGTACTGAAT GATGTTCGTACTGAAT Haplotypes AG- 2/6 GTA 3/6 AGA 1/6 DNA Sequence

Association study using haplotype Hap AG- GTA AGA Total Case Control Total 2N Hap Pair AG-/AG- AG-/GTA AG-/AGA AGA/AGA Total Case Control Total N

Hap Pair Case Control 만약 AGA 가 risk hap Else Else/AGA AGA/AGA Total Total 만약 AGA 가 risk hap 이고 Dominant Model 을적용한다면 N Hap Pair Else Else/AGA or AGA/AGA Total Case Control Total N

How to identify the genes Family study Linkage analysis: pedigree 필요 Sib pair analysis: oligogenic, multigenic Population study Case-control association study

New Gene Discovery Phenotype Segregation Association study Gene? Linkage analysis (LD, sibpair et al) Putative gene (locus)

Heritability 형질 (Trait) 유전율 (%) 형질 (Trait) 유전율 (%) 수명 29 언어능력 63 키 85 최대맥박수 84 몸무게 63 계산능력 76 아미노산분비 72 기억력 47 혈중지질농도 44 사회적응력 66 혈중최대젖산농도 34 감성 58

T = k { ( D E )} i= 1 1i 1i k i= 1 V 1i 2

SNP Association Study 1. Study design 1. Select target disease 2. Case-control criteria 3. Determine # of samples 2. Sample and Data Collection 1. Genetic materials 2. Clinical information/phenotypic classification 3. Environmental Information 3. Genotyping 1. Select candidate genes/snp 2. Whole genome screening 3. Select appropriate method of genotyping 4. Statistical Analysis

Statistical analysis scheme of SNP Genotyping Data

Multiple Comparisons ( 다중비교 ) ex) 한 test 에서유의수준이인 test 가있다고하자. 일반적으로 multiple comparison 을한다면 overall 는 0.05 가아니라 0.1855 가되므로 type I error 가 Inflate 되었다. α Let H : α = 0, Pr(do not reject H H is true) = 1 α H 01 1 01 01 : α = 0, Pr(do not reject H H is true) = 1 α 02 2 02 02 then Pr(do not reject H H ) where H = H and H 0 0 0 01 02 t reject H H ) = Pr(do not reject H 01 and do no 02 0 2 = (1- α) (1- α) = (1- α) α1 = α2 = α3 = = α k = 0 를 k (1 α) (1 α) α 4 1 0.1855 = 0.8145 = (.95).95

Multiple Comparisons Bonferroni Correction : 만약 m개의 multiple comparison을한다면각각의유의수준을 α 로하면전체의유의수준을에가깝게할수있다. m α 예 )m 이 4 인경우 0.05 4 4 (1 ) 0.95 = 1 0.05 응용 ) 10개의 mean을비교하는경우 p값의기준을 0.05로하면 overall p값을유지할수없으므로각각의경우 0.05 0.005 를기준으로 test를실시한다. 10 = 이를 Bonferroni corrected p-value 라고한다.

Multiple Comparisons: FDR False Discovery Rate FDR = False Positive / Total Positive 1. Order p-values (largest to smallest) 2. Test 0.05 k/n, k=n, N-1,., 1 Sequentially reduce error rate > power reduced much less Bonferroni, too conservative ; FDR helpful

Multiple Comparisons: FDR (independent test) Benjamini and Hochberg (1995) 1. Order p-values by P (1), P (2),., P (m) 2. Find the largest k such that 3. 1,2,,k 까지는유의하다. ( 예 ) m=500k, 0.05/500K =10^(-7) : Bonferroni correction 0.05/500K * 2, 0.05/500K * 3 해서 P (2000) <2000*10^(-7) 이고 P (2001) >2001*10^(-7) 이라면 2000개뽑는다.

Multiple Comparisons: FDR (dependent test) Benjamini and Yekutieli (2001) 1. Order p-values by P (1), P (2),., P (m) 2. Find the largest k such that 3. 1,2,,k 까지는유의하다. If tests are indep or positively correlated then If tests are negatively correlated then

Permutation test

Statistical Models for SNP Association Study Response Var Group Statistical Methods 연속변수 (BMI, BP, etc) 이항변수 (casecontrol) 2 groups 2 groups (N<5 per group) 3 groups or more 보정변수 2 groups 2 groups (N<5 per group) 보정변수 T-test Wilcoxon test ANOVA ANCOVA, regression Chi-square test Fisher s Exact test Logistic regression

감사합니다. hokim@snu.ac.kr http://plaza.snu.ac.kr /~hokim