SAS를 이용한 자료의 탐색

Save this PDF as:

WORD PNG TXT JPG

Size: px

Start display at page:

Download "SAS를 이용한 자료의 탐색"

지환 류(유)
6 years ago
Views:

1 임상연구에서흔히사용 하는의학통계의실제 김호 서울대학교보건대학원

2 Outline 통계적가설검정의기본개념들 가설검정, 통계적오류, 검정력및표본수 연속형자료에서의통계분석 T-test, ANOVA, 회귀분석 ( 단순회귀, 중회귀 ) 범주형자료에서의통계분석 카이제곱검정, 로지스틱회귀분석 유전자형자료분석의기본개념

3 기본개념들 모집단과표본 ( 모수 ) p-value 통계적검정력과표본수계산 모수적방법과비모수적방법 정규성검정 변수의종류에따른분석법 통계적가설검정

4 통계적사고 <-> 결정론적사고 모집단과표본 정규분포를결정하는모수 ( 평균과분산 ) 평균 : 위치 분산 : 산포 ( 정밀도 )

5 모집단과표본 모집단 : 연구자가최종적으로관심을가지는집단 표본 : 모집단에대한통계적결정을하기위하여모집단으로부터대표성있게뽑은집단 표본이대표성이있게모집단을반영하여야함

6 모집단과표본 모집단 모수 2 N(, ) 표본 추정치 Y1,, Yn 1 n Y Y i n i 1 n ( i ) n 1 i1 S Y Y

7 모수 : 가정한모형의통계적성질을완전히결정하는상수 ( 들 ) Y=a+b x 2 N(, ) 1 ( x ) exp

8 관심모수 : 연구의가설을수학적인모수로표시해야함 두집단에서평균비교 d 1 2 두집단의비율비교 r p p 1 2 p1/(1 p1) OR p /(1 p ) 2 2

9 연구가설 두집단에서평균비교 귀무가설 Ho : d 대립가설 ( 양측검정 ) Ha : d 대립가설 ( 단측검정 ) 혹은 Ha : d Ha : d 0 1 2

10 연구가설 두집단의비율비교귀무가설 대립가설 ( 양측검정 ) 대립가설 ( 단측검정 ) 혹은 Ho r p p1/(1 p1) Ho : OR 1 p p /(1 p ) 1 : 1 Ho r Ho r Ho r 2 1 : p p1/(1 p1) Ho : OR 1 p p /(1 p ) p p 1 : 1 p p 2 1 : p /(1 p ) Ho OR p /(1 p ) 1 1 : p /(1 p ) Ho OR p /(1 p ) 1 1 : 1 2 2

11 P-value (1) 연구목적 : 관심변수의 ( 모 ) 평균이두집단에서다르다. 첫번째집단에서의표본평균 Y 1 두번째집단에서의표본평균 Y 2 만약두집단에서의모평균이같다고하면 두표본평균은비슷할것이다. 표본평균의차이를반복적으로구해보면

12 P-value (2) 0 통계적으로대단히일어나기어려운사건

13 P-value (3) P-value = 두집단의평균이같다고가정했을때우리의자료, 혹은더차이가나는자료를얻을확률 작은 p-value : 위의확률이작다 통계적으로가능하지않은일이일어났다. 두집단의평균이같다는가정에문제가있다. 두집단의평균은같지않다고결론내린다.

14 P-value (3) 작지않은 p-value : 두집단의평균이같다고가정하면우리의자료를관측할확률이작지않다. 두집단의평균이같다는가정에문제가없다. 양쪽검정, 한쪽검정

15 A( 얻은자료 ) -> B ( 연구가설 ) -B -> -A 귀무가설 (-B) : 두집단에차이가없다. (Ho) 대립가설 (B) : 두집단에차이가있다. (Ha) 일종의오류 : 옳은귀무가설을기각할확률 = Pr (reject Ho Ho is true) 이종의오류 : 틀린귀무가설을받아들일확률 = Pr (Not reject Ho Ha is true) Power = 1- ( 있는차이를발견할확률 )

16 가설검정시발생가능한 4 가지상황 표본을이용한가설검정결과 H 0 채택 H 0 기각 H 0 참 옳음 (1- ) 제1종오류 ( ) 모집단의진실 H 0 거짓 (Ha 참 ) 제2종오류 ( ) 옮음 ( 검정력 =1- )

17 검정방법 A( 모수적인방법, 검정력 =90%) 의검정방법 B ( 비모수적인방법, 검정력 =70%) 보다더큰검정력을주었다. -> 실제로차이가있을때 A 방법을 100 번실시했을때 90 번의경우차이가있다고 ( 귀무가설기각 ) 결정하였도 B 방법을실시하였을때는 100 번중 70 번귀무가설을기각하였다. -> A 가더좋은방법! ( 실제차이 =?) Total Sample Size Mean Std Dev

18 표본수계산, Get Motivated < 예시 1> Trt A Trt B 2 + n n n 1+ - n n n 2+ n +1 n +2 n ++ 2 n11 n 1n1 / n n n n n, v11 2 v n n / , p /

19 n 2 ij 100nij 라고하고, 를다시계산하면 100 / , p 두예에서비율은정확히같음에도불구하고통계적유의성은상당히다르다.??? 전통적통계적가설검정의유의성은표본수에크게의존한다. 통계적유의성이없었던경우라도표본수를크게하면유의성을볼수있다. 표본수 ( 실험의비용 ) 와통계적유의성 ( 실험의효용성 ) 의균형을맞추는것이요구됨 최소의비용으로효과를증명하고싶다.

20 통계학에서의표본수계산 표본조사의경우 - 목적 : 추정 (estimation) - 도구 : 표본오차 - 예 : 여론조사 임상시험의경우 - 목적 : 검정 (testing) - 도구 : 제1종의오류, 제2종의오류 - 예 : 임상시험

21 단순임의추출 (simple random sampling) 에서 N : 모집단의크기, n : 표본의크기라면 ˆ y y / n Var y n i1 i 2 N n n N 1 2 N n 1.96 Var( y) 2 B : n N 1 2 N n D B 2 ( N -1) D 2, / 4 95% 신뢰구간 ( 표준오차 )

22 만약가 0 혹은 1 의값을가지게되면, y y i 는비율이되고, 이경우 Npq 가된다. n ( N 1) D pq 예1) N=2000, 95% 신뢰수준, B=0.05이라면 n은? >> 사전정보가없다면 p=q=0.5 대입 D 2 2 B / / n 최소한 334 명의표본이필요하다.

23 연속형변수의비교 예 ) 새로운관절염치료제의치료효과에대한임상실험을실시한다고하자. 치료효과는 2주간치료후혈중 Prostag-landing 양이평균 10, 표준편차 2 이면치료가된것으로간주한다. 치료후두집단의혈중 Prostaglandin 양의변동이 20% 미만이면두치료제의효과는동등한것으로간주한다. 단측검정으로연구대상수를구하시오. 또동일한가정으로양측검정의결과와비교하시오. 검정력 =90%, 결과의척도 :Prostaglandin농도 ( 연속형 )

24 n c 2( Z ) 2 2 Z ( ) c t 2 A gm / dl(10 0.2), 2.0 gm / dl Z n t 1.645, Z nc ( ) / Effective Size (=E/S)= 1 2

25 proc power; twosamplemeans test=diff meandiff = 2 stddev = 2 power=0.90 sides=1 npergroup=. ; run;

26 The POWER Procedure Two-sample t Test for Mean Difference Fixed Scenario Elements Distribution Normal Method Exact Number of Sides 1 Mean Difference 2 Standard Deviation 2 Nominal Power 0.9 Null Difference 0 Alpha 0.05 Computed N Per Group Actual N Per Power Group

27 proc power; onesamplemeans means = 10 stddev = power=. ntotal=10 ; plot x=n min=10 max=50 ; run; Total Sample Size

28 proc power; onesamplemeans means = stddev = /* 10*sqrt(2) 15*sqrt(2) */ power=. ntotal=10 ; plot x=n min=10 max=50 ; run; Total Sample Size Mean Std Dev

29 모수적방법과비모수적방법 (1) 자료평균중앙값 1,2,3,4, ,2,3,4,5, 중앙값 (median) 은평균에비하여이상치에대해서둔감 (robust) 하다. 자료의정규성분포가정을하면평균과분산을통하여모집단의성질을완전히파악할수있다. ( 모수적방법 )

30 모수적방법과비모수적방법 (2) 비모수적방법은자료의 ( 정규성 ) 분포가정을하지않는다 자료의평균과분산이아닌순위를이용한방법을사용한다. 자료의분포가정 (eg 정규성 ) 이만족되면효율이떨어진다. Robust 한결과를준다. (outlier 에둔감 )

31 자료의정규성검정 (SAS 예제 ) data ; input label diameter='diameter in mm'; datalines; ; run; proc univariate data=rods normal; histogram diameter / normal (mu=est sigma=est) midpoints = 5 to 6.30 by 0.15; run;

32 귀무가설 : 자료가정규분포를따른다

33 proc univariate data=rods noprint; probplot diameter / normal (mu=est sigma=est); run; Skewed to the right

35 Box plot

36 변수의분류 수학적개념 ( 척도 ) 에의한분류 1 명칭 or 명목척도 (nominal scale) - 범주로만의미 ex) 성별, 혈액형 2 순위척도 (ordinal scale) - 명목 + 대소관계 - 가감승제와같은수학적조작은불가능 ex) 교육정도 ( 국졸 / 중졸 / 고졸 / 대졸 ) 사회경제수준 ( 상 / 중 / 하 ) 특정사항에대한의견 ( 아주찬성 / 찬성 / 중립 / 반대 / 아주반대 )

37 3 간격척도 (interval scale) - 측정치간의간격에의미가있는경우 ex) 병리소견에 0의간격과 0+ 의간격이같은가? 온도의경우 20, 30 와 10, 20 의 10 는본질적으로같다. - 가감은가능, 승제는불가능즉, 비 (ratio) 의개념은가지지못함. ex) 100 / /122 왜냐하면 0, 0 는인위적인영점을정한것이기때문

38 4 비척도 (ratio scale) - 절대영점을가지게되므로수학적으로가장완전한형태의변수 ex) 40 세는 20 세에비해 20 살많고 ( 간격 ), 2 배 ( 비 ) 더살았다 어떤변수를어떤분류로할것인가를미리정해야함 ex) 연령 11, 12, 13 비척도 9, 10 19, 20 순위척도 성년 / 미성년 명칭척도 ( 순위척도 with 2 categories)

39 DATA 범주형변수 (categorical variable) 연속형변수 (continuous variable) 명목변수 순위변수 등간변수 비율변수 (nominal) (ordinal) (interval) (ratio)

40 인과관계에따른변수 독립변수 ( 설명변수 ) independent (explanatory) variable: 원인 종속변수 ( 반응변수 ) dependent (response) variable : 결과 전산입력형식에따른변수숫자변수문자변수날짜변수

41 변수종류에따른통계분석법 종속변수 독립변수 통계분석법 연속변수 ( 혈압 ) 명목척도 (2개범주 ) T 검정, paired T검정 연속변수 ( 혈압 ) 범주형 (3개이상 ) 분산분석 (ANOVA) 범주형 ( 병발생여부 ) 범주형 ( 투약여부 ) 카이제곱검정 ( 하나의독립변수 ) 로지스틱회귀분석 ( 둘이상의변수 ) 연속형 ( 아기의체중 ) 연속형 ( 재태임신기간 ) 회귀분석 연속형 ( 출생시체중 ) 연속형 + 범주형 ( 재태기간 smoking 여부 ) 공분산분석 (ANCOVA) 생존시간 ( 연속형, >0) 연속형 + 범주형나이 smoking 여부생존분석

42 자료의성격모수적방법비모수적방법 종속변수가범주형 종속변수가연속형 두개의독립된집단 카이제곱검정 T-test Fisher s exact test Ncnemar test Cochran s Q Wilcoxon rank sum test Man-whitney median test 두개의짝지은집단 Paired t-test Wilcoxon signed rank test 세개이상의집단 ANOVA Kruscal-Wallis test 제 3 의변수의영향고려 2-way ANOVA Friedman s 2-way ANOVA 상관분석 Pearson correlation Spearman s correlation Kendall s tau Stuart s tau

43 t-test ( 연속변수의두집단평균비교 )

44 T-test 관심변수가연속일때 ( 정규분포를따를때 ) 두집단간에평균의차이를보는검정 : 두개의독립적인집단간의차이 Paired( 짝지은 ) t-test : 한개체에서짝지은관찰치들의동질성을볼때 : 처치전의값과후의값을비교할때 ( 처치전과후에상관관계가존재한다는가정을고려 ) 표본수가적은경우에는정규분포가정을확인하기가곤란하다. -> 비모수적방법 두개이상의집단혹은다른변수로보정을할때 -> ANOVA ( 분산분석 )

45 Single Sample Analysis dataset: peppers Peppers Dataset Obs angle

46 proc means data=peppers mean std stderr t probt; run; options 1. stderr: the standard error of the mean 2. t: H 0 : 0 을검정하는 t test 3. probt: the significance probability of the t test The MEANS Procedure 분석변수 : angle 평균값표준편차표준오차 t값 Pr > t

47 Two Independent Samples Bullets Dataset dataset: bullets Obs powder velocity

48 proc ttest data=bullets; var velocity;class powder; run; The TTEST Procedure Lower CL Upper CL Lower CL Variable powder N Mean Mean Mean Std Dev velocity velocity velocity Diff (1-2) Upper CL Variable powder Std Dev Std Dev Std Err Minimum Maximum velocity velocity velocity Diff (1-2) Variable Method Variances DF t Value Pr > t velocity Pooled Equal velocity Satterthwaite Unequal Equality of Variances Variable Method Num DF Den DF F Value Pr > F velocity Folded F For H0: Variances are equal, F = 1.64 DF = (7,9)

49 Two Related Samples : paired t-test Pulse Dataset dataset: pulse Obs pre post d d = pre-post (difference in rate)

50 proc means data=pulse mean std stderr t probt; var d; run; The MEANS Procedure 분석변수 : d 평균값표준편차표준오차 t 값 Pr > t Two-sided p-value One-sided p-value=0.0285/2= for H0 : d 0 vs. H1 : d 0

53 ANOVA (Analysis of Variance) 분산분석세집단이상에서의연속변수평균들의비교

54 변수 ANOVA (Analysis of Variance) brand: 5 개의비닐 Brand wear: 얼마나약한가 model yij i i i ij 수준의평균 ij i i ACME 전체평균 수준의효과 AJAX CHAMP TUFFY XTRA Obs brand wear 1 ACME ACME ACME ACME CHAMP CHAMP CHAMP CHAMP AJAX AJAX AJAX AJAX TUFFY TUFFY TUFFY TUFFY XTRA XTRA XTRA XTRA 2.4

55 ANOVA for One-Way Classification proc anova data=veneer; class brand; model wear=brand; run; Dependent Variable: wear The ANOVA Procedure Sum of Source DF Squares Mean Square F Value Pr > F Model Error Corrected Total R-Square Coeff Var Root MSE wear Mean Source DF Anova SS Mean Square F Value Pr > F brand

56 Least Significant Difference Comparisons of BRAND Mean proc anova data=veneer; class brand; model wear=brand; means brand/lsd; run; The ANOVA Procedure t Tests (LSD) for wear Alpha 0.05 Error Degrees of Freedom 15 Error Mean Square Critical Value of t Least Significant Difference Means with the same letter are not significantly different. T Grouping Mean N brand A TUFFY B XTRA B B CHAMP B B ACME C AJAX

57 Sas 예제 options pageno=1 nodate ls=130 ps=60 nocenter; filename inbrakes 'c:\myweb\int\taillite.dat'; data one; infile inbrakes ; input id vehtype group positn speedzn resptime follotme folltmec; if group=1; label vehtype='vehicle Type' group='group - Light On=1 Light Off=2' positn='light Position' speedzn='speed Zone' resptime='response Time' follotme='following Time in Vedio Frames' folltmec='following Time in Categories' ;run; proc sort; by vehtype; /* Let's do one-way ANOVA to see the effect of vehicle type */ proc anova; class vehtype; model resptime=vehtype; title 'Parametric ANOVA analysis'; run; /* What's wrong with this? We didn't check the normality assumption. Let's do proc univariate to check the normality */

58 The ANOVA Procedure Class Level Information Class Levels Values vehtype Number of Observations Read 733 Number of Observations Used 733 Parametric ANOVA analysis 2 The ANOVA Procedure Dependent Variable: resptime Response Time Sum of Source DF Squares Mean Square F Value Pr > F Model Error Corrected Total R-Square Coeff Var Root MSE resptime Mean Source DF Anova SS Mean Square F Value Pr > F vehtype

59 proc univariate data=one normal plot; var resptime; by vehtype; histogram resptime /cfill=blue kernel(color=red) normal(color=black); probplot resptime / normal (mu=est sigma=est); title 'Normality Check'; run; proc boxplot data=one ; plot resptime*vehtype /boxstyle =SCHEMATIC cboxes =blue cboxfill =gray run; idcolor=red ;

60 Vehicle Type=1 UNIVARIATE 프로시저변수 : resptime (Response Time) 적률 N 157 가중합 157 평균 관측치합 6745 표준편차 분산 왜도 첨도 제곱합 수정제곱합 변동계수 평균의표준오차 정규분포에대한적합도검정 검정 통계량 p- 값 Kolmogorov-Smirnov D Pr > D <0.010 Cramer-von Mises W-Sq Pr > W-Sq <0.005 Anderson-Darling A-Sq Pr > A-Sq <0.005

63 proc npar1way wilcoxon; class vehtype; var resptime ; title 'Nonpara One-Way ANOVA for Tail Light Study'; run; /* The other way is transformation. Let's take log transformation so that we have normal distribition. */ data t; set one; t=log(resptime); label t='ln (response time)'; run; proc sort; by vehtype; proc univariate data=t normal plot; var t; by vehtype; histogram t /cfill=blue kernel(color=red) normal(color=black); probplot t / normal (mu=est sigma=est); title 'Normality Check for transformed variable'; run; 정규분포에대한적합도검정 검정 통계량 p- 값 Kolmogorov-Smirnov D Pr > D >0.150 Cramer-von Mises W-Sq Pr > W-Sq Anderson-Darling A-Sq Pr > A-Sq 0.215

65 /* The transformed variable seems to normally ditributed. Then we can do parametric ANOVA with normality assumption */ proc anova; class vehtype; model t=vehtype; title 'ANOVA for the log transformed response time'; run; proc boxplot data=t ; plot t*vehtype /boxstyle =SCHEMATIC cboxes =blue cboxfill =gray idcolor=red ; run; The ANOVA Procedure Dependent Variable: t ln (response time) Sum of Source DF Squares Mean Square F Value Pr > F Model Error Corrected Total R-Square Coeff Var Root MSE t Mean Source DF Anova SS Mean Square F Value Pr > F vehtype

67 회귀분석 (Regression Analysis) 연속형설명변수가연속형종속 변수에미치는영향을분석

68 회귀계수의의미 단순회귀 : X 1 단위증가시 Y 증가분의기대치 Let Y X 0 1 E x x ( Y X 1) ( 1) E( Y X x) x EY ( X 0)

69 단순회귀와중회귀에서회귀 계수들의의미차이중회귀 : 다른 X 들이일정한값으로남아있을때관심 X 가 1 단위증가시 Y 의기대치의증가분 Let Y X X E( Y X x 1, X x ) ( x 1) x ( Y X, X ) E x x x x

70 한편 Y X * 이라면 은와는아무런관계없이 X1, Y의그림에서의기울기이다. * 1 X 2 X1 2 * 만약 1 과 이다르다면의효과를보는데있어서 X 1 를고려하느냐마느냐하는것에따라서결론이다르게된다. X 2 이러한경우를혼란변수 (confounder) 하고한다. 혼란변수를고려하지않은모형에서의결론은올바른결론이라할수없다. 연구설계시부터혼란변수로작용할수있는모든변수들을고려해야한다.

71 가상적예제 Y= 수축기혈압 X1= 고혈압여부, X2= 연령 * Y X * 의모형에서는고혈압여부와상관없이단순이자료에서연령이증가함에따라혈압이얼마나증가하는가를나타내고있다. 하지만 Y X X 의모형에서는가상의사람이고혈압상태가같다고할때의연령과혈압과의관계를나타낸다. 어떠한모수에우리가더관심이있는가?

72 자료 모형 중회귀 Y : 가축시장을운영하는비용 (COST) X : 각가축의수 CATTLE CALVES HOGS SHEEP = ( ) ( ) ( ) ( ), COST CATTLE CALVES HOGS SHEEP iid N(0, )

73 Proc reg data=auction; model cost=cattle calves hogs sheep; Model: MODEL1 Dependent Variable: cost SAS 시스템 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model <.0001 Error Corrected Total Root MSE R-Square Dependent Mean Adj R-Sq Coeff Var Parameter Estimate Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept cattle <.0001 calves hogs sheep

74 중회귀방정식을위한 독립변수의선정 Forward selection Backward elimination Stepwise selection

75 분석 -> 회귀분석 -> 선형회귀분석 -> 방법 : 단계선택

76 진입 / 제거된변수 a 모형 진입된변수 제거된변수 방법 income. 단계선택 ( 기준 : 입력할 F의확률 <=. 050, 제거할 F의확률 >=. 100). aircapac. 단계선택 ( 기준 : 입력할 F의확률 <=. 050, 제거할 F의확률 >=. 100). applidx. 단계선택 ( 기준 : 입력할 F의확률 <=. 050, 제거할 F의확률 >=. 100).. income 단계선택 ( 기준 : 입력할 F의확률 <=. 050, 제거할 F의확률 >=. 100). housize. 단계선택 ( 기준 : 입력할 F의확률 <=. 050, 제거할 F의확률 >=. 100). family. 단계선택 ( 기준 : 입력할 F의확률 <=. 050, 제거할 F의확률 >=. 100). a. 종속변수 : peak 모형 모형요약 추정값의 R R 제곱 수정된 R 제곱 표준오차.930 a b c d e f a. 예측값 : ( 상수 ), income b. 예측값 : ( 상수 ), income, aircapac c. 예측값 : ( 상수 ), income, aircapac, applidx d. 예측값 : ( 상수 ), aircapac, applidx e. 예측값 : ( 상수 ), aircapac, applidx, housize f. 예측값 : ( 상수 ), aircapac, applidx, housize, family

77 모형 선형회귀분석잔차합계선형회귀분석잔차합계선형회귀분석잔차합계선형회귀분석잔차합계선형회귀분석잔차합계선형회귀분석잔차합계 a. 예측값 : ( 상수 ), income b. 예측값 : ( 상수 ), income, aircapac 분산분석 g c. 예측값 : ( 상수 ), income, aircapac, applidx d. 예측값 : ( 상수 ), aircapac, applidx e. 예측값 : ( 상수 ), aircapac, applidx, housize 제곱합 자유도 평균제곱 F 유의확률 a b c d e f f. 예측값 : ( 상수 ), aircapac, applidx, housize, family g. 종속변수 : peak

78 모형 housize aircapac applidx family housize applidx family housize family housize family income family income income 제외된변수 g 공선성통 계량 진입-베타 t 유의확률 편상관 공차한계.213 a a a a b b b c c d d d e e f a. 모형내의예측값 : ( 상수 ), income b. 모형내의예측값 : ( 상수 ), income, aircapac c. 모형내의예측값 : ( 상수 ), income, aircapac, applidx d. 모형내의예측값 : ( 상수 ), aircapac, applidx e. 모형내의예측값 : ( 상수 ), aircapac, applidx, housize f. 모형내의예측값 : ( 상수 ), aircapac, applidx, housize, family g. 종속변수 : peak

79 카이제곱검정 두이산변수간의관련성검정

80 카이제곱검정 (1) Satisfied Not Total Drug A 16 (45.2%) Drug B 9 (36.4%) 3 22

81 카이제곱검정 (2) 두사건 A와 B가독립 <-> P(A and B) = P(A) P(B) 만약약제와반응이독립이라면기대값은 Drug A Satisfied Not Total 31/53 * 25/53 * 53= Drug B 22 Total

82 카이제곱검정 (3) 카이제곱통계량은이기대치 (14.6) 와실제값 (16) 의차이의제곱의함수이다. 카이제곱통계량이크다 ( 작은 p-value) -> 기대치와실제값이다르다 -> 기대치를계산하기위한가정 ( 귀무가설 : 두변수가독립이다 ) 이틀리다 -> 두변수간에상관이있다 ( 약품에따라반응이다르다 ) 는대립가설을채택한다.

83 2 2 table Chi-square statistics n n11 12 n21 n22 n n n 1+ n 2+ N Mantel-Haenszel Chi-square Q ( n m ) v 11 Pearson chi-square Q P 2 2 i1 j1 2 ( n m ) ij m ij ij 2

84 data respire; input treat $ outcome $ count ; cards; test f 40 test u 20 placebo f 16 placebo u 48; proc freq; weight count; tables treat*outcome/chisq; run;

85 SAS 시스템 FREQ 프로시저 treat * outcome 교차표 treat outcome 빈도 백분율 행백분율 칼럼백분율 f u 총합 placebo test 총합

86 treat * outcome 테이블에대한통계량 통계량 자유도 값 확률값 카이제곱 <.0001 우도비카이제곱 <.0001 연속성수정카이제곱 <.0001 Mantel-Haenszel 카이제곱 <.0001 파이계수 분할계수 크래머의 V Fisher 의정확검정 (1,1) 셀빈도 (F) 16 하단측 p 값 Pr <= F 2.838E-06 상단측 p 값 Pr >= F 테이블확률 (P) 양측 p값 Pr <= P 2.397E E-06 표본크기 = 124

87 data severe; input treat $ outcome $ count ; cards; Test f 10 Test u 2 Control f 2 Control u 4 ; proc freq order=data; tables treat*outcome / chisq nocol; weight count; run;

88 SAS 시스템 FREQ 프로시저 treat * outcome 교차표 treat outcome 빈도 백분율 행백분율 f u 총합 Test Control 총합

89 treat * outcome 테이블에대한통계량 통계량자유도값확률값 카이제곱 우도비카이제곱 연속성수정카이제곱 Mantel-Haenszel 카이제곱 파이계수 분할계수 크래머의 V 경고 : 셀들의 75% 가 5 보다작은기대도수를가지고있습니다. 카이제곱검정은올바르지않을수있습니다. Fisher 의정확검정 (1,1) 셀빈도 (F) 10 하단측 p 값 Pr <= F 상단측 p 값 Pr >= F 테이블확률 (P) 양측 p 값 Pr <= P 표본크기 = 18

90 Exact Test Table Cell (1,1) (1,2) (2,1) (2,2) probabilities

91 Table Probabilities One-tailed p-value p Two-tailed p-value p

92 Difference in Proportions E{ p p } v d p1 (1 p1 ) p2(1 p2) n 1 n d { z vd ( )} 2 2 n n 1 2

93 Odds Ratio and Relative Risk OR f v f p /(1 p ) n n p /(1 p ) n n log{ OR} log p2 /(1 p2) /(1 p ) log{ p /(1 p )} log{ p /(1 p )} n n n n exp( f z v ) f p

94 RR RR p p 1 2 OR 1 1 n n n n if n and n are small relative to n and n rare outcome assumption Group1 Group2 total Yes No total n n n n n n n 1+ n 2+ N Proportion Yes p n n p2 n21 n12

95 data stress; input stress $ outcome $ count ; cards; low f 48 low u 12 high f 96 high u 94 ; proc freq order=data; tables stress*outcome / chisq measures nocol nopercent; weight count; run ;

96 FREQ 프로시저 stress * outcome 교차표 stress outcome 빈도 행백분율 f u 총합 low high 총합 stress * outcome 테이블에대한통계량 통계량자유도값확률값 카이제곱 <.0001 우도비카이제곱 <.0001 연속성수정카이제곱 Mantel-Haenszel 카이제곱 <.0001 파이계수 분할계수

97 Fisher 의정확검정 (1,1) 셀빈도 (F) 48 하단측 p 값 Pr <= F 상단측 p 값 Pr >= F 3.247E-05 테이블확률 (P) 양측 p값 Pr <= P 2.472E E-05 통계량 값 점근표준오차 감마 Kendall의타우-b Stuart 타우-c Somers D C R Somers D R C Pearson 상관계수 Spearman 상관계수 람다비대칭 C R 람다비대칭 R C 람다대칭 불확실계수 C R 불확실계수 R C 불확실계수대칭

98 상대위험도의추정값 ( 행 1/ 행 2) 연구유형값 95% 신뢰한계 사례대조연구 ( 오즈비 ) 코호트 ( 칼럼 1 리스크 ) 코호트 ( 칼럼 2 리스크 ) 표본크기 = 250

99 data respire; input treat $ outcome $ count ; cards; test yes 29 test no 16 placebo yes 14 placebo no 31 ; proc freq order=data; tables treat*outcome / measures chisq nocol nopercent; weight count; run ;

100 FREQ 프로시저 treat * outcome 교차표 treat outcome 빈도 행백분율 yes no 총합 test placebo 총합 상대위험도의추정값 ( 행 1/ 행 2) 연구유형값 95% 신뢰한계 사례대조연구 ( 오즈비 ) 코호트 ( 칼럼 1 리스크 ) 코호트 ( 칼럼 2 리스크 ) 표본크기 = 90

101

102

103 McNemar Test : Matched pairs

104 Frequency Percent Row Pct Col Pct yes no Total yes no Total Statistics for Table of hus_resp by wif_resp McNemar's Test Statistic (S) DF 1 Pr > S Ho : husband and wife 의 approval rates 는같다 를기각하지못함.

105 신뢰구간이 0 을포함하지않으므로 =0 이라는귀무가설을 95% 신뢰수준에서기각한다. Simple Kappa Coefficient Kappa ASE % Lower Conf Bound % Upper Conf Bound Sample Size = 45 Kappa=1 Kappa > 0.8 Kappa > 0.4 >> perfect agreement, >> excellent agreement >> moderate agreement

106 Logistic Regression 로지스틱회귀분석설명변수 ( 연속, 혹은이산 ) 가이산형종속변수에미치는영향분석

107 Y 1 for disease X1 1 for male X 2 0 for non -disease 0 for female 불연속 연속 age p ( Y 1) X X linear predictor ( ) p Y 1 log logit link function 1- p Y 1 log it p Y 1 X X p Y exp X 1 1 exp X = 1 exp X X X X

108 PY 1 X 1 X log, X 1 X2 0 1 P Y 1 X1 X 2 0 PY 1 X 1 1, X 2 x log 0 1 2x 1 P Y 1 X1 1, X 2 x PY 1 X 1 0, X 2 x log 1 PY 1 X1 0, X 2 x x 0 2 일때의 log odds 값 1 = 연령으로보정한후 ( 연령이같은값으로남아있을때 ) 성별 이남일때 ( 여에비하여 ) 병걸릴확률이 log odds ratio 의증가분 exp( 1). odds ratio 의증가분

109 2 P Y 1 X1 a, X 2 x 1 P Y 1 X1 a, X 2 x log log 1 P Y 1 X a, X x 1 1 P Y 1 X a, X x : 다른 x 들이일정한값으로남아있을때 ( 성별이일정할때, 성별의 효과를보정한후 ) 연령이한단위증가할시병걸릴확률의 log odds ratio 의증가분 exp( 2)... odds ratio 의증가분

110 proc logistic data=esr descending; model response=fibrin globulin; title 'ESR Data'; run; y=0,1 인경우 default 는작은값 (0) 을기준으로, 큰값을기준으로하려면 descending option 이필요

111 The LOGISTIC Procedure Model Information Data Set WORK.ESR Response Variable response Number of Response Levels 2 Number of Observations 32 Link Function Logit Optimization Technique Fisher's scoring Response Profile Ordered Total Value response Frequency Model Convergence Status Convergence criterion (GCONV=1E-8) satisfied.

112 Model Fit Statistics Intercept Intercept and Criterion Only Covariates AIC SC Log L Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio Score Wald

113 Analysis of Maximum Likelihood Estimates Parameter Standard Wald Standardized Variable DF Estimate Error Chi-Square Pr > ChiSq Estimate Intercept fibrin globulin Analysis of Maximum Likelihood Estimtemates Odds Variable Ratio Intercept fibrin globulin 1.169

114 유전자형자료분석의기본 개념 Genotype Freq, Allele Freq, Hardy-Weinberg Disequilibrium, (Mendelian) Genetic Models, LD, Haplotype, Heritability, SNP Association Study, Multiple Comparisons

115 Genotype

116 Allele frequency

117 Genotype frequency

118 Hardy-Weinberg In a stable population with random mating, allele freq predicts genotype freq. Goodness-of-fit can be applied to test H-W Equilibrium

119 자유도 ( 유전형의개수) ( 추정할모수의개수) 1 통계기본이론 Chi-square Test Ho: 우리의자료가특정모형 2 (HWE) 을따른다 p pq qp q ( 관찰값- 기대값) 기대값 2 2 df 자유도 = 범주의개수 -1- 추정한모수의수 2 q

120 HWE 예제 1 개수 빈도 관찰값 기대값 관찰값 기대값 AA Aa aa total p = (2ⅹ )/(2ⅹ1000) = q = (489+2ⅹ213)/(2ⅹ1000) = P(A) = p 2 =(0.5425) 2 = P(Aa) = 2pq= 2ⅹ(0.5425)ⅹ(0.4575)= P(aa) = q 2 =(0.4575) 2 = 기대값 (expected frequency) AA = P(AA)ⅹ1000 = Aa = P(Aa)ⅹ1000 = aa = P(aa)ⅹ1000 =

121 검정통계량 2 ( ) ( ) ( ) = 자유도 =3-1-1= 자유도가 1 인카이제곱분포에근거가 p 값이 이므로관찰된값은 Ho (HWE 상태 ) 를기각할수있는충분한근거가없다. 즉 HWE 상태라고결론내린다. 실무에서는 genotype error check 의방법으로많이사용된다.

통계기본이론 Test of association (Odds ratio, Chi-square

= Control n 21 n 22 n 2+ Total n +1 n +2 N p /(1 p )

n / n ) n / n n n 1 1 11 1 12 1 11 12 11 22 2 2 21 2

df=(#col-1)(#row-1) : Ho: OR=1 Expected cell freq is

122 통계기본이론 Test of association (Odds ratio, Chi-square test) 2 p qp pq 1 2 Total q 2 Case n 11 n 12 n 1+ OR = Control n 21 n 22 n 2+ Total n +1 n +2 N p /(1 p ) ( n / n ) /( n / n ) n / n n n p /(1 p ) ( n / n ) /( n / n ) n / n n n q 2 Chi-square test with df=(#col-1)(#row-1) : Ho: OR=1 Expected cell freq is bigger than 5, if not use Fisher s Exact test 자유도 ( 유전형의개수) ( 추정할모수의개수) 1

123 자유도 ( 유전형의개수) ( 추정할모수의개수) 1 Chi-square 예제 : Genotype-based (Codominant model) p 2 MM Mm pq mm Total 2 qp Case n q 2A n 1A n 0A n +A Control n 2O n 1O n 0O n +O Total n 2+ n 1+ n 0+ N OR = MM/mm OR = Mm/mm n n n n 2A 0O 2O 0A n n n n 1A 0O 1O 0A Co-dominant model MM Mm mm 간의관계를가정하지않음 자유도 2 인검정 2 q

124 자유도 ( 유전형의개수) ( 추정할모수의개수) 1 Chi-square 예제 : Genotype-based (Dominant Model) p 2 MM or Mm pq mm Total 2 qp Case n q 2A + n 1A n 0A n +A Control n 2O +n 1O n 0O n +O Total n 2+ +n 1+ n 0+ N 2 q OR MM or Mm /mm Dominant model (MM = Mm) > mm 자유도 1 인검정

125 자유도 ( 유전형의개수) ( 추정할모수의개수) 1 Chi-square 예제 : Genotype-based (Recessive model) p 2 MM Mm pq or mm Total 2 qp Case n q 2A n 1A +n 0A n +A Control n 2O n 1O +n 0O n +O Total n 2+ n 1+ +n 0+ N 2 q OR MM/Mm or mm Recessive model MM > (Mm=mm) 자유도 1 인검정

126 Chi-square 예제 : Genotype-based (Additive Model) p 2 MM Mm pq mm Total 2 qp Case n q 2A n 1A n 0A n +A Control n 2O n 1O n 0O n +O Total n 2+ n 1+ n 0+ N OR = OR MM/Mm Mm/mm OR = 2 OR = 2 OR MM/mm Mm/mm MM/Mm Additive model (MM-Mm)=(Mm-mm) Dose-Response 가정 자유도 1 인검정 자유도 ( 유전형의개수) ( 추정할모수의개수) 1 2 q

127 Linkage Disequilibrium Alleles at different sites should occur in a combinations relative to their SNP allele freq

128 LD Block

129 Shaw et al. Am J of Medical Genet (2002)

130 SNP SNP From SNP to Haplotype Phenotype Black eye Brown eye Black eye Blue eye Brown eye Brown eye GATATTCGTACGGA-T GATGTTCGTACTGAAT GATATTCGTACGGA-T GATATTCGTACGGAAT GATGTTCGTACTGAAT GATGTTCGTACTGAAT Haplotypes AG- 2/6 GTA 3/6 AGA 1/6 DNA Sequence

131 Association study using haplotype Hap AG- GTA AGA Total Case Control Total 2N Hap Pair AG-/AG- AG-/GTA AG-/AGA AGA/AGA Total Case Control Total N

132 만약 AGA 가 risk hap Hap Pair Else Else/AGA AGA/AGA Total Case Control Total 만약 AGA 가 risk hap 이고 Dominant Model 을적용한다면 Hap Pair Else Else/AGA or AGA/AGA Total Case Control N Total N

133 How to identify the genes Family study Linkage analysis: pedigree 필요 Sib pair analysis: oligogenic, multigenic Population study Case-control association study

134 New Gene Discovery Phenotype Segregation Association study Putative gene (locus) Gene? Linkage analysis (LD, sibpair et al)

135 Heritability 형질 (Trait) 유전율 (%) 형질 (Trait) 유전율 (%) 수명 29 언어능력 63 키 85 최대맥박수 84 몸무게 63 계산능력 76 아미노산분비 혈중지질농도 혈중최대젖산농도 72 기억력 사회적응력 감성 58

136

137

138 T k { ( D E )} i1 1i 1i k i1 V 1i 2

139 SNP Association Study 1. Study design 1. Select target disease 2. Case-control criteria 3. Determine # of samples 2. Sample and Data Collection 1. Genetic materials 2. Clinical information/phenotypic classification 3. Environmental Information 3. Genotyping 1. Select candidate genes/snp 2. Whole genome screening 3. Select appropriate method of genotyping 4. Statistical Analysis

140 Statistical analysis scheme of SNP Genotyping Data

141

142 Multiple Comparisons ( 다중비교 ) ex) 한 test 에서유의수준이인 test 가있다고하자. 일반적으로 multiple comparison 을한다면 overall Inflate 되었다. Let H : 0, Pr(do not reject H H is true) 1 H : 0, Pr(do not reject H H is true) then Pr(do not reject H H ) where H H and H Pr(do not reject H 01 and do no H02 H0 t reject ) 2 (1- ) (1- ) (1- ) k 0 를 k (1 ) (1 ) (.95).95 는 0.05 가아니라 가되므로 type I error 가

143 Multiple Comparisons Bonferroni Correction : 만약 m개의 multiple comparison을한다면각각의유의수준을 로하면전체의유의수준을에가깝게할수있다. m 예 )m 이 4 인경우 (1 ) 응용 ) 10개의 mean을비교하는경우 p값의기준을 0.05로하면 overall p값을유지할수없으므로각각의경우 0.05 를기준으로 test를실시한다 이를 Bonferroni corrected p-value 라고한다.

144 Multiple Comparisons: FDR False Discovery Rate FDR = False Positive / Total Positive 1. Order p-values (largest to smallest) 2. Test 0.05 k/n, k=n, N-1,., 1 Sequentially reduce error rate > power reduced much less Bonferroni, too conservative ; FDR helpful

145 Multiple Comparisons: FDR (independent test) Benjamini and Hochberg (1995) 1. Order p-values by P (1), P (2),., P (m) 2. Find the largest k such that 3. 1,2,,k 까지는유의하다. ( 예 ) m=500k, 0.05/500K =10^(-7) : Bonferroni correction 0.05/500K * 2, 0.05/500K * 3 해서 P (2000) <2000*10^(-7) 이고 P (2001) >2001*10^(-7) 이라면 2000 개뽑는다.

146 Multiple Comparisons: FDR (dependent test) Benjamini and Yekutieli (2001) 1. Order p-values by P (1), P (2),., P (m) 2. Find the largest k such that 3. 1,2,,k 까지는유의하다. If tests are indep or positively correlated then If tests are negatively correlated then

147 Permutation test

148 Statistical Models for SNP Association Study Response Var Group Statistical Methods 연속변수 (BMI, BP, etc) 이항변수 (casecontrol) 2 groups 2 groups (N<5 per group) 3 groups or more 보정변수 2 groups 2 groups (N<5 per group) 보정변수 T-test Wilcoxon test ANOVA ANCOVA, regression Chi-square test Fisher s Exact test Logistic regression

149

150

151

152

153 감사합니다. /~hokim

<4D F736F F F696E74202D20BECBB7B9B8A3B1E2C7D0C8B C0CEBBF3BFACB1B8BFA1BCADC8E7C8F7BBE7BFEBB5C7B4C22E707074>

<4D F736F F F696E74202D20BECBB7B9B8A3B1E2C7D0C8B C0CEBBF3BFACB1B8BFA1BCADC8E7C8F7BBE7BFEBB5C7B4C22E707074> 임상연구에서흔히사용 하는의학통계의실제 김호서울대학교보건대학원미래세대를위한교육강좌 2007/6/17 Outline 통계적가설검정의기본개념들 가설검정, 통계적오류, 검정력및표본수 연속형자료에서의통계분석 T-test, ANOVA, 회귀분석 ( 단순회귀, 중회귀 ) 범주형자료에서의통계분석 카이제곱검정, 로지스틱회귀분석 유전자형자료분석의기본개념 기본개념들 모집단과표본