고차원에서의유의성검정 박창이 서울시립대학교통계학과 박창이 ( 서울시립대학교통계학과 ) 고차원에서의유의성검정 1 / 15
학습내용 FDR(false discovery rate) SAM(significance analysis of microarray) FDR 에대한베이지안해석 박창이 ( 서울시립대학교통계학과 ) 고차원에서의유의성검정 2 / 15
서론 I 고차원데이터에서변수들에대한유의성검정 : 특정환자에대하여암을진단하는분류문제보다는정상과암세포 그룹간에 expression level 이다른단백질을찾는데관심이있는경우 이표본 t- 검정 t j = x 2j x 1j se j l = 1: 대조군, l = 2: 처리군 C l : 그룹 l 의인덱스집합, N l : 그룹 l 의표본수 x kj = i C l x ij /N l ˆσ se j = j, ˆσ N 2 1 1 1 +N 1 j = N ) 2 1+N 2 2 l=1 i C l (x ij x lj ) 2 2 박창이 ( 서울시립대학교통계학과 ) 고차원에서의유의성검정 3 / 15
서론 II 예를들어방사선치료에민감한환자 (14 명 ) 와정상인환자 (44 명 ) 그룹간의총 12,625 의유전자들중 expression level 이다른유전자를문제를고려 Permutation test 에의한 p-value 계산 각 permutation k(= 1,..., K = ( 58 14) ) 와유전자 j = 1,..., 12625(= M) 에대하여 tj k 를계산 j 번째유전자의 p-value: p j = 1 K K k=1 I ( tk j > t j ) K 는매우큰수이므로가령 K = 10000 정도로랜덤한 permuation 에 대하여계산할수있음 모든유전자들이유사한경우 ( 같은척도에서측정 ) 풀링 p j = 1 MK M j =1 k=1 K I ( t k j > t j ) 박창이 ( 서울시립대학교통계학과 ) 고차원에서의유의성검정 4 / 15
서론 III 다중비교 j = 1,..., p에대하여 H 0j : 유전자 j에대하여처리의효과가없음 vs H 1j : 유전자 j 에대하여처리의효과가있음 p j < α이면 H 0j 를수준 α에서기각하는경우제1종의오류의확률이 α 인데여러검정을동시에하므로전체적인오류율을조절해야함 A j 를 H 0j 가잘못기각될사건이라하면 P(A j ) = α FWER(family-wise error rate): 적어도한번잘못기각될확률 FWER = P(A), A = M j=1a j 일반적으로 p가크면검정들간의상관에의해 P(A) α이됨 Bonferroni 방법 : p j < α/m이면 H 0j 를기각 FWER α이지만 p가크면 α/m는너무작은값이라기각이안됨 박창이 ( 서울시립대학교통계학과 ) 고차원에서의유의성검정 5 / 15
False Discovery Rate I FWER 대신 falsely significant 한유전자의비율에집중 M개의가설의검정결과 Not reject H 0 Reject H 0 Total H 0 true U V M 0 H 0 false T S M 1 Total M R R M FWER = P(V 1) 제 1 종의오류율 : E(V )/M 0, 검정력 (power): 1 E(T )/M 1 FDR = E(V /R) 박창이 ( 서울시립대학교통계학과 ) 고차원에서의유의성검정 6 / 15
False Discovery Rate II Benjamini-Hochberg (BH) 검정통계량에대한근사나 permutation( 순열 ) 으로부터 p-value 계산 FDR M0 M α α가항상성립알고리즘 1. FDR 을 α 로고정. p (1) p (M) : p-value 의순서통계량 2. L = max{j : p (j) < α j M } 3. p j p (L) 인모든 H 0j 를기각 박창이 ( 서울시립대학교통계학과 ) 고차원에서의유의성검정 7 / 15
False Discovery Rate III 예 p value 5*10^ 6 5*10^ 5 5*10^ 4 5*10^ 3 1 5 10 50 100 Genes ordered by p value FIGURE 18.19. Microarray example continued. 참조선 : Shown 0.15 is j a plot of the ordered p-values p (j) and the line 12625, L = 11 0.15 (j/12, 625), for the Benjamini Hochberg method. p (11) = 0.00012이고대응되는통계량은 4.101임 The largest j for which the p-value p (j) falls below the BH 방법에 line, 따르면 gives the 붉은 BH 색으로 threshold, 표시된 Here this 11 유전자가 occurs at j 유의 =11, indicated by the vertical line. Thus the BH method calls significant the 11 genes (in red) with smallest p-values. 박창이 ( 서울시립대학교통계학과 ) 고차원에서의유의성검정 8 / 15
False Discovery Rate IV BH 방법은대응되는 FDR의값이왜 0.15인지직관적으로알기어렵고복잡한증명을통해보여짐더직관적인방법으로 Plug-in 추정법을고려알고리즘 1. 변수 j = 1,..., M과데이터의순열 k = 1,..., K에대하여 tj k 계산 2. 절단값 C에대하여 R obs = M I ( t j > C), Ê(V ) = 1 K j=1 M K I ( tj k > C) j=1 k=1 3. FDR = Ê(V )/R obs α 값대신절단값을고정함 박창이 ( 서울시립대학교통계학과 ) 고차원에서의유의성검정 9 / 15
False Discovery Rate V 예에서 K = 1000이고 C = 4.101로하면 R obs = 11이고 tj k > C인갯수는 1518로평균 1.518이므로 FDR ˆ = 1.1518/11 14% 임. 대략 α = 0.15 에근사함 Plug-in 추정값은 E(V /R) E(V )/E(R) 에기반하며일반적으로 ˆ FDR 은일치 (consistent) 추정량임 Ê(V ) 는 (M/M 0 )E(V ) 의추정치이므로 M 0 의추정치가주어졌을때, 더나은 FDR 추정치는 ( M 0 /M) FDR 임 M 0 에대한추정치가있으면 FDR M 0 M α α관계식을통해 BH 방법을향상시킬수있음 박창이 ( 서울시립대학교통계학과 ) 고차원에서의유의성검정 10 / 15
SAM I 값이대칭이아닌경우비대칭의절단값을고려 SAM 수직축 : 순서통계량 t (1) t (M) 수평축 : 기대순서통계량 t k (1) t k (M), t (j) = 1 K K k=1 tk (j) y = x ± 직선을그렸을때두직선에의해정의되는영역을벗어나는 첫번째점을상위절단값 C hi 라하고이를벗어나는유전자들은유의한 것으로봄. 마찬가지로왼쪽아래의유전자에대하여하위절단값 C low 를정의할수있음 와 FDR 을계산하여주관적으로결정 SAM 은모든유전자들의통계치들이한쪽방향 ( 양혹은음 ) 으로 나타나는경우절단값유도할때에장점이있음 박창이 ( 서울시립대학교통계학과 ) 고차원에서의유의성검정 11 / 15
SAM II 예 t statistic 4 2 0 2 4 Chi 4 2 0 2 4 Expected Order Statistics FIGURE 18.20. SAM plot for the radiation sensitivity microarray data. On the vertical axis we have plotted the ordered test statistics, while the horizontal axis = 0.71에대하여 shows the expected 11개의 order statistics 유전자가 of the test유의하고 statistics from permutations C of the data. Two lines are drawn, parallel to the 45 line, units away from low = it. Starting at the origin and moving to the right, we find the first place that the genes leave the band. This defines the upper cut-point Chi and all genes beyond that point are called significant (marked in red). Similarly we define a lower cutpoint Clow. For 박창이 ( 서울시립대학교통계학과 the ) particular value of 고차원에서의 = 0.71 in the 유의성 plot, no 검정 genes are called significant in the 12 / 15
FDR 에대한베이지안해석 I FDR 은 P(R = 0) > 0 이면잘정의되지않음 positive FDR 을고려 [ ] V pfdr = E R R > 0 베이지안해석 M 개의동일한단순가설검정하는경우를고려 검정통계량 t 1,..., t M 은 iid 이고기각역 Γ 박창이 ( 서울시립대학교통계학과 ) 고차원에서의유의성검정 13 / 15
FDR 에대한베이지안해석 II Z j = I (H 0j is false) 라하면 (t i, Z j ) 는 iid이고적절한분포 F 0 와 F 1 에대하여 t j Z j (1 Z j )F 0 + Z j F 1 P(Z j = 0) = π 0 라하면 t j π 0 F 0 + (1 π 0 )F 1 pfdr(γ) = P(Z j = 0 t j Γ): 검정통계량이기각역에들때귀무가설이참일사후확률 t = t 0 에서의 local FDR: P(Z j = 0 t j = t 0 ) 박창이 ( 서울시립대학교통계학과 ) 고차원에서의유의성검정 14 / 15