고차원에서의 유의성 검정

Similar documents
G Power



<C0E5B7C1BBF328BEEEB8B0C0CCB5E9C0C729202D20C3D6C1BE2E687770>

슬라이드 1

Resampling Methods

표본재추출(resampling) 방법

확률 및 분포

LIDAR와 영상 Data Fusion에 의한 건물 자동추출


데이터 시각화

歯ki 조준모.hwp

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

단순 베이즈 분류기

슬라이드 1

텀블러514

Ç¥Áö-¸ñÂ÷

머 리 말 우리 나라에서 한때 가장 인기가 있었던 직업은 은행원이었다 년대만 하더라도 대학 졸업을 앞둔 학생들은 공사 公 社 와 더불어 은행 을 가장 안정적인 직장으로 선망했다 그러나 세월은 흘러 구조조정이 상시화된 지금 은행원 은 더이상 안정도 순위의 직업이 아니다

6자료집최종(6.8))

Crt114( ).hwp


untitled

COVER.HWP

이슈분석 2000 Vol.1

가볍게읽는-내지-1-2

한눈에-아세안 내지-1

kbs_thesis.hwp


기술통계

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

Microsoft PowerPoint - IPYYUIHNPGFU

8장 문자열


슬라이드 1

보광31호(4)

Microsoft PowerPoint Predicates and Quantifiers.ppt

cat_data3.PDF

예제 1.1 ( 관계연산자 ) >> A=1:9, B=9-A A = B = >> tf = A>4 % 4 보다큰 A 의원소들을찾을경우 tf = >> tf = (A==B) % A

untitled

03±èÀçÈÖ¾ÈÁ¤ÅÂ

04-다시_고속철도61~80p

DBPIA-NURIMEDIA

Chap 6: Graphs

<B0A3C3DFB0E828C0DBBEF7292E687770>

adfasdfasfdasfasfadf

Microsoft PowerPoint - AC3.pptx

유해중금속안정동위원소의 분석정밀 / 정확도향상연구 (I) 환경기반연구부환경측정분석센터,,,,,,,, 2012

nonpara6.PDF

λx.x (λz.λx.x z) (λx.x)(λz.(λx.x)z) (λz.(λx.x) z) Call-by Name. Normal Order. (λz.z)

Microsoft PowerPoint - 27.pptx

슬라이드 제목 없음

DBPIA-NURIMEDIA

ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행

PDF

R t-..


자료의 이해 및 분석

975_983 특집-한규철, 정원호

Let G = (V, E) be a connected, undirected graph with a real-valued weight function w defined on E. Let A be a set of E, possibly empty, that is includ

, ( ) 1) *.. I. (batch). (production planning). (downstream stage) (stockout).... (endangered). (utilization). *



Chapter4.hwp

전립선암발생률추정과관련요인분석 : The Korean Cancer Prevention Study-II (KCPS-II)

PL10

untitled

Microsoft PowerPoint - ch03ysk2012.ppt [호환 모드]

에너지경제연구 Korean Energy Economic Review Volume 9, Number 2, September 2010 : pp. 1~18 가격비대칭성검정모형민감도분석 1

歯

짧은 글 긴 생각 Contents 04 취임사 김성실 부회장 06 특별기고 신이 내린 직장 08 협회소식 09 KOLAS/KAS소식 10 관련기관소식 12 스페셜 테마 날개 달린 금 16 교정기관탐방 (주)한국계측기기연구센터를 찾아서 18 과학칼럼 햄버거와 표준품질체계

Jkbcs016(92-97).hwp

chap 5: Trees

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

Microsoft PowerPoint - chap_11_rep.ppt [호환 모드]

Microsoft PowerPoint - 7-Work and Energy.ppt

II. 기존선행연구

본문01

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

untitled

취업모 고용지원정책에 관한 연구:

2 / 26


methods.hwp

제 출 문 환경부장관 귀하 본 보고서를 폐기물관리 규제개선 방안연구 에 관한 최종보고서로 제출합니다 연구기관 한국산업폐기물처리공제조합 연구책임자 연 구 원 연구보조원 이 남 웅 황 연 석 은 정 환 백 인 근 성 낙 근 오 형 조 부이사장 상근이사 기술팀장 법률팀장 기

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

<3136C1FD31C8A320C5EBC7D52E687770>

기관고유연구사업결과보고

한국성인에서초기황반변성질환과 연관된위험요인연구

HW5 Exercise 1 (60pts) M interpreter with a simple type system M. M. M.., M (simple type system). M, M. M., M.

232 도시행정학보 제25집 제4호 I. 서 론 1. 연구의 배경 및 목적 사회가 다원화될수록 다양성과 복합성의 요소는 증가하게 된다. 도시의 발달은 사회의 다원 화와 밀접하게 관련되어 있기 때문에 현대화된 도시는 경제, 사회, 정치 등이 복합적으로 연 계되어 있어 특

untitled

Communications of the Korean Statistical Society Vol. 15, No. 4, 2008, pp 국소적 강력 단위근 검정 최보승1), 우진욱2), 박유성3) 요약 시계열 자료를 분석할 때, 시계열 자료가 가지고 있는

12È«±â¼±¿Ü339~370

Promise for Safe & Comfortable Driving

statistics

DBPIA-NURIMEDIA


09구자용(489~500)

농림수산식품 연구개발사업 운영규정

Transcription:

고차원에서의유의성검정 박창이 서울시립대학교통계학과 박창이 ( 서울시립대학교통계학과 ) 고차원에서의유의성검정 1 / 15

학습내용 FDR(false discovery rate) SAM(significance analysis of microarray) FDR 에대한베이지안해석 박창이 ( 서울시립대학교통계학과 ) 고차원에서의유의성검정 2 / 15

서론 I 고차원데이터에서변수들에대한유의성검정 : 특정환자에대하여암을진단하는분류문제보다는정상과암세포 그룹간에 expression level 이다른단백질을찾는데관심이있는경우 이표본 t- 검정 t j = x 2j x 1j se j l = 1: 대조군, l = 2: 처리군 C l : 그룹 l 의인덱스집합, N l : 그룹 l 의표본수 x kj = i C l x ij /N l ˆσ se j = j, ˆσ N 2 1 1 1 +N 1 j = N ) 2 1+N 2 2 l=1 i C l (x ij x lj ) 2 2 박창이 ( 서울시립대학교통계학과 ) 고차원에서의유의성검정 3 / 15

서론 II 예를들어방사선치료에민감한환자 (14 명 ) 와정상인환자 (44 명 ) 그룹간의총 12,625 의유전자들중 expression level 이다른유전자를문제를고려 Permutation test 에의한 p-value 계산 각 permutation k(= 1,..., K = ( 58 14) ) 와유전자 j = 1,..., 12625(= M) 에대하여 tj k 를계산 j 번째유전자의 p-value: p j = 1 K K k=1 I ( tk j > t j ) K 는매우큰수이므로가령 K = 10000 정도로랜덤한 permuation 에 대하여계산할수있음 모든유전자들이유사한경우 ( 같은척도에서측정 ) 풀링 p j = 1 MK M j =1 k=1 K I ( t k j > t j ) 박창이 ( 서울시립대학교통계학과 ) 고차원에서의유의성검정 4 / 15

서론 III 다중비교 j = 1,..., p에대하여 H 0j : 유전자 j에대하여처리의효과가없음 vs H 1j : 유전자 j 에대하여처리의효과가있음 p j < α이면 H 0j 를수준 α에서기각하는경우제1종의오류의확률이 α 인데여러검정을동시에하므로전체적인오류율을조절해야함 A j 를 H 0j 가잘못기각될사건이라하면 P(A j ) = α FWER(family-wise error rate): 적어도한번잘못기각될확률 FWER = P(A), A = M j=1a j 일반적으로 p가크면검정들간의상관에의해 P(A) α이됨 Bonferroni 방법 : p j < α/m이면 H 0j 를기각 FWER α이지만 p가크면 α/m는너무작은값이라기각이안됨 박창이 ( 서울시립대학교통계학과 ) 고차원에서의유의성검정 5 / 15

False Discovery Rate I FWER 대신 falsely significant 한유전자의비율에집중 M개의가설의검정결과 Not reject H 0 Reject H 0 Total H 0 true U V M 0 H 0 false T S M 1 Total M R R M FWER = P(V 1) 제 1 종의오류율 : E(V )/M 0, 검정력 (power): 1 E(T )/M 1 FDR = E(V /R) 박창이 ( 서울시립대학교통계학과 ) 고차원에서의유의성검정 6 / 15

False Discovery Rate II Benjamini-Hochberg (BH) 검정통계량에대한근사나 permutation( 순열 ) 으로부터 p-value 계산 FDR M0 M α α가항상성립알고리즘 1. FDR 을 α 로고정. p (1) p (M) : p-value 의순서통계량 2. L = max{j : p (j) < α j M } 3. p j p (L) 인모든 H 0j 를기각 박창이 ( 서울시립대학교통계학과 ) 고차원에서의유의성검정 7 / 15

False Discovery Rate III 예 p value 5*10^ 6 5*10^ 5 5*10^ 4 5*10^ 3 1 5 10 50 100 Genes ordered by p value FIGURE 18.19. Microarray example continued. 참조선 : Shown 0.15 is j a plot of the ordered p-values p (j) and the line 12625, L = 11 0.15 (j/12, 625), for the Benjamini Hochberg method. p (11) = 0.00012이고대응되는통계량은 4.101임 The largest j for which the p-value p (j) falls below the BH 방법에 line, 따르면 gives the 붉은 BH 색으로 threshold, 표시된 Here this 11 유전자가 occurs at j 유의 =11, indicated by the vertical line. Thus the BH method calls significant the 11 genes (in red) with smallest p-values. 박창이 ( 서울시립대학교통계학과 ) 고차원에서의유의성검정 8 / 15

False Discovery Rate IV BH 방법은대응되는 FDR의값이왜 0.15인지직관적으로알기어렵고복잡한증명을통해보여짐더직관적인방법으로 Plug-in 추정법을고려알고리즘 1. 변수 j = 1,..., M과데이터의순열 k = 1,..., K에대하여 tj k 계산 2. 절단값 C에대하여 R obs = M I ( t j > C), Ê(V ) = 1 K j=1 M K I ( tj k > C) j=1 k=1 3. FDR = Ê(V )/R obs α 값대신절단값을고정함 박창이 ( 서울시립대학교통계학과 ) 고차원에서의유의성검정 9 / 15

False Discovery Rate V 예에서 K = 1000이고 C = 4.101로하면 R obs = 11이고 tj k > C인갯수는 1518로평균 1.518이므로 FDR ˆ = 1.1518/11 14% 임. 대략 α = 0.15 에근사함 Plug-in 추정값은 E(V /R) E(V )/E(R) 에기반하며일반적으로 ˆ FDR 은일치 (consistent) 추정량임 Ê(V ) 는 (M/M 0 )E(V ) 의추정치이므로 M 0 의추정치가주어졌을때, 더나은 FDR 추정치는 ( M 0 /M) FDR 임 M 0 에대한추정치가있으면 FDR M 0 M α α관계식을통해 BH 방법을향상시킬수있음 박창이 ( 서울시립대학교통계학과 ) 고차원에서의유의성검정 10 / 15

SAM I 값이대칭이아닌경우비대칭의절단값을고려 SAM 수직축 : 순서통계량 t (1) t (M) 수평축 : 기대순서통계량 t k (1) t k (M), t (j) = 1 K K k=1 tk (j) y = x ± 직선을그렸을때두직선에의해정의되는영역을벗어나는 첫번째점을상위절단값 C hi 라하고이를벗어나는유전자들은유의한 것으로봄. 마찬가지로왼쪽아래의유전자에대하여하위절단값 C low 를정의할수있음 와 FDR 을계산하여주관적으로결정 SAM 은모든유전자들의통계치들이한쪽방향 ( 양혹은음 ) 으로 나타나는경우절단값유도할때에장점이있음 박창이 ( 서울시립대학교통계학과 ) 고차원에서의유의성검정 11 / 15

SAM II 예 t statistic 4 2 0 2 4 Chi 4 2 0 2 4 Expected Order Statistics FIGURE 18.20. SAM plot for the radiation sensitivity microarray data. On the vertical axis we have plotted the ordered test statistics, while the horizontal axis = 0.71에대하여 shows the expected 11개의 order statistics 유전자가 of the test유의하고 statistics from permutations C of the data. Two lines are drawn, parallel to the 45 line, units away from low = it. Starting at the origin and moving to the right, we find the first place that the genes leave the band. This defines the upper cut-point Chi and all genes beyond that point are called significant (marked in red). Similarly we define a lower cutpoint Clow. For 박창이 ( 서울시립대학교통계학과 the ) particular value of 고차원에서의 = 0.71 in the 유의성 plot, no 검정 genes are called significant in the 12 / 15

FDR 에대한베이지안해석 I FDR 은 P(R = 0) > 0 이면잘정의되지않음 positive FDR 을고려 [ ] V pfdr = E R R > 0 베이지안해석 M 개의동일한단순가설검정하는경우를고려 검정통계량 t 1,..., t M 은 iid 이고기각역 Γ 박창이 ( 서울시립대학교통계학과 ) 고차원에서의유의성검정 13 / 15

FDR 에대한베이지안해석 II Z j = I (H 0j is false) 라하면 (t i, Z j ) 는 iid이고적절한분포 F 0 와 F 1 에대하여 t j Z j (1 Z j )F 0 + Z j F 1 P(Z j = 0) = π 0 라하면 t j π 0 F 0 + (1 π 0 )F 1 pfdr(γ) = P(Z j = 0 t j Γ): 검정통계량이기각역에들때귀무가설이참일사후확률 t = t 0 에서의 local FDR: P(Z j = 0 t j = t 0 ) 박창이 ( 서울시립대학교통계학과 ) 고차원에서의유의성검정 14 / 15