RNA-Seq/Microarray DEG Analysis

RNA-Seq & Microarray DEG Analysis Manual v4.1-1 -

< 목차 > 1. 엑셀기반 DEG 분석 (ExDEGA v.1.6.5) 2. MeV Software 이용 Clustering Heatmap 작성 3. KEGG DB 기반 Pathway 분석 4. DAVID tool 을이용한 Functional Annotation 분석 5. MSigDB 기반 GSEA 분석 6. String-db tool 을이용한 Network 분석 - 2 -

1. 엑셀기반 DEG 분석 (ExDEGA v.1.6.5) 이바이오젠은 Quant-Seq, mrna-seq, Total RNA-Seq 과 Microarray data 를엑셀기반에서 DEG 를쉽게분석할수있도록분석보고시 ExDEGA (Excel based Differentially Expressed Gene Analysis) tool 을함께제공한다. ExDEGA 분석툴은 이바이오젠이연구자들이 Microarray 및 RNA-Seq 데이터를보다쉽게다루고원하는데이터를쉽게얻을수있도록사용자편의를최대한반영한분석툴이고엑셀프로그램안에서다양한분석을직관적으로수행할수있도록개발되었다. ExDEGA 분석툴은사용자들의요구사항을지속적으로반영하여데이터분석과엑셀사용에익숙하지못한연구자들도쉽게사용이가능하도록계속업데이트될예정이다. 이바이오젠에서제공하는 Microarray data 와 RNA-Seq data ( 엑셀데이터 ) 를열기전에함께제공한 ExDEGA( 버전 ).zip 파일의압축을풀고 setup 을실행하면분석툴이설치된다 ( 그림 1-1). 설치가완료되고보고된엑셀데이터를열면자동으로 ExDEGA 분석툴이엑셀에반영된것을확인할수있다. 참고로 ExDEGA 설치전에실행중인엑셀파일이있으면종료시킨후다시실행해야 ExDEGA 를사용할수있다. 그림 1-1. ExDEGA set up - 3 -

ExDEGA Report 엑셀파일을열면왼쪽에 Gene Category 분석창과가운데에 mrna expression data, 오른쪽에 DEG 분석창이실행된다 ( 그림 1-2). Gene Category 분석창에서는기본설정된 Gene ontology (GO) 와사용자가원하는대로 gene category 를구성하여분석할수있고 DEG 분석과함께연동하여데이터를쉽게얻을수있다. DEG 분석창에서는 Fold change, Normalized Data (log2), p-value 등을선택하여원하는데이터를쉽게얻을수있고 Gene category chart 통해전체적인발현패턴을확인할수있다. 뿐만아니라, DEG 분석창에서 Scatter Plot, Volcano Plot, Venn Diagram 을직접그릴수있고선별된유전자들을대상으로 Clustering heatmap 을작성하기위한 MeV 프로그램 input file 을자동으로만들수있다. Gene expression graph, Gene search 기능도이용할수있어연구자가 RNA-Seq data 를쉽게활용할수있다. 그림 1-2. mrna expression data format made in E-Biogen - 4 -

1-1. Gene Category 사용방법 mrna expression data 는수만개의유전자를포함하기때문에유전자를한개씩분석하기보다기능별로그룹을지어분석을하는것이용이하다. 이를위해많은연구자들이 gene ontology (GO) 를활용한다. GO 는비슷한기능의유전자들을묶어놓은그룹이라고생각하면이해하기쉽다. Gene Category 창은수많은 GO 중임의로 15 개를선택하여관련유전자를필터링할수있도록만들어놓은것이다. 예를들어, Aging 관련유전자만분석을원할경우, Gene Category 창에서 Aging 을선택하면해당유전자리스트만필터링된다 ( 그림 1-3). 그리고 Gene Category 의여러항목들을동시에만족하는유전자를필터링할수있고적어도한항목만이라도포함하는유전자를보고자하는경우도필터링이가능하도록 AND 와 OR 기능을갖추고있다. 그림 1-3. Gene ontology (Aging) selection 가장왼쪽상단에 'View All Data' 버튼을누르면필터를모두해제되어다시전체결과를볼수있고 15 개의 GO 중관심기능이없다면 Gene Category Settings 버튼을이용하여 Quick GO site 에서다른 GO 를추가할수있다 ( 그림 1-4). '?' 버튼을누르면 GO 추가하는방법이자세히설명되어있다. 그림 1-4. Gene category settings - 5 -

만약원하는유전자그룹목록을알고있다면, 직접입력하여새로운 Gene Category 를추가할수도있다. Gene Category Settings 버튼을누른 `후 New 를선택하고원하는 gene symbol list 입력 (or 복사-붙여넣기 ) 한뒤, Gene category 이름설정후저장하면새로운 GO category 를확인할수있다 ( 그림 1-5-a,b). 그림 1-5-a. Adding Genes to make a new gene category 그림 1-5-b. Adding Genes to make a new gene category - 6 -

1-2. Significant Gene Selection 사용방법오른편의 DEG Analysis 부분에서 Significant Gene Selection 창은전체결과중 A 와 B 를비교한결과에서유의하게발현차이가나는유전자를필터링할수있도록만들어놓은것이다. 예를들어, A 기준으로 B 에서발현이 2 배이상증가또는감소하고, Normalized Data (log2) 값이 4 이상이고, p-value 값이 0.05 이하인유전자 ( 반복실험한데이터의경우만제공 ) 를선택하면 59 개의유전자가필터링된다 ( 그림 1-6). 그리고여러개의비교그룹에서동시에 Significant gene 을선별하고자할경우와적어도한비교그룹에서 Significant gene 을선별하고자할경우에는 AND 와 OR 기능을사용하면된다. 그림 1-6. Significant gene selection Gene Category 와 Significant gene selection 은연동가능하다. 그림 1-7 에서처럼 Gene Category 의 Cell differentiation 을선택하면 5 개의유전자가필터링된다 ( 그림 1-7). 5 개의유전자는본데이터에서 Cell differentiation 관련유전자들중 B/A 비교그룹에서유의하게발현이증가또는감소한유전자를의미한다. 그림 1-7. Significant genes related to Cell differentiation - 7 -

실험결과에따라발현변화값 (fold change), p-value, normalized data(log2) 기준을조정할수있고반복실험인경우만 p-value 를선택할수있다. View Gene Category Chart 버튼을누르면각 GO 관련유전자중발현이유의하게차이나는유전자의 % 와수가그래프로그려진다. 본분석을통해어떤 GO 의유전자들이상대적으로많은발현변화가있었는지를확인할수있다. 전체데이터상태에서 Significant Gene Selection 의비교그룹을선택하고 View Gene Category Chart 를클릭하면증가 / 감소한유전자들대상으로 GO Chart 가생성된다. 그래프의각영역을클릭하면해당유전자들이필터링된다. 예를들어왼쪽의 Pie chart 의특정영역을클릭하면해당 GO 의증가 / 감소된유전자가함께필터링되고오른쪽의증가 / 감소된 bar chart 에서 bar 상단의숫자는해당유전자수이며 bar 를클릭했을때해당유전자가필터링된다 ( 그림 1-8). 그림 1-8. View Gene Category Chart - 8 -

1-3. Analysis Graph 사용방법 DEG Analysis 부분에서 Analysis Graph 창을펼치면아래그림 1-9 와같이 Scatter Plot, Volcano Plot, Venn Diagram 을엑셀에서쉽게그릴수있다. 그림 1-9. Analysis Graph Tool 1-3-1. Scatter plot 첫번째 Scatter Plot 은오른쪽에샘플비교그룹과 Fold threshold line 을선택하고 Graph View 를클릭하면왼쪽에선택한비교그룹을대상으로 Scatter Plot 이자동생성된다. Plot 에서특정 spot 을클릭하면해당유전자명이표시되고마우스오른쪽을클릭하여지울수도있다. 그리고여러개의유전자를동시에표시하고싶다면 Gene Select(ID Input) 창에해당유전자 ID 를복사하여입력하고 Add 를클릭하면 Gene Symbol 이자동생성된다 ( 그림 1-10). 그림 1-10. Analysis Graph Tool Scatter Plot - 9 -

1-3-2. Volcano plot 두번째, Volcano Plot 은반복실험이된경우에만분석가능하다. Volcano Plot 은 Scatter Plot 의기능과거의동일한데오른쪽에샘플비교그룹과 Fold threshold line, p-value( 반복실험시 ) 를선택하고 Graph View 를클릭하면왼쪽에선택한비교그룹을대상으로 Plot 이자동생성된다. Plot 에서특정 spot 을클릭하면해당유전자명이표시되고마우스오른쪽을클릭하여표시를지울수도있다. 그리고여러개의유전자를동시에표시하고싶다면 Gene Select(ID Input) 창에해당유전자 ID 를복사하여입력하고 Add 를클릭하면 Gene Symbol 이자동생성된다 ( 그림 1-11). 그림 1-11. Analysis Graph Tool Volcano Plot - 10 -

1-3-3. Venn diagram 세번째, Venn Diagram 을통해 2 개, 3 개또는 4 개까지의비교그룹을대상으로 Venn Diagram 을작성할수있다. Venn Diagram 을그릴샘플비교그룹과 Fold Change, p-value( 반복실험시 ) 을선택후, Diagram View 를클릭하면결과를확인할수있으며그룹은최대 4 그룹까지선택가능하다. 아래의그림은 B/A 와 C/A, C/B 결과중, fold change 값이 2 이상 up, down 된 list 를가지고 Venn Diagram 을작성한결과이다 ( 그림 1-12). 그림 1-12. Analysis Graph Tool Venn Diagram Venn Diagram 결과에서표시되는형식은다음과같다 ( 그림 1-13). 1. 기울어진숫자 : 2fold 이상 up-regulated 된 gene 수 2. 빨간색숫자 : regulation 이대조되는 gene 수 3. 밑줄친숫자 : 2fold 이상 down-regulated 된 gene 수 그림 1-13. For example of up, down, contra-regulated in Venn Diagram - 11 -

Venn Diagram 각영역에어떤유전자들이있는지확인할수도있다. 예를들어, B/A 에서만 fold change 값이 2 이상 up 이되는유전자를보고싶으면, Venn Diagram 에서 B/A 에서만해당되는영역을찾아마우스오른쪽클릭하면 fold change 값이 2 이상 up 된유전자 list 3 개가엑셀 sheet 에 filter 된다 ( 그림 1-14). 그림 1-14. Filtering 2fold up-regulated gene list in Venn Diagram ExDEGA 에서제공되는모든이미지는오른쪽마우스를눌러 Save image 버튼을통해저장이 가능하다 ( 그림 1-15). 그림 1-15. Save image - 12 -

1-4. Clustering Heatmap Support 사용방법 ExDEGA 의 DEG Analysis 에서는 Significant Gene Selection 또는 Venn Diagram 등을통해 Data Mining 을수행한후정리된유전자리스트를대상으로 Clustering Heatmap 을쉽게작성할수있도록지원한다. 당사에서추천하는 Clustering Heatmap 프로그램은 MeV 인데 ExDEGA 에서 MeV 용 Input file 을자동생성해주고 MeV 에서해당파일을불러오면된다. 이후의 Clustering 방법및이미지가공및저장방법은본메뉴얼 2. MeV Software 이용 Clustering Heatmap 작성 부분을참고하면된다. 그림 1-16 에서필터링된유전자리스트를대상으로 Clustering Heatmap 을작성하려면크게두종류의데이터를이용할수있는데, 첫번째는 Fold change 값을이용할시 Type 부분에 Fold change 를체크하고 Export Data Select 에서 Heatmap 에표현할비교그룹을체크하여 Data Export 를클릭한후 (input 명 ).txt 로저장하면된다. 두번째는개별샘플의발현값인 Normalized Data 로표현하고자할때 Z-Score 를체크하고확인하고자하는샘플을체크하여 Data Export 를클릭한후 (input 명 ).txt 로저장하면된다. 단, Z-score 로그릴때는샘플 3 개이상에서만가능하다. * 참고로 Z-score 는일반적으로평균으로부터얼마만큼떨어져있느냐를판단하는지표이다. 계산방식은 Normalized data 를 log10 으로변환후평균값을뺀후표준편차로나누어계산한다. Z-score = {Normalized data (log10) average of Normalized data (log10)}/standard deviation of Normalized data(log10) 그림 1-16. Clustering Heatmap Support - 13 -

1-5. Selected Gene Plot & Gene Search 사용방법 ExDEGA 의기능중에선별한유전자또는연구자가관심있는유전자들을대상으로발현패턴을그래프로표현하고자할때는 Selected Gene Plot 기능을사용할수있다. 선별한유전자의 gene symbol 을복사하여 Selected Gene Plot 창에붙여넣고 Expression Plot View 를누르면 normalized data(log2) 값, fold change(log2) 값으로 line graph 가그려진다 ( 그림 1-17). 그리고특정 keyword 관련유전자를검색하고싶을때는 gene search 창을이용하면된다. 예를들어 insulin 을검색하면엑셀 Data Sheet 에 insulin keyword 을포함하는모든행이검색되어필터링된다 ( 그림 1-18). 그림 1-17. Gene graph 그림 1-18. Genes related to insulin - 14 -

2. MeV Software 이용 Clustering Heatmap 작성 MeV 소프트웨어는미국의 Dana-Farber Cancer Institute에서개발한 Microarray, mrna-seq 전용분석프로그램으로연구자들에게무료로공급하고있다. 주로 clustering 분석과통계분석 (Kmeans clustering, Hierarchical clustering, t-test, Significance Analysis of mrna-seqs, Gene Set Enrichment Analysis, EASE) 을할수있는프로그램이다. (Mev software Download 웹주소 : https://sourceforge.net/projects/mev-tm4/) 프로그램을다운받아압축을풀고, MeV 또는 TMEV를클릭해서프로그램을실행시킨다 ( 그림2-1) MEV프로그램을실행시키면세개의창이나타난다 ( 그림2-2). 분석창은프로그램창의메뉴에서 file->new multiple array viewer를통해여러개를생성할수있고데이터분석은분석창을통해진행한다. 그림 2-1. MeV program folder and files 그림 2-2. MeV program windows - 15 -

본자료에서는 MeV 프로그램을이용하여 Clustering 분석방법을설명한다. 13페이지에서설명한것같이 MeV input파일을저장하여이용할수있고, MeV 프로그램에 input할데이터를엑셀에서파일양식에맞춰저장하여이용할수도있다. 엑셀에 clustering 하고자하는유전자이름과 fold change 또는발현값 (intensity) 를가져온다 ( 그림 2-3). 그리고 ' 텍스트 ( 탭으로분리 )' 파일형식으로저장해야 MeV에 upload 할수있다. MeV에서는 2만개이상의유전자는 clustering 분석을할수없으므로 2만개이하로유전자를선별해야한다. ( 샘플개수에따라 1만 5천개의유전자를 input하여도분석이안될수있다.) 그림 2-3. Data format example - 16 -

input 데이터저장이완료되면 MeV 프로그램의분석창에서 file -> load data 를실행한다 ( 그림 2-4). Browse 를클릭하여 input 데이터를선택한다. 그림 2-4. Data uploading method Analysis-> Clustering-> HCL 을선택하여 Clustering 분석을시작한다 ( 그림 2-5). 그림 2-5. Hierarchical Clustering Selection - 17 -

Clustering 분석시다양한옵션을선택할수있다 ( 그림 2-6). Gene tree를선택하면 fold change 또는 intensity가유사한유전자끼리 clustering한결과가나온다. Sample tree를선택하면발현이유사한샘플끼리 clustering한결과가나온다. 당사에서 clustering 분석을할때 Distance Metric는 Euclidean Distance로 Linkage Method Selection은 Average linkage clustering으로설정한다. 다른옵션을선택해도된다. 옵션을선택하고 OK를누른다. 그림 2-6. Hierarchical Clustering Method Clustering이완료되면왼쪽메뉴에 Analysis Results에 HCL 결과가생긴다. HCL -> HCL tree를클릭하면 clustering 결과가화면에나온다 ( 그림 2-7). 위의 tree는 sample clustering 결과이고왼쪽 tree는 gene clustering 결과이다. 각 tree에는 distance scale bar가있어서 tree의길이를가늠할수있다. tree의길이는 distance이며, distance가짧을수록유전자간또는샘플간의발현패턴이유사한것, 길수록발현패턴이상이한것이다. - 18 -

그림 2-7. Hierarchical Clustering Result clustering 결과는이미지의크기와색상을조절하여원하는형태의이미지를만들수있다 ( 그림 2-8, 2-9) 그림 2-8. Clustering image size control Display -> Set Color Scale Limits을누르면 color scale bar의최소값, 중간값, 최대값을설정할수있다. 보통 log2(fold change) 는최소값과최대값은같은크기에부등호만바꿔주고 ( 예 : min:-3, max:3) 중간값은 0으로설정해준다 ( 그림 2-9). 이렇게하면 up-regulated genes은 red, downregulated genes은 blue으로나타나게된다. - 19 -

그림 2-9. Clustering image color scale setting 원하는이미지조절이완료되면 File -> Save image 를눌러이미지를저장한다. 이때파일이름에 파일확장자명 ( 예 :.jpg) 을꼭기입하여야이미지파일로저장이된다 ( 그림 2-10). 그림 2-10. Clustering image save - 20 -

3. KEGG DB 기반 Pathway 분석 mrna-seq 분석결과에서 up/down-regulated 유전자들이어떤 Pathway 에속하는지확인하고자 한다면 KEGG 에서제공하는 KEGG Mapper 를이용하면된다. 사용방법은그림 3-1 과같은순서로 진행된다. Entrez ID & 해당 Fold Change 항목의 Color 복사 그림 3-1. KEGG Mapper tool analysis process 그림 3-2는 mrna-seq report에서 2fold, normalized data(log2)>4을기준으로선별한유전자를 KEGG 분석하는과정이다. * KEGG input 값은 excel 파일의 Annotation 항목앞에제작되어있다. 오른쪽필터에서 Fold change와 Normalized Data(log2) ( 반복실험의경우 p-value) 값을지정하고, 확인하고자하는 Fold change 조합을선택하여필터를적용한다. 필터를적용하여선별된유전자의 KEGG input [Entrez ID, FC Color(# 숫자,black)] cell을함께복사하여, KEGG 분석에사용할것이다. 그림 3-2. KEGG Mapper tool analysis process - 21 -

그림 3-3과같이 KEGG Mapper 웹페이지 (http://www.genome.jp/kegg/tool/map_pathway2.html) 에접속하고 Search & Color pathway 링크에들어가면아래와같은화면이보여진다. 분석하고자하는유전자의 species를선택하고, 'primary ID' 는 KEGG identifiers로선택한뒤 'Enter objects one per line followed bgcolor, fgcolor' 창에엑셀에서준비해놓은 Entrez ID, Color 항목을복사-붙여넣기를한다. 마지막으로 Include aliases 와 Use uncolored diagram 항목에체크를한후 Exec 버튼을누른다. 그림 3-3. KEGG Mapper tool analysis process 분석결과, 입력한유전자들이관여하는 pathway list가나온다 ( 그림 3-4). pathway 이름옆에있는괄호안숫자는입력한유전자중각 pathway에관여하는유전자의수이다. 괄호안숫자를클릭하면해당유전자목록을볼수있다. pathway 이름을클릭하면해당 pathway chart가열리고입력한유전자의발현 up/down (red/blue) 이색으로표시되어있다. Pathway 이미지는 다른이름으로저장 이가능하고 html 으로저장하면이미지에링크된항목을그대로유지해서저장이가능하다. - 22 -

그림 3-4. KEGG Mapper tool analysis result - 23 -

4. DAVID tool 을이용한 Functional Annotation 분석 DAVID 는다양한데이터베이스를기반으로유전자의상관관계를통계적으로분석하여유전자의 주요기능을예측하는 analysis tool 이다. 분석과정은그림 4-1 과같다. 웹페이지 접속 http://david.abcc.ncifcrf.gov/ "Functional Annotation" Click! Step 1 ~ 4 수행 유전자리스트 (Gene symbol, Gene Bank No, others) copy & paste Select Identifier ---> "Gene List" Check ---> "Submit List" Click! Data Base Check Gene Ontology, Pathway, others DB 의 "Chart" Click! "Chart" 내의관심 term 과해당유전자확인 그림 4-1. DAVID tool analysis process DAVID 에서는 3 천개이상의유전자는분석할수없으므로 3 천개이하로유전자를선별해야 한다. mrna-seq 결과에서 significant gene 을선별하여 DAVID 분석을한다. DAVID 홈페이지 (http://david.abcc.ncifcrf.gov/) 에접속하여 Functional Annotation 을클릭한다 ( 그림 4-2). 그림 4-2. DAVID tool webpage - 24 -

Upload 탭에서 Step 1 에서 Step 4 까지수행한다 ( 그림 4-3). Step 1 에서선별한유전자의 Gene Symbol 을복사하고 A: Paste a list 창에붙여넣는다. Step 2 에서 OFFICIAL_GENE_SYMBOL 를선택한다. 만약 step 1 에서 Gene Bank No. 를넣었다면 GENEBANK_ACCESSION 을선택한다. Step 3 에서 Gene List 를체크하고 Step 4 에서 Submit List 를누른다. Gene Symbol 을넣은경우, multiple species have been detected in your gene list 라는창이뜨면 확인 을누른다. 그림 4-3. DAVID tool : Step 1 ~ Step 4 그림 2-4 와같이 Current Background 에일치하지않는종이나오지않았다면좌측 Background Sheet 에서알맞은종을선택하여 Use 를클릭한다. 그리고좌측 List Sheet 에서해당종 ( 숫자 ) 로 표기되어있고가로안의숫자가분석에적용된유전자의개수이다. 예시에서는 59 개의유전자 리스트를넣었고데이터베이스에서기능이밝혀진 48 개만이 Functional Annotation 분석에 이용되었다는의미이다 ( 그림 4-4). - 25 -

그림 4-4. DAVID tool : Select Species 분석결과를확인하기위해예로 Gene Ontology 중 Biological Process 를확인한다. Gene_Ontology 의 + 표시를클릭하여결과창을열고 GOTERM_BP_FAT 의 Chart 를누르면유전자들이관여하는 Biological Process GO 를확인할수있다 ( 그림 4-5). 관심 GO 를클릭하면 QuickGO 데이터베이스로연결되어각 GO 의정보를확인할수있다. GO 의 Gene 막대를클릭하면해당 GO 관련유전자들을확인할수있다. - 26 -

그림 4-5. DAVID tool : exploring Gene Ontology analysis result 이와같은방법으로 Pathway 결과를확인해보면 KEGG_PATHWAY database 에서주요 Pathway 가나온다 ( 그림 4-6). 각 pathway 를누르면 pathway 그림을확인할수있다. pathway 그림에서별표시가되어있는유전자가 input 유전자중해당 pathway 에관여하는유전자이다. 유전자를클릭하면유전자정보도자세히알수있다. 그림 4-6. DAVID tool : exploring Pathway analysis result DAVID 분석은 input 한유전자들이유의하게관련되는 GO, pathway 등을분석하기에유용한 tool 이다. 즉, input 한유전자에서많은유전자들이관련되는 GO, pathway 만결과로나오기때문에 input 유전자중적은수가관련되는 GO, pathway 는결과에나오지않는다. 또한 input 유전자의수가적으면분석결과가없을수도있다. DAVID 에서는유전자 2 개이상, EASE score - 27 -

0.1 이하를 default 로분석하여이기준에적합한결과를보여준다. option 에서이기준을 조정하여리스트를더볼수있다. David 분석결과의각항목은 DAVID 홈페이지의 Help and Tool Manual 에자세히설명되어있다 ( 그림 4-7). 그림 4-7. DAVID Help and Tool Manual - 28 -

5. MSigDB 기반 GSEA 분석 GSEA 분석은 MSigDB 기반으로유전자의상관관계를통계적으로분석하여입력한유전자셋의 주요기능을예측하고각유전자가어떤기능들에포함되는지 overlap 분석을제공해준다. 분석과정은그림 5-1 과같다. 웹페이지 접속 http://software.broadinstitute.org/gsea/msigdb/index.jsp 좌측메뉴항목 "Investigate gene sets" Click! ---> email 입력 "login" Click! 유전자리 스트입력 gene identifier 에서유전자리스트 (Gene symbol or Entrez GeneID) 복사 / 입력 Compute Overlaps 에서원하는 DB 선택 ---> 옵션선택후 "compute overlaps" Click! Analysis Results Enrichment Function & Pathway 등의결과확인, Excel 로저장 Gene/geneset overlap matrix 확인 그림 5-1. Web based GSEA tool analysis process MSigDB 에접속하여 "Investigate gene sets" 을클릭하고등록한이메일을입력하여로그인을 수행한다 ( 그림 5-2). 만약등록이필요할시 Click here 을클릭하여등록을진행하면된다 ( 그림 5-3). 그림 5-2. GSEA main page - 29 -

그림 5-3. GSEA Login page "Gene Identifiers" 입력창에유전자리스트 (Gene Symbol, EntrezGeneID 또는 public ID) 를입력하고 Compute Overlaps 에원하는 DB 를클릭한후맨아래 compute overlaps 버튼을클릭한다.( 그림 5-4). DB 선택시 DB 명앞의파란색글자를누르면해당 DB 정보를확인할수있다. 그림 5-4. GSEA Analysis 분석이완료되면그림 5-5 와그림 5-6 과같이통계적으로유의한 Gene Set List 와 Gene/Geneset Overlap Matrix 결과를확인할수있다. - 30 -

그림 5-5. GSEA Analysis Result (Gene Set) 그림 5-6. GSEA Analysis Result (Gene/Gene-set Overlap Matrix) - 31 -

6. String-db tool 을이용한 gene set 분석 String-db tool 은 Protein-Protein Interaction 데이터베이스를기반으로유전자의상관관계를 통계적으로분석하여유전자의주요기능을예측하고 Network 을 build 해주는분석툴이다. 분석과정은그림 6-1 과같다. 웹페이지 접속 http://string-db.org/ "Multiple proteins" Click! 유전자리 스트입력 유전자리스트 (Gene symbol or Entrez GeneID) 복사 / 입력 (500 개이하권장 ) Organism 입력 (Ex.) Homo sapiens, Mus musculus,...) ---> "Search" Click! Network & Analysis "Continue" Click! ---> Network contsruction ---> 결과확인 "Analysis" Click! ---> DB 별 Enrich 된 Function & Pathway 등을확인 그림 6-1. String-db tool analysis process 웹기반의 String-db 에서는 100 개이하의유전자를 input 하는것으로제한되어있고여러 public ID 중 EntrezGeneID 사용이좀더편리하다. mrna-seq 결과에서 significant gene 을선별하고 String-db 홈페이지 (http://string-db.org/) 에접속하여 Multiple proteins 을클릭하고 List of names 입력창에유전자리스트를복사한다. 그리고 Organism 입력창에해당 species 학명을입력하고 Search 를클릭한다 ( 그림 6-2). - 32 -

그림 6-2. Multiple proteins search Search 결과중간에아래그림과같은유전자확인단계가있고별이상이없으면 continue 를 클릭하여계속진행한다 ( 그림 6-3). 그림 6-3. Gene confirmation step 분석이완료되면그림 6-4와같이 String DB 기반 Network 결과를확인할수있고 Analysis 탭을클릭하면 Functional enrichments in your network 결과를확인할수있다 ( 그림 6-5). 각 Functional DB 결과의오른쪽하단에 more 를클릭하면 FDR<0.05 이하에해당하는항목을모두볼수있다. - 33 -

그림 6-4. String network result 그림 6-5. Functional enrichments result - 34 -

관심있거나중요한 Function 을클릭하면 Network 상에서해당유전자 ( 단백질 ) 들이붉은색으로표 시되고 ( 그림 6-6) 관심있는유전자 ( 단백질 ) 을클릭하면자세한정보를추가로얻을수있다 ( 그림 6-7). 그림 6-6. Function selection on your network 그림 6-7. Gene selection on your network - 35 -

Legend 탭에서는 Node, Edge, Input 유전자 ( 단백질 ) 의설명을자세히볼수있고 ( 그림 6-8) Tables/Exports 탭에서는 Network 와유전자 ( 단백질 ) 정보를파일로저장할수있다.( 그림 6-9) 그림 6-8. Legend of your network 그림 6-9. Tables/Exports of your network - 36 -