암유전체데이터의다중분석을위한 SOP (Standard operating protocols for integrated analyses of multidimensional cancer genomics data) 1

Similar documents
슬라이드 1

암유전체에서차세대시퀀싱기반의 DNA 카피수변화발굴을위한 SOP (Standard Operating Protocols for Identification of NGS-Based DNA Copy Number Alterations in Cancer Genomes) 1

Microsoft PowerPoint - bioinfo_09lect12_shpark_microarray.ppt [호환 모드]


김기남_ATDC2016_160620_[키노트].key

Orcad Capture 9.x

LIDAR와 영상 Data Fusion에 의한 건물 자동추출

4 CD Construct Special Model VI 2 nd Order Model VI 2 Note: Hands-on 1, 2 RC 1 RLC mass-spring-damper 2 2 ζ ω n (rad/sec) 2 ( ζ < 1), 1 (ζ = 1), ( ) 1

Can032.hwp

Observational Determinism for Concurrent Program Security

°í¼®ÁÖ Ãâ·Â

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

ETL_project_best_practice1.ppt

1217 WebTrafMon II

<4D F736F F F696E74202D20B1E8BCB120B1B3BCF6B4D420B0ADBFACC0DAB7E1>

thesis

Crt114( ).hwp

Intra_DW_Ch4.PDF

Solaris Express Developer Edition

SW_faq2000번역.PDF

untitled

SMARTer Sequencing Kits for Next Generation Sequencing

ARMBOOT 1


사회통계포럼

USER GUIDE

Network Security - Wired Sniffing 실습 ICNS Lab. Kyung Hee University

MAX+plus II Getting Started - 무작정따라하기

2 / 27 목차 1. M-plus 소개 2. 중다회귀 3. 경로모형 4. 확인적요인분석 5. 구조방정식모형 6. 잠재성장모형 7. 교차지연자기회귀모형

PowerPoint Template

연구분야 ( 코드 ) 과제번호 과제성격 ( 기초, 응용, 개발 ) 응용실용화대상여부비실용화 연구과제명 과제책임자 세부과제 지원목적과제프로그램공개가능여부공개 ( 공개, 비공개 ) ( 국문 ) 전장유전체유전자다형데이터를이용한표적유전자의발굴 ( 영문 ) Ide


Microarray 기초 및 응용

ºÎ·ÏB

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

C# Programming Guide - Types

BK21 플러스방법론워크숍 Data Management Using Stata 오욱찬 서울대사회복지학과 BK21 플러스사업팀

Microsoft PowerPoint - 알고리즘_5주차_1차시.pptx

歯김한석.PDF

DBPIA-NURIMEDIA

Remote UI Guide

<31372DB9DABAB4C8A32E687770>

Mango220 Android How to compile and Transfer image to Target

Secure Programming Lecture1 : Introduction

Buy one get one with discount promotional strategy

Chap 6: Graphs

methods.hwp

DocsPin_Korean.pages

APOGEE Insight_KR_Base_3P11

SRC PLUS 제어기 MANUAL

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

PowerPoint Presentation

휠세미나3 ver0.4

Analytics > Log & Crash Search > Unity ios SDK [Deprecated] Log & Crash Unity ios SDK. TOAST SDK. Log & Crash Unity SDK Log & Crash Search. Log & Cras

예제 1.1 ( 관계연산자 ) >> A=1:9, B=9-A A = B = >> tf = A>4 % 4 보다큰 A 의원소들을찾을경우 tf = >> tf = (A==B) % A

ISO17025.PDF

뉴스레터6호F?2??訝

Microsoft PowerPoint - 기계공학실험1-1MATLAB_개요2D.pptx

목차 BUG 문법에맞지않는질의문수행시, 에러메시지에질의문의일부만보여주는문제를수정합니다... 3 BUG ROUND, TRUNC 함수에서 DATE 포맷 IW 를추가지원합니다... 5 BUG ROLLUP/CUBE 절을포함하는질의는 SUBQUE

VOL /2 Technical SmartPlant Materials - Document Management SmartPlant Materials에서 기본적인 Document를 관리하고자 할 때 필요한 세팅, 파일 업로드 방법 그리고 Path Type인 Ph

Microsoft PowerPoint - 27.pptx

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Dec.; 25(12),

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

Jkbcs016(92-97).hwp

4. #include <stdio.h> #include <stdlib.h> int main() { functiona(); } void functiona() { printf("hihi\n"); } warning: conflicting types for functiona

bn2019_2

UI TASK & KEY EVENT

02 C h a p t e r Java

Microsoft PowerPoint SDK설치.HelloAndroid(1.5h).pptx

SQL Developer Connect to TimesTen 유니원아이앤씨 DB 기술지원팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 작성자

목 차 Ⅰ. 조사개요 1 Ⅱ. 용어해설 13 Ⅲ. 조사결과 과학기술인력 양성 및 활용에 관한 거시통계 분석 결과 9 1 가. 과학기술인의 양성 현황 19 나. 과학기술인의 취업 현황 24 다. 과학기술인의 경제활동 현황 27 라. 과학기술인의 고용 현황 28

<352EC7E3C5C2BFB55FB1B3C5EBB5A5C0CCC5CD5FC0DABFACB0FAC7D0B4EBC7D02E687770>

LXR 설치 및 사용법.doc

Windows Embedded Compact 2013 [그림 1]은 Windows CE 로 알려진 Microsoft의 Windows Embedded Compact OS의 history를 보여주고 있다. [표 1] 은 각 Windows CE 버전들의 주요 특징들을 담고

08김현휘_ok.hwp

Microsoft PowerPoint - ch03ysk2012.ppt [호환 모드]

歯DCS.PDF

(Exposure) Exposure (Exposure Assesment) EMF Unknown to mechanism Health Effect (Effect) Unknown to mechanism Behavior pattern (Micro- Environment) Re

강의10

untitled

歯1.PDF

歯AG-MX70P한글매뉴얼.PDF

DW 개요.PDF

CD-RW_Advanced.PDF

untitled

ORANGE FOR ORACLE V4.0 INSTALLATION GUIDE (Online Upgrade) ORANGE CONFIGURATION ADMIN O

Chapter 4. LISTS

<4D F736F F F696E74202D C61645FB3EDB8AEC7D5BCBA20B9D720C5F8BBE7BFEBB9FD2E BC8A3C8AF20B8F0B5E55D>


untitled

UML

À±½Â¿í Ãâ·Â

DBPIA-NURIMEDIA

Microsoft Word - FS_ZigBee_Manual_V1.3.docx

R

???? 1

28 THE ASIAN JOURNAL OF TEX [2] ko.tex [5]

,. 3D 2D 3D. 3D. 3D.. 3D 90. Ross. Ross [1]. T. Okino MTD(modified time difference) [2], Y. Matsumoto (motion parallax) [3]. [4], [5,6,7,8] D/3

Microsoft PowerPoint Android-SDK설치.HelloAndroid(1.0h).pptx

Chapter4.hwp

Transcription:

암유전체데이터의다중분석을위한 SOP (Standard operating protocols for integrated analyses of multidimensional cancer genomics data) 1

목차 1. 준비사항 (1) 배경 (3p) (2) mrna 및 mirna 발현데이터 (4p) (3) DNA 카피수변화프로파일 (6p) (4) #3. DNA 메칠화프로파일 (9p) 2. 다중유전체데이터연관분석 - ARACNe (1) ARACNe - 소개 (10p) (2) ARACNe - 설치및실행 (11p) (3) ARACNe 의범용성 (15p) (4) ARANCe 결과의 visualization (16p) 3. 다중유전체데이터연관분석 - icluster (1) 전분석 - 유전자클러스터링 (18p) (2) icluster 소개 (19p) (3) icluster 설치및실행 (19p) 4. 참고문헌 2

1. 준비사항 (1) 배경 본 SOP 의대상이되는다중유전체데이터는다수의환자군및샘플에서 2 개이상의유전분석플랫폼 (genotyping platform) 에서얻어진데이터로본 SOP 는데이터간공통되는환자및샘플에대한데이터교차분석에대한내용임. 본 SOP 의분석은마이크로어레이및시퀀싱에서얻어지는유전데이터를대상으로하고있으나, 기타임상의료데이터로얻어질수있는임상-병리데이터등교차분석의대상이되는데이터를포함할수있음. 본 SOP 에서는유전자발현데이터내의각유전자간의발현의교차분석을위한가장대중화된소프트웨어중하나인 ARACNe (Algorithm for the Reconstruction of Accurate Cellular Networks; url: wiki.c2b2.columbia.edu/califanolab/index.php/software/aracne) [1] 의사용법을기술함. 해당소프트웨어의사용및응용을통해현재암유전체분석의다중분석에서일반적으로고려되는 mrna-microrna 발현간의교차분석, mrna-유전자카피수간의교차분석, mrna 발현및유전자메칠화정도간의교차분석이가능함. 본 SOP 에서는가장대표적인알고리즘인 ARACNe 와 icluster2 [2] 를기준으로설명하고있으나, 다중유전체데이터분석을위한많은다른알고리즘이존재하므로, 다중유전체데이터분석시여러다른알고리즘를수행하고, 각각에서나온결과들을통합비교분석하는것이필요할수있음. 또한연구목적에따라 PARADIGM [3], mocluster [4] 등다른방법론의사용도고려해볼필요가있음. 3

본표준프로토콜은데이터의종류, 목적, 수행시기에따라많은변동사항이 있을수있으므로, 작성된프로토콜은모든연구를대변하는방법론이될수는 없음 본프로토콜은 2016 년 10 월현재를기준으로작성된것으로추후알고리즘버전업데이트등에의해프로토콜이수정되어야할수있으며, 보다좋은성능을보이는새로운알고리즘이개발되는등의경우에는프로토콜이변경될수있음. (2) 다중분석을위한데이터종류 - #1. mrna 및 mirna 발현데이터 암유전체분석의다중분석으로고려될수있는 mrna-microrna 발현간의교차분석, mrna-유전자카피수간의교차분석, mrna 발현및유전자메칠화정도간의교차분석등의분석을위해각데이터세트를준비하여야함. mrna 발현의경우유전자발현 microarray 및 RNAseq 기반의전사체분석을통해얻어질수있음. 유전자발현 microarray 의경우현재 Affymetrix, Agilent, Illumina 등의다양한플랫폼이존재하고있으며, 그다양성및분석의복잡성으로인해실제 microarray image 의 low-level 분석에관한사항은각플랫폼의생산자가제작한프로토콜을따르는것을함. 4

그림 1. 일반적인 mrna expression profile 의형태. Raw 상태의 image data 를 processing 하여공통의유전자군에대응하는 normalized value 가 N 개의샘플수에매칭되는 2D 형태의 profile 을일반적으로사용함. mrna 마이크로어레이의경우 one-dye (Affymetrix, Illumina) 혹은 twodye 플랫폼 (Agilent) 으로구분되며 one-dye 의경우개별 tumor 기반의 mrna, two-dye 의경우 tumor/normal mrna 의상대정량에따라각유전자의발현양상이결정됨. 본 SOP 에서는 N 개의유전자 X M 개의샘플에대한유전자발현량을 2D 매트릭스로존재한다고가정하고이를다중분석의대상으로함. 필요시추가적인 quantile normalization 이수행될수있음. 일반적인 2D 형태의 mrna expression profile 은그림 1 과같음. mirna 를대상으로하는분석의경우도 mrna 마이크로어레이와같은방식으로분석데이터세트를준비함. N 개의 microrna X M 개의샘플에대한 mirna 의상대적인발현양을 2D matrix 로준비함. 보통 20,000 개이상의 mrna 를대상으로하는 mrna 분석과달리 mirna 의경우, 1000 개내외갯수의 mirna 를다룸. 최근 PanCan 규모의분석에서제시되었듯이, mirna 와 5

mrna 의발현량의연관분석에서종양에서나타나는다양한유전체 변화 (DNA 카피수변화및메칠화 ) 를고려하는선형회귀모델이중요하다는점이 제시된바있음 [5]. (3) 다중분석을위한데이터종류 - #2. DNA 카피수변화프로파일 그림 2. 마이크로어레이기반의 array-cgh 및 NGS 기반의 readdepth 방식으로추출된카피수프로파일은 segmentation 의과정을거쳐 *seg 형태로저장되며, IGV browser 및 GISTIC 알고리즘을통해각각 visualization 및 driver 추출의분석에이용됨. 6

DNA 카피수변화프로파일은역시시퀀싱및마이크로어레이기반으로얻어짐. 시퀀싱기반의카피수변화는보통 read-depth 기반 (VarScan [6], Bic-seq [7] 등 ) 의 tumor/normal ratio 를 genomic bin 에서계산하며, 마이크로어레이의경우단일 probe 수준의 tumor/normal ratio 을계산하게됨. 두플랫폼모두추가적인 smoothing 및 segmention 을통해서 DNA 카피수변화프로파일의표준포맷인.seg 형태를얻게됨. Microarray (array-cgh) 및 NGS 기반의카피넘버프로파일링의개식도는그림 2 와같음. Smoothing/segmentation 에서현재가장표준적으로이용되는알고리즘은 CBS (circular binary segmention) [8] 임. 그외, Affymetrix 사의 SNP6.0 등의 상대적으로 noisy 한프로파일의경우 GLAD [9] 등의알고리즘이이용될수있음. mrna 프로파일과다른점은 DNA 카피수변화의경우반드시 matched normal 을고려해야함. 즉, tumor/normal ratio 를구하기위해시퀀싱의경우 matched normal 시퀀싱이수행되어야하며, one-dye array 인 Affymetrix SNP 6.0 의경우 tumor 와독립적으로 matched normal 의 genotyping 이수행되어야함. Two-dye array 인경우는이미 tumor/matched normal 이고려되며 universal reference DNA 를사용하는것보다해당환자의 matched normal 을 counterpart dye 로염색해서사용해야하는것이바람직함. 해당환자의 matched normal 이사용되지않거나 two-dye chip 에서 universal reference 가사용되는경우상당수의 germline CNV (copy number variation) 이같이발굴되기때문에정확한체성 (somatic) CNA 프로파일을얻기힘들고추후분석에문제를유발할수있음. 최종적으로얻어진.seg 파일은고려되는모든샘플에대해카피수변화가발굴된유전체 segment 별로 log2 ratio(tumor/normal) 을알수있게되며다중분석을위한표준유전자세트의유전체 coordinate 에따라샘플별 X 유전자별 CN 값을매칭하게된다. mrna 유전자발현과 DNA 카피수변화의 7

교차분석을위해보통 mrna 유전자발현량이주어진유전자세트 (mrna profile) 를구하고유전자별로 DNA 분석에이용된유전체버전 (hg19, hg38 등 ) 에따른 genomic coordinate 를 (transcription start-end) 획득한후, segment 파일의유전자위치정보와교차분석하여유전자별해당샘플의카피수를구하고 N X M 2D 매트릭스를생성함 ( 유전자카피수프로파일 ). 현재표준포맷으로사용되고있는 *.seg 형태의경우단일 segment 로인지되는유전체영역 ( 염색체및시작-끝점으로나타냄 ) 의평균카피수 (log ratio) 를나타내는형식임. 이평균카피수는마이크로어레이의경우해당영역에존재하는모든 probe 의 log ratio 의평균이며시퀀싱데이터는해당영역에존재하는 genomic bin 혹은해당영역의존재하는 tumor/normal 시퀀싱리드수의 log 값임. 실제세포주가아닌경우외과적수술로얻어지는암종의경우어느정도의정상세포침윤이있고 (normal contamination) 이로인해수 % 에서수십 % 에해당하는 tumor purity 를갖게됨. 보통이러한 tumor purity 는병리학자에의한슬라이드조직검사에의해대략적으로측정되며보통유전체분석에사용되는조직은 70% 이상의 tumor purity 가확보되어야함. 최근, 시퀀싱및마이크로어레이에서얻어진전장유전체규모의 DNA 카피수프로파일을이용해서 tumor purity 및 tumor ploidy 를예측하고이를이용하여 log2 수준의 DNA 카피수를 absolute 수준 (CN = 1, 2, 3,...) 으로변환하는알고리즘이제시되었고 (ABSOLUTE, https://www.broadinstitute.org/cancer/cga/absolute) [10], 이를이용할경우기존 GISTIC [11] 등의알고리즘으로간접적으로예측하던 absolute CN 을유전자별로매칭할수있음. 단, ABSOLUTE 를사용하기위해서는어느정도의 CNA 가존재하여야하며 CNA 가비교적없는혈액기원의종양이나 MSI(+) 종양의경우 ABSOLUTE 를사용할수없음. 또한 DNA 카피수변화가 8

아닌유전자발현프로파일을이용하여간접적으로 tumor purity 를계산하는 알고리즘 (ESTIMATE) [12] 가제시된바있음. (4) 다중분석을위한데이터종류 - #3. DNA 메칠화프로파일 DNA, 특히프로모터등의유전자의조절부위에위치한 CpG dinucleotide 의메칠화양상또한마이크로어레이및차세대시퀀싱으로프로파일이가능하며, 암유전체의 epigenetic 변화를프로파일링하는데있어활발히이용되고있음. Epigenetics 변화의다른측면인 histone 변화의경우, 다양한종류의 histone modification 및에피게놈변화를측정할수있는 Chip-seq 이연구단계에있으나, 암유전체분석에서는아직활발히이용되고있지않음. CpG decay 에의해 CpG dinucleotide 는 expected value 에비해 observed value 가낮으며 (observed/expected = 1/5) 유전자조절부위와밀접한연관을갖는 CpG island 등에서주로관찰됨. 대략, 4 천만개에이르는 CpG dinucleotide 중대표성을갖는일부의 CpG dicleotide 를 probe 화한 DNA methylation microarray 가대표적으로이용되고있으나최근전장유전체규모의 methylation 분석 (whole-genome bisulfite sequencing) 이나 methylation domain 을 ChIP (chromatin immunoprecipiation) 으로분석하는기법및 CpG capture sequencing 등의차세대시퀀싱기반의메칠화분석기법이이용되고있음. 특정 CpG dicleotide 의메칠화는유전자발현양상과는다르게해당 CpG dinucleotide 의메칠화정도 (0-100%) 를 beta value 로환산하여사용하게되며이로인해수십-수천배의 fold change 를가지는유전자발현량과는달라제한된변화폭을가짐. 보통유전자발현과의상호분석을위해해당유전자의 9

mrna 발현량과해당유전자의프로모터영역 /CpG island 의메칠화정도의 연관도를계산하게됨. 2. 다중유전체데이터연관분석 - ARACNe (1) ARACNe 소개 ARACNe (algorithm for the reconstruction of accurate cellular networks) 는 B cell co-expression network 을추출하는수단으로처음보고되어 (Nat Genet 4:382, 2005) [13] 악성신경교종의핵심전사인자를찾는등 (Nature 463:328, 2010) [14] 의다양한목적으로이용되고있음. ARACNe 의경우 MI (mutual information) 을 distance measure 로이용하며전사조절인자 (transcription factor) 와 target 간의직접 / 간접 (direct/indirect) 관계를유추할수있는 DPI (data processing inequality) 를도입함. MI 의경우 non-linear setting 에서 statistical correlation 을결정할수있는추정치로서통상적으로이용되는연관도 (Pearson or Spearman correlation) 에비해장점을가지고있음. 통상적으로 100 개 ( 샘플 / 환자 ) 이상의유전자발현프로파일을이용하는것이 좋으며안정적인 MI 를계산할수있는최소한의숫자로정함. 10

(2) ARACNE 설치및실행 그림 3. ARACNe 를이용한 microrna, mrna 통합분석개요. 그림 3 은 ARACNe 를이용한 microrna 와 mrna 통합분석방법에대한 개요를보임. ARANCe 를설치하기위해권장되는기본하드웨어및소프트웨어조합은 다음과같음. - ARACNE (http://amdec-bioinfo.cugenome.org/html/caworkbench/upload/aracne.zip): ARACNE source code can be downloaded from http://amdec-bioinfo.cugenome.org/html/caworkbench/upload/aracne_source.zip - JDK 1.5 (http://java.sun.com/j2se/1.5.0/download.jsp) 이상 - Computer operating systems: Windows, GNU Linux or Mac OS X (version 10.4 or higher, on a PPC architecture) 11

ARACNe 는 platform-independent java 기반의 jar 실행파일이제공되며기본옵션의세팅만으로실행가능함. input 파일은 ARANCe 의 input 형태의 mrna expression profile 로 sample (column) 및 probeid(row) 에대응하는발현량을 tab-delimted 형태의텍스트로입력됨. ProbeID 는해당마이크로어레이의 probe ID 를직접적으로사용할수있으며 non-redundance gene ID 로대체할수있음. ARACNe 가 input 으로받는파일의형태는다음과같음 Col header 1 Col header2 Sample name 1 Sample name 2 Description Description ProbeID 1 Probe annot 1 4.5 9.8 5.6 ProbeID 2 Probe annot 2 3.6 0.5 2.8 ARACNe 의 input 파일은다수의샘플에서측정된단일 expression profile 로 일부유전자 (regulator) 를설정할경우해당 regulator 에대해 co-expression network 을추론함. mirna-mrna 간의다중분석을예로들면, 추출된 mirna 및 mrna 에만들어진 profile 을 merging 해서만든하나의 matrix 형태의파일을입력파일로사용. Methylation-mRNA 의다중분석을위해동일한방법 (profile 을 merging 후, regulator-target 의설정 ) 으로수행할수있음. ARACNe 의실행 command 및 option 은다음과같음 java -jar ARACNE-java.jar [OPTIONS] ARACNE options: -i <file> Input gene expression profile dataset -o <file> Output file name (optional) [*] -j <file> Existing adjacency matrix (.adj) file -a <fixed_bandwidth variable_bandwidth adaptive_partitioning> Algorithm (fixed_bandwidth variable_bandwidth 12

adaptive_partitioning), default: adaptive_partitioning -k <kernel width> Kernel width (accurate method only), default: determined by program -b <# bins> No. of bins (fast method only), default: 6 -t <threshold> MI threshold, default: 0 -p P-value for MI threshold (e.g. 1e-7), default: 즉, ARACNe 의실제실행예는다음과같음 java -jar ARACNE2.jar -i <input_file> -a adaptive_partitioning -p 1e-7 MI value 에대한 cutoff 를직접적으로정할수있으나보통 MI threshold 에대응하는 P value 를정할수있음. 보통 1e-7(default) 를 P value cutoff 로설정하고이를만족하는 pair 만 report 할수있으며 output file size 를최소화하기위해 P value cutoff 를설정하는것을권장함. mirna 를 regulator 로설정하고 ARACNe 를수행하는경우에는 -ㅣ옵션을이용하여입력데이터매트릭스파일에서 mirna 에해당하는 probeid 들의리스트를파일로입력함. mirna 뿐아니라 TF 들도함께 regulator 로사용하기위해서는 TF 의 probeid 들도함께입력함. java -jar ARACNE2.jar -i <input_file> -a adaptive_partitioning -p 1e-7 -l <tf_list> P value ( 혹은 MI value) cutoff 를설정하고 ARANCe 를수행할경우 output 을다음과같음. 보통 transcriptional regulator(tf) 혹은 merge 된 regulator(microrna 등 ) 을설정하고이 regulator 각각의 subnetwork (significance cutoff 를만족하는 correlation/mi 를보이는 target set) 을추출하는방식으로진행됨. > Parameter name1 Parameter value 1 13

> ProbeID 1 ProbeId 2 0.08 ProbeId 5 0.15 ProbeID 2 ProbeId 1 0.08 ProbeId 3 0.22 각행 (row) 가특정 TF 의 subnetwork 에관한 information 으로상기예에서첫줄은 probeid 1 유전자 ( 혹은 TF) 에대해미리설정된 P value 를만족하는 correlation 을보이는유전자 ( 예에서는 ProbeID 2 및 ProbeID 5) 와해당하는 MI value 를표기함. MI 에대한유의도 ( 예, 1e-7) 를미리설정한경우, 각각의 row 에해당유의도를만족하는유전자만표기되나설정하지않은경우, 모든유전자가 MI 값과함께표기됨. 이결과데이터를이용하면 microrna 를입력 TF 리스트로넣은경우에는 유전자발현양프로파일데이터를이용한 microrna 에의한 mrna 조절을 예측할수있음. ARANCe 의경우 indirect association (A-B, B-C 간연관에의해 A-C 간연관을보이는것 ) 을 filter 하기위한 DPI(data processing inequality) 옵션을설정할수있음. DPI 의초기설정값은 1(100%) 로계산된모든 edge 가선택되나 DPI 값을 0(no tolerance) 에서 0.15(15% tolerance) 로조정함으로써 false positive 를줄일수있음. 약 200 여개의샘플과 10,000 여개의유전자로구성된인풋파일을이용하여 ARANCe 를수행할때, 9G 이상의메모리를사용할정도로많은메모리와계산량을필요로하므로개인용데스크탑보다는서버용컴퓨터에서수행하기를권장함. 14

(3) ARACNe 의범용성및 R 구현성 ARANCe 는특정 mrna 발현프로파일에서 MI 기반의일반적인 coexpression network 을생성하는데이용할수있으나일반적으로해당프로파일에서 'regulator' subset( 일반적으로 transcription factor) 를설정하고이러한 regulator 에대응하는 subnetwork 을추출하는데이용하고있음. mrna expression 과같이 mirna expression 을 merging 하고 ( 동일한샘플이확보될경우 ) 이를 regulator 로설정하고 mirna 별로 potential target 을추출할수있음. 이러한다중분석은현재 mirna + mrna 발현프로파일로시도되고있으나다른종류의조합 (DNA 카피수혹은 DNA 메칠화 + mrna 발현프로파일 ) 에도응용할수있음. ARACNe 가추론하는 network 은통상적으로이용하는연관계수 (Pearson/Spearman) 을계산함으로써구현될수있음. 예를들어, 샘플수준으로매칭된 mrna expression 및 mirna expression 프로파일이있을때 pairwise 연관계수는 R 에서 cor(t(mrna_exp_matrix), t(mirna_exp_matrix), method="pearson or "spearman") 으로계산이가능하며, R 의 cor.test 함수를이용하여특정유의도를만족하는 pair/edge 를선택할수있음. 15

(4) ARANCe 결과의 visualization ARANCe 결과의 network visualization 을위해서 CytoScape [15] 등의 tool 을이용할수있음. CytoScape 의경우 network 의인자 (node-edge) 를 text file 로인지하여 network visualization 및해당 network 의다양한 property 를계산할수있는범용적인툴로서상기 ARACNe 결과를단순변환을통해 CytoScape input 파일로전환하여이용함. Cytoscape 의 input file 로서 node 와 node 간의관계로 individual 라인으로변환후, text 형태로가져올수있음. Cytoscape v2 이상의경우, Import- >Network->File 로파일을지정후, "source" 및 "target" 컬럼을지정함으로써 (v3.3 이상의경우, GUI 형식 ) network visualization 이가능함. Network 로딩후, 'organic' 등의다양한 layout 을통한 visualization 이 가능하며, Tools->NetworkAnalyzer->Network analysis 를통해 connectivity 등의다양한 network property 를계산할수있음. 그림 4 는 cytoscape 를이용한 subnetwork 분석의예를보임. 16

그림 4. Cytoscape(V3.2) 의 snapshot. BioGrid 에서제공하는 yeast-twohybrid 를통한 gene-gene network 의예로 'Organic' layout 이선택됨. 17

3. 다중유전체데이터연관분석 - icluster (1) 전분석 - 유전자클러스터링 유전자발현기반의클러스터링은 mrna 발현프로파일의기본적인 QC 후의데이터 quality 및임상연관성을보기위해수행됨. Phenotype 의명확한차이를보이는군 ( 예, 환자및정상군 ) 간에유의한유전발현차이가있다면클러스터링등의방법에의해그차이를확인할수있으며이는 phenotype 의차이를설명할수있는유전발현차이가이미데이터에내재되어있음을시사함. 유전자발현클러스터링은해당소프트웨어 (Cluster/TreeView) 혹은범용소프트웨어인 R 로수행함. 보통 2 만개가넘은유전자를대상으로하고있기때문에유의한유전자서브셋을추출하여분석을진행하게됨. 일반적으로샘플간의유전발현다양성을나타내는지표인 MAD(median absolute deviation) 이나표준편차가높은일부 ( 보통, 100-1000 개 ) 의유전자를선택하여클러스터링을수행하게됨. 계통적 (hierarchical) 클러스터링은유전자혹은샘플간의거리 (distance) 를측정하는방법및계산된거리를어떻게 linkage 할것인가에따라다양한조합의시도가가능함. 보통 Pearson correlation(1-pcc) 을 distance measure 로일반적으로사용하나이외, euclidean distance, (non-parametric) Spearman correlation 등을사용할수있음. Linkage 방법의경우거리매트릭스 (distance matrix) 에서최단거리의쌍을선택후해당쌍의유전자 2 개의거리를평균 (average), 최소 (single), 최대 (complete) 선택에따른 linkage 옵션을조정할수있음. 18

계통클러스터링이외에, K-means 클러스터링및 PCA(principle component analysis) 를수행할수있음. K-means 클러스터링의경우이미정해진갯수 (k 값 ) 에대해해당데이터세트를구분하는것으로정해진반복수 (iteration) 동안랜덤하게나뉘어진클러스터군을거리및유사도에의해재배열하는과정을반복하여최종적으로 k 군을얻게됨. PCA 의경우, 해당변수 ( 보통유전자수 ) 의변이도를가장잘대변하는주성분 (PCA) 을순서대로분리하여, PCA1-PCA2 두개의변수 ( 혹은 PCA1-3 의 3 차원 ) 의 2 차원구분 ( 보통 scatter plot) 을통해데이터를구분하게됨. (2) icluster 소개 icluster 는다중데이터로부터클러스터링을수행할수있는수단으로보고되어, 2009 년 Bioinformatics 저널에처음보고된후 [16], 2012 년 GBM 에서 molecular subtype 을구분하기위한방법으로 icluster2 가 plos one 저널에발표되었음 [2]. 본 SOP 에서는 icluster2 를기준으로실행방법을설명함. icluster 는 copy number 데이터, 유전자발현데이터, DNA methylation 데이터들을동시에입력으로받아서, 은닉변수모델 (latent variable model) 을이용하여클러스터링을수행함. icluster2 에서는이를변형한 varianceweighted shrinkage 방법에기반하여클러스터링을수행함. (3) icluster 설치및실행 icluster 는 R 을이용하여수행할수있음. R 에서 icluster 패키지를설치하기 위해서는다음과같은명령어를수행함. 19

> install.packages("icluster") 입력데이터는다중유전체데이터가하나의 list 구조에들어있는형태임. 즉, copy number 데이터, 유전자발현데이터, methylation 데이터세가지데이터가각각, cn, exp, methyl 이라는이름의 matrix 로존재한다고한다면다음과같은명령어를이용하여 list 구조형태의입력데이터로변형할수있음. 각각의유전체데이터 matrix(cn, exp, methyl) 에서공통적으ㅗㄹ행 (row) 은샘플, 열 (column) 은유전자를의미함. > data <- list(cn, exp, methyl) icluster2 실행을위한명령어및옵션은다음과같다. > icluster2(datasets, k, lambda=null, scale=t, scalar=f, max.iter=10, verbose=t) - datasets: A list containing data matrices. For each data matrix, the rows represent samples, and the columns represent genomic features. - k: Number of classes for the samples. - lambda: Penalty term for the coefficient matrix of the icluster model. - scalar: Logical value. If true, a degenerate version assuming scalar covariance matrix is used. - max.iter: maximum iteration for the EM algorithm - scale: Logical value. If true, data matrix is column centered - verbose: Logical value. If true, print message. 클러스터 3 개를만드는경우에대한실제실행예시는다음과같다. > fit=icluster2(datasets=data, k=3, lambda=list(0.44,0.33,0.28)) 20

클러스터링결과를확인하기위해서는 ploticluster 함수를이용한다. 각 샘플들이어떻게클러스터링되었는지 symmetric matrix 의 heatmap 형태로 그림이그려진다. 그림에서각 row 와 column 은각샘플을의미한다. > ploticluster(fit=fit, label=rownames(data[[1]])) 21

4. 참고문헌 [1] Margolin AA, Nemenman I, Basso K, Wiggins C, Stolovitzky G, Dalla Favera R, Califano A. ARACNE: an algorithm for the reconstruction of gene regulatory networks in a mammalian cellular context. BMC Bioinformatics. 7(Suppl 1):S7, 2006. [2] Shen R, Mo Q, Schultz N, Seshan VE, Olshen AB, Huse J, Ladanyi M, Sander C. Integrative subtype discovery in glioblastoma using icluster. PLoS One. 7(4):e35236, 2012. [3] Vaske CJ, Benz SC, Sanborn JZ, Earl D, Szeto C, Zhu J, Haussler D, Stuart JM. Inference of patient-specific pathway activities from multi-dimensional cancer genomics data using PARADIGM, Bioinformatics 26(12):i237-245, 2010. [4] Meng C, Helm D, Frejno M1, Kuster B., mocluster: Identifying Joint Patterns Across Multiple Omics Data Sets. J Proteome Res. 15(3):755-765, 2016. [5] Jacobsen A, Silber J, Harinath G, Huse JT, Schultz N, Sander C., Analysis of microrna-target interactions across diverse cancer types. Nat Struct Mol Biol. 20(11):1325-1332, 2013. [6] Koboldt DC, Zhang Q, Larson DE, Shen D, McLellan MD, Lin L, Miller CA, Mardis ER, Ding L, Wilson RK., VarScan 2: somatic mutation and copy number alteration discovery in cancer by exome sequencing, Genome Res. 22(3):568-576, 2012. 22

[7] Xi R, Lee S, Xia Y, Kim TM, Park PJ., Copy number analysis of whole-genome data using BIC-seq2 and its application to detection of cancer susceptibility variants. Nucleic Acids Res. 44(13):6274-6286, 2016. [8] Olshen AB, Venkatraman ES, Lucito R, Wigler M. Circular binary segmentation for the analysis of array-based DNA copy number data. Biostatistics. 5(4):557-572, 2004 [9] Hupé P, Stransky N, Thiery JP, Radvanyi F, Barillot E., Analysis of array CGH data: from signal ratio to gain and loss of DNA regions. Bioinformatics, 20(18):3413-3422, 2004. [10] Carter SL, Cibulskis K, Helman E, McKenna A, Shen H, Zack T, Laird PW, Onofrio RC, Winckler W, Weir BA, Beroukhim R, Pellman D, Levine DA, Lander ES, Meyerson M, Getz G. Absolute quantification of somatic DNA alterations in human cancer. Nat Biotechnol. 30(5):413-421, 2012. [11] Mermel CH, Schumacher SE, Hill B, Meyerson ML, Beroukhim R, Getz G. GISTIC2.0 facilitates sensitive and confident localization of the targets of focal somatic copy-number alteration in human cancers. Genome Biol., 12(4):R41, 2011. [12] Yoshihara K, Shahmoradgoli M, Martínez E, Vegesna R, Kim H, Torres-Garcia W, Treviño V, Shen H, Laird PW, Levine DA, Carter SL, Getz G, Stemke-Hale K, Mills GB, Verhaak RG., Inferring tumour purity and stromal and immune cell admixture from expression data., Nat Commun. 4:2612, 2013. 23

[13] Basso K, Margolin AA, Stolovitzky G, Klein U, Dalla-Favera R, Califano A. Reverse engineering of regulatory networks in human B cells. Nat Genet. 37(4):382-390, 2005. [14] Carro MS, Lim WK, Alvarez MJ, Bollo RJ, Zhao X, Snyder EY, Sulman EP, Anne SL, Doetsch F, Colman H, Lasorella A, Aldape K, Califano A, Iavarone A. The transcriptional network for mesenchymal transformation of brain tumours. Nature. 463(7279):318-325, 2010. [15] Shannon P, Markiel A, Ozier O, Baliga NS, Wang JT, Ramage D, Amin N, Schwikowski B, Ideker T., Cytoscape: a software environment for integrated models of biomolecular interaction networks. Genome Res. 13(11):2498-2504, 2003. [16] Shen R, Olshen AB, Ladanyi M. Integrative clustering of multiple genomic data types using a joint latent variable model with application to breast and lung cancer subtype analysis. Bioinformatics, 25(22):2906-2912, 2009. 24