<4D F736F F D204E47535FC3D6BDC5BBFDB8EDC1A4BAB8C0CCBDB4C1A4B8AE2E646F63>

Save this PDF as:

WORD PNG TXT JPG

Size: px

Start display at page:

Download "<4D F736F F D204E47535FC3D6BDC5BBFDB8EDC1A4BAB8C0CCBDB4C1A4B8AE2E646F63>"

준현 원
6 years ago
Views:

1 NGS(Next Generation Sequencing) 시대의분석전략 본문서는국내생물정보공학관련회사인인센리코젠 (insilicogen.com) 에서최근이슈화되는 NGS관련생물정보기술정보를연재한내용입니다. 전반적인생물정보기술에대한주요단계와기술에대한간략한소개정보로유용한자료입니다. Frederick Sanger에의해서시퀀싱기술이개발된이후오랜기간동안많은종의유전정보가밝혀져왔습니다. Human Genome Project가완성되었으며, 아직도수많은동물, 식물, 미생물에대한시퀀싱이전세계에걸쳐진행되고있습니다. 최근에는생산성을획기적으로개선한 Next Generation Sequencing (NGS) 기술이개발되어기존에비해시간과비용을비약적으로줄일수있게되었습니다. NGS 기술은단순히시퀀싱의방법만을바꿔놓은것이아니라유전체연구의새로운토대를만들어가고있습니다. 하지만아직도 NGS 기술이기존의분석방법에서어떠한변화를가져오는것인지, 어떠한분석전략이필요한것인지궁금해하는연구자분들도많은것이라생각됩니다. 'NGS 시대의분석전략 2' 라는제목으로발간된 Quipu Issue Paper 2호에서는앞서말씀드린 NGS에대한기본적인이해를도울수있도록다양한변화를습득하고하고계시는연구에조금이나마도움이되기를바랍니다 연재 1 : [Quipu Issue Paper] Assembly Ⅰ - Reference assembly 1. Assembly 2. Variation study 3. Expression study 4. Epigenomics 5. Genome Annotation 6. Next Generation Bioinformatics 7. Data Management for web 2.0 Era 8. Semantic Network for Integrated Biology Data 9. Gene Network Discovery by Text-mining 10. Centralization for High-throughput Data Analysis Quipu Issue Paper 기술소식지첫번째연재로 NGS Assembly 중에 Reference assenbly 에대해알아보도록하겟습니다. 1. Next Generation Sequencing? 1-2. Assembly

2 Next Generation Sequencing(NGS) 으로인한무제한적인서열데이터생산은이후생물정보학적분석의가장큰도전과제가되었다. 일차적으로많은양의데이터관리부터분석과정마다의 computing 속도가문제로제기되었다. 그중가장첫번째단계가 assembly 이다. NGS 서열의 assembly 는그목적에따라크게 reference assembly 와 de novo assembly 로구분지어진다. Reference assembly 의경우 variation 및 epigenetics 연구에주로이용되고 de novo assembly 의경우기존의 genome project 에서진행하던 whole genome sequencing 에이용되고있다. 세부적인내용을다음에서알아보자 Reference assembly Re-sequencing 을통한기존의 reference 서열과의비교로유전체상의 variation 연구를목적으로진행하는시퀀싱은주로 single reads 를얻는시퀀싱보다는 paired-end 시퀀싱이수행된다. 그이유는다양한질병관련유전자의 SNP 및 CNV 분석을위해서는 single reads 보다는 paired-end reads 가더유용하기때문이며, 이들데이터는앞서언급한다양한플랫폼에서생산되고있다. 이렇게생산된 NGS 데이터를분석할수있는프로그램은오픈소스로제공되는것과그렇지않은것들로여러개가존재한다. 그중오픈소스로제공하는 SOAP[1], MAQ[2] 그리고 ZOOM[3] 은 paired-end short read 에최적화되어있고, Newbler 는 long reads 인 454 reads 에최적화되어있다. 이렇게대부분특정 NGS 플랫폼에서생산된데이터만을다룰수있도록고정화되어있는것에반해 CLC bio 사의 CLC NGS Cell[4] 은언급된모든플랫폼의데이터를분석할수있는장점이있다 [14]. 이들프로그램에대하여좀더자세히알아보자. NGS assembly 프로그램을평가하는데있어가장큰이슈는분석속도와결과의정확성, 그리고그외분석의용이성을들수있다. 이들에대한비교분석을위해표 1 에서보여지는 paired-end 의 short reads 을대상으로여러가지분석을수행하였다. 이러한분석은 64-bit Xeon E5420 CPUs 에 32 GB memory system 에서수행되었다 [1]. 첫번째인분석속도에서는 CLC NGS Cell 이가장빠른것으로평가되었다 ( 표 2)[5]. SIMD 기술을이용한병렬데이터처리로속도면에서월등히높은성능을나타내었다. 그외 SOAP 의경우 reference 서열을 2-bit 로전환하여 index 파일을이용한연산처리로좋은결과를보이고있다 ( 현재 SOAP 의경우업그레이드를통해분석속도가많이향상되었다 ).

3 특히, Maq의경우 Illumina와 SOLiD의 paired-end reads를대상으로 human 유전체에맵핑할경우 CPU time으로 10 시간동안백만개 paired-end reads를 assembly 할수있다고밝혔다 [2]. 같은시험을위해자체적으로 SOLiD reads 를대상으로 CLC NGS Cell 을이용하여분석했을때 CPU time 으로 5 시간 28 분에분석이완료됨을확인하였다. 두번째로 NGS read 의 alignment 비율및정확성을살펴보았다. 최근논문 PLoS ONE 에기재된 Mapping Accuracy of Short Reads from Massively Parallel Sequencing and the Implications for Quantitative expression Profiling 에서는 BLAT[15], SSAHA2[16], Bowtie[17], SeqMap[18], MAQ, CLC NGS Cell 을대상으로다양한종의데이터로프로그램의정확성을다각도로분석한결과를발표하였다 [6]. 그결과그림 1 에서보여지는것과같이 SSAHA2 와 CLC NGS Cell 이높게평가되었다. 이중 SSAHA2 는 Sanger institute 에서개발된프로그램으로현재 SOLiD data 를제외한모든플랫폼의데이터를분석할수있다 [7]. 기본적으로 Smith-Waterman alignment 를수행하며 2-bit 로전환하여정확한 assembly 를수행한다. 그다음 CLC NGS Cell 은모든플랫폼의데이터를처리함과동시에 SSAHA2 와같이안정적으로 reads 길이에관계없이정확한 assembly 를수행하고있다. 또한특이할만한점은 yeast, drosophila, arabidopsis 그리고 human 을대상으로한다양한데이터로 short reads 와 long reads(>50bp) 에대한프로그램성능을비교하였음에도불구하고 (MAQ: short read 만이분석가능 ), 프로그램별로일관성있는결과를보여주고있다는것이다. 각기다른종과 read 길이로약간의차이는보이나전반적으로동일한분석패턴을보이고있어, 이는곧데이터의특성보다는프로그램별알고리즘의차이가분석결과에더많은영향을미치는것으로해석된다. 따라서 NGS를이용한분석에서다양한프로그램을이용하여분석파이프라인을구축하는것보다는사전에충분한테스트를통해동일한알고리즘으로구성된프로그램을이용하는것이결과의안정성과정확성을높일수있는하나의방법이될수있겠다. NGS 를이용한연구에서특히 re-sequencing 을하는경우대부분유전체상의 variation 연구를목적으로진행된다. 따라서 re-sequencing 된데이터는기존의 reference 서열과는다른 variation 을가지는특성이있으므로이를고려한 assembly 알고리즘이필요하다.

그림 1. 프로그램별다양한데이터셑으로구성된 reference assembly 시험결과. 회색바는 alignment 된비율, 붉은색바는부정확한 alignment 를각각나타낸다 그림 2. Reads 의다양한 mutation 비율에따른 mapping 의정확성시험.

그림 2 에서는각프로그램별 variation 을고려한 assembly 결과를보여주고있다 [6]. Drosophila 의 transcripts와유전체서열을각각 reference로하고 mutation 비율이각기다른 NGS reads 를맵핑하여프로그램의정확성을확인하였다.

4 그림 1. 프로그램별다양한데이터셑으로구성된 reference assembly 시험결과. 회색바는 alignment 된비율, 붉은색바는부정확한 alignment 를각각나타낸다 그림 2. Reads 의다양한 mutation 비율에따른 mapping 의정확성시험. Drosophila genome 과 transcripts 를 reference 로하여 reads 의 mutation 비율을각각 3%, 6%, 9% 로조정하여 mappping 을수행. 회색바는 alignment 된 reads 의비율을의미하며붉은색바는부정확하게 alignment 된비율을나타낸다. 그림 2 에서는각프로그램별 variation 을고려한 assembly 결과를보여주고있다 [6]. Drosophila 의 transcripts와유전체서열을각각 reference로하고 mutation 비율이각기다른 NGS reads 를맵핑하여프로그램의정확성을확인하였다. 이도역시 CLC NGS Cell 과 SSAHA2 가가장우수한결과를보이고있다. 그러나 CLC NGS Cell 의경우 mutation 비율에상관없이안정적인정확성을보이고있는반면, SSAHA2 는 mutation 비율이커짐에따라정확성이떨어지는문제점을들어내고있다. 따라서 SSAHA2 를이용할경우사전에데이터의특성을미리파악하여적절히이용하는것이좋을듯하다.

5 마지막으로분석의용이성을여러가지측면으로살펴보았다. NGS 분석을목적으로개발된 MAQ, SOAP, 그리고 CLC NGS Cell 은모두웹에서다운로드가가능하다. 이중 CLC NGS Cell 은압축만해제하면바로실행할수있는바이너리파일을제공하고있고, SOAP 과 MAQ 은각각압축해제후 compile 을통해쉽게설치가가능하다. 이후분석에필요한입력데이터형식은 CLC NGS Cell 이가장호환성이좋아 FASTA, FASTQ, csfasta(solid), Scarf, Sff의모든형식의파일을입력받을수있었으며 SOAP과 MAQ은각각프로그램에맞는형식이따로존재하여, 이들형식으로전환할수있는프로그램을따로제공하고있는실정이다. 이때 paired-end reads 의경우분석결과의신뢰성과정확성을높이기위해 assembly 수행전에서열이쌍으로존재하는지여부를체크하게되는데, 이를점검할수있는프로그램을 CLC NGS Cell 과 MAQ 은제공하고있다. 이는분석자에게 NGS reads 의전처리과정을수월하게진행할수있게하는편의성도고려된것이다. Reference 서열또한 CLC NGS Cell 은 FASTA 형식과 genbank 형식의파일을바로입력받을수있는장점을가지고있으며, 나머지프로그램은각각의형식으로전환할프로그램을제공하여한번의분석단계를더수행하도록되어있다. 그외분석에필요한옵션사항은약간의차이를보일뿐큰차이는없었으나, 다음분석을위한 assembly 결과파일의데이터호환성에서는 CLC NGS Cell 과 MAQ 이 SOAP 보다는우위를나타내었다. 마지막으로 NGS 분석프로그램에서중요하게체크해야할사항중에하나는 assembly 과정을나눠진행하고이후에결과를하나로합쳐볼수있는기능이있는지를살펴보는것이다. 제한된 computing power 로이처럼큰사이즈의유전체서열과 NGS reads 를분석해야하므로한번에데이터를분석한다는것은매우어려운일이다. 따라서가능한분산처리로데이터를나눠분석하고이들을통합할수있는기능이있어야만한다. 다행히이러한기능은 CLC NGS Cell(join_assemblies) 과 MAQ(mapmerge) 에서제공을하고있었다. 이들각각의특징은표 3 에서자세히확인할수있다.

6 다음연재에서는 Reference assembly에이어서 NGS Assembly 중에 de novo assembly에대해알아보도록하겠습니다. 많은관심부탁드립니다. 연재 2 : [Quipu Issue Paper] Assembly Ⅱ - De novo assembly Quipu Issue Paper 기술소식지두번째연재로 NGS Assembly 중에 De novo assenbly 에대해알아보도록하겟습니다 De novo assembly Human genome project 이후다양한종에서 Whole Genome Sequencing(WGS) 이진행되고있다. 고전적인방법으로 BAC library 를제작하여샷건시퀀싱으로진행되던방식이 NGS 시대에들어새롭게진화하였다. 일예로 Dr. Andreas 는 Corynebacterium kroppenstedtii 의유전체시퀀싱을단 7.5 시간만에수행하고자동화된 genome annotation 파이프라인을통해단 3 일만에논문으로발표하였다 [13]. 그러나아쉽게도미생물을제외한대부분의종에서는아직까지 NGS를이용한 de novo assembly 로유전체시퀀싱을완성한팀은없다. 짧은 reads 의제한적인정보로복잡한유전체구조를모두밝히기엔어려움이따른다. 따라서 reference 가없는새로운종을시퀀싱할경우에는짧은 reads 를생성하는 Solexa 나 SOLiD 보다는 Roche 454 를이용한 long reads 시퀀싱이유용하다 년 10 월

7 현재 Roche 454 의 GS Titanium 의경우평균 read 길이가 350bp 에달하고최대 700bp 까지시퀀싱을수행한다고한다 [8]. 단, 유전체구조상반복서열영역과같은서열상의정보로만분석되지않는부분은 paired-end reads 의 fragment size 를다양하게디자인하여 long reads 와함께분석하여야한다. 이렇게 de novo assembly 의경우 long reads 와 short paired-end reads 를동시에처리할수있어야하므로 assembler 또한이들모두를처리할수있어야한다. 대표적인 de novo assembler 로 Velvet(Solexa bundle program)[9], Newbler(454 bundle program)[10], ABySS[11], CLC NGS Cell, 그리고고전적인프로그램인 Phrap 을들수있다. 이들 assembler 의특징에대해좀더자세히살펴보기위해다음의몇가지조건을기준으로살펴보았다. 단, phrap 의경우 NGS reads 의특성상대량의데이터를처리하기엔메모리와속도면에서비교하기가어려울만큼효율적이지않은점을고려하여이후비교분석에서는제외하였다.

8 최근 de novo assembler 의개발이가속화되면서 human 유전체를대상으로 de novo assembly 에성공한사례가발표되었다. CLC NGS Cell[12] 과 ABySS[11] 가그주인공으로 Illumina 의 paired-end reads 를분석에이용하여 38X 의 human 유전체를완성하였다고밝혔다. 그두프로그램의결과를비교해보면표 4 와같다. CLC NGS Cell 은최근 2.0 에서 3.0 beta 버전으로업그레이드되면서 de novo assembly 에놀라울만큼의결과를향상시켰다 [12]. 단적으로 38X 나되는많은데이터를 de novo assembly 로분석하는데단 78 시간 (CPU time) 밖에소요되지않았다는것만으로도매우놀라운일이다 ( 표 4). 이는 ABySS 와비교했을때약 172 배가빨라진결과이다 [12]. 뿐만아니라분석된 contig 의품질을살펴보면 100bp 이상되는 contig 는 ABySS 보다많으며최대 contig 길이면에서 1.7 배긴 contig 를생성하고있다. N50 또한서로비슷한결과를보여주고있어단순히빠른속도만을내세우는프로그램이아닌분석결과에대한정확성면에서도믿음을주고있다. 이를한번더검증하기위해짧은유전체를대상으로 Velvet 과의정확성테스트를다시수행하였다. 그결과 Velvet 의부정확한 assembly 에비해 CLC NGS Cell 은모두정확한 assembly 를수행하였음을확인할수있었다 ( 표 5)[12]. 비슷한결과로 Shizosaccharomyces pombe 132, Fungi 유전체를대상으로테스트한결과에서도 CLC NGS Cell 이 Velvet 보다는좋은결과를보였다 ( 표 6). 마지막으로 long reads 와 short reads 를동시에분석하여복잡한유전체구조를분석할때서로다른데이터플랫폼이함께분석되어야한다. 이를위해 GS titanium 과 Illumina 데이터 (Solexa) 를다양한비율로구성한테스트세트를이용하여분석하였다 ( 표 7).

9 분석결과 long reads 구성이많을수록긴 contig 를구성하는것을확인할수있었다. 그러나여기서보여지진않았으나반복서열영역과같은시퀀싱이쉽지않은영역의데이터를 long reads 보다는 short reads 에서확인할수있었다. 따라서두가지플랫폼의장점을모두수용할수있는 assembler 를선택하여분석의정확성을높이는것이좋을듯하다 Workflow NGS 데이터의분석단계는크게 pre-processing, assembly, 그리고 assembly 를이용한이차분석으로나눠진다. Pre-processing 단계에서는다양한플랫폼으로부터 single reads, long reads, paired reads 그리고 unpaired reads 들의정보를 assembly 단계에적용하기위한작업을수행한다. 대부분의 assembler 는대용량의데이터처리를위해 index 파일을자체프로그램에맞게생산하는단계를거치거나, 다양한플랫폼에서생산된데이터를특정포맷의입력포맷으로전환하는과정을수행한다. 그러나이러한과정은자칫시퀀싱자체의 raw 정보를유실하는경우가발생할수있으므로 assembler 의기능을면밀히살펴최대한정보를그대로보존할수있는 assembler 를선택하는것이좋다. 그중 CLC NGS Cell 은대부분의시퀀싱 raw 파일을입력포맷으로지원하므로이러한정보손실을줄여줄수있는이점이있다. 더욱이 zip file 형태의파일을바로입력포맷으로지원하므로분석단계에서의파일관리가수월한점도장점이라하겠다. 다음으로 assembly 과정에대해알아보자. NGS reads 의 assembly 는제한적인 computing power 를고려하여데이터를여러개로분리하여반복수행하게된다. 이후이들 assembly 결과를하나로합치는과정을통해전체적인 assembly 을완성한다. 대부분의프로그램이한번의명령어수행으로 contig 서열혹은 assembly 파일을얻을수있다. 그림 3. CLC NGS Cell workflow. 다양한입력포맷을지원하므로 assembly 수행을위한여러단계의전처리과정이없으며 assembly 이후한번의스크립트수행을통해원하는다양한정보를이차적으로생산할수있다. 마지막으로 assembly 결과를이용한다양한이차정보분석이다. SNP 와같은 variation 분석, assembly 결과를보여주는그래픽인터페이스그리고 assembly quality 정보분석이주로수행된다. 그중 assembly quality 는 reference assembly 의경우 assembly 에참여된 reads 의 coverage 와 fold 로나타낼

CLC NGS Cell 은 reference assembly 수행시유전자구조및기능정보를담고있는 NCBI 의 genbank 포맷의파일을 reference 파일로입력받을수있는데, 이를이용하게되면 assembly 수행후결과를 CLC Genomics Workbench 를통해유전자위치와 alignment 된 reads

10 수있으며 de novo assembly 의경우 N50 및 fold value 가지표가될수있다. 이러한분석역시간단한명령어수행으로대부분의프로그램에서수행하고있다 ( 그림 3). 그림 3. CLC NGS Cell workflow. 다양한입력포맷을지원하므로 assembly 수행을위한여러단계의전처리과정이없으며 assembly 이후한번의스크립트수행을통해원하는다양한정보를이차적으로생산할수있다. 또한그림 4 는 alignment 결과와그에따른 SNP evidence 를그래픽인터페이스를통해보여주고있다. CLC NGS Cell 은 reference assembly 수행시유전자구조및기능정보를담고있는 NCBI 의 genbank 포맷의파일을 reference 파일로입력받을수있는데, 이를이용하게되면 assembly 수행후결과를 CLC Genomics Workbench 를통해유전자위치와 alignment 된 reads 정보를따로그래픽인터페이스를제작하지않고도쉽게확인할수있다. 또한 SNP 정보를함께 CLC Genomics Workbench 를통해확인할수있어바로프라이머를제작하는등의차후분석이가능하도록돕고있다. 그림 4. CLC Genomics Workbench를이용한 alignment view 와 SNP view. Reference assembly 수행시 annotation 정보가있는.gbk 파일을이용하여분석한후 assembly 파일을 Genomics Workbench를통해확인하면유전자의위치와함께 alignment reads의상세정보를확인할수있다. 아울러 SNP 정보중 csnp의경우 translation 정보를활용하여 non-synonymous/synonymous SNP를구분하여분석할수있다.

11 다음주연재에서는 Assembly에이어서 Assembly를수행하고이후서열간의비교분석을통해 variation 분석을진행하는 variation study에대해알아보도록하겠습니다. 많은관심부탁드립니다. 연재 3 : [Quipu Issue Paper] Variation study Ⅰ 이번주 Quipu Issue Paper 기술소식지에서는 Next Generation Sequencing 의첫번째 Application 인 Variation study 에대해 5 번에걸쳐연재될예정입니다. 다양한 variation study 에대한소개에앞서오늘은 NGS reads 를이용한 assembly 에기반을둔 variation 분석은어떻게이루어지는지알아보도록하겠습니다. 2. Application of Next Generation Sequencing 2-1. Variation Study Next Generation Sequencing 기술은이제유전체연구의밑바탕이되고있다. 수백 Mega base 에서 Giga base 에이르기까지엄청난양의염기서열분석을수행해내면서전체염기서열결정및 resequencing 을통해유전체상의여러가지변이연구를활발히하게하였다. 이는시간과가격적으로효과적인마커를개발할수있을뿐만아니라개인맞춤의학에빠르게다가갈수있도록하고있다. NGS 를이용한 variation 연구는대부분양쪽말단서열을동시에해독하는방법인 paired-end 시퀀싱을사용하고, 평균시퀀스배수를유전체의 20~40X 로시퀀싱을진행하여 reference 서열에정확한맵핑과정렬을통해비교하는것이보통이다. 이후분석된막대한양의정보들가운데의미있는 SNP 나 CNV 분석을위한이차적분석에전문적수준의생물정보학적도구가필수적으로이용되고있다. NGS reads 를이용한 variation 분석은기본적으로 assembly 에기반을둔다. 특정원하는영역의서열만을골라시퀀싱하는 amplicon 시퀀싱방법과유전체서열전체를대상으로시퀀싱하는두가지방법모두일차적으로 assembly 를수행하고이후서열간의비교분석을통해 variation 분석을진행한다. 따라서대부분의 assembler 는 assembly 뿐만아니라이후 SNP 와같은 variation 분석이가능하도록추가기능을제공하고있다. 그러나서열하나정도의 variation 이아닌넓은범위에걸쳐발생하는 variation 은 single reads 혹은짧은 fragment 의 paired-end 시퀀싱으로는한계가있다. 이를극복하기위해분석목적에따라시퀀싱타입을다양하게디자인하고있다.

12 그림 1. NGS reads 를 alignment 를이용한 genome 서열내의 variation 탐색. 다양한 fragment size 설정으로 SNP, CNV 및구조적 variation 탐색이가능하다. 일반적으로, variation 분석에는 fragment size 를다양하게구성한 paired end 시퀀싱을추천한다. SNP 뿐만아니라 CNV 와같은넓은지역에서의 variation 과구조적변화까지분석하기에는길이에제한이있는 single reads 보다는다양한길이로구성된 paired reads 를이용하여기준이되는 reference 서열에모두 alignment 가수행될수있도록하는것이효율적이기때문이다. 그림 1 에서보여지는것과같이 reference 서열과비교했을때 1.5kb 의 insertion 이존재하는경우 500bp fragment 의 paired-end 서열은한쪽만 alignment 되고다른한쪽은 alignment 가수행되지않을것이다. 그러나 2kb fragment paired-end 서열의경우양쪽서열이모두 reference 서열에 alignment 되면서 1.5kb 의 insertion이일어났음을인지할수있게된다. 또한양쪽서열의 alignment 방향을체크하여 inversion 이일어났는지도확인이가능하다 [7]. 표 1 에서는분석목적에따른최적화된 NGS reads 타입을소개하고있다 [5]. 현재 paired-end 의 fragment size 는 200bp 에서 5kb 까지가능한수준이다. 그중 2-5 kb의 long fragments 의시퀀싱은 fragment 양끝말단을 ligation 하여 circular 형태로만들고이후다시 circular 형태의서열을 bp 길이로절편을만들어그중양쪽끝말단의서열을포함하고있는 fragment 만을선별하여시퀀싱을수행한다 [5]. 이러한방법은긴서열중필요한양쪽끝말단만을추출하여시퀀싱의샘플로이용하는것으로 mate paired ends 라하며, 시퀀싱의품질을높이는하나의방법이된다.

13 결론적으로, 1-2. Assembly 에서도언급하였듯이 variation을목적으로분석하는경우에는분석하려는서열들간의차이를인지하고이를반영한 assembly가수행되어야한다. 따라서 reference assembly 수행에서도 reference 서열과시퀀싱된 reads간의차이는 SNP와같은서열하나일수도있고 CNV나구조적변형같은넓은범위의 variation도있기때문에표 1에서언급한데로다양한길이의 fragment size로분석하는것이언급된모든 variation을분석하기에는가장적합하다 [5]. 다음연재에서는다양한 variation study 중에 SNP(Single Nucleotide Polymorphism) 분석법에대해알아보도록하겠습니다. 많은관심부탁드립니다. 연재 4 : [Quipu Issue Paper] Variation study Ⅱ - SNP(Single Nucleotide Polymorphism) Analysis 이번연재에서는 Next Generation Sequencing 의첫번째 Application 인 Variation study 중에 SNP(Single Nucleotide Polymorphism) 분석법에대해알아보도록하겠습니다 SNP (Single Nucleotide Polymorphism) Analysis 인간유전체상에가장많이존재하는형태의다형성은유전체상의특정염기서열하나의변화이며, 흔히 SNP(Single Nucleotide Polymorphism) 또는단일염기다형성이라고부른다. 한논문에서는 SNP 를검출하는방법을다섯가지로요약해나타냈다 ( 표 2)[3]. 이러한방법들의공통된특징은유전자또는염색체부위를증폭한산물에대한염기서열을분석하고여러염기서열을정렬하여염기서열차이로서 SNP 존재여부를확인하는것이다. 이러한관점으로볼때정렬되는서열이많을수록통계적으로도안정적이며명확한 variation 을분석할수있게된다. 따라서제한된시간동안가장많은서열을생산할수있는 NGS는이에가장부합하는분석도구가될것이다.

14 또한 HapMap project에서발표한 human 유전체의 SNP 분포를확인해보면공개된 SNP 의약 34.1% 에해당하는 SNP 가 30bp 안에군집하여분포한다는것이다 ( 그림 2)[8]. 이는종전의마이크로어레이방식에서 NGS 방식의 SNP 탐색으로의전환이매우필수적임을시사한다. 그이유는마이크로어레이에심어질프로브서열내에또다른 SNP 가포함될가능성이매우높으며이러한 SNP 는고정되어있는프로브서열로인해탐색이되지않는치명적인제한점을 NGS 방식의시퀀싱을통해매우효율적으로해결할수있기때문이다. 그림 2. Human Genome 의 SNP 분포. 30bp 내에많은 SNP 이군집을이루며모여있다. Variation 분석에적합하도록시퀀싱이수행되고나면실제많은 reads 를이용한 assembly 가수행되고그결과를바탕으로서열을비교하여 variation 부분을탐색하게된다. 그중 SNP 분석의경우, 시퀀싱중에일어난오류에기인한 mis-match 인지 variation 으로인한 mismatch 인지를구별하기위한여러가지파라미터를설정하게된다. Mismatch frequency 및 coverage( 해당위치의서열 coverage) 를중심으로잠재적인 SNP 를선별하게된다. 이때, 조금더정확한 SNP 를구별하기위해 viewer 를통해서열퀄리티를확인하는경우도발생하게되는데, 다양한플랫폼에서생성된 reads 들은고유의포맷을

유지하고있고대부분의 open source 로제공되는프로그램들은특정플랫폼의데이터만을다루도록하고있어이를확인하기에는어려움이따른다. 또한특정 SNP 가 csnp 인지여부나더나아가단백질서열까지변화되는 synonymous SNP 인지여부를판단하기에는생물정보학자의도움이절실히요구된다. 그러나이러한과정모두를해결해줄수있는프로그램들이계속해서개발되어지고있다.

15 유지하고있고대부분의 open source 로제공되는프로그램들은특정플랫폼의데이터만을다루도록하고있어이를확인하기에는어려움이따른다. 또한특정 SNP 가 csnp 인지여부나더나아가단백질서열까지변화되는 synonymous SNP 인지여부를판단하기에는생물정보학자의도움이절실히요구된다. 그러나이러한과정모두를해결해줄수있는프로그램들이계속해서개발되어지고있다. 그중 CLC NGS Cell 과 CLC Genomics Workbench 는 NGS 데이터의 assembly 와사용자편의의인터페이스를통해분석된 SNP 의아미노산서열변화확인을위한 translation 분석, SNP 검증을위한 PCR 프라이머디자인, in-silico 클로닝등의통합분석을생물정보전문가가아닌일반연구자들스스로진행할수있도록하고있다. 뿐만아니라 assembly 를수행할때 reference 서열을이미 annotation 이완료된.gbk 데이터로진행할수있어, SNP 로생각되는유전자의위치및이미등록된 SNP 정보들까지도표시하여함께확인할수있기때문에 NGS 기술을이용한 SNP 분석에추천할만한분석파이프라인이라고하겠다 ( 그림 3). 그림 3. SNP 탐색을위한 CLC Genomics Workbench 다음연재에서는 SNP(Single Nucleotide Polymorphism) 이외에정상표현형인인간의유전체에존재하면서유전적다양성에기여하고, 암또는많은질병감수성과도연관될가능성이높은유전자복제수 (Copy number) 변이분석법에대해알아보도록하겠습니다. 많은관심부탁드립니다. 연재 5 : Quipu Issue Paper] Variation study Ⅲ - CNV(Copy Number Variation) Analysis 이번연재에서는 Next Generation Sequencing 의첫번째 Application 인 Variation study 중에 CNV (Copy Number Variation) 분석법에대해알아보도록하겠습니다.

2-1-2. CNV (Copy Number Variation) Analysis SNP 가유전적다형성의대명사로여겨졌지만이외에도정상표현형인인간의유전체에유전자복제수 (copy number) 변이가존재하여유전적다양성에기여하고, 암또는많은질병감수성과도연관될가능성이높다는연구결과가보고되면서유전체의구조적변이에대한관심이대두되었다.

16 CNV (Copy Number Variation) Analysis SNP 가유전적다형성의대명사로여겨졌지만이외에도정상표현형인인간의유전체에유전자복제수 (copy number) 변이가존재하여유전적다양성에기여하고, 암또는많은질병감수성과도연관될가능성이높다는연구결과가보고되면서유전체의구조적변이에대한관심이대두되었다. CNV(Copy Number Variants) 는 reference 유전체와비교해서 copy number 의차이를보이는 1kb 이상의 DNA 조각으로정의하며, 평균크기는 29kb 에서 523kb 정도로예상된다고한다. 현재전체유전체에서 CNV 를발굴하는방식중가장흔히사용되는방식은 CGH (comparative genomic hybridization) 의원리에 DNA 칩의기술을접목시킨 array-cgh 이다. 마이크로어레이기반 CGH 실험분석목적은모든유전체안에서각각의유전자조각들이반복횟수변화를보이는부분을선별해내거나반복횟수의양적변화를찾는것이다. 이렇게마이크로어레이플랫폼을이용해발굴된 CNV 는분석에이용된플랫폼의존특성을가지게되어최종데이터의질적인측면과연관되어분석결과의치우침문제를유발할수있다. 또한 hybridization 효율이프로브마다다양하고, 실제 copy number 의프로브서열이아닐가능성도고려해야하는한계에봉착하였다. 이에이를극복할만한대안이필요한상황에서 NGS 기술의보급은 CNV 발굴의차세대플랫폼으로등장하였다. 앞서언급된 NGS 기술을통한 SNP 분석과마찬가지로유전체서열과다양한 fragment size 의 paired-end reads 를 assembly 함으로써시퀀싱 coverage를이용한잠재적인 CNV 를분석할수있다 ( 그림 4). 그림 4. acgh 와 CNV-seq 방법의분석과정비교 그러나 SNP 와같이하나의염기서열차이로변이를확인하는것이아니기때문에 assembly 분석시시퀀싱오류로인하여다른부분에정렬되어잘못된 variation 을검출하게되는가능성도배제할수는없다. 따라서최근 Robust 통계모델을기본으로하면서 acgh 와 NGS 기술의이점들만조합하여효율적인 CNV 분석에대한논문이발표되었고이러한방법을이용하여두개체 (Dr. J. Craig Venter 와 Dr. James Watson) 사이의 CNV 를분석한평가결과도함께확인할수있어이후 acgh 와 NGS 기술을접목한 CNV 분석방법이충분히발전할것으로생각된다 [4]. 이렇게진행한연구방법과결과들은웹사이트를통하여무료로이용할수있다 (

17 다음연재에서는전체유전체의염기서열분석이아닌관심있는특정유전체의일부분을분석하는방법인 Sequence Capture 기술에대해알아보도록하겠습니다. 많은관심부탁드립니다. 연재 6 : [Quipu Issue Paper] Variation study Ⅳ - Targeted Sequencing (Sequence Capture) 이번연재에서는 Next Generation Sequencing 의첫번째 Application 인 Variation study 중에 Targeted Sequencing (Sequence Capture) 기술에대해알아보도록하겠습니다 Targeted Sequencing (Sequence Capture) 최근염기서열분석은전체유전체의염기서열분석에만치중하지않고, 관심이있는특정유전체의일부분을분석하고자하는경향이대두되고있다. 또한 NGS 가출현하면서염기서열분석의작업량이증가하자 PCR 을이용한타겟시퀀싱에서병목현상을일으키기시작하였다. 이러한문제를해결하기위해 Sequence Capture 라는기술이개발되었고 Roche NimbleGen 에서처음상용화되어관심있는특정유전체의일부분을선택적으로분석을할수있어 NGS 를이용한유전체분석에서중요한부분을차지하게이르렀다. Sequence Capture 기술은타겟으로하는유전체의각부위와상보적으로결합하도록디자인된프로브가올려져있는 DNA chip 과분석하고자하는샘플의유전체서열간의 hybridization 을진행하여특이적으로결합한 DNA 절편들을분리후 NGS 를이용하여직접적으로시퀀싱을진행하는방식이다 ( 그림 5). 그림 5. Sequence Capture 원리. Genome 서열을무작위적으로절단하여엑손영역만이프로브로심겨진 DNA chip 에 hybridization 한다. 이후 DNA chip 의프로브서열과결합된유전체의엑손서열을 chip 에서분리하여 NGS 방식의시퀀싱으로서열을결정한다. NGS로염기서열을분석하기때문에타겟서열의 coverage가굉장히많이향상되어원하는부분의정확한서열정보를얻을수있다. 이러한 Sequence Capture 방법을이용하여워싱턴주립대학과 Agilent 사의연구팀이공동으로 Target Capture Array로부터 Illumina GA를사용하여 8명의 HapMap Individual 과 4명의희귀질환인 Freeman-Sheldon syndrome (FSS) 을가진환자의엑손영역만을시퀀싱하여

18 protein coding variation 을찾은연구를수행하였다 [8]. 그결과 Freeman-Sheldon syndrome(fss) 의원인유전자로알려진 MYHS 유전자만이정상인과환자사이에서차이를보인다는것을확인하였다 [7]. Human의전체유전체는 30억염기쌍이지만그중유전자영역인엑손은전체염기의약 1% 에해당하는 3천만염기쌍정도이다. NGS 기술로인해유전체시퀀싱이쉽고빠르게되었다고는하지만, 아직높은비용이기때문에이러한엑손시퀀싱으로유전체전체를대상으로보고자하는영역만을보다빠르고저렴하게분석할수있다는것이매우고무적이라하겠다. 다음연재에서는 variation의마지막다양하게구축되어운영되고있는 SNP 및 variation 데이터베이스에대해알아보도록하겠습니다. 많은관심부탁드립니다. 연재 7 : [Quipu Issue Paper] Variation study Ⅴ - Variation Database 이번연재에서는 Next Generation Sequencing 의첫번째 Application 인 Variation study 중에다양하게구축되어운영되고있는 SNP 및 variation 데이터베이스에대해알아보도록하겠습니다 Variation Database 다양하게얻어진각종 variation 데이터들은기존에구축되어진데이터베이스와비교하거나이미알려진유전자구조정보를활용함으로써조금더유용한정보를얻을수있다. 따라서대량의유전변이형정보를체계적으로수집하고일반연구자에게전달하기위해서는다양한 variation 데이터베이스를구축하여언제든활용할수있는시스템으로서비스되어져야한다. 현재다수의연구기관및연구그룹에서 SNP 및여러 variation 관련데이터베이스가만들어져운영되고있다 ( 표 3).

19 dbsnp 는미국 NCBI 에서관리하는세계최대의 SNP 데이터베이스로 rs# 를부여받은 human 의 SNP 만해도 7,344,853 개 (build130, 2009 년 12 월 ) 가수록되어있다. 따라서이렇게축적된대량의 SNP 데이터가연구자들에게제공됨에따라새롭게특정후보유전자의 SNP 를다시발굴할필요없이대부분의 SNP 정보를데이터베이스를통하여쉽게이용할수있다 ( 그림 6). 또한좀더나아가 HGMD는문헌에보고된모든생식세포내의질병을유발하는돌연변이들과질병관련 / 기능성다형성들을기록하고있다. 사실상이는학계에서이용가능한중추적인질병관련돌연변이데이터베이스로써, 암호화시의단일염기쌍치환 ( 예, 미스센스돌연변이와넌센스돌연변이 ), 인간핵유전자의조절및접합관련부위, 미세결실과미세삽입, 결실과삽입 (indels), 반복확장, 그리고심한유전자손상 ( 결실, 삽입그리고복제 ) 및복합적유전자재배열에관한자료들을제공하고있다. 학술적으로또는비영리적인목적으로사용자등록후무료로이용가능하다. 단, 이돌연변이의정보들은데이터베이스에최초로추가된후 2년 6개월후에공용웹사이트에서제공되기때문에최신버전을이용하려면 BIOBASE GmbH사로부터인증을받아상업적및학술적이용자에게제공된다. 최신돌연변이자료이외에도, HGMD Professional은공용사이트에서제공하지않는첨단검색도구와유전자및돌연변이에대한특별한정보를부가적으로제공하고있다 ( 그림 7). HGMD Professional은 3개월단위로업데이트된다. 그외 variation 정보를위한데이터베이스는앞서소개한몇몇큰데이터베이스와수백가지의유전자각각에대한특화된데이터베이스로다원화하여존재하고있다. 이들정보의통합필요성이인식되면서 2006년 6월부터전인류의유전자변이에대한정보를모으고이를카달로그화하여제공하고자하는국제적인 Human Variome Project(HVP, 가출범되었고, 이를통해 variome 연구는개인의유전적차이및질병과의관련성이더정확하게밝혀져질병에대한개인간차이발생에대해더세밀하고진보한해답을얻을수있을것으로전망하고있다. 연재 8 : [Quipu Issue Paper] Expression Study Ⅰ 이번주부터 2 주간진행되는연재에서는 Next Generation Sequencing 의두번째 Application 인 Expression study 에대해알아보도록하겠습니다.

2-2. Expression Study Functional genomics 의유전자발현연구분야에도 NGS 는예외없이새로운방향을제시하면서 transcriptome 분야를포함하여많은부분에서 PCR 이나마이크로어레이기술을대체하고있다. 이러한 NGS 기술은분석할종의서열정보가없어도분석가능하여어떤생물종도연구에이용할수있다는장점을가지고있다.

20 2-2. Expression Study Functional genomics 의유전자발현연구분야에도 NGS 는예외없이새로운방향을제시하면서 transcriptome 분야를포함하여많은부분에서 PCR 이나마이크로어레이기술을대체하고있다. 이러한 NGS 기술은분석할종의서열정보가없어도분석가능하여어떤생물종도연구에이용할수있다는장점을가지고있다. 뿐만아니라한번의시퀀싱으로수많은 read 를얻는높은 coverage 를가지기때문에단시간에적은비용으로전체염기서열을결정할수있는이점이있다. 이러한장점들은마이크로어레이를이용한종전의분석법에서나타난여러문제점을보완하면서다양한방향으로연구를수행할수있게하였다. Development stage, stress, tissue 와같이특정컨디션에서의유전자발현양상을보는것에서부터조직특이유전자분석, house keeping 유전자분석, 유전자발현을이용한 ortholog 분석, SNP 분석그리고 alternative splicing 분석에이르기까지다양한분야에걸쳐분석이가능하게되었다 [1]. 발현분석은언제, 어디서, 어느정도로유전자들이발현되는지를전사수준에서총체적으로탐색하는것을목적으로한다. 따라서원하는컨디션이반영된 mrna 를추출하여라이브러리를제작하게되고, 무작위적으로시퀀싱하여얻어진서열을클러스터링을통해발현양을추정하게된다 [2, 4, 5, 17, 18, 19]. 그림 1. 유전자발현패턴분석. 전사수준에서의발현패턴분석을위해 mrna sequencing 을통해세포내유사한발현패턴을보이는유전자들을분석 이러한방법은기존의 ESTs를활용한발현분석과동일한방법으로, 클러스터링방법또한 EST 클러스터링과같이유전체서열이존재하는경우 references assembly을수행하여유전자영역을기준으로클러스터링을수행하게되고, 만약유전체서열이존재하지않을경우 de novo assembly을수행하게된다. 단 de novo assembly의경우 assembly의정확성을위해 short reads 보다는 Roche 454의 long

21 reads 를이용하는것이보다정확한결과를얻을수있다 (1-2. Assembly 참조 )[17, 18, 19]. 클러스터링이완료되면각클러스터별로포함되어있는 NGS reads의개수를발현수치값으로환산하여 Digital Expression Profile(DEP) 를작성하게되며이는마치마이크로어레이의 intensity를이용한분석법과같이분석하게된다 [17, 18]. 이때, 실험적인바이어스와생물학적컨디션을고려한다양한통계적방법이이용된다. 다음연재에서는 Expression study 중에먼저여러조직에서다양한발형양을보이는유전자의경우각조직마다의발현양을계산하는방법인 Digital Expression Profile(DEP) 작성하는방법에대해알아보도록하겠습니다. 많은관심부탁드립니다. 연재 9 : [Quipu Issue Paper] Expression Study Ⅱ- Digital Expression Profile(DEP) 이번연재에서는 Next Generation Sequencing 의두번째 Application 인 Expression study 중에 Digital Expression Profile(DEP) 작성하는방법에대해알아보도록하겠습니다 Digital Expression Profile (DEP) 동일한유전자로부터발현된 mrna 의양은중복된 NGS reads 의개수를계산함으로써알수있다. 따라서클러스터링과정을통해중복된 reads 를동일유전자에서유래한하나의서열로만들수있고이렇게형성된 unigene 의 reads count profile 은결국 mrna 의 expression profile 과동일시볼수있다 [3]. 여러조직에서다양한발현양을보이는유전자의경우각조직마다의발현양은시퀀싱된 reads 개수를계산하는방법으로 Digital Expression Profile(DEP) 의초기데이터인 Cluster member matrix 를만들수있다 ( 그림 2)[10, 17]. 앞서언급한마이크로어레이분석에서도 Intensity value 를실제분석에앞서다양한정규화과정 (Normalization) 을수행하는것과같이 DEP 에서도두단계의정규화과정을통해최종적인 DEP 를완성한다 [2].

22 그림 2. Cluster Member Matrix(CMM). Clustering 을통한유전자발현 counting. De novo assembly 를통해각 cluster(consensus sequence) 마다의 NGS reads 를조직별로 counting 하여 Digital Expression Profile(DEP) 의초기데이터인 clutser member matix 를완성한다. A. Library Normalization 특정라이브러리가다른라이브러리들에비해유독많이시퀀싱되어 reads 의양이많다면, 클러스터링을통해얻어진클러스터내의 reads 또한다른라이브러리에비해많이나타날것이다. 이는실제세포내의발현양이라기보다는데이터세트자체의시퀀싱개수가많아서생기는것이므로라이브러리별로특정유전자가그조직에서얼마만큼의발현이이뤄졌는지를비율을통해나타내야한다. 따라서특정클러스터의 reads 개수에서그라이브러리전체 reads 개수만큼을나눠주는정규화방식이다. B. Unigene Normalization Library normalization 수행으로각라이브러리에서의발현비율로 unigene 의발현정도를얻을수있다. 그러나이때 house-keeping 유전자의경우에늘많이발현되는유전자이므로전체적으로발현비율이높다. 반면그렇지않은유전자의경우수치가전체적으로낮게나타난다. 이럴경우, 수치상의차이가너무크기때문에라이브러리별혹은컨디션별로유전자의발현패턴을보고자할때너무높은발현수치로인해상대적으로낮은수치로일정패턴을갖는유전자는그의미가퇴색되어진다. 이러한점을정규화하기위해 median value 로나눠주거나, log ratio 취하여유전자간수치적차이를최소화하게한다. Median value 정규화과정은그림 3 에서보는것과같이각클러스터 (unigene) 별로 1차 library 정규화결과값들을대상으로그중간값인 (media value) 로나눠준다. 그러면중간정도의발현값을보이는라이브러리인 ZG 에서는값이 1 이나오고되고, 세포내전체적인평균발현보다높은발현은 1 보다높은수치로정렬되며, 1 이하는낮은발현을나타내게된다. 이렇게두단계의정규화수행후최종적인 DEP 를완성하게된다. 그림 3. Digital Expression Profile (DEP). Cluster Member Matrix(CMM) 을바탕으로두단계의 normalization 과정을통해표준화된 expression value 로환산된다.

23 이렇게완성된 DEP 는다양한발현패턴분석에서부터조직특이유전자그리고 Ortholog 분석에도이용된다. 다음연재에서는 Expression study 중에 Digital Expression Profile(DEP) 를활용한 Expression pattern 분석에대해알아보도록하겠습니다. 많은관심부탁드립니다. 연재 10 : [Quipu Issue Paper] Expression Study Ⅲ- Expression Pattern Analysis, Tissue Specific Gene Analysis 이번연재에서는 Next Generation Sequencing 의두번째 Application 인 Expression study 중에 Digital Expression Profile(DEP) 를활용한 Expression pattern 분석과 Tissue Specific Gene 분석에대해알아보겠습니다 Expression Pattern Analysis DEP 를활용하여마이크로어레이분석과동일하게다양한조건에서의유전자발현을분석한다. Fold change 를이용한 DEG 산출및 hierarchical clustering, self-organizing maps, K-means clustering, PCA(Principle component analysis) 분석을통해의미있는발현패턴들을정교하게표현하기도하고, 이들패턴들간의관계를분석하기도한다. 그림 4 에서보여지는것과같이모든조직에서일정한비율로발현되는유전자는 house- keeping 유전자의후보가될수있으며, 유독특정조직에서만발현되는유전자들도관찰할수있다 [2]. 그림 4. DEP 를활용한유전자발현패턴분석. Hierarchical clustering 을수행하여동일한패턴을보이는유전자들끼리클러스터링수행

24 조직뿐만아니라약물에대한반응성실험을수행할경우에도 time-series 라이브러리를제작하고여러샘플을한번에시퀀싱할수있는 Multiplex Identifiers(MIDs) 를이용하여단시간에많은데이터로이같은분석을진행할수있다. Roche 454 의경우 192 에서최대 2300 개의샘플을한번에로딩하여시퀀싱이가능할정도로유연성이있으므로다양한조건을대상으로분석에활용할수있는이점이있다 [9]. 이러한발현분석은종전의마이크로어레이분석프로그램으로분석이가능하다. 대표적인예로 Agilent 사의 GeneSpring GX 을들수있다 [14]. 기본적인통계학적분석으로 ANOVA 분석, multiple testing corrections, FDR prediction 그리고 Tukey and Student-Newman-Keuls post hoc test 가가능하며, 그래픽데이터표현으로는 2D/3D scatter plots, 2D dendrograms, 염색체지도, pathway 다이어그램, 그리고분류별보기기능으로다양하게표현이가능하다. 그림 5. GeneSpring GX. 유전자발현데이터분석프로그램으로다양한통계분석과가시화프로그램이수행된다. 발현패턴분석으로는 gene trees, experiment trees, self-organizing maps, K-means clustering, QT clustering, 그리고 PCA 분석이가능한것으로알려져있다. 이모든기능은데스크탑컴퓨터에서분석이가능하며, 사용자편의성이강조된인터페이스로구성되어있어, 비전문가도쉽게분석을수행할수있다 Tissue Specific Gene Analysis 조직특이유전자는특정조직에서그유전자의세포내평균발현양보다특이적으로높게발현되어특정조직의성격을결정지을수있는유전자를선별하는것을목적으로한다. 따라서 NGS reads 를이용하여분석하고자할때에는조직별라이브러리제작시아무런영향을주지않은정상적인발현상태의라이브러리를제작해야하며, normalization 이나 subtraction 과같은인위적인선출방식의시퀀싱이아닌무작위적인방식의시퀀싱이진행되어야만한다. 무작위적으로일어나는사건에대한확률값을계산하므로포아송분포 (poisson distribution) 를이용한 Audic s test 를통해조직특이유전자를선별한다 [8]. 다음은 Audic s test를이용한확률값을구하는수식이다.

25 이때, 다양한 cutoff 파라미터를통해확률적으로유의한유전자를선별하는데, p_value, enrichment, frequency 그리고클러스터내의 minimum reads count 등을이용할수있다. 이중 p_value 는유의수준을나타내는것으로 의 cutoff 는유의수준 99.9% 를의미하게된다. 그러나조직특이유전자선별을위해한두개의유전자를대상으로연관성분석이진행되는것이아니라앞서언급된파라미터를통과한모든클러스터를대상으로연관성분석이진행하므로검사의개수가증가할수록임의로발생하는오류또한증가하여 p_value 의의미가감소하는문제점이발생하게된다. 이를극복하기위해 Bonferroni correction, False Discovery Rate(FDR), 그리고 Permutation test 와같은다중검정을수행하게된다 [6, 7]. 실제분석을위해앞서작성한 Cluster Member Matrix(CMM; DEP 작성시초기 matrix) 를이용하여각클러스터별로 x, y, N1, N2 을지정하여계산할수있다 [16]. 예를들어그림 3 의표에서클러스터 1 의유전자가 OC 조직에특이적인발현양을보이는지를검사한다고했을때대상조직의 reads 개수인 y 는 10 이되고그외나머지조직에해당하는 reads 개수인 x 는 82 가된다. 그리고 N2, N1 은각각해당조직전체 reads 개수와나머지조직의전체 reads 개수인 55,840 과 184,301 에해당한다. 이러한분석은하나의클러스터마다검사해야할조직개수만큼수행된다. 이번주에이어서다음주에진행될연재에서도 Expression study 의다양한분석방법에대해연재가될예정입니다. 많은관심부탁드립니다. 연재 11 : [Quipu Issue Paper] Expression Study Ⅳ- Ortholog Analysis, Differentially Expressed Genes(DEGs) Functional annotation 이번주연재에서도지난주에이어 Next Generation Sequencing 의두번째 Application 인 Expression study 에대한내용으로연재가진행될예정입니다. 오늘은서로다른종에서동일한기능을수행하는 ortholog 유전자를분석하는방법과 Differentially Expressed Genes(DEGs) Functional annotation 중에 Gene Categorization 을이용한 Hypergeometric test 에대해알아보겠습니다 Ortholog Analysis 서로다른종에서동일한기능을수행하는유전자들의관계를 ortholog 유전자라고한다. 일반적인분석법으로는서열유사성을근간으로분석이진행된다. COG 알고리즘에의하면최소세종이상의유전자가서로 top match 로연결이될때비로소하나의 ortholog 그룹을형성하는것으로분석하고있다 [18]. 그러나이러한분석법에는어느정도의노이즈가존재하므로이를해결하려는시도로여러가지분석법이소개되었다. 그중서열유사성에 synteny 를접목한분석법과발현패턴을이용한분석법이있다. 여기서는발현패턴을이용한분석법에대해알아보자.

26 동일한기능을수행한다면동일한발현패턴으로조절될것이라는가정하에일정수준이상의서열유사성을갖는유전자들끼리 DEP 를활용한 Pearson s correlation coefficient 를분석하여 ortholog 유전자를찾는방법이다. 다음은 Pearson's correlation coefficient 인 r 을구하는수식이다. 두단계로진행되는분석으로일차분석은서열유사성검사이다. 단백질수준으로 BLAST 를수행하여일정수준이상의 homology 를갖는유전자는모두분석대상으로한다. 그림 3 의 unigene 1 과가장서열상유사한유전자를 human 을대상으로분석하고자할때보통 e- value 를파라미터로하여일정수준 ( 1e-10 ) 을통과하는유전자를 2 차분석대상자로분류한다. 2 차분석에서는 DEP 를활용한 Pearson s correlation coefficient 를분석한다. 그림 6. DEP 를활용한 ortholog 유전자분석. Tomato 와 arabidopsis 유전자간의 DEP 를 5 개의조직에대해작성하여서열유사성과발현패턴을비교하여 ortholog 유전자를분석하였다. (a) 서열유사성으로는 tomato 의 TC (peroxidase) 과 arabidopsis 의 TC 이가장유사하지만발현패턴과함께비교하면 TC 이 ortholog 유전자가됨을확인수있었다. (b), (c) 모두동일한결과를보이고있다 [2]. 단, DEP 의라이브러리구성이두종간에서로일치하여야한다. Cluster 1(Unigene 1) 의 DEP 와 human 의후보유전자 DEP 를 1:1 로 correlation 분석을진행하여 coefficient value r 이 1 에가까울수록서로유사한상관관계를가지며, -1 에가까울수록반대되는상관관계를가지고, 0 에가까울수록상관관계가없는것으로해석한다 [10, 19] 이러한결과는그림 6 의예제에서보다정확한 ortholog 분석결과를보여주고있다.

27 Differentially Expressed Genes (DEGs) Functional annotation 앞서소개한 DEP 를활용하여유전자발현패턴을분석하면특정컨디션에서높은발현을보이는 Differentially Expressed Genes(DEGs) 을얻을수있다. 같은맥락의조직특이유전자들도이에해당하는것으로이들은특정조건으로묶인만큼공통된생물학적기능을갖을것이라기대하고있다. 이를분석하기위해 gene categorization 을이용한통계학적분석과텍스트마이닝을통한대사회로분석및발현조절부위분석을진행하게된다. A. Gene Categorization 을이용한 Hypergeometric test Gene Ontology(GO) 와같이 organism 내의모든유전자를카테고리화하여유전자구성이어떻게되는지를분석하는것은유전자의기능분석에서일반적인분석법중하나이다. 이러한카테고리구성방식은 GO 와함께 MIPS 의 FunCat 도많이이용되고있는데, 이들을이용하여 DEG 와같은특정요건으로묶인유전자들의기능이어떤카테고리에집중되어있는지를 hypergeometric test 를이용하여분석한다 [12, 13]. Hypergeometric test 의확률값을구하는수식은다음과같다. 여기서 N 은 organism 전체의유전자개수를의미하며 n 은 DEGs의개수를의미한다. 그리고 K 는전체유전자중특정카테고리 X( 예 :GO: ) 에해당하는유전자개수이며, i 는 DEGs 그룹중특정카테고리 X에해당하는유전자수를의미한다. P-value cutoff와 enrichment를이용하여통계학적으로유의한유전자의기능을규명한다. 이러한분석은다중검정을통해발생할수있는오류를보정하게된다 ( 조직특이유전자분석참조 ). 다음연재에서는 Differentially Expressed Genes(DEGs) Functional annotation 중에 Text-mining을통한회사대로분석, Promoter 영역분석을통한발현조절메카니즘분석과 RNA-Seq 분석방법에대해알아보도록하겠습니다. 많은관심부탁드립니다. 연재 12 : [Quipu Issue Paper] Expression Study Ⅴ- Text-mining 을통한대사회로분 석, Promoter 영역분석을통한발현조절메카니즘분석 이번연재에서는어제에이어 Next Generation Sequencing 의두번째 Application 인 Expression study 에대한내용으로 Differentially Expressed Genes(DEGs) Functional annotation 중에 Text-mining 을통한대사회로분석과 Promoter 영역분석을통한발현조절메카니즘분석에대해알아보겠습니다.

B. Text-mining 을통한대사회로분석 대사회로분석은세포내유전자들이생물학적으로기능이유사하거나동일한조절기작을통해동일시간상에서유사한발현양상을보일것이라는가정하에이루어진다. 선별된유전자들 (DEGs) 사이에서의대사회로분석을통하여대사회로내에서유전자들의발현양상에따라 up-regulation 혹은 down-regulation 되는지분석할수있다.

28 B. Text-mining 을통한대사회로분석 대사회로분석은세포내유전자들이생물학적으로기능이유사하거나동일한조절기작을통해동일시간상에서유사한발현양상을보일것이라는가정하에이루어진다. 선별된유전자들 (DEGs) 사이에서의대사회로분석을통하여대사회로내에서유전자들의발현양상에따라 up-regulation 혹은 down-regulation 되는지분석할수있다. 또한이들간의 signal 관계가 upstream 에존재하는지 downstream 에존재하는지여부를분석할수있다. 이러한분석이가능한프로그램으로는 Ariadne 사의 Pathway Studio 가있다 [16]. 그림 7. DEG 유전자의 pathway 분석 DEGs 를이용한 pathway 분석으로유전자간의조절관계와 upsteam, downstream 단백질을 GUI를통한그래픽으로확인이가능하다 [16]. Pathway Studio 는차등발현유전자들을조절하는상위조절인자를분석하거나차등발현유전자들이공통적으로작용하고있는질병, 세포내프로세스등을분석할수있는유용한프로그램이다. C. Promoter 영역분석을통한발현조절메카니즘분석 선별된유전자에대해서유전자의발현양을조절하고세포내의항상성유지를위해여러유전자들간의긴밀한네트워크를통해이뤄지는유전자조절메카니즘을분석한다. 유전자의구조중에서특히유전자의기능에중요한영향을미치는부분은유전자의발현을조절하는프로모터영역이다. 프로모터를포함한유전자의 upstream 에존재하는전사인자 binding site 의예측을통해유전자의발현조절이어떠한메카니즘을통해이뤄지는지를분석한다.

29 그림 8. Upstream regulation 분석. TransFac 을활용한 DEGs 의 upstream 에존재하는공통된 transcription factor 를탐색 가장대표적인프로그램으로 BIOBASE사의 TRNASFAC을꼽을수있다 [15]. 실험적으로검증된전사인자들로생물전문가의꼼꼼한검증을통해구축된데이터베이스는현재인간을중심으로식물, 효모R에이르기까지계속해서확대되고있다. TRANSFAC의서브프로그램인 Patch와 Match를활용하면미지의유전자 upstream 서열의 binding 가능한전사인자를검색할수있고, 이는유전자네트워크에서의생물학적인의미를찾을수있는기초데이터가된다. 다음연재에서는유전자와엑손의발현및발현된유전자의각종변이등을한번에연구할수있는 RNA-Seq기술에대해알아보겠습니다. 많은관심부탁드립니다. 연재 13 : [Quipu Issue Paper] Expression Study Ⅵ- RNA-Seq Analysis 이번연재에서는 Next Generation Sequencing 의두번째 Application 인 Expression study 중에유전자와엑손의발현및발현된유전자의각종변이등을한번에연구할수있는 RNA-Seq 분석에대해알아보겠습니다 RNA-Seq Analysis Serial Analysis of gene Expression(SAGE), Cap Analysis of gene expression (CAGE), 그리고 Massively Parallel Signature sequencing(mpss) 은특정유전자의발현양정보를얻고자하는목표로수행되는방법들이다. 이러한방법들은많이이용되고있지만 Sanger 방법에바탕을둔것으로높은비용과짧은 reads 는 reference 서열에유일하게매핑하기힘들다는문제점을가지고있다. 이러한문제점들을극복하기위한방법으로는유전자와엑손의발현및발현된유전자의각종변이등을한번에연구할수있는 RNA-Seq 기술이있다 [1]. 표 1 에서보는것과같이 RNA-Seq 을분석할수있는프로그램에는여러가지소프트웨어가있는데그중에 CLC Genomics Workbench는 annotation된 Reference 유전체서열과 mrna 시퀀싱 reads 를

바탕으로새로운엑손의발굴뿐만아니라유전자발현레벨을계산할수있다. RNA-Seq 분석은몇가지단계로수행된다. 먼저, Reference 서열에서모든유전자를추출한다. 이때유전자서열의다른 annotation 들은보존된다 [23]. 다음으로영역주변의엑손-엑손경계를추출한다.

30 바탕으로새로운엑손의발굴뿐만아니라유전자발현레벨을계산할수있다. RNA-Seq 분석은몇가지단계로수행된다. 먼저, Reference 서열에서모든유전자를추출한다. 이때유전자서열의다른 annotation 들은보존된다 [23]. 다음으로영역주변의엑손-엑손경계를추출한다. 그다음으로모든엑손-엑손 junctions plus 에대한 Reference assembly 가수행된다. 이 assembly 로부터각각의유전자에대해발현수치가계산되고 putative exon 을확인할수있다. 발현수치는 RPKM(reads per kilobase of exon model per milion mapped reads) 방법으로측정된다 ( 그림 9). 그림 9. RNA_seq analysis. (a) exon-exon junction+gene 서열을 reference 서열로한다. (b) NGS reads 의 reference assembly 를통한 alignment 를통해새로운각엑손단위혹은유전자단위의발현양을확인한다. 다음연재에서는한정적인유전자를좀더다양하게활용할수있는 Alternative splicing 분석에대해알아보겠습니다. 많은관심부탁드립니다.

31 연재 14 : [Quipu Issue Paper] Expression Study Ⅶ - Alternative splicing Analysis 이번연재에서는 Next Generation Sequencing 의두번째 Application 인 Expression study 의마지막내용으로한정적인유전자를좀더다양하게활용할수있는 Alternative splicing 분석에대해알아보겠습니다 Alternative splicing Analysis 한정적인유전자를좀더다양하게활용하기위한방법으로 alternative splicing 이이뤄지고있다 [20]. 그러나어느유전자에서어느정도 alternative splicing 이이뤄지는지는명확하게밝혀진바가없다. NGS 이전시대의 ESTs 와기타실험적인분석으로약 72% 에해당하는 human 유전자가 alternative splicing 을하는것으로알려졌었으나 [21], 최근 NGS를이용한분석으로약 94% 의유전자가해당하는것으로밝혀졌다 [20]. 뇌, 간, 근육, 폐의조직으로부터분석한결과 2 개이상의 mrna 를만들어내는유전자가 92-94% 에해당한다는것이다. 이후이를뒷받침하는자료로 15 개의조직으로부터분석한결과 94% 유전자가 alternative splicing 이이뤄진다고발표되었다 [22]. 현재까지밝혀진 alternative form 은대부분 8 가지형태로분류되고있다 ( 그림 10)[20]. 가장흔한형태는 exon 이카세트형태로들어갔다나갔다하는 exon skipping 이며, 그외에도 intron 이 exon 처럼읽혀지는형태와 UTR 영역의 variation 도많은부분차지한다. 이러한형태는조직, 발달단계, 그리고기타환경적인자극에의한대처로서로다른형태의 mrna 를발현하여세포내항상성을유지하는것으로보고있다 [20]. 실제분석을위해서는위에서언급했듯이다양한조건에서다양한형태로발현되므로이를반영하여최대한다양한조건의 mrna 를수집하여이를 genome 과 mapping 하고패턴을분석하는것이다. 그러기위해서는 short-reads 보다는 long reads 플랫폼을이용한 mrna 시퀀싱이좀더많은정보를담고있으므로유용하다. 이후 reference assembly 를통해유전자영역에서의 transcriptom alignment 형태를분석하여 alternative 분석을수행한다 ( 자세한분석방법은 C. Alternative splicing analysis 참조 ).

그림 10. Alternative splicing 형태 [20]. 다음주연재에서는유전자의염기서열에는변화를주지않으면서유전자의발현등에영향을주어개체의차이를나타내게하는현상에대해연구하는 Epigenomics의분석방법에대해알아보겠습니다. 많은관심부탁드립니다.

32 그림 10. Alternative splicing 형태 [20]. 다음주연재에서는유전자의염기서열에는변화를주지않으면서유전자의발현등에영향을주어개체의차이를나타내게하는현상에대해연구하는 Epigenomics의분석방법에대해알아보겠습니다. 많은관심부탁드립니다. 연재 15 : [Quipu Issue Paper] Epigenomics Ⅰ - Methylation Analysis 이번주연재에서는 Next Generation Sequencing 의세번째 Application 으로유전자의염기서열에는변화를주지않으면서유전자의발현등에영향을주어개체의차이를나타내게하는현상에대해연구하는 Epigenomics 의분석방법에대해알아보겠습니다 Epigenomics 2003 년인간유전체에대한서열해독이후로, 유전체에대한기능적분석에연구가증가하면서, 이른바 post genomics 시대가도래하고유전체연구와함께이들의발현과작용에대한연구들이활발해지고있다. Epigenetics 라는분야는이러한흐름을주도하는분야로서, 유전되는 DNA 서열로만설명이불가능한부분의해석을돕고, 보다발전적인유전체연구를목적으로진행되고있다. Epigenetics 에서가장주요하게여겨지는부분은유전자의발현으로서, 유전자가유전체에존재하지만, 발현여부에따라세포내역할이달리지고, 달라진발현양상은유전물질처럼후대에게도영향을주는

것이다. 이는기존의유전체가답하지못했던물음에실마리를제공하면서, 유전체를좀더잘이해하기위한수단으로이용되고있다 [1]. 그림 1. DNA methylation 에의한유전자발현및억제 Epigenomic study 의연구대상으로가장대표되는것이 DNA-methylation 이다.

33 것이다. 이는기존의유전체가답하지못했던물음에실마리를제공하면서, 유전체를좀더잘이해하기위한수단으로이용되고있다 [1]. 그림 1. DNA methylation 에의한유전자발현및억제 Epigenomic study 의연구대상으로가장대표되는것이 DNA-methylation 이다. DNA strand 에서 CpG island 가있고이중 cytosine 이 5-methyl cytosine 으로 modification 되는현상이다. 이러한 methylation 현상은유전체전반에걸쳐일어나는것으로유전자의단백질코딩영역이나전사조절부위에서관찰이되며이는곧유전자의발현에관여하게된다 [2]. 대표적인예로 X-염색체 inactivation 을통한유전자 dosage 조절이나발달과정에서필요한유전자들의발현을성장시기에맞춰선택적으로조절하는것이이에해당한다. 뿐만아니라외부의 retro virus 나 transposon 의발현억제와 cancer 에의한 repressor 유전자의 inactivation 기작역시 DNA methylation 을통해서이루어지고있어질병과관련하여유전체연구에서중요하게다뤄지고있다 Methylation Analysis Genome methylation 을알아보기위한기존의방법은 Methylation Sensitive Restriction Enzyme (MSRE) 을이용하거나, 살펴보고자하는특정영역에해당하는프라이머를작성하여 PCR 을수행하는방법등이이용되었다. 그러나 NGS 기술의발달로 epigenetics 분야의연구또한대량의 functional gene study 가일반화되어가고있다. 가장대중적인방법은 genomic DNA 를추출하여 bisulfate를처리한후에 NGS 를통한대량 sequencing 을수행하는것이다 ( 그림 2).

그림 2. Genomic DNA 의 bisulfate 처리로 methylation 여부를확인. Methylation 되어있지않은 cytosines 은 bisulfite 처리로 uracil 로바뀌게되고반면, methylation 되어있는 cytosines 에는변화가없어 genome 상의서열변화로 methylation 여부를확인한다 [3].

34 그림 2. Genomic DNA 의 bisulfate 처리로 methylation 여부를확인. Methylation 되어있지않은 cytosines 은 bisulfite 처리로 uracil 로바뀌게되고반면, methylation 되어있는 cytosines 에는변화가없어 genome 상의서열변화로 methylation 여부를확인한다 [3]. 시퀀싱된 NGS reads 는 reference assembly 를통해유전체내의전체적인 5-methyl cytosine 의분포를확인하는데이용하게된다. 이러한분석은 ABI-SOLiD, Illumina 의 Solexa 그리고 Roche 454 모두가능한플랫폼이긴하나 long reads 시퀀싱을수행하는 Roche 454 가조금더유용하게이용되고있다 [3]. 다음연재에서는단백질에 binding 된 DNA 서열을분리하여 NGS 방식의시퀀싱통해 binding site 를동정하는방법인 CHIP-Seq 분석방법에대해알아보겠습니다. 많은관심부탁드립니다. 연재 16 : [Quipu Issue Paper] Epigenomics Ⅱ - ChIP-seq 이번주연재에서는 Next Generation Sequencing의세번째 Application인 Epigenomics 중에단백질에 binding 된 DNA 서열을분리하여 NGS 방식의시퀀싱을통해 binding site 를동정하는방법인 CHIP- Seq 분석방법에대해알아보겠습니다 ChIP-seq CHIP(chromatin-immunoprecipitation) 은특정유전체영역에 binding 하는히스톤이나전사인자 (Transcription Factors, TFs) 와같이특정 DNA 서열에 binding 하는단백질과 genomic fragments 를분리하기위해많이응용되어왔다. 이기술은빠르게발전하여 large-scale 의 TF-DNA interactions 혹은 chromatin packaging (histone modification 을통한 genomic DNA 와의 packaging) 연구에중심기술로자리잡았다. CHIP-Seq 은기존의 CHIP-chip 에서보여지던해상도의한계와 chip 에올려진프로브에대한한계를극복하는방법으로단백질에 binding 된 DNA 서열을분리하여 NGS 방식의시퀀싱통해 binding site 를동정하는방법으로발전하였다 ( 그림 3). 그결과 genome wide epigenetic study가가능하게되었다.

이때 genome 전체서열 (g) 에주어진서열 (t) 이정확하게 mapping 될확률은 t/g 로포아송분포 (poisson distribution) 혹은 negative binomial distribution 을이용하여추정하게된다 [3]. 이후 consensus binding sequence 를도출하게되면이를데이터베이스로하여다른종의분석에이용할수있게된다.

35 그림 3. CHIP-Seq 을이용한단백질 binding site 규명. Genomic DNA 와특정단백질의 binding 후단백질 specific antibody 를이용하여분리한다. 이후단백질을제거하고 NGS 기술을이용하여시퀀싱한다 [5]. CHIP-seq 은실험적으로짧은 DNA 절편에 binding 하는특성때문에 non-specific binding complex 의 background 처리가반드시필요하다. 이를해결하기위해실험적으로는 antibody 만을사용한대조군을설정하여비교하는방법과, 통계학적으로는주어진단백질이주어진위치에정확하게 binding 할확률을계산하도록하는것이다. 이때 genome 전체서열 (g) 에주어진서열 (t) 이정확하게 mapping 될확률은 t/g 로포아송분포 (poisson distribution) 혹은 negative binomial distribution 을이용하여추정하게된다 [3]. 이후 consensus binding sequence 를도출하게되면이를데이터베이스로하여다른종의분석에이용할수있게된다. 이렇게 TF 와그에관련된정보로전문화하여구축된데이터베이스중거의유일한곳이 BIOBASE 의 TRANSFAC 이다 ( 그림 4)[6]. 그림 4. TRANSFAC. Transcription factor 와 binding site 및관련 pathway정보를담고있는유일한 TF database. TRANSFAC 은 genome 내의유전자 upstream 분석에기초자료를제공하여유전자조절메카니즘분석에필수적으로이용되고있다. 실험적으로검증된 TF 의정보를 manual curation 을통해고품질의데이터를쌓아가고있으며, 그간 CHIP-chip 방식의데이터로밝혀지던정보들이 CHIP-seq 방식의데이터로전환되면서더욱빠르게진행되고있어이를이용한 BIOBASE 의데이터베이스또한더욱빠르게쌓여갈것으로예상된다. 뿐만아니라이미 human 의경우모든유전자의 upstream 을분석하여 binding 가능한 TF 를제공하고있으며, 이를이용한 pathway 분석에도많은데이터와분석프로그램을제공하고있다. 그중 TRANSPATH 는 affymatrix data 를이용한발현분석시 DEGs 의 pathway 를분석하는데해당유전자의 upstream 에존재하는 TFs 와관련 pathway 를분석하여세포내전체적인유전자의기능을살펴볼수있도록하였다 [6].

이러한 CHIP-Seq 은다양한플랫폼에서분석이가능한가운데, CLC NGS Cell 을이용하여 assembly 를진행하게되면 genbank 형식의.gbk' 파일을 reference 로사용하여 GUI 형태로유전체전체의분포를확인할수있어데이터해석의용이함을얻을수있다 (1-2. Assemble 참조 ).

36 이러한 CHIP-Seq 은다양한플랫폼에서분석이가능한가운데, CLC NGS Cell 을이용하여 assembly 를진행하게되면 genbank 형식의.gbk' 파일을 reference 로사용하여 GUI 형태로유전체전체의분포를확인할수있어데이터해석의용이함을얻을수있다 (1-2. Assemble 참조 ). 또한비슷하게 Illumina 의 Genome Analyzer 의경우 ChIP-seq 분석을통해얻어진작은서열들을 ELAND 를이용하여유전체에정렬하게되고그결과는 UCSC genome browser 를통해유전체내의위치와분포를확인할수있다 ( 그림 5). 그림 5. UCSC genome browser 를통한 TF binding site 의유전체내위치확인. 붉은색으로정렬된바는 NGS 로시퀀싱되어진 reads 로유전체와의 reference assemble 를통해위치를확인한다.[4] 다음연재에서는약 2 주에걸쳐유전체내의유전자위치와기능을해독하는과정인 genome annotation 에대해알아보겠습니다. 많은관심부탁드립니다. 연재 17 : [Quipu Issue Paper] Genome Annotation Ⅰ- Structural annotation 이번연재에서는약 2 주에걸쳐유전체내의유전자위치와기능을해독하는과정인 Genome Annotation 에대해연재가될예정입니다. 오늘은 Genome Annotation 중에서도첫번째단계인유전체서열내에서유전자의위치와구조정보를밝혀내는 Structural annotation 에대해알아보겠습니다 Genome Annotation 2009 년현재 human 을비롯한 mammalian 에서 microbial 까지많은유전체프로젝트가완료되었거나진행되고있으며, NCBI 의사이트에서그내용을확인할수있다. 이렇게다양한종에서완료되었거나진행중인유전체프로젝트는 NGS 시대를맞이하여더욱가속화되었다. 유전체프로젝트는유전체

37 서열을시퀀싱을통해추출하는단계와유전체내의유전자위치와기능을해독하는단계로구성된다. 여기서유전체내의유전자위치와기능을해독하는과정을 genome annotation 이라고정의하며, genome annotation 은세가지과정으로구분할수있다. 유전체내의유전자에대한구조적정보를분석하는 structural annotation, 유전자의기능을규명하는 functional annotation, 그리고마지막으로수학적알고리즘으로밝혀지지않는부분을생물학전문가가면밀히분석하는 manual curation 과정으로구성되어있다. 이번장에서는 genome annotation 에대한세가지과정에대하여구체적으로알아보고자한다 Structural annotation Genome annotation 의첫번째단계인 structural annotation 은유전체서열내에서유전자의위치와구조정보를밝혀내는것을목적으로하여유전체서열전체의유전자지도를완성한다. 유전체서열에는실제단백질을코딩하는유전자영역과그외나머지영역으로크게나눠진다. 그중유전자는 exon 과 intron 으로나눠지고유전자의발현을조절하는프로모터영역이일반적으로유전자의앞단에위치하고있다 ( 그림 1). 그림 1. Structural annotation. 유전체내의유전자의위치정보와상세구조정보를규명한다. 또한유전체서열의상당부분을차지하고있는반복서열과 transposon elements 들도유전체의다양한영역에존재하고있다. 인간유전체의경우약 30 억쌍의염기서열중실제단백질로코딩되는영역인엑손영역은전체염기중단 1% 에불과하다. 99% 의나머지서열은 non-cording RNA, intron, repeat, regulation 영역이대부분차지하고있다. 따라서유전체에서여러가지형태의서열들에대한위치정보를다양한데이터베이스와알고리즘을이용하여분석하고있으며, 과정은다음과같다 ( 그림 2).

그림 2. Structural annotation 워크플로우. Ab initio 와유전체매핑을결합한방식. 다음연재에서는진핵생물의유전체서열중가장많은영역을차지하는반복서열분석법과유전자모델링중에서유전자의위치를예측하는유전자예측에대해알아보겠습니다. 많은관심부탁드립니다.

38 그림 2. Structural annotation 워크플로우. Ab initio 와유전체매핑을결합한방식. 다음연재에서는진핵생물의유전체서열중가장많은영역을차지하는반복서열분석법과유전자모델링중에서유전자의위치를예측하는유전자예측에대해알아보겠습니다. 많은관심부탁드립니다. 연재 18 : [Quipu Issue Paper] Genome Annotation Ⅱ- 반복서열분석, 유전자모델링 ( 유전자예측 )] A. 반복서열분석 진핵생물의유전체서열중반복서열이가장많은영역을차지하고있다. Transposon elements 를포함하여 simple repeat region, low complexity 영역이전체유전체의약 70~ 80% 가량해당된다. 따라서반복서열영역을우선적으로선별한뒤마스킹작업을통해반복서열영역에서의유전자예측은예외로처리한다. 물론, 반복서열영역내에도단백질로코딩되는부분이존재하지만, 극히일부에해당하기때문에추후에따로수행한다. 반복서열의마스킹작업은주로 RepeatMasker ( 분석프로그램을이용하여진행한다. RepeatMasker 는유사성기반의검색을통해반복서열데이터베이스에존재하는서열과비교하여유전체내에존재하는 transposon element 와 retrotransposon element, rolling circles 를추출하고, TRF(tandem repeat finder) 라는서브

39 프로그램에의해단순반복서열을규명한다. 이때종별로특이적인패턴을가지는반복서열이 ( 존재하므로주기적으로최신의반복서열데이터베이스를업데이트하여분석하는것이좋다 년 11 월현재 Human 을포함하여모두 26 종에대한반복서열데이터베이스를제공하고있으며, 연구자가원하는형태의데이터베이스를따로구성하여사용할수도있다. B. 유전자모델링 단백질로코딩되는유전자의위치를결정하는일차적인단계로일반적으로 Ab initio 방식과매핑방식을결합하여사용한다. 이는수학적알고리즘을통해유전자의위치를예측하는유전자예측과정과실제시퀀싱하여밝혀진 mrna, ESTs, 단백질서열을유전체서열에매핑하여유전자모델을얻는과정으로구성된다. B-1. 유전자예측 유전자예측과정은대부분 HMM 모델을이용하여서열상의 exon 과 intron 을예측한다. exon 과 intron 사이의 GT-AG 라는 splice signal 을인식하고프로모터영역과 3 signal 을인지하는방식으로예측을수행한다. 각종마다유전자모델이다르므로정확한유전자모델을설정하고트레이닝과정을통해종특이적인매트릭스를형성하여유전자예측을수행한다. 이때예측프로그램에따라연구자가직접매트릭스를생성할수있도록트레이닝을수행할수있는프로그램을지원하는공개용예측프로그램 (Augustus[4], SNAP[10], GlimmerHMM[7]) 과유료로매트릭스를구축, 제공하는유전자예측프로그램 (Fgenesh[6]), 그리고주기적으로업데이트된매트릭스를제공하는프로그램 (GeneId[8]) 으로구분할수있다. 이들중에서가장많이사용되는 Softberry 사의 Fgenesh 는다른예측프로그램에비해서정확성및신뢰성이높아국제적인유전체프로젝트에서도이용되고있다. Fgenesh 는유전자예측프로그램에서가장핵심이되는매트릭스를제작하여유료로서비스하고있으며, 일반적으로매트릭스를제작하는데약한달정도분석을수행한다. 고객은 mrna, EST, 단백질서열을유전체서열에매핑작업을통해정확한유전자모델을제공하게되고, Softberry 사에서는고객이제공한데이터와공개되어있는서열을대상으로해당유전체의대표적인유전자모델집단을만든후매트릭스를제작하게된다. 이때, 제작된매트릭스의 evaluation 자료도함께제공한다. 이후유전자예측과정은리눅스환경에서매우간단하고빠르게진행된다. 분석결과또한그림 3 에서보여지는것과같이유전자별로 TSS(transcription start site), CDS, polya 등으로유전체상의위치정보와방향정보를알기쉬운구조로제공하고있다.

그림 3. Fgenesh 분석결과 공개용예측프로그램으로 EBI 에서개발한 GeneId 와고전적인예측프로그램인 GenScan, GlimmerHMM 과 Augustus 등이주로이용된다. 이들모두유전자예측프로그램의사용시에는간단한명령어로유전자예측을수행한다. Augustus 의경우분석속도가다른프로그램들에비해느린단점이있다.

40 그림 3. Fgenesh 분석결과 공개용예측프로그램으로 EBI 에서개발한 GeneId 와고전적인예측프로그램인 GenScan, GlimmerHMM 과 Augustus 등이주로이용된다. 이들모두유전자예측프로그램의사용시에는간단한명령어로유전자예측을수행한다. Augustus 의경우분석속도가다른프로그램들에비해느린단점이있다. 유전자예측은일반적으로하나의프로그램만을사용하지않고여러개의프로그램을동시에사용하여여러개의유전자예측모델을생성한다. 이후유전자의엑손, 인트론단위로규정화되어있는 scoring 방식을통해여러프로그램에서중복적으로예측된유전자모델을우선적으로채택하게된다. 이러한 scoring 방식은뒷부분에서자세히다루도록한다. 다음연재에서는서열정보를이용하여유전체를정렬 (Genome alignment) 하는방법에대해알아보겠습니다. 많은관심부탁드립니다 연재 19 : [Quipu Issue Paper] Genome Annotation Ⅲ- 유전체정렬 (Genome alignment) 이번연재에서는유전자모델을얻는과정으로서열정보를이용하여유전체를정렬 (Genome alignment) 하는방법에대해알아보겠습니다.

41 B-2. 유전체정렬 (Genome alignment) 유전체상에서유전자의위치및구조정보를파악하는데가장중요한정보를제공하는것이 mrna 를비롯한실제서열정보이다. 유전체프로젝트를수행하면서 Full-length mrna 시퀀싱을함께진행하는이유라고할수있다. 그외단백질과 ESTs 서열도유전자구조정보를제공하는좋은재료이다 [11]. 최대한많은양의실제데이터 (evidence data) 를확보하여유전체서열과의유사성 (similarity) 을조사하고그위치를파악한다. DNA 서열의경우 BLAT[13], Sim4[14], GMAP[16], AAT[15] 가주로이용되고, 단백질서열의경우 BLAST 와 wise2 package 에존재하는 Genewise[17] 를이용한다. 유전체서열이매우크므로일차적으로빠르게매핑할수있는 BLAT 이나 BLAST 등으로대략의위치를설정하고그외다른프로그램을이용하여좀더정교한 2 차매핑을수행하는경우도있다. 이때, 서열상의유사성에의해유전자모델 (Evidenced Gene Model) 이결정되므로 HSP length, coverage, identity 와같은파라미터조건을엄격하게설정하여정확한 Evidenced Gene Model(EGM) 을만드는것이일반적이다. 또한언급한대부분의프로그램은모두 exon/intron 신호를인지하며 local alignment 을수행하고있어 intron 이존재하는유전체서열에매핑하기에모두적절한프로그램이다. 특히 genewise 의경우매핑과동시에가능한유전자모델을제시한다. 따라서유전체서열과유연관계가가까운이종의단백질서열을매핑하여도좋은결과를얻을수있다. 다만, 이후진행되는 consensus gene model 을만들때 score 를적절히조절해야만한다. 다양한프로그램을통해얻어진유전자모델정보는모두동일한형태의파일포맷을유지하는것이좋다. 대부분의프로그램이공통적으로지원하는파일형태는 GFF3 포맷이다 ( 그림 4). 그림. 4 GFF3 파일포맷. seqld/source(tool name)/type/start/end/score/strand/phase/attributes 다음연재에서는앞서설명한유전자예측프로그램과단백질서열을유전체에매핑하여얻어진 Gene Model 을결합하는유전체모델의결합 (Gene model merging) 에대해알아보겠습니다. 많은관심부탁드립니다. 연재 20 : [Quipu Issue Paper] Genome Annotation Ⅳ- 유전체모델결합 (Gene model merging) 이번연재에서는유전자예측프로그램과단백질서열을유전체에매핑하여얻어진 Gene Model 을결합하는유전체모델의결합 (Gene model merging) 에대해알아보겠습니다.

B-3. 유전체모델의결합 (Gene model merging) 앞서설명한유전자예측프로그램을통해서얻어진 Predicted Gene Model(PGM) 과 mrna, EST, 단백질서열을유전체에매핑하여얻어진 Evidenced Gene Model(EGM) 을합쳐 Consensus Gene Model(CGM) 을만든다.

42 B-3. 유전체모델의결합 (Gene model merging) 앞서설명한유전자예측프로그램을통해서얻어진 Predicted Gene Model(PGM) 과 mrna, EST, 단백질서열을유전체에매핑하여얻어진 Evidenced Gene Model(EGM) 을합쳐 Consensus Gene Model(CGM) 을만든다. 각유전자모델마다가중치를다르게설정하여동일한위치에서중복적으로지지를받아높은 score 합계를갖는유전자모델이 CGM 으로채택이된다 [3]. 일반적으로 EGM 이 PGM 보다높은가중치를가지며 EGM 가운데에서도 full-length mrna > protein> mrna > EST 순으로우선순위를배정한다. PGM 도 evaluation 을통해프로그램별우선순위를정해주기도한다. CGM 을만드는과정은 full-length mrna 를가장우선순위로채택하되, full-length mrna 가없을경우단백질과 EST, PGM 이제공하는정보를통해 complete CGM 을형성한다 ( 그림 5). 그림 5. Consensus Gene Model making 몇가지예시를통해대표되는유전자모델형성과정을알아보도록하자. 첫번째 full-length mrna 를통해얻어진 EGM 이 partial 단백질과 ESTs 에의해공통적으로 exon/intron 정보를제공받아 complete CGM 을형성하였다 ( 그림 6 의 case1). 다음은 mrna EGM 이없고단백질 EGM 이가장높은가중치를갖는유전자모델이되어 EST 가제공하는 3 정보를통해 complete CGM 을형성한경우이다. 이때 EST EGM 은단백질 EGM 의 partial 형태로동일한 exon/intron 구조를보이고있다. 세번째는 mrna, 단백질모두존재하지않고 partial ESTs EGM 만존재할때 EST EGM 하나하나는모두낮은가중치이나동일한위치에서동일한 exon/intron 구조로여러 ESTs EGM 이지지하고있으므로 CGM 을형성할수있다. 또한일정부분동일한유전자구조를갖는 PGM 으로부터 3 정보를제공받아 complete CGM 을형성하였다. 마지막네번째경우세번째경우와동일하게 PGM 과 EST EGM 이존재하는가운데두 gene model 이서로상이한 exon/intron 구조를보이고있어어떠한 CGM 도만들수없는상황을보여주고있다. 만약 PGM 만이존재할경우라도여러프로그램을통해얻어진 PGM 이모두동일한 exon/intron 구조를갖는다면 CGM 을형성할수있다. 대부분의 genome annotation 에서 evidence 데이터를충분히갖추고진행되기란쉽지않다. 따라서종종 Evidenced Gene Model(EGM) 없이 Predicted Gene Model(PGM) 만으로 Consensus Gene Model(CGM) 을만드는경우가존재한다.

43 그림 6. Consensus gene model 만들기 이러한유전자모델을형성하는프로그램으로는 Tigr 에서공개소스로제공하는 EVModeler[9] 가있다. Perl 스크립트로구성된프로그램은 GFF3 포맷의 gene model 정보를입력받아정해진 gene model 별가중치를토대로 Consensus Gene Model 을제시한다. C. Alternative splicing analysis 다양한유전자모델을통해 Consensus Gene Model 을형성하고나면이후 alternative splicing 분석을위해 transcripts 를분석한다 [12]. mrna, ESTs, 단백질, NGS reads 서열이제공하는다양한 transcripts 를 consensus gene model (CGM) 에비교하여 alternative transcript model 을제시한다. 이후조직특이적인 alternative transcripts 나 cancer specific alternative transcripts 분석으로 biological meaning 에초점을두고분석을진행하게된다 [3]. 그림 7. Alternative splicing 분석

44 다음연재에서는유전자의기능을분석하는방법중에먼저상동성기반의 Annotation 에대해알아보겠습니다. 많은관심부탁드립니다 연재20 : [Quipu Issue Paper] Genome Annotation Ⅴ- Functional annotation( 상동성기반의 Annotation) 이번연재에서는유전자의기능을분석하는 Functional annotation 중에먼저상동성기반의 Annotation 에대해알아보겠습니다 Functional annotation A. 상동성 (homology) 기반의 Annotation 유전체서열에서유전자의위치와구조정보를파악하여유전자의서열을분석한뒤그서열정보를통해유전자의기능을유추한다. 가장보편적으로유전자의기능을분석하는방법이상동성기반의분석이다. 다만, 상동성분석에기반한유전자기능유추시사용되는데이터베이스에따라노이즈발생률이차이가나므로데이터베이스구축에많은노력을기우려야한다. 분석하려고하는종과동일한종의단백질서열을 1 차데이터베이스로구축하고다음으로유연관계가가까운종을대상으로 2 차데이터베이스를만드는피라미드형태의데이터베이스구축이필요하다. 또한각데이터베이스에맞는상동성경계값 (cutoff) 조정이필요하다. 단백질수준에서의상동성은보통높게는 1e-200 에서낮게는 1e-4 까지적절한수준으로조정을하게된다. 그러나 DAN 수준에서의상동성은아무리높은 e-value 경계값이라도신뢰할만한정보가되지않는다고말한다. 따라서 e-value 뿐만아니라 identity, HSP coverage 등이상동성레벨을정하는기준이되기도한다. 분석에이용되는데이터베이스는그특성에따라약간의차이가있다 ( 표 1). 단백질의기능규명을위해단백질의 1 차구조인서열정보부터 2 차구조정보인도메인정보, 3 차구조정보에해당하는 PDB 정보등다양한데이터베이스가이용된다. 뿐만아니라세포내위치정보를통해기능을유추하기도하므로세포내위치정보까지가능한모든정보를분석할수있는흡사유전자기능백화점과같은유전자기능에대한정보분석이요구된다. 이러한통합적인유전자기능분석을수행하기위해서는다양한알고리즘과데이터베이스, 분석프로그램들의유기적인네트워크가구축되어야하며, 수많은데이터의입출력이이루어지므로데이터의효율적인관리를위한시스템도연계되어야되므로상당히복잡한대규모분석시스템이요구된다. BioMax 사에서는초기인간유전체기능분석부터수백종의미생물, 다양한척추동물, 식물등의기능분석을수행한 Pedant- Pro( 라는유전체구조, 기능분석자동화시스템을서비스하고있다.

45 Pedant-Pro 에서는크게세가지카테고리로구성된데이터베이스를통해단백질의기능을규명하고있다. 첫번째, 단백질의 1 차구조인서열정보를이용한분석으로 GO, MetaCat, FunCat, EC, COGs 데이터베이스를활용한다 ( 표 2).

단백질의기능분석은 DAG 구조를이용한계층화방법으로다중기능을수행하는단백질의특성에맞게 GO 와 FunCat 을이용하고있으며, 그중 MetaCat 은 metabolization 분석에이용되며 EC 는단백질의 enzymatic function 에각각초점을두어이차적인세포내대사회로분석의기초자료를제공하고있다.

단백질의 hydrophobicity 에기반을둔 transmembrane helice 및 site prediction 을수행하는 HMMTOP, TMHMM 그리고단백질의 signal peptides 및 cleavage site 를예측하는 SignalP 분석이이에해당된다. 그림 8. Pedant-Pro 유전자기능분석결과리포트.

46 단백질의기능분석은 DAG 구조를이용한계층화방법으로다중기능을수행하는단백질의특성에맞게 GO 와 FunCat 을이용하고있으며, 그중 MetaCat 은 metabolization 분석에이용되며 EC 는단백질의 enzymatic function 에각각초점을두어이차적인세포내대사회로분석의기초자료를제공하고있다. COGs 는종간의 ortholog 그룹정보를데이터베이스로구축한것으로유사기능을갖는단백질들을그룹화하여기능을유추하는데도움을주고있다. 두번째로는단백질의이차구조정보를이용한분석이다. 단백질의 hydrophobicity 에기반을둔 transmembrane helice 및 site prediction 을수행하는 HMMTOP, TMHMM 그리고단백질의 signal peptides 및 cleavage site 를예측하는 SignalP 분석이이에해당된다. 그림 8. Pedant-Pro 유전자기능분석결과리포트. Pedant-Pro 의유전자구조, 기능분석리포트는웹으로확인할수있으며, 윈도우방식의디렉토리 / 폴더구조로각분석결과들이구성되어있으므로, 연구자가쉽게다양한정보를습득할수있다. 분석결과리포트는다양한공개데이터베이스와의연계정보와단백질의도메인정보, FunCat 과같은기능분류정보등과같은다양한특징적인정보들을볼수있다. 또한단백질의 1 차, 2 차, 3 차구조에대한정보와단백질의 Paralog 클러스터정보등을확인할수있다. 단백질의서열정보에기반하여얻어진단백질내의도메인정보는프로파일과정을통해서로비슷한도메인프로파일을갖는단백질들간의클러스터분석에이용된다. 단순서열상동성에서벗어나좀더구체화된기능을중심으로유전자의기능을유추하는방법을 Pedant-Pro 에서제시하고있다 ( 그림 9). 유사한방법으로 synteny 구조를이용한 ortholog 분석이있다. 유연관계가가까운종과의 synteny 분석을이용해유전자의기능뿐아니라염색체내의물리적위치정보까지이용하여유전자의기능을규명하게된다. 이들방법들은종간 ortholog 분석에기초한비교유전체분야에주로이용되며그자세한내용은다음에서다루도록한다.

47 그림 9. 도메인 profile 을이용한 protein cluster 분석 다음연재에서는서로다른종간의상응하는유전자조합및구성을분석하여진화론적인유연관계를밝히는비교유전체분석에대해알아보겠습니다. 많은관심부탁드립니다. 연재 21 : [Quipu Issue Paper] Genome Annotation Ⅵ - Functional annotation( 비교유 전체분석 ) 이번연재에서는서로다른종간의상응하는유전자조합및구성을분석하여진화론적인유연관계를밝히는비교유전체분석에대해알아보겠습니다. B. 비교유전체분석 서로다른종간의상응하는유전자조합및구성을분석하여진화론적인유연관계를밝히는비교유전체분석의가장기본적인분석은 ortholog 분석이다. Ortholog 란한개체가진화되어여러종으로분화되었을때, 유전자의기능이그대로보존되어서로유사한기능을수행하는것을의미한다. 미생물의경우단순 ortholog 분석에서확장되어오페론단위의유전자그룹을유전체상의위치정보와함께분석하는 Positional linkage 방법이매우정확하게분석되고있다 ( 그림 10). 그림 10. Positional linkage. 미생물의경우보통 operon 상에서유사한기능을수행하는단백질들끼리서로이웃하여존재하므로이를 positional linkage 를통해정보를확인한다. 진화론적인연관관계분석시이웃하고있는유전자의배열과조성을통해종간변이단계를분석하게된다. 좀더나아가특정 ortholog 그룹의유전자들의존재유무를다수의종에서분석하여프로파일링을수행하고그프로파일을이용하여유연관계를밝히는 phylogenetic 프로파일링기법도최근매우정확히유전자의기능을예측하는알고리즘으로알려지고있다. 비슷한단백질프로파일을갖는것은비슷한기능을갖는다는의미를보여주기때문에유전자기능분석시이용되고있다 ( 그림 11).

그림 11. Phylogenetic 프로파일링 다음연재에서는수학적알고리즘에의한유전자예측으로생각할수없었던예외적인사항이많이발생한다. 이러한부분을실제유전자의구조를하나씩살펴가며수정작업을거치는 Professional Curation 에대해알아보겠습니다. 많은관심부탁드립니다.

48 그림 11. Phylogenetic 프로파일링 다음연재에서는수학적알고리즘에의한유전자예측으로생각할수없었던예외적인사항이많이발생한다. 이러한부분을실제유전자의구조를하나씩살펴가며수정작업을거치는 Professional Curation 에대해알아보겠습니다. 많은관심부탁드립니다. 연재 22 : [Quipu Issue Paper] Genome Annotation Ⅶ - Professional Curation 이번연재는 Genome Annotation 의마지막내용으로수학적알고리즘에의한유전자예측으로생각할수없었던예외적인부분을실제유전자의구조를하나씩살펴가며수정작업을거치는 Professional Curation 에대해알아보겠습니다 Professional Curation A. 상동성기반의 Annotation 수정 수학적알고리즘에의한유전자예측으로생각할수없었던예외적인사항이많이발생한다. 따라서이러한부분은실제유전자의구조를하나씩살펴가며수정작업을거쳐최종적인유전체분석을수행하게된다. 분석가능한소프트웨어로는 Apollo[2] 와 Pedant-Pro가있다. Apollo 는오픈소스로제공되며, Berkeley Drosophila Project 수행을위해 Sanger Institute 에서개발하였다. 유전자의구조정보를편집하기위한프로그램으로 evidence 데이터의 alignment 정보와 structural annotation 결과형성된 Consensus Gene Model 정보를같이보며수정작업을수행한다 ( 그림 12).

그림 12. Apollo. Consensus gene model 의정확성을 manually curation 한다. 유전자의길이, 위치를직접편집하면서가능한 AS form 과유전자모델을만들며, 이를다시 xml 혹은 GFF 형태로저장하여 genome browser 에이용할수있도록하였다.

또한편집시필요한주석태그를덧붙일수있는것또한장점이라할수있다. B. 기능분석결과의수정 (functional annotation) 서열상동성및도메인정보를통해분석되어진유전자의기능정보에서전문가의분석에의존하여알고리즘에의한오류를수정하거나분석정보를편집, 수정할수있다.

49 그림 12. Apollo. Consensus gene model 의정확성을 manually curation 한다. 유전자의길이, 위치를직접편집하면서가능한 AS form 과유전자모델을만들며, 이를다시 xml 혹은 GFF 형태로저장하여 genome browser 에이용할수있도록하였다. 입력포맷으로 GFF3, Ensemble, XML 형식이가능하며 Chado 데이터베이스로부터직접데이터를읽어들일수도있다. 또한삽입 (Insertion), 삭제 (Deletion), 확장 (Extension), 분리 (Split), 결합 (Merge), 이동그리고변환 (Replacement) 등가능한모든유연한편집모드를이용하여유전자의구조정보를편집할수있다. 또한편집시필요한주석태그를덧붙일수있는것또한장점이라할수있다. B. 기능분석결과의수정 (functional annotation) 서열상동성및도메인정보를통해분석되어진유전자의기능정보에서전문가의분석에의존하여알고리즘에의한오류를수정하거나분석정보를편집, 수정할수있다. 이전페이지에서언급한 Pedant-Pro 에서는이와같은전문가의수정기능과수정된정보의업데이트기능을지원하고있어서최종적으로가장정확한유전체분석정보를얻을수있다 ( 그림 13). 수치상상동성이높은단백질로유전자매핑이이루어져야하므로발현정보, 도메인정보등을종합하여단백질의기능을수정해야할때이용하게된다. 이러한작업은대부분생물학적지식을갖춘다수의전문가들에의해진행되게된다. 따라서전문가에의한기능분석수정에대한이력정보를관리하는것또한중요하다고할수있다. 그림 13. Pedant-pro annotaton edition 다음주연재에서는 NGS Application의마지막내용으로 Next Generation Sequencing 데이터를분석하고처리하는 Bioinformatics Knowledge Management에대해알아보겠습니다. 많은관심부탁드립니다.

50 연재 23 : [Quipu Issue Paper] Bioinformatics Knowledge Management Ⅰ - Next Generation Bioinformatics 이번연재에서는 NGS Application 의마지막내용으로 Next Generation Sequencing 데이터를분석하고처리하기위해서이에적합한새로운형태의생물정보학인 'Next Generation Bioinformatics' 에대해알아보겠습니다 Next Generation Bioinformatics Applied Biosystems, Illumina 그리고 Roche 등과같은분석장비개발회사에서출시한 Next Generation Sequencers의출현으로전통적인유전체데이터분석법에새로운변화와도전이요구되고있다. 이러한 Sequencer들은전에는생각할수없었던많은양의시퀀스데이터를쏟아내고있고이것은생물정보학과전산생물학에다양한변화와혁신을초래하였다. Next Generation Sequencing 데이터를분석하고처리하기위해서이에적합한새로운형태의생물정보학, 즉 Next Generation Bioinformatics 에대한준비를해야할것이다. NGS 데이터를다룰수있는충분한저장장치, 관리솔루션그리고생물정보학분석파이프라인구축이성공적인 NGS 연구에필수적인요소이다. 현재대다수의생물정보학전문가들은생물학자들이다루기힘든커맨드라인방식의데이터처리로실험연구자들과의분석결과검토를위한자료를따로작성하고있다. 이는생물학데이터가 NGS의도입에의해폭발적으로증가된상황에서는매우소모적인것으로실험연구자들이쉽게분석결과를검토하고판별할수있는플랫폼개발이요구되며, 직관적이거나그래픽사용자인터페이스에대한요구를좀더다양하게충족시켜야함을나타낸다. 뿐만아니라대부분의초기분석이리눅스와같은유닉스환경에서이뤄지고있고, 생물학적의미론을분석하는단계에서는대부분실험연구자들이이용하는윈도우환경에서이뤄지므로이들간의유기적인데이터교류를위한포맷변화도필요한실정이다. 따라서운영체제에상관없이 NGS 데이터를분석할수있으며, 서로다른운영체제에서도데이터를자유롭게입출력을할수있는시스템마련이필요하다. 또한공동연구및컨소시엄을통한분석방법이늘어나는추세이므로, 분석데이터를공동으로관리할수있는데이터베이스의구성, 분석프로그램의표준화및정규화그리고많은프로그램들을연계한효율적인데이터분석파이프라인구축또한요구된다. 앞으로 NGS 데이터는임상진단과개인맞춤의약연구에직접적으로이용되어질전망이다. 이에앞서언급된차세대생물정보학에대한다양한요구들이쏟아질것이다. 이러한문제들이해결되지않는다면조만간생물정보학이생물학관련연구에큰걸림돌이될수있을것이다 [1]. 다음연재에서는웹 2.0 시대에맞추어다양한분야에서생산된데이터를효율적으로관리하는방법에대해알아보겠습니다. 많은관심부탁드립니다.

연재 24 : [Quipu Issue Paper] Bioinformatics Knowledge Management Ⅱ- Data Management for Web 2.0 Era 이번연재에서는웹 2.0 시대에맞추어다양한분야에서생산된데이터를효율적으로관리하는방법에대해알아보겠습니다. 3-2. Data Management for Web 2.0 Era 최근들어웹 2.

51 연재 24 : [Quipu Issue Paper] Bioinformatics Knowledge Management Ⅱ- Data Management for Web 2.0 Era 이번연재에서는웹 2.0 시대에맞추어다양한분야에서생산된데이터를효율적으로관리하는방법에대해알아보겠습니다 Data Management for Web 2.0 Era 최근들어웹 2.0 에대한논란이뜨겁다. 비단 IT 에서뿐만아니라일상생활에서도웹 2.0 이라는용어는어렵지않게들을수있게되었다. O'Reilly Media 에서 2003 년처음사용하기시작하면서부터대중화된웹 2.0 에대한정의를위키피디아에서는이렇게정의하고있다. 단순한웹사이트의집합체를웹 1.0 으로보고있다면, 웹 2.0 은웹애플리케이션을제공하는하나의완전한플랫폼으로의발전이다 ( 그림 1)[2]. 그림 1. Web 2.0 이란? 웹 2.0 이세상에알려진지불과몇년밖에되지않았으나, 이제는누구나가쉽게웹 2.0 으로구축된사이트에자신의데이터를올리거나다른사람의데이터를다운로드받는등이전보다능동적으로웹을활용하고있다. 위키라는개념으로접근한웹 2.0 은대영백과사전으로알려져있는브리태니커백과사전보다더많은정보를담고있어세계최대의백과사전으로기네스북에기록되어있다 년 1 월출범하여 2006 년 12 월에기네스북에인정되기까지불과 6 년의짧은기간에엄청난정보가모이게된가장큰원동력은웹 2.0 시대에맞춰운영자가절대개입하지않는다는원칙하에모든방문자가스스로글을읽고쓸수있게한것이다. 정보의양을기준으로한다면다양한사람들이생산하는데이터가한명이작성한글보다훨씬클수있으며, 다양한사람들에의해서읽혀지고수정되어보다정확한정보들로탈바꿈할수있다는것이다. ( 주 ) 인실리코젠에서는웹 2.0 시대에맞추어위키시스템을활용한홈페이지형식의지식관리시스템을재구성하였다. 이를이용하여프로젝트단위의연구에서공동연구자들사이의데이터공유또는미팅과관련된로그관리등을효율적으로운영하고있다. 개별연구자들이각자분석업무를업로드하고관련연구자들이업데이트된데이터를다운로드받거나웹상에서오류나문제점을수정,

52 지적하여최종적으로는다양한연구전문가그룹에의한완성된연구결과를도출하는방식을취하고있다. 이와같은방식의연구관리는데이터가실험실에존재하는것이아니라웹상에존재하면서, 인터넷만연결된환경에서는장소, 시간에관계없이공통의주제를가지고분석업무를수행하고데이터를보완할수있다는장점이있다. 한사람의불완전한지식에서시작하여공동연구자또는다른전문가의지식을포함하여완전한지식을유도하는방향을추구하고있는것이다. 이처럼다양한분야의생물학영역에서도웹 2.0 의장점을백분발휘하여데이터를축적하고, 보완하고, 관리하는흐름을엿볼수있다. 최근에는웹 2.0 의장점에덧붙여서다양한분야에서생산된데이터를어떻게의미론적으로재분류할수있는가에보다많은관심이집중되고있다. 기존에존재하는지식자원을연구자가검색, 통합및관리하기편리하도록의미기반온톨로지사이트로구축하는것이다. 그리하여, 최근의많은포탈검색사이트에서입력된검색어에관한다양한관련정보를추출하여보여주는의미론적검색방법을개발하였으며, 한국인들이가장많이검색하는네이버에서도의미검색사이트를개발하여서비스하고있다. 다음연재에서는생물학의많은데이터를활용하여새로운의미를발굴할수있는 Semantic Network for Integrated Biology Data 에대해알아보겠습니다. 많은관심부탁드립니다. 연재 25 : [Quipu Issue Paper] Bioinformatics Knowledge Management Ⅲ- Semantic Network for Integrated Biology Data 이번연재에서는생물학의많은데이터를활용하여새로운의미를발굴할수있는 Semantic Network for Integrated Biology Data 에대해알아보겠습니다 Semantic Network for Integrated Biology Data 쌓여있는유전체데이터와각종실험을통해서얻어진수많은데이터사이에서새롭게응용할수있는지식은무엇일까? 인터넷이발달된최근에는인터넷쇼핑이괄목할만한성장을보이고있으며, 고객들에게좀더좋은정보를제공하고자다양한알고리즘및분석기법을적용하고있다. 예를들어서상품을주문한고객의구매목록에대한특징을찾아서비슷한성향의신제품이있으면자동으로고객에게이메일로상품광고를전달하는것과같은맞춤형광고기법이한예일것이다. 이와맞물려생물학의많은데이터를활용하여새로운의미를발굴할수있는방법을찾고자하는연구들이진행되고있으며, 이와관련한의미론적지식정보추출을위한시스템이개발되고있다. 또한최근의연구동향은단순히데이터를생성하고쌓아두는것보다각생물학데이터들의연관관계를도출하여어떻게각데이터들을연결하여새로운정보를발굴할것인가라는 How to link between the data 에초점이맞추어져있다. 축적된생물학데이터에서새로운의미를발굴할수있도록지원하는시스템가운데 Biomax

대다수의시스템들이 RDBMS 형식의데이터베이스로구축되어있으므로, 모든데이터의통합에의한새로운형태의의미를발굴하기위해서는기존시스템보다더확장된형태의데이터베이스구축및 IT 시스템구축이선행되어진다. 하지만이와같이단순히시스템의확장구축을통해서는얻어질수있는데이터의유기적연관관계는한계를보이게된다.

53 Informatics AG 사 BioXM 지식관리시스템을꼽을수있다. BioXM 은연구실및센터의다양한생물, 생명, 의학관련데이터에서의미론적정보를추출할수있도록데이터의시맨틱네트워크를구축하는플랫폼이다 ( 그림 2). 그림 2. 데이터의시멘틱네트워크흐름도 이미미국국립암센터 (NCI) 와연계하여시스템을운용, 활용하여암에관련된실험정보및분석정보, 문헌정보를통합한시스템을구축한바있다 ( 그림 3). 그림 3. BioXM 의데이터통합개념 이와같은지식관리시스템은기존에구축한수많은실험정보, 분석정보, 문헌정보들사이의연관관계를도출하여새로운의미를찾고자하는바램을충족시켜준다. 대다수의시스템들이 RDBMS 형식의데이터베이스로구축되어있으므로, 모든데이터의통합에의한새로운형태의의미를발굴하기위해서는기존시스템보다더확장된형태의데이터베이스구축및 IT 시스템구축이선행되어진다. 하지만이와같이단순히시스템의확장구축을통해서는얻어질수있는데이터의유기적연관관계는한계를보이게된다. 또한데이터베이스의확장이진행될수록생물학자들의지식이더많이요구되지만 IT 와 BT 전문가의상호생각의차이로인해최종적으로는생물학자들이원하는형태가아닌별개의시스템으로구축되는경우가다반사이다. 이에반해 BioXM 지식관리시스템은기존데이터들을새로운데이터베이스스키마를설계하여통합연계하는것이아니라각생물학데이터의기존의미를알고있는연구자가퍼즐을맞춰가는방식과같이 edge 와 node 의꼬리에꼬리를무는방식으로데이터들을선택하여서로연계된데이터들을통합하고관리하는지식관리시스템이다. 이와같은방식으로 BioXM 은 Genomics, Transcriptomics, Proteomics 등다양한 omics 데이터들과문헌정보등을손쉽게

54 통합할수있을뿐만아니라다양한방법으로데이터를조합하여연구자가알고자원하는질문에알맞은답을얻도록지원한다. 그림 4. Object 와 Relation 에대한개략적인데이터모델 그림 5 는환자에관한질병과질병에관련된유전자와대상약물및임상실험과같은다양한정보를이용하여그래픽사용자인터페이스형태로모델링을구현한사례를보이고있다. 지금그림에서보이고있는데이터이외에다양한정보가있을경우에도동일한방법으로모델링을구현하여좀더폭넓은데이터연관관계도를생성할수있다. 그림 5. BioXM 데이터모델링구현 BioXM 지식관리시스템의특징및장단점은표 1 과같다.

55 암을연구하는연구자들은자신이가지고있는데이터를이용하여다음과같은다양한궁금증을표현할수있으며, BioMax 사의 BioXM 과같은시스템을이용하여각데이터들의네트워크를구축하면궁금증에대한답변을얻을수있을것이다. 이와같은지식발굴시스템은다음과같은문제점을해결하는데도움을줄수있다 ( 그림 6). 그림 6. BioXM 시스템을이용한지식네비게이션

56 다음연재에서는현재까지공개데이터베이스에축적된공개된데이터및자신이보유한데이터를이용하여새로운정보및생물학적의미를찾는 Gene Network Discovery by Text-mining 에대해알아보겠습니다. 많은관심부탁드립니다. 연재 26 : [Quipu Issue Paper] Bioinformatics Knowledge Management Ⅳ- Gene Network Discovery by Text-mining 이번연재에서는현재까지공개데이터베이스에축적된공개된데이터및자신이보유한데이터를이용하여새로운정보및생물학적의미를찾는 Gene Network Discovery by Text-mining 에대해알아보겠습니다 Gene Network Discovery by Text-mining 최근의생물학연구의이슈는데이터를생산하는것보다현재까지공개데이터베이스에축적된공개된데이터및자신이보유한데이터를이용하여새로운정보및생물학적의미를찾는부분에있다. 즉데이터의 생산 에서 연결 로생물정보학의관점이옮겨가고있다고할수있다. 따라서다양한분야의실험데이터, 문헌데이터, 공개데이터등을네트워크형식으로연결하여새로운지식을발굴할수있는시스템이주목받고있다. 현재 NCBI 의 PubMed 에는 18,000,000 건이상의논문들이수록되어있으며, 하루에도수십편의논문들이새롭게업데이트되고있다. PubMed 에수록되어있는저널들은의학, 생명, 생물에관련된연구논문들이며, 오랜기간에걸쳐저널의정보에대한공신력이검증된논문들이라고할수있다. 따라서연구자가새로운주제를기반으로하여연구를시작하고자할경우, 가장선행되어져야하는것은논문리뷰라고할수있다. 다른사람이비슷한연구를수행한경험이있는지, 어떠한방법에의해서연구가진행되었는지, 또한그결과는어떠하였는지등을참조하게된다. 이와같은논문리뷰가선행된후자신의연구방향을설정하게된다. 그만큼다른사람에의해서분석되어진연구정보가최근들어서는상당히중요하다고할수있다. 더구나, 최근에는인터넷을이용한데이터의정보교환이활발하여엄청나게많은문헌정보들을손쉽게찾아볼수있기때문에일정한부분에서는직접실험을하지않더라도그와유사한실험을수행한결과물을얻을수있다. 따라서이와같은문헌정보의모래언덕을잘살펴서보물을찾아낼수있는방법들이주목을받고있다. 한예로 Ariadne 사의 MedScan 과 Pathway Studio 는텍스트마이닝이라는컴퓨터알고리즘을이용하여주어진문헌정보에서유전자와질병, 화학물질, 세포내프로세스, 대사회로와같은엔티티 (Entity) 들의관계를자동으로추출하여테이블과다양한그래프로관계들을보여주는프로그램으로대사회로,

MedScan 의경우에는약 1 천개의논문초록을대상으로생물학적인관계를추출하는데 2~3 분밖에걸리지않으므로, 대량의수집된논문에서특정한바이오마커를발굴하거나특정단백질또는질병과관련된네트워크정보를검토하기에는상당히유용하다고할수있다.

57 유전자조절네트워크, 단백질상호작용맵과같은실험결과를이해하는데상당히유용하다 ( 그림 7). Pathway Studio 는척추동물, 식물연구의생물학적연관관계, ontology 와 pathway 들의정보를포함하고있는 ResNet 데이터베이스와자연언어처리기술을이용하여과학문헌을자동으로읽고생물학적인관계를추출하는기능을가진 MedScan 으로구성되어있다. MedScan 의경우에는약 1 천개의논문초록을대상으로생물학적인관계를추출하는데 2~3 분밖에걸리지않으므로, 대량의수집된논문에서특정한바이오마커를발굴하거나특정단백질또는질병과관련된네트워크정보를검토하기에는상당히유용하다고할수있다. 보통하나의유전자와관계하는다양한정보를찾아보기위해서는수많은데이터베이스와문헌, 웹사이트를검색하여그연관관계를하나씩도출해야되지만, Pathway Studio 와같은프로그램은그와같은일련의시간과노동력이상당히투자되어야하는업무를효율적으로지원함으로써연구자의보다빠르고충실한결과물을얻을수있도록지원한다. 그림 7. Architecture of MedScan and Pathway Studio 그림 8 은 Cholestasis 에관련된약물과단백질등의연관관계를 Pathway Studio 를이용하여연구자가쉽게이해할수있는방식의그래프로재구성한것이다. 이와같은방법으로복잡한질병과약물, 단백질및대사작용의네트워크를시각적으로이해하기쉽게제공하고있다. 그림 8. Pathway Studio workflow diagram

58 그림 9 는 EMB 라는유전자를대상으로관련있는다양한유전자및질병, 약물, 세포내프로세스등을연결한그래프로서연결되어있는라인을클릭하면그림과같이연관관계를표현하는문헌정보를확인할수있어연관관계의정확성및신뢰성을뒷받침하고있다. 그림 9. Entity 와 Relation 의네트워크및관련문헌의확인 그림 10 은 PubMed 에서 Curcumin 과 Prostate Cancer 에관련된논문을검색하여수집된수십여편의논문에서 MedScan 의텍스트마이닝알고리즘을이용하여네트워크를재구성한것이다. 그림에서보는것과같이 Curcumin 과 Prostate Cancer 사이에있는단백질이 Prostate Cancer 를억제하는역할을한다는정보를검증된문헌을통해서확인하는것이다. 그림 10. MedScan 을통한문헌정보의네트워크구성 다음연재에서는 NGS Edition 의마지막연재로대용량의데이터를다루기위한 Centralization for Highthroughput Data Analysis 에대해알아보도록하겠습니다.

59 연재 27 : [Quipu Issue Paper] Bioinformatics Knowledge Management Ⅴ- Centralization for High-throughput Data Analysis 이번연재에서는 NGS Edition 의마지막연재로대용량의데이터를다루기위한 Centralization for Highthroughput Data Analysis 에대해알아보도록하겠습니다 Centralization for High-throughput Data Analysis 최근들어분석하고자하는데이터의용량이기하급수적으로늘어남에따라데스크탑컴퓨터사양으로분석하기가어려워지고있다. 따라서생물정보전문가들의도움이많이요구되지만, 한두명의생물정보전문가들이처리하기에는분석하고자하는데이터가급격하게증가되고이를활용한연구분야가다양하여대규모의생물정보전문가를가용하고있는센터가아닌곳에서모든분석을지원하는것은쉽지가않다. 또한유전체분석과같은대규모프로젝트가컨소시엄형식으로수행되고있는상황에서는다른연구팀과의상호협조를통한공동연구가중요하며, 이를위한데이터의공유와관리도중요시되고있다. 따라서연구자들이공동으로데이터를업데이트하거나다운로드할수있는데이터베이스와대규모의용량을분석할수있는서버, 그리고서버에서분석한결과를개별컴퓨터에서확인할수있는시스템의유기적인관계가요구된다. 하지만생물데이터의형식과이를분석하는프로그램의종류가다양하므로데이터의공유와관리, 그리고분석프로그램의연계가상당히복잡하다. 대다수의생물학자들이윈도우운영체제의컴퓨터를사용하고있으며 Vector NTI, DNA Star 와같은생물데이터를분석하는상용화프로그램을많이이용하고있다. 하지만이런상용화소프트웨어는윈도우에서만사용가능하며, 분석하는데이터의용량및길이에제한을두고있으므로, 대규모의데이터를분석하는것은적절하지않다. CLC bio 사에서는대규모의 NGS 데이터및대규모의데이터를서버에서분석할수있는 CLC Genomics Server( 그림 11) 와데스크탑컴퓨터에서결과를확인하고 Vector NTI, DNA Star 와같은다양한분석프로그램에서나온결과데이터를사용할수있는 CLC Genomics Workbench 를개발하였다.

그림 11. Genomics Server 시스템아키텍처 CLC Genomics Workbench 에서 CLC Genomics Server 에 NGS 데이터및대규모분석데이터를업데이트하고분석을수행한뒤 CLC Genomic Server 에서분석되어진결과를 CLC Genomics Workbench 에서확인할수있는플러그인이있다.

60 그림 11. Genomics Server 시스템아키텍처 CLC Genomics Workbench 에서 CLC Genomics Server 에 NGS 데이터및대규모분석데이터를업데이트하고분석을수행한뒤 CLC Genomic Server 에서분석되어진결과를 CLC Genomics Workbench 에서확인할수있는플러그인이있다. 이를활용하면대규모리소스를필요로하는데이터의분석과데스크탑컴퓨터에서가능한데이터분석을구분하여연구업무의효율성을증대시킬수있다. 또한윈도우, 리눅스, 매킨토시등운영체제에관계없이설치가가능하기때문에다양한운영체제에서데이터를분석하는연구자들이분석결과를공유할수있다. 대부분의상용화프로그램은연구자들이원하는분석알고리즘이없을경우이후버전의업그레이드내용을기다리거나, 다른프로그램을이용하여분석할수밖에없으므로분석의일관성을유지하기어렵고, 번거로움이가증되었다. 하지만, CLC Genomics Server 에서는 External Application 플러그인을적용하여 CLC Genomics Workbench 에설치되어있지않는알고리즘및분석법을커맨드라인방식으로설치한후간단한설정을통해별도의인터페이스를만들지않더라도 CLC Genomics Workbench 에서데이터의입력과출력을수행할수있으며, 분석결과를다른분석에응용할수있다.

External Application of CLC Genomics Server.

61 그림 12 는 CLC Genomics Server 에서 external application 모듈을설정하는것을보이고있으며, 그림 13 은 external application 을통해서구축한새로운모듈을이용하여분석하는화면을보이고있다. 이와같이서버급에서분석할수있는시스템과데스크탑컴퓨터에서분석할수있는프로그램의연계를통해서생물학자들이복잡하고다양한데이터를분석하는데많은도움을줄수있을것이다. 그림 12. External Application of CLC Genomics Server. 자주사용되는커맨드라인방식의프로그램은 CLC Genomics Server 의 External Application 설정을통해별도의인터페이스를만들지않고 CLC Genomics Workbench 에서수행할수있다. 이를이용하여사용자에맞춰진 workbench 로재구성할수있다. 그림 13. CLC Genomics Workbench 플러그인적용. External application 플러그인으로구축된새로운모듈은 CLC Genomics Workbench 에서분석이가능하다.

모두 보기

뉴스레터6호F?2??訝

뉴스레터6호F?2??訝 February 2009 No.06 Roche Diagnostics Korea Co., Ltd. Focus Tech EDITORIAL February 2009 No.06 Contents Editorial 03 Focus 04 Product 10 Talk 12 Tech 14 Activity 19 Style 22 February 2009 No.06 02 03 FOCUS