REP - REPEATMASKER - 014, JULY 01 1 유전자예측프로그램 RepeatMasker 설치와운용 RepeatMasker Installation Manual 정우근 Chung Woo-Keun 부산대학교컴퓨터공학과 wkchung@pusan.ac.kr ABSTRACT 진핵생물의유전체서열중반복서열이가장많은영역을차지하고있다. Transposon elements 를포함하여 simple repeat region, low complexity 영역이전체유전체의약 70 80% 가량해당된다. 따라서반복서열영역을우선적으로선별한뒤마스킹작업을통해반복서열영역에서의유전자예측은예외로처리한다. 물론, 반복서열영역내에도단백질로코딩되는부분이존재하지만, 극히일부에해당하기때문에추후에따로수행한다. 본보고서에서는진핵생물의유전체서열중가장많은영역을차지않고있는반복서열의마스킹작업을진행할수있는 RepeatMasker 의설치방법과간단한실행방법에대해알아보기로한다. RepeatMasker 는유사성기반의검색을통해반복서열데이터베이스에존재하는서열과비교하여유전체내에존재하는 transposon element 와 retrotransposon element, rolling circles 를추출하고, TRF(Tandem Repeat Finder) 라는서브프로그램에의해단순반복서열을규명한다. KEYWORDS RepeatMasker 1 서론 RepeatMasker 는 low-complexity sequence 와 interspersed repeats 를포함하는 Genomics 데이터를규명, 분류그리고반복적인요소들을 Masking하기위해널리사용되는툴이다. RepeatMasker는 Nucleotide sequences 에있는 repetitive elements 를 annotation, identify 및 Masking 하기위해만들어졌다. RepeatMasker 는 low-complexity DNA sequences 와 interspersed repeats 를포함하는 repetitive elements 를 annotation 하고 DNA sequence와연관되는데이터값들을소문자로변환하거나 Ns, Xs로변환한다. 소문자로변환하는것은 Soft Masking이라하고, x로바꾸는것은 Hard masking이라고한다. 최근 RepeatMasker에대하여많은논문들이비슷한종류에뛰어난성능을보이는툴도선보이고있다. Bedell2000 [1] 는 RepeatMasker의성능을강화하기위해만든것으로 RepeatMasker에서꼭필요로존재하는 Blast와같은프로그램이다. WU-Blast와 MaskerAid의성능을분석하였다. 이논문에서는 MaskerAid의성능이정말뛰어난것으로나왔다. Juretic [2] 에서는 HMMER이라는것과 RepeatMasker에대한성능분석한부분이있지만, HMMER Long Sequences에대한처리는불가능한것으로나타났다. Morgulis [3] 에서는 RepeatMasker보다더뛰어난성능을보이는 WindowMasker가소개되었으나, 너무나사용법이복잡하고자세한 Manual이존재하고있지않다. 본보고서에서는 RepeatMasker의설치방법과기본적으로나타나는오류해결방법에대하여알아보고, 간단하게실행하는방법에대해서알아보도록하겠다. RepeatMasker 를실행하기위해서는 repetitive elements consensus sequences 를포함하는 Repeat Library 가필요하다. 현재사용되고있는 Repeat Librarys 는 Repbase Update 라이브러리이다. 해당되는라이브러리는가장상용적으로사용되고있으며, human, rodent( 설치류 ), zebrafish, Drosophila( 초파리 ), Arabidopsis thaliana 의종을포함하고있다. 또한블라스트 (Blast) 가필요하다.
REP - REPEATMASKER - 014, JULY 01 2 기본국소정렬검색도구인 BLAST(the Basic Local Alignment Search Tool, BLAST) 는서열의유사성을밝히 는데가장많이사용되는방법이며, 블라스트프로그램은사용자들이제공한검색대상서열에대하여 NCBI 의 전체데이터베이스를대상으로하여검색을수행한다.RepeatMasker 에대하여간단히요약하면다음과같다. 1. Genome 서열에서 Repetitive Sequence 를 masking 하는프로그램이다. 2. RepeatMasker 를사용하면, HumanGenome 의경우 50% 이상이 masking 된다고합니다. 3. RepBase 라는 Repeat Sequence Database 가필요하며, CrossMatch 프로그램을기반으로제작되었다. 2 설치 본단락에서는 RepeatMasker 의기본적인설치방법에대해서알아보도록하겠다. RepeatMasker 를사용하 려면기본적으로필요한사항은아래와같다. 1. Unix System with perl 5.8.0 or higher installed 2. Sequence Search Engine( Cross Match or WU-Blast ) 3. Repeat Database RepeatMasker를사용하기위해서는위와같이 3가지사항이준비되어있어야한다. 먼저 RepeatMasker 를다운받아서압축을해제하여보자. RepeatMasker 는 www.repeatmasker.org 에서다운받을수있다. 해당홈페이지에서는 online masking 서비스도행하고있다. 하지만온라인서비스는오프라인의 masking 작업과는다르게파일업로드나텍스트입력의양이제한적이다. 먼저 RepeatMasker를다운받아서 unix system기반에 perl 5.8.0이상설치되어있는컴퓨터에압축을해제한다. 본보고서에서는 Neobio및 Pearl컴퓨터에설치하였다. 그림 1을살펴보자. 본그림은 www.repeatmasker.org 에서오프라인용 repeatmasker를다운받는페이지이다. 먼저 Installation에있는 1번메뉴에 Lastest Released Version을다운받는다. 다음과같이명령어를실행한다. [root@neobio Desktop]# mkdir RepeatMasker [root@neobio Desktop]# cd RepeatMasker [root@neobio RepeatMasker]# gunzip *.tar.gz [root@neobio RepeatMasker]# tar -xvf RepeatMasker-open-3-2-8.tar [root@neobio RepeatMasker]# cd RepeatMasker [root@neobio RepeatMasker]# ls 위와같은명령어를실행하고, 맨마지막명령어를실행하면그림 2와같이파일이해제된모습을볼수있다. 이제 RepeatDataBase 파일을다운받아서 RepeatMasker 가설치되어있는 Libraries 폴더밑에압축을해제해야한다. RepeatDataBase 파일은 www.girinst.org 에있으나, 홈페이지에가입을해야만이파일을다운받을수있다. 가입은무료이니가입을하기바란다 ( 승인기간이다소있으므로유의하기바란다 ). www.girinst.org 에서그림 3 와같이 Repbase 항목에 CurrentRelease 서브메뉴에보면 RepeatMasker Libraries가존재한다. 해당파일을 RepeatMasker하위폴더인 Libraries안에압축을해제한다. 명령어를살펴보자.
REP - REPEATMASKER - 014, JULY 01 3 그림 1. www.repeatmasker.org 그림 2. www.repeatmasker.org 에서 RepeatMasker 최신버젼을다운받아압축을해제한 snapshot
REP - REPEATMASKER - 014, JULY 01 4 [root@neobio Libraries]# pwd /root/desktop/repeatmasker/repeatmasker/libraries [root@neobio Libraries]# gunzip *.tar.gz [root@neobio Libraries]# tar -xvf RepeatMasker-open-3-2-8.tar [root@neobio Libraries]# ls RepeatMasker하위폴더인 Libraries에서압축을해제하면해당폴더안에 Libraries가또생긴다. 이중첩된폴더밑에 RepeatDatabase가설치되어있다. 이파일들을상위폴더에전부옮긴다. Libraries폴더에그림 4 와같이 RepeatMaskerLib.embl 파일이있는것을확인한다. 서브프로그램인 TRF(Tandem Repeat Finder) 를그림 1에존재하는링크를참조하여다운받는다. TRF파일을저장할곳은 RepeatMasker폴더에저장한다. 저장된 TRF파일을아래의소스를참조하여파일을변경한다. [root@neobio RepeatMasker]# ln -s trf312.linux.exe trf 마지막으로 Blast를설치해야한다. RepeatMasker에서사용될수있는 Blast는 CrossMatch, WUBlast or ABBlast, Decypher이다. RepeatMasker에서는 Blast가필수적으로필요하기때문에반드시설치해야한다. 본보고서에서는 Blast 로써는 ABBlast 를설치한다. ABBlast 는홈페이지 http://blast.advbiocomp.com/licensing/ 에서 Personal Licensing을받아서사용할수있다. Personal Licensing을요청하면요청사항에기입하였던 E-mail로 ftp접속할수있는링크를받을수있다. 해당 ftp를통하여 ABBlast를받아서 RepeatMasker폴더에복사하여압축을해제한다. 이제 RepeatMasker 를설치하여보자. 설치는 RepeatMasker 폴더에서./configure 를실행한다. 설치화면으로넘어가면설치환경에서는 RepeatMasker, perl, ABBlast, TRF의위치를묻는다. TRF, ABBlast의위치만입력하면된다. 이로써 RepeatMasker 의설치가끝난다. 3 실행시문제점해결방안 앞서우리는 RepeatMasker사용할수있는모든설치를마쳤다. 본단락에서는 RepeatMasker사용방법에대해서알아보고, 사용중에나타나는오류에대해서알아본다. RepeatMasker의기본적인실행방법은다음과같다. RepeatMasker [-options] <seqfiles (s) in fasta format> 먼저 RepeatMasker 의 option 사항에대하여알아본다. 옵션사항은다음과같다. -q Quick search; 5-10\% less sensitive, 2-5 times faster than default -nolow Do not mask low\_complexity DNA or simple repeats -div [number] Mask only those repeats < x percent diverged from consensus seq -species <query species> Specify the species or clade of the input sequence (choose only one!) RepeatMasker에서사용할수있는옵션은위와같이총 4가지가있다. 본보고서에서는여기서 -nolow옵션과 -species 옵션을사용한다. 옵션을제외하고 RepeatMasker 에서 Masking 하기위해서는 fasta format 형태의파일이필요하다. 이파일은 UCSC(http://genome.ucsc.edu/) 에서각 Species 마다 est, mrna 에대하여 fasta형식의파일을제공하고있다. fasta양식은정의행 (definition line) 과서열문자를포함하여다양한분석프로그램에입력용파일을뜻하는것이다. 기본적인파일의형태는다음과같다.
REP - REPEATMASKER - 014, JULY 01 5 그림 3. www.girinst.org 에서 RepeatMasker Libraries 를다운받는다. 그림 4. RepeatMasker 의하위폴더에 RepeatMaskerLib.embl 파일을확인힌다.
REP - REPEATMASKER - 014, JULY 01 6 >AJ399512 1 tgatctacaaataatgttggataatgccaaaatcaacttaaatgaaaaac tatctcaactacagacatatgtgatacaatttgatcagtatattaaagat aattatgatctacatgattttaaactagccgttgctaaaattattgacca aatcattgaaaaattaaaaattctt 예를들어 fasta형식의 mrna파일을 -nolow옵션값으로 masking하고자한다면명령어는다음과같다. Species는 Human이라가정한다. RepeatMasker -nolow -species Human mrna.fa 그림 5. RepeatMasker 실행하면 Snapshot. 순차적으로실행되는모습을확인할수있다. 현재까지의설치를마치고위와같은명령어를실행하면, 그림 5과같이실행될것이다. 하지만예기치못하게아래와같이오류가발생할수도있다. RepeatMasker mushroom_454largecontigs.fasta RepeatMasker version open-3.2.8 Search engine: Crossmatch Storable binary image v2.7 more recent than I am (v2.6) at../../lib/storable.pm (autosplit into../../lib/auto/storable/_retrieve.al) line 328, at /usr/local/genome/repeatmasker/repeatmasker//taxonomy.pm line 214 위와같은소스를참고해보면 Storable의버젼이낮아서정상적으로작동하지않다는것을알수있다. 오류를해결하는방버은현재프롬포트창에서 cpan을입력한다. cpan은리눅스에사용되는모듈을쉽게다운받을수있는프로그램이다. cpan을설치하고. cpan> 창에서 install Storable을입력한다. 그러면프로그램 cpan 을통해서 Storable을설치하고위와같은오류를해결한뒤정상적으로 RepeatMasker가작동될것이다. 오류해결방안을다시한번살펴보겠다.
REP - REPEATMASKER - 014, JULY 01 7 [root@neobio ~]# cpan ( cpan> 으로바뀔때까지 Enter 를입력한다.) cpan>install Storable 4 결론본보고서에서는진행생물의유전체서열중가장많은영역을차지하고있는반복서열의 Masking을수행할수있는 RepeatMasker프로그램의설치및실행방법그리고오류해결에대하여알아보았다. RepeatMasker 의설치방법은의외로간단하였으나, 국내에 Bioinformatics의연구가활발하지않아쉬운설치에도불구하고, 많은실패를겪었다. RepeatMasker의수행방법은 RepeatMasker Database와 ABBlast를통해 Masking를수행한다. 하지만수행방법이유연하지않고스레드를사용하지않아고사양의컴퓨터라도영장류의 est데이터와같이용량이큰데이터의경우무지많은수행시간이걸릴것으로예상된다. est데이터를분해하여여러대의컴퓨터를통해 Masking하는방법과슈퍼컴퓨터를이용하는방법이있겠지만, 전반적으로 RepeatMasker자체의소스개선이이루어져야한다. 참고문헌 1. J. A. Bedell, I. Korf, and W. Gish, MaskerAid : a performance enhancement to RepeatMasker, Bioinformatics, vol. 16, no. 11, pp. 1040 1041, 2000. 2. N. Juretic, T. E. Bureau, and R. M. Bruskiewich, Transposable element annotation of the rice genome, Bioinformatics, vol. 20, no. 2, pp. 155 160, 2004. 3. A. Morgulis, E. M. Gertz, A. A. Schaffer, and R. Agarwala, WindowMasker: window-based masker for sequenced genomes, Bioinformatics, vol. 22, no. 2, pp. 134 141, 2006. 4. U. G. Bioinformatics, http://genome.ucsc.edu/. 5. giri(genetic INSFORMATION RESEARCH INSTITUTE), www.girinst.org. 6. repeatmasker, www.repeatmasker.org.