REP - REPEATMASKER - 014, JULY 01 1 유전자예측프로그램 RepeatMasker 설치와운용 RepeatMasker Installation Manual 정우근 Chung Woo-Keun 부산대학교컴퓨터공학과 A

Similar documents
LXR 설치 및 사용법.doc

Microsoft Word - ntasFrameBuilderInstallGuide2.5.doc

Install stm32cubemx and st-link utility

Microsoft PowerPoint 통신 및 압축 명령어.ppt

슬라이드 1

07Á¤Ã¥¸®Æ÷Æ®-pdf¿ë

200707Á¤Ã¥¸®Æ÷Æ®_³»Áö

184최종

28 THE ASIAN JOURNAL OF TEX [2] ko.tex [5]

108 KOREA INSTITUTE OF LOCAL FINANCE

88 KOREA INSTITUTE OF LOCAL FINANCE

Copyright 2004 Sun Microsystems, Inc Network Circle, Santa Clara, CA U.S.A..,,. Sun. Sun. Berkeley BSD. UNIX X/Open Company, Ltd.. Sun, Su

Chapter 26

untitled

<30352D30312D3120BFB5B9AEB0E8BEE0C0C720C0CCC7D82E687770>

歯mp3사용설명서

PowerPoint 프레젠테이션

Microsoft PowerPoint Android-SDK설치.HelloAndroid(1.0h).pptx

<BACFC7D1B3F3BEF7B5BFC7E22D3133B1C733C8A BFEB2E687770>


1. Windows 설치 (Client 설치 ) 원하는위치에다운받은발송클라이언트압축파일을해제합니다. Step 2. /conf/config.xml 파일수정 conf 폴더에서 config.xml 파일을텍스트에디터를이용하여 Open 합니다. config.xml 파일에서, 아

Microsoft PowerPoint - chap01-C언어개요.pptx

1차내지

PowerChute Personal Edition v3.1.0 에이전트 사용 설명서

Chapter 1

Microsoft PowerPoint - chap02-C프로그램시작하기.pptx

4. Compass 명령어를알아보자. compass <command> [<option>, <option>, <option>.. <option>] command : 명령어. clean - Remove generated files and the sass cache. com

Microsoft Word - Armjtag_문서1.doc

untitled

Secure Programming Lecture1 : Introduction

APOGEE Insight_KR_Base_3P11

Solaris Express Developer Edition

Discrete Mathematics

본문서는 초급자들을 대상으로 최대한 쉽게 작성하였습니다. 본문서에서는 설치방법만 기술했으며 자세한 설정방법은 검색을 통하시기 바랍니다. 1. 설치개요 워드프레스는 블로그 형태의 홈페이지를 빠르게 만들수 있게 해 주는 프로그램입니다. 다양한 기능을 하는 플러그인과 디자인

01Àå

Database Search 편 * Database Explorer 8개의카테고리로구성되어있으며, 데이터베이스의폴더역할을하는 subset ( 혹은 subbase) 을생성하여데이터를조직및관리하게된다. 클릭! DNA/RNA Molecules : feature map의데이터

MAX+plus II Getting Started - 무작정따라하기

Orcad Capture 9.x

Microsoft PowerPoint - [Practice #1] APM InstalI.ppt

EndNote X2 초급 분당차병원도서실사서최근영 ( )

untitled

Line (A) å j a k= i k #define max(a, b) (((a) >= (b))? (a) : (b)) long MaxSubseqSum0(int A[], unsigned Left, unsigned Right) { int Center, i; long Max

Snort Install Manual Ad2m VMware libnet tar.gz DebianOS libpcap tar.gz Putty snort tar.gz WinSCP snort rules 1. 첫번째로네트워크설정 1) ifconf

리눅스설치가이드 3. 3Rabbitz Book 을리눅스에서설치하기위한절차는다음과같습니다. 설치에대한예시는우분투서버 기준으로진행됩니다. 1. Java Development Kit (JDK) 또는 Java Runtime Environment (JRE) 를설치합니다. 2.

슬라이드 1

Microsoft PowerPoint SDK설치.HelloAndroid(1.5h).pptx

1. efolder 시스템구성 A. DB B. apache - mod-perl - PHP C. SphinxSearch ( 검색서비스 ) D. File Storage 2. efolder 설치순서 A. DB (MySQL) B. efolder Service - efolder

Table of contents 1. 구성도 Maxgauge For MySQL 설치정보... 6 설치파일정보... 6 포트정보... 6 주요디렉토리... 6 소프트웨어기동 / 종료... 7 기동... 7 종료 Maxgauge For MySQ

MySQL-.. 1

MySQL-Ch10

System Biology Core

SUR - BIO - 005, APRIL REVIEW ON VisGenome Single and Comparative Genome Browser 정우근 Chung Woo-Keun 부산대학교컴퓨터공학과 ABSTRACT 본보

Microsoft Word ARM_ver2_0a.docx

Observational Determinism for Concurrent Program Security

Copyright 2012, Oracle and/or its affiliates. All rights reserved.,.,,,,,,,,,,,,.,...,. U.S. GOVERNMENT END USERS. Oracle programs, including any oper

PowerPoint 프레젠테이션

K7VT2_QIG_v3

1. 안드로이드개발환경설정 안드로이드개발을위해선툴체인을비롯한다양한소프트웨어패키지가필요합니다 툴체인 (Cross-Compiler) 설치 안드로이드 2.2 프로요부터는소스에기본툴체인이 prebuilt 라는이름으로포함되어있지만, 리눅스 나부트로더 (U-boot)

Microsoft Word - windows server 2003 수동설치_non pro support_.doc

PowerPoint 프레젠테이션

KakaoGame Integrated Guidelines _Open

Dropbox Forensics

NTD36HD Manual

<4D F736F F F696E74202D204D41544C4142B0ADC0C7B7CF28B9E8C6F7BFEB295F3031C0E55FBDC3C0DBC7CFB1E22E BC8A3C8AF20B8F0B5E55D>

The_IDA_Pro_Book

1. What is AX1 AX1 Program은 WIZnet 사의 Hardwired TCP/IP Chip인 iinchip 들의성능평가및 Test를위해제작된 Windows 기반의 PC Program이다. AX1은 Internet을통해 iinchip Evaluation

PowerPoint Template

JDK이클립스

1_기획논단

인켈(국문)pdf.pdf

ORANGE FOR ORACLE V4.0 INSTALLATION GUIDE (Online Upgrade) ORANGE CONFIGURATION ADMIN O

전체설치와사용자지정설치중원하는설치방식을선택합니다. ArcGIS Desktop 설치경로를지정하면설치가짂행됩니다.

PowerPoint Presentation

Tcl의 문법

Oracle Apps Day_SEM

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

manual pdfÃÖÁ¾

슬라이드 1

3. 클라우드 컴퓨팅 상호 운용성 기반의 서비스 평가 방법론 개발.hwp

02À±¼ø¿Á

300 구보학보 12집. 1),,.,,, TV,,.,,,,,,..,...,....,... (recall). 2) 1) 양웅, 김충현, 김태원, 광고표현 수사법에 따른 이해와 선호 효과: 브랜드 인지도와 의미고정의 영향을 중심으로, 광고학연구 18권 2호, 2007 여름

임베디드시스템설계강의자료 4 (2014 년도 1 학기 ) 김영진 아주대학교전자공학과

Windows Server 2012

PowerPoint 프레젠테이션

4S 1차년도 평가 발표자료

SchoolNet튜토리얼.PDF

<4D F736F F D204E47535FC3D6BDC5BBFDB8EDC1A4BAB8C0CCBDB4C1A4B8AE2E646F63>

<C6F7C6AEB6F5B1B3C0E72E687770>

11¹ÚÇý·É

Microsoft PowerPoint - 27.pptx

슬라이드 제목 없음

<30362E20C6EDC1FD2DB0EDBFB5B4EBB4D420BCF6C1A42E687770>

歯AG-MX70P한글매뉴얼.PDF

이 장에서 사용되는 MATLAB 명령어들은 비교적 복잡하므로 MATLAB 창에서 명령어를 직접 입력하지 않고 확장자가 m 인 text 파일을 작성하여 실행을 한다

<B9AEC8ADC4DCC5D9C3F7BFACB1B82D35C8A32833B1B3292E687770>

2002년 2학기 자료구조

개발및운영 Tibero Perl 연동

<4D F736F F D20B1B9B0A1BAB020BEC6C0CCC7C720C2F7B4DC20B0A1C0CCB5E5>

정보기술응용학회 발표

Studuino소프트웨어 설치

Transcription:

REP - REPEATMASKER - 014, JULY 01 1 유전자예측프로그램 RepeatMasker 설치와운용 RepeatMasker Installation Manual 정우근 Chung Woo-Keun 부산대학교컴퓨터공학과 wkchung@pusan.ac.kr ABSTRACT 진핵생물의유전체서열중반복서열이가장많은영역을차지하고있다. Transposon elements 를포함하여 simple repeat region, low complexity 영역이전체유전체의약 70 80% 가량해당된다. 따라서반복서열영역을우선적으로선별한뒤마스킹작업을통해반복서열영역에서의유전자예측은예외로처리한다. 물론, 반복서열영역내에도단백질로코딩되는부분이존재하지만, 극히일부에해당하기때문에추후에따로수행한다. 본보고서에서는진핵생물의유전체서열중가장많은영역을차지않고있는반복서열의마스킹작업을진행할수있는 RepeatMasker 의설치방법과간단한실행방법에대해알아보기로한다. RepeatMasker 는유사성기반의검색을통해반복서열데이터베이스에존재하는서열과비교하여유전체내에존재하는 transposon element 와 retrotransposon element, rolling circles 를추출하고, TRF(Tandem Repeat Finder) 라는서브프로그램에의해단순반복서열을규명한다. KEYWORDS RepeatMasker 1 서론 RepeatMasker 는 low-complexity sequence 와 interspersed repeats 를포함하는 Genomics 데이터를규명, 분류그리고반복적인요소들을 Masking하기위해널리사용되는툴이다. RepeatMasker는 Nucleotide sequences 에있는 repetitive elements 를 annotation, identify 및 Masking 하기위해만들어졌다. RepeatMasker 는 low-complexity DNA sequences 와 interspersed repeats 를포함하는 repetitive elements 를 annotation 하고 DNA sequence와연관되는데이터값들을소문자로변환하거나 Ns, Xs로변환한다. 소문자로변환하는것은 Soft Masking이라하고, x로바꾸는것은 Hard masking이라고한다. 최근 RepeatMasker에대하여많은논문들이비슷한종류에뛰어난성능을보이는툴도선보이고있다. Bedell2000 [1] 는 RepeatMasker의성능을강화하기위해만든것으로 RepeatMasker에서꼭필요로존재하는 Blast와같은프로그램이다. WU-Blast와 MaskerAid의성능을분석하였다. 이논문에서는 MaskerAid의성능이정말뛰어난것으로나왔다. Juretic [2] 에서는 HMMER이라는것과 RepeatMasker에대한성능분석한부분이있지만, HMMER Long Sequences에대한처리는불가능한것으로나타났다. Morgulis [3] 에서는 RepeatMasker보다더뛰어난성능을보이는 WindowMasker가소개되었으나, 너무나사용법이복잡하고자세한 Manual이존재하고있지않다. 본보고서에서는 RepeatMasker의설치방법과기본적으로나타나는오류해결방법에대하여알아보고, 간단하게실행하는방법에대해서알아보도록하겠다. RepeatMasker 를실행하기위해서는 repetitive elements consensus sequences 를포함하는 Repeat Library 가필요하다. 현재사용되고있는 Repeat Librarys 는 Repbase Update 라이브러리이다. 해당되는라이브러리는가장상용적으로사용되고있으며, human, rodent( 설치류 ), zebrafish, Drosophila( 초파리 ), Arabidopsis thaliana 의종을포함하고있다. 또한블라스트 (Blast) 가필요하다.

REP - REPEATMASKER - 014, JULY 01 2 기본국소정렬검색도구인 BLAST(the Basic Local Alignment Search Tool, BLAST) 는서열의유사성을밝히 는데가장많이사용되는방법이며, 블라스트프로그램은사용자들이제공한검색대상서열에대하여 NCBI 의 전체데이터베이스를대상으로하여검색을수행한다.RepeatMasker 에대하여간단히요약하면다음과같다. 1. Genome 서열에서 Repetitive Sequence 를 masking 하는프로그램이다. 2. RepeatMasker 를사용하면, HumanGenome 의경우 50% 이상이 masking 된다고합니다. 3. RepBase 라는 Repeat Sequence Database 가필요하며, CrossMatch 프로그램을기반으로제작되었다. 2 설치 본단락에서는 RepeatMasker 의기본적인설치방법에대해서알아보도록하겠다. RepeatMasker 를사용하 려면기본적으로필요한사항은아래와같다. 1. Unix System with perl 5.8.0 or higher installed 2. Sequence Search Engine( Cross Match or WU-Blast ) 3. Repeat Database RepeatMasker를사용하기위해서는위와같이 3가지사항이준비되어있어야한다. 먼저 RepeatMasker 를다운받아서압축을해제하여보자. RepeatMasker 는 www.repeatmasker.org 에서다운받을수있다. 해당홈페이지에서는 online masking 서비스도행하고있다. 하지만온라인서비스는오프라인의 masking 작업과는다르게파일업로드나텍스트입력의양이제한적이다. 먼저 RepeatMasker를다운받아서 unix system기반에 perl 5.8.0이상설치되어있는컴퓨터에압축을해제한다. 본보고서에서는 Neobio및 Pearl컴퓨터에설치하였다. 그림 1을살펴보자. 본그림은 www.repeatmasker.org 에서오프라인용 repeatmasker를다운받는페이지이다. 먼저 Installation에있는 1번메뉴에 Lastest Released Version을다운받는다. 다음과같이명령어를실행한다. [root@neobio Desktop]# mkdir RepeatMasker [root@neobio Desktop]# cd RepeatMasker [root@neobio RepeatMasker]# gunzip *.tar.gz [root@neobio RepeatMasker]# tar -xvf RepeatMasker-open-3-2-8.tar [root@neobio RepeatMasker]# cd RepeatMasker [root@neobio RepeatMasker]# ls 위와같은명령어를실행하고, 맨마지막명령어를실행하면그림 2와같이파일이해제된모습을볼수있다. 이제 RepeatDataBase 파일을다운받아서 RepeatMasker 가설치되어있는 Libraries 폴더밑에압축을해제해야한다. RepeatDataBase 파일은 www.girinst.org 에있으나, 홈페이지에가입을해야만이파일을다운받을수있다. 가입은무료이니가입을하기바란다 ( 승인기간이다소있으므로유의하기바란다 ). www.girinst.org 에서그림 3 와같이 Repbase 항목에 CurrentRelease 서브메뉴에보면 RepeatMasker Libraries가존재한다. 해당파일을 RepeatMasker하위폴더인 Libraries안에압축을해제한다. 명령어를살펴보자.

REP - REPEATMASKER - 014, JULY 01 3 그림 1. www.repeatmasker.org 그림 2. www.repeatmasker.org 에서 RepeatMasker 최신버젼을다운받아압축을해제한 snapshot

REP - REPEATMASKER - 014, JULY 01 4 [root@neobio Libraries]# pwd /root/desktop/repeatmasker/repeatmasker/libraries [root@neobio Libraries]# gunzip *.tar.gz [root@neobio Libraries]# tar -xvf RepeatMasker-open-3-2-8.tar [root@neobio Libraries]# ls RepeatMasker하위폴더인 Libraries에서압축을해제하면해당폴더안에 Libraries가또생긴다. 이중첩된폴더밑에 RepeatDatabase가설치되어있다. 이파일들을상위폴더에전부옮긴다. Libraries폴더에그림 4 와같이 RepeatMaskerLib.embl 파일이있는것을확인한다. 서브프로그램인 TRF(Tandem Repeat Finder) 를그림 1에존재하는링크를참조하여다운받는다. TRF파일을저장할곳은 RepeatMasker폴더에저장한다. 저장된 TRF파일을아래의소스를참조하여파일을변경한다. [root@neobio RepeatMasker]# ln -s trf312.linux.exe trf 마지막으로 Blast를설치해야한다. RepeatMasker에서사용될수있는 Blast는 CrossMatch, WUBlast or ABBlast, Decypher이다. RepeatMasker에서는 Blast가필수적으로필요하기때문에반드시설치해야한다. 본보고서에서는 Blast 로써는 ABBlast 를설치한다. ABBlast 는홈페이지 http://blast.advbiocomp.com/licensing/ 에서 Personal Licensing을받아서사용할수있다. Personal Licensing을요청하면요청사항에기입하였던 E-mail로 ftp접속할수있는링크를받을수있다. 해당 ftp를통하여 ABBlast를받아서 RepeatMasker폴더에복사하여압축을해제한다. 이제 RepeatMasker 를설치하여보자. 설치는 RepeatMasker 폴더에서./configure 를실행한다. 설치화면으로넘어가면설치환경에서는 RepeatMasker, perl, ABBlast, TRF의위치를묻는다. TRF, ABBlast의위치만입력하면된다. 이로써 RepeatMasker 의설치가끝난다. 3 실행시문제점해결방안 앞서우리는 RepeatMasker사용할수있는모든설치를마쳤다. 본단락에서는 RepeatMasker사용방법에대해서알아보고, 사용중에나타나는오류에대해서알아본다. RepeatMasker의기본적인실행방법은다음과같다. RepeatMasker [-options] <seqfiles (s) in fasta format> 먼저 RepeatMasker 의 option 사항에대하여알아본다. 옵션사항은다음과같다. -q Quick search; 5-10\% less sensitive, 2-5 times faster than default -nolow Do not mask low\_complexity DNA or simple repeats -div [number] Mask only those repeats < x percent diverged from consensus seq -species <query species> Specify the species or clade of the input sequence (choose only one!) RepeatMasker에서사용할수있는옵션은위와같이총 4가지가있다. 본보고서에서는여기서 -nolow옵션과 -species 옵션을사용한다. 옵션을제외하고 RepeatMasker 에서 Masking 하기위해서는 fasta format 형태의파일이필요하다. 이파일은 UCSC(http://genome.ucsc.edu/) 에서각 Species 마다 est, mrna 에대하여 fasta형식의파일을제공하고있다. fasta양식은정의행 (definition line) 과서열문자를포함하여다양한분석프로그램에입력용파일을뜻하는것이다. 기본적인파일의형태는다음과같다.

REP - REPEATMASKER - 014, JULY 01 5 그림 3. www.girinst.org 에서 RepeatMasker Libraries 를다운받는다. 그림 4. RepeatMasker 의하위폴더에 RepeatMaskerLib.embl 파일을확인힌다.

REP - REPEATMASKER - 014, JULY 01 6 >AJ399512 1 tgatctacaaataatgttggataatgccaaaatcaacttaaatgaaaaac tatctcaactacagacatatgtgatacaatttgatcagtatattaaagat aattatgatctacatgattttaaactagccgttgctaaaattattgacca aatcattgaaaaattaaaaattctt 예를들어 fasta형식의 mrna파일을 -nolow옵션값으로 masking하고자한다면명령어는다음과같다. Species는 Human이라가정한다. RepeatMasker -nolow -species Human mrna.fa 그림 5. RepeatMasker 실행하면 Snapshot. 순차적으로실행되는모습을확인할수있다. 현재까지의설치를마치고위와같은명령어를실행하면, 그림 5과같이실행될것이다. 하지만예기치못하게아래와같이오류가발생할수도있다. RepeatMasker mushroom_454largecontigs.fasta RepeatMasker version open-3.2.8 Search engine: Crossmatch Storable binary image v2.7 more recent than I am (v2.6) at../../lib/storable.pm (autosplit into../../lib/auto/storable/_retrieve.al) line 328, at /usr/local/genome/repeatmasker/repeatmasker//taxonomy.pm line 214 위와같은소스를참고해보면 Storable의버젼이낮아서정상적으로작동하지않다는것을알수있다. 오류를해결하는방버은현재프롬포트창에서 cpan을입력한다. cpan은리눅스에사용되는모듈을쉽게다운받을수있는프로그램이다. cpan을설치하고. cpan> 창에서 install Storable을입력한다. 그러면프로그램 cpan 을통해서 Storable을설치하고위와같은오류를해결한뒤정상적으로 RepeatMasker가작동될것이다. 오류해결방안을다시한번살펴보겠다.

REP - REPEATMASKER - 014, JULY 01 7 [root@neobio ~]# cpan ( cpan> 으로바뀔때까지 Enter 를입력한다.) cpan>install Storable 4 결론본보고서에서는진행생물의유전체서열중가장많은영역을차지하고있는반복서열의 Masking을수행할수있는 RepeatMasker프로그램의설치및실행방법그리고오류해결에대하여알아보았다. RepeatMasker 의설치방법은의외로간단하였으나, 국내에 Bioinformatics의연구가활발하지않아쉬운설치에도불구하고, 많은실패를겪었다. RepeatMasker의수행방법은 RepeatMasker Database와 ABBlast를통해 Masking를수행한다. 하지만수행방법이유연하지않고스레드를사용하지않아고사양의컴퓨터라도영장류의 est데이터와같이용량이큰데이터의경우무지많은수행시간이걸릴것으로예상된다. est데이터를분해하여여러대의컴퓨터를통해 Masking하는방법과슈퍼컴퓨터를이용하는방법이있겠지만, 전반적으로 RepeatMasker자체의소스개선이이루어져야한다. 참고문헌 1. J. A. Bedell, I. Korf, and W. Gish, MaskerAid : a performance enhancement to RepeatMasker, Bioinformatics, vol. 16, no. 11, pp. 1040 1041, 2000. 2. N. Juretic, T. E. Bureau, and R. M. Bruskiewich, Transposable element annotation of the rice genome, Bioinformatics, vol. 20, no. 2, pp. 155 160, 2004. 3. A. Morgulis, E. M. Gertz, A. A. Schaffer, and R. Agarwala, WindowMasker: window-based masker for sequenced genomes, Bioinformatics, vol. 22, no. 2, pp. 134 141, 2006. 4. U. G. Bioinformatics, http://genome.ucsc.edu/. 5. giri(genetic INSFORMATION RESEARCH INSTITUTE), www.girinst.org. 6. repeatmasker, www.repeatmasker.org.