생물정보학및 RNA-Sequence 매핑도구소개 Introduction of Bioinformatics & RNA-Sequence Mapping Tools 권대건 부산대학교컴퓨터공학과 Abstract Frederick Sanger 에의

Similar documents
발생하는오류로인해실제유전정보를이용하기에는많은제약이따르기때문에, 실제염기서열데이터를이용하여매핑도구들의정확한성능평가를한다는것은사실상불가능하다. 이러한매핑도구의성능을평가하기위해대부분의논문에서가상의리드서열을생성하는시뮬레이터를사용하고있으며이로인해염기서열을분석하는데있어서매핑도구뿐

학습목차 2.1 다차원배열이란 차원배열의주소와값의참조

뉴스레터6호F?2??訝

PowerPoint 프레젠테이션

강의 개요

PowerPoint Presentation

<4D F736F F F696E74202D20B1E8BCB120B1B3BCF6B4D420B0ADBFACC0DAB7E1>

04 Çмú_±â¼ú±â»ç

<322EBCF8C8AF28BFACBDC0B9AEC1A6292E687770>

SMARTer Sequencing Kits for Next Generation Sequencing

비트와바이트 비트와바이트 비트 (Bit) : 2진수값하나 (0 또는 1) 를저장할수있는최소메모리공간 1비트 2비트 3비트... n비트 2^1 = 2개 2^2 = 4개 2^3 = 8개... 2^n 개 1 바이트는 8 비트 2 2

160106_STEPI_Insight_179호(정기철,김석관_외)rp.hwp

Observational Determinism for Concurrent Program Security

Microsoft PowerPoint - chap06-1Array.ppt

2017 년 6 월한국소프트웨어감정평가학회논문지제 13 권제 1 호 Abstract

<BACFC7D1B3F3BEF7B5BFC7E22D3133B1C733C8A BFEB2E687770>


금오공대 컴퓨터공학전공 강의자료

설계란 무엇인가?

JAVA 프로그래밍실습 실습 1) 실습목표 - 메소드개념이해하기 - 매개변수이해하기 - 새메소드만들기 - Math 클래스의기존메소드이용하기 ( ) 문제 - 직사각형모양의땅이있다. 이땅의둘레, 면적과대각

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

쉽게배우는알고리즘 6장. 해시테이블 테이블 Hash Table

Microsoft Word - NAT_1_.doc

WES 기반 SNV/small indel 발굴및분석파이프라인 서울대학교생명과학부 백대현교수 1

쉽게배우는알고리즘 10장. 문자열매칭

chap 5: Trees

Microsoft PowerPoint - chap02-C프로그램시작하기.pptx

Microsoft PowerPoint - 30.ppt [호환 모드]

Microsoft PowerPoint - ch09 - 연결형리스트, Stack, Queue와 응용 pm0100

Microsoft PowerPoint - 27.pptx

Chapter 4. LISTS

슬라이드 1

REP - REPEATMASKER - 014, JULY 01 1 유전자예측프로그램 RepeatMasker 설치와운용 RepeatMasker Installation Manual 정우근 Chung Woo-Keun 부산대학교컴퓨터공학과 A

강의 개요

Microsoft PowerPoint - 26.pptx

USER GUIDE

Microsoft Word - PLC제어응용-2차시.doc

InsertColumnNonNullableError(#colName) 에해당하는메시지출력 존재하지않는컬럼에값을삽입하려고할경우, InsertColumnExistenceError(#colName) 에해당하는메시지출력 실행결과가 primary key 제약에위배된다면, Ins

Chap 6: Graphs

Data Sync Manager(DSM) Example Guide Data Sync Manager (DSM) Example Guide DSM Copyright 2003 Ari System, Inc. All Rights reserved. Data Sync Manager

Microsoft PowerPoint - chap03-변수와데이터형.pptx

4. 결론 1. 서론 휴먼게놈프로젝트이후에, 복잡한생물학적궁금증을해소할수있는개선된시퀀싱기술의필요성이대두되어왔으나시퀀싱의비싼가격과처리양의한계는기술의실용화에크나큰장벽으로평가되었다. 지난 10년간이루어진비약적인차세대시퀀싱기술의발전은단일샘플에서읽을수있는 DNA의기본쌍의수 (r

프로그래밍개론및실습 2015 년 2 학기프로그래밍개론및실습과목으로본내용은강의교재인생능출판사, 두근두근 C 언어수업, 천인국지음을발췌수정하였음

2002년 2학기 자료구조

Microsoft PowerPoint - ch07 - 포인터 pm0415

WINDOW FUNCTION 의이해와활용방법 엑셈컨설팅본부 / DB 컨설팅팀정동기 개요 Window Function 이란행과행간의관계를쉽게정의할수있도록만든함수이다. 윈도우함수를활용하면복잡한 SQL 들을하나의 SQL 문장으로변경할수있으며반복적으로 ACCESS 하는비효율역

PowerPoint Presentation

PowerPoint Template

09권오설_ok.hwp

주간 건강과 질병 제8권 제22호 Figure 1. The total size of the sequence read archive (SRA) database of the National Center for Biotechnology Information (NCBI) is

Microsoft Word - [2017SMA][T8]OOPT_Stage_2040 ver2.docx

Microsoft PowerPoint - chap06-2pointer.ppt

C++ Programming

Microsoft PowerPoint - o8.pptx

Microsoft PowerPoint - ch00 - Introduction to Programming Language Lecture

KNK_C_05_Pointers_Arrays_structures_summary_v02

<B3EDB4DC28B1E8BCAEC7F6292E687770>

02장.배열과 클래스

11장 포인터

<4D F736F F D204E47535FC3D6BDC5BBFDB8EDC1A4BAB8C0CCBDB4C1A4B8AE2E646F63>

adfasdfasfdasfasfadf

설계란 무엇인가?

Chapter 4. LISTS

암유전체에서차세대시퀀싱기반의 DNA 카피수변화발굴을위한 SOP (Standard Operating Protocols for Identification of NGS-Based DNA Copy Number Alterations in Cancer Genomes) 1

목차 포인터의개요 배열과포인터 포인터의구조 실무응용예제 C 2

금오공대 컴퓨터공학전공 강의자료

Frama-C/JESSIS 사용법 소개

02 C h a p t e r Java

Microsoft Word _1

Chapter 26

Microsoft PowerPoint - 3ÀÏ°_º¯¼ö¿Í »ó¼ö.ppt

intro

untitled

DBPIA-NURIMEDIA

14장.탐색

(지도6)_(7단원 202~221)

Chapter 6. Nucleotides and Nucleic Acids 세포대사에서뉴클레오타이드 (nucleotide) 의기능은무엇인가? Objective 유전체학 (genomics) 과단백체학 (proteomics) 기본개념이해 재조합 DNA 기술 (recombin

Microsoft PowerPoint - 알고리즘_5주차_1차시.pptx

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

Ver.0 (KR) Next Generation Sequencing Service Bioneer Corporation is Korea s leading biotech company. Bioneer is the first Korean biotechnolo

주간건강과질병 제 10 권제 44 호 연구단신, Brief report 병원체염기서열생산을위한라이브러리제작기법소개 질병관리본부국립보건연구원생물안전평가과양효진, 최현정, 채희열, 강연호 * * 교신저자 : Librar

<3235B0AD20BCF6BFADC0C720B1D8C7D120C2FC20B0C5C1FE20322E687770>

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

¹ÙÀÌ¿À´Ï¾È½º03

Analysis 1 : NGS Quality Control QC 과정은다음의총 12 단계로짂행되며, 각단계마다의의미와분석방법, 결과해석및 NGS 분석외의타 galaxy 의유용핚기능 에대해서설명될것입니다. 1. fastq 데이터를 galaxy 에로드하고업로드된데이터에대핚

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

Microsoft PowerPoint - chap05-제어문.pptx

PowerPoint Presentation

목차 BUG offline replicator 에서유효하지않은로그를읽을경우비정상종료할수있다... 3 BUG 각 partition 이서로다른 tablespace 를가지고, column type 이 CLOB 이며, 해당 table 을 truncate

Korean J Leg Med 2014;38: 원 저 차세대염기서열분석법을이용한 15 개상염색체 STR 의염기서열생성및유전자형분석 김은혜 1, 2 정상은 1 신경진 1, 2 양우익

<4D F736F F F696E74202D2035BBF3C6F2C7FC5FBCF8BCF6B9B0C1FA2E BC8A3C8AF20B8F0B5E55D>


hwp

<C6F7C6AEB6F5B1B3C0E72E687770>

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

BY-FDP-4-70.hwp

Microsoft PowerPoint 상 교류 회로

MVVM 패턴의 이해

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Transcription:

생물정보학및 RNA-Sequence 매핑도구소개 Introduction of Bioinformatics & RNA-Sequence Mapping Tools 권대건 부산대학교컴퓨터공학과 duskan@pusan.ac.kr Abstract Frederick Sanger 에의해서시퀀싱기술이개발된이후오래동안시퀀싱과관련된연구가계속되었고 2003 년에는 13 년간의연구끝에한성인남성한명의 genome 을분석하기도하였다. 이후 2007 년유전자서열을분석하는 NGS(Next Genaration Sequencing) 분야가생기고꾸준히발달하게되면서유전자서열을분석하기위한수많은기술이발달하였다. NGS 분야의발달로 DNA, RNA 염기서열데이터가증가하게되었고, 늘어난데이터를분석하기위해유전자서열분석에관한수많은연구가진행되었다. 현재컴퓨터를이용한수많은염기서열분석방법에대한연구가활발히진행되었으나아직염기서열의많은부분이미지의영역으로남아있으며염기서열에대한새로발견되는부분과, 미지의부분으로남아있는염기서열을분석하기위한도구의개발은여전히필요하다. 본보고서에서는앞서언급한 NGS 분야에대해설명하고현재발표된분석도구에서가장기본이되는부분인 BWT(Burrows Wheeler Transform) 알고리즘을응용한방법과해시테이블을이용한매핑방법을 BWT 기반의분석도구인 Bowtie 와해시태이블기반의분석도구인 mrfast 의예를통해설명하고이후연구방향에대해논의하고자한다. Keywords: Burrows-Wheeler Transform, Hash Table, Next Generation Sequencing 1 Next Generatrion Sequencing 소개 NGS(Next Generation Sequencing) 는 2007년유전자서열을분석하는대표적인회사인 Sanger 사와 Illumina사가합병되면서사용되기시작한용어이다. 세계적으로큰관심을불러일으켰던 2004년인간게놈프로젝트 (Human Genome Project) 의종료선언이후개인의유전자정보를얻기위한연구는계속되었으며 Sanger방법을이용하여 2007년에처음으로개인의유전지도정보를얻을수있었다. 이후 2008년에는 FLX 454를이용하여 2007년에발표한개인유전자지도의 1% 의비용으로염기서열을분석이가능해졌다. 이후에도저비용으로염기서열지도를생성하는방법에대한연구는계속되었고현재에는인터넷을통해대량의유전자정보를쉽게접할수있게되었다. 염기서열정보량이급증하고대량의데이터로부터기존에알수없던여러가지 1

염기서열의특징을발견하게되면서 NGS에서는쏟아지는데이터를분석하기위한도구가필요하게되었다. SNP(Single Nucleotide Polymorphism), MNP(Multi Nucleotide Polymorphism), Indel(Insertion and Deletion) 등과같은수많은유전체변이를발견하였고이러한유전적변이를분석하기위해많은연구가진행되고있다. 하지만염기서열을장치로부터읽어들이는과정에서오류가발생할수있으며, 앞에서언급한변이현상에대한연구도부족한부분이존재하므로염기서열을읽고분석하는데에는많은연구가필요하다. 본보고서에서는이러한분석도구의연구에앞서분석도구에사용되는대표적인알고리즘인 BWT와해시테이블기반알고리즘에대해현재발표된도구를예로들어기존에발표된알고리즘에대해소개한다. 이후 BWT와해시테이블기반알고리즘으로동작하는여러매핑도구를비교분석하도록한다. 2 매핑알고리즘 2.1 Burrows-Wheeler Transform 기반알고리즘 BWT(Burrows-Wheeler Transform)[1] 알고리즘은 1994년 Burrows와 Wheeler가처음제안한방법으로 BWT를이용하여 BW Matrix을생성성하고 BW Matrix를 SuffixArray, FM-indexing과같이응용하여리드와매칭이되는지확인한다. Bowtie, BWA, Bowtie2와같은가장대표적인분석도구역시이러한 BWT 알고리즘을이용한도구이다. 본논문에서는 BWT 기반의매핑도구인 Bowtie 매핑도구를예로들어 BWT알고리즘과 Bowtie[2] 에서 BWT를활용한매핑과정을설명한다. 2.1.1 BW Matrix 0 BWT를수행하기위해서는원본서열을이용하여정렬된 rotation Matrix을만들어야한다. 본논문에서는이를 BW Matrix이라고정의한다. BW Matrix을만드는과정은아래와같이진행된다. 1) 그림 1의 a에서처럼먼저 Suffixes Matrix을만든다. 시작과끝을구분하기위해맨앞에원본서열맨앞에 $ 기호를표시하고모든접미사서열을만든다. 이때접미사서열은접미사를쓰고뒤에원본서열에서남은부분을쓰도록한다. 이렇게만들어진접미사서열은 Matrix 형태로저장한다. 2) 접미사 Matrix에서첫번째행을기준으로오름차순으로 Sorting 한다. 만약첫글자가같은경우짧은접미사를가지는경우에우선순위를둔다. 이렇게만들어진 Matrix를 BW Matrix 이라고한다. 3) BW Matrix을저장할때에는 BW Matrix의처음행과끝행만저장한다. 처음행과끝행만가지고있으면전체원본서열을복구할수있다. 2

그림 1: BWT(Burrows Wheeler Transform) 에서 BW Matrix 생성과정 이렇게만들어진 BW Matrix은특이한성질을가지고있는데 BW Matrix 마지막행에서 i번째로등장하는문자는 BW Matrix의첫번째행에서 i번째로등장하는문자와동일한문자이다. 즉그림 1의 b에서 4열마지막행의 G는마지막행에서 2번째로등장하는문자이므로첫행에서두번째로나타나는 G인 6열의 G와동일하다는점이다. 이러한 BW Matrix의특징때문에맨처음행과맨마지막행정보만가지고있어도전체 Sequence를추출할수있으며, 이론적으로 O(n) 의시간안에검색이가능하다. 2.1.2 Burrows-Wheeler Transform 매칭 - bowtie 그림 2은 BWT의가장대표적인도구인 Bowtie에서사용되는매칭방법을나타낸것으로저장된 BW Matrix를이용하여원본서열인 AGCTCAT 에서리드조각인 TCA 를찾는과정을보여준다. 매칭방법은다음과같이진행된다. 1) 리드서열의맨마지막글자 A 로시작하는열을찾는다. 2) 찾은열의맨마지막행의글자가 n-1번째글자즉 C 인지확인한다. 3) 확인이완료되면, 첫번째행에서 n-1번째글자와동일한글자를찾는다. 4) 모든글자에대해매칭이완료될때까지위 1 3과정을반복한다. 모든글자에매칭될때까지위과정을반복함으로써정확하게매칭이됨을확인할수있다. 3

그림 2: Bowtie 에서 BW Matrix 를이용한매칭과정 실제 Bowtie 도구에서는 BW Matrix 에각행에참조서열에대한위치정보를추가하여어느곳에 정확히매핑되는지도확인가능하다. 2.1.3 에러율을고려한매칭리드는리드서열을읽는과정에서오류가발생하거나, mrna 생성과정에서자연적으로변이가일어날수있으므로리드에는약간의오류가존재한다. 이럴경우 mrna로부터읽어온리드임에도참조서열에매칭되지않는경우가발생하기도한다. 이렇기때문에 Bowtie를포함안여러매핑도구는사용자가필요한경우입력한값에따라리드를매핑할때약간의오류율의고려하여수행할수있어야한다. Bowtie에서는여러가지에러들중 Subtitution( 치환 ) 에대해서만고려하여수행된다. 매핑수행도중정확히매칭되는서열이없는경우가발생하면 Bowtie는해당리드의각각의글자에대해스코어를계산하여가장낮은스코어를가지는글자를남은세개의글자로변환하면서매칭되는문자열이있는지확인한다. 만약하나를치환하였을때매칭이된다면이를 1-error match 라고한다. Bowtie이외에 BWT기반도구중에는에러의가능성이있는리드를매핑할때 Subtitution이외에도 Indel,Gap을고려하는도구들도있다. 2.2 해시기반알고리즘해시기반알고리즘은참조서열을 k-mer과같이분할한후해시테이블에분할한서열을키값으로하여해당서열의위치를저장한다. 이후매핑과정을수행할때에리드역시 k-mer로나누어해시테이블을통해비교한다. 해시기반도구의경우이론적으로는한번해시테이블을생성하고나면이후에는 O(1) 의수행시간만에리드를매핑하는것이가능하지만실제도구에서는 4

Collision과리드의에러율에대해고려해야하므로 O(1) 의시간내에수행하기는것은약간어렵다. 그러므로해시기반도구는앞의두가지문제점을해결하는방법에따라알고리즘과도구의성능에서차이가발생한다. 본논문에서는여러해시기반도구중 mrfast[3] 의알고리즘에대해분석한다. 2.2.1 해시기반알고리즘 - mrfast mrfast에서는참조서열과리드를 k-mer 로분할하여매칭을수행한다. mrfast에서는매핑과정을수행하기에앞서참조서열을읽어그림3에서와같이해시테이블을생성한다. 해시테이블의키값은 k-mer에서나올수있는모든경우의수를키로설정하며, 값에는키에해당되는염기서열조각의참조서열에서의위치를저장한다. 리드의크기는적게는 100pb부터많게는 1kbp 까지매우다양한길이의리드가나타나는데,Collison을방지하기위해매우긴길이의키값을가지도록해시테이블을구성하기에는현재하드웨어의메모리의한계로인해해시테이블이제대로생성할수없다. 이러한점때문에 mrfast에서는작은길이의키를설정되어있으며어쩔수없이많은 Collision이생기게된다. mrfast에서는그림3에서처럼 list형태로값을저장하여 Collision 이발생하는문제를해결하였다. 2.2.2 매핑과정 리드서열을매핑하기위해다음과같은과정을거친다. 1) 리드서열을해시테이블의키값의길이만큼 k-mer로나눈다. 2) 나누어진서열을해시테이블에대입하여입력한리드조각에대해매핑가능성이있는후보위치리스트들을받아온다. 3) 후보리스트에있는위치가올바른위치인지 seed-and-extend 방식을이용하여검증하고검증에통과한위치정보를매핑결과로출력한다. 다시말해서리드들을 k-mer로자른후해시테이블에대입하여대략적인위치정보리스트를받는다. 이후 seed-and-extend를통해해당위치의앞뒤의염기서열들이리드와일치하는지확인하고일치한다면매핑결과로출력하게된다. 이때후보위치들이많아검증시간이매우길어지기때문에 mrfast에서는 AF를이용하여검증전에전처리작업을통해가능성이없는후보위치들을제거함으로써속도를향상시켰다. 5

그림 3: 해시테이블을이용한 mrfast Indexing 2.2.3 Adjacency Filtering AF는 리드에서자른리드조각들은참조서열에도가까이있을것이다 라는가정하에가능성이낮은리드조각을사전에제거하는방법이다. 그림 4의 a에서처럼리드를조각으로나누게되면이조각들이참조서열에서도비슷한곳에위치하게된다. k=12 일때 324, 459, 535 와같이떨어진경우같은리드라고보기는어렵다. mrfast에서는 AF필터링을통해위와같이검증하기전에미리제거가능한부분을제거하여도구의성능을증가시켰다. 2.2.4 에러율을고려한매핑해시태이블기반알고리즘의경우시퀀스중한개의에러만발생하더라도해시값이전혀다른값으로출력되기때문에 error를찾기힘들다. mrfast에서는허용가능한 edit distance e를두고 e+1개의리드조각에대해 seed-and-extend방식을이용하여검증함으로써매핑되는위치를찾는다. 만약하나의리드에 2개의 e를허용한다고할때 3개의리드조각에대해서검증하면 2개의리드조각이에러를가지고있더라도나머지하나는원래매핑되어야할위치에매핑된다. 이때 CKS(Cheep K-mer Selection) 알고리즘 [4] 을이용하여에러가발생한경우에대한검증과정을최소화하였다. 그림 4의 b에서보면 e = 1일때최소 2개의리드조각에대해검증해야하는데, 이때 1,3번째리드를검증하게되면 1004번의검증을거쳐야하지만가장저비용이드는 1,2번째리드조각을검색하면 6번만검증과정을거치면된다. 즉상대적으로적게매핑된리드조각을선정하여수행함으로써보다빠르게매핑이가능하다. mrfast에서는앞에서설명한것처럼 CKS 알고리즘을이용하여도구의성능을증가시켰다. 6

그림 4: (a)af(adjacency Filtering 에서인접서열선택과정과 (b)cks(cheep K-mer Selection) 에서 Cheep K-mer 를찾기위한과정 3 Burrows-Wheeler Transform 과해시테이블을이용한매핑도구 위에서언급한 Bowtie, mrfast 이외에도표 1 과같이 BWT 와해시테이블을이용한많은매핑 도구가존재한다. 앞에서언급하지못한다른도구들을간단히소개하고이도구들의장단점을 분석하고자한다. 3.1 Burrows-Wheeler Transform을이용한매핑도구 3.1.1 BWA BWA[5] 는 BWT와접미사배열을이용하여정렬을수행하는알고리즘이다. BWT변환에의해생성된 BW-Matrix의접미사가 SA(Surffix Array) 의어느구간에해당하는지알면, BW-Matrix 의매핑결과로 SA구간을찾음으로써원본서열에서의위치를알수있다. BWA는 subtitutioin 뿐만아니라 indel에대해서도 mismatch를수행한다. 백트래킹을통해 mismatch를수행하는데, 이론적으로는 BWA를이용하여모든 k-mismatch를찾을수있으나비용이매우커지므로제한된범위내에서 k-mismatch를수행한다. 3.1.2 SOAP2 SOAP2[6] 는매핑속도에중점을둔 BWT기반도구이다. 전체적인진행과정은 BWA와유사하지만, 속도를올리기위해최대 2개의 mismath만허용한다. 즉탐색도중더이상탐색이불가능한구간에도달하면그위치의문자를다른문자로 subtitution하여수행한다. SOPA2는매우빠른속도를보이지만, mismatch수가제한적이며 error가많을경우속도가저하된다. 7

표 1: 알고리즘별매핑도구특징정리 기반알고리즘 매핑도구 특징 Bowtie BW행렬과 LP mapping 법칙을이용하는알고리즘. Subtitution에대해수행한다. BWT BWA 접미사배열과 BWT를이용하여 SA구간을계산하여정렬을수행. Subtitution, Indel 전부수행 SOAP2 BWA와동일한구조, 속도증가를위해 Subtitution에대해서만수행. mrfast k-mer로나올수있는모든시퀀스에대해해싱한후참조서열의주소를해시테이블에저장. 리드를 kbp 단위로 k-mer 로나누어수행. 해시테이블여러개의탬플릿쌍을이용하여리드를해싱한뒤참조서 MAQ 열을정렬. Stampy 참조서열을 k-mer로해싱하고리드에서 mismatch를허용하는범위안의모든 k-mer를생성한후비교. 3.2 해시테이블을이용한매핑도구 3.2.1 Stampy mrfast에서적은길이의 k-mer를이용하여 k-mer로나오는시퀀스전체를해시테이블로사용한것과달리 Stampy[7] 는참조서열을 k-mer로나누어해시태이블로생성한다. 이렇게해시테이블을만들게될경우메모리비용이매우커지게될수있으므로몇개의 bp씩만겹치게하여해시테이블의크기를줄이게한다. 또한과도하게반복되는 k-mer의경우일정수가넘어갈경우에는반복시퀀스로간주하고더이상해시테이블에저장하지않는다. 해시테이블이생성되고나면리드에서가능한모든 k-mer을생성하여해시테이블과비교한다. 이때최대한개의불일치까지허용된다. Stampy는리드로부터최대한많은 k-mer를생성하여비교하기때문에높은정확도를보이나, 계산량이많아속도가느려지는단점이있다. 3.2.2 MAQ MAQ[8] 는템플릿을이용하여리드서열로부터여러개의해시값 ( 템플릿쌍 ) 을만들어해시테이블을구축한후, 참조서열에비교하여리드의위치를찾는다. 이후하나의탬플릿쌍을선택하여전체참조서열을확인하며템플릿쌍에매칭되는지비교하고다음템플릿쌍으로이를반복한다. MAQ는 k개이하의모든 mismatch쌍을비교할수있으나 mismatch수가증가할수록템플릿수가증가하며템플릿수만큼전체서열을비교해야한다. 또한매번리드를수행할때마다해시테이블을생성해야하는단점이있다. 8

4 결론및향후연구과제 현재 NGS 기술의발달로대량의유전자정보를얻을수있게되면서, 이전에는알지못했던새로운 DNA, RNA와관련된현상들이발견되고있다. 기존에는알지못했던많은양의정보가들어오게되면서유전자를분석을하기위한도구에대한연구도매우중요해졌다. 본논문에는 Bowtie와 mrfast 도구를예로들어 BWT와해시기반매핑방법에대해자세히알아보고 BWT 와 mrfast를이용하는다른도구들을확인하였다. BWT기반의알고리즘은해시테이블기반도구보다유전적변이와오류에대해강인하면서도비교적빠른도구를개발할수있다. 반면에해시테이블에서는 matching의경우에는빠른속도로리드들을참조서열에매핑이가능하며, 정확도가매우높으나오류나변이가많이일어난리드일수록속도가떨어지는단점이존재한다. 하지만두도구의특성이서로다르기때문에두도구간의비교가쉽지않았다. 이후연구에서는두도구를포함한여러가지도구를비교하기위해 Simulator에대해조사하고조사한 Simulator 를이용하여두도구를포함한최신에발표된여러도구들에대해비교하고자한다. References [1] M. Burrows, M. Burrows D. J. Wheeler, and D. J. Wheeler, A block-sorting lossless data compression algorithm, 1994. [2] B Langmead, C Trapnell, M Pop, and SL Salzberg, Ultrafast and memory-efficient alignment of short dna sequences to the human genome, Genome Biol, vol. 10, no. 3, pp. R25, 2009. [3] Marques-Bonet T Aksay G Antonacci F Hormozdiari F Kitzman JO Baker C Malig M Mutlu O Sahinalp SC Gibbs RA Eichler EE Alkan C, Kidd JM, Personalized copy number and segmental duplication maps using next-generation sequencing, Nat Genet, vol. 41, pp. 1061 1067, 2009. [4] Hongyi Xin, Donghyuk Lee, Farhad Hormozdiari, Samihan Yedkar, Onur Mutlu, and Can Alkan, Accelerating read mapping with fasthash, BMC Genomics, vol. 14, no. 1, pp. 1 13, 2013. [5] Durbin R. Li H, Fast and accurate short read alignment with burrows-wheeler transform, Bioinformatics, vol. 25, no. 14, pp. 1754 1760, 2009. [6] R. Li, Soap2: an improved ultrafast tool for short read alignment transform, Bioinformatics, vol. 25, no. 15, pp. 1966 1967, 2009. 9

[7] M. Goodson G. Lunter, Stampy: A statistical algorithm for sensitive and fast mapping of illumina sequence reads, Bioinformatics, vol. 21, pp. 936 939, 2011. [8] R. Durbin H. Li, J. Ruan, Mapping short dna sequencing reads and callingvariants using mapping quality scores, Bioinformatics, vol. 18, pp. 1851 1858, 2008. 10