WES 기반 SNV/small indel 발굴및분석파이프라인 서울대학교생명과학부 백대현교수 1

Similar documents
암유전체에서차세대시퀀싱기반의 DNA 카피수변화발굴을위한 SOP (Standard Operating Protocols for Identification of NGS-Based DNA Copy Number Alterations in Cancer Genomes) 1

발생하는오류로인해실제유전정보를이용하기에는많은제약이따르기때문에, 실제염기서열데이터를이용하여매핑도구들의정확한성능평가를한다는것은사실상불가능하다. 이러한매핑도구의성능을평가하기위해대부분의논문에서가상의리드서열을생성하는시뮬레이터를사용하고있으며이로인해염기서열을분석하는데있어서매핑도구뿐

슬라이드 1

Microsoft PowerPoint Android-SDK설치.HelloAndroid(1.0h).pptx

Network Security - Wired Sniffing 실습 ICNS Lab. Kyung Hee University

<4D F736F F F696E74202D C61645FB3EDB8AEC7D5BCBA20B9D720C5F8BBE7BFEBB9FD2E BC8A3C8AF20B8F0B5E55D>

Microsoft Word - ntasFrameBuilderInstallGuide2.5.doc

생물정보학및 RNA-Sequence 매핑도구소개 Introduction of Bioinformatics & RNA-Sequence Mapping Tools 권대건 부산대학교컴퓨터공학과 Abstract Frederick Sanger 에의

자궁내막증 진단과 추적에서의 혈액 표지자의 유용성

뉴스레터6호F?2??訝

Microsoft PowerPoint SDK설치.HelloAndroid(1.5h).pptx

<4D F736F F F696E74202D20B1E8BCB120B1B3BCF6B4D420B0ADBFACC0DAB7E1>

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

REP - REPEATMASKER - 014, JULY 01 1 유전자예측프로그램 RepeatMasker 설치와운용 RepeatMasker Installation Manual 정우근 Chung Woo-Keun 부산대학교컴퓨터공학과 A

ISP and CodeVisionAVR C Compiler.hwp

01Àå

PowerPoint 프레젠테이션

02-AOCL hwp


SMARTer Sequencing Kits for Next Generation Sequencing

PowerPoint Presentation

서열자료조작을위한실용적인스크립트예제 작성자 : 정해영 ( 오류정정이나개선사항에대한의견환영!) 최초작성일 : 2015년 8월 6일최종수정일 : 2015년 9월 22일최초공개일 : 2015년 8월 7일

Orcad Capture 9.x

EndNote X2 초급 분당차병원도서실사서최근영 ( )

NTD36HD Manual

thesis

주간 건강과 질병 제8권 제22호 Figure 1. The total size of the sequence read archive (SRA) database of the National Center for Biotechnology Information (NCBI) is

Analysis 1 : NGS Quality Control QC 과정은다음의총 12 단계로짂행되며, 각단계마다의의미와분석방법, 결과해석및 NGS 분석외의타 galaxy 의유용핚기능 에대해서설명될것입니다. 1. fastq 데이터를 galaxy 에로드하고업로드된데이터에대핚

I. - II. DW ETT Best Practice

Microsoft PowerPoint - 알고리즘_5주차_1차시.pptx

Manufacturing6

기존에 Windchill Program 이 설치된 Home Directory 를 선택해준다. 프로그램설치후설치내역을확인해보면 Adobe Acrobat 6.0 Support 내역을확인할수 있다.

BMP 파일 처리

슬라이드 1

untitled

PowerPoint 프레젠테이션

solution map_....

표준프레임워크로 구성된 컨텐츠를 솔루션에 적용하는 것에 문제가 없는지 확인

Interstage5 SOAP서비스 설정 가이드

휠세미나3 ver0.4

SBR-100S User Manual


DRB1598A

김기남_ATDC2016_160620_[키노트].key

슬라이드 1

FMX M JPG 15MB 320x240 30fps, 160Kbps 11MB View operation,, seek seek Random Access Average Read Sequential Read 12 FMX () 2

Microsoft PowerPoint - 권장 사양

슬라이드 1

소프트웨어개발방법론

Mango220 Android How to compile and Transfer image to Target

USER GUIDE

LXR 설치 및 사용법.doc

ODS-FM1

PRO1_09E [읽기 전용]

Index

28 THE ASIAN JOURNAL OF TEX [2] ko.tex [5]

PRO1_02E [읽기 전용]

슬라이드 제목 없음

PowerPoint Presentation

160106_STEPI_Insight_179호(정기철,김석관_외)rp.hwp

Microsoft Word - [2017SMA][T8]OOPT_Stage_2040 ver2.docx

Microsoft PowerPoint - chap01-C언어개요.pptx

Microsoft Word - src.doc

(Microsoft PowerPoint - \301\24613\260\255 - oFusion \276\300 \261\270\274\272)

1 Nov-03 CST MICROWAVE STUDIO Microstrip Parameter sweeping Tutorial Computer Simulation Technology

커알못의 커널 탐방기 이 세상의 모든 커알못을 위해서

슬라이드 1

< 목차 > Ⅰ. 개요 3 Ⅱ. 실시간스팸차단리스트 (RBL) ( 간편설정 ) 4 1. 메일서버 (Exchange Server 2007) 설정변경 4 2. 스팸차단테스트 10

슬라이드 1

untitled

Microsoft PowerPoint - 11주차_Android_GoogleMap.ppt [호환 모드]

歯155호

歯156호

歯150호

歯148호

歯154호


最即時的Sybase ASE Server資料庫診斷工具

APOGEE Insight_KR_Base_3P11

PowerPoint 프레젠테이션

리눅스설치가이드 3. 3Rabbitz Book 을리눅스에서설치하기위한절차는다음과같습니다. 설치에대한예시는우분투서버 기준으로진행됩니다. 1. Java Development Kit (JDK) 또는 Java Runtime Environment (JRE) 를설치합니다. 2.

아이콘의 정의 본 사용자 설명서에서는 다음 아이콘을 사용합니다. 참고 참고는 발생할 수 있는 상황에 대처하는 방법을 알려 주거나 다른 기능과 함께 작동하는 방법에 대한 요령을 제공합니다. 상표 Brother 로고는 Brother Industries, Ltd.의 등록 상

CLgenomics TM User Manual App Version 1.51 Windows and Mac OS X ( 주 ) 천랩서울특별시관악구관악로 1 서울대학교유전공학연구소 동 307 호 Tel: Fax:

목차 1. 제품 소개 특징 개요 Function table 기능 소개 Copy Compare Copy & Compare Erase

ez-shv manual

untitled

<30352D30312D3120BFB5B9AEB0E8BEE0C0C720C0CCC7D82E687770>

歯mp3사용설명서

메일서버등록제(SPF) 인증기능적용안내서 (HP-UX - postfix) OS Mail Server SPF 적용모듈 (Perl 기반) 작성기준 HP-UX 11.11i postfix spf-filter 년 6 월

untitled

Mentor_PCB설계입문

API STORE 키발급및 API 사용가이드 Document Information 문서명 : API STORE 언어별 Client 사용가이드작성자 : 작성일 : 업무영역 : 버전 : 1 st Draft. 서브시스템 : 문서번호 : 단계 : Docum

1) 인증서만들기 ssl]# cat > // 설명 : 발급받은인증서 / 개인키파일을한파일로저장합니다. ( 저장방법 : cat [ 개인키

Microsoft PowerPoint UNIX Shell.ppt

Microsoft PowerPoint - AME_InstallRoutine_ver8.ppt

Secure Programming Lecture1 : Introduction

05Àå

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

주간건강과질병 제 10 권제 44 호 연구단신, Brief report 병원체염기서열생산을위한라이브러리제작기법소개 질병관리본부국립보건연구원생물안전평가과양효진, 최현정, 채희열, 강연호 * * 교신저자 : Librar

T100MD+

Transcription:

WES 기반 SNV/small indel 발굴및분석파이프라인 2016.08 서울대학교생명과학부 백대현교수 1

목차 1 SNV, Indel 발굴을위한 WES 분석 SOP개요... 4 1.1 배경... 4 2 SOP를실제데이터에적용시에주의사항... 5 2.1 시퀀싱데이터의특성확인... 5 2.2 연구목적에부합하는분석방법선택... 5 3 사용하는프로그램소개및설치방법... 6 3.1 Burrows-Wheeler Alignment Tools (BWA)... 6 3.2 SAMtools... 7 3.3 Picard Tools... 7 3.4 Genome Analysis Toolkit (GATK)... 7 3.5 R... 7 4 DNA-seq 데이터정제... 8 4.1 Reference genome 준비... 8 4.2 Quality Trim... 9 4.3 Mapping... 9 4.4 Read group 추가및 read 정렬... 10 4.5 Duplicated 된 read 제거... 12 4.6 Realignment... 13 4.7 Base score recalibration... 15 5 변이발굴... 17 5.1 Germline mutation (SNV, indel) 발굴... 17 5.2 Somatic mutation (SNV, indel) 발굴... 19 5.3 Corhort 변이발굴분석... 20 2

6 Variant annotation... 23 7 IGV를이용한시각화... 24 7.1 IGV 설치방법... 24 7.2 Reference genome 로딩... 24 7.3 BAM 파일로딩... 25 7.4 변이시각화... 25 8 주요파일형식... 26 8.1 SAM 파일형식... 26 8.2 VCF 파일형식... 27 9 단계별수행시간... 28 10 중간과정생성파일확인... 29 참고문헌... 31 3

1 SNV, Indel 발굴을위한 WES 분석 SOP 개요 1.1 배경 Single nucleotide variants (SNV) 와 small insertions/deletions (Indel) 은다양한질병의주요원인이다. 이런 SNV 와 indel 을정확히발굴하는것은유전체연구분야에서핵심분석으로오래동안다양한질병에서연구가이루어지고있다. SNV 와 indel 을발굴하는다양한방법론들이개발되었지만 SNV 와 indel 를발굴하는파이프라인의표준화가미흡하여, 분석결과들을통합하는데어려움이있었다. 본 SOP (standard operation procedure) 은 WES (Whole-exome sequencing) 데이터를바탕으로 SNV, indel 를발굴하는표준모델을제시하여, 서로다른연구들의비교와통합에효율성을높이고자한다. 1.1.1 SNV, indel 발굴표준파이프라인아래의그림은 WES 데이터를이용하여 SNV 와 indel 을발굴하는과정을나타내는모식도이다. SNV 와 indel 을발굴하기위해서는데이터전처리과정 (data preprocessing), 변이발굴 (variant detection), 발굴된변이의평가 (data annotation) 의과정을거쳐야한다. WES 데이터의전처리과정은 DNA 의 sequence 정보를가지고있는 raw 데이터를정제하는작업으로불필요한정보를제거하거나실험에의해왜곡된정보를바로잡는단계이다. 이후변이발굴단계에서는변이의위치와종류, 크기등을찾는작업을한다. 마지막으로이렇게발굴된변이들이어떤의미를가질수있는지평가하는작업을하게된다. 4

<SNV, Indel 발굴과정모식도 > 2 SOP 를실제데이터에적용시에주의사항 2.1 시퀀싱데이터의특성확인본 SOP에서제공하는분석표준프로토콜은 2016년 10월작성되었고, 현재 WES데이터분석에서가장많이사용되는 Illumina 시퀀싱데이터를기반으로작성되었다. Ion Torrent와같은다른플랫폼의데이터를사용하였다면, 해당플랫폼에서사용하는표준분석과정을추가혹은일부과정을대체하여분석을진행해야한다. 2.2 연구목적에부합하는분석방법선택본 SOP는질병샘플과같은환자의정상샘플로부터생성한 WES 데이터를이용하여 SNV와 small indel을발굴하는것이목표인연구 5

에최적화된분석파이프라인이다. 분석에추가적인정보 (panel 사용, cohort 존재 ) 가있을경우해당정보를처리하는분석과정을추가하여야한다. 본 SOP는연구목적이 SNV, indel 발굴이기때문에다른변이를발굴하는경우나, hotspot을발굴하는등목적이다른경우결과에문제가발생하므로주의해야한다. 3 사용하는프로그램소개및설치방법본 SOP 에서제시한 WES 데이터를이용한 SNV, indel 발굴파이프라인에는다양한외부프로그램을사용하고있다. 실제분석에앞서서해당프로그램들의설치를완료하여야한다. 3.1 Burrows-Wheeler Alignment Tools (BWA) 내용 BWA 는짧은 read 들을 reference sequence 에 mapping 시키는 프로그램으로수행속도와정확도에서안정적인성능을보여주어서 DNA sequence mapping 에널리사용되고있는프로그램이다 [1]. 설치방법 다운로드 : http://sourceforge.net/projects/bio-bwa/files/ bunzip2 bwa-0.5.9.tar.bz2 tar xvf bwa-0.5.9.tar cd bwa-0.5.9 make ~/.bashrc 파일을열고아래와같이 PATH 를설정. export PATH=$PATH:/path/to/bwa-0.5.9 6

3.2 SAMtools 설치방법다운로드 : https://github.com/samtools/samtools/ cd samtools-1.x # and similarly for bcftools and htslib make make prefix=/where/to/install install ~/.bashrc 파일을열고아래와같이 PATH 를설정. export PATH=/where/to/install/bin:$PATH # for sh or bash users 3.3 Picard Tools 설치방법다운로드 : https://broadinstitute.github.io/picard/ jar파일을다운로드한후 java를이용하여실행. 아래의명령어로테스트를시행. java -jar /path/to/picard.jar -h 3.4 Genome Analysis Toolkit (GATK) 설치방법다운로드 : https://software.broadinstitute.org/gatk/download/ jar파일을다운로드한후 java를이용하여실행. 3.5 R 설치방법 7

다운로드 : https://www.r-project.org/ CentOS 의경우 yum install R 4 DNA-seq 데이터정제 4.1 Reference genome 준비 Reference genome 다운로드 : 예 )hg19 의경우 http://hgdownload.cse.ucsc.edu/goldenpath/hg19/ BWA index 생성 BWA 프로그램을이용하여 DNA-Seq 데이터를 reference 에 mapping 시키는데필요한 index 파일생성한다 [2]. bwa index -a bwtsw reference.fa FASTA index 파일생성 samtools 프로그램을이용하여 reference sequence 의 FASTA 파일로부터 reference.fa.fai 를생성 samtools faidx reference.fa 딕셔너리파일생성 Picard 프로그램을이용하여염색체의크기정보를가지고있는 referece.dict 파일을생성한다 [3]. java -jar picard.jar CreateSequenceDictionary REFERENCE=reference.fa OUTPUT=reference.dict 8

4.2 Quality Trim sickle 프로그램을이용하여 quality 가낮은 base 들을잘라낸다. trimming 하는 base quality 경계값은기본값인 20 을사용한다 [7]. sickle pe t sanger -f <forward fastq file> -r <backward fastq file> -o <output forward fastq file> -p <output backward fastq file> -s <output single-end fastq file> 4.3 Mapping BWA 를이용하여 FASTQ 파일을 reference sequence 에 mapping 한다. bwa-aln 을이용하여 sai 파일을만들고 bwa-sape 를통해서 mapping 을수행한다. bwa aln <reference sequence> <input fastq file> -f <output sai file> -t <thread number> bwa sampe <reference sequence> <forward sequence sai file> <backward sequence sai file> <forward sequence fastq file> <backward sequence fastq file> grep -E ^@ NM:i:0 NM:i:1 NM:i:2 NM:i:3 samtools view bs q 23 - > <out_bam_file> 옵션설명 9

<reference sequence>: reference sequence <forward sequence sai file>: forward sequence 의 sequence index 파일 <backward sequence sai file>: backward sequence 의 sequence index 파일 <forward sequence fastq file>: forward sequence 의 FASTQ 파일 <backward sequence fastq file>: backward sequence 의 FASTQ 파일 grep -E ^@ NM:i:0 NM:i:1 NM:i:2 NM:i:3 : Reference 와다른 base 의개수가 3 개이하만선택함 samtools view bs q 23 - > <out_bam_file>: Quality 23 이상만추출함 4.4 Read group 추가및 read 정렬 BAM 파일에 read group 를추가하고 coordinate 정렬을수한다. 이후에진행될분석에서 read group 정보가 BAM 파일에포함되어있는것을요구하는경우가많기때문에반드시필요하다. 또한 read 들을게놈상의위치 (coordinate) 를기반으로정렬하여야다음작업들을진행이가능하다. 실행의예 10

java Xmx200g -jar AddOrReplaceReadGroups.jar I=<input bam file> O=<output bam file> RGLB=<read group library> RGPL=illumina RGPU=<read group library> RGSM=<sample id> # sample id VALIDATION_STRINGENCY=LENIENT SORT_ORDER=coordinate # sort by coordinate 11

4.5 Duplicated 된 read 제거 raw sequence 데이터생성과정에서 PCR 로인해 duplicate 된 read 들을제거하는단계로중복된 read 정보를가지는 metrics.txt 파일과중복된 read 들이제거된 BAM 파일이생성된다. duplicate 된 read 들은이후의분석과정에서부정확한결과를유도할수있으므로특별한경우가아니면반드시제거해야한다. 아래의그림에서위부분은 duplication 이있는 read 들이제거되지않은상태를 IGV 프로그램을이용하여살펴본모습이고, 그아래는 duplication 이제거된모습을보여주고있다. duplicate 된 read 들을제거하고나면중복된 read 들이사라진모습을볼수있다. 실행예 <Duplicated 된 read 들 ( 화면상단 ) 과 dedulicated 된 read 들 ( 화면하단 )> 12

java Xmx200g jar MarkDuplicates.jar I=<input bam file> O=<output bam file> M=metrics.txt VALIDATION_STRINGENCY=LENIENT ASSUME_SORTED=true # assume sorted REMOVE_DUPLICATES=true MAX_RECORDS_IN_RAM=1000000 CREATE_INDEX=true 4.6 Realignment Indel 주변에 mapping 된 read 들을조정하여다시 mapping 시킴으로써 indel 에의한 artifact 를줄여주는과정이다. Indel 이존재 할경우그주위의 read 들을 mapping 할때 mapping 오류가 발생하는경우가많다. 이런오류를제거하기위하여알려진 indel 정보를이용하여다시 mapping 시키는작업을함으로써 mapping 오류를줄일수있다. 옵션 known 에필요한파일들은 ftp://ftp.broadinstitute.org/bundle/2.8/hg19/ (DBSNP and Mills_and_1000G_gold_standard_indels) 에서 다운로드 가능하다. 아래의그림은 realignment 전후의 indel 주위의 read 들의모습이다. realignment 를수행한수에는 indel 주위에 read 들이올바르게 mapping 되는것을볼수있다. 13

<Realignment 수행전후모습 (http://gatkforums.broadinstitute.org)> 4.6.1 Realignment 를위한 interval 파일생성 실행예 java Xmx200g -jar GenomeAnalysisTK.jar -T RealignerTargetCreator -I <input bam file> -o <output interval list> -R <reference sequence> --minreadsatlocus 10 --windowsize 10 --mismatchfraction 0.15 -known <SNP VCF file> -known <indel VCF file> 4.6.2 Realignment 수행앞에서구한 interval list 파일에는 realignment 를수행해야하는영역들의정보가들어있다. 이파일을이용하여해당영역들을대상으로 SNP/indel 을고려한 realignment 를빠르게수행한다. 실행예 14

java -Xmx200g -jar GenomeAnalysisTK.jar -T IndelRealigner -R <reference sequence> -I <input bam file> -targetintervals <interval list> -known <indel VCF file> -known <SNP VCF file> -o <output bam file> -compress 5 --LODThresholdForCleaning 5.0 --consensusdeterminationmodel USE_READS --maxreadsinmemory 300000 --maxconsensuses 30 --maxreadsforconsensuses 120 4.7 Base score recalibration Base quality score은변이발굴을위해필요한핵심정보중에하나이다. 시퀀싱머신에서는개별 base score들이독립적으로측정된다. 하지만시퀀싱연구자들은 base score들사이에관련성이있음을발견하였다. 예를들어특정시퀀싱머신에서 A( 아데닌 ) 이나온이후다시 A가나온경우는오류일확률이더적다. 이런정보를이용하여기계학습방법을통하여 read들의 base score를보정하는작업이 base score recalibration이다. 아래그림은 recalibration을통하여 base score가보정된모습을보여주고있다. 15

<Recalibration (http://www.broadinstitute.org)> 실행의예 java -jar GenomeAnalysisTK.jar -T BaseRecalibrator -R reference.fa -I realigned_reads.bam -L 20 -knownsites dbsnp.vcf -knownsites gold_indels.vcf -o recal_data.grp -plots before_recal.pdf 4.7.1 Recalibration 을위한 sequence covariation 분석 16

java -jar GenomeAnalysisTK.jar -T PrintReads -R reference.fa -I realigned_reads.bam -L 20 -BQSR recal_data.grp -o recal_reads.bam 5 변이발굴 5.1 Germline mutation (SNV, indel) 발굴 BAM 파일로부터유전변이를찾아내는단계로 HaplotypeCaller 를이용하여단일염기다형성 (Single nucleotide polymorphism, SNP) 및삽입-결손변이 (Insertion-deletion, Indel) 등두가지유형의변이를발굴한후 VCF 형식으로출력파일을생성한다. 우선적으로분석에필요한기본파라미터들을명확히정의해야하며, 사용자에의하여정의되지않는경우기본값을사용하여분석수한다. 17

<HapplotypeCaller 의수행과정 (http://www.broadinstitute.org)> 실행의예 java -jar GenomeAnalysisTK.jar -T HaplotypeCaller -R reference.fa -I reduced_reads.bam -L 20 --genotyping_mode DISCOVERY --output_mode EMIT_VARIANTS_ONLY --stand_emit_conf 10 --stand_call_conf 30 -o raw_variants.vcf 옵션설명 --genotyping_mode: 유전자형에사용할 alternate allele 를 18

확인하는방법지정 --output_mode: output의 call 유형지정 --stand_emit_conf: 분석프로그램이특정염기서열부위를유전변이로판단할최소한의신뢰도역치값 --stand_call_conf: 유전변이부위를 call 하기위한최소한의신뢰도역치값 5.2 Somatic mutation (SNV, indel) 발굴 Tumor 와 matched normal 의 DNA-seq 데이터로부터 somatic variant 를찾는단계로 MuTect2 를이용하여 SNV (Single nucleotide varint) 와 small indel 을발굴하여 VCF 형태의파일을생성한다. <MuTect 의수행과정 (Cibulskis, et al., 2013, Nature BioTechnology)> 실행예 19

java -jar GenomeAnalysisTK.jar -T MuTect2 -R reference.fasta -I:tumor tumor.bam -I:normal normal.bam [--dbsnp dbsnp.vcf] [--cosmic COSMIC.vcf] -o output.vcf 옵션설명 -T: GatkAnalysisTK 분석방법을 MuTect2 로지정 -R: Reference sequence 파일 -I: tumor: tumor BAM 파일 -I: normal: matched normal BAM 파일 --dbsnp: dbsnp VCF 파일 --cosmic: COSMIC VCF 파일 -o: 결과 VCF 파일 5.3 Corhort 변이발굴분석 GATK caller를이용하여 corhort의 germline 변이발굴을위해서는 gvcf를이용한 group calling 방법을사용하고, 발굴된변이들의 false positive를줄이기위해서 call set을정제할필요가있다. variant quality sore recalibration(vqsr) 을통하여발굴된변이의 quality score 를다시계산하여 false positive를줄인다. Corhort germline 데이터의변이발굴실행예 20

java -jar GenomeAnalysisTK.jar \ -R reference.fasta \ -T HaplotypeCaller \ -I sample1.bam \ --emitrefconfidence GVCF \ [--dbsnp dbsnp.vcf] \ [-L targets.interval_list] \ -o output.raw.snps.indels.g.vcf 옵션설명 --emitrefconfidece GVCF: group calling을통한 GVCF 파일을생성하기위한설정 SNP recalibration model 구축실행예 java -jar GenomeAnalysisTK.jar \ -T VariantRecalibrator \ -R reference.fa \ -input raw_variants.vcf \ -resource:hapmap,known=false,training=true,truth=true,prior=15.0 hapmap.vcf \ -resource:omni,known=false,training=true,truth=false,prior=12.0 omni.vcf \ -resource:1000g,known=false,training=true,truth=false,prior=10.0 1000G.vcf \ -resource:dbsnp,known=true,training=false,truth=false,prior=2.0 dbsnp.vcf \ -an DP \ -an QD \ -an FS \ -an MQRankSum \ -an ReadPosRankSum \ 21

-mode SNP \ -tranche [100.0, 99.9, 99.0, 90.0] \ -percentbad 0.01 \ -minnumbad 1000 \ -recalfile recalibrate_snp.recal \ -tranchesfile recalibrate_snp.tranches \ -rscriptfile recalibrate_snp_plots.r SNP recalibration Recalibration table을기반으로변이필터를위해 cutoff를적용한다. java -jar GenomeAnalysisTK.jar \ -T ApplyRecalibration \ -R reference.fa \ -input raw_variants.vcf \ -mode SNP \ --ts_filter_level 99.0 \ -recalfile recalibrate_snp.recal \ -tranchesfile recalibrate_snp.tranches \ -o recalibrated_snps_raw_indels.vcf Indel recalibration 모델생성 java -jar GenomeAnalysisTK.jar \ -T VariantRecalibrator \ -R reference.fa \ -input recalibrated_snps_raw_indels.vcf \ -resource:mills,known=true,training=true,truth=true,prior=12.0 mills.vcf \ -an DP \ -an FS \ -an MQRankSum \ 22

-an ReadPosRankSum \ -mode INDEL \ -tranche [100.0, 99.9, 99.0, 90.0] \ -percentbad 0.01 \ -minnumbad 1000 \ -maxgaussians 4 \ -recalfile recalibrate_indel.recal \ -tranchesfile recalibrate_indel.tranches \ -rscriptfile recalibrate_indel_plots.r Indel recalibration 수행 java -jar GenomeAnalysisTK.jar \ -T ApplyRecalibration \ -R reference.fa \ -input recalibrated_snps_raw_indels.vcf \ -mode INDEL \ --ts_filter_level 99.0 \ -recalfile recalibrate_indel.recal \ -tranchesfile recalibrate_indel.tranches \ -o recalibrated_variants.vcf 6 Variant annotation Variant annotation은발굴한변이들에특성을확인하는단계로, 변이필터렁, call set 제작등다양한목적으로활용될수있다. VariantAnnotator tool을이용하여변이들에 annotation을추가할수있다. java -jar GenomeAnalysisTK.jar -T VariantAnnotator 23

-R reference.fa -I reduced_reads.bam -V raw_variants.vcf -L raw_variants.vcf -A MQ0 \-A SpanningDeletions -o raw_reannotated_variants.vcf 옵션설명 -V: 입력 VCF 파일 -A: variant call을위한 annotation 7 IGV 를이용한시각화 IGV는 BAM, VCF, BED 파일등을시각화해주는그래픽기반프로그램으로다양한유전체관련정보를여러가지트랙을통하여보여준다 [8]. 7.1 IGV 설치방법다운로드 : http://software.broadinstitute.org/software/igv/download 웹기반으로실행하거나.jar 파일을 jre를통해실행시킬수있다. 7.2 Reference genome 로딩 "Genomes" 메뉴를선택하고 "Load Genome from File..." 를 선택하여 reference genome 을불러올수있다. 24

7.3 BAM 파일로딩 "File" 메뉴에서 "Load from file..." 를클릭하여 BAM 파일을 불러와서 IGV 브라우저상에 read 들을보여줄수있다. 7.4 변이시각화 BAM 파일을로딩시킨후, IGV 화면에는 BAM 파일을구성하고있는 read 들을보여준다. 검색을통해특정염색체의위치혹은구간으로이동할수있다. 마우스포인트로특정 read 를클릭하면해당 read 의 mapping quality, insert size, base quality 등의 read 와 base 의정보를팝업창으로보여준다. 변이발굴후생성된 VCF 파일을 IGV 로읽으면해당위치존재하는변이들을보여주고, 특정변이를클릭하면변이의 genotype 과변이의크기와같은변이와관련된정보들을보여준다. 25

<Read 와 Base 정보를보여주는팝업창의모습 > 8 주요파일형식 8.1 SAM 파일형식 raw sequence 파일이 mapping된후에생성되는파일형식으로 alignment 와관련된정보를가지고있다. 헤더영역과필드영역으로구분되어있다. https://samtools.github.io/hts-specs/samv1.pdf 에서 SAM 파일설명서를받을수있다. 헤더영역 SAM 파일버전, 유전체의크기, read group, mapping에상용된프로그램등이기술되어있다. 헤더영역의예 26

@HD @SQ @RG @PG VN:1.0 SO:coordinate SN:1 LN:249250621 AS:NCBI37 UR:file:/data/local/ref/GATK/human_g1k_v37.fasta M5:1b22b98cdeb4a9304cb5d48026a85128 ID:UM0098:1 PL:ILLUMINA PU:HWUSI-EAS1707-615LHAAXX-L001 LB:80 DT:2010-05-05T20:00:00-0400 SM:SD37743 CN:UMCORE ID:bwa VN:0.5.4 필드영역 SAM 파일에는 read의정보와 mapping 정보등이탭으로구분되어있다. 필드 설명 예 QNAME read 이름 1:497:R:-272+13M17D24M FLAG read flag 코드 133 RNAME 염색체번호 1 POS mapping 위치 497 MAPQ mapping quality 37 CIGAR CIGAR 테그 37M MRNM/RNEXT mate read의염색체 15 MPOS/PNEXT mate read의위치 100338662 ISIZE/TLEN template 길이 314 SEQ segment sequence CGGGTCTGACCTGAGGAGAACTGTGCTCCGCCTTCAG QUAL Phred quality score 0;==-==9;>>>>>=>>>>>>>>>>>=>>>>>>>>>> TAGs 기타정보 XT:A:U NM:i:0 SM:i:37 AM:i:0 X0:i:1 X1:i:0 XM:i:0 XO:i:0 XG:i:0 MD:Z:37 8.2 VCF 파일형식 VCF는 Variant Call Format의약자로, 변이의위치와종류, 크기등, 변이와관련된정보를담고있는파일이다. 필드 설명 예 CHROM 염색체번호 2 POS 1-based 위치 4370 27

ID 변이 ID rs6057 REF Reference base G ALT Alternative allele A QUAL Quality 점수 29 FILTER 필터정보 PASS INFO 변이에대한정보 NS=2;DP=13;AF=0.5;DB;H2 FORMAT 변이에대한추가정보형식 GT:GQ:DP:HQ SAMPLEs 변이에대한추가정보 0 0:48:1:52,51 9 단계별수행시간 7GB 크기의 WES 데이터를제시하는표준파이프라인으로 SNV, indel 발굴분석을수행한결과아래와같은수행시간 ( 단위 : 분 ) 이소요되었다. 단계별수행시간을측정하는데사용된컴퓨팅시스템 CPU 메모리 하드디스크 최소사양컴퓨팅시스템 Intel(R) Core(TM) i7-3770 CPU @ 3.40GHz (4 cores) 32 GB 1 TB CPU 메모리 하드디스크 권장사양컴퓨팅시스템 2 x Intel(R) Xeon(R) CPU E5-2620 @ 2.00GHz (12 cores) 256 GB 1 TB 한샘플의 WES 분석소요시간 ( 단위 : 분 ) WES 데이터분석소요시간 ( 크기 : 약 7GB) 분석과정 최소사양 권장사양 전처리과정 BamtoFastq 18 8 28

QualityTrimming 7 2 BWA Alignment 103 54 AddOrReplaceReadGroups 27 15 MergeSamFiles 15 9 MarkDuplicates 14.8 24 Realignment 101 47 Recalibration 117 79 Somatic variant 발굴 MuTect 334 161 Germline variant 발굴 Haplotype Caller 198 107 Total ( 단위 : 분 ) 937 509 10 중간과정생성파일확인각단계별로생성된중간파일을확인하여단계별분석이적절히수행되었는지를알수있도록확인지표를선정하여제시하였다. 사용한데이터는 TCGA 에서제공하는 lung adenocarcinoma(luad) 이다. 다운로드경로 : https://gdc-portal.nci.nih.gov/ 파일 ID: eeb42724-9893-47d3-a7ff-2aec7c0fad6b 파일명 : C509.TCGA-67-3771-10A-01D-1040-01.2.bam WES 데이터분석단계별확인지표 분석과정 확인지표 지표값 BamtoFastq - - Kept paired records QualityTrimming Discarded paired records Kept single records Discarded single records 29

BWA Alignment Processed sequences AddOrReplaceReadGroups Processed reads MergeSamFiles - - MarkDuplicates Processed reads Realignment Filtered out reads Recalibration Filtered out reads 30

참고문헌 [1] Li, H.; Durbin, R. (2009). "Fast and accurate short read alignment with Burrows-Wheeler transform". Bioinformatics. 25 (14): 1754 1760. doi:10.1093/bioinformatics/btp324. ISSN 1367-4803. PMC 2705234free to read. PMID 19451168. [2] Li, H.; Handsaker, B.; Wysoker, A.; Fennell, T.; Ruan, J.; Homer, N.; Marth, G.; Abecasis, G.; Durbin, R.; 1000 Genome Project Data Processing Subgroup (2009). "The Sequence Alignment/Map format and SAMtools". Bioinformatics. 25 (16): 2078 2079. doi:10.1093/bioinformatics/btp352. PMC 2723002free to read. PMID 19505943. [3] https://broadinstitute.github.io/picard/ [4] https://software.broadinstitute.org/gatk/ [5] https://www.r-project.org/ [6] http://hgdownload.cse.ucsc.edu/ [7] Joshi NA, Fass JN. (2011). Sickle: A sliding-window, adaptive, quality-based trimming tool for FastQ files. [8] Thorvaldsdottir, H.; Robinson, J. T.; Mesirov, J. P. (2012). "Integrative Genomics Viewer (IGV): High-performance genomics data visualization and exploration". Briefings in Bioinformatics. 14 (2): 178 192. doi:10.1093/bib/bbs017. PMC 3603213free to read. PMID 22517427. 31