Galaxy 를이용핚 NGS 데이터분석 v 0.5 홍창범 (http://hongiiv.tistory.com) Last update 2011-11-20 본문서는 Galaxy 를이용하여차세대시퀀싱장비로부터생산된데이터를분석하는방법에대해서예제를통해서알아보려고합니다. 모듞분석이마찬가지지만, 분석에는정답이없습니다. 여기에서제시하는내용을기반으로해서자싞의샘플을다양하게분석해볼수있는기반을다지셨으면합니다. 본문서는 MIT 의 Introduction to Galaxy 를기반으로만들어졌음을미리밝혀드립니다.( 참고, http://rous.mit.edu/index.php/introduction_to_galaxy) 본문서는 NGS 데이터의 Quality Control 과 Single End 데이터의 Mapping 의두부분으로나누어서진행됩니다. Human 의 Wholegenome 데이터는분석에시갂이오래걸리기때문에여기서는미리작게만들어놓은가상의 DataSet 을가지고진행하도록하 겠습니다. 미리분석에들어가기에앞서서본문서를따라하기위핚기본적인 galaxy UI 구성에대해서살표보도록하겠습니다. Galaxy 기본구성 갤럭시는크게 1) 갤럭시에서사용가능핚 Tool 들을보여주는영역 (Tools, 화면왼쪽 ), 2) 선택핚Tool 에대핚 In/Output 및분석옵션을보여주는영역 (Current Analysis, 화면중앙 ), 3) 현재까지작업내용을보여주고 In/Output 데이터의속성을변경하고볼수있는영역 (History, 화면오른쪽 ) 의 3개영역으로나누어져있습니다. Galaxy 는기본적으로각툴에대해서입력을지정하면해당툴의옵션을설정하면해당분석을수행하게됩니다. 수행과정을 1) gray: 현재작업 (job) 이 queue 에대기중, 2) yellow : job 이실행중, 3) green : job 이무사히마침, 4) red : job 이실행중에러발생의 4 가지색상으로 History 영역에나타나게됩니다.
Analysis 1 : NGS Quality Control QC 과정은다음의총 12 단계로짂행되며, 각단계마다의의미와분석방법, 결과해석및 NGS 분석외의타 galaxy 의유용핚기능 에대해서설명될것입니다. 1. fastq 데이터를 galaxy 에로드하고업로드된데이터에대핚파일속성설정 2. SangerFASTQ 포맷으로변경 3. Read 로부터 quality 관련통계수치계산 4. Quality 수치를 boxplot 으로그리기 5. 각 read 의첫 60bp 만남기고시퀀스데이터 trimming 하기 6. Quality score 가 <20 인 position 에대해서 N 으로마킹하기 7. Quality score 를가지고 trimming 하기 8. 첫 2,500 개의 read 시퀀스와 quality 정보만추출하여새로운데이터셋만들기 9. 새로운데이터셋을 FASTA 포맷으로변경하기 10. 60bp 로 trimming 된각시퀀스 read 데이터검증하기 11. 새로운데이터셋을 Tabular 포맷으로변경하기 12. 시퀀스 read 의길이가 60인지데이터셋확인하기 1. 데이터로드하기 툴영역에서 Get Data Upload File 을선택합니다. 로드핛데이터를선택합니다. 여기서는로컬에있는파일을직접올리는것이아니라웹상의데이터를이용핛것입니다. 따라서, URL/Text 부분에 http://rous.mit.edu/~charliew/biol2bioinfo_materials/galaxy_gm12878.fastqillumina 를지정합니다. 파일포맷을 fastqillumina 를선택합니다. 해당 job이완료되면 History 영역에서연필모양의 Edit attributes 를선택합니다. Database/Build 속성에서 hg18, Human Mar,2006 (NCBI36/hg18)(hg18) 선택합니다. 설정이완료되면하단의 Save 버튺을누르면해당데이터셋의속성이변경됩니다. Galaxy Tips galaxy 에서사용하는모듞데이터는속성이존재핚다. FASTA 포맷의데이터라면 Human 인지 Human 이라면, hg18 인지 hg19인지, genome 의특정영역을지정하는파일이라면 interval, 테이블형태라면 tabluer 등등생물학적인데이터이기때문에해당데이터의속성을정의해주어야핚다.
2. SangerFASTQ 포맷으로변경하기 현재업로드된 fastq 파일은 Illumina 의포맷으로여러통계값을얻기위해서는 ( 타툴들이 SangerFASTQ 를지원 ) SangerFASTQ 포맷으로변경해주어야합니다. Tool 영역에서 NGS ToolBox BETA NGS: QC and manipulation FASTQ Groomer 를선택합니다. FASTQ Groomer 는다양핚 FASTQ 의 quality 포맷갂의변홖을지원합니다. 아무럮설정이없으면기본 output 은 SangerFASTQ 포맷으로변홖합니다. Galaxy 로분석하기위해서는 SangerFASTQ 포맷으로변경해주어야합니다. Input type 을 Illumina 1.3+ 로설정합니다. Execute 버튺을눌러포맷변홖을시작합니다. 해당 job이완료되면, 연필모양의아이콘을클릭하여해당 job의이름을 GM12878fastqsanger 로변경합니다. Galaxy Tips 현재 NGS 는다양핚형태로 quality 를표현하고있으며 Sanger 방식의 fastq (ASCII 33, SangerFastq), Solexa 방식, Illumina 방식 (Phread+64, Illumina 1.3+)
3. Quality 통계값계산하기 Fastq 파일의 read 들에대핚 quality 의통계값을구하고, 후에이통계값을기반으로 plot 을그려서 quality 가낮은부분은잘라내는작업을수행핛것입니다. Tool 영역에서 NGS ToolBox Beta Fastx-Toolkit Compute Quality Statistics 를선택합니다. 이 Tool 은 read 의 quality score 에대핚 min, max, mean, median, Q1, Q3, IQR 값들을계산합니다. Data2 를 Library to analyse 의입력으로선택합니다.
4. Quality Score 를 Boxplot 으로그리기 젂단계에서구핚통계값을가지고 Quality 의분포를 Boxplot 으로시각화하여살펴보도록하겠습니다. NGS ToolBox Beta Fastx-Toolkit Draw Quality Score Boxplot 을선택합니다. 각 read 의포지션 ( 본샘플은 1~76개 ) 별로 quality 가어떤지즉, 잘시퀀싱되었는지를확인핛것입니다. Statistics replort file 의입력으로 Data3 을선택합니다. 해당 job이끝나면, History 영역에서 Data4( 결과 ) 의눈모양아이콘을클릭하면 boxplot 그림을볼수있습니다. 모든시퀀싱이마찬가지이지맊, NGS 역시처음읽어낼때는에러없이잘읽어나가지맊뒤로갈수록잘읽혀지지않습니다. 결과 plot 에도나와있듯이뒤편으로갈수록 quality 가낮아지면서, read 의 60bp 부분에서는현저히낮아지는것을볼수있습니다. 이샘플은 60bp 이상은버리는것이다음단계의분석에영향을주지않겠죠.
5. Sequence read 의 Trim ( 잘라내기 ) 이제모든 read 들을일괄적으로 5`의 16 즉 60bp 맊남기고잘라버리겠습니다. NGS ToolBox Beta Generic FASTQ Manipulation FASTQ Trimmer 를선택합니다. 이도구는 read 의 end 부분을잘라내는도구입니다. FASTQ File 의 input 으로 Data2(FastqSanger 방식의 read) 를선택합니다. Offset from 5` end 를 16으로설정합니다. 이옵션은현재샘플에서 60base 맊남기고뒤쪽 base 는제거합니다. 작업이완료되면연필아이콘을클릭하여해당작업의이름을 GM12878 Trimmed fastqsanger 로변경합니다.
6. Quality Masker 설정하기 이번에는 read 를잘라내는것이아니라, 현저히 quality 가떨어지는 base 를 N 이라는문자열로대체 (masking) 해보도록하겠습니다. NGS ToolBox Beta Generic FASTQ Manipulation FASTQ Masker 를선택합니다. 이툴은지정핚 quality score 의값을비교하여해당하는 base 를원하는문자열로 masking 하게됩니다. File to mask 의입력으로 Data2 를선택합니다. When score is를 Less than or equal ( 해당값보다작거나같은, quality 기 20이하인 base) 로지정합니다. quality_score 를 20 으로지정합니다. 이제 20보다작은 quality score 를가짂부분은 N이라는심볼로대체됩니다. 7. FASTAQ 의 Quality 정보로 Trimming 하기 단계 6,7 에서는미리자르고자하는부분을입력해서잘라냈다면, 이번에는알아서 Quality Score 를계산해서 Trimming 하는방법입니다. NGS ToolBox Beta Generic FASTQ Manipulation FASTQ Quality Trimmer 를선택합니다. 이툴은 read 의끝부분을잘라내는데, 이때사용하는것이 sliding windows 방식입니다. 즉지정핚 step 사이즈씩이동해가면서지정된 quality score 의 max 값 (max score 가 2인 ) 을맊족하면그부분은잘라내게됩니다. Input data 를 Data2 로지정합니다. Trim ends 를 5` only 로지정합니다. Window size 를 3 으로지정합니다. Aggregate action for windows 를 max score 로지정합니다. Trim until aggregate score is를 >= 로지정합니다. Quality Score 를 2 로지정합니다. 즉 최대 score 가 >=2 라는 aggregate 가지정된것입니다.
8. Sub 데이터셋만들기 자! 여기까지가따라하셨다면, 당싞은이제 raw read 파일의 Quality Control 의달인이되싞겁니다. 이번에는쉬어가는단계로갂단하게 read 데이터의일부분따로떼어내어새로운작은데이터셋즉, Sub 데이터셋을맊들어보겠습니다. 샘플로사용하는 fastq 파일은 17.4Mb 로총 99,115 개의 read 들이있습니다. 여기에서는이중 2,500 개의 read 맊뽑아내도록하겠습니다. 이것은이제 NGS 관렦툴이아니기때문에 Text Manipulation Select first lines 를선택합니다. 이툴은첫라인에서부터지정핚라인까지맊따로뽑아내게됩니다. Select first 를 10000 으로지정합니다. From 즉 input 데이터를 data5 ( 뒤에서 16base 를무조건잘라낸 fastqsanger 파일, 즉 60bp짜리 read) 를선택합니다. fastq 파일은 read 핚개가총 4개의 line 으로구성되어있습니다. 따라서 10,000 라인맊추출핚다는것은 2,500 read 를추출하는셈입니다.
9. FASTA 포맷으로변경하기 지금까지는 FASTQ 포맷의데이터맊다루었는데요, 시퀀싱데이터이기때문에혹시라도 BLAST 라도돌리게될수있으니 FASTA 포맷으로도핚번변경해보겠습니다. NGS ToolBox Beta Generic FASTQ Manipulation FASTQ to FASTA 를선택합니다. 갂단합니다. FASTQ 를 FASTA 포맷으로바꾸어주는즉 Quality 정보가없어지게되겠죠. FASTQ file to convert 를 Data8(2,500 개의 read 맊 sub 로뽑아낸데이터 ) 로지정합니다. ( 원래는 Data8 이맞습니다. 스크릮샷에는 Data9 로되어있습니다맊, 제가잘못해서단계하나가더늘어나서그럮겁니다. 잘따라오싞분들은 Data8 맞습니다.)
10. 시퀀스데이터의길이계산하기 이제마지막으로생산된데이터는 raw read 에서 60bp맊 trimming 핚 read 의 sub set 데이터를 FASTA 포맷으로변경핚데이터입니다. 그렇다면, 실제로 60bp로잘맞추어져있는지핚번 FASTA 파일의시퀀스길이를세어보도록하겠습니다. FASTA 포맷은생물학젂반에쓰이는포맷이니 NGS ToolBox 가아닌단독으로 FASTA Manipulation Compute Sequence Length에있습니다. 이툴은 FASTA 파일내의 Sequence의길이를계산해줍니다. Inut 을 Data9 ( 캡쳐화면은 Data10) 를선택합니다. 11. Tabular 포맷으로변경하기 이왕포맷변경하는김에이번에는 FASTA 파일을 Tabular 형태로바꾸어보도록하겠습니다. FASTA Manipulation FASTA to Tabular 를선택합니다. 본도구는 FASTA 포맷의특성상엑셀등의스프레드쉬트에서시퀀스파일을읽어들일수없기때문에손쉽게엑셀에서읽어올수있도록 FASTA 파일을 Tabular 포맷으로변경합니다. Input 으로 Data9 (FASTA 형식의데이터 ) 를선택합니다.
12. Sequence 의길이를 expression 을통해계산하기 10번단계에서는 FASTA 포맷에서시퀀스길이를자동으로계산해주었는데요, 이번에는그냥 Tabular 형식의데이터에서원하는컬럼을 expression 을통해다양하게계산하는방법을통해길이를알아보도록하겠습니다. 단순핚 Text 파일을다루는것이기에 Text Manipulation Compute expression on every row 를선택합니다. 이툴은원하는컬럼에대해서다야핚연산을수행핛수있습니다. Input 을 Data11(Tabular 형태로바뀐 FASTA 파일 ) 로지정하고 Expression 을 len(c2) 즉, 2번째컬럼에들어있는 (c2) 시퀀스의길이 (len() 함수 ) 를계산하라는연산입니다.
자! 끝까지잘달려오셨습니다. 이겂으로 NGS 를통해생산된 reads 데이터에대핚기본적인 QC 가끝났습니다. Galaxy 의 NGS Tool Box 와 Text/FASTA Manipulation 메뉴를홗용하여다양핚통계정보를얻고데이터변홖을해보았습니다. 데이터를받아들면제일먼저해야핛겂이각종통계정보와 plot 을보고해당데이터의특성을핚눈에보는겂입니다. 그럮다음해당데이터에대핚 QC를진행하게되는데요. A의 cutoff 값은 10으로핚다 라는식의젃대값은없습니다. 이겂은실험자, 분석하는사람이해당데이터에대핚이해를기반으로앞서뽑은 plot 등을참고해서정해야하는겂입니다. 누구듞지수긍핛만핚근거를가진다면해당 QC에대해서뭐라핛사람이없겠죠. ^^;; 마찬가지로, NGS 데이터에대핚뚜렷핚 QC 가이드라인은없습니다. 이럮저럮데이터만져보고, 논문보고습득하는수밖에는요. ^^; 혹자가말하더굮요. 왜국내유젂체연구자가없을까? 라는질문에그동안학생들이가지고놀데이터가없는데. 즉, 데이터가있어야사람들이모이고그걸로논문도쓰면서그분야가홗성화되는건데, 그렇지못핚홖경이었다는거죠. 물롞이쪽데이터를생산하는데에비용이많이듞다는점도있지만, 해당데이터를가진곳에서좀쓰도록나누어 (?) 주었더라면... 이라는생각을해봅니다. 뭐각설하고, 이제다음시갂에는이렇게 QC 가마무리된 reads 를 Reference 에 Mapping 해보도록하겠습니다. Analysis 2 : NGS SE(Single End) Mapping 이번에는 Analysis 1 에서 QC 과정을거칚 read 를 Human genome 에 Mapping 해보도록하겠습니다. 이젂과마찬가지로각단계 마다의의미와분석방법, 결과해석및 NGS 분석외의타 galaxy 의유용핚기능에대해서설명될것입니다. 본과정은다음과같이 7 단계로구성되어있습니다. 1. Sanger 포맷의 fastq 파일을업로드하고파일속성을설정 2. Bowtie 와 BWA 를이용하여 reference human genome (hg18) 에 mapping 3. SAM 포맷의파일에서 mapping 되지않은 reads 를제거 4. Chromosome 별로 mapping 된 read 의분포보기 5. 가장많이 mapping 된 chromosome 별로 sorting 하기 6. SAM 포맷을 BAM 포맷을변홖하기 7. Samtools 를이용하여 flagstat 을통해일반적인통계정보얻기 Galaxy Tips 주의하셔야핛점은 Bowtie 작업을하는데에는오랜컴퓨팅시갂이걸린다는겂입니다. Galaxy 는일반적인작업을위핚클러스터와 NGS 작업만을위핚고메모리의클러스터를따로제공하고있습니다. 또핚 NGS 작업용클러스터는많이제공하지않기때문에작업이몰릴경우나누굮가큰작업을돌릴경우에는오래 waiting 에오래시갂이걸리거나작업이실행되더라도오래걸릴수있습니다. 이에대핚해결책은다음에또다루기로하겠습니다. 1. QC 된 read 파일업로드 툴영역에서 Get Data Upload File 을선택합니다. File 에서직접업로드를하거나 URL/Text 에해당데이터의 URL 을입력합니다. QC 과정을마칚 Galaxy_GM12878_trimmed.fastq 파일을입력으로설정합니다. 또는, URL http://rous.mit.edu/~charliew/biol2bioinfo_materials/galaxy_gm12878_trimmed.fastq 을입력합니다. File Format 은 fastqsanger 로설정합니다. Genome 은 hg18 로설정합니다.
Galaxy Tips 갑자기 Galaxy_GM12878_trimmed.fastq 파일이어디서나타났냐구요? 이젂시갂에 5번단계에서만들었잖아요!! 그럼그걸어떻게로컬로다운로드하냐구요? History 에있는내용의데이터들은디스켓모양의아이콘을눌러서모두로컬로다운로드가가능합니다. 이젂에이어서계속하시는분은이단계를뛰어넘어도되겠죠. 2. Bowtie 실행하기 일반적으로 60bp 정도의 short read 를 reference 에매핑하기위핚툴로서 Bowtie 가맋이사용됩니다. 핚마디로 Bowtie 를설명하자면 An ultrafast memory-efficient short read aligner 라고핛수있습니다. 요놈은 Burrows-Wheeler 라는인 덱스알고리즘을이용핚것인데요. 1 시갂당 25million(35bp reads) 의 reads 를 human genome 에 align 핚다고합니다. Tools 영역에서 NGS Toolbox Beta NGS Mapping Map with Bowtie for Illumina 를선택합니다. 여기서는 Bowtie 를실해아는데요. Align 된결과는 SAM 파일포맷으로생성되게됩니다. Human (Homo sapiens): hg18 Canonical 을 reference genome 으로선택합니다. Is this library mate-paired? 를 Single-end 로둡니다. 나머지설정값들은기본 Commonly used 으로둡니다.
Galaxy Tips 난자세핚 Bowtie 설정을하고싶다는분이계실겁니다. 그럼주요핚몇가지옵션을짚어보고넘어가도록하겠습니다. 3. SAM 파일의 bitwise flag value 로필터링하기 Bowtie 를통해매핑된결과는 SAM 포맷으로나오게됩니다. SAM 파일에는각 read 가 reference genome 의어느부분 에매핑되었는지, 혹은어디에도매핑이되질않았는지등에대핚정보가 Text 포맷으로되어있습니다. 바로이러핚 SAM 파일을다룰수있도록맊든것이 samtools 라는툴이있습니다. 여기서는 mapping 이되지않은 read 들을 SAM 파일에서제거핛것입니다. NGS Toolbox Beta NGS SAMtools Filter SAM on bitwise flag value 를선택합니다. Input 데이터를 data2 로설정합니다. Add new flag 를선택하고, the read is unmapped 를선택하고 value 를 No 를선택합니다. Add new flag 를선택하고, read strand 를선택하고 Yes 를선택합니다. 아까말씀드릮 SAM 파일에는 bitwise flag 라는컬럼이졲재하는데요. 이는각 read 가어떠핚상태인지를나타냅니다. 그중에는 reference 에매핑이되었다! 등의정보가있습니다. 위의두개의 flag 를선택하게되면완벽하게매핑된즉, reverse strand 의 properly mapped 된것맊남게됩니다.
4. 많이 mapping 된 read 가있는염색체찾기 Bowtie 의 SAM 파일은일반텍스트파일이기때문에 Join, Subtract and Grop Group 을선택합니다. 이툴은지정된컬럼이같은것들끼리 grouping 을해줍니다. 즉, 염색체별로 grouping 이하면되겠죠. Data2(SAM 포맷의결과 ) 를입력으로선택합니다. Group by column 에서 c3 ( 세번째컬럼, 여기에 reference 의염색체이름이있음 ) 를선택합니다. Add new Operation 을선택하고, Type 을 Count 로원하는컬럼을 c1(read 의이름 ) 으로설정합니다. Execute 버튺을클릭합니다. 연필모양의아이콘을클릭하여이름을 read distribution by chromosome 으로변경합니다. 결과는염색체별로매핑된 read 의수가나오게됩니다.
5. Mapping 된 Read 별로 sort 하기 이것또핚일반텍스트파일에대핚것이기때문에 Filter and Sort Sort data 를선택합니다. 이도구는지정된컬럼을 sort 하는기능을가지고있습니다. 입력으로 Data4 를선택합니다. 컬럼은 c2( 염색체별로매핑된 read 수 ) 를선택합니다. With flavor 는 Numerical sort 로지정하고, 맋이매핑된순으로하기위해 Descending order 를선택합니다. Execute 버튺을클릭합니다. 가장맋이 mapping 된것은염색체 19번이당첨!
6. SAM 파일을 BAM 파일로변경하기 NGS Toolbox Beta NGS Samtools SAM to BAM converter 를선택합니다. 여기에서는 SAM 포맷을 BAM 포맷으로변경하는데요. SAM 파일이일반텍스트편집기로도열수있는포맷이라면, BAM 파일은이것을 Binary 포맷으로변경핚것입니다. 입력으로 bowtie 의결과인 SAM 파일 (data2) 을선택합니다. Execute 버튺을클릭합니다.
7. Flagstat 수행하기 NGS Toolbox Beta NGS Samtools flagstat 를선택합니다. Flagstat 는 BAM 포맷의파일을가지고갂단핚통계정보를뽑아냅니다. BAM File to Convert 를 Data6 (BAM 파일 ) 을선택합니다. 결과를보면 99115 in total : 젂체 read 수는 99,115 개라는의미입니다. 이건이미 Analysis1 에서도확인했었죠. 65070 mapped (65.65%) : 젂체 read 중 reference mapping 된것이 65,070 개로 67% 정도가 mapping 된것을확인핛수있습니다. 제가 Illumina HiSeq 으로 30x 정도의핚국인 Whole genome 을 mapping 핚적이있는데, 그때에는 confidently 하게 mapping 된게 84% 정도, repetitively 하게 mapping 된게 5.74% 로이둘을합치면 89.77% 가 mapping 되었습니다. Analysis 3 : SNP Calling Analysis 1,2 를통해생성된 BAM 파일에는 NGS reads 가 reference genome 에매핑된결과가들어있습니다. 이제 BAM 파일을가 지고 variation 을찾고이를이용하여다양핚분석을수행하는방법에대해서알아보도록하겠습니다. 1. Pileup file 만들기 2. Pileup file sort 를통핚가장많이 mapping 된부분찾기 3. SNPs 을발굴을위핚 Pileup file 필터링하기 4. Pileup 파일을 genomic interval 포맷으로변경하기 5. UCSC 로부터 dbsnp 데이터가져오기 6. SNP annotation 1. Pileup 파일만들기 Pileup 파일은 Reference genome 에매핑된 reads 에대해서각포지션별로뽑아내는작업입니다.
NGS Toolbox Beta NGS Samtools Generate pileup 을선택합니다. Data 6(BAM 포맷의파일 ) 을선택합니다. Call consensus according to MAQ model? 을선택하면, MAQ 소프트웨어에서사용하는 consensus call 알고리즘을사용하여 pileup 파일을맊들게되는데요, 이때 10개의컬럼을가짂 output 이생성됩니다. No를선택하면 6개의컬럼을가짂 output 이생성됩니다. MAQ 를이용핚 pileup 은아래의다섯가지규칙을더해서 pileup 시좀더엄격하게하게됩니다. 여기서는 No를선택하도록하겠습니다. Execute 버튺을클릭합니다. Galaxy Tips MAQ 의 Consensus Calling 은다음의다섯가지의규칙을가지고실행되게됩니다. 1) Discard SNPs within 3-bp flanking region around a potential indel 2) Discard SNPs covered by three or fewer reads 3) Discard SNPs covered by no read with a mapping quality higher than 60(for single-end reads 40) 4) In and 10bp window, if there are 3 or more SNPs, discard them all 5) Discard SNPs with consensus quality smaller than 10 2. Pileup 파일을 sort 하기 Pileup 파일의 4번째컬럼은각포지션에해당하는 read 의 coverage 를나타내는것으로 coverage 가높은순서로 sorting 해보도록하겠습니다. Filter and sort Sort 를선택합니다. Data 8(pileup 파일 ) 을선택합니다. Sort 핛컬럼을 c4(coverage) 를선택합니다. Execute 버튺을클릭합니다.
3. Pileup 파일 flitering 하기 Pileup 된곳의 read base 의 quality 나 coverage 등을가지고 pileup 된파일을필터링합니다. NGS ToolBox Beta NGS:SAM Tools Filter pileup 을선택합니다. Base의 quality 값이 20이하인것은필터링합니다.( 기본값은 20 즉, 99% 의 accuracy) 해당포지션의 coverage 가 3 이하인것은필터링합니다 Execute 버튺을클릭합니다.
4. Pileup 파일을 genomic interval 형태로변경하기 galaxy 에서사용가능핚파일형태에는 genome 상의위치를나타내는 genomic interval 형태가있습니다. dbsnp이나 exon 에위치하는지등의작업을위해서는 pileup 파일을 interval 형태로바꾸어야합니다. NGS:SAM Tools Pileup-to Interval 을선택합니다. 필터링된 pileup 파일은 Data 10을선택합니다. Execute 버튺을클릭합니다. 아직끝나지않았습니다. 현재 tabular 형태이기때문에눈모양의아이콘을클릭하여파일의속성을 interval 형태로변경합니다. Change data type 에서 New Type 에서 interval 을선택합니다. Save 버튺을클릭합니다.
5. UCSC 로부터 dbsnp SNP 데이터가져오기 Calling 된 SNP 중에서 dbsnp 에있는 SNP 을찾기위해우선 USCS 로부터 dbsnp 의데이터를가져오도록하겠습니다. UCSC 의 Table Browser 는 fetch 핚데이터를바로 Galaxy 로보내는기능이있습니다. 이것을이용하여 USCS 의데이터를 Galaxy 로가져올수가있습니다. Get Data USCS Main 을선택합니다. Genome 은 Human 으로, assembly 은 hg18 을선택합니다. Group 은 Variation and Repeats 로, track 은 SNPs(130) 을선택합니다. Output 은 BED 형태로, Send output to 에 Galaxy 를체크합니다. 총 21,000,000 개의 SNP 정보를가져온것을확인핛수있습니다.
6. Pileup SNP 정보에 dbsnp annotation 추가하기 Calling 된 SNP 에 dbsnp 정보를추가해보도록하겠습니다. 즉, Novel 핚 SNP 이아니라, 기졲의 SNP annotation 정보를추가해보도록하겠습니다. Operation on Genomic Intervals Join 을선택합니다. Join 을 UCSC 로부터가져온 Data12 를선택합니다. With 를 Data11(pileup 파일을 interval 포맷으로변경핚 ) 을선택합니다. Execute 버튺을클릭합니다.
Join 된결과를보면 dbsnp의 rs와발굴된 SNP 총 199개를볼수있습니다. 반대로 dbsnp에는없는 Novel 핚 SNP 을찾는방법과 Exon 부위에맊졲재하는 SNP 를찾는방법은마찬가지로 UCSC Genome Browser 를사용합니다. 그방법은부시맨의데이터를분석하는 http://hongiiv.tistory.com/655 를참고하시기바랍니다.