CLgenomics User Manual 한글 Korean Version App. Version 1.51 www.chunlab.com
CLgenomics TM User Manual App Version 1.51 Windows and Mac OS X ( 주 ) 천랩서울특별시관악구관악로 1 서울대학교유전공학연구소 105-1 동 307 호 Tel: 82-2-875-2501 Fax: 82-2-875-7250 E-mail: info@chunlab.com
K231 CLgenomics TM User Manual (App version 1.51) July 2015 목차 새로추가된사항들... 1 VERSION 1.51... 1 1. CLgenomics TM 의설치... 3 CLgenomics TM 다운로드받기... 3 License Key 의발급... 3 CLgenomics TM 의설치... 4 2. 시작하기전에... 6 CLgenomics TM 의역할... 6 CLgenomics TM 의기능... 7 CLgenomics TM 파이프라인... 7 CLgenomics TM 의파일... 9 CLgenomics TM 의 Version... 9 3. 파일열기... 10 파일열기... 11 4. GENOME BROWSER... 12 Genome Browser 영역... 12 Control 패널을이용한조작... 13 Genome 패널의내용... 16 5. DATA EXPORT... 21 이미지형태의데이터출력... 22 텍스트형태의 sequence 데이터출력... 23 텍스트형태의 Genome 통계데이터출력... 25 2015 ChunLab, Inc. All rights reserved.
6. GENOME ANALYSIS... 27 Whole Genome Alignment... 27 BLAST를이용한 homolog 탐색... 28 Average Nucleotide Identity (ANI) Value 연산... 29 7. PATHWAY ANALYSIS... 31 8. COMPARATIVE GENOMICS ANALYSIS... 34 9. 기타... 39 Glossary... 39 Position 표시... 40 독립실행도구... 40 10. REFERENCE... 41 2015 ChunLab, Inc. All rights reserved.
K231 CLgenomics TM User Manual (App version 1.51) July 2015 CLgenomics TM 는천랩에서개발한미생물의 유전체분석용소프트웨어 패키지입니다. 천랩의미생물 유전체분석서비스는차세대염기서열분석기술인 Illumina 및 Roche sequencing을기반으로하며, 이들 NGS 기기로부터나온대용량의염기서열데이터를천랩이구축한생물정보학파이프라인을통하여분석하고그최종결과물을 CLgenomics TM 프로그램전용 clg (*.clg) 파일로변환하게됩니다. 또한천랩은현재공개된모든미생물유전체정보들을 CLgenomics TM 로열어볼수있도록 genome database를구축하고있으며, EzBioCloud (http://ezgenome.ezbiocloud.net/) 웹사이트를통하여공개되어있는모든미생물의 clg (*.clg) 파일을제공하고있습니다. CLgenomics TM 는생물정보학전공자가아니어도쉽게유전체분석을할수있도록쉬운사용자 interface를구현하였으며, genome map, BLAST, genome comparison, genome 간 similarity 분석등유전체 분석에필요한기능을다수포함하고있습니다. 이외에연구자는 CLgenomics TM 프로그램을사용하여여러개의 clg (*.clg) 파일을열어서로다른미생물유전체들의내용을상호비교하거나다양한통계분석을수행할수있습니다. 이문서는 CLgenomics TM 프로그램의설치과정으로부터전반적인사용법그리고 CLgenomics TM 를이용하여연구자가어떤정보를얻을수있는지에대한설명을제공합니다. 2015 ChunLab, Inc. All rights reserved.
새로추가된사항들 VERSION 1.51 1. CLG 분석파이프라인이업데이트되었습니다. * Gene finding program, 및 annotation 되는 module 등을최적화시켰습니다. * KEGG annotation 정보가삽입되었습니다. 2. KEGG pathway 분석모듈이추가되었습니다. * Comparison --> pathway viewer 메뉴를통해서 pathway 분석을수행할수 있습니다. 3. Comparative genomics 분석모듈이업데이트되었습니다. * 전체적인 genome comparison pattern 을살펴볼수있는 panel 을추가하여 사용자가쉽게분석할수있도록 UI 를변경하였습니다. 4. genome browser UI 개선, eggnog database 추가, 기타버그들을수정하였습니다. * 2015 년 7 월전에분석한 CLG 파일중, KEGG 분석모듈을사용하거나 CG 파일에 version CLG 파일과맞지않는경우 info@chunlab.com 에문의해주시길바랍니다. 2015 ChunLab, Inc. All rights reserved. 1
* 새로운분석파이프라인으로분석할경우 gene finding 알고리즘과 annotation databse 가최신버전으로업데이트되어서, 기존에있던 genome 의유전자개수와유전자 annotation 정보가일치하지않을수있습니다. 기존의정보를유지하면서 pathway 분석등새로운기능을사용하고자할때도문의해주시길바랍니다. * 최적화된분석파이프라인으로 set up 하였기때문에새로운분석 파이프라인으로분석된새로운 clg 파일을권장합니다. 2015 ChunLab, Inc. All rights reserved. 2
1. CLgenomics TM 의설치 CLGENOMICSTM 다운로드받기 CLgenomics TM 는천랩홈페이지 (http://www.chunlab.com/software_clgenomics_ download) 에서최신버전을다운받을수있으며, 최초설치이후부터는업그레이드된버전이배포되면자동으로업데이트가진행되고, 별도의설치과정은필요하지않습니다. 기본적으로 CLgenomics TM 는연구자들에게무료로제공되는 freeware이지만, 다운로드하기위해서는천랩웹사이트에서회원가입절차를거쳐야하며, 설치과정에필요한라이센스코드를발급받아야만합니다. LICENSE KEY 의발급 CLgenomics TM 를설치하는과정중에라이센스입력을필요로합니다. 이때사용 할라이센스를발급받습니다. 라이센스를발급받는과정은다음과같습니다. 1 회원계정생성 (http://www.chunlab.com/) 2 Apply 버튼을클릭하면생성되는라이센스키를복사 3 사용자의컴퓨터사양에맞는설치패키지내려받기. (http://www.chunlab.com/software_clgenomics_download) 2015 ChunLab, Inc. All rights reserved. 3
1 2 3 Figure 1. http://www.chunlab.com/software_clgenomics_download 에접속한모습. 1~3 번 과정을거쳐 CLgenomics TM 를다운받을수있습니다.\ CLGENOMICSTM 의설치 위의 3번과정에서내려받은프로그램을설치한후에프로그램을실행시킵니다. 1 설치될위치를지정해줄수있으며, 지정해주지않으면기본위치에설치됩니다. 2 회원계정 ( 가입시메일주소 ) 과 2번과정에서복사한라이센스키를붙여넣기합니다. 설치후최초실행시에만필요한과정입니다. 2015 ChunLab, Inc. All rights reserved. 4
Figure 2. CLgenomics TM 의설치과정. E-mail 항목에는천랩홈페이지에서회원가입시 등록했던 email 을입력하며, license key 항목에는천랩홈페이지에서발급받은 license key 를기입합니다. License key 의발급항목참조 CLgenomics TM 는 Windows OS 또는 Mac OS에실행되도록개발되었으며, JAVA 기반의 프로그램이기 때문에 정상적인 설치 및 실행을 위해서 Sun Microsystems사의 Java Runtime Environment (JRE) 가설치되어있어야합니다. JRE가정상적으로설치되었다면, CLgenomics TM 설치패키지를다운받아설치를 해야하며, 다운로드페이지에는 Windows의경우 32 bit와 64 bit의두가지버전을 다운받을수있도록되어있는데, 설치하려는컴퓨터의시스템사양에맞는 버전으로설치해야합니다. 1. JRE의설치 http://www.java.com/en/download/manual.jsp 2. CLgenomics TM 설치패키지다운로드 (Windows의경우 32 bit와 64 bit 중 시스템에맞는버전으로택일 ) 3. CLgenomics TM 설치 설치시에별도로설치경로를지정하지않는경우, 모든천랩소프트웨어의기본 설치경로인 C:\Chunlab\CLgenomics TM 에파일이설치됩니다. 2015 ChunLab, Inc. All rights reserved. 5
2. 시작하기전에 CLGENOMICSTM 의역할 CLgenomics TM 는 NGS 기기로부터생산된 raw data를천랩의파이프라인을통해조립하고 annotation 결과및변환한결과를열고분석하기위한소프트웨어입니다. CLgenomics TM 를통해연구자는복잡한유전체정보를쉽게확인할수있으며원하는형태의결과로변환할수있고미생물유전체들간의비교도손쉽게수행할수있습니다. Figure 3. NGS 데이터의생산및분석변환과정. CLgenomics TM 프로그램을이용하여 clg (*.clg) 파일에서원하는내용의데이터를출력및저장할수있습니다. 2015 ChunLab, Inc. All rights reserved. 6
CLGENOMICSTM 의기능 CLgenomics TM 는크게 1) 유전체상의유전자들및각종 feature를탐색할수있는 browser, 2) 원하는형태로유전체정보를변환하여저장할수있는 data transformation, 3) BLAST 및여러도구를이용하여유전체의분석및유전체들간의비교, 분석을할수있는 analysis의 3가지기능을가지고있습니다. Figure 4. CLgenomics TM 의기능. 크게 genome browser, data transformation, analysis 3 가지의 기능을수행할수있습니다. CLGENOMICSTM 파이프라인 CLgenomics TM 파이프라인은다음의다섯단계로구성됩니다. 먼저 1)NGS 기계로부터얻어진 Sequencing Raw Data 의 Quality check 를통해 Quality 가낮은 Sequence 를 Trim 또는 Filtering 하는과정을수행하고, 2) 짧은 NGS Sequencing 2015 ChunLab, Inc. All rights reserved. 7
Data를 Assembly 하여긴 Contig 또는 Chromosome Sequence로조립하게되며, 3) trna, rrna, CRISPR, CDS(Protein coding region) 및 non-conding RNA 부위들을 Prediction하여유전자부위를찾고 (Gene Finding), 4) CDS로 Prediction 된부분에대하여알려진 Protein Database(Swiss-Prot, KEGG, SEED, EggNOG) 들과 Similarity Search를수행하여유전자부위에대한 Functional Annotation을하여, 5) 마지막으로앞선과정에서의 Input, Output에대한통계적인계산및결과물들을모두모아 CLgenomics TM 에서읽을수있는 Format인 CLG파일로만드는작업 (Build CLG) 을수행합니다. Figure 5. genome 분석파이프라인모식도 2015 ChunLab, Inc. All rights reserved. 8
CLGENOMICSTM 의파일 CLgenomics TM 가오픈하는파일의확장자는 clg (*.clg) 입니다. clg (*.clg) 파일은 천랩의분석파이프라인을통해만들어지며, 다른형식의파일은지원하지 않습니다. CLGENOMICSTM 의 VERSION CLgenomics TM 의최신버전은 1.51 이며, 이문서는 1.51 을기준으로작성 되었습니다. 2015 ChunLab, Inc. All rights reserved. 9
3. 파일열기 CLgenomics TM 가읽을수있는파일의형식은천랩의분석파이프라인에서최종결과물로생성되는파일형식인확장자 clg (*.clg) 를갖는파일입니다. Sequencing 데이터인 FASTQ 혹은 FASTA 파일은열지못합니다. CLgenomics TM 을이용하여 genome sequencing 결과를분석하기위해서는천랩파이프라인에의해변환된 clg (*.clg) 파일이필요하며, genome 한개당 clg (*.clg) 파일한개가생성됩니다. 프로그램을실행시키면 figure 5 와같이기본화면이나오며, 사용자의입력을 대기합니다. Figure 6. CLgenomics TM 을실행시켰을때의화면. 화면의메뉴들중에 File 메뉴를통해 원하는 genome 의 clg (*.clg) 파일을불러오거나예시로제공된파일을열수있습니다. 2015 ChunLab, Inc. All rights reserved. 10
파일열기 메뉴들중에 File 메뉴를통해파일한개혹은여러개의파일을동시에열수있습니다. [File > Open]: File 메뉴에서한개파일혹은여러개의파일을선택하여동시에데이터파일을열수있습니다. [File > Recent files]: 최근에열었던파일들의목록을확인할수있으며, 목록에있는파일을선택하면해당파일이열립니다. [File > Open Examples]: 내장된예시데이터 ( 예 : E. coli) 를열고자할때사용합니다. Drag and Drop으로파일열기 : 윈도우탐색기에서 clg (*clg) 파일을한개혹은여러개의파일을선택하여 CLgenomics TM 에 drag and drop하여로딩할수도있습니다. Figure 7. File 메뉴를통해원하는 genome 의 clg (*.clg) 파일을불러오거나예시를로딩할 수있습니다. 2015 ChunLab, Inc. All rights reserved. 11
4. GENOME BROWSER CLgenomics TM 의 genome browser 는각유전체의유전자들을살펴보고각각의기능 탐색및 browser 상에서여러미생물유전체들간의 synteny ( 구조적유사성 ) 비교 등의기능을수행할수있도록개발되었습니다. GENOME BROWSER 영역 Genome browser 영역은크게상단의 control 패널과중앙의 genome 패널로구분됩니다. 기본적으로상단의 control 패널의버튼들을이용하여 browser의확대, 축소및이동이가능합니다. 또한정확히원하는위치로이동하거나특정유전자를탐색하여이동할수있습니다. Genome browser의중앙부분은로딩된 genome들의유전자및기타 feature들을화살표막대형태로일직선상에표현하는 genome 패널입니다. 여러개의유전체가로딩되었을경우선택된유전체가파란색으로강조되며, 마우스클릭을통해원하는유전체를선택할수있습니다. 2015 ChunLab, Inc. All rights reserved. 12
Figure 8. Genome browser 의구성. 상단영역은원하는위치로화면을이동시키기위한 버튼들이위치해있는 control 패널입니다. 중앙영역은 genome 패널로각유전체들마다 annotation 되어있는유전자들을화살표막대로표현합니다. CONTROL 패널을이용한조작 1. 화면영역이동 <2, <1, <1/2, <1/10, 1/10>, 1/2>, 1>, 2> 버튼을이용하여좌우로해당하는영역만큼을이동할수있습니다. 단위는 screen을의미합니다. 또한화면맨아래쪽의스크롤바를이용하여이동할수도있는데, X축전체길이가 genome의전체길이와매치되어특정부분을클릭하면해당위치로바로이동이가능합니다. 2015 ChunLab, Inc. All rights reserved. 13
2. 확대및축소 Zoom in (-) 버튼및 zoom out (+) 버튼을이용하여 mapping browser 를확대및 축소할수있습니다. 및 + 키를이용하여단축키이용이가능합니다. Figure 9. Control 패널의조작방법 (1) 3. 위치검색 (Goto) Position 입력을통해 genome 상에서해당 nucleotide 위치로이동할수 있습니다. 4. 위치및유전자검색 (Find) 유전자이름또는기능 (Ex. Gyrase or reca) 을입력한후 Find 버튼을클릭하여이동할수있습니다. 만약검색한내용의유전자가존재한다면해당되는 genome 상의유전자위치로이동하며해당 CDS가음영처리됩니다. 또한검색한내용의유전자가유전체상에여러개존재한다면 Find next 또는 Find prev 버튼을클릭하여상호간에이동할수있습니다. 2015 ChunLab, Inc. All rights reserved. 14
Figure 10. Control 패널의조작방법 (2). 각기능들을단축키로사용가능합니다. 5. 단축키사용아래와같이각기능들에단축키가부여되어이를이용할수있습니다. - 방향키좌, 우 : 미세이동 - Ctrl + 방향키좌, 우 : 한화면씩이동 - 방향키상, 하 : zoom in / out - 숫자키패드 + / -: zoom in / out - tab, shift + tab: 샘플간이동 2015 ChunLab, Inc. All rights reserved. 15
GENOME 패널의내용 한개의 genome 데이터는하나의 clg (*.clg) 파일로만들어지며, 여러개의 clg (*.clg) 파일들을동시에여는경우여러개의 genome 패널들이 CLgenomics TM 내에생성됩니다. Figure 7 의경우 3 개의 genome 이로딩되어있습니다. Genome 패널은크게메뉴패널과 feature 패널로구분할수있습니다. 메뉴패널 메뉴패널은좌측으로부터현재 contig 이름 ( 선택박스 ), sync check box, reverse check box, genome 위치, genome size, panel 위치조정, 그리고닫기버튼으로 구성됩니다. 1. Contig 선택메뉴 : 현재화면에보여지고있는 contig 이름또는번호를나타냅니다. 해당 genome에여러개의 contig가포함되는경우리스트를보여주며, 이동하기를원하는 contig를선택할수있습니다. 2. Sync 체크박스 : 이 check box가체크된유전체들은이동시에함께움직입니다. 3. Reverse 체크박스 : 체크하면바로유전체전체가 reverse complement로방향이바뀝니다. 4. 현재보여지고있는 clg 파일의 genome 상의위치를표시합니다. 5. 선택된 genome 의전체 genome size를표시합니다. 6. panel의위치를위아래로조절할때사용합니다. 7. Close: 해당유전체패널을닫고자할때선택합니다. 2015 ChunLab, Inc. All rights reserved. 16
Figure 11. Genome 패널내의메뉴패널설명. Feature 패널 Feature 패널은좌표를보여주는눈금과양방향의 feature를나타내는이미지들로구성됩니다. 좌표는 View 메뉴에서옵션을선택하여가리거나다른눈금을보여주도록선택할수있습니다. 각 feature를나타내는화살표막대는해당 feature가 leading strand 또는 lagging strand 중에어디에속하는가에따라방향성을가지고있으며, 막대의컬러는 eggnog category 컬러와같고, RNA 및 hypothetical protein은흰색으로나타납니다. Feature 패널에보여지는임의의 feature 위에마우스를올리고마우스왼쪽버튼을클릭하면, 해당 feature에대한정보를보여주는 Feature 윈도우가생성됩니다. Figure 12. Genome 패널내의 feature 를클릭했을때나오는 Feature 윈도우 2015 ChunLab, Inc. All rights reserved. 17
Feature 윈도우 Feature 윈도우는 feature 에대한기본적인 annotation 정보를보여주며, 기타분석에필요한간단한기능들이포함되어있습니다. 유전자클릭시창이열리며, 마우스를다른곳으로이동시키거나, esc 버튼을누르면창이닫힙니다. 1. Reference: 현재열려있는다른유전체들의 feature 들중에서현재선택된 feature 와동일기능을갖는 (reference feature name 이같은 ) feature 를찾아서화면상에정렬시킵니다. 2. BLASTP: Reference feature 에대한정보가없을경우, BLASTP 를이용하여다른 genome 에존재하는 homologous feature 를찾는기능을제공합니다. BLASTP 의결과, homologous feature 가다른 genome 에존재한다면, reference feature 탐색의결과와마찬가지로정렬되어보여집니다. 3. Center: 선택된 feature 를화면의가운데로이동시킵니다. 4. Edit: Edit button 을클릭하여사용자가직접 annotation 정보를입력하여저장할수있습니다. 5. Pathway : 해당유전자의 pathway 정보가있는경우표시됩니다. 클릭하면각 pathway 창이뜨고해당유전자가빨간색으로표시됩니다. 6. Copy to Clipboard: 해당 feature 의 DNA sequence 또는 protein sequence 를복사해두는기능을제공합니다. 2015 ChunLab, Inc. All rights reserved. 18
Figure 13. Feature 윈도우. 해당 feature 의 annotation 정보및 homolog search 등의기능을 제공합니다. Figure 14. Feature 윈도우의 Reference 기능을이용해정렬한모습 2015 ChunLab, Inc. All rights reserved. 19
2015 ChunLab, Inc. All rights reserved. 20
5. DATA EXPORT CLgenomics TM 에내장된 genome map 및각종통계수치를이용해이미지및표, 리포트형태로저장할수있는기능을제공합니다. Contig 와 Scaffold Sequencing 결과를분석하면기본적으로조립된 sequence들의조각인 contig가생성됩니다. 일반적으로 Illumina sequencing만으로는 contig들간의순서를알수없으며, 이정보를얻기위해서는 454 paired-end sequencing이필요합니다. 454 PE sequencing이수행되면순서를알고있는 contig들의집합인 scaffold가생성됩니다. 2015 ChunLab, Inc. All rights reserved. 21
이미지형태의데이터출력 Map 메뉴를이용하여 genome 데이터를시각화하여이미지형태로출력및 저장하는기능을제공합니다. [Map > Browse genome map]: Genome map 을 circular 형태의이미지로보여줍니다. [Map > Save as SVG format] 와 [Map > Save as PNG format]: 이를이용하여 circular genome map 을이미지파일의형태인 SVG 또는 PNG 파일형태로저장 가능합니다. Circular image 는여섯개의원으로구성되며, 각원은외곽으로부터 안쪽으로 rrna 및 trna, Reverse CDS, Forward CDS, GC Skew 와 GC Ratio 의 정보를각각담고있습니다. Figure 15. E. coli subsp. K-12 substr. MG1655 circular genome map. 가장바깥쪽원부터각각 rrna 및 trna, reverse CDS, forward CDS, GC skew, GC ratio의정보를나타냅니다. 왼쪽상단에서 chromosome 또는 contig를선택할수있으며, 오른쪽상단에서 zoom in / out을할수있습니다. 2015 ChunLab, Inc. All rights reserved. 22
텍스트형태의 SEQUENCE 데이터출력 Export 메뉴를이용하여앞의이미지형태의데이터출력과달리텍스트형태의 데이터출력기능을이용할수있습니다. Figure 16. Export 메뉴의구성. 이를이용해 genome 데이터를원하는형식으로저장 가능합니다. [Export > AGP]: Scaffold 정보를보여주는 AGP 파일을저장합니다. 저장된 AGP 파일은 MS Excel 이나기타텍스트뷰어로열수있습니다. Sequencing 결과, scaffold 가생성되지않았을경우나오지않습니다. [Export > Extract Region]: Chromosome 이나 contig 의특정부분을지정해서 파일또는클립보드에저장하며, reverse complementary sequence 로도저장 가능합니다. [Export > FASTA]: FASTA 포맷으로정보를저장합니다. 각각 scaffold, contig, CDS (gene), CDS (amino acid), RNA (trna, rrna) 의내용을저장할수 있습니다. 2015 ChunLab, Inc. All rights reserved. 23
[Export > Full annotation]: CDS, rrna, trna 등의 feature 정보를 MS Excel 에서 열리는 CSV 파일형태로저장합니다. RAST와 NCBI COG database를이용하여 annotation을하였으며, SEED function, SEED category, COG ID, COG category, COG function, EC number, annotation source 등의정보를확인할수있습니다. [Export > GenBank]: 전체 genome 정보를 GenBank 포맷으로저장가능합니다. 저장된 GenBank 파일은 Artemis (Sanger Institute) 나 Vector NTI (Invitrogen) 등의다른분석프로그램으로열어볼수있습니다. [Export > For NCBI submission]: Genome data 를 NCBI 에 submission 하는데 필요한파일을생성합니다. 필요한파일은 fsa (sequence data), tbl (annotation data), sbt (author information) 이며, sbt 파일은 NCBI 사이트에서만들어야하고선택시에는해당생성페이지로이동합니다. Help를선택하면 NCBI의 submission guide 페이지로이동합니다. NCBI의 submission 파일생성프로그램인 tbl2asn 프로그램을이용하여 submission 파일을생성한후최종 submission 할때사용합니다. (http://www.ncbi.nlm.nih.gov/largedirsubs/dir_submit.cgi) 2015 ChunLab, Inc. All rights reserved. 24
Figure 17. Sequence export 기능. 샘플화면에서드래그하여오른쪽클릭하면녹색으로 선택된부분의 sequence 를 export 할수있습니다. Export all 을클릭시열려있는전체 genome 에서 align 된 sequence 부위를모두 export 할수있습니다. 텍스트형태의 GENOME 통계데이터출력 Genome 메뉴를이용하여 genome sequencing 통계및각종리포트를출력하고 저장할수있습니다. [Genome > Summary > Genome]: Genome 에대한요약정보를확인할수 있습니다. Genome size, G+C ratio와 CDS, rrna, trna의개수및비교유전체연구에필요한 Reference strain의이름과 genome project ID 등의정보가보여지며, [Export as CSV] 버튼을통해 MS Excel에서볼수있는 Comma Separated Value, CSV 파일로저장할수있습니다. 2015 ChunLab, Inc. All rights reserved. 25
[Genome > Summary > Contigs]: Genome 을구성하는 contig 들에대한정보를 확인할수있습니다. 보여지는데이터의종류는 genome 의요약정보와같으며 CSV 파일로저장할수있습니다. [Genome > COG distribution]: Cluster of Orthologous Group (COG) annotation 의 정보를요약하여 COG 의분포를테이블형태로보여줍니다. [Genome > Generate report as MS Word format]: Summary, COG distribution 메뉴에서확인할수있는정보를포함하여, annotation 된모든 features 의위치, 기능, 길이등에대한모든정보를 MS Word format 으로출력, 저장합니다. Scaffold 와 AGP 파일 Scaffold 정보는 AGP 라는파일에그내용이담겨있으며공식규격이있습니다. (https://www.ncbi.nlm.nih.gov/projects/genome/assembly/agp/agp_specification.shtml) 아래예시는 AGP 파일내용의일부이며 contig 와 contig 사이의순서및 gap 을설명해줍니다. 예시의경우 scaffold 1 번 sequence 안에 3 개의 contig 가존재하며각 contig 들사이에각각 1504 bp 및 848 bp 의 gap 이존재한다는내용입니다. scaffold00001 1 31584 1 W contig00001 1 31584 + scaffold00001 31585 33088 2 N 1504 scaffold yes paired-end scaffold00001 33089 43634 3 W contig00002 1 10546 + scaffold00001 43635 44482 4 N 848 scaffold yes paired-end scaffold00001 44483 115650 5 W contig00003 1 71168 + 2015 ChunLab, Inc. All rights reserved. 26
6. GENOME ANALYSIS CLgenomics TM 의 Analysis 메뉴를이용하여 whole genome alignment, homolog search, ANI value 연산등이가능합니다. WHOLE GENOME ALIGNMENT [Analysis > MUMmer]: CLgenomics TM 에 2개이상의 genome data가열려있는경우, 이들을선택하여 2개의 genome 간에 MUMmer를이용한 whole genome alignment를할수있습니다. Whole genome alignment의결과는 dot plot 이미지로확인할수있으며 PNG 파일로저장됩니다. Figure 18. E. coli subsp. K-12 substr. MG1655 와 E. coli O157:H7 Sakai 의 chromosome 간의 whole genome alignment 결과를보여주는 dot plot 이미지입니다. 2015 ChunLab, Inc. All rights reserved. 27
BLAST 를이용한 HOMOLOG 탐색 [Analysis > BLAST]: Genome data의 contig sequence 및 CDS sequence들을대상으로하여 BLAST search를수행합니다. BLAST 결과는 1) 가공되지않은텍스트파일형태와, 2) 결과를가공한 table의두가지형태로나타나는데, CDS database에 BLAST search 했을시 table에서보여지는 BLAST hit을클릭하면해당 CDS로 Genome 패널이이동됩니다. Figure 19. CDS BLAST 탐색의예. E. coli subsp. K-12 substr. MG1655 genome의 CDS를 DB로하는 BLAST Search의결과입니다. BLAST 결과창의 Parsed 메뉴를클릭후임의의 sequence를 BLAST한결과테이블에서첫번째 hit의 row를클릭하면 Feature 패널상의해당 Hit 위치로이동됩니다. BLAST 시에 All을클릭하면열려있는전체 genome에대한결과를살펴볼수있습니다. 2015 ChunLab, Inc. All rights reserved. 28
AVERAGE NUCLEOTIDE IDENTITY (ANI) VALUE 연산 [Analysis > Average Nucleotide Identity by BLASTn]: Genome level에서 genome sequence의 similarity를비교할수있는 Average Nucleotide Identity (ANI) analysis 를수행할수있습니다. Analysis > Average Nucleotide Identity by BLASTn을클릭시 ANI analysis을할수있는창이생성됩니다. Figure 20. Average Nucleotide Identity by BLASTn 연산화면 2015 ChunLab, Inc. All rights reserved. 29
1. 현재열려있는 genome들의목록을확인할수있습니다. 2. Genome 목록에서선택한 genome들을비교대상으로설정또는초기화합니다. 3. 비교 대상으로 설정된 genome에서 비교할 대상을 전체 또는 contig로 선택합니다. 4. 비교대상의순서를바꿀때사용합니다. 그리고 Proceed 버튼으로연산을 실행합니다. 5. 연산된결과를확인할수있습니다. 2015 ChunLab, Inc. All rights reserved. 30
7. PATHWAY ANALYSIS CLgenomics TM 의 1.51 version 부터 KEGG annotation 정보를바탕으로 pathway 분석이가능합니다. Comparison 의 pathway viewer 를통해 pathway 정보를볼수 있습니다. Figure 21. Comparison 메뉴의 Pathway viewer 클릭시 pathway 살펴볼 clg 파일을 선택하는창이나타납니다. 여기서 pathway 를볼 clg 파일을최대 5 개까지선택하십시요. 2015 년 7 월전에만들어진 clg 파일은분석파이프라인업데이트전이므로, kegg annotation 정보가없습니다. 이럴때는 clg 파일선택창에 KEGG 정보가없다고 표시되며, 새로운 clg 파일을천랩 info@chunlab.com 에문의하여요청하시면 됩니다. 2015 ChunLab, Inc. All rights reserved. 31
Figure 22. Pathway viewer 모습. 2 번 panel 에서살펴볼 strain 을 selection 하고 1 번 panel 에서 kegg pathway 를 selection 하면 5 번 panel 에상세한정보가나타납니다. Pathway viewer 창은크게 3가지 panel 로구성되어있습니다. 맨위에 strain selection panel (Figure 22의 2번 ) 에서 pathway 를살펴볼 clg 파일을최대 5개까지선택할수있습니다. 왼쪽 panel (Figure 22의 1번 ) 에서는 KEGG pathway list가보여지게됩니다. 여기서보고싶은 pathway 를하나선택하면오른쪽 (Figure 22의 5번 ) 에상세한정보가나타나게됩니다. Pathway viewer 창에서균주에따라색깔로유전자의유무를표시하게됩니다. 이정보는 Figure 22의 4번에서확인할수있습니다. Figure 22의 3번을통해서 KEGG number로 search 를할수있습니다. Strain selection 창에서 strain을선택한개수만큼아래 viewer 창에나타나게됩니다. 각유전자를클릭하면상세정보창을볼수있습니다. 2015 ChunLab, Inc. All rights reserved. 32
Figure 23. Pathway viewer 에서유전자의상세정보창의모습. Pathway viewer 에서유전자를클릭시상세정보창이나타나고, KEGG list 중에하나를클릭하면관련된유전자 list가왼쪽하단창에나타나게됩니다. 왼쪽하단의유전자중하나를더블클릭하면, genome browser 창에그유전자가음영처리되어가운데나타나게됩니다. 유전자상세정보창은크게 3개로구성되어있습니다. 왼쪽상단에는선택한 pathway 상의 function을수행하는 KEGG list를보여줍니다. 그중하나를클릭하면오른쪽에 kegg database에있는유전자의정보를보여줍니다. 아래하단의 panel에는선택한 KEGG number 에속하는유전자 list가보여주게됩니다. 이중하나를더블클릭하면 genome browser 창에서음영으로표시되어 genome browser 상에서정보를확인할수있게설계되어있습니다. 2015 ChunLab, Inc. All rights reserved. 33
8. COMPARATIVE GENOMICS ANALYSIS 둘이상의 genomes의구성을 pairwise로비교한데이터를 heat map 형태의테이블로보여줍니다. 비교방법으로는 BLASTP 방법과 ORF Independent Comparison (ORF-IDC) 방법이있으며, N개의 genome들을비교하였다면각비교방법마다각 N개의 genome을 reference genome으로놓고나머지 genomes들과비교분석을한 N개의 comparison table을로딩하게됩니다. BLASTP 방법의경우 reference genome 에속하는모든 ORF 의 protein sequence 각각을나머지 N-1 개의 subject genomes 의 ORF 의 protein sequence 로만든 database 를탐색해서얻은결과로 table 을만들며, ORF-IDC 방법은 reference genome 의 ORF nucleotide sequence 를 query 로하여탐색하는방법입니다. 1. [Comparative -> Comparative Genomics]: Comparative Genomics 데이터파일은 clg (*.clg) 파일과는별개의파일인 *.cg 를확장자로갖는파일만을열수 있습니다. 이파일은고객의요청에따라천랩에서제공합니다. CG 파일과 clg 파일의 version 이맞지않는경우, info@chunlab.com 에연락을 주시길바랍니다. 최신의 CG 파일과 clg 파일을사용하길권장합니다. 2015 ChunLab, Inc. All rights reserved. 34
Figure 24. Comparative > Comparative genomics를클릭한다음, C:\Chunlab\CLgenomics\data\example에있는예시 cg 파일을선택한화면. 가장오른쪽에 clg 파일과 cg 파일의 version 이 match 되는지확인할수있습니다. version이맞지않는경우 info@chunlab.com 에연락을주셔서최신의 clg 파일과 cg 파일을받아서분석을수행하길권장합니다. 2. Comparative genomics 창이뜬후 Method 항목에서 BLASTP와 ORF-IDC 가운데선택을한다음, ref. genome 항목에서 reference genome을선택합니다. 그다음 Display button을클릭하면 figure 21 같은 heat map을확인할수있습니다. 가장좌측 column 은 reference genome 의 CDS feature name 에해당하며, 나머지 column 들은각 genome 들의 CDS 들중에서 reference genome 의 query CDS 와가장 유사한 CDS 의이름입니다. Color 는 similarity 를의미합니다. 2015 ChunLab, Inc. All rights reserved. 35
Figure 25. E. coli subsp. K-12 substr. MG1655 를 reference 로하여나머지 4 개의 strain 과 BLASTP 방법으로비교한결과 Figure 26. Similarity heat map. 비교된 CDS 의 similarity 에따라그림과같은색깔로 표현됩니다. 3. Heat map 내의임의의 cell에서마우스오른쪽버튼을클릭하면, Figure 23과같이 [View Information], [View in CLgenomics TM ], [Anchor in CLgenomics TM ] 의메뉴를포함하는팝업메뉴가나타납니다. [View Information] 메뉴는해당 cell의 feature 정보를나타냅니다. 2015 ChunLab, Inc. All rights reserved. 36
[View in CLgenomics TM ] 메뉴는해당 cell 의 feature 를 CLgenomics TM 의 Feature 패널에서보여줍니다. [Anchor in CLgenomics TM ] 메뉴는 CLgenomics TM 에서열려있는다른 genome들에 feature들중에서, 해당 cell의 feature와 homologous feature인것을찾아이를기준으로정렬 (anchoring) 한결과를보여줍니다. 4. ANI 버튼으로로딩된 genome 간의 UPGMA tree 를그릴수있습니다. Figure 27. 마우스오른쪽버튼을클릭시 CDS 의상세정보를확인하기위한팝업메뉴가 나타납니다. 2015 ChunLab, Inc. All rights reserved. 37
Figure 28. ANI Tree 버튼으로로딩된 genome 파일들의 UPGMA ANI tree 를확인할수 있습니다. 2015 ChunLab, Inc. All rights reserved. 38
9. 기타 GLOSSARY 용어 clg (*.clg) file 내용 CLgenomics TM 의데이터파일 Contig NGS data 로부터 read 를 assemble 하여만든 DNA 의 consensus sequence fragment Scaffold Contig 가순서에맞게정렬되어있는 large DNA fragment. Contig 의 순서정보를이용하여 contig 들을이어놓은 fragment. Contig 사이의 gap 은존재함 Assembly GC Ratio NGS data 로부터얻은 read 들을 DNA fragment 로조합하는과정 전체 DNA 의 nucleotide 에서 G 와 C 가가지고있는비율. DNA 의 구아닌 (G) 과시토신 (C) 은 3개의수소결합으로염기쌍을형성하며, 아데닌 (A) 과티민 (T) 이 2개의수소결합으로형성한염기쌍보다더안정적임. DNA의염기조성은다양하므로세균의 GC 함량은 22~74% 의범위로넓고, 진핵생물은 28~58% 임. GC ratio를비교함으로써생물간유연관계를추정할수있고, 외부에서들어온 fragment를유추할수있음 (Mrevlishvili, 1981). GC Skew GC Skew = (G - C) / (G + C). 구아닌의 nucleotide 개수에서시토신의 개수를뺀값을 G와 C의 nucleotide 개수합으로나눈값. Leading strand 와 lagging strain의비를각각계산함. Leading strand에서는 G와 T가많기때문에 (parity rule) GC skew를바탕으로 gene의방향성을알수있음. GC skew 가 positive이면 leading strand이고 negative이면 lagging strand임 (Arakawa & Tomita, 2007) 2015 ChunLab, Inc. All rights reserved. 39
POSITION 표시 Genome panel 상단에좌표를표시해주는옵션으로아래세가지중에서선택할 수있습니다. 1. [View > Display position > Default]: 1,000 bp 단위의눈금을보여줍니다. 2. [View > Display position > Start]: CDS 의시작위치를보여줍니다. 3. [View > Display position > None]: Nucleotide 의위치를표시하지않습니다. 독립실행도구 Utility 메뉴에서 Standalone BLAST를이용해로딩된 genome과관계없이독립적으로실행시킬수있는 BLAST 탐색기능을제공합니다. 먼저데이터베이스로이용될 FASTA sequence를입력후, 질의서열을입력하면 BLAST Search를수행할수있습니다. 또한독립적으로 2 개의 genome FASTA 파일들간에 genome level 에서 ANI similarity 를비교하고자할경우, standalone ANI calculation 메뉴를이용하여 2 개의 FASTA 파일의 similarity 를비교할수있습니다. 2015 ChunLab, Inc. All rights reserved. 40
10. REFERENCE Arakawa, K. & Tomita, M. (2007). The GC skew index: a measure of genomic compositional asymmetry and the degree of replicational selection. Evol Bioinform Online 3, 159-168. Mrevlishvili, G. M. (1981). [Ratio of natural DNA hydration to the GC content]. Dokl Akad Nauk SSSR 260, 761-764. 2015 ChunLab, Inc. All rights reserved. 41