Microsoft Word - [K131]CLcommunity_Manual_171201_v342.docx

CLcommunity TM User Manual 한글 Korean Version App. Version 3.42 www.bioiplug.com

CLcommunity TM User Manual App. Version 3.42 Windows and Mac OS X ( 주 ) 천랩 서울특별시서초구남부순환로 2477 JW TOWER 6 층 Tel: 82-2-875-2501 Fax: 82-2-875-7250 E-mail: info@chunlab.com

Contents 새로추가된사항들... 1 Version 3.42... 1 Version 3.40... 1 Version 3.20... 3 Version 3.1... 5 Version 3.0... 6 2. 필요사항... 8 3. CLcommunity TM 설치... 9 LICENSE KEY 발급... 9 CLcommunity TM 설치... 10 4. CLcommunity TM 최초실행... 12 5. CLcommunity TM 최적화... 13 메모리설정법... 13 6. 생물정보학적배경... 14 CLC (*.clc) FILE 생성... 14 BARCODE와 PRIMER SEQUENCE 제거... 15 LOW QUALITY SEQUENCE 제거... 17 SEQUENCE ASSEMBLY... 17 SEQUENCE READS 동정... 18 CHIMERIC SEQUENCE 제거... 26 ALPHA-DIVERSITY STATISTICS 의계산... 27 7. CLcommunity TM 창... 28 8. Data Files 열기... 29 9. Main Window 에서 Community File 확인법... 30 샘플선택창... 30 COMMUNITY구성트리... 31 CONTIG와 CLONE SEQUENCE LIST 창... 33 10. File Menu... 34 11. Community Menu... 37 TAXONOMIC COMPOSITION... 37 HEAT MAP... 40 DOUBLE PIE CHART... 44 DYNAMIC PIE CHART (KRONA)... 46 2015 ChunLab, Inc. All rights reserved.

12. Compare Menu... 49 TAXON XOR ANALYSIS... 49 TAXON XOR ANALYSIS BY CD-HIT... 51 SOURCE TRACKING... 53 13. Alpha-diversity Menu... 59 RAREFACTION CURVE... 60 DIVERSITY INDICES... 62 RANK ABUNDANCE CURVE... 64 14. Beta-diversity Menu... 65 UNIFRAC DISTANCE MATRIX... 67 UPGMA DENDROGRAM... 68 PCO VECTORS... 69 PCO 2D PROJECTION... 70 PCO 3D PROJECTION... 70 CCA (CANONICAL CORRESPONDENCE ANALYSIS)... 72 15. Data Menu... 78 BLAST SEARCH... 78 DROPPED READ... 79 EXPORT SEQUENCES... 80 GENERATE RANDOM READ SUBSETS... 81 METADATA... 82 READ LENGTH DISTRIBUTION... 82 16. Glossary... 85 17. References... 86 2015 ChunLab, Inc. All rights reserved.

CLcommunity TM 은천랩에서개발한응용프로 그램입니다. 세균및곰팡이를 포함하는미생물의군집을분석하여도출한대량의 raw data를다양한그래프및그림으로시각화함으로써시료에존재하는미생물군집의특징을연구자들이이해하기쉽도록도와주는프로그램입니다. 인간분변, 물, 토양과같은환경시료에는 phylogenetic marker 시퀀싱에의하여식별되거나정량화될수있는수백종의미생물들이있습니다. CLcommunity TM 는차세대염기서열분석 (NGS) 플랫폼 (Illumina sequencing technology) 에의해생성된 16S rrna 유전자시퀀스또는, 곰팡이의경우 ITS (Internal transcribed space) 시퀀스를다룹니다. 유전자증폭기술 (PCR reaction) 은광범위한 taxonomic group들을대상으로한 universal primer를사용하여다양한유형의 amplicon들을만들수있으며, 이 amplicon들은 NGS를이용하여시퀀싱할수있습니다. 일반적으로하나의샘플 (microbial community) 에서생성된대량의 16S rrna 유전자염기서열들은생물정보학분석파이프라인과통계학적인분석을거치게되며, 분석의결과로얻어진 Taxonomic composition 및통계해석등의다양한결과물들은 raw sequence data 와함께확장자 clc인 (*.clc) 천랩고유의파일안에저장됩니다. 사용자는 CLcommunity TM 프로그램을사용하여여러개의 clc (*.clc) 파일을열어다른군집들과비교하거나다양한통계분석을수행할수있습니다. 기존에보유하고있는 NGS 데이터를 clc (*.clc) 파일로전환하여 CLcommunity TM 프로그램을활용하고자할경우, 천랩 (info@chunlab.com) 에문의하시기바랍니다. 이문서는 community structure, alpha-diversity 및 beta-diversity 통계, 프로그램설치과정을포함한 CLcommunity TM 를사용하는방법에관한정보를제공합니다. ABOUT THIS GUIDE 2015 ChunLab Inc. All rights reserved

이매뉴얼문서는 microbial community analysis를위한 CLcommunity TM 소프트웨어의사용법을설명합니다. CLcommunity TM 는천랩의대표적인응용프로그램으로천랩 BIOiPLUG 홈페이지 (http://www.bioiplug.com/software/clcommunity) 에서다운받을수있습니다. 당사에서제공하는 whole genome 및 RNA-Seq, microbial community analysis에대한문서들도 http://www.bioiplug.com/support/#guide_tab 에서찾을수있습니다. 용어집및참조는이매뉴얼문서의마지막페이지에서확인할수있습니다. 천랩의목표는사용이간편하고유용한생물정보학을제공하여차세대염기서열분석 (NGS) 기술을많은사람들이누구나쉽게사용하도록하는것입니다. 문의사항이나요청사항있으면언제든지 info@chunlab.com 으로연락주시기 바랍니다. 2015 ChunLab, Inc. All rights reserved.

새로추가된사항들 VERSION 3.42 l l l Miseq 대용량데이터처리를위한성능개선 File Browser 파일검색속도개선 Application 기능개선및버그수정 VERSION 3.40 l l 전반적인 UI 변경 메뉴의간소화 이전버전에서는서브메뉴로선택할수있었던옵션들을, 결과창에서바로선택할수있도록변경하였습니다. 아래이미지는 taxonomic composition chart를확인하는메뉴입니다. 이전버전에서는 taxonomic rank를메뉴에서선택해야했으나, 새버전에서는결과창에서다른수준의 taxnomic rank를선택해서, 해당 phylotype의 composition을확인할수있습니다. 2014 ChunLab, Inc. All rights reserved. 1

VERSION 3.20 l Define group 기능이추가되었습니다. 이기능에서는서로다른특성의샘플들 을 group 으로나누어차후분석이가능하게하였습니다. l PCO 2D projection 기능이추가되었습니다. 이기능에서는기존에제공되던 PCO plot 을 2D 로그릴수있습니다. Group 과 single sample 로그림을그릴수 있으며, 각샘플별로 diversity indices 를적용하는그림도그릴수있습니다. 2017 ChunLab, Inc. All rights reserved. 3

VERSION 3.1 l Source tracking function 기능이추가되었습니다. 이기능에서는 source 와 sample 들간의공통으로존재하는 species 를비교함으로써 sample 과 source 의 유사정도를확인할수있습니다. l Heat map visualization 기능이추가되어선택한샘플들에일반적으로존재하 는주요 taxonomic group 들을한눈에비교할수있습니다. 2017 ChunLab, Inc. All rights reserved. 5

l TBC (Taxonomy-based clustering, Lee et al., 2012) 와 TDC-TBC (Taxonomydependent clustering/ TDC followed by TBC clustering) clustering 옵션이 alphadiversity 계산을위해추가되었습니다. l 이제 BLAST 검색결과는테이블형태로분석됩니다. l 모든 sequence 의 Taxonomic assignments 를 export ( 데이터를다른프로그램에 서읽을수있도록전환하여발송 ) 할수있습니다. l 후속분석및데이터시각화작업을위해 load 한샘플들을다시세부적으로선 택할수있습니다. VERSION 3.0 l FAST UNIFRAC 분석의결과를볼형태로시각화하는기능이추가되었습니다. 2017 ChunLab, Inc. All rights reserved. 6

l Low quality, chimera formation, non-specific amplification 으로인해 drop 된 sequence read 들은파일이나테이블형태로 export 할수있습니다. l Original sequence 나 sequence 를통해도출된 contig 들을 FASTA 파일의 형태로 export 할수있습니다. 2017 ChunLab, Inc. All rights reserved. 7

2. 필요사항 l CLcommunity TM 는 java 기반의프로그램입니다. Java 는프로그래밍언어이며 컴퓨터기종이나운영체제의제한없이 Java Virtual Machine (JVM) 에서 실행됩니다. 현재본프로그램은 Microsoft Windows 및 Apple Mac OS X 운영체제에서개발한후테스트를시행하였습니다. l CLcommunity TM 를원활히구동하기위해서는고사양의컴퓨터사용을권장합니다. 여러샘플의비교분석을수행할경우 loading 할수있는샘플수는개인컴퓨터의메모리 (RAM) 에제한을받습니다. 일반적으로컴퓨터의메모리는적어도 2GB RAM 이상이어야하며, 대량의데이터들을분석할때에는적어도 4GB RAM 이상인 64 bit 구동시스템사용하는것을권장합니다. 2017 ChunLab, Inc. All rights reserved. 8

3. CLcommunity TM 설치 LICENSE KEY 발급 CLcommunity TM 는연구자들에게무료로제공되는 freeware 입니다. CLcommunity TM 프로그램을설치하기위해서는 http://www.bioiplug.com에서회원계정을만들고 CLcommunity TM 프로그램 license code를발급받아야합니다. 1. https://www.bioiplug.com/software/clcommunity 으로가기 2. CLcommunity TM instructions 항목에서 Get license key 버튼을클릭하면 license key 가즉시발급되어웹사이트에서바로확인할수있습니다. 2017 ChunLab, Inc. All rights reserved. 9

CLcommunity TM 설치 CLcommunity TM 의최신버전은 BIOiPLUG 웹사이트에서다운로드받을수있습 니다 (https://www.bioiplug.com/software/clcommunity). 한번설치가되면새로운버 전이나올경우, 별도의업그레이드설치과정없이 CLcommunity TM 를시작할때자동으로프로그램의업그레이드가수행됩니다. License key를받은후, CLcommunity TM 설치파일을다운로드하여컴퓨터에설치해주시기바랍니다. CLcommunity TM 는 java기반의프로그램이기때문에 Microsoft Windows 이외의특정운영체제에서일부기능은제한될수있지만거의모든운 2017 ChunLab, Inc. All rights reserved. 10

영체제에서실행할수있습니다. Oracle의 Java Runtime Environment (JRE) 는미리설치되어있어야하며, Microsoft Windows 및 Mac OS X용설치파일을받을수있습니다. 일단정상적으로 JRE가설치되면 CLcommunity TM 설치패키지는사용자의컴퓨터운영체제및버전에따라 32 bit 또는 64 bit의두가지버전을다운로드하여설치할수있습니다. 1. http://www.java.com/en/download/manual.jsp 로부터 JRE 다운로드및 PC 에설치 2. 컴퓨터사양 (32 bit or 64 bit) 에따른 CLcommunity TM 설치파일다운로드. MS Windows 사용자가본인의컴퓨터운영체제를확인하고싶을때 [ 제어판 시스템 ] 열어확인 3. CLcommunity TM 설치 설치시에별도로설치경로를지정하지않는경우, 모든천랩소프트웨어의기 본설치경로인 C:\chunlab\CLcommunity 에파일이설치됩니다. 2017 ChunLab, Inc. All rights reserved. 11

6. 생물정보학적배경 CLC (*.CLC) FILE 생성 CLcommunity TM 의데이터파일은 clc (*.clc) 파일입니다. 이 clc (*.clc) 파일에는하나의 single community에관한모든주요정보가들어있으며, 천랩의고성능서버환경안에서여러단계의생물정보학파이프라인을거쳐 clc (*.clc) 파일이생성됩니다. 천랩의생물정보학파이프라인개요는아래의그림과같고, 파이프라인각단계에관한간단한설명이있습니다. 2014 ChunLab, Inc. All rights reserved. 14

BARCODE 와 PRIMER SEQUENCE 제거 NGS 는대량의시퀀스데이터를생성하기때문에한번의시퀀싱반응에다수의샘플들을 multiplexing 하여한번에여러샘플들의시퀀스정보를생산할수있습니다. Multiplexing 반응시, 각각의샘플을구별하기위하여샘플마다하나의고유한시퀀스조합 (4~11bp, barcode 라불림 ) 을디자인하여 PCR primer 앞에붙입니다. NGS 장비가이 barcode 부분을시퀀싱하게되면각샘플로부터증폭된시퀀스들을이 barcode 시퀀스들에따라분류할수있습니다. 천랩에서는 barcode 와 PCR primer sequence 모두를제거하고생물정보분석을수행합니다. 시퀀싱되어나온 primer region 은분석되어야하는실제시퀀스가아니며, DNA 주형및 PCR primer 결합물의결과입니다. Primer region 에의해 sequence 들의 similarity 값이변할수있으므로이를제거합니다. 시퀀싱오류로인해 barcode 또는 primer region 이없는 read 들이생성될경우, 제거하여이후분석단계에서사용하지않습니다. 현재 Bacteria 의경우 16S rrna gene sequence 에대한천랩의 standard region 은 Roche 454 titanium 의경우 V1~V3 region 이며, 시퀀싱은 universal primer 518R 부분부터앞쪽으로 uni-directional 하게진행됩니다. Illumina MiSEQ platform 으로 sequencing 반응을할경우 V3~V4 region 이 target region 입니다. Fusion primer 는 454 specific adaptor, key, linker, barcode 시퀀스를포함하도록디 자인되었으며, 다음과같습니다. 2017 ChunLab, Inc. All rights reserved. 15

Bacteria 군집분석을위해사용되는 standard sequences 는다음과같습니다. Name Sequence Comment 454 Adapter 1 454 Adapter 2 CCATCTCATCCCTGCGTGTCTCCGAC CCTATCCCCTGTGTGCCTTGGCAGTC For 454 FLX Titanium (sequencing primer) For 454 FLX Titanium 454 Key TCAG For 454 FLX Titanium Linker Barcode 2 bp long sequence 7~11 bp long unique sequence template genomic sequence 와 불일치여부확인. 곰팡이의경우 ITS sequence 에대해천랩의사용 region 은 ITS2 부분이며, 시퀀싱은 28S rrna 앞부분부터앞쪽으로 unidirectional 하게진행됩니다. Archaea 와 Eukarya primer 를포함한보다자세한정보는 http://www.ezbiocloud.net/resource/method 에서관련된기술문서를통해확인할 2017 ChunLab, Inc. All rights reserved. 16

수있습니다. LOW QUALITY SEQUENCE 제거 NGS에의해서생성된모든데이터에는각염기서열과염기서열의 Quality 데이터가포함되어있습니다. 이분석단계에서는낮은 Quality의시퀀스들을제거하여분석에사용하지않습니다. Quality가낮은시퀀스의기준 (454 FLX Titanium의경우 ) 은 (1) 300bp보다짧은시퀀스, (2) 평균 Quality 값이 25보다낮은시퀀스입니다. 평균 Quality 값에대한자세한설명은 http://en.wikipedia.org/wiki/phred_quality_score에서확인하실수있습니다. 이분석단계에서삭제된모든시퀀스 READ들은 CLcommunity TM 프로그램의 [Data Dropped Read] 메뉴에서확인할수있습니다. SEQUENCE ASSEMBLY Roche 454 Pyrosequencing은 homopolymer error뿐만아니라 PCR error를포함한약 0.5% 의 substitution error를가지고있다고알려져있습니다 (Homopolymer error 는 substitution error보다높은비율로일어납니다 ). 그결과, 하나의 DNA 주형을시퀀싱하더라도시퀀싱 error로인해서매우유사한시퀀스의집합이생성될수있습니다. Assembly 단계에서모든시퀀스들은 homopolymer가무시된매우유사한시퀀스세트를형성하고, 454 Titanium의경우최대 2bp까지 mismatch를허용하여세트를만듭니다. 각시퀀스의세트로부터 majority rule을통해생성된 consensus 시퀀스를 contig로만듭니다. 조립된 (assembled) 시퀀스의수가 5개이상일경우적 2017 ChunLab, Inc. All rights reserved. 17

어도 2개의시퀀싱 read에서발견되는 nucleotide position만을최종 contig 시퀀스에포함합니다. Contig는적은수의 minor 오류를포함하고있는시퀀스들의조합으로추후모든분석에이용되기때문에이분석과정은일종의 error를수정하거나제거하는방법이라고볼수있습니다. SEQUENCE READS 동정 하나의개별시퀀싱리드또는다수의시퀀스를뜻하는 contig의 taxonomic assignment는다양한방법을통해실시할수있습니다. 주로계층분류학적정보가있는시퀀스데이터베이스와동정을할수있는컴퓨터프로그램 ( 알고리즘 ) 을이용하여동정이이루어집니다. 천랩에서는 EzTaxon 데이터베이스와활용한 BLASTN 검색과 pairwise global sequence alignment를통해동정이이루어집니다. l EzTaxon database Microbial community analysis의핵심은 taxonomic classification scheme에의한 reference 시퀀스들을저장하고있는데이터베이스라고할수있습니다. 어떤데이터베이스를동정에사용하느냐에따라분석결과의정확도가달라집니다. 천랩이사용하는 EzTaxon-e database (Kim et al. 2012, http://www.ezbiocloud.net/eztaxon /) 는대중적으로널리쓰였던 EzTaxon database (Chun et al, 2007) 의확장형입니다. EzTaxon과 EzTaxon-e 데이터베이스의인용지수는 2,900회를상회하고있습니다 (Mar., 2015). 현재까지공인된이름 (valid name) 이있는 prokaryotic 종은대략 13,000 종이있다고 2017 ChunLab, Inc. All rights reserved. 18

알려져있으며, 원칙적으로공인된이름이있는종은지정된표준균주 (type strain) 을가지고있어야만합니다. 예를들면, Streptococcus pneumoniae ( 폐렴을유발하는박테리아종 ) 의표준균주는 ATCC 33400으로그 16S rrna 시퀀스는 Genbank accession number AF003930로알수있습니다. S. pneumoniae로동정되는 read는 reference sequence AF003930과 similarity를계산하여결정할수있습니다. 그러나, 환경 meta-genomic 샘플들로부터결정하는시퀀스의대부분은공식이름을가진종 (species) 만포함하는데이터베이스에서는동정할수없습니다. 토양샘플들에서는겨우 10% 미만의시퀀스들이공인된이름을가지고알려진종 (species) 으로동정됩니다. EzTaxon database에는 62,000 시퀀스이상이종 (species) 또는 phylotype으로나타낼수있습니다. 이들은공인된이름 (~13,000) 을가지는종 (species) 들의 type strain 뿐만아니라, 배양되지않는 phylotypes들의대표 sequence(>30,000 sequences, 배양되었더라도 16S rrna 시퀀스에의해새로운종으로분류됨 ) 들도있습니다. 보통하나의시퀀스는하나의 phlyotype을의미하며지금까지배양되지않은종 (species) 들의잠정적인 type strain시퀀스역할을합니다. EzTaxon 데이터베이스에서 phylotype들에대한이름을생성하기위한원칙들은아래와같습니다 : l Naming convention of EzTaxon database 공인된이름을항상사용합니다. 공식적인 bacterial taxonomy 에대한규정은없지만, 분류학적인이름은엄격하게관리됩니다. 공인된이름은박테리아명칭의국제코드에의해규제됩니다 (http://www.bacterio.cict.fr/foreword.html#introduction). 예를들면, 2017 ChunLab, Inc. All rights reserved. 19

Escherichia coli 종은 EzTaxon database 에서다음과같은분류학적계층구조를 가지고있습니다. Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Escherichia; Escherichia coli; KCTC 2441 T Genbank accession EU014689 세균을분류할때최초에는오직속 (genus) 과종 (species) 이름이절대적으로필요합니다. 즉, 새로운속 (genus) 을제안할때, 과 (family) 또는그이상의 taxa 그룹들은절대적으로필요하지는않습니다. 따라서, 많은속 (genus) 들에는그들이속해있는과 (family) 에대한정보가없습니다. EzTaxon 데이터베이스의주요목표중하나는전체계층시스템 (species 부터 phylum 까지 ) 에서모든이름을지정하는것입니다. 이를위해임시이름을가진다수의 taxa 가생성됩니다예를들면, X 속 (genus) 이연관된과 (family) 가없이제안되었다면임시과 (family) X_f 로할당될것입니다 ( 비공식이름 ). 임시분류학적이름은일반적으로밑줄 (_) 이포함된접미어가표시됩니다. 어떤임시 subspecies 도 EzTaxon 에서는사용되지않습니다. X 가 genus name 일경우, Phylum Class Order Family Genus X_p X_c X_o X_f X 2017 ChunLab, Inc. All rights reserved. 20

배양되지않는시퀀스들의경우임시이름은 GenBank accession number 로 생성됩니다. 예를들면, 16S rrna 시퀀스 (GenBank accession EF459715) 에의해 표현되는종 (species) 은 EF459715_s 이며, EF459715_g 속 (genus) 에속하게 됩니다. 즉, 시퀀스 EF459715 는임시종 (species) EF459715_s 의 type strain 이되며, 임시속 (genus) EF459715_g 에속하게됩니다 (http://www.ezbiocloud.net/eztaxon). EzTaxon database 에서 GenBank database 에없는이름들을찾을수있습니다. 이이름들은 4P 로시작하며, 454 GS FLX Titanium pyrosequencer 로부터생성되었습니다. 이시퀀스들은비교목적을위해데이터베이스안에포함되어있습니다. 4P 시퀀스들은단일샘플안에서적어도 5 개시퀀스로 조합된 contig 에서선발됩니다. 또한그들은적어도두개의서로다른 독립적인 PCR 반응에서발견되며, UCHIME 프로그램 (Edgar et al., 2011) 으로확인하여 chimeric PCR 산물이아닌것들로부터선발하게됩니다. 이균주들은 full length 시퀀스를사용할수있을때이짧은시퀀스들은알려진 full length 시퀀스로교체됩니다. 예를들어, 4P001817 는 Flavobacterium 속 (genus) 에속하는 4P001817_s 의 phylotype 입니다 (EzTaxon link). 일부 phylotype 이름은일반적으로과학자들사이에서사용되지만공인된적은없는경우가있습니다. 예를들면, SAR11 는바다에존재하는박테리아의주요그룹으로광범위하게해양미생물생태학자들사이에서연구되었습니다. SAR11 은 EzTaxon 의 Alphaproteobacteria 강 (class) 에서목 (order) 로사용됩니다 (EzTaxon link). 마찬가지로 TM7 은 phylum 을일컫는용어로임의의이름대신 GenBank accession 따른이름을사용합니다. 이방식을사용하면 2017 ChunLab, Inc. All rights reserved. 21

다른데이터베이스간의호환성을가질수있습니다. 비공식적인이름을가진미배양세균이름에대한공식적인규정이없기때문에천랩에서는일반적으로학계에서사용되는방식을따르고있습니다. EzTaxon database 에대한인용정보는 http://www.ezbiocloud.net/eztaxon/how_to_cite 에서찾을수있습니다. Kim, O. S., Cho, Y. J., Lee, K. & other authors (2012). Introducing EzTaxon-e: a prokaryotic 16S rrna gene sequence database with phylotypes that represent uncultured species. Int J Syst Evol Microbiol 62, 716-721. l EzFungi database 곰팡이의경우 ITS sequence 를이용한동정을위해 prokaryote 시스템과마찬가지로 ITS1, 2 region 을모두포함한 sequence 들을 public database 로부터얻은후이들의 validation 과 taxonomic identification 을위한 group 을지정을하였습니다. Validation 은 published 된 data 를우선적으로선택하여구성하였으며, database 의 phylotype 이름은 EzTaxon database 의규칙을따라구성하였습니다. 2017 ChunLab, Inc. All rights reserved. 22

l Algorithm for Taxonomic Identification Taxonomic 동정은두가지단계를포함합니다 : (1) query 시퀀스에가까운종 (candidate) 찾기, 그리고 (2) global pairwise alignment를이용하여 query와유사한종시퀀스사이의염기서열 similarity를계산하는것입니다. 단계 (1) 을위해서시퀀스데이터베이스 search에가장많이사용되는 BLASTN 검색법을사용하였습니다 (Altschul et al., 1997). 단계 (2) 에서는 Myers와 Miller (1988) 의 global alignment algorithm을 16S rrna gene sequence의 similarity 계산을위해서사용하였습니다. 이알고리즘은널리사용되는 CLUSTAL 시리즈소프트웨어 (Higgins & Sharp, 1988) 에서뿐만아니라 EzTaxon 웹서버 (Kim et al., 2012) 에서도사용합니다. 새로운박테리아수백종이이알고리즘을사용하여공인되었으며, Tindall et al. (2009) 에의해서분류학적목적으로 sequence similarity를계산하는데권장되고있습니다. BLASTN 검색을통해직접얻은 identity 및 similarity 값은분류목적으로사용할수없습니다 (Tindall et al., 2009). 종 (species) 수준의동정을위한 similarity cut-off 값은 97% 이며 (Tindall et al., 2009), 그보다낮은 similarity 값은종 (species) 보다높은 taxonomic rank를동정하기위해서사용되었습니다 ( 하단도표참조 ). Suprageneric (genus 단계보다윗단계 taxa) 수준의정확한분류학적인동정은 multiple sequence alignment 및 phylogenetic 분석 (neighbor-joining method와같은 ) 에의해서만들어질수있습니다. CLcommunity TM 를사용하여 phylogenetic 분석에대한시퀀스를쉽게얻을수있습니다. 2017 ChunLab, Inc. All rights reserved. 23

가끔 PCR 반응은 non-targeting amplicon들을생성할수있습니다. 예를들면, 쥐구강샘플의 16S rrna gene amplicon들의시퀀스는 non-specific primer annealing 또는 hybridization으로인해서쥐의 genomic DNA로부터유래된 non-specific amplicon을포함할수있습니다. EzTaxon 데이터베이스에대해 HMM(Hidden Markov Model) 검색에서일치되지않는시퀀스는 non-target으로규정하며, 추후분석에포함시키지않습니다. Non-target 시퀀스들은 CLcommunity TM 의 [Data Dropped Read] 메뉴에서볼수있습니다. 2017 ChunLab, Inc. All rights reserved. 24

Taxonomic Group 은 16S rrna 시퀀스로구분되지않는종들을위해디자인되었습니다. 16S rrna가미생물학을위한체계로써사용되었다하더라도경우에따라심각한제한성이있습니다. 일부 species/subspecies는동일하거나거의동일한 16S rrna 시퀀스를가질수있습니다. 이 taxa의시퀀스는 16S rrna 시퀀싱을기반으로는올바르게동정할수없습니다. Taxonomic group 은 16S rrna 시퀀스만으로분리할수없는 taxa들을 (species/subspecies) 그룹으로정의할수있습니다. 그전형적인예로거의동일한 16S rrna 시퀀스를보여주는 Escherichia coli와 Shigella 균의경우가있습니다. 만약 E.coli 와거의유사한 sequence들을 E. coli로동정하는것대신에거의동일한 16S rrna 시퀀스를가지는모든종의그룹으로동정하는것이안전합니다. 이그룹에속하고있는균들은 Escherichia coli, Shigella flexneri, Shigella sonnei, Shigella boydii, Escherichia albertii와 Shigella dysenteriae이며, Escherichia coli group 으로표기합니다. Taxonomic group의이름은일반적으로높은 nomenclature를우선순위로종의이름이결정됩니다 (= 오래된공식종이름 ). EzTaxon 데이터베이스의현재분류학적그룹의정보는 http://www.ezbiocloud.net/eztaxon/taxonomic_group에서찾을수있습니다. Fungi 의경우에도 ITS sequence 로구분이되지않는종들은 taxonomic group 으로 지정을하였습니다. 그룹에대한정보는 EzFungi database 에서찾을수있습니다. 2017 ChunLab, Inc. All rights reserved. 25

CHIMERIC SEQUENCE 제거 EzTaxon 데이터베이스에있는 reference sequence들은높은품질의 non-chimeric 시퀀스로구성되어있습니다. 종 (species) 수준 (>97%) 에서 EzTaxon 데이터베이스에일치하지않는시퀀스는 chimeric sequence를확인하는과정을거치게됩니다. 16S rrna 유전자들이 PCR 증폭되는동안생성되는 chimeric 시퀀스들은미생물군집분석에영향을줄수있는인공산물의흔한형태입니다. 예상보다짧은 PCR cycle로인해너무일찍중단된 PCR product가다음 PCR cycle에서 primer로작용할수있습니다. 이실패한 extension product의 annealing은 chimeric PCR amplicon의형성을야기할수있습니다 (see Haas et al., 2011 for more details). 전형적인 chimera는두개의서로다른 parental template로구성되어있습니다. chimera들을찾아내는것은두가지구성요소를포함합니다. (1) chimera가아닌시퀀스들의집합 ( 데이터베이스 ), 그리고 (2) (1) 의데이터베이스를사용하여 chimera들의형성을감지할수있는효율적인알고리즘입니다. 이를위해서, 데이터베이스는배양된균의시퀀스를포함하는수작업으로확인된고품질의시퀀스들로구성된 non-chimeric reference database (EzTaxon 데이터베이스 ) 를사용합니다. 이러한 chimeric PCR amplicon의생성은우연히일어납니다. 만약배양되지않는시퀀스가두번이상의서로다른실험 ( 또는두번이상의서로다른 PCR 반응들 ) 에서발견되면그것은 chimera가아니라고판단하여 multiple source들로부터유래한이시퀀스들을 non-chimera database에추가하여사용하고있습니다. 2017 ChunLab, Inc. All rights reserved. 26

현재, Chunlab의분석파이프라인에서는 UCHIME 프로그램을 chimera 시퀀스들 (Edgar et al., 2011) 을찾아내는데사용합니다. 제거된시퀀스들은 [Data Dropped Read] 메뉴에서검색할수있으며, UCHIME 프로그램의자세한 output도확인할수있습니다. ALPHA-DIVERSITY STATISTICS 의계산 Alpha, Beta, and Gamma diversity 용어들은 Whittaker (1972) 가특정공간적규모를넘어서는다양성을측정하기위해처음으로정의하였습니다. Alpha-diversity 는특정지역이나생태계내에서의다양성을의미하며, 일반적으로생태계에서종 (species) 의수 (i.e., species richness) 를의미합니다. 미생물학에서일반적으로하나의생태계는하나의샘플입니다. Beta-diversity 는여러생태계사이의종 (species) 다양성변화를분석할때사용합니다. Gamma-diversity 는여러공간내에서전체다양성을측정하기위한방법입니다. 유용한 Alpha-diversity 측정값들의대부분은사전에산출되어 clc (*.clc) 파일에포함되어있으며, [Alpha-diversity] 메뉴에서볼수있습니다. 2017 ChunLab, Inc. All rights reserved. 27

7. CLcommunity TM 창 CLcommunity TM 는미생물군집데이터및관련된통계분석을사용자가간단하게다룰수있는 graphical user interface 를가지고있습니다. 두개의메인창은 Initial Window 와 Main Windo 입니다. clc (*.clc) 파일을열면 CLcommunity TM 프로그램의 Main Window 화면이보일것입니다. 시작윈도우 CLC 파일열기전 메인윈도우 여러개의 CLC 파일로딩후 2017 ChunLab, Inc. All rights reserved. 28

8. Data Files 열기 CLcommunity TM 에서는천랩에서제공하는 clc (*.clc) 파일만열수있습니다. SFF, FASTQ, FASTA 와같은 NGS 로부터나온 raw data 파일은 CLcommunity TM 에서열수 없습니다. clc (*.clc) 파일은두가지방법으로 load 할수있습니다. 1. [Data File Browser] 를사용하는방법 A. Initial Window 에서 [File Open] 을선택합니다. B. clc (*.clc) 파일을저장해놓은폴더로이동하여 clc (*.clc) 파일을선택합니다. Load samples 를클릭하여 data 파일들을 load 합니다. 2. File Explorer 에서 clc (*.clc) 파일들을 Drag 하여 Initial Window 로 drop 하는방 법도있습니다. 2017 ChunLab, Inc. All rights reserved. 29

9. Main Window 에서 Community File 확인법 CLcommunity TM 의메인윈도우는사용자가효율적으로 community 데이터를탐색 할수있게합니다. 이곳에는 4 가지창이포함되어있습니다. 샘플선택창 이창에서사용자는샘플파일 (*.clc file) 을추가하거나삭제할수있습니다 (*.clc file). 각각의 clc (*.clc) 파일은각샘플의미생물군집정보를가지고있습니다. 열린샘플 2017 ChunLab, Inc. All rights reserved. 30

은다음분석을위해서선택 (selected) 을할수있습니다. 또, 다양한데이터시각화 기능을이용하여샘플의비교에영향을미치는샘플의순서를변경할수있습니다 (phylum level 에서의 composition chart). COMMUNITY 구성트리 CLcommunity TM 에서모든시퀀싱 read 들은 species level 로동정이되고 EzTaxon database 의기본이되는 phylogenetic tree 를이용하여보여줍니다 (Kim et al., 2012). Tree Explorer 창은각샘플들의미생물군집구조를연구하는간단하고직관적인방법을제공합니다. 2017 ChunLab, Inc. All rights reserved. 31

10. File Menu Menu Open Open project file Function clc (*.clc) 파일을열수있는 [Data File Browser] 가열립니다 Project file (*.clc) 을열수있습니다.. project file 은특정 clc (*.clc) 파일들을모은것이고, 분석을하다가다음에다시열기위해 [File Save project] 로만들수있습니다. Open Example Example clc (*.clc) 파일이열립니다. 보유하고있는 clc (*.clc) 파일 이없어도 example clc (*.clc) 파일을이용하여 CLcommunity TM 의 다양한기능들을확인할수있습니다.. Go to example Example sample sets 을다운받을수있도록천랩웹사이트로 가는메뉴입니다. sets Option Option menu External programs: ( 외부프로그램연결 ) Phylogenetic tree 와 HTML5을볼수있는 external program 을지정할수있습니다. Tree viewer로는 MEGA, HTML5 browser로는 Chrome을추천하여드립니다. MEGA는 http://www.megasoftware.net/ 에서다운받을수있습 2014 ChunLab, Inc. All rights reserved. 34

니다. MEGA version 5는 [C:\Program Files (x86)\mega5\mega5.exe] 에저장됩니다. Chrome browser는 Google website에서찾을수있으며, 기본저장경로는 [C:\Program Files (x86) \ Google \ Chrome \ Application \ chrome.exe] 입니다. 경로들은 tree파일과 HTML 파일을열수있도록설정되어야만합니다. Define group Close All 몇개의 clc (*.clc) 파일들을같은 group 이나다른 group 으로만 들어주는기능입니다. 모든 clc (*.clc) 파일들을닫을수있습니다. 개개의파일을닫고 싶을경우에는각파일을클릭한후 Delete key 를누르면됩니다. Save Project project file 은다수의 clc (*.clc) 파일들을모아서저장됩니다. 다음 에다시비교하는같은 clc (*.clc) 파일 set 를열고싶다면이 set 를새 project file 로저장하여야합니다. project file 은단지 clc (*.clc) 파일의리스트로구성되며, clc (*.clc) 파일자체를포함하지 않습니다. Exit CLcommunity TM 프로그램을종료합니다 2017 ChunLab, Inc. All rights reserved. 35

Define group 은다음의과정을거쳐서할수있습니다. Group name 을먼저생성을하고생성한그룹목록에포함시킬샘플들을중앙의창에서선택하여오른쪽창으로화살표를눌러넣어주고빼고싶은샘플은다시중앙으로화살표를눌러제외시킵니다. 각 group 별로샘플을추가한후 save project 를이용하여 project 형태로저장합니다. 2017 ChunLab, Inc. All rights reserved. 36

11. Community Menu TAXONOMIC COMPOSITION Load 된샘플들의분류학적인구성을통계학적인그림과표로다양하게생성할수 있는메뉴입니다. Taxonomic composition 차트가만들어지면, 왼쪽상단기능버튼들을클릭하거나, 차트와 legend 의영역으로커서를움직이고, ETC ( 시료에서차지하는비중이 cut-off 보다작은상대적으로 abundance 가낮은 taxa) 의 cut-off 값을변경하는등의다양한방법으로차트를변화시켜활용할수있습니다. 2017 ChunLab, Inc. All rights reserved. 37

하단의 Data export 메뉴를사용하여 taxonomic composition 을숫자값을가지는 테이블형태로 export 할수있습니다. 원하는 taxonomic rank 를선택하고 Data export 버튼을클릭하여테이블형식으로보고서를생성합니다. HEAT MAP Heat map 은열을뜻하는히트 (heat) 와지도를뜻하는맵 (map) 을결합시킨단어로, 2017 ChunLab, Inc. All rights reserved. 40

색상으로표현할수있는다양한정보를일정한이미지위에열분포형태의시각화된그래픽으로출력하는것이특징입니다 (http://en.wikipedia.org/wiki/heat_map). CLcommunity TM 는 circle type 과 gradient type 의두종류의 heat map 을제공합니다. Circular Heat Map Each taxon and its proportion is represented by a circle (area). Gradient Heat Map Each taxon and its proportion is represented by a box (color gradient). Circle type heat map 의옵션들은아래와같습니다. Option Description 2017 ChunLab, Inc. All rights reserved. 41

Select Display with minimum ratio(%) 시각화하여표현할 taxonomic rank 를선택합니다 Average( 평균 ) 또는 Individual Sample ( 개별샘플 ) 최소비율을가진분류군들 (taxa) 을보여줍니다. species A 가샘플 1 전체의 3% 로존재하고샘플 2 에 6% 로존재한다고가정하면, cut-off 수치가 5% 로설정될경우 species A 는그평균이 4.5% 이므로 "Average" 옵션으로는표현이안되고 "Individual Sample" 옵션 을이용하여나타낼수있습니다. Display Options Unifrac clustering: Heap Map 의상단에있는 Fast Unifrac distance (Hamady et al., 2010) 와 UPMGA 을기반으로한계 통수를보여줍니다. Show grid: 도표의테두리처럼각 cell 주위의 grid 를보여줍니다. Set largest to full size: 한샘플에서가장많이분포하는분류군 (taxon) 을 full size circle 로설정할수있습니다. 이기능이체크되지않는다면 full size circle 이 proportion 이 100% 임을의미합니다. 샘플에서가장많이존재하는 taxon 이 100% 에가깝다면이옵션은거의사용되지않을것입니다. Select color: circle 의색을선택할수있습니다. "Random color" 를선택하면다양한색으로자동표현됩니다. Save as Show chart 도표를저장할때 graphic file 포맷을선택할수있습니다 Chart 를보여주는새로고침기능입니다. 옵션을변경한후에 이버튼을눌러야변경사항이반영된차트가보여집니다 2017 ChunLab, Inc. All rights reserved. 42

Gradient type 의 heat map 옵션은아래와같습니다. Option Description Select 시각화하여표현할 taxonomic rank 를선택합니다. Display with minimum ratio(%) Average ( 평균 ) 또는 Individual Sample ( 개별샘플 ) 최소비율을 가진분류군들 (taxa) 을보여줍니다. species A 가샘플 1 전체의 3% 로존재하고샘플 2 에 6% 로존재한다고가정하면, cut-off 수 치가 5% 로설정될경우 species A 는그평균이 4.5% 이므로 "Average" 옵션으로는표현이안되고 "Individual Sample" 옵션 을이용하여나타낼수있습니다. Display Options Unifrac clustering: Heap Map 의상단에있는 Fast Unifrac distance (Hamady et al., 2010) 와 UPMGA 을기반으로한계통수 를보여줍니다. Show grid: 도표의테두리처럼각 cell 주위의 grid 를보여줍니 2017 ChunLab, Inc. All rights reserved. 43

다. Normalized by: (1) Row: 각분류군 (taxa) 의비율을각행 ( 샘플 ) 에대해비교하기위해 normalize 합니다. 최소와최대값은각행에서구하여사용합니다. 예를들어만약 E. coli 가샘플 A 에 10%, 샘플 B 에 5% 존재한다면이두샘플에존재하는 E. coli 는비슷한 gradient 로보여질것입니다. 하지만 row normalize 를사용하면이둘의차이를확실히보여줄수있습니다. (2) Dataset: 모든 dataset 의최소값과최대값이표준화를위해식별되고사용됩니다. Color pattern: 색배합을선택할수있습니다. Save as Show chart 도표를저장할때 graphic file 포맷을선택할수있습니다 Chart 를보여주는새로고침기능입니다. 옵션을변경한후에 이버튼을눌러야변경사항이반영된차트가보여집니다 DOUBLE PIE CHART 2017 ChunLab, Inc. All rights reserved. 44

는동영상을 gif 파일로제작할수있습니다. DYNAMIC PIE CHART (KRONA) Krona는 metagenomic 분류의복잡한구조내에서상대적인풍부도에대해직관적으로탐색할수있게하는시각화도구입니다. 이도구는 National Biodefense Analysis and Countermeasures Center (Frederick, MD, USA) 의 Brian D. Ondov 및 Nicholas H. Bergman과 Adam M. Phillippy에의해개발되었습니다. 모든 Krona 차트 2017 ChunLab, Inc. All rights reserved. 46

는천랩의자체서버에설치된 Krona 도구에의해서생성되며 clc (*.clc) 파일에포함되어있습니다. 현재차트는모든분류학적수준에서하나의군집구조를설명하지만하나의차트에서여러군집은볼수없습니다. Krona 차트의자세한사용법과기능은 http://krona.sourceforge.net/ 에서찾을수있습니다. 이도구를사용하는경우, 다음의논문을인용하시기바랍니다 : Ondov, B. D., Bergman, N. H. & Phillippy, A. M. (2011). Interactive - metagenomic visualization in a Web browser. BMC Bioinformatics 12, 385. 2017 ChunLab, Inc. All rights reserved. 47

12. Compare Menu 이메뉴는비교분석을위한기능을합니다 TAXON XOR ANALYSIS Taxon XOR (exclusive or) 분석기능을통해특정샘플에존재하지만다른샘플들에는없는 taxa ( 모든 taxonomic rank) 를동정할수있습니다. 예를들면, 김치에서는발견되지만인간의피부에는없는박테리아종을식별할수있습니다. 다음의예제를보면많은젖산박테리아종은김치에서만발견되고사람피부에서는발견되지않는것을쉽게알수있습니다. 2017 ChunLab, Inc. All rights reserved. 49

TAXON XOR ANALYSIS BY CD-HIT 앞선섹션에서소개한 Taxon XOR (exclusive or) 분석은각시퀀싱 read 에따른 taxonomic assignment 에기초합니다. Taxon XOR Analysis by CD-HIT 기능을사용하면, EzTaxon 데이터베이스에따라만들어진 taxonomic assignment 를고려하지않고, sequence 들의비교를통해오직특정샘플 set 에서만나타나는 OTUs 를찾을수있습니다. De novo clustering 은 load 된모든군집샘플로부터 OTUs 를식별하는데필요하며, CD-HIT 프로그램을사용하여얻을수있습니다. CD-HIT 프로그램을통해다수의시퀀스들을빠르게 clustering 할수있습니다. CD-HIT 에의해정의된 OTUs 는 EzTaxon 데이터베이스에의해정의된종 (species) 과같을수도있고아닐수도있습니다. 이기능은 EzTaxon reference 데이터베이스에포함되어있지않은 OTUs 를찾을때유용합니다. 2017 ChunLab, Inc. All rights reserved. 51

CD-HIT 프로그램을활용한기능을사용하고자할때에는다음의논문을인용하시 기바랍니다 : Li, W. &Godzik, A. (2006). CD-HIT: a fast program for clustering and comparing large sets of protein or nucleotide sequences. Bioinformatics22, 1658-1659. 2017 ChunLab, Inc. All rights reserved. 52

CD-HIT 를이용한 Taxon XOR Analysis 는다음과같습니다 : SOURCE TRACKING 두개의서로다른샘플에공유하는종 ( 또는 higher taxa) 을동정하여서오염의원인을추적하며유사정도를확인할수있습니다. Single sample 들을이용한 single source tracking 과 group define 을이용한 group source tracking 을수행할수있습니다. 이기능을사용하기위해서가능성있는 source 인 clc (*.clc) 파일들과단일 sample 인 clc (*.clc) 파일 ( 대상커뮤니티 ) 을열기바랍니다. Single source tracking 기능메뉴는아래의그림과같습니다. Options Description Select rank Taxonomic rank 를선택할수있습니다. source tracking 목적으로사 용하는경우종 (species) 을선택하는것을추천합니다.. Sharedness Sharedness 는공유된종 (species) 들의비율을뜻합니다. 이값이 2017 ChunLab, Inc. All rights reserved. 53

calculation 높다는것은 source 와 sink 간의연관성이높다는것을의미하며, 이 값의계산은다음의세가지옵션에의해만들어집니다. Source 와 sink 샘플들간의공유된종의비율은어떤샘플이분모로계산되는 가에따라다르게나올수있습니다. s 는두샘플에서공통으로가 진시퀀스의수, a 는 source 샘플의총수, 그리고 b 는 sink 샘플의 총수를뜻합니다. Average: Sharedness(%) = -. 0112-3 011 Source side only: Sharedness % = 5 6 100 Minimum: Sharedness % = min ( 5 6 100, 5 = 100) Source 이리스트에 source 샘플들을추가할수있습니다. 4 Sink 오직하나의 sink 샘플만을선택하여이리스트에추가할수있습니 다. Export as Excel Raw data 를 Excel 파일형식으로 export 하는기능으로, 이파일을 사용자의목적에맞게도식화및도표화할수있습니다. Save as 도표를저장할때 graphic file 포맷을선택할수있습니다. Show chart chart 를보여주는새로고침기능입니다. 옵션을변경한후에이버 튼을눌러야변경사항이반영된차트가보여집니다. 2017 ChunLab, Inc. All rights reserved. 54

위의예를보면인간피부샘플은화장실표면오염 ( 화장실샘플이 Sink 의역할 ) 의원인 (10.32 & 5.75%) 이되었을가능성과 Propionibacterium acnes 가주로오염되었다는것을확인할수있습니다. 아래의그림들은 "source tracking (single)" 차트의일부입니다. 2017 ChunLab, Inc. All rights reserved. 55

Group source tracking 메뉴는아래와같습니다. Options Description Source 이리스트에 source 가될수있는 group 들을추가할수있습니다. Groups 선택하여 loading 된 group 들을보여줍니다. Sink 오직하나의 group 만을선택하여이리스트에추가할수있습니다. Define 샘플들을 group 으로지정할수있습니다. group Select chart Select rank 분석되어나오는 chart 를 Box plot 으로할것인지 Pie chart 로할것 인지선택할수있습니다. Taxonomic rank 를선택할수있습니다. source tracking 목적으로사 용하는경우종 (species) 을선택하는것을추천합니다. Sharedness calculation Sharedness 는공유된종 (species) 들의비율을뜻합니다. 이값이 높다는것은 source 와 sink 간의연관성이높다는것을의미하며, 이 값의계산은다음의세가지옵션에의해만들어집니다. Source 와 2017 ChunLab, Inc. All rights reserved. 56

sink 샘플들간의공유된종의비율은어떤샘플이분모로계산되 는가에따라다르게나올수있습니다. s 는두샘플에서공통으로 가진시퀀스의수, a 는 source 샘플의총수, 그리고 b 는 sink 샘플 Export as Excel Save as 의총수를뜻합니다. Average: Sharedness(%) = -. 0112-3 011 Source side only: Sharedness % = 5 6 100 Minimum: Sharedness % = min ( 5 6 100, 5 = 100) 4 Raw data 를 Excel 파일형식으로 export 하는기능으로, 이파일을 사용자의목적에맞게도식화및도표화할수있습니다. 도표를저장할때 graphic file 포맷을선택할수있습니다 Show chart chart 를보여주는새로고침기능입니다. 옵션을변경한후에이버 튼을눌러야변경사항이반영된차트가보여집니다 Box plot chart 는다음과같습니다. Pie chart 의결과는다음과같습니다. 2017 ChunLab, Inc. All rights reserved. 57

13. Alpha-diversity Menu Alpha diversity (α-diversity) 용어는 R. H. Whittaker 가도입한것으로 single community (=sample) 의생물학적다양성을나타내는지표입니다. CLcommunity TM 두가지미리계산된측정카테고리인 1) rarefaction curve 와 2) diversity indices 를제공합니다. 두가지모두종에대한각시퀀스의 assignment 가필요합니다. 이과정은 CD-HIT, TBC, TDC_TBC 라는세가지방법으로수행됩니다. 여기서 종 이란알려진종을비교하기위해서디자인된분류학적용어를의미합니다. 그리고 OTU 란수학적경계가 97% 시퀀스유사도로정의된시퀀스의그룹을의미합니다. 따라서종과 OTU 가동일하지않을수있습니다. OTU Description calculation method CD-HIT OTUs 결정은 CD-HIT 프로그램을사용한 de novo clustering 에의 해정해집니다. TBC OTUs 는 TBC 프로그램을사용한 de novo clustering 에의해정해집 니다. (Taxonomy-based clustering; Lee et al., 2012). TBC 는 CD-HIT 에비해느리지만더나은 clustering 을수행합니다. 2017 ChunLab, Inc. All rights reserved. 59

TDC-TBC Taxonomy-dependent clustering (TDC) 수행후에 TBC clustering 을 수행합니다. 만약시퀀스대부분이 EzTaxon database 을이용한종의단계에서식별되면, 이정보는 alpha-diversity 계산에사용될수있습니다. TDC-TBC 옵션으로먼저시퀀스들을 EzTaxon 데이터베이스 ( 가장정확한분류동정 ) 의유사성기반동정을이용한종단계로식별할수있습니다. 그다음식별되지않은 (i.e. by >97% similarity) 시퀀스들은 OTUs 로할당하기위해 TBC de novo clustering 을합니다. Alpha-diversity indices 들은 Mothur package 를이용하여계산됩니다 (Schloss et al., 2009). RAREFACTION CURVE Rarefaction (Heck et al., 1975) 은다양한크기의샘플로부터계산된 species richness 를표준화하고비교하는데사용하는기술입니다 ( 자세한설명은 http://en.wikipedia.org/wiki/rarefaction_(ecology) 에서확인할수있습니다 ). 이것은시퀀스가획득된수에따른 OTUs (species) 수의증가비율을보여줍니다. 2017 ChunLab, Inc. All rights reserved. 60

DIVERSITY INDICES 가장널리사용되는 alpha-diversity indices 는 species richness (= 종의수, 여기를누르시면자세한설명을볼수있습니다 ) 를계산하도록디자인된것입니다. 모든 species richness estimates 는오직 estimates 일뿐종의정확한수 ( 실제값 ) 는아니므로이용에참고하시기바랍니다. Diversity indices 는 Species richness 뿐만아니라샘플간의종다양성정도를직접비교하는수단을제공합니다. Good s library coverage estimator 는시행된시퀀싱을통해실제샘플의다양성을얼마나 cover 했는지측정하는데에이용됩니다. Estimates /Indices ACE Chao1 Description Species richness estimate (Chao & Lee, 1992) Species richness estimate (Chao, 1984) More information/citations http://www.mothur.org/wiki/ace http://www.mothur.org/wiki/chao Jackknife Interpolated Jackknife http://www.mothur.org/wiki/jack richness estimate NPShannon Non-parametric Shannon diversity index (>0, http://www.mothur.org/wiki/npshann on higher, more diverse) Shannon Shannon diversity index http://www.mothur.org/wiki/shannon 2017 ChunLab, Inc. All rights reserved. 62

(>0, higher, more diverse) Simpson Good s library coverage Simnpson diversity index (0~1, 1=most simple) 하나의샘플에서시퀀스정보들이그샘플을얼마나나타내는지의정도를보여줍니다. [1 (n/n)] 100 으로계산되며 n 은 singleton OTUs 의수, N 은전체 reads 수입니다 (0~1, 1=100%). http://www.mothur.org/wiki/simpson The population frequencies of species and the extimation of population parameters. (Good, 1953) 2017 ChunLab, Inc. All rights reserved. 63

RANK ABUNDANCE CURVE Rank Abundance Curve/Chart는관련된종 (species) 의수, 즉생물다양성의구성요소를보여주고자할때사용되는차트입니다. 또, species richness와 species evenness를시각화하는데사용할수있습니다. 이차트는변수변화에따른관련인자의변화를보여주지못하는다른 diversity index들의단점을극복하였습니다 ( 자세한설명은 http://en.wikipedia.org/wiki/rank_abundance_curve 에서확인할수있습니다 ). 사용자는 CLcommunity TM 에서직접곡선을표시할수있고, 다른그래픽소프트웨어에서사용하기위해 raw data를 export 할수있습니다. 2017 ChunLab, Inc. All rights reserved. 64

14. Beta-diversity Menu Beta diversity (β-diversity) 는샘플간 ( 생태계 ) 의종다양성을비교하여생태계사이 의관계를유추하고자하는 분석입니다. 미생물학에서는일반적으로두개또는그 이상의 metagenomic 샘플간다양성비교를의미합니다. CLcommunity TM 는가장 널리사용되는 β-diversity 측정법인 Fast Unifrac analysis 를제공합니다. UniFrac distance metric (Lozupone & Knight, 2005) 은두개또는그이상의미생물군집을비교할때널리사용됩니다. Fast UniFrac (Hamady et al., 2010) 은원래의 UniFrac algorithm의변형이며 backbone phylogenetic tree에대한 taxonomic assignment를사용하여대용량데이터세트를처리하도록디자인되었습니다. 천랩은 backbone phylogenic tree로 Eztaxon taxonomic structure (Kim et al., 2012; http://www.ezbiocloud.net/eztaxon) 를사용합니다. UniFrac과 Fast Unifrac 알고리즘은모두 Rob Knight 그룹 (University of Colorado, Boulder, USA.) 에의해서개발되었습니다. CLcommunity TM 는 normalization 이되거나되지않는 weighted Fast UniFrac 을제공 합니다 (normalization 되는것이기본입니다 ). 2017 ChunLab, Inc. All rights reserved. 65

모든시퀀싱 read들이 backbone phylogenetic tree에서알려진 taxa로할당될수있는것은아닙니다. 그래서이러한분류되지못하고식별되지못한시퀀스들을위해 3가지다른옵션을제공합니다. A와 B를 Nocardia asteroides 종에각각 95.5% 와 95.3% 의 similarity 값을나타낸시퀀스라고가정하겠습니다. 두시퀀스들은세가지방법으로처리할수있습니다 : (i) 같은종에속함 ( 데이터베이스의 sequence가 phylotype representative로서이종들을포함하지않기때문에이러한상황이발행한다는것을고려합니다 ), (ii) 50% 확률로같은종에속함, 그리고 (iii) 두개의서로다른종. 기본적인옵션은 (iii) 을사용합니다. UniFrac distance는미생물군집구조의측면에서두샘플사이의거리를나타냅니다. 모든샘플들중에 UniFrac distance를포함하는매트릭스는 dendrogram (via hierarchical clustering) 또는 ordination diagram (via principal coordinate analysis) 을생성하는데사용할수있습니다. 이기능을사용하는경우, 아래의자료를인용하시기바랍니다 : Hamady, M., Lozupone, C. & Knight, R. (2010). Fast UniFrac: facilitating high-throughput phylogenetic analyses of microbial communities including analysis of pyrosequencing and PhyloChip data. ISME J 4, 17-27. 2017 ChunLab, Inc. All rights reserved. 66

UPGMA DENDROGRAM UPMGA (Unweighted Pair Group Method with Arithmetic Mean) 는가장널리사용되는계층구조 clustering 방법입니다. dendrogram 은군집들이 grouped/clustered 되는방식을시각화하기위해서 Fast UniFrac distance 매트릭스를이용하여생성됩니다. Dendrogram 결과는 newick file format 으로저장되며, newick file 을보려면 MEGA 프로그램을설치하여볼수있습니다. 2017 ChunLab, Inc. All rights reserved. 68

PCO 2D PROJECTION CLcommunity TM 는 UniFrac distance 를 PCO 분석을이용하여 2D 그래프를그려줍니 다. PCO 2D 를그릴때, single sample 로그림을나타낼수도있고, 따로구분지은 group 으로그림을나타낼수있습니다. 메뉴는아래그림과같습니다. PCO 3D PROJECTION CLcommunity TM 는 UniFrac distance 와 PCO 분석에기초한 2 가지의삼차원영상을 제공합니다. 2017 ChunLab, Inc. All rights reserved. 70

CCA (CANONICAL CORRESPONDENCE ANALYSIS) Canonical correspondence analysis (CCA) 는상관분석 (Correspondence analysis) 의한종류로, 군집구성의주요변수를파악해서환경변수와연관지어주는분석입니다. Correlation matrix를사용하는 PCA와달리, CCA에서는 Chi-square matrix를기반으로하고 weighted linear mapping을이용하여계산하며, 독립적인환경변수들과종속적인 community 변수를가지고있을때사용합니다. CCA는비선형그래프를이용하여종과환경변수와의다양한관계를보여줍니다. 참고문헌은다음과같습니다. Ter Braak, C.J.F. and P.F.M. Verdonschot, Canonical correspondence analysis and related multivariate methods in aquatic ecology. Aquatic Sciences, 1995. 57: p. 255-289. 2017 ChunLab, Inc. All rights reserved. 72

Ter Braak, C.J.F., Canonical Correspondence Analysis: A New Eigenvector Technique for Multivariate Direct Gradient Analysis. Ecology, 1986. 67: p. 1167-1179. CCA를그리기위해서는측정한환경변수들을 metadata로넣어주어야합니다. metadata의파일형식은 CLcommunity TM 가인스톨된폴더에 CCA_Soil from waste mine.txt 파일을참조하시기바랍니다. 파일은다음과같이텍스트형식에각샘플별로측정한환경인자가있으면됩니다. Metadata의형식은아래그림과같음. 시료이름은첫번째열에, 각시료의 metadata는열을추가하여기록하고, 열사이 ( 입력값들사이 ) 는탭으로간격을띄워야함. 각열의 title은 < > 안에넣어구별하여줌. 주의. 로드된 clc (*.clc) 파일과텍스트파일 (*.txt) 의샘플이름이동일해야함. 몇가지샘플을각각선택하는경우, 사용하는샘플데이터만포함하여새텍스트파일을생성해야함. 2017 ChunLab, Inc. All rights reserved. 73

Metadata 파일을정리한후 CCA 를누르면다음과같은 metadata 를 loading 하는 메뉴가나옵니다. 분석에사용하고자하는미생물군집의수준을선택한후, 처리 옵션을선택합니다. 처리옵션은두가지가있습니다. Normal processing 은가능한모든 eigen value 를구해서연산하는 2017 ChunLab, Inc. All rights reserved. 74

방법으로, 시료내의미생물종수가많고데이터가클경우수분의시간이걸릴수있음. Fast processing 은가장절대값이큰 eigen value를갖는 eigen vector부터순차적으로근사방법에의하여계산하므로연산이상대적으로빠름. Display data 옵션을설정하여그래프에나타낼 data 를선택합니다. Sample: 해당축위에각샘플을표시 Metadata: 환경요인들의관련성을상대적인축으로표시 (E.g. C/N, Zn, ph) Taxonomic rank: 선택한분류군을표시 2D graph 를선택하시면다음과같은 graph 를그릴수있습니다. 2017 ChunLab, Inc. All rights reserved. 75

유저들은 short sequences, low quality reads 그리고 chimeric reads 를포함한모든 버려진시퀀스를 export 할수있습니다. 다음은 UCHIME chimeric check 를통해도출된결과정보입니다. COLUMN READ NAME COUNT DESCRIPTION QUERY 시퀀스의이름 CONTIG 를생성할때사용되는시퀀스의수. CONTIG 가 아니라면 COUNT 는 1 이됩니다. LEFT(RIGHT) HIT NAME LEFT(RIGHT) HIT QUERY 시퀀스의왼쪽 ( 오른쪽 ) 부분과부합하는 REFERENCE 시퀀스의이름 QUERY 시퀀스의왼쪽 ( 오른쪽 ) 부분과부합하는 REFERENCE 시퀀스의 ACCESSION ACCESSION LEFT(RIGHT) HIT QUERY 시퀀스의왼쪽 ( 오른쪽 ) 부분과부합하는 REFERENCE 시퀀 스의분류정보 TAXONOMY LEFT(RIGHT) HIT QUERY 시퀀스의왼쪽 ( 오른쪽 ) 부분과부합하는 QUERY 와 REFERENCE 시퀀스간의시퀀스유사성 SIMILARITY CHIMERA UCHIME 프로그램으로계산한 SCORE SCORE SEQUENCE METHOD QUERY SEQUENCE CHIMERA 검색방법 EXPORT SEQUENCES 2017 ChunLab, Inc. All rights reserved. 80

clc (*.clc) data 시퀀스들은 FASTA 포맷으로 export 할수있습니다. GENERATE RANDOM READ SUBSETS 가장이상적인것은같은 read 수로샘플들을비교하는것입니다. 그러나 NGS 실험에서모든샘플이같은 read 수로나오는경우는흔하지않습니다. 이문제에대한일반적인해결방법은먼저가능한한얻을수있는모든시퀀싱 read 들을읽은결과를확보한다음, 각샘플당동일한 read 수를지니는샘플세트를새롭게생성하는것입니다. 이방법을 CLcommunity TM 에있는이메뉴에서활용할수있습니다. 만약임의의샘플세트를써서동일한결과를얻었다면, 오리지널데이터세트로부터도출된결과는동일하지않은샘플크기때문에영향을받지않는다는것을보여줍니다. 모든선택된샘플들은하위샘플들이며새로운데이터파일들은새로운 clc (*.clc) 파일로만들어집니다. 이새로운 clc (*.clc) 파일들은 CLcommunity TM 에서열수있으며오리지널 clc (*.clc) 파일들처럼분석할수있습니다. 2017 ChunLab, Inc. All rights reserved. 81

16. Glossary clc (*.clc) file CLcommunity TM 의데이터파일 Contig 유사한 sequence 들을모아유사한 DNA 단편들의집합을 대표하는시퀀스 OTU (Operational 일반적으로 OTU 는종을뜻하지만, 어떤 clustering 기준으로 산출하느냐에따라다른 taxonomic rank 가될수있습니다. Taxonomic Unit) Principal Component Analysis (PCA) 고차원데이터의시각화를위해낮은차원으로줄이는데널리쓰이는다변량분석입니다. PCA 는예상되는데이터의분산을최대화시키는등이차원또는삼차원의공간으로데이터를직교투영 (orthogonal projection) 합니다. ( 자세한설명은 http://en.wikipedia.org/wiki/principal_component_analysis 를클릭하여볼수있습니다 ). Principal Coordinates Analysis 변수공간에있는점사이의거리행렬을직교축들을따라 변화의양을극대화하는투영 (projection) 으로변환하는 기하학적기술입니다. (PCoA) Rarefaction curve 개별적인샘플의함수를통해알수있는 OTUs 수의증가를 설명하는곡선입니다. 서로크기가다른샘플들의종풍부도 (species richness) 를계산하여비교하는데사용할수있습니다. 2017 ChunLab, Inc. All rights reserved. 85

Species richness 종풍부도 (Species richness) 는주어진지역이나샘플안에있는 서로다른종의수를뜻합니다. 17. References Altschul, S. F., Madden, T. L., Schaffer, A. A., Zhang, J., Zhang, Z., Miller, W. &Lipman, D. J. (1997). Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res 25, 3389-3402. Good, I. J. (1953). The Population Frequencies of Species and the Estimation of Population Parameters.Biometrika 40, 237-264. Hamady, M., Lozupone, C. & Knight, R. (2010). Fast UniFrac: facilitating highthroughput phylogenetic analyses of microbial communities including analysis of pyrosequencing and PhyloChip data. The ISME journal 4, 17-27. Haas, B. J., Gevers, D., Earl, A. M. & other authors (2011). Chimeric 16S rrna sequence formation and detection in Sanger and 454-pyrosequenced PCR amplicons. Genome Res 21, 494-504. Heck, K. L., van Belle, G., and Simberloff, D. (1975). Explicit calculation of the rarefaction diversity measurement and the determination of sufficient sample size. Ecology 56, 1459-1461. Jolliffe, I. T. (2002). Principal Component Analysis. Higgins, D. G. & Sharp, P. M. (1988). CLUSTAL: a package for performing multiple sequence alignment on a microcomputer. Gene 73, 237-244. 2017 ChunLab, Inc. All rights reserved. 86

Kim, O. S., Cho, Y. J., Lee, K. & other authors (2012). Introducing EzTaxon-e: a prokaryotic 16S rrna gene sequence database with phylotypes that represent uncultured species. Int J Syst Evol Microbiol 62, 716-721. Li, W. & Godzik, A. (2006). Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences. Bioinformatics 22, 1658-1659. Myers, E. W. & Miller, W. (1988).Optimal alignments in linear space.computapplbiosci 4, 11-17. Schloss, P. D., Westcott, S. L., Ryabin, T. & other authors (2009). Introducing mothur: open-source, platform-independent, community-supported software for describing and comparing microbial communities. Applied and environmental microbiology 75, 7537-7541. Tamura K, P. D., Peterson N, Stecher G, ei M, and Kumar S (2011). MEGA5: Molecular Evolutionary Genetics Analysis using Maximum Likelihood, Evolutionary Distance, and Maximum Parsimony Methods. Molecular biology and evolution 28, 2731-2739. Tindall, B. J., Rossello-Mora, R., Busse, H. J., Ludwig, W. & Kämpfer, P. (2010). Notes on the characterization of prokaryote strains for taxonomic purposes. Int J Syst Evol Microbiol 60, 249-266. Edgar, R. C., Haas, B. J., Clemente, J. C., Quince, C. & Knight, R. (2011). UCHIME improves sensitivity and speed of chimera detection. Bioinformatics 27, 2194-2200. Whittaker, R.H. (1972). Evolution and measurement of species diversity. Taxon, 21, 213-251. 2017 ChunLab, Inc. All rights reserved. 87

Hamady, M., Lozupone, C. & Knight, R. (2010). Fast UniFrac: facilitating highthroughput phylogenetic analyses of microbial communities including analysis of pyrosequencing and PhyloChip data. ISME J 4, 17-27. Ondov, B. D., Bergman, N. H. & Phillippy, A. M. (2011). Interactive metagenomic visualization in a Web browser. BMC Bioinformatics 12, 385. Lee, J. H., Yi, H., Jeon, Y. S., Won, S. & Chun, J. (2012). TBC: a clustering algorithm based on prokaryotic taxonomy. J Microbiol 50, 181-185. 2017 ChunLab, Inc. All rights reserved. 88