연구단신, Brief report 병원체염기서열생산을위한라이브러리제작기법소개 질병관리본부국립보건연구원생물안전평가과양효진, 최현정, 채희열, 강연호 * * 교신저자 : slowpc@korea.kr, 043-719-8040 Library construction techniques for pathogen whole genome sequencing Yang Hyo-Jin, hoi Hyun-Jung, hai Hee-Youl, Kang Yeon-Ho* Division of Biosafety Evaluation and ontrol, KNIH, KD In molecular biology, libraries are widely used for analyzing the sequences of gene or genome to discover a new gene and its function. Furthermore, libraries are essential in genomics for preparing genetic materials into a form compatible with the sequencing system to be used. For this reason, the library preparation method has evolved from that applied in firstgeneration sequencing techniques (Sanger sequencing) to more recent sequencing technology [second- generation sequencing i.e., next-generation sequencing (NS) and third-generation sequencing]. Moreover, the methods are changed depending on the type of target genetic materials (e.g., DN, RN). In this report, we introduce general library preparation methods and specific library construction methods according to the type of pathogens being detected. Keywords: Library construction, Pathogen, Whole genome sequencing, enome, enetic material 들어가는말 분자생물학에있어라이브러리란유전자클로닝을통해서각기다른 DN 단편조각을동일한벡터에삽입한모음을말한다. 라이브러리는서로다른개체의총유전체 DN를제한효소로잘라만든유전체라이브러리 (genomic library) 와암호화서열만을포함하고있는 cdn 라이브러리 (cdn library) 가있다. 이들은특정개체의유전체염기서열분석에서새로운유전자의발견과 기능연구까지넓은분야에이용되고있다 [1]. 또한유전물질의염기서열을분석하기위한생거시퀀싱 (Sanger sequencing) 에도라이브러리의제작이필수적이다 [2]. 라이브러리의제작은 1세대시퀀싱부터최근 3세대시퀀싱까지그방법과기작이플랫폼에따라다르지만질 (quality) 이좋은시퀀싱데이터를얻는중요한단계라는것은모든플랫폼에서공통적이다. 이글에서는 2세대시퀀싱 (Next generation sequencing, NS) 부터 3세대시퀀싱 (3rd generation sequencing) 까지라이브러리제작방법과병원체 ( 박테리아, www.cdc.go.kr 1178
바이러스 ) 의전장유전체시퀀싱 (whole genome sequencing) 에 적용하는라이브러리의제작방법을소개하고자한다. 복제, 증폭 (colony) 후이들서열을분석했다면, 2 세대시퀀싱 (Next generation sequencing, NS) 부터는 flow cell 이나 bead 와같은 in vitro 상에서증폭 (polony) 하여서열을분석한다 (Figure 1). 몸말 시퀀싱에있어라이브러리의제작과정은각종유전물질들 (DN, RN) 을시퀀싱시스템과호환되도록준비하는과정이다. 1세대시퀀싱은미생물내에클로닝벡터를삽입해서 in vivo 상태에서 라이브러리제작단계는유전물질의단편화 (fragmentation), 어댑터부착 (adaptor ligation), 라이브러리의정량및사이즈확인과정 (quality control, Q) 으로완성된다 (Figure 2). 첫번째, 유전물질의단편화과정은라이브러리제작에중요지표로각각의플랫폼이생산할수있는리드 (read) 의사이즈에따라단편의길이를결정할수있다. 2세대시퀀싱에비해서 3세대시퀀싱리드의 a DN fragmentation b DN fragmentation In vivo cloning and amplification In vitro adaptor ligation ycle sequencing 3'- -5' (template) 5'-... (primer) Polymerase dnps Labeled ddnps eneration of polony array Electrophorsesis (1 read/capillary) yclic array sequencing (>10 6 reads/array) ycle 1 ycle 2 ycle 3 What is base 1? What is base 2? What is base 3? Figure 1. Work flow of conventional versus second-generation sequencing(jay Shendure, et al., 2008) www.cdc.go.kr 1179
Figure 2. Basic work flow for NS library preparation(steven R. Head, et al., 2015) 길이 (PacBio Sequel의경우최대 40 Kb) 가길기때문에시료의단편도길게제작된다. DN 단편화과정은물리적인방법 (physical methods: acoustic shearing, sonication) 과효소법 (enzymatic methods: non-specific endonuclease cocktails, transposase tagmentation) 으로나눈다. 두방법모두유전물질을단편화하기에효율적이지만효소법의경우물리적인방법에비해인위적인 indel( 염기삽입과결실 ) 부위를더많이생성한다 [3]. 두번째, 어댑터부착과정은단편화된유전물질에시퀀싱시스템내의 flow cell이나 bead에부착된올리고머에상보적인올리고머 ( 어댑터 ) 와각각의시료를인식할수있는인덱스를부착하는과정이다. 이과정에서 PR을통해라이브러리의양을증가시켜준다. 마지막으로완성된라이브러리의사이즈를확인하고정량하는과정이다. 이과정은완성된라이브러리를검증하는과정으로 라이브러리품질관리 (Q) 라고도하고시퀀싱의질을결정하는단계이기도 하다. 이과정에서는라이브러리의사이즈분포와정량이매우정확하게측정되어야한다. 라이브러리의양이많이주입되는경우 flow cell이나 bead에라이브러리가포화상태가되어시퀀스를읽는데문제가발생하고, 라이브러리의양이적게주입되는경우원하는만큼의시퀀싱범위 (coverage) 와시퀀싱배수 (read depth) 를얻을수없다. 따라서라이브러리정량은 double strand DN만특이적으로정량하는형광법 (Qubit, Picoreen) 이나어댑터가부착된라이브러리만정량하는 q-pr 방법을사용한다 [4]. 앞서설명한라이브러리제작방법은병원체의전장유전체시퀀싱 (whole genome sequencing) 에도적용이된다. 박테리아는바이러스에비해유전체의사이즈도크고 (Mega base 단위 ) 질이좋은시료를다량으로준비하기비교적쉽다. 반면바이러스의경우유전체의종류도다양하고 (ssrn, dsrn, DN) 유전체의사이즈 (Kilo base 단위 ) 도작아라이브러리제작에알맞은시료를 www.cdc.go.kr 1180
준비하기에어려움이많다. 현재본원에서다루는박테리아유전체를이용한라이브러리제작은 Illumina사 (San Diego, alifonia, US) 의전용키트를사용하고있다. 이키트는효소를이용해서유전물질을단편화시키는동시에어댑터를부착시키는 tagmentation 기술 (Figure 3) 로시료를다루기쉽고라이브러리제작시간을단축시켜주지만, 저농도 (0.2 ng/ul) 를사용하기때문에비교적농도가높은박테리아유전체는여러번희석하는과정을거쳐야하는단점이있다 [3]. 또한, contents(%) 가특이적으로높거나낮을때, 효소에 의한라이브러리의단편화가완벽하지않아비교적큰사이즈의라이브러리가남아있는경우가있다. 이러한경우엔물리적인방법으로단편화시킨후효소를이용한방법을적용시킨다 (Figure 4). 바이러스유전체는사이즈가작고유전물질의바이러스마다다르기때문에고유형태를그대로사용하지않고유전체가끊어지지않도록연결된 PR 산물이나 double stranded cdn 형태로합성후 tagmentation 방법으로라이브러리제작을수행한다 (Figure 5). 최근에는사람의 ribosomal RN를제거하고순수한바이러스의 RN만분리하여라이브러리를제작해 B Nextera Xtransposome with adapterscombined with template DN agmentation tofragment and add adapters Limited-cycle PR toadd indexadapter sequences Figure 3. agmentation technology www.cdc.go.kr 1181
정확도를높이는방법이개발되어본원의바이러스전장유전체 시퀀싱 (whole genome sequencing) 에도입중에있다 [5, 6]. 맺는말 국립보건연구원염기서열생산실에서는최첨단염기서열. Botulinum g-dn(before shearing) 생산장비의지속적도입과함께최신의라이브러리제작방법을 도입, 적용하여, 국내유입및발생되는병원체의신속하고정확한 염기서열생산을지원하고있다. 향후에는감염병연구뿐만아니라병원체염기서열분석을위한라이브러리제작표준작업절차서 (Standard Operating Procedures; SOP) 를작성하여제공해나갈예정이다.. Botulinum g-dn(after shearing) 참고문헌 Figure 4. Size distribution of tagmentation versus physical shearing & tagmentation oncatenated amplicon_influenza virus Double stranded cdn_mers 1. Wotson, et al. 2013. Molecular Biology of the ene(7th edition). old Spring Harbor Laboratory Press. 2. Jay Shendure, et al. Next-generation DN sequencing. Nature Biotechnology, 2008;26(10):1135-41. 3. Steven R. Head, et al. Library construction for next-generation sequencing: Overviews and challenges. Biotechniques, 2014;56(2):61-77. 4. Ken Doyle, 2015. DN quantitation in next generation sequencing library workflows, http://www.promega.kr/resources/pubhub/dnaquantitation-in-next-generation-sequencing-library-workflows/. 5. hristian B. M., et al. Enhanced methods for unbiased deep sequencing of Lassa and Ebola RN viruses from clinical and biological samples. enome Biology, 2014;15(519):1-12. 6. armen F. M., et al. Efficient and unbiased metagenomic recovery of RN virus genomes from human plasma samples. Nature, 2017;7(4173):1-13. Figure 5. Size distribution of library according to genetic material type www.cdc.go.kr 1182