Journal of Bacteriology and Virology 2014. Vol. 44, No. 2 p.208 213 http://dx.doi.org/10.4167/jbv.2014.44.2.208 Letter to the Editor Performance Comparison of Benchtop Next-generation Sequencing Systems Hee Sam Na * Department of Oral Microbiology, School of Dentistry, Pusan National University, Yangsan Korea With fast development and wide applications of next generation sequencing (NGS), genomic sequence information is within reach to various research fields. Three benchtop NGS instruments are now available. The 454 GS Junior (Roche), Ion PGM (Life Technologies) and MiSeq (Illumina) are laser-printer sized and offer modest set-up and running costs. By reviewing 2 studies that compared the performance of these instruments, the major characteristics of each benchtop platforms are compared to enable direct comparisons. The 454 GS Junior generated the longest reads and most contiguous assemblies but had the lowest throughput. The Ion Torrent PGM had the highest throughput and fastest run time. The MiSeq had the highest throughput per run and lowest error rates. The Ion Torrent PGM and 454 GS Junior both produced homopolymer-associated indel errors. Although all the platforms allow multiplexing of samples, details of experimental design, library preparation and data analysis may constrain the options. The features of the platforms provide opportunities both to conduct groundbreaking studies and to waste money. Thus, careful considerations should be made before purchasing or using any of them. Key Words: Next generation sequencing, 454 GS Junior, Ion torrent, MiSeq 저자는최근개인실험실에보급되고있는 Nextgeneration sequencing (NGS) 플랫폼가운데 454 GS Junior, Ion torrent PGM과 MiSeq을비교발표한논문을읽고이를중심으로각플랫폼의장단점을아래와같이전달하고자한다. 주요참고문헌은 'Comparison of Next- Generation Sequencing Systems (1), Performance comparison of benchtop high-throughput sequencing platforms (2, 3), Performance Comparison of Bench-Top Next Generation Sequencers Using Microdroplet PCR-Based Enrichment for Targeted Sequencing in Patients with Autism Spectrum Disorder (4)' 이다. 유전체연구는 NGS 기법의도입과함께눈부시게발전하고있다. 특히최근시장에연구소단위의커다란 기관뿐만아니라개인연구실에서도운영할수있을정도로부피가작고가격이비교적저렴한 NGS 기기들이소개되고있다. 가장대표적인 NGS 장비로 454 GS Junior, Ion torrent PGM과 MiSeq가있다. 454 GS Junior의경우가장긴 read length를보인반면가장작은데이터를생산하였다. Ion PGM은가장빠른데이터생산과가장짧은운용시간을보인반면동종중합체에대해상당한오류를나타냈다. MiSeq 는가장많은데이터를생산하였고 Mb당가장낮은비용이소모되었다. 이글에서는최근에발표된논문을살펴봄으로써각 NGS 장비의특징과장 단점을비교하고자한다. 지난 10여년간유전자염기서열분석의발전은의학연구에많은변화를가져왔다. 특히최근몇년간 NGS Received: March 21, 2014/ Revised: April 7, 2014/ Accepted: April 9, 2014 * Corresponding author: Hee Sam Na. Department of Oral Microbiology, School of Dentistry, Pusan National University, Yangsan, 626-810, Korea. Phone: +82-51-510-8252, Fax: +82-51-510-8246, e-mail: heesamy@pusan.ac.kr ** This research was supported by the National Research Foundation of Korea (NRF) grant funded by the Korea Ministry of Education, Science and Technology (NRF-2011-0013215). The authors have no financial conflicts of interest. CC This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/license/by-nc/3.0/). 208
Performance Comparison of Benchtop Next-generation Sequencing Systems 209 기술은세균과인간의유전체염기서열분석에커다란변화를가져왔다 (5, 6). NGS가시장에소개되면서많은기술적인개선이지속적으로이루어졌고, 다른플랫폼과경쟁함에따라유전자염기서열분석에커다란혁신을가져오게되었다. 이러한변화는우리가무엇을할수있고, 어떻게진행하고, 얼마에가능한지를결정하기에이러한기술의흐름에보조를맞추는게필요하다. 기관들과연구자들은매년기계구매에상당한금액을투자하고있다. 그러한구매는실험실과연구소에서소모하는소모품과기술적지원에매년상당한연구비지출로연결된다. 일단기계를구입하면기계적특징, 화학작용기전, 연구비등이연구의내용과틀을제한하게된다. 이글의목적은최근시장에소개된 benchtop NGS 기기들의실험결과를비교한논문을살펴봄으로써사용자의목적에맞는플랫폼을선택하는데도움을주고자하는것이다. 각플랫폼에대한소개 1. Roche 454 GS Junior 2010년초반에출시된 454 GS Junior는이전에소개되었던 GS FLX Titanium system의소형, lower-throughput 버전이다. GS Junior는 library 준비와데이터분석이보다간소화되었고한번에 14 G까지데이터를생성할수있다. Roche 454는최초의성공적인 NGS로 pyrosequencing 기술을기반으로한다 (7). 2008년출시된 454 GS FLX 시스템은 read length가 700 bp까지이르고정확도가 99.9% 이며 1회운영으로 0.7 G 데이터를생산한다. Roche의가장큰장점은비교적빠른실험진행과 read length이다. 실험은염기서열분석시작후 10시간후면얻을수있고 read length도다른 NGS 보다탁월하게길다. 그러나, 운영에소모되는시약의가격은상당한단점으로지적되고있다. 또다른단점으로는 6 bp 이상되는 poly-base의경우발생하는에러율이다. 2. Ion Personal Genome Machine (PGM) Ion PGM은 Ion Torrent사에서 2010년말에출시한제품으로반도체염기서열분석기술을사용한다. Nucleotide 가중합효소에의하여 DNA에결합하면수소이온이유리된다. 이때발생하는 ph의변화를측정함으로써 PGM 은 nucleotide가결합하였는지여부를알수있다. 매번칩 에 nucleotide가한가지씩제공되어맞는염기서열인경우결합하여 ph 변화가관찰되고맞지않다면아무변화도관찰되지않을것이다. 만약 2개의 nucleotide가결합하는경우변화는 2배가된다 (8). PGM의가장큰특징은최초로형광과카메라 scanning을필요로하지않는염기서열분석장비로빠르고, 저렴하고기계가작다는것이다. 현재 2시간이내에 200 bp read가가능하고 8개의시료를동시에 6시간이내에준비하는것이가능하다. 형광염료를사용하는경우 50 cycle 이후에는 read length가길어짐에따라형광이약해지는단점이있는반면 PGM 은형광염료를사용하지않기때문에 50 cycle 이후에도품질이우수한장점이있다. 3. MiSeq system Illumina사에서출시한 MiSeq는 sequencing by synthesis (SBS) (9), cluster generation, 데이터분석기능을통합한기계로하루안에분석결과를얻을수있다 ( 짧은경우 8시간이내 ). SBS 기술은 library에 adaptor를결합시킨후 flowcell에부착시켜 bridge ampification을통하여각 DNA 단편에대한 clone을형성한다. 염기서열분석은 linearization 효소의도움을받아단가닥 (single strand) 로먼저만든후각각다른형광을띄는네가지 nucleotide (ddatp, ddgtp, ddctp, ddttp) 와 blocking group이한번에하나씩상보적결합을형성하고그신호를 CCD 카메라로측정하여염기서열을분석하는방법이다. MiSeq의가장큰특징은가장높은데이터무결성과다양한활용범위이다. MisSeq는 amplicon 염기서열분석, clone 확인, ChIP-Seq, 작은 genome 염기서열분석등에사용될수있다. 단일 36 bp read (120 Mb 산출 ) 에서부터 2 150 paired-end read (1~1.5 Gb 산출 ) 까지폭넓은분석이가능하다. Read length의개선으로 HiSeq에비하여 contig assembly에보다나은결과를보인다. 플랫폼간비교실험논문고찰 1. Escherichia coli O104:H4 genome sequencing 결과 Nicholas 등은 454 GS Junior, MiSeq, Ion torrent PGM 세가지플랫폼을사용하여 Escherichia coli O104:H4의유전체염기서열분석결과를비교하였다 (2). 각플랫폼의가격과기본적인특징을 Table 1에비교하여정리하였다.
210 HS Na Table 1. Comparison of benchtop instruments and sequencing runs (modified from reference # 2) Platform List price Cost per run Throughput (Read length) Run time Cost/Mb Mb/h 454 GS Junior $108,000 $1,000 35 Mb (400 bp) 8 hr $31 4.4 Ion PGM (314 chip) $80,490 $225 10 Mb (100 bp) 3 hr $22.5 3.3 (316 chip) $425 100 Mb (100 bp) 3 hr $4.25 33 (318 chip) $625 1,000 Mb (100 bp) 3 hr $0.63 333 MiSeq $125,000 $750 1,500 Mb (2 150 bp) 27 hr $0.5 55.5 Platform Table 2. Run and alignment metrics for benchtop sequencers (modified from reference # 2) Number of reads Total bases Modal read length in bases Mean read length in bases (s.d.) Chromosome Alignment coverage Large plasmid Reads aligned (%) 454 GS Junior 135,992 70,999,968 518 522 (46) 11.50 5.66 99 Ion PGM (316 chip) 2,154,577 260,017,346 123 121 (16) 39.33 43.80 89 MiSeq 11,708,156 1,652,529,000 150 141 (22) - - - MiSeq demultiplexed strain 280 1,766,516 250,356,566 150 141 (21) 22.11 625.46 99 Metrics for each sequencing run are shown as well as results of alignment against the reference sequence. Depth of coverage for the chromosome and two large plasmids (pesbl and paa) are shown with the percentage of read that align. For the MiSeq run, the sequence metrics are shown for the entire run as well as the results of de-multiplexing E. coli O104:H4 strain 280. 유전체염기서열의재구성은유전체심도 (genome depth), 분석의균등도, read length, read quality에의해결정된다. 분석결과는서로상이한특징을보였다 (Table 2). 454 GS Junior는평균 522 bp의가장긴 reads를보였지만세플랫폼가운데가장작은데이터 (70 Mb) 를생산하였다. Ion PGM은 454 GS Junior보다 4배이상의데이터를만들어냈지만평균 121 bps의가장짧은 reads를만들었다. MiSeq 는가장큰데이터 (1.6 Gb) 와함께 Ion PGM보다약간더긴 141 bp의 read를만들었다. MiSeq의경우각유전체의 40배 coverage를목표로하였을때 7개의 E. coli 종을동시에분석할수있었다. MiSeq는 DNA를양쪽으로모두분석하였다. 참고유전체 (reference genome) 에대하여 3가지플랫폼은비슷한정도의 coverage를보였다. 그러나, MiSeq의경우 Shiga-toxin producing phage와관련된피크가관찰되었고 Ion PGM에서도약한피크가동일하게관찰되었다. 이러한피크는 DNA 준비과정에 서발생할수있는 phage lysis에의한것으로여겨지고있다. 각제조사마다염기서열의질을관리하는프로그램이각각다르기때문에직접적인비교를하는것은어렵다. 그래서, 참고유전체를기준으로이에대한유전체분석결과를비교하여 alignment quality를비교하였다. 이렇게측정된 alignment quality 점수는 prediction score와유사한결과를보였다. 즉, Ion PGM은비교적 quality score를과소평가하는경향이있었고다른두플랫폼은과대평가하는경향이있었다. MiSeq가가장좋은질 (quality) 을나타냈는데이는낮은대체오류율 (substitution error rate) (100 bp당 0.1 대체 ) 와 indel 오류의부재에의한것으로여겨진다. Ion PGM은 100번째염기서열까지지속적으로정확도가감소하는경향을보였다. Indel의빈도를비교한경우 Ion PGM의경우 100 bp당 1.5의 indel이발생하였다. 454 GS Junior의경우 100 bp당
Performance Comparison of Benchtop Next-generation Sequencing Systems 211 Table 3. Insertion/deletion and substitution errors on read level for benchtop sequencer (modified from reference # 3) Plateform Sequencing kit Indels per 100 bp Indels per read Substitution per 100 bp Substitution per read 454 GS Junior GSJ titanium 0.4011 1.8351 0.0543 0.2484 Ion PGM 100 bp 0.3520 0.3878 0.0929 0.1024 200 bp 0.3955 0.6811 0.0303 0.0521 300 bp 0.7054 1.4457 0.0861 0.1765 MiSeq Nextera 0.0009 0.0013 0.0921 0.1318 0.38의 indel이발생한반면 MiSeq의경우거의발생하지않아 100 bp당 0.001 이하로발생하였다. Indel의가장흔한원인은동종중합체 (homopolymers) 였다. 가장흔한오류는 deletion으로동일염기서열이 6개이상인경우 60% 이하의정확도를보였다. 이러한결과는 Table 3에정리하였다 (3). 고속대량 (high-throughput) 염기서열분석을통한유전자의비교는정확한데노보조합 (de novo assembly) 이중요하다. 다양한작시법 (metrics) 를사용하여데노보조합을비교하였다. 작시법가운데총조합크기와 N50은조합의완벽성또는파편화정도를비교하기에는좋은반면정확성에대해서는잘알기힘들다. 이상적인조합결과는각레플리콘 (replicon) 에대해하나의콘틱 (contig) 를만들어야하지만반복적인염기서열은이러한것을현실적으로어렵게한다. 세가지플랫폼을비교한결과두가지특징이발견되었다. 심한파편화가 Ion PGM, 454 GS Junior (single run), MiSeq에서나타났다. Coverage의심도를증가시키기위해 454 GS Junior를 2회반복하여결합한경우와 MiSeq 데이터에서생성된콘틱결과와 paired-end 정보로보정한경우파편화가보다적게나타났다. 참고유전체에대해정확히일치하는콘틱의수는유전체 coverage를나타내는좋은자료이다. 각플랫폼간에 coverage의차이를보였다. 454 GS Junior의경우가장넓은 coverage 결과를보여 3.72% 의결함율을보인반면 Ion PGM은 4.6%, MiSeq은 3.95% 의결함율을보였다. Ion PGM은다른플랫폼에비하여가장많은수의공백 (gap) 을만들었다. 두대의 Ion PGM의결과를결합하여 coverage를증가시킨경우공백의수를감소시킬수있었으나, 동종중합체에의한오류는여전히남아있었다. Ion PGM 결과를결합하여조합하여만들어진결과에서 1/3에서 1/4의공백은콘틱의말단이나비기록염기서열 (unmapped sequence) 에의한것이었고이외는동종중합체에의한것이었다. 비록동종중합체에의한공백의증가는일어나기마련이지만잛은동종중합체 (2~3개) 에의한공백은 454 GS Junior보다유의하게많이발생하였다. 실험결과세플랫폼모두 E. coli의유전체염기서열분석에크게문제가없었고각플랫폼간의장단점이존재하였다. MiSeq는가장큰데이터결과와가장낮은오류율, indel이거의없고가장낮은대체오류를보였다. 그러나 MiSeq는 454 GS Junior보다 read length가현저히짧아조합의질이떨어지는결과를보였다. Paired-end 염기분석을시행하여도단일분석으로는공백을감소시키기어려웠다. 또한가장긴운영시간이소요 (27시간이상 ) 되었다. 2. Autism spectrum disorder (ASD) 에서표적염기서열분석비교결과 (4) NGS 기술을 gene enrichment과결합하여사용함으로써혼합된질환들과관련된유전자의염기서열분석이가능하게되었다. ASD는수백개의관련유전인자와연관된복잡한질환으로소유전형태 (polygenic mode) 로유전된다 (10). ASD는 1.1% 의유병율을보이는비교적흔한질환으로어린아이때사회적상호작용장애, 의사소통결함, 반복적인행동등을특징으로한다 (11). ASD의유전에대한연구가운데단일뉴클레오타이드변형체 (single nucleotide variants, SNPs) 가보고되었고, 약 40% 유전되는것으로보고되었다 (12). 그러나, 이외에 de novo 또는유전되는희귀변형체들도상당수보고되고있다 (13). 이에 Koshimizu 등은 ASD 환자에서희귀변형체를탐색하기위하여 Ion PGM과 MiSeq를사용하여비교하였다 (4).
212 HS Na Table 4. Comparison between Ion PGM and MiSeq sequencing performance in 10 positive controls (modified from reference # 4) Ion PGM (TMAP * ) MiSeq Total read (Mb) 295.97 469.42 Average read length (bp) 116 150 % mapped on human genome 96.8% 75% % on target regions 26.7% 22.7% Mean depth of coverage 63 95 % of target regions at > 10-fold coverage 93.7% 96.8% % of target regions at > 20-fold coverage 85.9% 93.2% *TMAP (Torrent Mapping Alignment Program) is a customized mapping tools for sequencing data generated by PGM, ignoring the indel calls around homopolymer stretch to reduce the hundreds of false negative calls. Library는환자의말초혈액에서채취한 DNA를 Rain- Dance ASD Research Screening Panel를사용하여제작하였다. RainDance ASDSeq panel은 RainDance Technology 사 (Lexington, MA, USA) 에서제공한것으로 ASD와관련되어알려진 62개유전자의 92% 를포함하는유전자스크리닝키트이다. Library는 167에서 600 bp 길이의 2349 amplicon을포함하며 1,034 kb 구역을포함하였다. Coverage 는 intron/exon splice junction과 1 kb 길이의 5' promoter 구역과 3' UTR을포함하여각유전자의 exon과그앞, 뒤 50 bp를포함하고있다. 실험결과 62개의엑손이모두증폭되었다. RainDance 의효율과각플랫폼의성능을확인하기위하여 10개의양성대조군을사용하였다 (Table 4). Ion PGM과 MiSeq는각각 296 Mb와 469 Mb의데이터를생성하였고 96.8% 와 75% 가유전체와일치하였다. 또각각 26.7% 와 22.7% 가표적구역에해당하였다. Depth of coverage 평균은각각 63과 95였다. Base-call quality score를분석한결과 Ion PGM은초기에는 >25를기록하였으나 100 bp 근처에서는 20으로감소하는경향을보였다. MiSeq는전체적으로 >30을기록하였다. Read length는 Ion PGM은 60에서 150 bp까지다양한반면 MiSeq는 151 bp로일정하였다. 다음으로무작위로특정유전자를선택하여 indel의수를비교한결과 Ion PGM은 9,685개의 SNPs와 indel이보고되었고이가운데 5,544 (57.2%) 가 indel 이었다. Indel의빈도는 1 kb당 1.34였다. MiSeq은 3,818개의 SNPs와 indel이보고되었고이가운데 394 (10.3%) 가 indel 이었다. Indel 의빈도는 1 kb당 0.096였다. 유전변이를측정효율을비교하기위하여 Sanger법으 Table 5. Validation for mutation detection (modified from reference # 4) Ion PGM (TMAP) MiSeq Detection (+/total) 7/10 10/10 Coverage (range) Mutant allele (%) (range) 36.8 ± 21.8 (8~77) 50.1 ± 17.1 (33~83) 92.4 ± 53.2 (46~223) 55.7 ± 23.1 (38~100) 로확인된유전자를대상으로비교하였다 (Table 5). 확인된변이는최소한 x8 reads의 coverage를보였고이형접합자 (heterozygote) 의경우 33~62%, 동형접합자 (homozygote) 의경우 83~100% 의변이형질률 (mutant allele percentage) 을보였다. 변이유전자를검출률은 Ion PGM과 MiSeq 각각 70% 와 100% 였다. Ion PGM의경우동종중합체주변에위치한변이의경우동종중합체염기분석오류로인하여검출하지못한것으로여겨진다. 두플랫폼을이용하여유전자변이를검사한결과 40 이하의 mapping quality를보이는 read의비율이 Ion PGM 이 MiSeq에비하여월등히높았다. Indel에대해서도 MiSeq의경우고전적인 capillary sequencing의오류율 (1 kb당 0.11에서 0.88) 과비슷한정도의낮은오류율을보였다. 앞서살펴본두개의논문과리뷰논문을종합하여보면 454 GS Junior의경우가장긴 read length를보인반면가장작은데이터를생산하였고, 동종중합체에의한오류가많이발생하였다. Ion PGM은가장짧은 read length 를보였고동종중합체에대해가장불량한결과를나타
Performance Comparison of Benchtop Next-generation Sequencing Systems 213 냈으나, 가장빠른데이터생산 (80~100 Mb/h) 과가장짧은운용시간 ( 약 3시간 ) 을보였다. 또한 Ion PGM은최근가장빨리성능개선이이루어지고있다. MiSeq는가장많은데이터를생산하였고 Mb당가장낮은비용이소모되었다. 또한오류율이고전적인 Sanger 분석법과비슷한정도로낮게발생하는특징을보였다. 플랫폼을비교함에있어속도, 셋업, 운영비, 운영의단순함또한중요하다. Ion PGM은세플랫폼가운데가장저렴하다. 염기서열당운영비는 454 GS Junior 가다른두플랫폼에비하여한단위더많이드는편다. MiSeq 의운영은기기에서증폭이바로이루어지기때문에다른플랫폼에비하여비교적더단순하다. Ion PGM은 3가지칩을제공하고있어서자신의목적에맞게선택할수있는장점이있다. REFERENCES 1) Liu L, Li Y, Li S, Hu N, He Y, Pong R, et al. Comparison of next-generation sequencing systems. J Biomed Biotechnol 2012;2012:251-364. 2) Loman NJ, Misra RV, Dallman TJ, Constantinidou C, Gharbia SE, Wain J, et al. Performance comparison of benchtop highthroughput sequencing platforms. Nat Biotechnol 2012;30:434-9. 3) Jünemann S, Sedlazeck FJ, Prior K, Albersmeier A, John U, Kalinowski J, et al. Updating benchtop sequencing performance comparison. Nat Biotechnol 2013;31:294-6. 4) Koshimizu E, Miyatake S, Okamoto N, Nakashima M, Tsurusaki Y, Miyake N, et al. Performance comparison of bench-top next generation sequencers using microdroplet PCRbased enrichment for targeted sequencing in patients with autism spectrum disorder. PLoS One 2013;8:e74167. 5) Metzker ML. Sequencing technologies - the next generation. Nat Rev Genet 2010;11:31-46. 6) Glenn TC. Field guide to next-generation DNA sequencers. Mol Ecol Resour 2011;11:759-69. 7) Products - Technology: 454 Life Sciences, a Roche Company 2014. http://my454.com/products/technology.asp. 8) Flusberg BA, Webster DR, Lee JH, Travers KJ, Olivares EC, Clark TA, et al. Direct detection of DNA methylation during single-molecule, real-time sequencing. Nat Methods 2010;7: 461-5. 9) Bentley DR, Balasubramanian S, Swerdlow HP, Smith GP, Milton J, Brown CG, et al. Accurate whole human genome sequencing using reversible terminator chemistry. Nature 2008; 456:53-9. 10) Sanders SJ, Ercan-Sencicek AG, Hus V, Luo R, Murtha MT, Moreno-De-Luca D, et al. Multiple recurrent de novo CNVs, including duplications of the 7q11.23 Williams syndrome region, are strongly associated with autism. Neuron 2011;70: 863-85. 11) Beecham J. Annual Research Review: Child and adolescent mental health interventions: a review of progress in economic studies across different disorders. J Child Psychol Psychiatry 2014. 12) Klei L, Sanders SJ, Murtha MT, Hus V, Lowe JK, Willsey AJ, et al. Common genetic variants, acting additively, are a major source of risk for autism. Mol Autism 2012;3:9. 13) Sanders SJ, Murtha MT, Gupta AR, Murdoch JD, Raubeson MJ, Willsey AJ, et al. De novo mutations revealed by wholeexome sequencing are strongly associated with autism. Nature 2012;485:237-41.