Korean J Leg Med 2014;38: 원 저 차세대염기서열분석법을이용한 15 개상염색체 STR 의염기서열생성및유전자형분석 김은혜 1, 2 정상은 1 신경진 1, 2 양우익

Korean J Leg Med 2014;38:48-58 원 저 차세대염기서열분석법을이용한 15 개상염색체 STR 의염기서열생성및유전자형분석 김은혜 1, 2 정상은 1 신경진 1, 2 양우익 1 양인석 1 1 연세대학교의과대학법의학과 2 연세대학교 BK21 플러스연세의과학사업단 Sequence Generation and Genotyping of 15 Autosomal STR Markers Using Next Generation Sequencing Eun Hye Kim 1, 2, Sang-Eun Jung 1, Kyoung-Jin Shin 1, 2, Woo Ick Yang 1, In Seok Yang 1 1 Department of Forensic Medicine, Yonsei University College of Medicine, Seoul, Korea 2 Brain Korea 21 PLUS Project for Medical Science, Yonsei University, Seoul, Korea 접수 : 2014년 4월 25일수정 : 2014년 5월 9일게재승인 : 2014년 5월 13일 본연구과제는 2012 년도대검찰청의 범죄자 DNA DB 및 DNA 감식기술의국산화및차세대선진기술기반구축연구개발비 (1333-304-260) 의지원을받아수행되었습니다. 책임저자 : 양인석 (120-752) 서울시서대문구연세로 50, 연세대학교의과대학법의학과전화 : +82-2-2228-2691 FAX : +82-2-362-0860 E-mail : graduate@nate.com Recently, next generation sequencing (NGS) has received attention as the ultimate genotyping method to overcome the limitations of capillary electrophoresis (CE)- based short tandem repeat (STR) analysis, such as the limited number of STR loci that can be measured simultaneously using fluorescent-labeled primers and the maximum size of STR amplicons. In this study, we analyzed 15 autosomal STR markers via the NGS method and evaluated their effectiveness in STR analysis. Using male and female standard DNA as single-sources and their 1:1 mixture, we sequentially generated sample amplicons by the multiplex polymerase chain reaction (PCR) method, constructed DNA libraries by ligation of adapters with a multiplex identifier (MID), and sequenced DNA using the Roche GS Junior Platform. Sequencing data for each sample were analyzed via alignment with pre-built reference sequences. Most STR alleles could be determined by applying a coverage threshold of 20% for the two single-sources and 10% for the 1:1 mixture. The structure of the STR in each allele was accurately determined by examining the sequences of the target STR region. The mixture ratio of the mixed sample was estimated by analyzing the coverage ratios between assigned alleles at each locus and the reference/variant ratios from the observed sequence variations. In conclusion, the experimental method used in this study allowed the successful generation of NGS data. In addition, the NGS data analysis protocol enables accurate STR allele call and repeat structure determination at each locus. Therefore, this approach using the NGS system will be helpful to interpret and analysis the STR profiles from singe-source and even mixed samples in forensic investigation. Key Words : Short tandem repeat, Next generation sequencing, Repeat structure, Sequence variation, Mixture 서 법과학분야에서주로사용되는짧은연쇄반복 (short 론 tandem repeat; 이하 STR) 은사람의유전체 (genome) 의비암호화영역 (non-coding region) 에존재하며이는 2 7 base pair (bp) 의염기서열이반복적으로나타나는특징을가진다. STR은개인마다핵심반복단위 (core repeat unit) 의반복수 48 ccopyright 2014 by the Korean Society for Legal Medicine This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/ by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited. pissn 1225-0589 eissn 2287-2078

차세대염기서열분석법을이용한상염색체 STR 분석 김은혜외 49 (repeat number) 가다르게나타나고개인마다고유한값을가지기때문에개인식별과혈연관계의확인목적으로 STR 분석을활용하고있다. 1-3) 현재법과학실무에서는중합효소연쇄반응 (polymerase chain reaction; 이하 PCR) 으로얻은증폭산물을모세관전기영동법 (capillary electrophoresis; 이하 CE) 으로분리하여길이의차이에따른 STR의반복수를조사하여 STR 유전자형을분석하고있다. 3) 이때여러 STR 유전좌에대한증폭산물이동시에얻어질수있도록다중증폭 PCR (multiplex PCR) 이많이이용된다. CE 기반의분석법은단한개의염기차이도구별이가능한해상도를갖고있어증폭산물의길이를정확하게확인할수있으며, 형광표지자가부착된시동체 (primer; 프라이머 ) 를이용하여증폭산물을자동화된장비에서쉽고빠르게검출할수있다. 그러나이방법은증폭산물의염기서열을확인할수없을뿐아니라사용할수있는형광표지자의수및증폭산물의크기에서제한이있다. 기존의염기서열을분석하는방법인 Sanger 기반의염기서열분석법은정확하게염기서열정보를얻을수는있지만, 개인유전체분석 (personal genome analysis) 등대용량의 DNA 염기서열정보를얻어야하는연구분야에적용하는것은분석에걸리는시간, 노동력, 비용측면에서비효율적이다. 이때문에고효율과저비용으로대용량의 DNA 염기서열정보를얻을수있는새로운분석기법에대한요구가있었다. 2000년대중반에주형 DNA를대상으로짧은길이의염기서열을대용량으로빠르게생성시킬수있는차세대염기서열분석법 (next generation sequencing; NGS) 이소개되었다. 4) NGS 장비의개발과시약의개선이이루어지고, 생물정보학적기법이발달함에따라서 NGS 분석은기존의 Sanger 기반의방법을대체할수있는여러가지장점을가지고있어많은연구분야에서사용되고있다. 5-9) 법과학분야에서도새로운 NGS 기법을 STR 분석에적용해봄으로써기존의 CE 기반의방법과비교하여어떠한장점을가지고있는지, 특히기존의방법에서나타나는 STR 분석의제한점이극복될수있는지알아보는시도가이루어져왔으며, 최근이에대한연구결과들이속속발표되고있다. 10-15) 하지만 NGS 기법으로 STR 증폭산물의염기서열분석을위한시료준비및라이브러리제작과같은실험적방법과생성된 NGS 자료로부터 STR 대립유전자형을결정하는분석법이아직확고하게확립되지않았다. 따라서본연구에서는 STR 분석에주로사용되고있는다중증폭 PCR 방법으로얻어진증폭산물로부터 NGS 자료를생성하기위한최적의실험적방법과생성된대용량의 NGS 자료의분석을통해 STR 대립유전자형결정, 대립유전자의반복구조, 염기서열변이를효과적으로분석하는방법을제시함으로써단일시료뿐만아니라 1:1 혼합시료에대해서도함께 NGS를이용한 STR 유전자형분석의유용 성을알아보고자한다. 재료및방법 1. DNA 시료사용된 DNA 시료는법의유전학연구에서대조군으로사용되고있는상용남성표준시료 2800M (Promega, Madison, WI, USA), 여성은 9947A (Promega) 를사용하였다. 이들 DNA 시료는 NanoDrop 1000 spectrophotometer (Thermo. Fisher scientific, Waltham, MA, USA) 를이용하여정량한후 1 ng/ μl의농도로준비하였다. 1:1 혼합시료는두개의단일시료 (2800M과 9947A) 를섞어서최종농도 1 ng/ μl가되도록했다. 2. STR 증폭산물의생성및확인본연구에서는 D3S1358, TH01, D21S11, D18S51, Penta E, D5S818, D13S317, D7S820, D16S539, CSF1PO, Penta D, vwa, D8S1179, TPOX, FGA의 15개 STR 유전좌및 Amelogenin을분석할수있도록 PowerPlex 16 system (Promega) 의공개된정보를바탕으로프라이머 (primer) 를준비하였다. 다만기존의 CE를이용한 STR 분석법과다르게프라이머에형광표지자를부착하지않았다. Table 1은 PCR 과정에서사용된프라이머의서열및최종농도를보여준다. PCR 은 2.5 μl의 10X Gold ST*R buffer (Promega), 4.0 unit의 AmpliTaq Gold DNA polymerase (Applied Biosystems, Foster City, CA, USA), primer와 1 ng의 DNA 시료를포함하는총 25 μl의반응액을준비하여 PowerPlex 16 system에서권장하는방법에서 PCR 온도순환만 34회로조정하여수행하였다. PCR을마친후에폴리아크릴아마이드젤전기영동 (polyacrylamide gel electrophoresis) 을통해서증폭산물들이균일하게생성되었는지확인하였다. 생성된증폭산물의정제는 QIAquick PCR purification Kit (QIAGEN, Hilden, Germany) 를이용하였다. 얻어진증폭산물의농도는 QuantiT PicoGreen dsdna Assay Kit (Invitrogen, Carlsbad, CA, USA) 를이용하여측정했으며, 순도측정은 NanoDrop 1000 spectrophotometer (Thermo. Fisher scientific) 로 260 nm와 280 nm의파장에서측정된흡광도의비율을계산함으로써이루어졌다. 3. 증폭산물을이용한라이브러리 (library) 의제작 NGS 분석을위한첫단계로생성된증폭산물을대상으로특정어댑터 (adapter) 를붙여주는라이브러리제작은 GS

50 Korean Journal of Legal Medicine 2014;38:48-58 Rapid Library Preparation Kit (Roche Diagnostics Corp., Branford, CT, USA) 를이용하여제조사의지시대로수행하였다. 이과정에서 DNA 시료에따른구분을위해서 Multiplex Identifier (MID) 가포함된어댑터를사용하였다. 제작된라이브러리의정제는 AMPure bead (Beckman Coulter, Brea, CA, USA) 를이용하였는데, 증폭산물과비드 (bead) 의비율이 2:1 이되도록함으로써크기가 100 bp 미만인작은절편들을제거할수있도록하였다. 최종적으로얻어진라이브러리에대한크기별분포확인및농도측정은 2100 Bioanalyzer (Agilent Technologies, Palo Alto, CA, USA) 를이용하였다. 4. 클론증폭 (clonal amplification) 및대량염기서열생성 행하였다. 이를위해서라이브러리는측정된농도를기반으로 1 μl당분자의수를계산한후에 1 μl당 1 10 7 개의분자가되도록희석하였다 (Eq. 1). 또한 Scheible 등 14) 이제시한대로 copy per bead 수는 1.0으로설정하였다. 에멀션 PCR 증폭산물에대한대량염기서열생성은 GS Junior Titanium Sequencing Kit (Roche Diagnostics Corp.) 를이용하여제조사의지시에따라 GS Junior (Roche Diagnostics Corp.) 장비에서수행하였다. (sample conc.; ng/μl) 6.022 10 23 Molecules/μl = - Eq. 1 656.6 (Average amplicon length;bp) 5. NGS 자료의분석 제작된라이브러리의클론증폭을위한에멀션 PCR (emulsion PCR) 은 GS Junior Titanium empcr Kit (Lib-L; Roche Diagnostics Corp.) 을이용하여제조사의지시대로수 STR 대립유전자형결정을위해 Bornman 등 15) 이제시한프로토콜에기초하여 i) 참조서열 (reference sequence) 의제작, ii) NGS 리드와참조서열간의정렬 (alignment), iii) 각 STR Table 1. Adjusted Final Concentrations of Primer Sets for Multiplex PCR system* Loci Primer Primer sequences (5 3 ) Final Conc. (um) D3S1358 D3-PP16-F ACTGCAGTCCAATCTGGGT 0.20 D3-PP16-R ATGAAATCAACAGAGGCTTGC TH01 TH01-PP16-F GTGATTCCCATTGGCCTGTTC 0.10 TH01-PP16-R ATTCCTGTGGGCTGAAAAGCTC D21S11 D21-PP16-F ATATGTGAGTCAATTCCCCAAG 0.60 D21-PP16-R TGTATTAGTCAATGTTCTCCAGAGAC D18S51 D18-PP16-F TTCTTGAGCCCAGAAGGTTA 0.50 D18-PP16-R ATTCTACCAGCAACAACACAAATAAAC Penta E PentaE-PP16-F ATTACCAACATGAAAGGGTACCAATA 1.20 PentaE-PP16-R TGGGTTATTAATTGAGAAAACTCCTTACAATTT D5S818 D5-PP16-F GGTGATTTTCCTCTTTGGTATCC 0.20 D5-PP16-R AGCCACAGTTTACAACATTTGTATCT D13S317 D13-PP16-F ATTACAGAAGTCTGGGATGTGGAGGA 0.40 D13-PP16-R GGCAGCCCAAAAAGACAGA D7S820 D7-PP16-F ATGTTGGTCAGGCTGACTATG 0.30 D7-PP16-R GATTCCACATTTATCCTCATTGAC D16S539 D16-PP16-F GGGGGTCTAAGAGCTTGTAAAAAG 0.40 D16-PP16-R GTTTGTGTGTGCATCTGTAAGCATGTATC CSF1PO CSF1PO-PP16-F CCGGAGGTAAAGGTGTCTTAAAGT 0.30 CSF1PO-PP16-R ATTTCCTGTGTCAGACCCTGTT Penta D PentaD-PP16-F GAAGGTCGAAGCTGAAGTG 1.20 PentaD-PP16-R ATTAGAATTCTTTAATCTGGACACAAG Amelogenin Amelo-PP16-F CCCTGGGCTCTGTAAAGAA 0.25 Amelo-PP16-R ATCAGAGCTTAAACTGGGAAGCTG vwa vwa-pp16-f GCCCTAGTGGATGATAAGAATAATCAGTATGTG 0.15 vwa-pp16-r GGACAGATGATAAATACATAGGATGGATGG D8S1179 D8-PP16-F ATTGCAACTTATATGTATTTTTGTATTTCATG 0.50 D8-PP16-R ACCAAATTGTGTTCATGAGTATAGTTTC TPOX TPOX-PP16-F GCACAGAACAGGCACTTAGG 0.15 TPOX-PP16-R CGCTCAAACGTGAGGTTG FGA FGA-PP16-F GGCTGCAGGGCATAACATTA 0.60 FGA-PP16-R ATTCTATGACTTTGCGCTTCAGGA *Each primer sequence based on the information from PowerPlex 16 system without fluorescent dye

차세대염기서열분석법을이용한상염색체 STR 분석 김은혜외 51 대립유전자에서의 coverage 값의계산, iv) 각 STR 유전좌에서의대립유전자형결정의순서로분석이이루어졌다. 참조서열의제작을위해현재까지알려진 STR 대립유전자의반복수및이들의서열은 STRbase (http://www.cstl.nist.gov/ biotech/strbase) 로부터얻었으며, 각 STR의 5 및 3 주변부서열 (flanking region sequence) 은 human genome GRCh37/hg19에서가져왔다. 또한, 주변부서열의길이를 500 550 bp로설정함으로써어떠한 primer 조합을통해얻은 NGS 리드도참조서열과의정렬 (alignment) 이이루어질수있도록하였다 (Fig. 1). 최종적으로참조서열은 5 주변부서열, STR 영역의서열, 3 주변부서열로구성될수있도록 Microsoft Excel 의매크로기능을이용하여제작하였다. NGS 리드와참조서열간의정렬은리눅스 (Linux) 운영체제에서 Bowtie 2 16) 프로그램을이용하였다. 얻어진결과파일의형식전환을위해 SAMtools 17) 과 BEDTool 18) 을순차적으로사용하였다. 각 STR 대립유전자에대한 coverage 값은참조서열에정렬된리드중에서전체 STR 영역을포함하는리드의수를계산함으로써얻어졌다. 각 STR 유전좌에서대립유전자형의결정을위해서단일시료에서는각유전좌에서전체 coverage 값의 20%, 혼합시료에서는 10% 로기준값을적용함으로써이루어졌다. 앞에서결정된각 STR 대립유전자의염기 서열을바탕으로한반복구조 (repeat structure) 의확인은 Integrative Genomics Viewer 19) 를이용하였다. 또한, 각 STR 유전좌에서대립유전자형에대한 coverage 값의비율을조사하는방법과특정위치에서나타나는염기서열변이 (sequence variation) 를확인하고, 각염기의비율을알아보는방법으로 Fig. 1. Schematic view of STR reference sequences. Long flanking sequences ranged between 500 bp and 550 bp in STR reference sequences were designed for complete alignment of sample sequences that generated with any primer combinations. a b Fig. 2. Quality check of constructed libraries on High Sensitivity chip using 2100 Bioanalyzer. Fragments less than 100 bp including adaptor dimers were successfully removed. a: Standard male DNA 2800M ; b: Standard female DNA 9947A ; c: 1:1 mixture c

52 Korean Journal of Legal Medicine 2014;38:48-58 1:1 혼합시료비율을추정하였다. 6. 모세관전기영동 (capillary electrophoresis) 을이용한 STR 분석 NGS 자료로부터얻어진남녀표준시료및 1:1 혼합시료의대립유전자형이정확하게결정되었는지확인하기위해서모세관전기영동기반의 STR 분석법으로이들시료의대립유전자형을알아보았다. 이를위해각 DNA 시료 1 ng과 PowerPlex 16 HS system (Promega) 을이용하여제조사의지시대로 PCR을수행하고, 얻어진증폭산물은 ABI PRISM 3130xl Genetic Analyzer와 GeneScan Software Version 3.7 (Applied Biosystems) 을이용하여검출하였으며, 마지막으로 GeneMapper ID Software Version 3.1 (Applied Biosystems) 을이용하여분석하였다. 결 과 1. PCR 증폭산물로부터라이브러리의제작 Powerplex 16 system 정보를바탕으로준비된프라이머를이용하여 2800M 표준남성 DNA 시료, 9947A 표준여성 DNA 시료, 이들의 1:1 혼합시료로부터 PCR을수행하였으며, 얻어진증폭산물을정제한후에이들의순도를측정했을때 1.92 1.95의범위로나왔으며 1650 2220 ng의범위로증폭산물을얻었다. 따라서 Roche사에서제시하는라이브러리제작을위한최소량 500 ng 이상, 순도 1.70 이상 2.00 미만의기준을충족하였기에 3개 DNA 시료의증폭산물로부터라이브러리를제작하였다. Fig. 2는 Bioanalyzer를통해얻은최종적으로얻은각시료의라이브러리에대한크기별분포를보여주고있다. 여기서 100 bp 미만의작은절편들은거의확인되지않기때문에라이브러리제작과정에서비드를이용한방법으로작은절편들이선택적으로제거됨을확인할수있었다. 2. NGS 자료의시료별분류및서열정렬 (sequence alignment) NGS을통해얻은리드의수가총 164,468개였으며, 이들의평균길이는 183.64 bp로나왔으며, MID 서열을이용한시료에따른분류를통해서 2800M 표준시료는 51,475개, 9947A 표준시료는 33,213개, 이들의 1:1 혼합시료는 76,943개, 그리고분류되지않은리드는 2,837개로얻어졌다. 이들자료를참조서열과의정렬을통해각 STR 유전좌에서얻어진리드수를확인할수있었다 (Table 2). 15개의 STR 유전좌중 D3S1358, D5S818, D13S317, TH01에서는다른유전좌들에비해많은리드수가얻어졌다. 그리고 D16S439, D18S51, CSF1PO, FGA, Penta D, Penta E, TPOX에서는상대적으로적은리드를얻었는데, 이들증폭산물의크기는대체로 250 Table 2. Read Counts of 15 STR Loci in Each Sample STR Amplicon 2800M 9947A 1:1 mixture locus size range All* Entire Entire STR/ All Entire STR Entire STR/ All Entire STR Entire STR/ (bp) STR All (%) All (%) All (%) D3S1358 115-147 9470 8743 92.3 6341 6012 94.8 14261 13306 93.3 D5S818 119-155 9485 8705 91.8 5523 5011 90.7 9347 8531 91.3 D7S820 215-247 3676 3476 94.6 1868 1780 95.3 4815 4603 95.6 D8S1179 203-247 4458 4017 90.1 1967 1805 91.8 3368 3054 90.7 D13S317 169-201 4897 4631 94.6 4060 3868 95.3 12839 12140 94.6 D16S439 264-304 967 877 90.7 708 655 92.5 2497 2361 94.6 D18S51 209-366 739 332 44.9 1284 546 42.5 1117 481 43.1 D21S11 203-259 3045 2313 76.0 2996 2525 84.3 4873 3871 79.4 CSF1PO 321-357 291 244 83.8 596 522 87.6 862 742 86.1 FGA 322-444 956 460 48.1 666 255 38.3 3137 1440 45.9 Penta D 376-441 142 31 21.8 267 56 21.0 403 75 18.6 Penta E 379-474 193 84 43.5 356 116 32.6 563 309 54.9 TH01 156-195 5503 4620 84.0 3324 2811 84.6 6712 5518 82.2 TPOX 262-290 269 230 85.5 215 183 85.1 679 576 84.8 vwa 123-171 3153 2782 88.2 1014 919 90.6 8565 7649 89.3 AMEL 106, 112 3416 3247 95.1 1773 1741 98.2 2334 2247 96.3 Total 50550 44792 88.6 32958 28805 87.4 76372 66903 87.6 *All aligned reads regardless of the presence or absence of STR region Aligned reads containing entire STR region Entire STR with less than 50% represents in bold text

차세대염기서열분석법을이용한상염색체 STR 분석 김은혜외 53 bp보다컸음을확인할수있었다. 각유전좌에서모든리드의수에대한전체 STR 영역을포함하는리드의수의백분율을조사하였을때 D18S51, FGA, Penta D, Penta E에서 50% 미만으로나오는것을볼수있었다. 마찬가지로증폭산물의크기가클수록전체 STR 영역을포함하는리드의수도적게얻어졌음을보여준다. 3. STR 대립유전자의반복구조결정및염기서열변이의확인 Table 3은 2개의단일시료 (2800M 및 9947A) 와이들의 1:1 혼합물에대한 NGS 자료로부터 STR 대립유전자가결정되는예시를보여준다. 이와같은방법으로이들시료에대해 서 15개 STR 유전좌에서의대립유전자를결정할수있었다 (Table 4). NGS 자료로부터결정된유전자형이정확하게일치하는지확인하기위하여기존 CE 분석법으로결정된 STR 유전자형결과와비교해본결과단일시료의경우에는 15개 STR 유전좌에서모두일치하였고, 1:1 혼합시료의경우 13개 STR 유전좌 (D3S1358, D5S818, D7S820, D8S1179, D13S317, D16S539, D18S51, D21S11, CSF1PO, FGA, Penta D, TH01, TPOX) 에서는대립유전자형이정확하게일치하였으나, 2개유전좌 (Penta E, vwa) 에서는일치하지않았다. 이들의 coverage 값을토대로확인해본결과 Penta E의대립유전자 12는 7.44%, vwa의대립유전자 18은 9.11% 로혼합시료의분석기준값인 10% 에미치지못하였다. 남녀표준 DNA 시료의 NGS 자료로부터 15개 STR 유전좌 Table 3. Determination of D3S1358 Alleles based on Percentage of Allele Coverage in 2 Single-sources and 1:1 Mixture Alleles 2800M 9947A 1:1 mixture Allele read count Allele coverage* (%) Allele read count Allele coverage* (%) Allele read count Allele coverage* (%) 11 0 2 0.03 0 12 0 12 0.20 5 0.04 13 2 0.02 217 3.61 103 0.77 14 13 0.15 2868 47.70 1519 11.41 15 71 0.81 2879 47.89 2245 16.87 16 495 5.66 34 0.57 541 4.06 17 4355 49.81 0 4936 37.09 18 3757 42.97 0 3906 29.35 19 24 0.27 0 33 0.25 20 26 0.30 0 21 0.16 Total 8743 6012 13309 Shaded sections indicate assigned alleles based on the analytical threshold *Percentage of allele coverage (%) = allele read count/locus read count 100 Table 4. STR Genotyping Results in 2 Single-sources and 1:1 Mixture examined by CE and NGS Analyses STR locus 2800M 9947A 1:1 mixture CE NGS CE NGS CE NGS D3S1358 17, 18 17, 18 14, 15 14, 15 14, 15, 17, 18 14, 15, 17, 18 D5S818 12 12 11 11 11, 12 11, 12 D7S820 8, 11 8, 11 10, 11 10, 11 8, 10, 11 8, 10, 11 D8S1179 14, 15 14, 15 13 13 13, 14, 15 13, 14, 15 D13S317 9, 11 9, 11 11 11 9, 11 9, 11 D16S539 9, 13 9, 13 11, 12 11, 12 9, 11, 12, 13 9, 11, 12, 13 D18S51 16, 18 16, 18 15, 19 15, 19 15, 16, 18, 19 15, 16, 18, 19 D21S11 29, 31.2 29, 31.2 30 30 29, 30, 31.2 29, 30, 31.2 CSF1PO 12 12 10, 12 10, 12 10, 12 10, 12 FGA 20, 23 20, 23 23, 24 23, 24 20, 23, 24 20, 23, 24 Penta D 12, 13 12, 13 12 12 12, 13 12, 13 Penta E 7, 14 7, 14 12, 13 12, 13 7, 12, 13, 14 7, (12), 13, 14 TH01 6, 9.3 6, 9.3 8, 9.3 8, 9.3 6, 8, 9.3 6, 8, 9.3 TPOX 11 11 8 8 8, 11 8, 11 vwa 16, 19 16, 19 17, 18 17, 18 16, 17, 18, 19 16, 17, (18), 19 Alleles in parentheses represent true allele with coverage value less than 10% of total coverage value

54 Korean Journal of Legal Medicine 2014;38:48-58 Table 5. Repeat Structures of 15 STRs in Two Standard Samples from NGS Data A. 2800M STR locus Genotype Core repeat Repeat structure D3S1358 17, 18 TCTA 17: TCTA [TCTG] 3 [TCTA] 13 18: TCTA [TCTG] 3 [TCTA] 14 D5S818 12 AGAT 12: [AGAT] 12 D7S820 8, 11 GATA 8: [GATA] 8 11: [GATA]11 D8S1179 14, 15 TCTA 14: TCTA TCTG [TCTA]12 15: [TCTA]2 TCTG [TCTA]12 D13S317 9, 11 TATC 9: [TATC]9 [AATC]2 11: [TATC]11 TATC AATC D16S539 9, 13 GATA 9: [GATA]9 13: [GATA]13 D18S51 16, 18 AGAA 16: [AGAA]16 AAAG [AG]3 18: [AGAA]18 AAAG [AG]3 D21S11 29, 31.2 TCTA 29: [TCTA] 4 [TCTG] 6 [TCTA] 3 TA [TCTA] 3 TCA [TCTA] 2 TCCA TA [TCTA] 11 31.2: [TCTA] 5 [TCTG] 6 [TCTA] 3 TA [TCTA] 3 TCA [TCTA] 2 TCCA TA [TCTA] 11 TA TCTA CSF1PO 12 AGAT 12: [AGAT] 12 FGA 20, 23 CTTT 20: [TTTC] 3 TTTT TTCT [CTTT] 12 CTCC [TTCC] 2 23: [TTTC] 3 TTTT TTCT [CTTT] 15 CTCC [TTCC] 2 Penta D 12, 13 AAAGA 12: [AAAGA] 12 13: [AAAGA] 13 Penta E 7, 14 AAAGA 7: [AAAGA] 7 14: [AAAGA] 14 TH01 6, 9.3 AATG 6: [AATG] 6 9.3: [AATG] 6 ATG [AATG] 3 TPOX 11 AATG 11: [AATG] 11 vwa 16, 19 TCTA 16: TCTA [TCTG] 3 [TCTA] 12 TCCA TCTA 19: TCTA [TCTG] 4 [TCTA] 14 TCCA TCTA B. 9947A STR locus Genotype Core repeat Repeat structure D3S1358 14, 15 TCTA 14: TCTA [TCTG] 2 [TCTA] 11 15: TCTA [TCTG] 2 [TCTA] 12 D5S818 11 AGAT 12: [AGAT] 11 D7S820 10, 11 GATA 10: [GATA] 10 11: [GATA] 11 D8S1179 13 TCTA 13a: TCTA TCTG [TCTA] 11 13b: [TCTA] 13 D13S317 11 TATC 11: [TATC] 11 [AATC] 2 D16S539 11, 12 GATA 11: [GATA] 11 12: [GATA] 12 D18S51 15, 19 AGAA 15: [AGAA] 15 AAAG [AG] 3 19: [AGAA] 19 AAAG [AG] 3 D21S11 30 TCTA 30: [TCTA] 6 [TCTG] 5 [TCTA] 3 TA [TCTA] 3 TCA [TCTA] 2 TCCA TA [TCTA] 11 CSF1PO 10, 12 AGAT 10: [AGAT] 10 12: [AGAT] 12 FGA 23, 24 CTTT 23: [TTTC] 3 TTTT TTCT [CTTT] 15 CTCC [TTCC] 2 24: [TTTC] 3 TTTT TTCT [CTTT] 16 CTCC [TTCC] 2 Penta D 12 AAAGA 12: [AAAGA] 12 Penta E 12, 13 AAAGA 12: [AAAGA] 12 13: [AAAGA] 13 TH01 8, 9.3 AATG 8: [AATG] 8 9.3: [AATG] 6 ATG [AATG] 3 TPOX 8 AATG 8: [AATG] 8 vwa 17, 18 TCTA 17: TCTA [TCTG] 4 [TCTA] 12 TCCA TCTA 18: TCTA [TCTG] 4 [TCTA] 13 TCCA TCTA

차세대염기서열분석법을이용한상염색체 STR 분석 김은혜외 55 에서결정된대립유전자의염기서열을확인하였으며, 이를바탕으로각 STR 영역의반복구조를결정할수있었다 (Table 5). 또한, 각시료간에 STR 유전좌에서의염기서열을비교하여다음과같이반복구조의차이혹은염기서열의변이를관찰하였다. 첫번째는두개의대립유전자형이길이는같지만, 염기서열이다른경우이다. 9947A 시료의 D8S1179 유전좌는 CE 기반의분석법으로는대립유전자형이 13, 13으로동형접합자 (homozygous) 로나타나지만, NGS를통해분석한결과하나는 TCTA TCTG [TCTA] 11 으로, 다른하나는 [TCTA] 13 으로서로다른반복구조를가진대립유전자형으로나타나는것으로확인되었다. 결과적으로는 STR 영역의길이는갖지만, 서로다른염기서열을갖는이형접합자 (heterozygous) 인것이다. 두번째는시료간에서로다른반복구조를가진경우이다. D3S1358 유전좌에서는핵심반복단위는 [TCTA] 로시료에따라 [TCTG] 의반복단위가발견된다. 2800M과 9947A 시료간에 D3S1358 유전좌의반복구조를비교했을때 [TCTG] 가나타나는위치가각각세번째와두번째로서로다르게나타나는것이관찰되었다. 세번째로 STR 영역이아닌주변부서열에서염기서열변이가관찰된경우이다. STR 대립유전자형은 9, 11로확인된 2800M 시료의 D13S317 유전좌에서유일하게관찰되었다. 이들의 3 주변부서열에서대립유전자 9는 AATC AATC 로, 대립유전자 11 은 TATC AATC 로나타났다. 마치 [TATC] 의반복이하나더추가된것처럼관찰된것이다. 4. 혼합시료에서의혼합비율추정분석대상인 15개의각 STR 유전좌에서대립유전자형에대한 coverage 값의비율을조사하는방법과특정위치에서나타나는서열변이를확인하고각염기의비율을알아보는방법으로 1:1 혼합시료비율을추정하였다. D3S1358 유전좌를예로들면, 2800M에서는 17, 18 의대립유전자형을가지고있고, 9947A에서는 14, 15 이기때문에이들의 1:1 혼합물에대한대립유전자형은 14, 15, 17, 18 이된다. 이론적으로각대립유전자형에대한 coverage 값의비율이 1:1:1:1로예상되었으나, 이들의 coverage 값이각각 1519, 2245, 4936, 3006 의순으로나와서 (Table 3) 이들의비율은 1:1.5:3.3:2.6 으로얻어졌다. 또한, 2800M 시료의 D13S317 유전좌에서는대립유전자 11의 3 주변부서열에서 human reference genome hg19을기준으로아데닌 (adenine) 에서티민 (thymine) 으로의염기서열변이가확인되었다 (Fig. 3). 이위치에서각염기의수를조사한결과전체 coverage 값 5683 중에서티민은 3037 (46%) 로, 아데닌은 2642 (53%) 으로나와서두개의염기가거의 1:1로존재하고있음을확인하였다. 그런데 2800M 시료의 D13S317 유전좌에서의대립유전자형은 9, 11의이형접합자이고 9947A는 11, 11의동형접합자라는점을감안한다면아데닌과티민의비율이 2:1로나와야만한다. 결국, 예상되는실제혼합비율과다르게나타났다는것을알수있었다. a b c d Fig. 3. Estimation of mixture ratio based on reference/variant ratios from observed sequence variations in D13S317 locus. The sequence variation of adenine (A) to thymine (T) was detected in 3 flanking region of D13S317 locus. Mixture ratio was estimated to 46% (A) : 53% (T). a: Standard male DNA 2800M ; b: Standard female DNA 9947A ; c: 1:1 mixture ; d: Mixture ratio

56 Korean Journal of Legal Medicine 2014;38:48-58 고찰 NGS 방법을이용한 STR 유전자형분석은 STR 증폭산물의생성, 라이브러리제작, 대량의염기서열생성, 자료분석의과정으로이루어진다. 본연구에서는법과학영역에서 CE 기반의상염색체 STR 분석에사용되는 PowerPlex 16 system 의프라이머정보를이용하여다중증폭 PCR 시스템을구축하고표준 DNA 시료를대상으로증폭산물을생성하고 NGS를통해얻은결과를분석하였다. 본연구는여러그룹에서도보고한법과학 STR을대상으로 NGS 기법으로분석한방법과비슷하다. 10-15) Van Neste 등의첫번째연구 10) 에서는 9개의 STR 유전좌를분석할수있는상용화된 STR 키트를이용하여단일시료및혼합시료에대한증폭산물을준비하고 NGS 분석을수행하였다. 여기서는형광표지자가부착된프라이머를그대로사용하였는데, 저자들은 NGS 분석결과로정방향 (forward) 및역방향 (reverse) 으로읽은리드수의차이가크게나타나는점을확인했으며, 이것이형광표지자의영향일것으로추측하였다. 이때문에본연구에서도 Van Neste 등의두번째연구 20) 와동일하게 15개 STR 유전좌에대해형광표지자가부착되지않은프라이머를가지고다중증폭 PCR 방법으로증폭산물을준비하고다만다른 NGS 장비인 GS Junior를사용하여분석하였다. 라이브러리제작을위해 Roche 사에서권장하는방법은 i) 어댑터서열과주형특이적서열 (template specific sequence) 이서로결합된프라이머 ( 퓨전프라이머 ; fusion primer) 를이용하여증폭산물을생성하거나, ii) 온전한주형 DNA를작은절편으로만드는과정 ( 절편화 ; fragmentation) 을수행한후어댑터를붙이는방법이다. 첫번째로퓨전프라이머를이용하는방법은이전에증폭산물생성과라이브러리제작을동시에진행하기위해사용해본적이있다. 하지만증폭산물을전반적으로고르게얻지못하였고, 이에따라 NGS로얻어진총리드수가적게나왔으며, 일부유전좌에서대립유전자형이정확하게결정되지않은경우가발생하였다. 아마도길어진프라이머가사용되었기때문에 PCR 과정에서의증폭효율이떨어졌고, 또한이어진행된에멀션 PCR 단계에서도영향을끼친것으로생각되어본연구에서는사용되지않았다. 두번째로 DNA를절편화하는방법은전장유전체 (whole genome) 및미토콘드리아 DNA와같이길이가긴경우에라이브러리를제작하는방법으로다중증폭 PCR을통해서 100 450 bp 범위의증폭산물을생성함으로써이루어지는 STR 분석에는적절하지않았다. 하지만이러한증폭산물을이미절편화가완료된작은절편으로간주하고어댑터를부착을통한라이브러리제작을통해서성공적으로 NGS 자료를생성할수있었다. 결과적으로기존의다중증폭 PCR의방식을그대로유지하면서위와같이 라이브러리를제작하는방법은법과학분야에서 NGS를통한 STR 유전좌의연구에매우유용할것이라고본다. 15개 STR 유전좌에대해서 NGS 자료를생성하고, 분석을통해각유전좌마다리드의분포를조사했을때일정하게나오지않고증폭산물의크기와반비례하여나타나는것이관찰되었다 (Table 2). 대체로 250 bp를기준으로이것보다증폭산물이작게만들어지는유전좌에서는리드의수가많게나왔지만, 크게나오는유전좌에대해서는리드수가상대적으로적게얻어졌다. 특히 300 bp 이상의증폭산물이생성되는 D18S51, FGA, Penta D, Penta E에서는모든리드 (All) 의수도적게얻어졌을뿐만아니라이들중에서전체 STR 영역을포함하는리드의비율 (Entire STR/All) 도 50% 미만으로확인되었다. 본연구에서는 NGS를위해 PowerPlex 16 system의프라이머정보를이용하였기때문에이에따른증폭산물의크기도 106 474 bp의범위로넓게나타나게된다. 이러한점들을고려할때전체적으로증폭산물의크기를줄이면서보다좁은범위에서이들이생성될수있게한다면, 각 STR 유전좌마다일정한리드의수를얻게됨으로써차후분석결과에신뢰를줄수있을것으로예상된다. 따라서 NGS에최적화된 STR 분석결과를얻기위해서는새로운실험적설계가필요할것으로본다. 또한, GS Junior 장비이외에다른시퀀싱방식을사용하는동급의 MiSeq (Illumina Inc., San Diego, CA, USA) 및 Ion Torrent PGM (Life Technologies, Carlsbad, CA, USA) 장비에서도성능개선을통해읽을수있는리드의길이가점차길어지고있기때문에이러한장비에서도함께적용될수있는설계가요구될것이다. 단일시료및 1:1 혼합시료를 NGS를통해 STR 대립유전자형을결정한후에 CE 분석법으로얻어진결과와비교하였을때, 단일시료에서는모든 STR 유전좌에서대립유전자형이일치하였는데반하여 1:1 혼합시료의일부 STR 유전좌 (Penta E, vwa) 에서는 CE 분석법으로얻은대립유전자형과 NGS 분석으로얻은대립유전자형이서로일치하지않는것이확인되었다 (Table 4). 이것은이들유전좌에서각하나씩의대립유전자의 coverage 값이본연구에서대립유전자결정을위해설정한기준값 (10%) 미만으로나왔기때문이다. 그렇지만이들대립유전자에서는 stutter라고여겨지는대립유전자의 coverage 값보다는크게나왔기때문에결과에서이들을배제하는것은옳지않다고판단하였다. 앞으로도 NGS를이용한혼합시료의 STR 분석에서도대립유전자를결정할때위와같은점을고려하여분석결과에오류가없도록세심한노력이필요할것으로본다. NGS 기법으로 STR 대립유전자의반복구조결정및염기서열변이의관찰이가능하여 (Table 5), 또한두개의남녀표준시료 (2800M과 9947A) 에서 3가지의특징을확인할수있었다. 첫번째는한유전좌에서같은길이의대립유전자로보였

차세대염기서열분석법을이용한상염색체 STR 분석 김은혜외 57 지만다른염기서열을갖고있는경우였으며, 두번째는한유전좌에서서로다른시료간에다른반복구조를보이는경우였고, 세번째는 STR 영역의반복구조는같지만, 주변부서열에서염기서열변이가관찰된경우였다. 이러한점들은 NGS를이용한염기서열기반의분석으로기존의 CE를통해확인된 STR 대립유전자가더욱더세분될수있음을시사한다. 또한, 앞선연구 11) 에서제시한바와같이, 한국인에서도 NGS를이용한 STR 대립유전자의염기서열정보및이들의빈도자료가구축된다면앞으로친자확인및범죄수사와같은법과학실무에유용할것이다. 1:1 혼합시료에서 NGS 분석을통해혼합비율의추정하기위해 STR 대립유전자에대한 coverage 값의비율로알아보는방법을사용하였을때얻어진결과값이예상하고있는비율과다르게나오는것이확인되었다. 특이하게도 2800M과 9947A에서각각유래된대립유전자를분리하여 coverage 값을조사하였을때동일한양상으로나오지않고, 2800M 유래의대립유전자쪽으로치우치는경향을확인할수있었다 (Table 3). 이러한양상은 15개 STR 유전좌에서모두동일하게나타났다 ( 자료제시없음 ). 뿐만아니라 D13S317 유전좌에서관찰된염기서열변이로부터아데닌과티민의수를조사하여혼합비율을추정한경우에서도 2800M에서유래된티민이예상보다많이나오는것이관찰되었다 (Fig. 3). 이러한원인을알아보기위해서 CE를통해얻은 1:1 혼합시료의프로필 (profile) 에서대립유전자의피크 (peak) 높이를조사하여혼합비율을추정해보았다. CE 결과에서도 NGS 결과와마찬가지로한쪽시료의대립유전자가예상보다많이나온다는것을알수있었다 ( 자료제시없음 ). CE 및 NGS 기법은공통적으로대상시료로부터 PCR을통해서증폭산물을준비하는것으로시작한다. 이것으로볼때위와같은현상은 PCR 과정에서발생하는두개의시료간의증폭효율의차이라는것을미루어짐작할수있었다. 따라서 NGS를이용하여혼합비율을추정하는경우에는이러한점을충분히고려하여분석이이루어져야할것이다. 본연구및 Bornman 등 15) 의연구에서는 2개의단일시료를이용하여 1:1 의비율에대해서만 NGS를통한분석을수행하였다. 이러한경우는용의자와피해자가각각한명으로구성된사건현장에서얻어진시료를해석하는데적용될수있을것이다. 하지만혹시라도둘중한명의시료에서낮은비율로나타난다면자료의해석이어려워질수있다. 따라서사건현장에서얻어지는시료의실제적인특성을고려하기위해서는 1:1 조건이외에도좀더다양한비율로혼합된시료를대상으로효과적인자료해석이이루어지는지조사할필요가있다. Van Neste 등은총 4개의시료로부터 10:20:30:40 및 93.40:5:1:0.5:0.1 의비율로혼합시료를만들어 NGS를통한분석에이용하였다. 20) 여기서분석에사용된최소기준을 0.5% 로설정하였기때문에이론적으로는 1% 로존재하는시료까지 는검출되어야하지만, 실제적으로는 5% 이상으로존재하는시료부터검출할수있었다. 이러한연구는 NGS를이용한혼합물분석에서가장큰관심거리인 소수의공여자 (minor contributor) 로부터의대립유전자를얼마나낮은비율까지 ( 민감도 ; sensitivity) 그리고얼마나정확하게 ( 특이도 ; specificity) 검출할수있는가 를알아보는데중요한정보를제공할것으로본다. 앞으로이러한연구결과를 NGS 자료의분석을통해 STR 대립유전자형을결정하는데활용함으로써얻어진자료의해석이정확하게이루어질수있도록노력해야할것으로본다. 본연구에서제시한 NGS 자료분석의전략으로참조서열을직접제작함으로써법과학에서주로사용되는 STR 유전좌에맞게대립유전자형을결정할수있도록새로운방법을제시하였다. 이전에다른연구자들에의해개발된 STR을분석하는 lobstr 프로그램도보고된바있다. 21) 하지만본연구에서제시한분석법이 lobstr 프로그램을사용했을때보다향상된결과를보였다 ( 자료제시없음 ). 본연구에서사용된분석법은복잡하고번거로운과정때문에실제사용자들이느끼기에는다소어려운점이있을것으로여겨진다. 이에새로제작된참조서열을이용한분석프로그램이개발된다면좀더효율적으로 NGS 분석을수행할수있을것이고더나아가좀더많은 STR 분석의적용에도유용할것으로생각한다. 본연구에서는남녀표준시료단일시료및이들의혼합시료를대상으로단한번의 NGS 과정을통해성공적으로염기서열자료를생성할수있었을뿐만아니라이들자료로부터효과적인 STR 분석을수행할수있었다. 이러한방법은범죄현장에서발견된시료와함께용의자및피해자에게서채취한시료의분석에대해서도동일하게적용될수있는모델이라판단된다. 따라서 NGS를이용한 STR 분석법이실험적, 분석적측면에서보다최적화가이루어진다면기존의 CE 기반의방법이가지는부족한점을채워줌으로써법과학분야에서기존방법과함께추가적인방법으로유용하게사용될수있을것으로전망한다. Acknowledgment 본연구를위해서 GS Junior 장비사용에도움을주신대검찰청 DNA 수사담당관실담당자여러분께감사드립니다. 참고문헌 1. Thompson R, Zoppis S, McCord B. An overview of DNA typing methods for human identification: past, present, and future. Methods Mol Biol 2012;830:3-16. 2. Kayser M, de Knijff P. Improving human forensics

58 Korean Journal of Legal Medicine 2014;38:48-58 through advances in genetics, genomics and molecular biology. Nat Rev Genet 2011;12:179-92. 3. Berglund EC, Kiialainen A, Syvänen AC. Next-generation sequencing technologies and applications for human genetic history and forensics. Investig Genet 2011;2:23. 4. Metzker ML. Sequencing technologies - the next generation. Nat Rev Genet 2010;11:31-46. 5. Cho IS, Blaser MJ. The human microbiome: at the interface of health and disease. Nat Rev Genet 2012;13:260-70. 6. Bamshad MJ, Ng SB, Bigham AW, et al. Exome sequencing as a tool for Mendelian disease gene discovery. Nat Rev Genet 2012;12:745-55. 7. Ozsolak F, Milos PM. RNA sequencing: advances, challenges and opportunities. Nat Rev Genet 2011;12:87-98. 8. Meyerson M, Gabriel S, Getz G. Advances in understanding cancer genomes through second-generation sequencing. Nat Rev Genet 2010;11:685-96. 9. Laird PW. Principles and challenges of genomewide DNA methylation analysis. Nat Rev Genet 2010;11:191-203. 10. Van Neste C, Van Nieuwerburgh F, Van Hoofstat D, et al. Forensic STR analysis using massive parallel sequencing. Forensic Sci Int Genet 2012;6:810-8. 11. Rockenbauer E, Hansen S, Mikkelsen M, et al. Characterization of mutations and sequence variants in the D21S11 locus by next generation sequencing. Forensic Sci Int Genet 2014;8:68-72. 12. Fordyce SL, A vila-arcos MC, Rockenbauer E, et al. Highthroughput sequencing of core STR loci for forensic genetic investigations using the Roche Genome Sequencer FLX platform. Biotechniques 2011;51:127-33. 13. Dalsgaard S, Rockenbauer E, Buchard A, et al. Non-uniform phenotyping of D12S391 resolved by second generation sequencing. Forensic Sci Int Genet 2014;8:195-9. 14. Scheible M, Loreille O, Just R, et al. Short tandem repeat sequencing on the 454 platforms. Forensic Sci Int Genet Suppl Ser 2011;3:357-8. 15. Bornman DM, Hester ME, Schuetter JM, et al. Short-read, high-throughput sequencing technology for STR genotyping. Biotechniques 2012;0:1-6. 16. Langmead B, Salzberg SL. Fast gapped-read alignment with Bowtie 2. Nat Methods 2012;9:357-9. 17. Li H, Handsaker B, Wysoker A, et al. The Sequence Alignment/Map format and SAMtools. Bioinformatics 2009;25:2078-9. 18. Quinlan AR, Hall IM. BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics 2010;26:841-2. 19. Robinson JT, Thorvaldsdo ttir H, Winckler W, et al. Integrative genomics viewer. Nat Biotechnol 2011;29:24-6. 20. Van Neste C, Vandewoestyne M, Van Criekinge W, et al. My-Forensic-Loci-queries (MyFLq) framework for analysis of forensic STR data generated by massive parallel sequencing. Forensic Sci Int Genet 2014;9:1-8. 21. Gymrek M, Golan D, Rosset S, et al. lobstr: a short tandem repeat profiler for personal genomes. Genome Res 2012;22:1154-62.