Molecular Systematics
생물계통연구에있어서 DNA 분석의의미 생물의형태를나타내는궁극적인유전물질로서의 DNA 를분석하는것임. - 분자데이타는많은경우형태적으로지지되어온분류 군들이단계통군임을지지해주고있다 ex) 벼과 (Poaceae), 콩과 (Fabaceae), 장미과 (Rosaceae) - 논란이되어온유연관계를명확히함.
분자계통학을통해새롭게밝혀진피자식물들의계통관계에대한대표적예 1) 쌍자엽식물은 paraphyletic group 2) 수련 (water lily; Nymphaea) 은더이상연꽃 (Nellumbo) 과같은그룹이아님. 3) 단자엽식물로알려져있던 Hydatellaceae 는 basal angiosperm 이었음.
Asterales Dipsacales Apiales Aquifoliales Garryales Gentianales Laminales Solanales Ericales Cornales 국화, 초롱꽃인동, 산토끼꽃당귀, 인삼감탕나무 두충용담, 꼭두서니꿀풀, 금어초토마토, 메꽃진달래, 앵초층층나무, 수국 Campanulids (Euasterids II) Lamiids (Euasterids I) Asterids Sapindales Malvales Brassicales Fagales Cucurbitales Rosales Fabales Zygophyllales Celestrales Oxalidales Malpighiales Geraniales Myrtales 귤, 단풍나무무궁화애기장대, 무우자작나무, 상수리박, 베고니아장미, 느릅나무 콩, 자귀나무남가새 노박덩굴굉이밥버드나무, 제비꽃쥐손이풀바늘꽃 Saxifragales 범의귀, 돌나물 Caryphyllales 카네이션, 선인장 Santalales 단향, 겨우살이 Beberidopsidales Gunnerales Buxaceae 회양목 Trochodendraceae Proteales 연꽃, 버즘나무 Sabiaceae 나도밤나무 미나리아재비 Euptelea 양귀비 Ceratophyllales 붕어마름 Malvids (Eurosids II) Fabids (Eurosid I) Ranunculales Rosids Coreeudicots Basal eudicots EUDICOTS 벼, 백합옥수수 MONOCOTS Acorus Canellales Piperales Magnoliales Laurales Chloranthus Austrobailales Nymphaeaceae Hydatellaceae Amborella 창포 후추, 족도리풀목련, 튜립나무녹나무, 아보카도홀아비꽃대 붓순나무, 오미자수련 Magnoliids Basal Angiosperms EXTENT GYMNOSPERMS
수련 (Nymphaea) 연꽃 (Nelumbo)
Hyadtellaceae: Cronquist system 등모든 classic 한분류체계에있어서단자엽식물로분류되었던이식물은분자계통학연구에의해 Nymphaeaceae 의 sister group 임이밝혀짐.
2014. Lake Taharoa, New Zealand Distribution site of Trithuria inconspicua (Hydatellaceae)
계통학에서사용되는분자적방법 1) DNA-DNA hybridization - 생물간의전체유전체의비교. - DNA 분석초기동물군에서활발히연구 ex) 독수리, 콘돌, 황새간의유연관계연구 - 현재는재현성이부족하여거의사용되고있지않음
참조 : DNA 연구를위한기본적인기술 A) 제한효소 (restriction enzyme) 반응 - 제한효소란특정염기서열을인식하여인식한부위를자르는효소를말함. - 80년대말 ~90년대초반제한효소를이용한 RFLP(restiction fragment length polymorphism; 제한효소조각길이다형성 ) 기술을이용하여 cpdna analysis에의한식물계통연구활발
참조 : DNA 연구를위한기본적인기술 http://www.youtube.com/watch?v=uyaghri30om&feature=related B) Gel electrophoresis agarose 또는 acrylamide 등으로만든 gel에 DNA를통과시키면 + 극으로이동하는데, 이때분자량과전하에따라차별적으로이동하여같은크기의분자들이 band를형성함.
PCR 반응물을전기영동한것
계통학에서사용되는분자적방법 2) RFLP (restriction fragment length polymorphism)
다양한제한효소들의종류와그인식염기서열 Enzyme Source Recognition Sequence Cut EcoRI Escherichia coli 5'GAATTC 5'---G/AATTC---3' EcoRII Escherichia coli 5'CCWGG 5'---/CCWGG---3' BamHI Bacillus amyloliquefaciens 5'GGATCC 5'---G/GATCC---3' HindIII Haemophilus influenzae 5'AAGCTT 5'---A/AGCTT---3' TaqI Thermus aquaticus 5'TCGA 5'---T/CGA---3' NotI Nocardia otitidis 5'GCGGCCGC 5'---GC/GGCCGC---3' HinfI Haemophilus influenzae 5'GANTC 5'---G/ANTC---3' Sau3A Staphylococcus aureus 5'GATC 5'---/GATC---3' PovII* Proteus vulgaris 5'CAGCTG 5'---CAG/CTG---3' SmaI* Serratia marcescens 5'CCCGGG 5'---CCC/GGG---3
식물에서는주로 cpdna 의 RFLP 연구가 1980 년대말 ~90 년대초반까지활발히이루어짐
참조 : DNA 연구를위한기본적인기술 C) PCR (polymerase chain reaction) - 생물체가갖고있는전체 DNA 중특정한일부구간만을똑같은복제품을많이만들어내어이것으로염기서열결정등의다음후속연구를가능하게함. - Kary Mullis는이방법의개발로 Novel prize를받음 (1993).
DNA polymerization: DNA polymerase extends a primer by using a complementary strand as a template. DNA 합성에필요한요소 1) 주형, 2) 프라이머 ( 짧은염기서열 ), 3) DNA 중합효소, 4) 뉴클레오티드 pool, 5) 마그네슘이온 ( 조효소 ) 3) DNA POLYMERASE 2) PRIMER 5 3 T T T G C A A G G G C T A A A C G T T C C C G A G T T C C T C G A G T G T T A C G T T C T T C T C T A G T G T T A C A A A C G T T C C A C G T T C A A A 3 5 1) TEMPLETE 4) dntp s pool A C G T datp dctp dgtp dttp A A 5) Mg ++ T C G T G G T C A T C C G AT A G C Newly synthesised strand 3 5 T T T G C A A G G G C T C A A G G A G C T C A C A A T G C A A G A A G A G A T C A C A A T G T T T G C A A G G T G C A A A C G T T C C C G A G T T C C T C G A G T G T T A C G T T C T T C T C T A G T G T T A C A A A C G T T C C A C G T T C A A A 5
PCR 의원리 http://www.youtube.com/watch?v=2kolniwozku
An example of a PCR method PCR 의온도조건 100 Pre-denature 95 Denature 95 80 Extend 72 Final-extend 72 60 Temp. 40 Anneal 55 20 Cycle 1 Cycle 2 Cycle 30 Soak 4 0 Hold program Cycle program Hold program
심해열수구에서자생하는호열성박테리아 (Thermus aquaticus) 의발견은 PCR 기술발전의획기적인전환점이됨 : 고온에서안정적인 DNA polymerase 의추출 심해열수구 (hydrothermal vents)
호열성박테리아들로부터추출된내열설 DNA 중합효소들 Thermophilic DNA polymerases Thermus aquaticus (Taq) PCR 에서가장많이쓰는 DNA polymerase Thermus thermophilus (Tth) Bacillus stearothermophilus (Bst) Pyrococcus furiosis (Pfu)
계통학에서사용되는분자적방법 3) RAPD (random amplified polymorphic DNA) 임의증폭다형 DNA 법 무작위적으로선발된 8~10 개로이루 어진프라이머를이용하여 PCR 을하 여이들이만들어내는 DNA fragment 를분석하여분류군들간의유연관계 를측정하는방법이다. 이들프라이머 가적당한거리를두고정방향과역방 향으로 DNA 구간에붙으면 PCR 에의 해증폭되어하나의밴드를형성하게 된다. 그러나프라이머가붙은염기서 열이다른종에서는변형되어있는경 우이들은 band 가형성하지못하게된 다. RAPD 의결과로 band 의유무에따 라 0, 또는 1 의 binary data 를만들어 내게되고, 여러프라이머들을이용하 여수많은 band 들을도출해내고이를 코딩한 0/1 데이터를분석하게되면 종들간의유연관계를파악할수있게 된다.
4) AFLP (Amplified Fragment Length Polymorphism) 증폭절편길이다양성방법 AFLP 는유전학적연구, DNA 지문법등을위해사용되는분자생물학적인방법이다. 실험과정 - 전체유전체를특정 restriction enzyme 으로절단한다 ( 예를들어 EcoRI 으로절단 ) - EcoRI 으로잘린 cohesive-end 에정확히맞는 ds DNA 의어뎁터를 ligase 로연결한다. - 어뎁터염기서열 +N 의염기서열을갖는프라이머에의해증폭시킨다 ( 여기서 N 은 ACGT 중한개를선택한다.). - 어뎁터염기서열 +N+M+L 의염기서열의프라이머에의해재증폭시킨다 ( 여기서 M, L 또한 ACGT 중각각한개씩을선택한다 ). 그결과 restriction enzyme 에의해생성된 fragment 의개수는 1/4 6 만큼선별되어선별된 것만증폭되게된다. 즉전체유전체에서 N, M, L 에해당하는위치의염기서열을비교한결 과를 band 의형태로보게되는것이다. AFLP 는 RAPD 방법보다재현성이뛰어나근연분류군들의구분을위해현재많이사용되고 있는방법이다.
Process of AFLP A ACC C AGC
계통학에서사용되는분자적방법 5) DNA sequencing DNA-DNA hybridization, RFLP, RAPD, AFLP는모두전체유전체를전반적을비교하는방법이다. 이에반해 DNA sequencing은특정부분의 DNA 염기서열을모두밝혀비교하는방법이다. 부분적이지만정확한비교를할수있다는장점이있다. 다른방법들보다염기서열을얻는것이비싸고어려운일이기는하지만가장확실하고객관적인데이터를제공하는방법이된다. 계통연구를위한 DNA 염기서열분석의장점 : 1) 객관적인형질상태 (character status): A/C/G/T 2) 계통상의미있는형질의수 (informative character) 가무수히많다. 3) 기존의데이터에새로운데이터의첨가가용이하다. 4) 매우적은양의시료에서도데이터를얻을수있다. 5) 실험결과가광범위한분류군에이용될수있다. - 진화속도가느린유전자 : 전체피자식물의계통 - 진화속도가빠른유전자또는유전자들사이의염기서열 (intergenic spacer) 등 : 속또는종들의구분
참조 : DNA 연구를위한기본적인기술 D) DNA sequencing ( 염기서열결정 ): PCR로증폭된 DNA 가닥들의각각의염기를서열순으로읽을수있는기술 - Sanger에의한방법이가장널리사용 - Sanger method로서현재한번에읽을수있는염기수는약 900 bp (base pair) 정도.
Sanger method https://www.youtube.com/watch?v=vk-hlmaitne One-dye (or isotope) four-lane system: 최초의 Sanger sequencing 은 ddntp 들의각각의반응을거쳐시료당네개의 lane 을사용하여동시에전기영동시킨다. 이때각각의 band 의색은구분이안되고흑백으로 band 의유무만을알수있다.
Four-dye one-lane system: 각각의염기를끊어주는분자 (ddntp) 에서로다른색의형광물질로표지하게되면 ( 빨강, 파랑, 노랑, 녹색 ) 이분자를포함하고나서 DNA 중합반응이멈추게된다. 그러므로각각의 DNA fragment 들은분자량이각각달라전기영동후단일 nucleotide 단위로분리되는데, 이때 dntp 에표지된형광물질에의해그 band 는색을나타내게된다. 이렇게색을띄는 bande 들을차례로읽으면 DNA 염기서열이된다. One-dye four-lane system 과는달리한 lane 당한개의시료를넣을수있어매우효율적이다.
ABI 377: Gel-type Automatic sequencer - 1990년대부터 2000년대초반까지많이사용해온 gel type 염기서열자동분석장치 - 일반전기영동장치와 four-dye one-lane dye system, 그리고자동화된 detector로이루어져있다. - 위부분에시료를 loading 하면전기영동이이루어지다아랫쪽에있는검출기를지날때형광이읽힌다. - 전기영동이모두끝나면 detector가한줄한줄기록한이미지는사진과같은이차원이미지가되고, 이이미지에서한시료는하나의세로줄에해당한다. 이세로줄을구성하는각각의 band들을 chromatogram화시켜각각의 band에대한 peak를만들어내고, 이들 peak의색을읽으면각각의염기서열이된다.
현재사용하고있는 automatic sequencer 에의한분석결과
ABI 3730: Capillary-type Automatic sequencer - 현재가장많이쓰이고있는 Sanger 방법에의한염기서열분석장치. - ABI 377 모델의개선된형태로 gel판에의한전기영동이아니라한시료는한개의모세관에서전기영동이이루어진다 ( 마찬가지로 four-dye one-lane system). Gel 판이아닌모세관에의한전기영동법으로획기적으로전기영동의정밀도를높이고, 분석속도를높이게되었다. 현재 96 개의모세관또는 384개의모세관단위로분석이이루어지고있다. - 현제상업적서비스에서이기계를이용하여한시료의염기서열약 900bp를읽는데드는비용은약만원.
Magnoliaceae DNA 염기서열결정법에의한계통연구순서 1. 연구대상의설정 - 연구대상은다른연구에의해 monophyletic group 임이밝혀진분류군을 Annonaceae 선정하는것이가장이상적이다. - 연구의실제대상 (ingroup) 과비교를위한외군 (outgroup) 을설정한다. Ingroup에서는세부분류군들을잘대변해주는적당한수의분류군을설정하고, sister group이라고알려져있는분류군을설정한다. 예를들어목련과식물의계통학적연구를할때목련과에서지금까지발표된각각의아속또는절에해당하는식물들을선별하여 100 여개의시료를준비하고, outgroup으로는다른연구에의해목련과와가장가깝다고알려져있는 Annonaceae에서 3 종을선정한다. 이때전체분류군수는 100개의 ingroup과 3개의 outgroup이된다. 2. 적당한변이를갖는유전자구간을선별 - 너무느리게진화하는 DNA 염기서열구간은아무런계통학적정보를제공하지못한다. 예를들어 Histone gene은목련과의모든종에서똑같은염기서열을보이리라고예상된다. - 너무빠르게진화하는 DNA 염기서열구간은계통학적정보를제공하는염기서열의변화가중복적으로일어날수있어적당한 (ingroup내에서염기서열변이약 20% 이하 ) 속도로진화하는유전자를선택해야한다. 일반적으로계통학적연구에많이사용하는유전자또는 DNA 구간은엽록체에서는 rbcl, matk, ndhf 등의유전자와 trnh~psba, tnrl~trnf 와같은 intergenic spacer 들이며, 핵유전체에서는 rdna repeating unit의 ITS1과 ITS2 구역등이다.
3. 각각의분류군에대한해당유전자염기서열결정 - 그유전자에대한 specific primer set 을이용한 Sanger sequencing 에의해각각의염기서열을결정한다. - 보통 forward 방향과 reverse 방향의 sequencing 을모두하여서로비교하여데이터의신뢰도를높인다. 4. 결정된염기서열들의정렬 - 염기서열들을분류군들간에비교하려면우선정렬 (alignment) 의과정을거쳐야한다. - 정렬은 homologous 한비교대상을설정하는것이다. 원숭이와사람을비교할때사람의팔은원숭이의팔과비교해야지사람의팔과원숭이의발을비교하면오류가발생한다. 이것이바로데이터의정렬이다. 5. 정렬된데이터를이용한계통분석 - 여러가지계통분석을위한이론들이개발되어있지만이들중가장핵심이되는방법은 parsimony 이다. Data matrix 에 대하여한가지형태의 tree 가있으면이 tree 상에서형질의변화가몇번이루어지는지알수있다. 이들형질의변화 step 을최소화하는 tree 를최적의 tree 로선전할수있다. 너무어렵나요? 분자계통학또는생물정보학시간에계속
각종으로부터얻어진 DNA 서열들은정렬 (alignment) 과정을거쳐서종간의유연관계를파악할수있는형질 (character) 들을제공하게된다. 정렬된서열의각각의 site 는모두형질로서작용할수있게됨.
DNA sequence 자체의염기치환뿐아니라 insertion/deletion (indel) 과같은구조적변화도계통연구에있어서중요한형질
Plant Genome 식물에는 3 개의독립적유전체가존재함 : chloroplast, mitochondria, nuclear Chloroplast genome - maternal inheritance ( 모계유전 ) - small single-copy region (SSC) + large single copy region (LSC) + inverted repeated region (IR) 로이루어짐 - 유전자들의배열순서는매우안정적임 발견된 rearrangement들은그룹을특징짓는좋은형질이됨 - 식물의분자계통학연구에많이사용된다. - 식물의분자계통연구에흔히이용되는구간 : rbcl, matk, ndhf 등의유전자들과 trnh~psba, trnl~trnf와같은유전자와유전자의사이구간 (intergenic spacer) - 식물계에서엽록체유전체의크기는약 135~160 kbp 기생성식물에서는엽록체유전체의크기가매우작다
엽록체유전체의구조 : LSC + SSC + 2 개의 IR 엽록체유전체는 1) Photosynthesis에관여하는 gene들 2) trna gene들 3) rrna gene들로구성
엽록체부위의 rbcl 유전자는전통적으로식물분자계통학에서흔히이용되는구간임. Ribulose-1,5-bis-phosphate carboxylase/oxygenase (RuBisCo) Large subunit 1) 기생식물을제외한거의대부분의식물에서나타남 2) 비교적길다 ( 약 1.4kb) 3) Chloroplast DNA 임으로많은 copy가세포내에존재하여 Chase et al. (1993) 은 500여피자식물들로부터 rbcl 유전자염기서열을분석하여최초로피자식물전반에걸친 DNA 분석결과를제시함. 기존의형태적형질을기반으로한분류체계 ( 예 : Cronquist system) 와는상당히다른결과를보였으나계통수의각부분에대한신뢰도 (supporting value) 들이매우낮은 tree 를얻음. 이연구이후학자들은보다많은 DNA 구간을이용하여보다많은분류군을포함한분석을통해전체피자식물의계통을재구성하려고노력함.
4-29
Mitochondria genome - maternal inheritance( 모계유전 ) - 원형유전체이지만다양한크기로존재하고, rearrangement가빈번히일어남 - 배열순서는그룹을특징짓는형질이못됨 - 일반적으로 mitochondria의유전자들은동물계통연구에서는많이사용되지만식물계통연구에서는 chloroplast 유전자들보다는덜사용된다. - atp1, matr 등을사용
다양한크기로재조합된 plant motichondria 유전체 A A A A D B E C F D D B C D E A A F C F B E B E C D D - 전체유전체의크기는일정하나다양한형태와배열로존재함
Nuclear genome - Genome mapping을통해유전자들의배열순서가밝혀지고있음. - 식물에서의일반적인진화속도는 chloroplast genes > mitochondrial genes Nuclear gene들은매우많으므로그진화속도를일반화하기는어렵다. - 전통적으로계통연구에가장많이사용되는핵유전체구간은 rdna (ribosomal DNA) repeating unit 내의 ITS (internal transcribed spacer) 구간임 1) ribosomal DNA는모든생물이공통적으로포함되어있는매우보존적인구간이어서 universal primer에의해증폭가능, 2) spacer 구간이므로많은변이가존재하여 3) multiple copy로존재하여 PCR이용이함 - 계통분석을위한적당한변이율을갖는 single copy nuclear gene을찾는것이현재의큰과제임. 유사유전자들이 multiple copy로존재하면 ( 예, α-, β-hemoglobin) 이들간의상동성을파악하기매우어렵기때문에 single copy gene의분석이가장바람직함.
Ribosomal DNA repeating unit One unit
Chase et al. (1993) 의 rbcl에의한연구이후많은학자들이힘을모아더많은유전자구역과더많은분류군을포함한분석을시도하였는데, 2000 년에 U. of Florida의 Soltis 등은 rbcl + atpb + 18S rdna 의세유전자구간을이용한계통분석결과를제시하였고, - 그결과매우안정된피자식물계통수를제시하여이는 - Angiosperm Phylogeny Group System (APG system) 을위한기초가됨. - 현재 APG system은지속적으로업데이트되어최근에는 (2016년 3월 ) APG IV가출판되었고, 식물분류의교육과연구를위한가장기본적인분류체제를제공하고있음. DNA 분석을통한계통연구및유전체연구에대한것은 분자계통학 (Molecular Phylogenetics), 생물정보학 (Bioinformatics) 수업시간에보다자세히언급됨!
참조 : DNA 연구를위한차세대기술 NGS (next generation sequencing) Pyro-sequencing 현재또는미래의기술 (2005년최초개발 ) 대용량의시퀀스를한꺼번에획득.
Pyro-Sequencing 세가지기술이결합된방법 1) emulsion-pcr 한방울의이멀젼안에서 PCR 을수행하는기술 2) sequencing-by-synthesis DNA 를합성하면서형광을발해그색으로서염기서열을인식 3) microtiter-plate 수많은반응들이액체속에서떠돌아다니며일어나는것이아니라광섬유로만들어진 plate 속에고정시켜반응이일어나게함.
Capacity of Next Generation Sequencers 96 x 1,000 bp = 96,000 bp = 100Kb ABI 3730; ABI 950,000 x 450 bp = 405,000,000 bp = 405Mb GS Titanium; Roche 454 30,000,000 x 7 x (101 x 2) bp = 42,420,000,000 bp = 42.5Gb Solexa GA2; Illumina 30,000,000 x 7 x (101 x 2) x 4 bp = 169,680,000,000 bp = 169.7Gb 인간유전체 : 약 3 Gbp! 현재 NGS 기술은각각의유전자염기서열을결정하는단계를넘어서전체유전체염기서열을결정하는데활발하게이용 되고있음. HiSeq2000; Illumina 940,000,000 x 75 bp (50+25) = 70,500,000,000 bp = 70.5Gb SOLiD 4; ABI 현재가장일반적으로수행하고있는 NGS 시퀀싱기술은 Illumina 방법이다.
Krause et al. 2006. Multiplification of the mammoth mitochondial genome and the evolution of Elephantidae. Nature 439: 724-727. Poinar et al. 2006 Metagenomics to paleogenomics: large-scale sequencing of mammoth DNA. Science 311: 392-394. NGS 기술은맘모스, 네안데르탈인의연구와같은화석생물의유전체연구에도이용되고있음.