110 PRIME 산업연계교육활성화선도대학사업 그림 7.5. 계통수를뉴윅형식으로표현하기. 그림 7.6. 가지의길이또는절의통계적지지도를포함한계통수와이에대한기본적뉴윅형식. 그림 7.6 의계통수에서제시된기본적뉴윅형식에절의길이에대한정보 ( 붉은색숫자 ) 를추가하려면다음과같이나타낼수있다. (((A:1,B:1):1,C:2):2,(D:1,E:1):3) 또한부트스트랩값 (bootstrap value) 과같은절의통계적지지도 ( 파란색 ) 를추가하면다음과같다. (((A:1,B:1)1.0:1,C:2):2,(D:1,E:1)0.95:3) 7.1.3. 계통학연구를위한분자적방법들 분자계통학의역사에있어서초기에는 DNA-DNA 혼성화법 (DNA-DNA hybridization), RFLP (Restriction Fragment Length Polymorphism) 과같이염기서열과는다른의미의분자적방법들이사용되었지만, DNA 염기서열자료가갖는많은장점때문에현재에는 DNA 염기서열에의한계통분석이
PRIME 산업연계교육활성화선도대학사업 111 분자계통학의주류를이루고있다. DNA-DNA 혼성화법은그결과의형태가얼마만큼붙었는지를의미하는 % 자료이고, RFLP 방법은제한효소에의해만들어진 DNA 조각이이루는밴드의유무인 0/1 자료이다. 이에반해서 DNA 염기서열자료는한좌위당 A/C/G/T 의네개의형질상태를갖는다. 계통학연구초기에가장먼저대두된방법론이 DNA-DNA 혼성화법 (DNA-DNA hybridization) 이다 ( 그림 7.7). 그림 7.7. DNA-DNA 혼성화법에의한계통연구. 이방법은생물체간의전체유전체를비교하는방법으로비교하고자하는두종에서 DNA 를추출하
112 PRIME 산업연계교육활성화선도대학사업 여적당한길이로자른다. 이들을섞은후가열하면모두변성이일어나단일가닥으로분리 (denaturation) 된다 ( 제 2장참조 ). 이후천천히온도를낮추어주면두종에서온각각의단일사슬들이서로달라붙어재생 (renaturation) 이일어난다. 이후붙지않은단일사슬 DNA 를제거해주고방사선동위원소에의한표지에의해이중사슬의 DNA 의양을측정하게된다. 만약두종의염기서열이매우유사하다면많은양의이중사슬 DNA 가남아있을것이고, 두종의계통적거리가멀다면대부분서로붙지않아최종검출되는이중사슬 DNA 의양이적을것이다. 이방법은초기분자계통학연구에서동물군연구에서활발히연구된바있는데, 독수리, 콘돌, 황새간의유연관계연구에사용되어황새와콘돌이독수리보다더욱가깝다는사실을밝혀 DNA 에의한계통연구의장을열었다. 그러나이방법은재현성이부족하였고, 방사선동위원소를표지하는종에따라결과의차이를보일때도있어안정되지못한실험법으로생각되어현재는주목받지못하고있다. 특정 DNA 염기서열을인식하여자르는제한효소 (restriction enzyme) 의발견에따라이를계통학에이용하게되었다 ( 그림 7.8). 예를들어 EcoRI 은 GAATTC 라는여섯개의염기를인식하여 G와 AATTC 부분으로자르게된다. 만약여러종에서같은처리를한다면한종에서는 EcoRI 에의해잘렸지만, 다른종의같은부위에서는이부위에염기치환이일어나제한효소가이부위를자르지못하게된다. 이렇게되면잘리지않은 DNA 와잘린 DNA 는크기의차이가발생하여전기영동시서로다른밴드를보이게된다. 1980 년대말에서 90년대초반에는식물분야에서제한효소를이용한 RFLP(restiction fragment length polymorphism; 제한효소조각길이다형성 ) 기술을이용하여엽록체유전체에의한계통연구가활발하게진행되었다. 이방법의의미를살펴보면, 전체대상 DNA 가닥을모두비교하는것이아니라제한효소가인식하는곳들만을발췌하여종간에비교한다는의미를지닌다. DNA-DNA 혼성화법과함께대상 DNA 구간 ( 또는유전체전체 ) 를자세히는아니지만전체적으로비교하는방법인것이다. 그림 7.8. 다양한종류의제한효소.
PRIME 산업연계교육활성화선도대학사업 113 그림 7.9 에서는 RFLP 에서제한효소에의한반응결과를전기영동을통해가시화한것을보여준다. 종 B에서는 EcoR1 으로잘랐을경우 1,000 bp, 2,000 bp, 3,000 bp, 4,000 bp 크기의네조각의 DNA 로절단되어전기영동시네개의밴드가보인다. 그러나종 A에서는자른 DNA 가닥들은 2,000 bp와 3,000 bp의가닥을끊는 EcoR1 의좌위에서염기치환이일어나 EcoR1 이작동하지못하여결과적으로이둘을합친 5,000 bp 크기의밴드를형성하게된다. 마찬가지로 EcoR1 으로처리된 DNA 를다시 BamH1 으로처리하면두종이서로차이가나는더많은좌위를검출하게된다. 전기영동에의해밴드의형태로가시화된 DNA 조각들은최종적으로 0 또는 1로자료를만들어이를계통분석에이용하게된다. PCR에의한특정 DNA구간의증폭이가능해지고, 이방법이대중화됨에따라 그림 7.9. 계통학적연구를위한 RFLP 의과정 무작위프라이머 (random primer) 들에의해 DNA 구간들을증폭하여비교하는 RAPD (Random Amplified Polymorphic DNA) 방법을계통연구에이용하게되었다 ( 그림 7.10). RAPD 는무작위적으로선발된 8~10 개로이루어진프라이머를이용하여 PCR 로이들이만들어내는 DNA 조각들분석하고, 그결과로분류군들간의유연관계를측정하는방법이다. 이들프라이머가적당한거리를두고정방향과역방향으로 DNA 구간에붙으면 PCR 에의해증폭되어하나의밴드를형성하게된다. 그러나다른종에서는프라이머가붙은염기서열이변형되어있는경우이들은밴드를형성하지못하게된다. RAPD 의결 그림 7.10. RAPD 에의한계통연구.
114 PRIME 산업연계교육활성화선도대학사업 과로밴드의유무에따라 0 또는 1의이진 (binary) 데이터를만들어내게되고, 여러프라이머들을이용하여수많은밴드들을도출해내고이를코딩한 0/1 데이터를분석하게되면종들간의유연관계를파악할수있게된다. RAPD 방법은주로종이하의매우가까운분류군들의유연관계를파악하는데이용되고있다. 이방법은 PCR 과전기영동에의해매우경제적으로쉽고빠르게수행할수있다. 하지만프라이머의정확성이떨어져재현성이부족하다. AFLP (Amplified Fragment Length Polymorphism; 증폭절편길이다양성방법 ) 은 RFLP의단점을보완하기위해개발되었다. AFLP 는계통학적관점뿐아니라집단유전학연구, DNA 지문법등을위해널리적용되고있다. AFLP 의실험과정 ( 그림 7.11) 은다음과같다 : 1) 전체유전체를특정제한효소, 예를들어 EcoRI 으로절단한다. 2) EcoRI 으로잘린절편의끝에 DNA 의어뎁터서열을라이게이즈로연결한다. 3) 어뎁터염기서열 +N 의염기서열을갖는프라이머에의해증폭시킨다 ( 여기서 N은 ACGT 중한개를선택한다 ). 4) 어뎁터염기서열 +N+M+L 의염기서열의프라이머에의해재증폭시킨다 ( 여기서 M, L 또한 ACGT 중무작위로각각한개씩을선택한다 ). 그결과 restriction enzyme 에의해생성된 fragment 의개수는 1/46 만큼선별되어선별된것만증폭되게된다. 즉전체유전체에서 N, M, L에해당하는위치의염기서열을비교한결과를밴드의형태로보게되는것이다. AFLP는 RAPD 방법보다재현성이뛰어나근연분류군들의구분을위해현재많이사용되고있는방법이다. 그림 7.11. AFLP 에의한계통연구.
PRIME 산업연계교육활성화선도대학사업 115 7.1.4. DNA 염기서열에의한계통분석의장점 DNA 염기서열결정기술의급격한발달로 DNA 서열의분석은보다빠르고경제적으로진행될수있게되었고, 이에따라 DNA 서열분석은계통연구에가장많이쓰이는방법으로이용되게되었다. DNA 염기서열에의한연구도초기에는단하나의유전자또는 DNA 구간에의한연구가대부분이었지만, 점차다수의유전자들또는 DNA 구간들에의한종합된자료로계통수를그리고있는추세이다. 나아가서계통분류학의미래는유전체에담긴모든염기서열을종합하여분석하는비교유전체학 (comparative genomics) 적접근이되리라생각한다. 계통연구에있어서 DNA 염기서열분석은다른방법들에비해많은장점을지니고있다. 첫째, DNA 서열에의한자료는객관적인형질상태 (character states) 를갖는다는것이다. 즉 A, C, G, T로표현되는디지털형태의자료이다. 만약잎이장상복엽의형질을갖는다고도감의서술을바탕으로연구자가그림을그린다면서로매우다른그림이될것이다. 그러나 DNA 염기서열로이루어진자료는누가이용하더라도똑같은디지털화된자료로매우객관적이다. 둘째, DNA 서열자료는계통상의미있는형질의수 (informative character) 가무수히많다. 생물의형태로부터가능한모든형질자료를도출한다고하여도그수는몇백개이하일것이다. 하지만 DNA 서열자료는그형질의수가궁극적으로는대상생물체의유전체크기에해당할것이다. 참고로사람의유전체의크기는약 3 Gbp, 애기장대는약 0.16 Gbp 정도이다. 셋째, 기존에확보한데이터에새로운데이터의첨가가용이하다. DNA-DNA 혼성화법과 RAPD 와같은실험의결과들은재현성이부족하고같은조건으로여러시료를동시에실험해야의미있는결과를얻을수있는데, 실험후시료를추가하여결과를이전결과와비교하기사실상불가능하다. 하지만 DNA 서열자료의경우지속적인데이터추가에아무런문제가없으며, 이미출판된서열들은 GenBank 에축적되어나간다. 넷째, 매우적은양의시료에서도결과를얻을수있다. 분류학에서많이이용하고있는동위효소분석이나이차대사산물분석등의실험은매우많은시료가필요하며, 특히연구대상이멸종위기종인경우많은제약이있을수있다. DNA 서열자료의경우극소량으로추출된 DNA 는 PCR 에의해증폭이이루어진후염기서열이결정되기때문에매우적은양으로도결과도출이가능하다. 다섯째, 실험결과가광범위한분류군에적용될수있다. 예를들어전체피자식물의계통을다루는상위범주들의연구에있어서는진화속도가느린유전자를선택할수가있고, 각각의종및종하범주를대상으로한연구는진화속도가빠른유전자또는유전자들사이의염기서열 (intergenic spacer) 을이용할수있다. 일반적으로 DNA 염기서열결정방법에의한계통수제작과정은다음과같다. 1) 연구대상의설정 : 연구대상은다른연구에의해단계통군 (monophyletic group; 계통수상에서하나의절내에속하는모든분류군들 ) 임이밝혀진분류군을선정하는것이가장이상적이다. 연구의실제대상 (ingroup) 과비교를위한외군 (outgroup) 을설정한다. 연구대상분류군내에서는세부분류군들을잘대변해주는적당한수의분류군을설정하고, 자매군 (sister group; 최근에분지된분류군 ) 이라고알려져있는분류군을설정한다. 예를들어목련과 (Magnoliaceae) 식물의계통학적연구를할때목련과에서지금까지발표된각각의아속또는절에해당하는식물들을선별하여 100 여개의시료를준비하고, 외군으로는다른연구에의해목련과와가장가깝다고알려져있는아노나과 (Annonaceae) 에서 3 종
116 PRIME 산업연계교육활성화선도대학사업 을선정한다 ( 그림 7.12). 이때전체분류군수는 100 개의내군과 3개의외군이된다. 2) 적당한변이를갖는유전자구간을선별 : 너무느리게진화하는 DNA 염기서열구간은아무런계통학적정보를제공하지못한다. 예를들어히스톤 (Histone) 유전자는목련과의모든종에서똑같은염기서열을보이리라고예상된다. 너무빠르게진화하는 DNA 염기서열구간은계통학적정보를제공하는염기서열의변화가중복적으로일어날수있어적당한 ( 내군에서염기서열변이약 20% 이하 ) 속도로진화하는유전자를선택해야한다. 일반적으로계통학적연구에많이사용하는유전자또는 DNA 구간은엽록체에서는 rbcl, 그림 7.12. 계통연구대상의설정. 목련과 (Magnoliaceae) 내의계통연구를위해서는외군인아노나과 (Annonaceae) 식물을같이분석해야한다. matk, ndhf 등의유전자와 trnh~psba, tnrl~trnf와같은유전자들사이구간 (intergenic spacer) 들이며, 핵유전체에서는 rdna 반복단위 (repeating unit) 의 ITS (internal transcribed spacer)1 과 ITS2 구역등이다. 3) 각각의분류군에대한해당유전자염기서열결정 : 그유전자에대한특이적인프라이머셋을이용하여 Sanger 방법에의해각각의염기서열을결정한다. 보통정방향과역방향의염기서열을모두결정하여서로비교하여야결과의신뢰도를높일수있다. 4) 결정된염기서열들의정렬 : CLUSTALX 등의정렬프로그램을이용하여정렬한다. 염기서열들을분류군들간에비교하려면우선정렬 (alignment) 의과정을거쳐야한다. 정렬은상동 (homologous) 의비교대상을설정해야한다. 원숭이와사람을비교할때사람의팔은원숭이의팔과비교해야지사람의팔과원숭이의발을비교하면오류가발생한다. 이것이바로데이터의정렬이다. 5) 정렬된데이터를이용한계통분석 : 여러가지계통분석을위한이론들이개발되어있지만이들중가장핵심이되는방법은파시모니 (parsimony; 이후설명 ) 이다. 하나의데이터에대하여특정형태의계통수가있다면이계통수상에서형질의변화가몇번이루어지는지알수있다. 이들형질의변화 step 을최소화하는계통수를최적의계통수로선정할수있다 ( 이후설명 ). 7.1.5. 무근계통수와유근계통수 계통수를작성하는원리는뒤에서자세히알아보겠지만, 계통수의도출에있어서대부분의방법에서먼저무근계통수 (unrooted tree; tree network; 그림 7.13b) 가먼저만들어진다. 이후무근계통수에뿌리 (root) 를설정하면, 비로소계통수의가지 (branch) 와말단절 (terminal node), 내부절 (internal node) 들