One of examples for comparing haracter-based Method and Distance-based Method 순서가있는형질에있어서의계통추론을위한두방법의비교참조 : Rordford et al. (1986) 의 Phenetics vs. Phylogenetics 에잘설명되어있음 ( 웹사이트에올려져있음 ) When the character is ordered, we can make phylogenetic tree using the following method - ordered: 0 1 2 haracter-based method: Maximum Parsimony (MP) 1) Make distance matrix 2) hoose minimum distance from N
3) Set HU1 and find minimum-distanced taxa from HU1 c.f.) HU (Hypothetical axonomic Unit): 가상분류단위. 계통분석을할때두 OU 들의분지점에위치하는가상적인분류군을선정하여이분류군의형질상태를가정하여분석에이용한다. OU (Operational axonomic Unit): 분석을위한기본단위. OU 는종이될수도있고, 속이될수도, 개체가될수도있다. 분류학에있어서 taxon ( 분류군 ) 과비슷한개념인데, OU 는수리분류학에서사용하는용어이다.
4) Reconstruct character status of HU1 and add HU1 in the matrix and distance table
5) Set HU2 and find minimum distanced taxa again and repeat 3)~4). 6) Now we got a tree and we may reconstruct character evolution. here are two different optimization method: DELRN (DElayed RNsformation) 방법에의한형질변화위치설정최적화 : 같은값의변화가있을때되도록이면이변화를계통수의끝 (terminal) 에위치시킴 RN (elerated RNsformation) 방법에의한형질변화위치설정최적화 : 같은값의변화가있을때되도록이면이변화를계통수의기부 (base) 에위치시킴 DELRN 보다는 RN 이일반적인방법임.
Distance-based Method: neighbor joining (NJ), UPM fast and easy 1) alculate coefficient of overall similarity whatever the method is. 2) hoose the most similar pair and link them
3) ombine two taxa and named P. UPM 4) alculate similarity between P and others 6) Repeat 2), 3) 4). 같은 matrix 를갖고, character-based method (parsimony) 와 distance-based method (UPM) 로계통수를작성하였는데, 같은 matrix 임에도불구하고다른두방법으로부터도출된계통수는서로다르다. 분석의성질을잘파악하고이에맞는분석방법의선택이필요
onsensus ree ( 종합수 ) - 같은가능성의다른위상을갖는여러개의계통수를갖고있을때이들의정보를종합할필요가있다. 여러가지다른위상의계통수를종합한계통수를 consensus tree ( 종합수 ) 라고한다. 특히 parsimony 분석에있어서분석의결과흔히여러개의 equally parsimonious tree 들이생성되는데, consensus tree 를만들어전체분석을종합할수있다. - Strict consensus tree: tree 들의 topology 들이서로 conflict ( 상충 ) 하는경우 polytomy ( 다분지 ) 를만들어줌. - 50% majority rule consensus tree: 서로다른 topology 들중하나를선택함에있어서다수결의원리를따른다.
- semistrict consensus tree: 분해된 topology 를갖는 tree 와 polytomy 를비교시에는 정보 를갖는분해된 topology 를따른다.
ree confidence 1) Bootstrapping 2) Jackknifing 3) Decay analysis ree confidence ( 계통수내의절들의신뢰도 ): ree 의 clade 들이얼마나정확한가를보여주는수치들 - 계통분석을하여하나의 tree 를얻어내는것이분석의끝이아니라얻어진 tree 내부의각각의 clade 가얼만큼신뢰할수있는 clade 인가를인식하여야한다. 신뢰도가낮은 clade 는아무런의미가없다. - 일반적으로 clade 의신뢰도는 bootstrap 법으로계산한다. - Bootstrap 법은통계학적기법으로원자료를일정법칙에따라변형시킨 pseudo-matrix 를만들어서이를분석하여원자료에의한결과와같은 clade 를형성하는지확인하는것이다. 이때반복적으로또다른 pseudomatrix 를만들어이들을분석하여특정 clade 가전체 pseudo-matrix 들중몇 % 에서여전히존재하는지를나타낸것이다. - Pseudo-matrix 를만드는방법은예를들어 10 개의형질이있다면형질번호인 10 번까지의숫자를무작위로추첨하여 ( 반복추첨가능 ) 추첨된 10 개의번호에대한형질들을모아 matrix 를만듬 100% 66.6%
Jackknifing 분석은 bootstrapping 과동일한개념으로수행되는데, pseudo-matrix 대신전체 matrix 의일부 ( 예를들어 80%) 만을취한 sub-matrix 를만드는것이다. Jackknifing 1 2 3 4 5 6 B D E Original matrix 1 3 4 6 B D E 1 2 3 4 B D E 3 4 5 6 B D E Submatrix 1 Submatrix 2 Submatrix 3 ree 1 ree 2 ree 3 각각을분석후 original matrix 에의한결과와비교하여여전히지지되는 clade 들의 % 를구함 ree confidence 1) Bootstrapping 2) Jackknifing 3) Decay analysis
ree confidence 1) Bootstrapping 2) Jackknifing 3) Decay analysis 256 steps: 1 tree 257 steps: 5 trees 258 steps: 83 trees 259 steps: 345 trees Decay analysis D1 Recognize collepsed node Strict consensus tree D2 D3 Parsimony 분석시 256 step 의 tree 가 1 개이고, 257 step 의 tree 가 5 개, 258 step 의 tree 가 83 개 등으로나타날때, 257 step 의 tree 5 개에대한 strict consensus tree 를만들어보면가장좋은 tree 인 256 step 의 tree 에비하여 node 들이 polytomy 를형성할때 (collepse 됨 ) 이를 D1 으로정의한다. 마찬가지로 D2, D3 등으로 clade 들의신뢰도를나타내게된다. D89 D1 D1 D3 D2 D6 D8 D4 D1 D1 D1 D12 D1 D1 D2 D2 D5 D2 D4 Michelia cavaleriei M. pealiana Michelia baillonii Michelia champ Michelia odora Michelia figo E.ovalis Michelia cathcartii M. elegans D2 D4 M. biondii M. kobus D5 M. dawsoniana M. campbellii M. denudata M. cylindrica M. acuminata M. sinica D2 Pachylarnax praecalva M. nitida M. panamensis M. virginiana M. tamaulipana M. grandiflora M. guatemalensis Kmeria duperreana Kmeria septentrionalis Manglietia grand D1 D3 Manglietia aroma Manglietia conifera Manglietia glauca D4 M. officinalis D2 M. tripetala D6 M. sieboldii M. wilsonii D2 D8 M. fraseri var. fraseri M. fraseri var. pyramidata D4 M. macrophylla M. dealbata D1 M. coco M. gigantifolia D8 M. henryi D1 M. pterocarpa M. liliifera D1 M. splendens D10 M. mexicana M. dodecapetala Liriodendron chinense Liriodendron tulipifera
Maximum likelihood method: - 통계학에기반을둔방법 -site 당염기가진화할수있는모든확률의합을계산하고이를모든 site 에서계산하여합친값을최대화한하나의가능성을찾아내는방법 - long branch attraction 을줄여줄수있는방법으로제시됨.
Long Branch ttraction 긴가지친화현상 Homoplasious characters (parallelisms) B B Homoplasious character rue Phylogeny: 21 steps ree enerated by Parsimony nalysis: 20 steps Long-branch attraction 이란계통수형성에있어서 terminal node 들이매우긴 tree 들은논리적으로정확한이론에의한계통수작성법에도불구하고간혹틀린계통관계를산출해낼수있다는것이다. 이것은 DN 의형질상태가 4 개밖에되지않아서가지가길어지면계통적연관관계가없는데도불구하고같은형질상태를나타낼수있기때문이다.
Who can minimize long-branch attraction? 지금까지많은학자들이 long-branch attraction 을줄일수있는계통분석법을개발하려고노력하였고, 각각의방법을 computer simulation 에의해평가해본결과 Kimura s two parameter 를탑재한 maximum likelihood 법이그중가장전반적으로 long-branch attraction 을줄여줄수있는방법으로제시되고있다
How can we get good alignment and good phylogenetic tree? ood alignment ood phylogenetic tree 지금까지우리는자료를정렬 (alignment) 하는법과정렬된자료를이용하여계통수를작성하는법을공부하였다. 그런데, 자료를보다정밀하게잘정렬하려면분류군간의계통관계를알아야하고, 좋은계통수를작성하려면좋은 alignment 를이용해야하는순환논리에직면하게된다. 이를해결하려면최초정렬후분석후이결과를이용하여다시자료를정렬하고정렬된결과를이용하여계통수를다시그리는순환반복을수행할때더좋은계통수를얻을수있게된다.
ree of Life Project(oL): 전세계생물종간의계통관계를집약하여정리하는국제콘소시엄 (http://tolweb.org/tree/) KoL: Korean ree of Life http://www.youtube.com/watch?v=h6iruudbozo
ME program 실습 참조 : Phylogeny Programs: Washington Univ. 염기서열변이측정, 계통수계산, 통계적검증, 계통수그리기등모든 DN 계통, 진화정보연구를위한프로그램이종합되어있음.
align 된 sequence 의 interleaved form 이란? align 한 sequence 를길게한줄로배열하면한번에보기어려움으로예를들어 100bp 씩한줄로배열하면한눈에전체 alignment 를볼수있다. 이때각각의줄에는분류군의이름을반복적으로넣어준 alignment 형식을 interleaved form 이라고한다. 일반 align form BBBBBB DDDDDD Interleaved form BBBBBB DDDDDD BBBBBB DDDDDD ME 에서 algin 된 sequence 를 text 형식의 interleaved form 으로출력하려면? ME 의 "Sequence Data Explorer" 화면에서 D -> Export Data 로들어가서 format 은 ME 로, "interleaved Output" box 를체크하고 Site per line 을설정해주고 ( 일반적으로 60~100 사이의숫자입력 ) OK 클릭하면됨.