系统发生树
系统发生树
(英文:Phylogenetic tree)又称为演化树(evolutionary tree),是表明被认为具有共同祖先的各物种间演化关系的树。是一种亲缘分支分类方法(cladogram)。在树中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间)。
中文名:系统发生树
别 称:演化树
属 于:亲缘分支分类方法
目录
简介
系统发生树(英文:phylogenetic tree或evolutionary tree)是表明被认为具有共同祖先的各物种相互间演化关系的树,又被译作系统发育树、系统演化树、系统进化树、种系发生树、演化树、进化树、系统树。 它用来表示系统发生研究的结果,用它描述物种之间的进化关系。
种类
根据有根和无根来区分:
树可分为有根树和无根树两类。有根树是具有方向的树,
包含唯一的节点,将其作为树中所有物种的近的共同祖先。最常用的确定树根的方法是使用一个或多个无可争议的同源物种作为外群(英文outgroup),这个外群要足够近,以提供足够的信息,但又不能太近以至于和树中的种类相混。把有根树去掉根即成为无根树。一棵无根树在没有其他信息(外群)或假设(如假设最大枝长为根)时不能确定其树根。无根树是没有方向的,其中线段的两个演化方向都有可能。
基因树和物种树:
基于单个同源基因差异构建的系统发生树应称之为基因树。因为这种树代表的仅仅是单个基因的进化历史。而不是它所在物种的进化历史。物种树一般最好是从多个基因数据的分析中得到。例如一项关于植物进化的研究中,用了100个不同的基因来构建物种树,因为进化是发生在生物体种群水平上的,而不是发生在个体水平上的,虽然表面上不需要更多的数据,但实际上还是有必要的。基因树和物种树之间的差异是很重要的,如果只用等位基因来构建物种数,那许多人和大猩猩就会分到一起,而不是和其他人分到一起。
释义
系统树是一种分支图(英文cladogram)。在树中,每个节点代表其各分支的近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间)。
系统发生树有时也称系统树图,它是由一系列节点和分支组成的。其中每一个节点代表一个分类单元,分支末端的节点对应 一个基因或者生物体。与外部节点对应,内部节点代表一个推断出的共同祖先。系统发生树结构的基本信息在计算机程序中常常用一组嵌套的圆括号表示,成为newick格式。
树的算法
利用SSU rRNA绘制的系统演化树,三个最大分支(域)分别为细菌、古菌和真核生物。
非加权分组平均法:UPGAM(Unweighted pair group method with arithmetic mean)
矩阵法:邻接法 neighbor-joining (NJ)
简约法:最大简约法 maximum parsimony (MP)
似然法:最大似然法 maximum likelihood (ML)
后验概率法:贝叶斯法 Bayesian
构建方法
要构建一个进化树(phyligenetic tree)。构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离法(distance methods)。所谓独立元素法是指进化树的拓扑形状是由序列上的每个状态决定的,而距离法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法(MP)和最大似然性法(ML);距离法包括非加权分组平均法(UPGMAM)和邻接法(NJ)。
构建数据
用于构建系统发生树的数据分为两类:特征数据(存在有限不同状态的特征)和距离数据(两个数据之间所有两两差异的衡量)。一旦建立了确定所有可能状态之间相似性的标准,特征数据就很容易转换成距离数据。
评估方法
对进化树进行评估,主要采用Bootstraping法。进化树的[[[构建]]是一个统计学问题,所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说,最大简约性法适用于符合以下条件的多序列:i 所要比较的序列差别小,ii 对于序列上的每一个点有近似相等的变异率,iii 没有过多的颠换/转换的倾向,iv 所检验的序列的数目较多;用最大可能性法分析序列则不需以上的诸多条件,但是此种方法计算极其耗时。如果分析的序列较多,有可能要花上几天的时间才能计算完毕。UPGMAM假设在进化过程中所有点都有相同的变异率,也就是存在着一个分子钟。这种算法得到的进化树相对来说不是很准确,2013年已经很少使用。
邻接法是一个经常被使用的算法,它构建的进化树相对准确,而且计算快捷。其缺点是序列上的所有位点都被同等对待,而且,所分析的序列的进化距离不能太大。另外,需要特别指出的是对于一些特定多序列对象来说可能没有任何一个现存算法非常适合它。
可靠性
在距离法中,连锁聚类方法比较简单,非加权分组平均法比较实用,当使用的距离数据是来源于多个基因的分析结果时,利用非加权分组平均法能得到可靠的系统发生树。对于离散特征分析方法,如果序列趋异程度较小,最大简约法是一种较好的系统发生树构建法。但是,在不同世系间进化速率相差较大,并且在进化速率恒定而树的分支很短的情况下,最大简约法并不能对一个真正的系统发生树作出始终一致的判断。 对于所构建的系统发生树,统计分析的误差可能会影响所建树的可靠性。无论是基于距离的系统发生树重建方法,还是基于特征的系统发生树重建方法,都不能保证一定能够得到一棵描述比对序列进化历史的真实的树。大量的模拟实验可以比较这些建树方法的统计可靠性,模拟的结果总结如下:一般地,对于某个数据集,如果用一种方法能推断出正确的系统发生关系,则用其它流行的方法也能得到较好的结果。但是,如果模拟数据集中序列的变化很大,或不同的分支变化速率不同,则没有一种方法是十分可靠的。总规则是,用截然不同的距离矩阵法和简约法分析一个数据集,如果能够产生相似的系统发生树,那么,这样的树可以被认为是相当可靠的。 在实际应用中,评价一棵系统发生树的可靠性,这涉及两个问题,即整棵树和它的组成部分(分支)的置信度是多少?这样得到正确的树的可能性比随机选出一棵是正确的树的可能性大多少?有很多方法解决这两个问题,自举法(bootstrapping)的有效重采样技术已成为解决第一个问题的主要方法,而对两棵树进行简单的参数比较则是解决第二个问题的典型方法。
视频