古脊椎所提出新的形态钟模型改善鸟类演化分异时间和演化速率估计
自Zuckerkandl和Pauling提出分子钟假设以来,分子钟模型成为定年演化事件的基础。最早的分子钟假设为严格分子钟,即演化速率在树上各个类群之间恒定不变。严格分子钟通常只适用于近缘的类群。为了解释演化速率在时间上和类群间的差异,多种宽松分子钟模型被提出来,并被广泛应用于估计分异时间和演化速率。在古生物学中,对应的模型被称为形态钟模型,用于描述形态特征的变化而非核苷酸或氨基酸的替代,但是基本的模型假设并未改变。这些宽松钟模型可大致分为两类:一类为独立速率模型,即各个树枝上的演化速率彼此独立,它们通常被假设服从独立同分布的对数正态 (ILN) 或伽马 (IGR) 分布。和IGR模型稍有不同,白噪音 (white noise [WN]) 模型假设独立伽马分布的方差正比于枝长。另一类为自相关速率模型,即后代树枝上的演化速率所服从的分布的均值为相邻祖先树枝上的速率。其中几何布朗运动模型假设这些速率服从自相关的对数正态分布 (ALN)。
在定年的分析中,演化速率所服从的模型通常是被预先选定的。比较不同模型的分析往往是单独进行的。在贝叶斯统计学中,模型选择和模型平均都可达到此目的。模型选择通过估算每个模型的边际似然值 (marginal likelihood),然后用它们来计算贝叶斯因子 (Bayes factor),从而决定哪个模型最匹配数据。边际似然的估计通常采用路径抽样 (path sampling [PS]) 或步石抽样 (stepping-stone sampling [SS]) 算法。模型平均则通过可逆跳跃马尔可夫链蒙特卡罗 (reversible-jump Markov chain Monte Carlo [rjMCMC]) 算法在各个模型间转换,同时估计每个模型的后验概率以及对应模型中参数的后验概率。rjMCMC在计算时间上比PS或SS快得多,可同时比较多个模型并均一化模型间的不确定性;不过rjMCMC需要仔细地设计以达到良好的效能。
本研究中,中科院古脊椎所张驰副研究员设计了一个rjMCMC算法用于平均ILN和IGR这两个独立速率模型。该算法利用两个模型假设的相似性,通过直接匹配模型间树枝上的速率,并线性匹配模型间分布的方差,来实现模型的跳跃。在估计ILN和IGR的后验概率的同时,该模型平均方法也估计了分异时间和演化速率。为了和ALN这个自相关速率模型进行比较,则使用SS来估计ILN,IGR和ALN的边际似然值。
本研究首先通过计算机模拟来验证新的rjMCMC算法能够正确工作。随后,该rjMCMC算法被用于分析中生代鸟类的形态特征矩阵,运用贝叶斯支端定年法估计分异时间和演化速率 (图1)。和先前使用WN模型的分析 (Zhang and Wang 2019) 相比,平均化ILN和IGR模型能够提高分异时间和演化速率的估计精度。模型比较的结果表明,ILN模型比IGR模型更适配数据 (后验概率Pr[ILN] = 0.6),并远优于ALN模型。进一步地,通过对特征矩阵按照不同骨骼部位进行分区,该分模块的模型平均方法得到和未分模块的分析一致的分异时间估计,一致性好于使用WN模型的结果 (图2)。其中,ILN模型最适配肩带和胸骨特征 (Pr[ILN] = 0.98),而IGR模型最适配后肢特征 (Pr[IGR] = 0.83)。这些结果是对先前分析的完善和改进,其生物学意义仍遵从前篇文章(“贝叶斯方法推断中生代鸟类分化时间和特征演化速率的新进展”https://doi.org/10.1098/rsos.182062 http://www.ivpp.cas.cn/xwdt/kyjz/201907/t20190730_5353381.html),即鸟类在演化早期形态特征经历了快速的变化,这些变化和鸟类飞行能力的产生和完善密切相关。
平均ILN和IGR宽松钟模型的rjMCMC算法由张驰编写于MrBayes软件最新的开发分支 (https://github.com/NBISweden/MrBayes)。具体使用方法参考文章中“软件实现”部分。文章还讨论了算法的效率以及后续可能的改进。本研究虽然只分析了中生代鸟类一组代表性数据,这一算法普遍适用于不同生物类群以及节点或全证据定年分析,是贝叶斯定年研究中的一般性方法。
本研究发表于杂志《古生物学》(Paleobiology)。本研究得到中科院项目的资助。
论文链接:https://www.doi.org/10.1017/pab.2021.42
图1: 贝叶斯支端定年分析得到的中生代鸟类的时间树和特征演化速率
图2: 鸟类演化早期五个关键节点的分异时间和演化速率