by Tom Dingyan Zhang
一、引言
对于2020年横空出世的iCAMP包1,相信大家都不陌生。其具有先进的算法、逻辑和强大的预测性能,也让环境微生物群落学向前迈进了一大步。目前大家已经对基于系统发育β多样性的零模型都有比较完整的理解,但是iCAMP的算法基于了什么样的底层逻辑,这样的算法有什么理论基础和支持,参数是如何选择、优化的,在不同条件的表现性能怎么样,这些方面也应该得到较为详尽的解析,这样我们才能对iCAMP这一套核心的算法有更深层次的理解。本文提供基础知识内容,之前我们写过一篇博文是R语言可视化,需要的同学可跳转交流学习扩增子测序|iCAMP包——基于系统发育零模型分析确定性和随机性在群落构建过程R中实践
二、算法和参数优化
2.1 系统发育分箱(binning)
分箱是根据系统发育距离而定的,其阈值设定在ds=0.2,因为在这一数目之内,微生物生态位偏好的系统发育信号在多种环境中都发现非常显著。
图1 分箱算法的原理和模拟预测性能
分箱算法一共有三种,分别是中心算法(Centroid)、成对算法(Pairwise)和树算法(Tree)。
中心算法和物种丰度有关。在计算前首先监测丰度较高的物种,这些物种将作为bin的中心,之后,与其系统发育距离较近的物种将被分到这个bin内。
而成对算法则基于了配对距离。bin1包含了丰度最高的物种,与其距离较近的物种被归类到这个bin内,之后,剩余的bin也按照这个规律划分,直到所有的物种都被归类至bin内。
与前面两种方法不同,树算法不考虑丰度,仅考虑系统发育距离,原理也更好理解。具体做法,既是界定ds,在这一长度砍一刀,将树分成不同的“枝条”,每一个枝条包含的物种,代表着系统发育程度最近的物种,它们组成一个bin。
需要注意的是,当一个bin所含有的物种数目过少时,它无法提供充足的系统发育信息,从而会被并到更大的bin内。
之后的模拟实验测试获得了三种算法在高、中、低三种系统发育信号下的预测性能。可见,三种算法的性能差异并不是非常大。但是在中低信号条件下,树算法的性能还是略优于前两种算法。考虑到在实际的生态环境中,微生物群落大多表现出中或低的系统发育信号2,因此,iCAMP模型采用系统发育树算法来进行分箱。
2.2 bin中的最小物种数(Minimal bin size)
界定每个bin中含有的最小物种数是为了保证每个bin中都能提供充足的信息,从而保证后面步骤分析的准确性。当bin太小时,系统发育信息提供得太少;但当bin过大时,一个bin中的内部系统发育距离差距会非常大,这可能导致系统发育信号无法被有效维持。于是,模拟实验测定了不同bin size下iCAMP模型在高、中、低三种系统发育信号下的表现性能。
图2 iCAMP在不同bin size时的模型性能。左图是模型的准确度,右图是信号强度。
由图可得,在nmin=24的时候,iCAMP模型显示出最高的精准度(左图),以及,所有bin中都检测到显著系统发育信号(蓝色条形图,100%最好)和足够强的bin内部信号(橙色折线图,一般认为R>0.10便足够)。综上可以得到,当bin的最小物种数设定为24时,iCAMP模型表现出的效果最好。
2.3 系统发育指标的选择
在先前的研究中,科学家基于βMNTD(beta Mean Nearest Taxon Distance)得到βNTI(beta Nearest Taxon Index),之后用该指数大小来区分群落组装中的随机过程和确定性过程,这一框架被称为QPEN (Quantifying assembly Processes based on Entire-community Null model analysis),即基于整体群落零模型分析量化组装过程3,4,而iCAMP这一新框架并未选择采用这一指数,它采用了βNRI(beta Net Relatedness Index),而这个指数是基于βMPD (beta Mean Pairwise Distance)所得到的5。βNRI阈值在±1.96,绝对值大于1.96则认为是选择作用,小于1.96则认为是随机过程。
为什么采用这个值作为分类依据?
首先我们可以看到模拟实验的预测性能,当以βNRI作为iCAMP的系统发育指标时,其表现是更好的。而这是因为,βNRI所包含的信息比βNTI更多。这两者分别由βMPD和βMNTD计算得到,而βMPD所得到的是所有物种的平均成对系统发育距离,但是βMNTD只包含了系统发育距离最近物种的距离。因此,当跨树的系统发育信号越强,βNRI的优势就愈发明显。
图3 βNTI和βNRI分别作系统发育指标时,iCAMP的模型预测性能
2.4 随机化方案的选择
在零模型中,随机化是非常重要的一步。在QPEN这一框架中,基于系统发育的零模型用以推断选择过程,而基于丰度的零模型用以识别随机过程。基于系统发育的随机化会通过随机改变物种在系统发育树上的位置来获得系统发育β多样性指数的零分布,基于分类学的随机化则会通过随机改变物种的丰度来获得分类学β多样性指数的零分布。
而在iCAMP中,我们将会考虑在bin之内以及在bin之间进行打乱,来识别不同类别的群落组装过程。那么,bin之内和bin之间的随机化模型应该如何选择呢?
图4 选择不同随机化方法后得到的iCAMP性能
结果显示,当bin之内随机化采用系统发育零模型,bin之间随机化采用分类学零模型时,iCAMP模型有最好的预测性能。综上所述,βNRI应该根据bin内部的随机化计算,而用于识别随机过程的RC指数要根据bin之间的随机化来评估。
2.5 随机化次数
零模型分析需要足够的随机化次数来评估零值分布,而iCAMP也是如此。当随机化次数过少时,零模型的预测性能与实际的偏差很大,同时得到的结果没有可重复性;当随机化次数过多时,会耗费很多时间和内存。由图5可得,当随机化次数达到1000时,所有过程的占比与实际值的预测偏差都降到很低,在1000之后,对偏差的控制效果基本不变。因此,1000次被认为是最佳的随机化次数。不过,当物种数非常小(<2000)时,随机化200次也被认为是可行的。
图5 预测偏差与随机化次数的关系图
2.6 应该保留的物种数
除了随机化次数之外,测序所得到的样本本身大小也是一个重要的考量因素。当测序得到的OTU数目非常庞大时,模型的运行也是一件很耗时的事儿。此外,相对丰度较低的类群可能还会带来更多的噪声。因此,在iCAMP分析之前,可能要先进行数据集的削减。比较了三种削减法,包括经典稀释(rarefaction)、基于样本平均相对丰度的削减(Average Abundance cut)和基于每个样本的累积丰度的削减(Cumulative Abundance cut)。
图6 不同削减方法和程度下模型性能的比较
在不同的削减方法下,可以发现,在定性角度,数据集经过削减后,得到的群落组装过程与原先的差异还是很大(大概10~20%)。这也反向说明了,为了能够准确分析群落的组装过程,测序的深度应该足够深,得到足够的OTU数目,才能获得较好的结果。因此,文章最后得出的结论是,在非必要的情况下,不建议对原数据进行削减,除非必须进行去噪。而为了解决iCAMP样本量过大带来的内存问题,”big memory”函数将派上用场,这个函数可以在模型分析时有效利用硬盘的空间,使得一般的个人电脑也能在物种数目较多的情况下,分析得到最终的结果。
三、iCAMP模型对每个复杂bin中群落组装进行分析时表现的鲁棒性
iCAMP除了能够对整个群落的组装机制进行分析外,还能够分析单个bin中每种过程的相对贡献,或者分析单个bin对群落某种过程的相对贡献。
我们先对图7进行详细分析,看看每一步都算了什么又是怎么算的。首先我们进行binning,得到样本点中每个bin的相对丰度,之后我们进行样本点的成对比较,得到每个bin的系统发育指数即βNRI,之后可以得到每个bin在不同样本对中的主导过程。
图7(c)计算了不同样本对中各个组装过程的相对贡献。某一过程的百分比相当于对应bin的相对丰度加和再除以2,这其实可以看成一种加权平均。
图7(d)计算的是整体群落中,不同的组装过程对每一个bin的相对贡献。同样也是利用了加权平均的思想。其结果等于某过程对应bin的相对丰度加和,除以bin在所有样本对中的相对丰度加和。
图7(e)计算每个bin对群落组装过程的贡献。
图7(f)则是将(e)的结果进行一定处理,得到每个bin对群落整体组装过程的相对贡献。
图7 iCAMP对群落组装过程的定量计算步骤
在得到这些值之后,我们可能会想到一个问题:一个bin的尺寸说小也不小,里面所有的物种都保证只被同一种过程控制吗?
这个问题的答案当然是否定的。然而iCAMP所能分析到的尺度也只能是判定控制每个bin周转的主导过程。当一个bin中的控制过程变得复杂(2个及以上),并且这种复杂的bin占比越来越多的时候,iCAMP对于过程预测的表现力会明显下降。
图8 在低、中、高系统发育信号下,不同bin size和ds对应的复杂bin的占比及iCAMP、QPEN预测性能一览
由图8可以得,尽管复杂bin的比例增加使得iCAMP的性能下降,但是其预测的性能还是明显优于QPEN。这表明iCAMP还是能够在一定程度上获得更好的结果。
同时,对于复杂的bin,我们除了考虑bin内组装过程的复杂度,还需要考虑复杂的选择作用。同样是选择作用,却可能对群落施以不同效果的力量。
图9 内部选择作用的概念图
系统发育密切相关的物种在生态学上更相似,因此它们在非生物环境选择中的共存率可能比预期的要多6。此时环境的过滤作用会让群落更加趋向同质化,这便是同质选择。但是由于这些被选择的生物的生态位相近,当环境选择来临时,它们之间的竞争会更大,这会导致群落往异质化的角度发展。此时,两种选择作用导致的结果不一样,便会使iCAMP的预测性能降低。
为了研究这个问题,该研究模拟出了具有不同竞争比例的群落,对比了三种信号下iCAMP和QPEN在不同竞争程度下的预测性能。
图10 在不同系统发育信号强度下,iCAMP和QPEN预测不同竞争强度群落组装过程时表现出的性能
结果显示,无论是在群落水平还是在bin水平,iCAMP的性能虽然会随着竞争比例升高而下降,但还是优于同条件下的QPEN。
四、跨越bin的选择作用(Cross-bin selection)
在研究完bin内的选择作用后,我们还要考虑一个问题便是作用在bin之间的选择。这可能会是群落组装过程中的重要一环。不同bin之间的强竞争有助于群落结构的形成。但是,由于iCAMP建立在bin内的β多样性基础之上,因此iCAMP是否能够捕捉到有效的bin间选择信息还是一个问题。在这里,研究假设强大的bin间选择作用不仅导致bin之间出现差异,也会导致bin的内部结构发生改变。
这一假设其实具有理论基础。首先,iCAMP所分出的一个bin,并不是简单的一小群生态位偏好相似的微生物物种。相反,由于分箱意味着足够的系统发育信号,每个bin其实可能包含来自不同种属的微生物,其功能、生态位、形状存在着明显差异。因此如果bin之间具有强大的交互作用,或者外界环境有巨大的选择作用,则同一个bin之中的不同成员,也应该作出不同的响应。而这些响应和随机模式不同,理应被iCAMP所监测到。
第二个理论基础便是,当相对系统发育距离阈值较短时,才会检测到显著的系统发育信号。那么,如果跨bin的选择只导致bin内部的改变发生在发育阈值之内,那么其影响应该小于bin内部的选择,仅在某些条件下重要。在一般情况之下,它可以忽略。
换言之,跨越bin的选择作用,要么就是能被显著监测到的,要么就是无关紧要的。
模拟实验进一步证明了假设。在仿真的群落中,竞争和环境过滤在整个群落中发生,而不是特定的bin内。但是在所有情况下,跨越bin的选择作用和bin之间的竞争都很常见。iCAMP在这一模拟实验中仍然表现出很强的定量能力,证明其能够检测到重要的跨越bin的选择作用。
但是,在某些特殊情况下,当跨越bin选择非常重要,但是却无法导致bin内部差异时,iCAMP可能会在分析时,低估选择这一作用的重要性。这就需要更加先进的分箱方法来解决这一问题。在之后的研究中,团队将开发基于功能相似性的分箱方法和网络分析工具,进一步解决现有的挑战。
五、参考文献
1. Ning, D. et al. A quantitative framework reveals ecological drivers of grassland microbial community assembly in response to warming. Nat. Commun. 11, 4717 (2020).
2. Goberna, M. & Verdú, M. Predicting microbial traits with phylogenies. ISME J. 10, 959–967 (2016).
3. Stegen, J. C., Lin, X., Konopka, A. E. & Fredrickson, J. K. Stochastic and deterministic assembly processes in subsurface microbial communities. ISME J. 6, 1653–1664 (2012).
4. Stegen, J. C. et al. Quantifying community assembly processes and identifying features that impose them. ISME J. 7, 2069–2079 (2013).
5. Fine, P. V. A. & Kembel, S. W. Phylogenetic community structure and phylogenetic turnover across space and edaphic gradients in western Amazonian tree communities. Ecography 34, 552–565 (2011).
6. Goberna, M., Navarro‐Cano, J. A., Valiente‐Banuet, A., García, C. & Verdú, M. Abiotic stress tolerance and competition‐related traits underlie phylogenetic clustering in soil bacterial communities. Ecol. Lett. 17, 1191–1201 (2014).
六、相关信息
!!!本文内容由小编总结互联网和文献内容总结整理,如若侵权,联系立即删除!
!!!有需要的小伙伴评论区获取今天的测试代码和实例数据。
📌示例代码中提供了数据和代码,小编已经测试,可直接运行。
以上就是本节所有内容。
如果这篇文章对您有用,请帮忙一键三连(点赞、收藏、评论、分享),让该文章帮助到更多的小伙伴。