苏晓泉、徐健-基于大数据引擎的全球微生物组转化网络

科技工作者之家 2021-07-23

这里,j∈h_k表示邻居j的栖息地是h_k(1≤k≤m)。然后将具有最高概率P的预测栖息地作为样本a的预测结果。

网络中所有样本之间的转化概率

通过方程4,我们计算出在全球范围内,微生物群组成因栖息地而异,并且同一栖息地之间的转化概率为89.28%(图2B)。为了计算转化网络中连接所有栖息地的整体概率,我们可以从连接概率为P_transition (n=2)=1-89.28%的任意两个栖息地开始。当网络中再增加一个栖息地时,三个栖息地之间的转化概率可以计算为P_transition (n=2)×(1-89.28%^2),其中89.28%的平方代表增加的栖息地与前两个栖息地之间没有直接转化的概率。那么我们可以扩展这样一个过程来估计连接转化网络中n个栖息地的概率为

微生物组网络的传递闭包算法

微生物组转换网络中,闭包是完全连接的节点(微生物组)的子集,因此每个微生物组都可以通过直接或间接转化(具有有限的转移节点)与任何其他样本相连。闭包可以由网络中的任意节点初始化,然后通过添加更多与该闭包直接连接的外部节点进行扩展(图S6)。如果两个或多个闭包通过任何边连接,这些闭包也可以合并为一个闭包。通过在网络G中所有节点之间的遍历,我们得到了一个包含98.31%样本的主闭包C。

微生物组网络的大小

在主闭包C中,两个间接连接的节点(微生物组)之间总是存在多条路线。我们将两个直接相连节点之间的边数计为1,因此间接路线的长度就是这条路线上的转移节点11的数量(图S4)。我们使用Python包igraph(在Python3.6.1中运行的0.7.1)的Dijkstra算法(19)来找到主闭包C中所有间接连接节点对之间的成对最短转化步骤(转移节点数最少)。因此,最短路径中的最大步数就是闭包的直径。直径意味着在这个闭包中,任何两个微生物组都可以通过一条比直径小的几步的路径相互连接。

微生物组网络路线图的最小生成树

在转化闭包中,生成树是连接所有节点(微生物组)而没有循环的子网络。对于两个直接连接的样本a和b,我们将它们的距离定义为

最小生成树(MST)可以被认为是具有最高整体转化概率的样本的全球转化路径,因为它连接了所有具有最短总距离的样本。在主闭包C中,我们使用Kruskal算法(23)来计算二级MST,以反映全球范围内不同栖息地之间的转化。

第一层MST是“样本级分辨率”的,我们在此基础上制作了关于“栖息地级分辨率”的第二层MST。最初我们计算了主闭包C的第一层MST,然后生成了基于栖息地的网络G^’(方程2),其中每个节点代表一个栖息地,两个栖息地之间的距离h_i和h_j是MST中连接两个栖息地的所有边的平均距离。然后我们计算了二层MST(G^’),它展示了跨多个栖息地的全球微生物组转化路线图。

路线图(MST[G^’])的重要性通过原始网络主闭包C中拓扑等价子网络的排列检验进行评估。具体来说,在排列中,对于路线图中连接两个栖息地(例如,栖息地〖habitat〗_i和〖habitat〗_j)的每条边,我们还分别从这两个栖息地中(例如〖a∈habitat〗_i和〖b∈habitat〗_j)随机选择了一个连接两个样本(例如样本a和样本b)的边。由于我们迭代了10,000次排列,如果路线图的总距离小于排列网络的99%(也意味着总概率在前1%,P值<0.01),我们可以认为路线图MST(G^’)在主闭包C中很重要。

从参考数据库到连接分离闭包的基于搜索的样本选择

从参考数据库中选择转移样本来连接两个分离的闭包,我们对照参考存储库搜索每个闭包的所有样本,寻找高于直接转化阈值(Td.t=0.868)的最佳匹配,并且两个闭包之间的重叠匹配是连接两个闭包的转移微生物组。如果匹配中没有重叠,那么我们通过添加它们的匹配来扩展每个闭包并重复搜索过程,直到找到任意的转移样本。另一方面,一旦无法通过数据库搜索进一步扩展闭包,而且仍然找不到可用的转移样本,这意味着参考数据库中没有样本能够作为转移节点,通过直接转化将两个分离的闭包联系起来。

数据和材料的可用性

这里的关键生物信息学工具,微生物组搜索引擎(MSE),可以通过http://mse.ac.cn作为在线服务免费访问。此外,对于自定义微生物组数据库的独立搜索,在GitHub(https://github.com/qibebt-bioinfo/meta-storms)上提供了MSE的内核代码和教程。这项工作中使用的所有数据和分析脚本都可以在GitHub(https://github.com/qibebtbioinfo/microbiomenetwork)上获得,以确保可重复性。

来源:宏基因组

原文链接:http://mp.weixin.qq.com/s?__biz=MzUzMjA4Njc1MA==&mid=2247500923&idx=1&sn=dddcadfcbbc29ab7cab3e94c3d797721

版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。

电话:(010)86409582

邮箱:kejie@scimall.org.cn

大数据 网络 全球化

推荐资讯