科技工作者之家
加好友
科技工作者之家 2021-10-19
近日,上海交通大学生命科学技术学院微生物代谢国家重点实验室在生物信息学顶级刊物《Briefings in Bioinformatics》(IF:11.622)上发表题为“T4SEfinder: a bioinformatics tool for genome-scale prediction of bacterial type IV secreted effectors using pre-trained protein language model”的研究论文。该文将人工智能方法应用于细菌IV型分泌系统效应蛋白预测的场景,提供了一款新的、适用于细菌全基因组规模的预测软件。生命科学技术学院硕士生张昱朦和张阳明为该论文的并列第一作者,生命科学技术学院欧竑宇教授和澳大利亚莫纳什大学生物医学发现研究所宋江宁副教授为该论文的共同通讯作者。
细菌IV型分泌系统分泌系统(type IV secretion system, T4SS)是由多个蛋白组件构成的跨膜装置,不仅能够介导DNA接合转移,还能将效应蛋白精准转运到真核或原核细胞中。IV型分泌系统效应蛋白(T4SE)能够影响真核细胞的基因表达和信号转导,在病原细菌致病过程中起到重要作用。前期工作中,欧竑宇研究组构建了T4SS开放数据库SecReT4,通过文本挖掘和人工校正,系统地收录了实验验证的IV型分泌系统基因簇和效应蛋白等高质量数据(Bi, et al., Nucleic Acids Research, 2013)。预测效应蛋白最简便的方法是与SecReT4收录的T4SEs进行序列比对;而人工智能方法则有可能发现与已知T4SE序列相似性低的新效应蛋白。近期,卷积神经网络(CNN)等多种机器学习方法开始应用于T4SE和non-T4SE的分类问题,然而它们的预测精度和运行速度仍有待提高。
细菌IV型分泌系统效应蛋白预测软件T4SEfinder的模型架构
TAPEBert_MLP主体结构由蛋白序列预训练语言模型(TAPEBert)和多层感知机分类器(MLP)组成
该论文将蛋白序列预训练语言模型(pre-trained protein language model)TAPEBert应用到T4SE分类任务中,开发了快速准确的T4SE预测软件T4SEfinder。首先,通过更新SecReT4数据库,T4SEfinder的训练集包含了来自21种细菌的518个经实验验证的T4SEs。其次,通过综合评估多种机器学习模型对T4SE的预测性能后,T4SEfinder采用了基于BERT的蛋白序列预训练方法TAPE(Task Assessing Protein Embeddings)以及多层感知机分类器(multi-layer perceptron,MLP)来搭建模型TAPEBert_MLP(上图);对于五折交叉验证和独立测试数据集,TAPEBert_MLP模型的预测准确率略优于常用的基于PSSM(位置特异性打分矩阵)和CNN的PSSM_CNN模型。最后,部署在一台RTX 2080 SUPER GPU服务器上的T4SEfinder能够在3分钟内完成5000条蛋白序列中T4SE和non-T4SE的分类,速度比PSSM_CNN方法快五十多倍。因此,T4SEfinder适用于细菌全基因组规模的T4SE识别问题,可能有助于实验发现病原菌的新效应蛋白。
来源:上海交通大学
原文链接:https://news.sjtu.edu.cn//jdzh/20211019/160209.html
版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。
电话:(010)86409582
邮箱:kejie@scimall.org.cn
利用“阿尔法折叠”预测结构,细菌“注射器”将蛋白输入人体细胞
推荐阅读文章 | 霍乱弧菌Ⅵ型分泌系统的效应蛋白对细菌细胞壁的降解机制
大便中的细菌,能用来预测癌症?
生物物理所等揭示细菌效应蛋白拮抗宿主细胞焦亡通路的分子机理
NASA将大肠杆菌送入太空增强耐药性,以寻找治疗方案
《煤炭学报》2篇优秀论文入选“2014年中国百篇最具影响国内学术论文”
细菌感染会致病,是蛋白转运在“捣乱”
遗传学: 杀手是怎样炼成的
【论文精选】基于绿色荧光蛋白的冷鲜猪肉中大肠杆菌预测模型的构建
生物物理所等揭示细菌效应蛋白拮抗宿主抗细菌自噬的分子机理和细胞选择性自噬的通用机制