小基因开启微生物组研究新领域——大规模鉴定微生物基因组编码的小蛋白质

科技工作者之家 2019-08-10

来源:BioArt

原标题:Cell:小基因开启微生物组研究新领域——大规模鉴定微生物基因组编码的小蛋白质

 近年来,随着测序技术的发展,微生物组研究成为一个新热点。借助宏基因组测序技术,我们在人体的不同部位发现了多种多样的微生物,但是微生物究竟通过什么机制发挥作用影响表型呢?对此我们的了解仍然很有限,其中一个限制原因可能是在基因注释的过程中往往会忽视某类具有重要功能的基因。
 小开放阅读框(small openreading frame, sORF,一类编码小蛋白质(≤50个氨基酸)的基因,就常常被人们忽略【1】。由于预测工具往往需要设定开放阅读框的最小长度,且经典的生化方法难以检测这类基因编码的蛋白质,所以数据库关于其的信息是不完整的。而最近的研究发现这类蛋白质在真核生物和原核生物中均能发挥一定的生理功能【2,3】。那么人体中的微生物基因组具有多少这样的小开放阅读框呢?所编码的蛋白质具有哪些功能呢? 2019年8月7日,斯坦福大学的Ami S. Bhatt团队在Cell杂志发表题为Large-ScaleAnalyses of Human Microbiomes Reveal Thousands of Small, Novel Genes 的文章,该研究通过来源于HMP项目的263个健康人的1773个微生物组样本鉴定出大约250万个sORF,并确定了由其编码的4000多个保守蛋白质家族。这些蛋白质家族中超过90%都不具有已知的结构域。该团队对鉴定出的蛋白质家族进行功能预测,发现大约30%的蛋白质家族是分泌或者跨膜蛋白,还有一些蛋白家族与防御机制等功能相关。20190810180919_f14bd3.jpg 首先,作者通过下述方法鉴定出由sORF编码的4539个保守蛋白质家族(图1)

1、利用宏基因组无参分析流程对HMP的1773个微生物组样本进行分析,获得128,368,337个contig。

2、使用MetaProdigal软件对所有ORF进行注释并过滤掉编码氨基酸数大于50个的ORF,过滤后得到2,514,099 个sORF。

3、使用CD-Hit软件对所有sORF编码的蛋白质进行聚类,共产生444,054个cluster。在Conseeved Domain Database(CDD)中查询每一个cluster,发现仅有~4.5%(113,693/2,514,099)的蛋白质(覆盖约0.5%的cluster)可以匹配到已知的结构域,其中大约65%(72,982/113,693)的蛋白质都是核糖体蛋白。

4、使用RNAcode软件对至少含8条不同DNA序列的cluster(共11715个)进行基因预测以鉴定潜在的蛋白质家族,最终p值≤ 0.05的共有4,539个cluster(包含467,538个蛋白质)。

20190810180919_f5b509.jpg图1.小蛋白质的鉴定和特征分析流程 随后作者对上述的蛋白质家族进行了分析,发现96%的蛋白质家族都不含有已知的结构域,仅有25%的蛋白质家族在RefSeq中可以找到同源基因,因此作者采取了一系列的策略分析了这些蛋白质可能具有的功能。 在4000多个蛋白质家族中有14个蛋白质家族至少在属于不同门的100个物种中存在,其中的13个蛋白质家族至少在3个身体部位中存在。且在非人体环境中都能鉴定到14个蛋白质家族的同源基因,说明这14个家族可能是管家基因(housekeeping)家族(图2。其中蛋白质家族26广泛存在于不同的部位和环境中,发现其sORF位于一段高度保守区域,下游是核糖体蛋白L28和L33,所以其可能也编码与核糖体相关的蛋白。20190810180919_f81187.jpg图2蛋白质家族的分布情况 利用TMHMM和SignalP-5.0算法鉴定是否为跨膜或分泌蛋白,发现1402个家族可能是跨膜或分泌蛋白,这些蛋白质家族可能与细胞间的交流有关。利用AmPEP软件鉴定发现有39个蛋白质家族可能编码抗菌肽。 为了鉴定蛋白质家族是否与抵御噬菌体有关,作者搜索了sORF上下游附近是否存在已知的防御基因,发现有869个家族的上下游至少存在一个已知防御基因的同源基因,其中132个家族与CRISPR基因有关。 细菌可以利用基因水平转移(horizontal genetransfer, HGT,指在差异生物个体之间或单个细胞内部细胞器之间所进行的遗传物质的交流)这种机制进化以适应环境。而人的肠道为微生物提供了基因水平转移的可能。因此,作者首先确定了具有这样一类基因的蛋白质家族,即其具有位于介导HGT基因附近的同源基因。然后,分析了这些蛋白质家族的系统发育分布,最后鉴定出了57个蛋白质家族可能发生了门水平的基因水平转移。 为了便于将来进一步深入研究这些蛋白质,作者提供了一个整合文件,该文件提供了全部4539个蛋白质家族特征的详细信息,然后可以依据文中提供的方法获取相应的DNA或者是氨基酸序列。 该研究开启了微生物组研究的新领域,为微生物组的研究提供了新思路,同时提示了未来也许应该深入研究这些被我们忽略的sORF及其编码的蛋白质的功能。
原文链接:https://doi.org/10.1016/j.cell.2019.07.016

参考文献

1. Duval, M., and Cossart,P. (2017). Small bacterial and phagic proteins: an up- dated view on a rapidlymoving field. Curr. Opin. Microbiol. 39, 81–88.2. Couso, J.-P., andPatraquim, P. (2017). Classification and function of small open reading frames.Nat. Rev.Mol. Cell Biol. 18, 575–589.3. Kemp, G., and Cymer, F.(2014). Small membrane proteins - elucidating the function of the needle in thehaystack. Biol. Chem. 395, 1365–1377.

来源:BioGossip BioArt

原文链接:http://mp.weixin.qq.com/s?__biz=MzA3MzQyNjY1MQ==&mid=2652473743&idx=2&sn=33dae8abd15a313002fff9c88e438b74&chksm=84e21a3bb395932d763f86f5520820460b8c28551a8d194f20bc2d8c11d10772e1e707ea4cf6&scene=27#wechat_redirect

版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。

电话:(010)86409582

邮箱:kejie@scimall.org.cn

微生物

推荐资讯