2020年9月23日,中国农业大学农学院小麦研究中心郭伟龙副教授作为通讯作者在Molecular Plant在线发表了题为“A Collinearity-incorporating Homology Inference Strategy for Connecting Emerging Assemblies in Triticeae Tribe as a Pilot Practice in the Plant Pangenomic Era”的研究论文。该研究团队通过融合序列相似性和基因共线性信息开发了适用于植物泛基因组时代同源基因推断的新策略(GeneTribe),并构建了以小麦族物种为核心的“小麦族同源基”(Triticeae-GeneTribe, http://wheat.cau.edu.cn/TGT/)。基于小麦族物种基因组间和亚基因组间的共线性分析,该研究提出了六倍体普通小麦的“4A-5A-7B染色体重排”是两次染色体易位事件的结果,并明确了重排的基因组区间的精细边界;同时研究了春化基因Vrn2的复杂进化历史,提出Vrn2同源基因在普通小麦基因组中的复杂分布是包含串联重复、多倍化、染色体易位和基因丢失在内的一系列事件叠加的结果。该工作为泛基因组时代的植物比较基因组学研究和功能基因挖掘提供了新思路。
近年来,随着多种测序技术的结合和分析策略的进步,越来越多的物种完成了高质量基因组参考序列的组装。植物中许多物种已经从“一个物种,一个基因组”的时代进入了“一个物种,多个基因组”的“泛基因组时代”(pan-genomic era)。特别是如小麦、玉米和水稻等主要作物,在近缘种、亚种、个体水平都已经完成多个参考基因组的组装和基因的注释。在泛基因组时代,如何整合诸多的参考基因组信息并将这些宝贵的数据利用起来,是我们目前面临的新挑战。
中国农业大学农学院小麦研究中心通过引入基因共线性的信息,开发了同源基因推断的新算法——GeneTribe,并以此为基础构建了小麦族同源基因数据库—— TGT(Triticeae-GeneTribe)。GeneTribe工具用于同源关系的推断,既考虑了复杂的基因组间的层级关系,也针对富集异源多倍体的小麦族物种的复杂的网状进化关系进行了特殊设计;通过综合共线性分数和序列相似性分数进行动态加权优化,并引入基因注释质量等因素进行罚分质控,形成可动态适用于不同进化距离的基因组之间的同源基因推断策略(图1)。通过和传统仅基于序列相似性的同源推断方法进行综合评估,GeneTribe具有更好的准确率和检测效率。
图1.同源关系推断工具GeneTribe的原理示意图和TGT数据库的设计架构
考虑到同源基因分析中“直系同源”、“旁系同源”等经典概念的定义具有不可传递性,且应用于遗传距离较近的基因组间的研究时容易出现“歧义”,该工作提出了包含四类同源基因表格的基础数据结构方案(图1)。该方案既可满足不同比较基因组学分析的需要,也使得在新基因组不断涌现的常态下更易及时扩展;同时也支持“传递性同源推断”,可降低未来更大规模的基因组的同源基因数据库的构建和维护的复杂度。
小麦族(Triticeae Tribe)的物种中包含了普通小麦(Triticum aestivum, BBAADD)、硬粒小麦(Triticum trugium, BBAA)、大麦(Hordeum vulgare, HH)等重要经济作物;其基因组普遍较大,重复序列比例高,富集不同倍型的异源多倍体物种,具有复杂的物种进化历史。本研究整合了目前已经发表的12个小麦族物种参考基因组和3个外群基因组(水稻、玉米和拟南芥),借助GeneTribe算法搭建了“小麦族同源基因数据库”——Triticeae-GeneTribe .
,可满足同源基因查询、序列分析、基因注释查询等分析,也支持基于同源基因映射的Gene Ontology富集分析、宏共线性(macrocollinearity)和微共线性(microcollinearity)等创新分析功能,并提供了灵活的可视化和数据下载支持;为相关领域的研究者提供了功能丰富的同源基因大数据分析平台(图2)。
在宏观尺度上,通过对小麦多个物种间的染色体共线性区间进行综合分析,对普通小麦中4A-5A-7B染色体的重排区间进行了精确定位和溯源分析,解析了该复杂易位关系的形成过程,提出了包含两次主要易位事件的重排模型(图3)。
图3. 经过两次主要易位事件形成普通小麦的4A-5A-7B染色体重排区间的模型
在微观尺度上,TGT数据库可为研究基因重复、基因丢失、基因簇扩张等提供丰富的信息。以著名的小麦春化基因Vrn2为例,本研究指出其在六倍体小麦中的“奇怪”位置和拷贝数多态性是伴随小麦进化过程中出现的易位、复制、多倍化和丢失的进化事件的叠加结果(图4)。
图4. 小麦春化基因Vrn2的同源基因的基因进化模型
随着越来越多高质量基因组的完成,针对特定物种或者特定领域构建同源数据库将成为趋势,这也有利于更及时的数据更新和更专业的数据库维护。本研究提出的同源基因推断策略可为其它植物物种(特别是多倍体植物)在泛基因组时代进行多基因组数据整合和比较基因组研究提供新的参考方案。
中国农业大学农学院小麦研究中心(http://wheat.cau.edu.cn)的郭伟龙副教授(http://guoweilong.github.io)为该论文的通讯作者,博士研究生陈永明为第一作者。小麦研究中心已毕业硕士宋皖君、硕士研究生谢小明(参与时为本科生)、博士研究生王梓豪,博士后关攀峰为共同作者。中国农业大学小麦研究中心孙其信教授、倪中福教授、彭惠茹教授和中国科学院植物研究所焦远年研究员对该工作进行了指导和帮助。该工作得到了国家自然科学基金(31991210和31701415)项目的资助。
论文链接:
https://doi.org/10.1016/j.molp.2020.09.019
https://chenym1.github.io/genetribe/
http://wheat.cau.edu.cn/TGT/