研究揭示多态性重复基因的基因组演化机制

科技工作者之家 2022-01-04

  近百年来,进化遗传学工作致力于探索重复基因的起源机制和功能演化过程。经典观点认为,基因重复后产生两个完全等同的拷贝,其中一个冗余拷贝在自然选择作用下获得新功能。也有观点认为,剂量效应和不完整基因重复等因素使重复基因并非是等同的冗余拷贝。剂量敏感基因(满足剂量平衡效应的蛋白复合体成员基因或X染色体编码的参与剂量补偿的基因)可能较少发生重复,而基因局部区段(如5'端、3'端、个别内含子或外显子等)的重复则可能形成嵌合基因或新嵌合剪切体。诺贝尔奖获得者Gilbert于1978年在讨论内含子时就提出外显子重组或洗牌(shuffling)假说。然而,多数相关研究聚焦于构成物种间差异的比较古老的重复基因,而关于剂量敏感性是否影响基因重复的发生以及内含子如何影响外显子洗牌过程等重要问题鲜有研究,其原因在于回答这些问题需要分析尚处于进化初期阶段、在物种内呈多态性的重复基因,且挑战性较大。

  中国科学院动物研究所研究员张勇研究组与中科院北京基因组研究所、中国中医科学院中药研究所等合作,以黑腹果蝇和人类这两个内含子分布和特性迥异的系统为模型,探讨了上述问题。2021年12月31日,相关研究成果以Dosage sensitivity and exon shuffling shape the landscape of polymorphic duplicates in Drosophila and humans为题,发表在Nature Ecology & Evolution上。

  本研究中,该团队基于实验室产出的6个果蝇品系的重测序数据,鉴定了270个多态性重复基因;利用人类数据库GTEx鉴定了964个重复基因(图1)。根据基因重复发生区段,研究将重复基因分为完整重复基因、部分重复基因和内含子重复基因(图2A)。果蝇和人类中数量最多的分别是部分重复基因和内含子区重复基因,随机模拟显示这一分布差异可被不同物种基因组外显子、内含子的相对比例和重复区间与基因的相对长度分布解释。

  转录组数据分析发现,三类重复基因中只有完整重复基因的表达显著上调(图2B)。蛋白复合体成员基因在完整重复基因中相对较少(图2C)。X染色体连锁剂量补偿基因是另一类剂量敏感基因,果蝇中X染色体的完整重复基因在雄性和雌性脂肪体中表达水平相当(图2D),暗示果蝇的X染色体剂量补偿体系可以容忍基因拷贝数上升。与果蝇不同,人类X染色体编码的完整重复基因倾向于性别特异表达,无须剂量补偿。

  不完整重复可介导嵌合基因的形成。为检测嵌合基因,科研人员根据重复断点的位置,将嵌合基因分为6类。由于果蝇基因密度高,其基因融合(5’-3’、5’-5’、3’-3’)的比例均高于人类;反之由于人类基因较长,其内部重复的比例更高(图3A上)。研究通过转录本拼接发现,果蝇和人类分别有66.7%和26.5%的嵌合基因能活跃转录(图3A下)。在6类嵌合基因中,5’-嵌合基因因其携带启动子区域重复,更易被转录(图3A下)。基因内部重复导致外显子洗牌而改变母基因的编码区,即该基因进化出新可变剪切形式(图3B):一种是只包含一个重复单元的与祖先基因相同的短转录本,一种是包含两个重复单元的长转录本。基于测序读长深度和qPCR的相对定量方法发现,生物体主要表达短转录本(图3C),这或是个体维持重复发生之前基因结构的巧妙途径。与果蝇相比,人类基因组中内含子数量多且长度较长,其基因内部重复更多的使用位于内含子的断点,导致更多的维持原读码框的融合蛋白基因的产生。

  科研人员以提前终止密码子(受负选择)和同义突变(受中性选择)为参照物开展分析,发现物种中完整重复基因和部分重复基因均受到强烈的负选择,暗示它们带来的剂量上升或新的嵌合结构通常均是有害的(图4)。果蝇里内含子重复也受负选择,而人类内含子重复其选择压力更接近中性;这或是由于后者其内含子长度更大,对小的突变不敏感。

  整体来看,该研究剖析了两个差异较大的动物体系,进而系统展示了剂量敏感性和外显子洗牌过程如何塑造重复基因演化的最早期蓝图。该工作将新基因起源的两个主要机制即基因重复和外显子洗牌融合到一起;说明Gilbert在43年前提出的两个核心概念相辅相成,即可变剪切是基因内部重复发生的前提,使更复杂的蛋白结构可以在不影响此前基因结构的前提下演化出来。

  张勇致力于重复机制导致的新基因起源研究,发现新基因推动了人脑发育过程的演化(Genome Research,2019),并参与了人类特异的红细胞发育调控网络(Developmental Cell,2021)。这一新成果与早前LTR逆转座子及DNA转座子(Genome Research,2016/Nature Communications,2021)介导基因重复的工作则组成了该团队关于突变机制如何影响重复基因演化的系列性探索。

  研究工作得到国家重点研发计划、中科院、国家自然科学基金、北京脑科学与类脑研究中心开放研究项目等的支持。

  图1.项目总体设计图。果蝇的重复基因数据集来源于对自产重测序数据的分析,人类的重复基因数据集基于公开数据GTEx。转录组测序用于检测重复基因的表达水平和基因结构的变化。

  图2.重复基因表达差异的分布和剂量效应。A、不同种类重复基因的数量分布;B、不同种类重复基因转录水平改变幅度的分布;C、不同种类重复基因中蛋白复合体基因的比例,红色虚线为蛋白复合体基因在所有蛋白编码基因中的比例;D、8个X染色体连锁的完整重复基因在基因重复存在个体和基因重复缺失个体中的表达分布,虚线对角线表示在雌性脂肪体和雄性脂肪体中基因的表达相等。

  图3.嵌合基因和不完整重复基因的分布及特点。A、根据断点位置预测的嵌合基因(上)和基于转录本拼接验证的活跃转录嵌合基因(下)比例;B、人类基因内部重复示例。C6基因中间的2个外显子发生串联重复。转录本拼接结果显示存在两种转录本:包含两个重复单元的长转录本(上)和只包含一个单元的短转录本(下);C、相比之下,长转录本表达水平较低。

  图4.不同类型重复基因频率的分布。果蝇和人类不同重复基因、提前终止子和同义突变的等位基因频率。数字表示偏度值(skewness)。


内容来源:中国科学院

来源:中国科学院

原文链接:http://www.cas.cn/syky/202112/t20211231_4820520.shtml

版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。

电话:(010)86409582

邮箱:kejie@scimall.org.cn

基因 果蝇 人类 重复 内含子

推荐资讯