测序技术的不断发展,为从染色体DNA水平认识生命现象提供了机会,而分子和计算分析工具也为探测基因组历史提供了新的方法。关于染色体的进化仍有许多让我们困惑的地方。全基因组分析发现,很多真核生物特别是植物,在进化史上都经历了一次或多次多倍化事件,而每次多倍化造成染色体加倍之后,常常会发生复杂的染色体重构过程,最终形成了现有物种的细胞核型和染色体构成。那么,真核生物是如何维持染色体数目在一个小的范围内?另外,在真核生物中,除一般的“正常”染色体之外,还有一种很小的染色体,称为B染色体,B染色体的产生被认为是生理之迷。染色体数减少的现象可能只发生在很短的时间内,或者在很长的时间里仅发生一次,使得基于显微镜的生物学观察很难发现和解释相关的规律和机制。
1 真核生物染色体及染色体数目
1.1 真核生物的染色体
真核生物一般拥有线性的核染色体,这些线性染色体的两端是由重复序列构成的端粒,保护染色体的完整性。线性染色体比较靠中间的位置是着丝粒,着丝粒是一个独特的染色体结构域,与有丝分裂和减数分裂过程中染色体的分离有关。染色体可能发生断裂、融合和重排,引发基因组不稳定,改变生物的细胞核型【1】。即使亲缘关系相近的不同生物,其染色体的数目也可能不同。很显然,细胞核型是不断变化的,细胞核型的变化造成了物种分化。
1.2 一个生理之迷——B染色体
除了“正常”的染色体外(称为A染色体),有些物种中还有一些多余的染色体,称为B染色体(图1)。B染色体的起源一直是一个生理谜团【2】1907年,威尔逊在研究半翅目昆虫的染色体时发现了B染色体【3】。B染色体对于一个物种的生命活动来说不是必需的,并且在很多物种中没有这类染色体【4】。大多数B染色体含有丰富的异染色质(因此大部分是非编码的),主要由重复序列组成【5】,但有些比较特殊,如玉米的B染色体含有大量的常染色体片段【6】。B染色体存在于许多植物、动物和真菌中【7,8】,不与任何A染色体配对,不遵循孟德尔遗传【9,10】。B染色体是核型多余的可有可无的部分,通常被认为是没有功能基因的“垃圾DNA”或基因组寄生虫。但有研究认为,B染色体可携带转录活性基因序列,可能影响其宿主基因组的转录组谱【11】。各种研究表明,B染色体对不同的宿主具有中性、有害或有益的影响【7,9,12,13】。在自然群体中,个体可能携带1到34个B染色体【7,14】。约15%的真核生物有B染色体,但在分子和功能水平上尚不清楚【15】。
B染色体与A染色体形态不同,且B染色体数目和机制在不同物种和个体之间变化很大,研究起来较为复杂。很多学者认为B染色体的起源可能是多种途径的,并提出了多种假说。通常认为B染色体来源于A染色体【15-20】,其起源与A染色体的基因组不稳定有关,涉及到B染色体的最初形成和后来重复序列的扩展【11,17,18】。其中,重复序列包括转座子【21-24】,代表大多数真核基因组的大部分,也是B染色体构成的主要成分【7,22】。B染色体结构的进化历来在细胞遗传学水平上引起关注【25】,最近关注更多的是分子和基因组水平的研究【26,27】,以及重复DNA对B染色体进化的影响【4】。
2 全基因组加倍现象
2.1 有花植物全基因组加倍
染色体数目是真核生物进化的一个显著动态特征。在染色体数目变化的机制中,多倍化(polyploidization)由于影响了动物【28】、真菌【29】和原生动物【30】在内的多种真核生物而备受关注。多倍化或全基因组加倍(whole-genome duplication或 WGD)被认为是高等植物物种形成和进化的主要原材料。大约70%的被子植物在它们的演化过程中经历过一次或多次多倍化【31】。许多重要作物都是多倍体或被认为是多倍体起源,如小麦、棉花、玉米、大豆、香蕉、咖啡、甘蔗等。
反复的多倍化是植物基因组进化和物种分化的重要推动力,模式植物水稻和拟南芥基因组序列都揭示了古多倍化现象。研究推测所有的现代植物都有一个多倍化的祖先【32】。开花植物和种子植物的产生、快速分化及在地球上的优势生长也归因于多倍化事件【33】。这在很大程度上解答了当年达尔文对于被子植物快速分歧产生大量类群的迷惑【34】。利用最新的化石证据和共线性基因对禾本科主要进化事件发生的时间进行重新估算,表明禾本科大概起源于1 亿年前左右,即一次古多倍化发生之时【35】。
多倍体植物含有两套以上的基因组,其染色体重组过程复杂。多倍体通常在形态、生理或生活史特征上与其祖先有显著性差异【36,37】,这些差异可能有助于多倍体物种在新环境中的生存和分化【38】。多倍体植物拥有较强的可塑性,其基因组具有较强的缓冲能力,极大提高了其抗逆性与环境适应性,例如小麦通过两次多倍化形成普通小麦(六倍体小麦),在世界各地广泛种植。
2.2 脊椎动物全基因组加倍
在脊椎动物谱系中,多倍体最常见于两栖动物和硬骨鱼【39-41】。自20世纪30年代以来,基因和基因组加倍一直被认为在进化过程中起着重要作用【42-44】。1970年,Ohno提出脊椎动物的复杂性和基因组大小是由早期脊椎动物进化中的两次全基因组加倍所导致的,为脊椎动物进化的多样化提供了原材料【44】。硬骨鱼类经历了另一轮基因组加倍,即所谓的鱼类特异基因组加倍【45-47】。这次多倍化事件发生的时间和硬骨鱼类发生辐射扩增的时间几乎是一致的(2.53亿至4.04亿年前),硬骨鱼类巨大的形态多样性可能与这一事件有因果关系【45,46,48-51】。这一事件之后重复基因的丢失广泛发生,重复基因的差异保留和丢失是基因组复制后物种形成过程中的常见现象,最终可能导致了物种分化。此外,一些硬骨鱼类还受到进一步多倍化影响,如鲤形目【52-55】和鲑形目等【56】。
多倍化的发生虽然没有植物进化中那样频繁,鱼类的基因组也受到多倍化的影响【57】。硬骨鱼的祖先在3亿多年前发生了多倍化【58】,鲑鱼祖先在5000-8000万年前发生了多倍化【59】,比较近的加倍事件(约800-1200万年前)使鲤鱼和草鱼有一个多倍化的祖先【57,60,61】。同源基因分析可以明确地把其基因组分成两个亚基因组,表明这一加倍事件是一次异源的基因组加倍【61,62】。
哺乳动物和鱼类在大约4.5亿年前分歧,没有证据表明哺乳动物发生多倍化【63】。哺乳动物基因组的大小几乎没有种间变异【64,65】,哺乳动物基因组进化中可能也没有发生全基因组加倍事件【66】。在哺乳动物中,只有有限数量的组织是由多倍体细胞组成的。
在两栖类和爬行类的研究中,目前仅有关于非洲爪蟾四倍体的起源和基因组进化的报道【67】。非洲爪蟾是拥有从二倍体到十二倍体的多倍体物种之一,是研究基因组加倍影响的理想选择【68】。四倍体爪蟾在1700~1800万年前经历了异源多倍化事件,两个亚基因组的进化是不对称的,其中一个染色体组较好地保持了原始状态,另一个染色体组则经历了更多的基因丢失、缺失、重排和基因表达减少[67]。此研究为解析脊椎动物古多倍化事件和多倍体组学研究提供了参考。
2.3 染色体数量的多变性
多倍化在基因组结构、基因含量和进化过程中都起着重要作用【69】,全基因组加倍后染色体数目加倍,是真核生物进化的一个重要特征。真核生物的多样性与基因组加倍密切相关。
(1)植物多倍化与染色体数目
大多数开花植物被证明是古老的多倍体植物的后代,或者说祖先基因组在进化过程中经历了一轮或多轮的多倍化事件。植物基因组的一个重要特点是反复的全基因组加倍,造成染色体数目的倍增;而基因组加倍之后,如果是异源多倍化,新产生的所谓多倍体植物本质上还是二倍体,也就是基因组执行二倍化遗传,如小麦、油菜等;而同源多倍体在一定的时期可能执行多倍化遗传,之后很多植物会恢复二倍化遗传。研究表明,二倍化遗传的恢复过程,可能与多倍化产生的重复或者部分同源染色体间的非正常DNA重组有关。这种非正常的遗传重组引起基因组的不稳定,可能造成大规模的基因丢失和重排。二倍化遗传恢复的同时,染色体的数目比基因组加倍初期可能有所减少,甚至恢复到基因组加倍之前的数目,如玉米。反复发生的全基因组加倍使得植物基因组比大多数其他真核生物的基因组更加不稳定,染色体重排的规模大、数目减少的幅度也大,因此为理解染色体结构的演化提供了更多的信息。
比如,禾本科物种的一个重要特征,是共同的祖先物种在约1亿年前发生了一次全基因组加倍【35】,生成一个四倍体祖先。祖先基因组的多倍化引发了以 DNA序列急剧变化为特征的“基因组风暴”,发生了大规模的染色体重排、基因倒位、基因丢失等【32,70】。这为禾本科物种的进化提供了极为丰富的变异材料,为自然选择出成功的物种提供了机会。一个明显的事实是在多倍化之后,禾本科物种在地球上迅速扩增,成为进化上最成功的类群之一。在多倍化之前,禾本科植物祖先的基本染色体数目为7条。水稻的全基因组序列可以清晰地展示禾本科的全基因组多倍化事件(ρ事件),所以经常用水稻作为参考基因组来分析其他禾本科物种。玉米的基因组比较复杂,除了禾本科祖先发生的那次全基因组加倍事件外,玉米又单独进行了一次全基因组加倍,如果玉米染色体在两次全基因组加倍后都保留下来,那么基本染色体数目将达到28条(7×2×2=28),而不是现在的10条基本染色体(Table 1)。二穗短柄草、高粱、谷子等其他禾本科物种都只经历了禾本科祖先的那次全基因组加倍,后来他们各自发生了不同的染色体融合事件,最终形成了现在的染色体数目(Table 1)。
葡萄全基因组的序列清晰地展示了一次六倍体形成事件(γ事件),说明很多双子叶植物共有一个六倍体的祖先【71】,这些双子叶涵盖了拟南芥、木瓜和杨树等主要双子叶植物【72-74】(Table 1)。值得注意的是,拟南芥是第一个被测得了全基因组序列的开花植物,其基因组较小,只有约130Mbp。在拟南芥全基因组测序完成之前,几乎没有人预期到其祖先基因组会经历一次次加倍。在所有这些多倍化事件之前,这些被子植物的祖先有7条染色体【75】;如果染色体在经历了1次三倍化(γ)和2次二倍化(WGD)事件后所有染色体都保留至今,而没有发生融合,那么拟南芥基本染色体数目应达到84条(7×3×2×2=84),而不是5条基本染色体。
(2)动物染色体数量的多变性
鱼类的染色体大多为20条到100条,60%的海水鱼类有48条染色体(2n),21%的淡水鱼类有54条染色体【76】。哺乳动物的染色体数目大多介于30条到60条之间,有袋类二倍体染色体数目明显偏低,有蹄类和食肉类染色体数较高,灵长类具有较低的染色体数。人类、大猩猩和黑猩猩有着共同的灵长类祖先,在他们的祖先中,染色体的基因结构和人类染色体构成相似【77】。人类2号染色体是染色体融合事件的产物,其稳定性是通过抑制一个着丝粒实现的,这导致人类(46条染色体)及其最密切相关的类人猿(48条染色体)之间存在染色体数目的差异【77-79】。染色体融合后,2p着丝粒保持活跃,而2q着丝粒失活,但有着丝粒DNA的残留【80-82】。大多数哺乳动物都是以特定的染色体数目为特征,但有时一个物种内二倍体数目的变化是由于涉及到近端着丝粒染色体的融合(罗伯逊易位)而形成多态性【65】。罗伯逊易位引成染色体融合在许多物种中都有发现,包括小家鼠,所有的二倍体染色体数目都在22条到40条之间【83】。在奔原鼠中发现了24种不同的核型【84】,在尼日利亚沙鼠中有20种核型【85】。
3 染色体数目变化与B染色体产生的模型
3.1基因组测序为理解染色体重构提供了新机会
染色体数目减少主要是由于染色体发生融合造成的。两条染色体之间可能发生端部与端部的合并,在这一过程中,一条染色体变成了端部或近端部着丝粒染色体,另外一条染色体在其着丝粒附近发生断裂【86】,此外,一条染色体可以合并到另一条染色体的着丝粒附近【86】。然而这些推论所提出的机制仍然是不完善的,不能很好解释这个复杂的动态过程。
多倍体在植物中很常见,染色体重排多,染色体数在加倍后减少,为我们理解真核生物染色体数目的变化机制提供了思路。植物基因组内常有很多共线性基因,是多倍化的产物,这有助于认识染色体重构过程。基因组测序技术的发展以及海量基因组数据的产生,为理解染色体重构提供了新机会。
3.2 一个以端粒为中心的模型
基于对多种植物的比较基因组学分析,我们提出了植物和其他真核生物基因组重构的新模型,以助于进一步阐明核型进化的分子动力学。其机理是,从染色体上去除两个端粒,形成一条过渡型的双自由端染色体,最终插入到另一条染色体上;或者通过两条各自去除一个端粒的染色体的融合来产生更大的染色体(图2)。在这个过程中,由两个端粒形成的小染色体丢失或被忽视,指明了染色体数目减少的本质。以端粒为中心的基因组重组决定了在真核生物进化过程中,特别是多倍化之后,染色体数目的减少【75】,强调了端粒在基因组整合中的重要作用。
上述模型所描述的现象应发生于细胞减数分裂过程中的同源染色体配对时期。这一时期,染色体花束结构【87,88】的形成使端粒接近,引起同源染色体配对和基因组重组。染色体末端的物理邻近性【85】,使染色体能够识别同源染色体或部分同源染色体【87】,最终引发同源染色体的配对和融合【89,90】。端粒的重复序列是有效正确识别染色体的主要因素【88】。在染色体聚集过程中,染色体的两端可以彼此靠近,促进环状结构染色体【91,92】的形成。同时不同染色体的端部靠近【93】,可能使他们发生交叉,尽管机率可能很小。
在“染色体花束”期,通过染色体内交叉产生的环状染色体【91】(Ring chromosome,RC)可能形成一条过渡型的含有两个粘性末端(自由端)的染色体,包含原染色体的主体部分,以及一条包含两个端粒及基因很少的小染色体(图2a)。小染色体可能会丢失,小染色体的丢失对植物的适应性几乎没有影响,但可能会导致人类出现严重的症状【91】。而粘性端染色体会引起基因组不稳定,其一端可能插入到另一条染色体的着丝粒区域(着丝粒区域的重复序列可能有助于插入的发生)。这种插入实际上是一种“侵入”过程,导致“被侵入”的染色体断裂。一条染色体的一个断裂端连接到另一条染色体的断裂端,可能在双链断裂后通过一种经典的重组机制完成【94】。染色体在空间上的接近有利于两个染色体另外的粘性自由端之间的连接,从而造成入侵的染色体嵌套式插入“被侵入”的染色体中,导致嵌套染色体融合(Nested chromosome fusion,NCF),或者更精确地说,嵌套染色体融合是由产生的环形染色体介导形成的。“侵入”和“被侵入”的染色体往往是同源的,也就是起源于一个共同祖先的染色体,具有比无同源关系的染色体更大的DNA相似性。融合后的染色体有两个着丝粒,“侵入”染色体的着丝粒保留下来,而“被侵入”染色体的着丝粒则失活,这可能是为保护插在“被侵入”染色体的着丝粒区的“侵入”染色体的基因密集区,而自然选择使“被侵入”染色体的着丝粒的DNA不断丢失。
此外,在“染色体花束”期,两条不同染色体之间的交叉可以导致染色体臂的相互易位(Reciprocal translocation of chromosome arms),是基因组重组产生新染色体的另一种机制。在染色体花束期,靠近的两条染色体如在其末端发生交叉,可能使染色体端端连接(Chromosome end–end joining,CEJ)形成一个包含大部分DNA的主要染色体(这条双着丝粒染色体其中的一个着丝粒会失活),和一个包含端粒的小染色体。这条小染色体可能会丢失(图2b),导致染色体数目的减少。另外,如果两条染色体在与端粒有一定距离的位置交叉,可能形成两条新的染色体(图2c)。
在一些受到全基因组加倍影响的被子植物中,这个模型很好地解释了在全基因组加倍后染色体数目是如何减少的。嵌套染色体融合利用“侵入”染色体的端粒和“被侵入”染色体的着丝粒,形成新的染色体。嵌套染色体融合和染色体端端连接融合,都可能产生两个端粒构成的小染色体,而且一般会丢失。这一端粒为中心的染色体重构模型充分考虑了端粒的作用。端粒特殊的帽式结构有助于保护染色体免受分裂或与其他染色体融合【95-97】;如果端粒未被移除,嵌套染色体融合或染色体端端连接融合式染色体融合就不会发生【86,98】。
以端粒为中心的染色体重构模型,解释了单子叶植物小麦、二穗短柄草、谷子、水稻、玉米、高粱,以及双子叶植物拟南芥、豆科、葫芦科等植物类群的核型进化。这一模型也可以解释脊椎动物【99】和酵母【100】的核型进化,以及大多数植物是如何保存少量染色体数目的,比如上文所涉及的人类2号染色体就是类人猿祖先两条染色体经CEJ式端端融合的产物。在此过程中可能产生了小染色体,其在进化过程中的丢失导致人类染色体的数目减少了1对。
以前的研究虽然讨论了禾本科基因组重组,提及了嵌套染色体融合,但忽略了染色体端端连接融合,没有明确端粒在染色体重构中的重要意义,特别是没有注意到产生“粘性末端”或“自由端”染色体的重要性,也没有考虑到小染色体的产生。我们提出的模型阐明,正是由于端粒的去除,“自由端”染色体产生并侵入了其他染色体,或者两条不同染色体端端融合,产生小染色体并丢失,导致了染色体数目的减少。
我们的模型在一定程度上获得了Hi-C数据上的支持。2017 年Mascher等人组装了高质量大麦的参考基因组,使用Hi-C数据获得大麦细胞核染色体三维结构,发现了细胞核间期的Rabl结构【101】。在这种结构中,染色体折叠形成环状染色体,所有染色体的着丝粒和端粒聚集在细胞核相反的两极【102】,即所有大麦染色体的端粒之间或者着丝粒之间在空间上相互接近,端粒和端粒聚集在一起,同时着丝粒和着丝粒聚集在一起,染色体的端粒存在着物理邻近性。
3.3 染色体数目的减少与B染色体产生的模型
上面提出的染色体数目变化的端粒中心模型,初步解决了染色体数目减少和B染色体产生这两个问题,该模型中产生的小染色体可能就是长期无法解释起源原因的B染色体。如果算上该模型中产生的小染色体,染色体的总数目并没有减少;但由于小染色体的丢失或被忽视,染色体数目就减少了。即染色体数目减少必然伴随着B染色体的产生和丢失。
3.4 染色体数目的减少与B染色体产生的模型应用
(1)禾本科植物染色体的演化路径
通过水稻和高粱基因组比较分析,发现有7次染色体断裂、倒位,2次发生在水稻和高粱共同的多倍体祖先基因组,5次发生在它们分化后的高粱中;而水稻基因组自从与其他的禾本科植物分开后,其基因组中没有显示出较大的染色体结构的变化,表明其染色体核型与禾本科共同祖先非常相似。在水稻12条染色体(Os1-12)中,按基因组分析推断出五组重复染色体对应关系,分别是:Os1:Os5;Os2:Os4,Os6;Os3:Os7,Os10;Os8:Os9;Os11:Os12【98,103】。
那么,禾本科祖先在基因组加倍之前到底有几条染色体呢?一个关键的问题是Os2是由加倍后的一组Os4(部分)与Os6的同源物融合形成,还是Os2的同源物断裂产生现在的Os4(部分)和Os6(图3a)。同样地,Os3是由祖先的Os7与Os10的(部分)同源物经融合形成,还是Os3同源物的裂变产生了染色体 Os7和Os10(部分)。Os2和 Os3与其具有部分同源关系的染色体有交替性的同源关系,分别对应着 Os6-Os4-Os6和Os10-Os7-Os12-Os7。
香蕉基因组【104】的序列提供了禾本科染色体核型演变的证据。以水稻Os2,Os4和Os6为例,如果Os4和Os6起源于香蕉和禾本科植物的共同祖先的不同染色体,他们的同源片段应该更可能位于不同香蕉染色体中。相比之下,如果Os2同源物断裂为Os4和Os6,那么Os4和Os6对应的香蕉同源片段更可能出现在相同染色体上。然而虽然经历多次多倍化,在香蕉基因组中,Os4和Os6的同源区几乎总是互相独立的,而不是具有相关联的同源区【75】。比如,香蕉7号染色体(Mu7)与Os6是同源染色体,这两条染色体之间的共线性同源关系达到了接近整条染色体长度,但是Os7却没有与Os4的同源性。同样地,香蕉Mu6,Mu8和Mu11都与Os4同源,共线性同源关系也接近达到了整条染色体,但是与Os6只有有限的同源信息。因此,最简单的解释是:Os4与Os6起源于不同的祖先染色体,而它们在禾本科祖先多倍化中产生的部分同源染色体融合形成了Os2。
与香蕉染色体比较基因组学分析表明,Os3是由于Os7和Os10的部分同源物融合形成,并且又融合一个来自Os12的小片段。实际上,Os7与 Mu6、Mu7和Mu9同源,Os10与Mu1和Mu11具有显著同源性,表明Os7与Os10分别来源于禾本科祖先中两条不同的染色体。
简言之,比较水稻和香蕉的染色体很大程度上支持我们的推断:Os2和Os3分别由不同祖先的染色体融合产生(图 3a)。而且他们的形成是经嵌套染色体融合,随后Os3染色体中DNA发生倒位,解释了其长臂末端显著的重复片段富集是由于部分着丝粒区重置造成的。
我们在上述推断中分析了Os2与Os3分别由两条祖先染色体融合形成,结合上文中水稻染色体同源性的分组,可以推断禾本科植物共同祖先单倍型基因组有7条染色体(GAK1-7),而基因组加倍之后,单倍型有14条染色体(这里基于一定的证据【105】,假设祖先多倍化事件为异源多倍化)。禾本科植物祖先染色体的核型与现存水稻染色体的对应关系可表示为:GAK1: Os1, 5; GAK2: Os6; GAK3: Os4; GAK4: Os7; GAK5: Os10; GAK6: Os8, Os9; GAK7: Os11, Os12。两次嵌套染色体融合使水稻基本染色体数目变成12条 (ρ1-12),这也代表了禾本科多倍化又经染色体合并后的共同祖先的植物核型。
嵌套染色体融合完全解释了在禾本科植物祖先加倍后,14条染色体减少到 10条的高粱和5条的二穗短柄草的过程。例如,由于两次嵌套染色体融合事件,GAK3、GAK6和GAK7合并产生二穗短柄草的1号染色体。高粱染色体S3与S8的祖先禾本科植物的染色体(P3和P8)合并产生了玉米3号染色体【75】。同时也可以解释玉米特有多倍化后大部分的染色体融合(80%),而染色体端端连接融合占了20%。玉米和高粱同源基因点图中,共线性断裂的发生暗示祖先黍亚科(Panicoideae)染色体P1和P10经换臂式DNA易位,分别形成了玉米染色体M9和M5的一部分。换臂式DNA易位也解释了玉米染色体M1和M10的产生【75】。
总的来说,染色体的融合与相互易位解释了观察到的染色体生成的过程和数目的减少。染色体融合过程中产生的小染色体可能就是禾本科的B染色体,染色体数目的减少伴随着禾本科B染色体的产生和丢失。
(2)麦类染色体的演化路径
相对于水稻来说,同属于早熟禾亚科的麦类和二穗短柄草,系统进化关系比较接近。麦类的基本染色体数目为7条,二穗短柄草的基本染色体数目为5条,那么两者的核型进化过程是不是比较一致呢?
按照水稻和早熟禾亚科(麦类和二穗短柄草)基因共线性,分析直系同源染色体(或直系同源染色体片段)的对应关系,发现麦类染色体T3和T6分别对应水稻Os1和Os2(ρ1和ρ2,以下类似),保持了祖先染色体的结构。而其他染色体都发生了融合性重构,生成了新的染色体:T1是Os10和Os5经嵌套染色体融合形成,T2是由Os4和Os7经嵌套染色体融合形成,T7是由Os6和Os8经嵌套染色体融合形成。T4和T5的进化过程比较复杂。首先Os11和Os3经嵌套染色体融合,形成中间产物Os11/3和一条小染色体。另外Os12和Os9经端端连接的染色体融合,形成中间产物Os12/9和一条小染色体。两个中间产物 Os11/3和 Os12/9 经相互易位形成T4和T5(图3b)。麦类染色体在进化过程中,涉及4次嵌套染色体融合事件,同时可能形成了4条小染色体;还涉及到2条染色体端端融合形成1条新的染色体和1条小染色体。在麦类进化过程形成的5条小染色体有可能在进化过程中丢失,最终导致了由12条染色体变成现存麦类的7条基本染色体【106】。
二穗短柄草2号染色体Bd2是水稻染色体Os5和Os1经嵌套染色体融合形成的。而二穗短柄草1号染色体Bd1的形成涉及到2次嵌套染色体融合事件,水稻Os3和Os7发生嵌套染色体融合形成中间产物Os3/7,Os6染色体两个端粒交叉形成的主要染色体侵入到中间产物Os3/7的着丝粒区域,发生嵌套染色体融合,最终形成Bd1。染色体Bd3和Bd4的形成过程和Bd1类似,发生了2次嵌套染色体融合事件,Os8、Os2和Os10这3条染色体合并产生Bd3,而Bd4则是由Os9、Os12和Os11合并产生(图3b)。Bd5的核型大尺度上变化不大,与Os4基本相同。在二穗短柄草染色体形成过程中,发生了7次嵌套染色体融合,产生了7条小染色体,损失的这些小染色体导致了染色体数目从12条减少到5条【106】。
通过共线性和点阵图分析,我们发现虽然二穗短柄草是模式生物,并且和麦类亲缘关系很近,但是麦类和二穗短柄草的核型进化是完全不同的、独立的途径。这意味着这两类物种的进化不是单一的事件,比如共享交叉或融合形成的中间世系或现存的染色体,而是两者经历了不同的进化途径,并且进化过程没有任何的相同过程。
除此以外,在二穗短柄草中,入侵染色体和被侵入的染色体是同源的,起源于同一个共同祖先。也就是说,相较于随机染色体,其具有更广泛的DNA水平上的对应性。而麦类入侵染色体和被侵入的染色体是非同源的。这表明两类物种经过了不同的进化途径,在进化过程中有共同的祖先,即以水稻作为两者的共同祖先。
一个物种的1号或排号靠前的染色体大体上都是多次染色体融合产生的,而排号靠后的染色体更可能是完整的古老染色体。二穗短柄草1-4号染色体都是融合产生,5号染色体却保留了完整的古老染色体的核型。
(3)拟南芥染色体的演化路径
拟南芥(Arabidopsis thaliana)基本染色体数目是5条,它的祖先物种琴叶拟南芥 (Arabidopsis lyrata) 基本染色体数目为8条。拟南芥在染色体重构过程中发生了3次染色体融合事件。
拟南芥祖先3号染色体(Al3)和5号染色体(Al5)发生相互易位【107】,产生了现存的拟南芥3号染色体(At3)和中间染色体Al3/5。中间染色体Al3/5 和拟南芥祖先4号染色体(Al4)通过端端连接融合,产生了拟南芥的2号染色体(At2)(图3c)。Al6与Al7发生相互易位产生了拟南芥4号染色体(At4)和一个中间染色体,Al8和中间染色体通过端端连接融合,产生了拟南芥的5号染色体(At5)(图3c)。Al1与Al2通过端端连接融合产生了拟南芥的1号染色体(At1)。拟南芥发生的这3次端端连接融合事件是通过两条染色体之间的相互易位实现的,且每次都会产生一条大的染色体和一条小染色体,由此造成了拟南芥的染色体数目从8条减到现在的5条【75】。
(4)豆科植物染色体的演化路径
豆科作物是人类粮、油等食品的重要来源之一,具有重要的经济价值,包括大豆、花生等,多倍体基因组为花生和其他豆科植物染色体的进化提供了依据。
在花生基因组中保留着约5900万年前的豆科植物共同四倍体祖先【108】(Legume-common tetraploidy, LCT) 和约1.3亿年前双子叶植物共同六倍体祖先(Core-eudicot-common hexaploidy, ECH)的痕迹。花生核型很大程度上独立于其他豆科植物。
把葡萄和豆科植物基因组进行共线性比较分析,确定了5个独立的染色体融合事件,包括3次嵌套染色体融合和2次端端连接融合,在LCT之前产生了16个基本的豆科祖先染色体。通过自下而上的方法发现,5条常见的豆类染色体和11个染色体块,在很大程度上保存在不同的豆科植物中,确定了16条LCT后的祖先染色体。这意味着在LCT加倍后,原始染色体数目在基因组重新定位后恢复,这与玉米相类似【109】。与使用普通菜豆基因重建的16条LCT后染色体(称为Lu)的比较显示,花生祖先染色体A1,A3,A4,A5,A6和A7由来自Lu染色体的片段组成,且6次融合事件导致染色体数量减少。染色体A2,A8,A9和A10通过Lu染色体的两个交叉产生。在从花生A基因组分裂后,在花生B基因组中杂交产生其特异性染色体7和8【110】。
4 展望
近年来,基因组分析的最新进展加深了我们对染色体来源和组成的理解。以上综述表明,植物基因组测序为我们提供了一个关于染色体进化的基本答案。预计新的测序技术将解决经典染色体生物学中的一些困惑,但要解答所有的问题,需要更多的细胞学和生理学上的证据。我们将致力于更多的多倍体物种在某些属(类)中存在的多倍体变化的研究,期望获得足够的数据进一步解析染色体的结构变化。同时我们将构建有关植物、动物和真菌等核型进化的在线数据库,动态地重构地球上生物染色体在过去数亿年来的演化过程。这一工作已在多种植物类群中展开,并取得了一定的成果,在动物和真菌中的相关研究也已初步开展。当然,这一数据库是一个长期的项目,需要不断地更新和完善。我们希望进一步研究染色体数目的变化和B染色体产生的生物学机制,并在未来的工作中对B染色体在细胞学和生理学上开展进一步研究。
参考文献略。原文链接:
http://engine.scichina.com/doi/10.1360/SSV-2020-0042