2020年4月13日,武汉大学高等研究院朱玉贤院士团队在国际期刊Nature genetics发表了题为“Genome sequence of Gossypium herbaceum and genome updates of Gossypium arboreum and Gossypium hirsutum provide insights into cotton A-genome evolution ”的研究论文。该研究围绕三个高质量棉花基因组的一系列分析,解决了棉花基因组进化起源的问题,确定了丰富的与棉花纤维长度这一重要农艺性状相关的候选基因,为棉花遗传育种提供了重要理论指导和遗传资源。希望组参与了本研究中草棉、亚洲棉的基因组测序、组装及后续分析工作,希望组研究院胡江为本文共同作者。
研究者利用三代测序,测序组装了首个草棉基因组(var. Africanum,A1, n=x=13),重新测序组装了亚洲棉基因组(Gossypium arboreum,A2, n=x=13)和陆地棉基因组(Gossypium hirsutum,(AD)1, n=2x=26),并且利用H-C数据将三个棉种基因组分别组装至染色体水平。与现有参考基因组相比,重新组装基因组的准确性与完整程度均有显著提升,更新了现有棉花基因组资源(图1)。图1 本研究组装基因组与参考基因组关键指标比较
研究者整合了非洲棉A1与亚洲棉A2两个基因组的注释信息及胚珠、根部、叶片等组织转录组数据,从多个维度展示基因组概况。比较基因组分析发现了三种棉花中多个染色体易位与倒位事件,如亚洲棉A2基因组在1号染色体和2号染色体之间发生相互易位;陆地棉(AD)1的A亚基因组2号染色体和3号染色体之间、4号染色体和5号染色体之间的两个易位;非洲棉A1和亚洲棉A2基因组之间,发生在10号和12号染色体上的两个大片段倒位(图2)。
图 2 棉属基因组共线性分析
大约1.2百万年前,A和D基因组棉花通过自然杂交和染色体加倍形成了异源四倍体棉花。异源四倍体棉花A亚基因组和D亚基因组的起源一直是科学家想要回答的问题,目前学界公认D亚基因组的供体为雷德蒙氏棉D5,但是A亚基因组的起源仍存在争议,没有确切证据支持其来源于非洲棉A1或亚洲棉A2。
该研究通过构建单拷贝基因分子树、全基因组系统发育树和群体SNP系统发育树,理清了非洲棉A1、亚洲棉A2和A亚基因组之间的进化关系,并提出A亚基因组起源新模型:A亚基因组与非洲棉A1、亚洲棉A2有着共同的祖先A0(已灭绝),在约1.0−1.6百万年前A0与雷德蒙氏棉D5形成异源四倍体棉花AD,约70万年前A0分化出非洲棉A1与亚洲棉A2(图3)。这一模型的提出结束了许久以来异源四倍体棉花A亚基因组起源的争议,并解释了棉花育种实践中非洲棉A1或亚洲棉A2与雷德蒙氏棉D5种间杂交常常不成功的原因——现有A基因组与D基因组之间的遗传距离大到可以阻止完成受精过程。
图3 棉花A基因组起源与进化模型(a)和重要进化事件(b)
为了明确非洲棉A1和亚洲棉A2基因组的遗传差异,研究团队收集了来自印度、巴基斯坦、中国等国家的14份非洲棉和67份亚洲棉种质资源进行重测序。主成分分析和邻接树都将A1和A2划分为两个独立群体,基于模型的聚类结果也显示A1和A2的群体结构明显不同,群体差异FST值接近1,属于两个不同物种;来自中国的A2与来自印度和巴基斯坦的A2家系具有明显的群体结构。以上事实表明,A1和A2基因组是独立进化的,草棉A1(var. africanum)是唯一现存的A1种质资源祖先(图4)。
图4 亚洲棉和草棉群体分析。(a)群体材料地区分布图。绿色、红色和黄色分别代表草棉群体,中国地区亚洲棉群体和印度、巴基斯坦等地区的亚洲棉群体。(b)三个群体的群体差异(FST)分析。(c)基于SNPs的系统发育分析。黄色和绿色的三角形分别代表了67个A2种质和12个A1种质,两个A1 var. africanum种质(Ghe01 and Ghe04)位于12个A1种质的根部。
随后,研究者分析了棉属的基因组扩张及进化,发现LTR类反转座子的爆发是基因组扩张的主要原因。A基因组大小相比D基因组扩增了两倍,A1基因组的72.57%、A2基因组的73.62%是由LTRs组成的。研究者采用高斯概率密度函数(GPDF)分析LTR的最早爆发时间在5.7百万年前,A、D基因组物种的形成时间相一致,而A1和A2物种形成发生在0.89-0.61百万年前,同样发生了LTR转座子爆发事件(图5)。这表明转座子的爆发可能是棉属物种分化形成的重要驱动力。图5 棉属间转座子爆发事件分析。(a)基因组扩增与转座子含量正相关。(c)LTR类转座子爆发丰度和时间分析。(d)基于高斯概率密度函数(GPDF)的转座子爆发丰度和时间分析。随后,研究者通过对三个不同棉种A基因组的比较,鉴定到大量结构变异位点,结合不同纤维发育时期的基因表达谱,筛选出影响基因差异表达的结构变异。包括WRKY12、HD-Zip2和MYB6在内的56个转录因子在三种棉花中均表现出不同的表达模式,且均与SVs相关,进一步鉴定到432个候选基因,这些候选基因将促进棉花重要农艺性状的改良(图6)。
图6 棉基因组结构变异与纤维发育分析。(a)A1、A2和AD1在开花后5-30天期间的棉纤维发育分析。(b)A1和A2基因组相对于AD1基因组的变异位点统计。(c)开花后5 - 20天伸长纤维中3个潜在转录因子基因上调的RT-qPCR分析。高质量参考基因组能够提供更完整的基因组结构,基因注释和TE插入的景观,这对进化和比较基因组学以及遗传变异分析是至关重要的。该研究利用三代测序结合Hi-C技术组装出三个高质量棉花基因组,通过比较基因组分析、基因组进化及群体遗传分析,解决了棉花A亚基因组进化起源的问题,明确了转座子的爆发对棉属的基因组扩张及进化的影响,最后通过结构变异与基因表达模式的分析确定了与棉花重要农艺性状相关的候选基因。这一系列研究成果为棉属研究提供了重要理论指导和遗传资源,结束了许久以来异源四倍体棉花A亚基因组起源的争议,加快了棉花主要农艺性状的遗传改良进程。