Genome Research:柳军涛/高欣/方兆元合作开发全新的转录组拼接策略

科技工作者之家 2020-08-19

来源:BioArt

癌症等复杂疾病与转录过程中的可变剪接密切相关,因此认知转录产物的种类、特异性及表达量对于复杂疾病机理的研究及临床诊断具有重要意义。高通量RNA-seq测序技术为揭示和研究真核生物转录组的复杂结构提供了前所未有的机遇,然而如何从海量测序片段准确高效的拼接出全长转录组成为目前面临的一个重大挑战。
现有的转录组拼接工具根据计算策略主要可以分为两大类:基于参考基因组的拼接(genome-guided)和从头拼接(de novo),两类方法各有利弊。当要拼接的物种存在高质量基因组时,通常采用基于参考基因组的拼接策略。反之,则只能采用从头拼接方法。基于参考基因组的拼接方法能够充分利用参考基因组的信息,因此这类方法的拼接准确度和效率往往远超从头拼接方法。在研究人类等模式生物时,这类方法往往是首选。但是,这类方法不适用于基因组缺失或不完整的状况;另外,短序列回贴过程中产生的错误会带到转录拼接过程中引入误差。相比之下,从头转录组拼接策略不依赖于参考基因组,因此能够补充基于参考基因组方法的一些不足。但是,由于数据量的巨大以及可变剪接不同变体的难以辨别等诸多挑战,导致从头拼接方法准确率极低,且时间和内存的消耗量巨大,该问题仍然十分具有挑战性。然而,无论是基于参考基因组的拼接,还是从头拼接,现存的方法准确率都很低,无法满足实质性的应用需求。另外,现存的方法中,并没有任何一个方法可以在所有的数据上都有最佳的表现。而且,给定一个RNA-seq数据,往往很难抉择用哪一个拼接算法是最优的。
基于上述考,2020年8月17日山东大学(威海)柳军涛课题组,联合沙特阿卜杜拉国王科技大学(KAUST)高欣教授课题组(http://sfb.kaust.edu.sa)以及中国科学院上海方兆元课题组在Genome Research发表题为TransBorrow: Genome-guided transcriptome assembly by borrowing assemblies from different assemblers的文章,提出了一种全新的拼接策略,来实现通过借助多种拼接算法的拼接结果来达到一致性最优的拼接效果。
wt_a52382020020063154_aaa138.jpg
如下图所示,该方法,TransBorrow,首先根据RNA-seq测序片段的回贴构建剪接图(splicing graph),并根据双端测序信息,提取出可靠的双端子路(reliable paired subpaths)。之后,为了借用多种拼接算法的拼接结果来达到一致性最优,TransBorrow创造性的根据不同的拼接结果来构建一个全新定义的着色图(colored graph),并从该图中提取可靠的拼接子路(reliable assembly subpaths)。接着,TransBorrow会把这些可靠的拼接子路回贴到原始的剪接图中,找到它们对应于剪接图中的子路。这些子路联合可靠的双端子路将对后续的拼接过程起到准确高效的指导作用。最后,将上述过程中的两类可靠子路作为种子,利用全新的路径搜索算法产生出代表表达转录本的路覆盖,路覆盖中的每一条路代表一个预测出的表达转录本。由于充分结合了不同拼接方法的拼接结果,TransBorrow的拼接将达到一致性最优。
wt_a72302020082063154_addc78.jpg
TransBorrow能够充分利用不同拼接方法的拼接结果,但又不完全依赖于它们,因此,TransBorrow能够准确的拼接出大量的未被其他方法预测出来的转录本。
该文章使用了100余组数据(包括模拟数据和真实数据)来验证了方法的有效性。在模拟数据上,与经典的拼接算法如StringTie2,Scallop,Cufflinks,StringTie-merge及TACO相比,TransBorrow达到了最高的准确率,并且能够比上述算法提高5.64%到52.29%的转录本重构率。在真实数据上,TransBorrow的优势更加明显,能够比上述算法提高多达14.61%到114.93%的转录本重构率。而且,TransBorrow在重构低表达转录本方面展现出了更大的优势,比如,在模拟数据上,TransBorrow比上述方法提高7.3%到146.25%的低表达转录本重构率;在真实数据上,提高幅度达到了44.19%到361.22%。另外,TransBorrow在重构长非编码RNA以及单细胞RNA-seq数据转录组方面也展示出了明显的优势。
总的来说,TransBorrow是目前已知的第一个实现通过借用不同拼接算法的拼接结果来获取可靠子路,并利用获取的可靠子路来准确指导拼接过程的转录组拼接方法。该方法在大量的不同类型数据上验证了其有效性,因此,TransBorrow将在包括癌症在内的与可变剪接相关的复杂疾病研究中起到重要的理论指导作用。该方法已经做成了用户友好的开源软件供研究学者免费下载试用。
下载地址为:https://sourceforge.net/projects/transcriptomeassembly/files/TransBorrow/
原文链接:https://genome.cshlp.org/content/early/2020/08/17/gr.257766.119.short?rss=1

来源:BioGossip BioArt

原文链接:https://mp.weixin.qq.com/s?__biz=MzA3MzQyNjY1MQ==&mid=2652496343&idx=4&sn=c8102b359c22770cb01370b96ee046d0&chksm=84e27263b395fb75e3db3baf52f0556870e73749845a789ced39879c834174b476c455a581bf#rd

版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。

电话:(010)86409582

邮箱:kejie@scimall.org.cn

基因组 转录组 拼接

推荐资讯