高歌团队发表单细胞转录组数据检索新方法和参考数据库

科技工作者之家 2020-07-13

来源:BioArt

近年来单细胞转录组测序的迅猛发展,为细胞功能和基因调控网络等重要生物学问题的研究提供了强大的技术支持。在单细胞转录组数据的相关研究中,研究者通常会先对细胞进行注释,如鉴定细胞类型、细胞分化阶段等,然而,常用的注释手段较为繁琐,且无法保证不同数据集间的可比性。随着单细胞转录组数据逐渐积累,用现有数据集作为参考(reference),来注释新测序的细胞成为一种潜在的解决方案。

利用现有数据意味着需要在不同单细胞转录组数据之间进行比较,会遇到一个广义上称为批次效应(batch effect)的问题,导致批次效应的具体原因有非常多,包括采用不同的单细胞转录组建库技术带来的转录本捕捉效率和序列偏好差异、不同实验批次的操作差异、不同测序批次的测序深度差异、不同物种表达调控的差异,甚至是不同生物信息学分析的流程差异等等。若无法将数据集之间的批次效应消除,会导致跨数据集比较的准确性大打折扣,影响对现有数据的利用。

对抗生成网络(GAN)是近年来深度学习领域的一个重要发展,GAN通过让“生成器”和“判别器”相互对抗,促使“生成器”生成和目标分布无法区分的样本,在图像、文本生成等领域取得了许多重大突破。得益于对抗学习方式强大的分布拟合能力,在生成学习以外也被成功应用于领域适应(domain adaptation)等问题,具有解决单细胞领域批次效应的潜力。

日前,北京大学生物医学前沿创新中心(BIOPIC)、北京未来基因诊断高精尖创新中心(ICG)、北京大学生命科学学院生物信息中心(CBI、蛋白质与植物基因研究国家重点实验室的高歌课题组,在Nature Communications上线上发表了题为“Searching large-scale scRNA-seq databases via unbiased cell embedding with Cell BLAST”的论文,发布了基于深度对抗学习模型的单细胞转录组数据检索和注释的新方法Cell BLAST,以及具备高质量注释的单细胞转录组参考数据库ACA,为有效利用现有数据进行细胞注释和跨数据集研究提供了新的工具和资源。

wt_a42302020713124503_f43b02.jpg
类比于生物序列研究中的BLAST算法,Cell BLAST可以在若干reference数据集中检索与用户提供的query细胞最相似的细胞,并借助这些相似细胞在数据库中的注释信息,对query细胞的注释信息进行推断。然而,在细胞检索过程中,数据集之间的批次效应会显著影响结果的可靠性,为解决这一问题,Cell BLAST使用对抗自编码器(Adversarial Autoencoder)进行转录组数据降维,结合领域对抗学习的策略来消除数据集间的批次效应(图1a),取得了优于当前其他批次效应校正工具的效果。此外,作者还提出了一个基于模型后验分布的、更为准确的细胞相似性度量NPD用于细胞检索,在设计上考虑了单细胞转录组观测本身所具有的不确定性。Cell BLAST还会根据NPD的经验分布给出检索结果的P-value。评测实验显示,Cell BLAST在细胞类型鉴定方面,相比其他细胞检索工具拥有更高的准确性。通过梯度回传的方式,作者进一步验证了Cell BLAST模型正确捕捉到了细胞类型的marker基因,具有一定的可解释性。
wt_a72332020071124503_fac674.jpg图1:Cell BLAST使用的模型结构和检索流程。(a) Cell BLAST使用的模型结构;(b) Cell BLAST的检索流程
除细胞类型鉴定外,Cell BLAST能灵敏地发现参考数据集中不存在的细胞类型。2018年Nature发表的两篇背靠背单细胞转录组研究同时鉴定出呼吸道稀有细胞类型ionocyte[2,3]。作者以这两篇研究的数据集为例,将其中一个数据集中的ionocyte去除后作为reference,用来注释另一个数据集,Cell BLAST灵敏地发现了这类细胞的特殊性,并将其reject,而没有错误地预测为其他已知的细胞类型;除此以外,作者还利用人类和小鼠造血干细胞分化的数据集[4, 5]验证了Cell BLAST还能用于跨物种注释连续细胞状态这一更具挑战性的任务,相比其他现有工具,Cell BLAST跨物种预测的细胞分化命运,与已知的命运决定基因的表达水平具有更高的相关性。
与经典的序列BLAST相仿,Cell BLAST要发挥实际作用,同样需要注释完备的大规模数据库作为支撑。通过收集大量已发表的单细胞转录组数据,作者建立了一个涵盖2,989,582个单细胞、8个物种、27个不同的组织器官的数据库,称为Animal Cell Atlas(ACA)。作者对ACA中的细胞注释进行了详细的整理,并使用Cell Ontology构建了一套结构化的细胞类型标注,用于统一不同数据集中的标注以及支持细胞类型的推断。
该课题提供了在线检索平台(https://cblast.gao-lab.org),用户可以直接上传待注释的单细胞转录组数据,用ACA中的参考数据集进行细胞检索和自动注释;同时也提供了基于Python的开源软件包Cell BLAST(https://github.com/gao-lab/Cell_BLAST),用户可以使用软件包在自定义的参考数据集上进行模型训练、检索和定制化分析。
据悉,北京大学生命科学学院博士生曹智杰、魏琳为该论文的共同第一作者,高歌研究员为通讯作者,陆燊、杨德昌在网站构建方面提供了大力支持。
专家点评
邢毅(宾夕法尼亚大学/费城儿童医院,教授)
随着深度学习技术的快速发展,对抗网络(Adversarial Network)近年在深度学习领域有诸多应用和发展,如生成学习(generative learning)、领域适应(domain adaptation)等等。单细胞组学数据中普遍存在的批次效应(batch effect)对于跨数据集分析会造成较大影响,因此近年来有不少研究工作试图解决这一棘手的问题。
高歌研究组提出的Cell BLAST方法通过在自编码器模型中引入领域对抗学习的方法显著提升了模型对于复杂多重批次效应的处理能力,结合其通过对单细胞测量过程内在随机性(intrinsic stochasticity)刻画提出的新相似性度量指标NPD,可以有效应用于单细胞跨数据集整合检索和比较分析。相关论文对Cell BLAST各方面的效果进行了充分的评估,并在模型可解释性方面进行了讨论,为单细胞组学研究提供了有价值的方法学与工具。
张强锋(清华大学生命科学学院,研究员)
单细胞转录组测序是近几年基因组学领域最重要、最前沿的研究方向之一。各种新方法的发明,各种大规模的应用,积累了海量的数据,为发现和鉴定各种细胞类型、研究器官发育和疾病发生过程、建立高精度调控网络等等提供了重要基础。然而,随着公共单细胞转录组数据的快速积累,我们迫切需要一个功能强大的“单细胞搜索引擎”,在这个单细胞的海洋中导航和寻宝。构建这样一个准确而又强大的细胞类型查询工具,在计算上有很多挑战,比如如何准确地定位细胞的近邻细胞,如何消除不同数据之间的批次效应,等等。 为了解决上述难题,高歌教授研究组提出了Cell BLAST算法,利用基于生成模型的人工智能方法,学习从高维转录组空间到低位隐层空间的非线性映射,对新的数据输入,通过对抗网络在参考数据集上预训练的模型上得到该数据的低维表示,然后在低维空间中基于NPD距离寻找相似细胞并做注释,因而巧妙地解决了细胞搜索查询问题。并通过引入对抗学习、低维表示等来矫正不同批次数据的非生物学差异,解决了批次效应问题。 Cell BLAST通过根据已有的scRNA-seq数据以及注释,准确快速地对新产生的数据进行注释,不再需要根据marker基因进行人为注释,这是单细胞测序分析的一个重要进展。其有效与否在于准确消除已有数据之间以及已有数据与新生成数据之间存在批次效应(非生物学差异)。通过广泛的数据测试和案例,研究证明了 Cell BLAST 在注释离散细胞类型和连续的细胞分化过程以及鉴定新细胞类型方面的有效性。同时,Cell BLAST网页版参考数据库强大、 Web 界面友好,为生物学家查询单细胞转录组数据和细胞注释提供了强大的一站式解决方案。期待未来基于Cell BLAST的集中式、大规模的单细胞转录组分析能带来更多新的生物学发现!
李国卫、杨力(中科院-马普学会计算生物学伙伴研究所)
基因表达及其调控是生命活动的核心过程,具体表现为其在不同的组织、器官和发育阶段具有比较显著的变化。利用新一代高通量测序及其相关计算的方法则可以在包括转录组等的水平检测基因的表达谱,这些为深入理解基因表达及其调控在正常生理和异常病理条件下的功能作用提供了重要基础。近年来,随着单细胞转录组测序技术(scRNA-seq)及相关分析的广泛应用,对转录组水平的基因表达和调控研究被推到了单细胞水平。越来越多的研究表明,转录组水平基因表达和调控存在着前所未知的复杂性及细胞特异性。与此同时,不同来源的单细胞转录组测序数据也在持续地累积中,如何充分利用这些海量大数据开展研究的机遇与挑战并存。经典的单细胞转录组测序分析流程通常基于转录组表达谱的相似性对单细胞进行聚类分析,进而通过已知的标记基因表达谱对单细胞进行分类。但是,这种常规的注释过程高度依赖于已有经验,步骤繁琐且缺乏统一标准,在不同的研究中重复性较差;而依据已有经验的标记基因数量有限,难以胜任不同单细胞类型和状态下的复杂数据集分类研究。因此这种经典分析流程的局限性,随着单细胞转录组测序数据的指数积累愈发明显。
近期,来自于北京大学的高歌团队,发布了基于深度学习的单细胞转录组测序数据检索和注释新方法-Cell BLAST。Cell BLAST与生物序列研究中的经典BLAST算法类似,通过参考数据集中相似细胞的注释信息对所要研究细胞的生物学特征进行推断。Cell BLAST算法通过对抗学习有效地解决了单细胞转录组检索中的复杂多批次效应问题;同时巧妙地利用细胞观测内在的不确定性,引入一个新的细胞相似性度量,大幅提高了细胞检索的特异性,在诸多测试和实例研究中取得了不错的效果。为了充分发挥Cell BLAST的检索能力和作用,高歌团队自主构建了单细胞转录组参考数据库-ACA,可以高效实现单细胞转录组测序数据的细胞注释和跨数据集研究。建立的ACA数据库对已有的单细胞转录组数据进行了系统的归纳和整理,涵盖了多组织和器官的跨物种数据,并提供了一套统一和可比的细胞类型注释,在数据层面为跨数据集的比较和检索等研究提供了坚实的基础。与同类工具相比,Cell BLAST在单细胞类型复杂的数据集中具有更好地表现,且不易受输入基因数和细胞数变化的影响【6】。最后,该研究在整合了数据库和算法的基础上,还搭建了可进行定制化分析的网站平台(https://cblast.gao-lab.org),以开展用户界定的个性化研究。综上,高歌团队构建的针对单细胞转录组数据分析的全新细胞检索分析方法 Cell BLAST和数据平台ACA,在充分利用了已有单细胞数据资源的基础上,为深入理解转录组在单细胞水平的异质性与复杂性提供了新手段,也展示了计算生物学、生物信息学和相关机器学习和深度学习方法在复杂生物学体系研究中的强大支撑作用。

来源:BioGossip BioArt

原文链接:https://mp.weixin.qq.com/s?__biz=MzA3MzQyNjY1MQ==&mid=2652491461&idx=5&sn=0ae165bf5a05a78c77e34f3ee9946b0a&chksm=84e25d71b395d467af31d7b1e1bfdd4aa157cd4216bfccf11d38607a98cc48f3360e5c1a78ad#rd

版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。

电话:(010)86409582

邮箱:kejie@scimall.org.cn

大数据 cell 转录组 数据检索

推荐资讯