Nat Methods | 苗智超等发展识别人体细胞类型新算法

科技工作者之家 2020-05-20

来源:BioArt

责编 | 兮
自从大约400年前罗伯特·胡克(Robert Hooke)发现细胞以来,识别多细胞生物中的细胞类型并了解它们之间的关系一直是生物学研究的一个主要目标【1】。历史上,用来定义、发现细胞类型的方法有:通过显微镜观察来定义、根据细胞在生物体内的位置定义、根据细胞在体内或体外的功能定义、根据细胞发育和进化史来定义,以及根据表达在细胞表面少量分子标记物来定义。
单细胞RNA转录组测序(scRNA-seq)已经产生了丰富的测序数据,是一个用于发现和推定新细胞类型并完善现有细胞分类的高维度信息来源。尽管已有许多可用的计算分析工具,但根据scRNA-seq数据对细胞类型(或细胞状态)的注释在很大程度上仍然取决于人工识别细胞聚类中的标记基因。而人工对于单细胞数据的注释既费力又费时,已经成为以人类细胞图谱计划(The Human Cell Atlas)【2】为代表的高通量单细胞测序项目的一个主要瓶颈。
能否让计算机来帮助定义细胞类型并且注释数据?如果一个机器学习模型可以学习细胞类型在单细胞测序数据中的生物学特征(例如,标记基因),机器学习是不是能够比人工分析在定义大规模数据集的细胞类型方面做得更好?如果是这样,机器学习模型应该要学到在转录组层面区分不同细胞类型的本质特征。当相同类型的细胞被聚类算法分成了多个簇(cluster),机器学习因为学习不到区分这些细胞簇的特征,而在区分这些簇的时候发生“混淆”,机器学习的准确率就会比较低。那么,就可以认为这些计算机也无法区分的细胞簇应该属于“相同细胞类型”。
wt_a32302020520102714_29bb17.jpg
如何利用机器学习在很少的人工干预的情况下将每种细胞类型聚类到一起呢?可以从一个过度聚类的状态(任意一个细胞簇都只属于一个细胞类型,但两个细胞簇可能属于同一个细胞类型)开始,利用机器学习的”混淆”来合并属于相同细胞类型的细胞簇。
2020年5月18日,英国威康桑格研究所(Wellcome Sanger Institute)Sarah Teichman(英国科学院院士、英国医学科学院院士)课题组和欧洲生物信息研究所(EMBL-EBI)Alvis Brazma课题组合作在Nature Methods上发表 “Putative cell type discovery from single-cell gene expression data”(本文第一作者为欧洲生物信息研究所苗智超博士)。文章提出了一种自动计算方法用于单细胞测序数据的细胞聚类,该方法(称为单细胞聚类评估框架(Single Cell Clustering Assessment Framework,SCCAF))可以实现对不同细胞类型的自动聚类,并且可能发现新的细胞类型(或者细胞状态)
wt_a52352020020102714_2dcdec.jpg
SCCAF基于机器学习和自映射对聚类的迭代,先从一个“过度聚类”的细胞聚类开始,逐步合并被机器学习认为是相同细胞的细胞簇。最终,得到一个能被机器学习很好区分的聚类结果,机器学习学到的每种细胞中的特征基因就是用于识别该细胞类型的特征,机器学习模型也可以作为一种新的定义细胞类型的方式。文章测试了许多已经发表的人工注释的数据集,发现SCCAF算法在绝大多数情况下都可以得到与手人工注释相似的结果。
SCCAF能自动将单细胞测序数据聚类成具有生物学意义的细胞类型,并且可以给出机器学习模型来区分这些细胞类型。该方法还可以与一系列基于参考数据的细胞注释方法(例如scClassify,Moana和singleCellNet)结合使用:首先利用SCCAF确定有意义的细胞分类,然后利用基于参考数据的计算方法进行注释(例如,根据较早的发表的数据集的细胞命名进行注释)。SCCAF是一个开源软件,也是人类细胞图谱Galaxy工具套件中高通量数据分析流程的一部分,也是欧洲生物信息研究所的单细胞表达图谱Single Cell Expression Atlas的一部分。
原文链接:https://www.nature.com/articles/s41592-020-0825-9

制版人:琪酱 

参考文献



1.  Hooke, R. & Jo Martyn And. Micrographia, or, Some physiological descriptions of minute bodies made by magnifying glasses :with observations and inquiries thereupon /by R. Hooke . (1665) doi:10.5962/bhl.title.904.
2. Rozenblatt-Rosen, O., Stubbington, M. J. T., Regev, A. & Teichmann, S. A. The Human Cell Atlas: from vision to reality. Nature 550, 451–453 (2017).

来源:BioGossip BioArt

原文链接:http://mp.weixin.qq.com/s?__biz=MzA3MzQyNjY1MQ==&mid=2652485443&idx=5&sn=cb7b18d4a72271cd51b93d5bbe7a9797&chksm=84e224f7b395ade1e9884fff195e5139ac6533b9c765b450d0986760d8dadfa77fb095361c4d&scene=27#wechat_redirect

版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。

电话:(010)86409582

邮箱:kejie@scimall.org.cn

机器学习 聚类

推荐资讯