撰文 | 伊凯责编 | 兮 人类首个癌细胞系,HeLa,诞生于上世纪五十年代。在其后的半个多世纪里,这种临床前模型凭借稳定的遗传背景、无限繁殖的能力及体系化的培养与操作模式,成为了全球范围内癌症分子与细胞生物学研究的首选实验对象。其在DNA突变、基因表达、表观遗传特征等方面的多样性为研究人员在不同背景下研究肿瘤发生发展的机制及开发相应的精准疗法做出了巨大贡献【1】。不过,癌细胞系在反应真实肿瘤环境上并非没有缺陷,仅仅依据细胞或组织来源对癌细胞系进行癌型分类往往会产生较大偏差。相反,对癌细胞系进行多层级的分子遗传特征标定,则能够更加系统而细致地获悉其真实属性。 2012年,来自美国Broad研究所、Dana-Farber癌症研究所和Novartis生物医学研究所的多个课题组于2012年合作完成了“癌细胞系百科全书”(Cancer Cell Line Encyclopedia, CCLE)计划,对覆盖三十多种组织来源的947种人类癌细胞系进行了大规模深度测序,整合了DNA突变、基因表达和染色体拷贝数等遗传信息【2】。在该数据库向公众开放的八年时间里,其原始论文已被引用4000余次,无疑已经成为癌症基因组学的标准参考数据库之一。 如今,癌症基因组学迎来了多模态、多层级、超高通量的全新时代,而CCLE计划也与时俱进地不断进行着更新与发展。2019年5月,CCLE项目组在Nature上发表长文,报道了癌细胞系百科全书的重大更新。在之前已有的DNA突变、基因表达和染色体拷贝数信息之外,CCLE项目人员对1000余种癌细胞系进行了基于RPPA的数百种蛋白定量、基于RNA-seq的可变剪切及miRNA定量、基于RRBS的启动子甲基化定量、以及基于代谢组学的数百种代谢物定量等(详见BioArt报道:专家点评Nature | 第二版“癌细胞系百科全书”正式发布)【3】。 尽管CCLE对癌细胞系的分子特征刻画已经渐趋完善,但对于细胞的核心功能单位——蛋白质的全局描绘仍然是其中一块显而易见的空缺。为了弥补RPPA在蛋白定量规模上的不足,2020年1月23日,哈佛医学院的Steven P. Gygi与David P. Nusinow在Cell上发表了题为Quantitative Proteomics of the Cancer Cell Line Encyclopedia的论文,对被CCLE计划收录的375个癌细胞系进行了基于定量质谱技术的蛋白组分析,为癌细胞系百科全书增添了一个全新的篇章。 在该研究中,作者对来源于22个组织谱系的375个癌细胞系进行了全蛋白组的定量分析,成功在超过一半的细胞系中得到了大于9000个共有蛋白的表达水平,而即使范围扩大至全部细胞系,这一数字也仍然高达5154,充分显示了这一数据集的高维度、高信息密度的特性,同时也使得跨样本的对比分析成为可能。 直接定量蛋白相对于基于RNA-seq的基因稳态转录水平定量的一个显著优势是避免了由转录后调控及翻译调控等混淆因素导致的对蛋白稳态水平的错误估计。近年来的多项蛋白与RNA平行关联分析也的确反映出二者间的显著不一致性,其相关系数的中位数往往低至0.5以下【4,5】。类似地,在该研究中,作者发现跨样本的基因蛋白与RNA水平相关系数均值低于0.5。尽管这些结果亦可能受到了质谱技术和RNA-seq技术本身系统性偏差的影响,但其无疑再一次提示了利用RNA-seq数据推测蛋白表达水平这一做法的潜在缺陷。 接下来,作者利用丰富的蛋白定量数据对癌细胞系进行了基因模组和信号通路层级的功能聚类分析。在利用主成分分析将高维度蛋白组水平降至二维主成分后,作者观察到第一维主成分较好地解释了不同细胞系间的组织来源差异。因此,作者将其作为单数值指标对细胞系进行排序并分析了位于两端的细胞系组群间存在的信号通路差异。结果发现,从总体趋势上看,一部分细胞系富集了氧化磷酸化和P53等通路的基因表达,而相对的另一部分细胞系则更多地富集MTOR和糖酵解等通路的激活。 除此之外,作者还发现了另一个极为有趣的现象,即基于蛋白组数据第一维主成分所做的信号通路与基因功能注释富集分析得出了数百个显著靶标,而同一方法应用至来源于RNA-seq基因表达水平数据则仅能得出十数个至数十个相关靶标。作者认为,这一结果的合理解释是蛋白质水平是相对于RNA水平的对细胞功能状态的更优标定物。 总之,在CCLE已有的上千种癌细胞系的多组学图谱的深度解析前提下,蛋白组学这一维度的添加,对于CCLE项目数据的价值而言,可谓是更上N层楼。其不仅弥补了RNA-seq数据在蛋白定量上的缺陷,更使得在蛋白层面与外延的多类癌细胞系数据库,尤其是癌症依赖性图谱数据库(Cancer Dependency Map,探究单基因敲降或敲除对癌细胞增殖的影响,从而表征基因必要性(essentiality))【6-8】的联立分析具有了更可靠的检出力。CCLE这一癌症生物医学领域内不可多得的宝贵资源所支撑的1+1>2的多组学、多模态分析模式毫无疑问将为癌症基因组学和癌症精准治疗的发展做出巨大贡献。 原文链接:https://doi.org/10.1016/j.cell.2019.12.023
参考文献
1. Gillet, J. P., Varma, S. & Gottesman, M. M. The clinical relevance of cancer cell lines. Journal of the National Cancer Institute vol. 105 452–458 (2013).2. Barretina, J. et al. The Cancer Cell Line Encyclopedia enables predictive modelling of anticancer drug sensitivity. Nature 483, 603–607 (2012).3. Ghandi, M. et al. Next-generation characterization of the Cancer Cell Line Encyclopedia. Nature (2019) doi:10.1038/s41586-019-1186-3.4. Roumeliotis, T. I. et al. Genomic Determinants of Protein Abundance Variation in Colorectal Cancer Cells. Cell Rep. (2017) doi:10.1016/j.celrep.2017.08.010.5. Edfors, F. et al. Gene‐specific correlation of RNA and protein levels in human cells and tissues . Mol. Syst. Biol. 12, 883 (2016).6. Meyers, R. M. et al. Computational correction of copy number effect improves specificity of CRISPR-Cas9 essentiality screens in cancer cells. Nat. Genet. 49, 1779–1784 (2017).7. McDonald, E. R. et al. Project DRIVE: A Compendium of Cancer Dependencies and Synthetic Lethal Relationships Uncovered by Large-Scale, Deep RNAi Screening. Cell 170, 577-592.e10 (2017).8. Tsherniak, A. et al. Defining a Cancer Dependency Map. Cell 170, 564-576.e16 (2017).