代谢组流行病学研究进展

原创中华流行病学杂志中华流行病学微平台

点击上面蓝字关注我们

引用本文：杭栋，沈洪兵. 代谢组流行病学研究进展[J]. 中华流行病学杂志, 2021, 42: 网络预发表.

DOI: 10.3760/cma.j.cn112338-20210413-00310.

作者：杭栋，沈洪兵

摘要

近年来，基于代谢组学技术平台和数据分析方法的快速发展，作为系统流行病学的重要分支——代谢组流行病学正获得越来越多的关注。代谢组流行病学有助于更好的描述暴露特征，反映环境-基因相互作用的效应，阐明暴露与疾病的“黑箱”机制，并发现新的生物标志物。本文简要介绍代谢组流行病学研究的定义、方法、研究进展及展望。

【关键词】系统流行病学；代谢组流行病学；糖尿病；心血管疾病；肿瘤

前言

系统流行病学强调传统流行病学与现代高通量多组学技术的有机整合，是现代病因学研究和精准预防的重要方向^［¹^］。作为基因组、转录组和蛋白质组之后兴起的新的组学研究热点，代谢组学主要采用核磁共振（nuclear magnetic resonance，NMR）或质谱（mass spectrometry，MS）技术，对生物体内参与生化反应的数百至数千种中间产物及终产物（如氨基酸、脂类、有机酸等）进行定性和定量分析，描述内源性代谢物质的整体特征及其对内因和外因变化的应答规律，在疾病诊断、药物研发、生物学功能研究等领域应用广泛^［²^］。代谢组流行病学整合了代谢组学技术与流行病学研究方法，是系统流行病学的重要组成部分，相关研究的数量正逐步增加^［³^］。本文简要介绍代谢组流行病学的定义和内涵、研究设计、检测方法以及常用的数据处理和分析方法，同时也将介绍代谢组学在糖尿病、心血管疾病、恶性肿瘤流行病学研究中的进展及展望。

一、代谢组流行病学的定义和内涵

迄今为止，国内外文献尚未见代谢组流行病学的定义和内涵。笔者建议给出如下定义：代谢组流行病学是应用流行病学与代谢组学相结合的方法，系统研究人群中代谢物的分布及其与疾病/健康的关系和影响因素，评价代谢物在防制疾病、促进健康方面的应用价值。

代谢组流行病学是系统流行病学的重要组成部分。与其他组学相比，代谢组处于生命网络调控的下游，可反映环境和基因交互作用的末端效应，更接近于反映人体生理或病理状况；基因组和蛋白质组在功能水平上的微小变化可通过代谢过程得到放大，而非功能性变化则一般不会在代谢产物上得到反映，因此，代谢组流行病学研究有助于发现影响健康状况的关键事件，对于探索疾病发生发展的规律具有不可替代的作用，是实现系统流行病学——深入理解多层次多因素间复杂的调控网络及其相互作用，进行“暴露因素-组学标志物-疾病结局”病因学推断，建立疾病发生风险预警模型的关键^［⁴^］。

二、代谢组流行病学的研究设计、检测技术和统计分析方法

1. 研究设计：

根据研究的目的不同，可采用不同的流行病学研究设计，分为观察性（如队列研究、巢式病例对照研究、传统病例对照研究）和干预实验（如随机对照试验）。

队列研究设计是在基线时测量所有研究对象的代谢产物，追踪观察并比较不同代谢物水平组中结局发生率的差异，从而判定代谢物与结局有无关联及关联强度。由于队列研究的前瞻性特点符合因果推断的必要前提——时间顺序，在排除偏倚和混杂后可提供较高等级的人群证据。代谢组流行病学的一个发展趋势就是在已建立的、长期随访的高质量人群队列中开展相关代谢组学研究，推动病因学机制研究、生物标志物的发现及潜在干预靶点的识别。

巢式病例对照研究是在队列内套用病例对照研究的一种设计，以队列中所有的目标病例作为病例组，再根据病例发病时间，从同一队列的未发病者中随机匹配一个或多个对照，组成对照组。由于病例和对照的暴露（代谢组）在结局发生前获得，故一般不存在暴露与结局的时间顺序问题，且病例和对照来自同一队列，可比性较好。涉及的样本量小于队列研究，节约人力物力，因此在代谢组流行病学中较为常用。

传统病例对照研究设计是检验暴露与疾病相关性的快速方法，易于组织实施，但对照的选择比较复杂，容易发生选择偏倚。此外，病例组生物标本采集时已经发生疾病，代谢物水平可能受疾病状态的影响，导致反向因果关系，因此该设计的因果论证强度受限。但通过比较疾病早期患者与健康参与者的代谢物水平，有可能发现差异的代谢物，为提高早期诊断水平提供新的生物标志物，具有二级预防意义。

随机对照试验是将研究对象随机分配到干预组和对照组，人为施加或减少某种处理因素后，随访观察处理因素的作用效果。结合代谢组学技术，目前主要用于评估如饮食、运动、减重等干预措施对体内代谢物水平的影响，从而鉴定饮食特定标志物或反映干预效果的客观指标。与观察性研究相比，高质量的随机对照试验不容易出现混杂，因果论证强度更高，但也容易受到干预依从性差、持续时间有限、人群代表性不足、费用昂贵等问题的影响。

2. 检测技术：

代谢组学的快速发展得益于近十几年来仪器联用技术和数据挖掘技术的迅速发展。目前常用的有3个技术平台：NMR、气相色谱-质谱(gas chromatography-mass spectrometry，GC-MS)和液相色谱-质谱(liquid chromatography-mass spectrometry，LC-MS)。一般而言，NMR无需提取等预处理步骤即可检测样本中存在的代谢物，但与MS方法相比灵敏度较差，启动成本高；GC-MS灵敏度较高，成本较低，但局限于检测小分子挥发性物质，不适用于检测热不稳定或难挥发的化合物；LC-MS灵敏度高，检测物质分子量范围广，尤其是高沸点、大分子、强极性或热稳定性差的化合物^[^5-7^］。

代谢组学检测有靶向和非靶向两种方法。靶向方法采用内标化合物定量一组预先确定的代谢物，该方法具有较高的特异性和准确性，被广泛应用于不同生理状态下特定代谢产物的分析和比较。非靶向方法理论上是对样品中所有可测代谢物的综合检测，包括未知代谢物，因此在广泛识别新的代谢途径和生物标志物方面具有强大的潜力。早期流行病学研究大多采用靶向方法，近年来在大规模队列研究中应用非靶向方法的情况有所增加。如美国的护士健康研究(Nurses' Health StudyⅠ/Ⅱ)、医疗专业人员随访研究(Health Professionals Follow-Up Study)、妇女健康倡议研究(Women's Health Initiatives)及前列腺、肺、结直肠和卵巢癌症筛查试验(Prostate，Lung，Colorectal and Ovarian Cancer Screening Trial，PLCO)；西班牙的地中海饮食预防研究(Prevención con Dieta Mediterránea，PDM)；英国双胞胎队列(TwinsUK)等均采用了非靶向LC-MS进行代谢组检测。此外，美国弗雷明汉心脏研究(Framingham Heart Study，FHS)采用了高通量靶向LC-MS，中国慢性病前瞻性研究(China Kadoorie Biobank，CKB)和英国生物银行(UK Biobank)采用了高通量靶向NMR技术。

3. 统计学方法：

在应用统计方法之前，代谢组学原始检测数据要经过预处理。MS数据预处理包括基线校正、保留时间对齐、谱峰检测与识别、积分等操作，而NMR数据预处理还包括谱图去噪、相位校正和定标等操作^［^8-9^］。之后图谱信息被转换成统一格式的数据集，经过归一化(normalization)、尺度化(scaling)及数据转换(transformation)等处理后才能进行后续分析^［⁸^］。归一化的目的是消除检测过程中任何不必要的误差（如实验批次效应）；尺度化是通过调整数据的方差结构，改善后续的多变量统计分析的结果；数据转换是将偏态分布的代谢组学数据转换成正态分布，以满足线性分析的要求。

需要注意的是，代谢组学数据集通常含有缺失值。这有可能是由于生物学因素，如药物代谢产物在未服药者中缺失，也可能是检测技术的限制，如低强度信号无法与背景分离、信号强度低于仪器检测下限、仪器性能不稳定造成的检测误差等^［¹⁰^］。目前常用的处理方法包括用零、最小检测值的一半（或特定的比例）进行缺失填补，或采用复杂的统计方法，如k最近邻(k-nearest neighbors)、贝叶斯模型(Bayesian model)、主成分分析(principal component analysis，PCA)、随机森林(random forest)、基于链式方程的多重插补(multiple imputation by chained equations，MICE)等^［^11-13^］。

代谢组流行病学的统计方法可分为单变量和多变量分析。前者主要用于快速考察各个代谢物在不同组别之间的差异，如t检验和秩和检验，也可应用logistic回归或Cox回归计算比值比(odds ratio，OR)或相对危险度(relative risk，RR)，反映代谢物与结局的关联强度。在对成百上千种代谢物进行单变量分析时，需要校正多重假设检验以降低Ⅰ类错误的发生率。传统的校正方法有Bonferroni和FDR(false discovery rate)，但由于代谢物之间存在较高的相关性，这些方法通常过于保守。替代的方法有置换检验(permutation test)，通过估计零假设下的P值分布，从而得到与样本类型和检测方法相适应的阈值^［¹⁴^］。由于代谢组学产生的是高维数据，需要多变量分析方法以揭示变量间复杂的相互关系，常用的方法包括PCA、偏最小二乘判别分析(partial least squares discrimination analysis， PLS-DA)、正交偏最小二乘法判别分析(Orthogonal PLS-DA)、聚类分析、通路分析、富集分析、随机森林，以及新方法如LASSO回归和网络分析等^［⁹^］。此外，可利用代谢物构建预测模型，通过C-statistics、NRI(net reclassification improvement)、IDI(integrated discrimination improvement)等方法评价模型的优劣^［¹⁵^］。

三、代谢组流行病学的应用

近年来国内外学者基于人群队列开展了多项代谢组流行病学研究，涉及糖尿病、心脑血管疾病、恶性肿瘤等常见慢性疾病。本文选择部分代表性研究进行介绍。

1. 糖尿病代谢组流行病学：

目前已有不少研究报道了糖尿病代谢组学研究成果^［¹⁶^］。Merino等^［¹⁷^］在美国弗雷明汉心脏研究后代队列的1 150名参与者中，前瞻性分析了LC-MS靶向检测的220个血浆代谢物与糖尿病发生率的关联，发现甘氨酸和牛磺酸水平升高与糖尿病的发生风险降低有关，而苯丙氨酸增加糖尿病的风险；将19个代谢物加入传统因素模型中可显著提高糖尿病的风险预测能力。华中科技大学邬堂春教授研究团队基于同济东风队列和江苏非传染性疾病队列开展巢式病例对照研究，在1 559对年龄（±5岁）和性别匹配的糖尿病患者和对照中应用LC-MS靶向检测了52个血浆代谢物，发现丙氨酸、苯丙氨酸、酪氨酸和棕榈酰肉碱的水平升高与糖尿病发病风险增加有关，其中棕榈酰肉碱与糖尿病的关联为首次报道，为揭示糖尿病发生机制提供了新线索^［¹⁸^］。中国南京医科大学与美国哈佛大学研究团队合作，探讨了长期饮用咖啡的代谢谱与糖尿病的风险关联^［¹⁹^］：首先基于1 595名女性的非靶向LC-MS检测的血浆代谢组数据，鉴定出与咖啡的摄入量相关的34个代谢物，继而通过巢式病例对照研究发现15个咖啡相关代谢物与糖尿病风险有关，提示咖啡预防糖尿病的潜在机制；将相关代谢物加入传统危险因素预测模型，有助于提高糖尿病的风险预测水平，具有潜在应用价值^［¹⁹^］。

2. 心血管病代谢组流行病学：

美国哈佛大学研究团队通过运用LC-MS非靶代谢组学技术对西班牙和美国的多个队列进行研究，采用弹性网络回归(elastic net regression)方法从302个血浆代谢物中鉴定到67个代谢物与地中海饮食评分显著相关；较高评分相关的代谢物（如高不饱和脂质）与较低心血管病(CVD)风险有关，较低评分相关的代谢物（如谷氨酸）与更高CVD风险有关；孟德尔随机化分析支持上述代谢特征与心血管风险的关联^［²⁰^］。因此，血浆代谢组可用于评估个体对地中海饮食的代谢反应，有助于预测未来患心血管疾病的风险。CKB项目团队采用NMR靶向测定了巢式病例对照研究中4 660名研究对象的225个代谢物，发现脂蛋白和脂质与心肌梗死和缺血性脑卒中的关联相似，但与出血性脑卒中无关；高密度脂蛋白颗粒与心肌梗死呈负相关，而甘油三酯与心肌梗死呈正相关；糖蛋白乙酰、酮体、葡萄糖和二十二碳六烯酸与上述疾病均相关，结果有助于深入研究心脑血管发病机制及鉴定相关生物标志物^［²¹^］。

3. 肿瘤代谢组流行病学：

（1）肺癌：

Seow等^[22]在上海女性健康研究(Shanghai Women's Health Study)队列中采用LC-MS非靶向检测了非吸烟女性275名肺癌病例和289名对照的尿液代谢组，发现高水平5-甲基-2-呋喃甲酸与肺癌发病风险降低相关；通路分析提示一碳代谢、核苷酸代谢、氧化应激和炎症可能参与非吸烟女性肺癌的发生。此外，Wen等^［²³^］针对美国安德森癌症中心的386例肺癌患者和193例对照，采用非靶向和靶向相结合的方法发现血清胆红素水平在两组中存在显著差异，继而在42万余名参与者的前瞻性队列中进行验证，发现较低水平的胆红素与男性吸烟者肺癌发病率和死亡率风险升高有关。

（2）乳腺癌：

在一项基于欧洲癌症前瞻性调查(European Prospective Investigation into Cancer，EPIC)的巢式病例对照研究中，研究者采用靶向技术检测了1 624对乳腺癌病例和相匹配对照的127个代谢物，分析发现在基线未使用雌激素的女性中，血浆高水平酰基肉碱C2与乳腺癌的发病风险增加有关，而磷脂酰胆碱、精氨酸和天冬酰胺与乳腺癌的风险降低有关^［²⁴^］。来自美国PLCO的乳腺癌巢式病例对照研究(621对绝经后乳腺癌病例和相匹配对照)发现，617个血清代谢物中有67个与BMI密切相关，其中16a-羟基-脱氢异雄酮-3-硫酸盐和3-甲基戊二酰肉碱的水平升高增加乳腺癌发生风险；中介分析(mediation analysis)发现这两个代谢物介导了BMI与乳腺癌57.6%的关联效应，提示了肥胖促进乳腺癌发生的代谢途径^［²⁵^］。近期的另一项巢式病例对照研究基于美国癌症预防研究(Cancer Prevention Study-Ⅱ)队列，采用非靶向LC-MS检测了782对绝经后乳腺癌病例和相匹配对照的1 275个血清代谢物，结果显示9个代谢物与乳腺癌呈正相关，15个代谢物与乳腺癌呈负相关，主要涉及肉碱、甘油酯和性类固醇代谢物，为阐明乳腺癌的代谢异常机制提供了更多线索^［²⁶^］。

（3）结直肠癌：

尽管已有较多研究探讨结直肠癌的代谢异常^［²⁷^］，但绝大多数采用非前瞻性的研究设计(横断面或传统病例对照研究)或临床组织标本(如癌和癌旁)，在揭示代谢物与结直肠癌因果关联及转化应用方面存在局限性。近期来自EPIC队列的一项研究发现，世界癌症研究基金会/美国癌症研究所(WCRF/AICR)所推荐饮食及生活方式的评分与血浆中奇链脂肪酸、丝氨酸、甘氨酸和特定磷脂酰胆碱的水平呈正相关，在巢式病例对照研究(1 608对结直肠癌病例和相匹配对照)中该代谢谱与结直肠癌发病风险降低有关，其关联强度高于WCRF/AICR评分本身与结直肠癌的关联，提示代谢谱能够反映包含了多种行为和生物学暴露的效应，可用来更好地评估结直肠癌发病风险^［²⁸^］。此外，美国范德堡大学Wei Zheng研究团队基于上海女性健康研究队列和上海男性健康研究队列开展了巢式病例对照研究(250对结直肠癌病例和相匹配对照)，在非靶向检测的618个血浆代谢物中，发现35个代谢产物与结直肠癌风险相关，其中12个代谢物是甘油磷脂(9个与结直肠癌风险降低相关，3个与风险增加相关)，提示甘油磷脂的失调可能会增加结直肠癌的风险；此外还有9个其他脂类、7个芳香族化合物、5个有机酸和4个其他代谢物也与结直肠癌发病相关。经相互调整后，发现9个代谢物与结直肠癌独立相关，利用这些代谢物建立风险预测模型，其曲线下面积(area under curve)为0.76，相关结果尚需进一步独立验证^［²⁹^］。

除上所述，其他恶性肿瘤如胰腺癌^［^30-32^］、肝癌^［^33-34^］、卵巢癌^［³⁵^］等，国际上也有相应的代谢组流行病学研究报道，其研究设计、检测方法及分析策略等与上述研究类似，在此不再赘述。

四、代谢组流行病学研究的思考和展望

代谢组流行病学研究在反映暴露的特征和效应、揭示暴露与疾病的“黑箱”机制、发现新的生物标志物等方面开始崭露头角。然而，当前在大规模人群中开展代谢组流行病学研究仍面临需要解决的问题。

1. 代谢物的稳定性问题：

尽管代谢组测定的样品可以是血液等生物体液，对人体损伤较小，易于推广应用，但必须考虑生物标本采集（如禁食状态）和处理（如从采集到处理/冷冻的时间、离心、运输、冻融次数等）对代谢物的影响。在大规模多中心研究时，有时候很难确保每个中心严格遵守相同的采集和处理流程。有研究表明，尽管有些代谢物（如胆汁酸、维生素、嘌呤/嘧啶）受到禁食、采集血液的季节、处理时间延迟等因素的影响，但大多数血浆代谢物比较稳定^［³⁶^］；在-80 ℃保存几十年的标本中也能够重复出特定饮食与代谢物的相关性^［^19,37^］，但仍需要更大样本的验证研究，并利用重复收集的标本进行纵向数据分析，评估代谢物的长期稳定性和可靠性。

2. 代谢组检测和质量控制的问题：

目前尚缺乏国际统一的代谢组学检测技术流程和质控标准，不同实验室或商业公司在标本提取、仪器配置、质控方法、代谢物资源库等方面存在较大差异，限制了跨时间、跨平台和跨研究的比较。在非靶向代谢组学研究中，获得的代谢产物水平通常是半定量浓度，而非绝对定量，导致难以确定人群实际应用的阈值，需要考虑综合运用非靶向和靶向方法。现有的代谢物数据库也在持续更新，以纳入之前未知或无法识别的代谢物。

3. 数据预处理和统计分析的问题：

由于代谢组学数据的预处理步骤繁琐、代谢物数量多、相互关系复杂，增加了数据分析难度，尚无明确的最佳实践准则。尽管目前常用的算法在一定程度上提供了有效工具，但数据预处理和分析步骤可以通过不同的方法执行且没有明确的顺序，不同的基线校正、谱峰处理、变量转换、缺失填补、数据降维等方法均有可能影响最终结果，并导致在重现结果、比较结果及荟萃分析等方面出现问题。因此，亟需建立数据预处理流程、统计分析路径、可视化方案、生物学解释及报告的规范化标准协议。

4. 结果的解读与因果推断：

即使是基于高质量队列的代谢组流行病学研究，仍有可能受到残余混杂或反向因果等问题的影响，导致所发现的关联并非因果关系。外部验证是评价结果真实性的重要方法，也是希尔准则（Hill's criteria）中的一致性标准所要求的——多项独立研究结果的一致性越高，因果关系的可能性就越大。由于并非所有的代谢物具有长期稳定性，外部验证尤为重要。但如果难以获取外部验证的样本（如罕见疾病），可以考虑交叉验证的方法，先对研究对象的一个子集进行主要分析，然后在剩余子集中验证结果^［³⁸^］。

此外，尽管从数据中挖掘相关关系的方法研究发展迅速，但分析因果关系的方法仍十分有限。孟德尔随机化(Mendelian randomization，MR)方法的提出为基于观察性流行病学研究的因果推断提供了新路径。MR方法应用与暴露因素（如代谢物）相关联的遗传变异作为工具变量，能够克服观察性研究中的混杂和反向因果问题，为因果推断提供有力的证据^［³⁹^］。随着代谢物水平相关遗传数据的累积^［⁴⁰^］，MR方法有望在代谢组流行病学研究的因果推断中发挥重要作用。

为了加快提高代谢组学的人群研究水平，目前已建立了一些网络共享资源供参考，如代谢组学数据库（http://metabolomicssociety.org/）、生物信息学工具汇编^［⁴¹^］、代谢数据交换平台（http://www.metabolomexchange.org/site/）等，并成立了国际协作组。如2014年成立的代谢组研究联盟(Consortium of Metabolomics Studies)为一项大规模国际合作，包含了来自亚洲、欧洲、北美和南美的47项前瞻性队列，涉及13.6万名参与者的血液代谢组学数据，旨在通过整合资源、开发新的网络分析平台、共享源代码等方式，促进慢性疾病的代谢标志物和病因学研究^［⁴²^］。2017年由复旦大学牵头启动的“国际人类表型组计划（一期）”项目，将针对以代谢组为核心的表型组(phenomics)开展流行病学研究，助力标准化流程的建立，获得反映中国人群特征的代谢组数据库。

综上所述，代谢组学技术的快速发展，给流行病学研究提供了新的机遇。在不断完善标准化体系的基础上，推动大规模的代谢组流行病学研究，将为系统流行病学研究奠定重要基础。通过整合基因组、转录组和蛋白质组，构建涵盖DNA、mRNA、蛋白质到代谢产物的调控网络，将极大加深我们对于慢性病病因及机制的理解，并有助于发现新型生物标志物，提升疾病的早期预防和干预能力。

利益冲突 所有作者均声明不存在利益冲突

参考文献 略

微信制作 斗智

长按识别二维码关注我们

本刊官网可查阅及免费下载全部文章：http://chinaepi.icdc.cn

编辑部电话：010-58900730

阅读原文

继续滑动看下一个