以下文章来源于PHI group ,作者PHI课题组
致力于心理健康脑影像学研究
导读
自闭症谱系障碍(ASD)是一系列常见的儿童神经发育障碍,利用MRI技术研究精神疾病的脑神经标志物逐渐展现出巨大的潜力。本文作者提出了基于图的特征选择GBFS(Graph-Based Feature-Selection,GBFS), 基于受限路径的深度优先搜索RP-DFS(Restricted Path-based Depth-First Search,RP-DFS)的特征选择方法,构建了深度信念网络(DBN)分类模型,并使用自动超参优化技术,达到了迄今为止在自闭症脑成像数据交换ABIDE(Autism Brain Imaging Data Exchange,ABIDE)数据集上最好的分类性能。
基于深度信念网络:
作者:Zhi-An Huang , Zexuan Zhu , Senior Member, IEEE, Chuen Heung Yau, and Kay Chen Tan , Fellow, IEEE
一·回答什么问题
本文采用数据驱动的方式探索ASD疾病的神经标志物,构建了具有良好性能的分类模型。
文章论述的主要内容包括以下三个方面:
(1)利用ABIDE多站点的数据,提出了基于GBFS方法,结合RP-DFS扩充特征,并使用DBN进行ASD疾病分类的模型,在使用同样数据集时该模型达到了最高分类准确率(0.764±0.022)。
(2)使用上述DBN分类模型,在不平衡的rs-fMRI数据集上引入了数据增强和超采样技术,用来分类ASD的三个亚型。
(3)利用本文模型提取得到的连接特征具有一定的可解释性,其中的一些模式已在发表的文献中得到了验证。
二·如何回答
//1. 模型框架介绍
如Figure1所示,rs-fMRI经预处理,配准至Craddock200 atlas,使用全脑功能连接(19900个PCC)作为初始待筛选的特征。
GBFS基于外部测度和内部测度图构建ASD组显著的功能连接特征。RP-DFS则使用拓扑信息来丰富图的表示。最后建立三层DBN模型并通过自动超参数调整实现模型优化。
//2. 基于图的特征选择
(Graph-based Feature-selection,GBFS)
2.1 外部测度(External measure)
由于精神障碍被认为是对大脑活动正常运行的干扰或破坏,因此显著连接需要满足以下两个标准。
1)从自闭症的平均水平来看,显著连接必须足够独特。
2)显著连接必须同时在ASD组和典型对照(TC)组之间具有鉴别性。相应地,这两个标准在数学上可以受制于:
对于每个连接都依照上述标准进行筛选,即可得到在外部测度下对ASD组的显著连接,只有81个连接被选中来进行下一步的内部测度。而若采用与公式(2)相反的标准,选择对于TC组显著的连接,则得到380个。在筛选出的ASD组显著连接中,与前额叶以及大脑后部皮质相关的个数分别为18和4,这与已有的前额叶与大脑后部负性连接的理论相一致。两组内的显著连接如Fig.3所示。
2.2 内部测度(Internal Measure)
使用K-近邻域扩展外部测度中的显著性连接。过程如Fig.4所示。首先利用外部测度中选出的81个显著连接构造图的结构,图中的节点代表ROI,边代表显著连接(PCC)。对于每一个目标显著连接,将其对应的两个ROI分别扩充至K个欧式空间上的近邻ROI域中,并构造扩充后的两个域之间的(K+1)*(K+1)个连接。遍历所有外部测度下的81个显著性连接,剔除重复构造的连接最后得到经内部测度后的显著性连接共3288个。
//3. 受限路径的深度优先搜索(Restricted Path-Based Depth-First Search Algorithm,RP-DFS)
路径(P)被定义为两个目标ROI之间在限制长度(步长)内的一组连接。给定两个目标ROI分别为R_i和R_j,该算法主要基于两个假设:
(1)如果一个目标ROI的R_i和R_j与另一个目标ROI的 R_k相连 ,但R_i和R_j彼此之间是断开的,则认为R_i和R_j在图中的连接是半显著的,其权重应随路径的延长而相对降低。(2)连接两个目标ROI的受限路径越多,它们具有强相关的可能性就越高。
从R_i和R_j之间的所有潜在路径中整合出累计贡献,作为最终得分,得分计算方法如公式(3)(4)所示。其中N_{ij}是P在R_i和R_j之间的最大限制长度;β是衰减因子;W (P_t)代表路径P中第t个连接的权重;F_{decay}(P)是指数衰减函数,对较长路径分配较少的置信度。
本文设定的最大路径长度为2,则经过RP-DFS后,搜索到了半显著的连接个数为7712个,加上外部测度的3288个显著连接一共计算出11000个贡献得分,作为单个样本输入至DBN的特征。
//4. 使用自动超参数调整的DBN模型分类(DBN Model With Automatic Hyperparameter Tuning)
总体的分类模型框架如Fig.5所示。
(1)预训练自编码器对高维特征进行无监督的表征学习,使用了三层受限玻尔兹曼机(RBM),逐层预训练更容易收敛。经过第一步无监督学习重构数据过程,模型参数被预训练至合理范围来加速下一步的训练。
(2)在第一步预训练好的基础上进行有监督的参数微调,完成模型训练。
(3)使用训练好的模型对数据进行预测,并与真正的标签结果进行对比得到模型在测试集中的准确率。
超参数的优化方案采用贝叶斯优化(Bayesian Optimization,BO),差异进化(Differential Evolution,DE)或者粒子群优化(Particle Swarm Optimizatio,PSO)三种全局优化的算法来迭代优化。
三·用什么证据回答
//1. 分类ASD疾病的结果讨论
为了评估模型的效率和效果,所有来自ABIDE的fMRI数据集都通过多次10折交叉验证来检验,兼具了准确性,灵敏度,特异性,ROC曲线和AUC等指标。
如Table I所示,同已有的模型相比,本文的方法达到了迄今为止最高的分类准确率(0.764±0.022),灵敏度为0.778,特异度为0.750。
由于本例中的超参数调整可以看作是一个单目标优化问题,差分进化算法(DE)和粒子群算法(PSO)是基于种群的元启发式算法,当允许足够多的迭代次数时,可以获得出色的优化性能。因此,采用DE和PSO与贝叶斯优化(BO)进行性能评价比较。
Fig.6 展示了模型在三种不同优化器下随着代数增加的性能。随机搜索也被用来作为性能比较的baseline。
以往大多数研究的评价都是基于一次交叉验证的模式,而模型性能的评估往往受交叉验证样本随机划分方式的影响。本文进行了10次交叉验证,尽可能地消除这种因样本划分带来的偏倚。在使用完全相同特征的前提下,将DBN与RF(随机森林)、SVM(支持向量机)和CNN(卷积神经网络)等分类模型进行性能比较,如Table II 所示,结果证实了DBN分类模型对于所选特征的良好分类性能。
作为目前使用整个ABIDE数据库报道的最佳模型———Heinsfeld框架与不同的分类器也被用于比较,该框架在没有进行特征选择的条件下使用全脑功能连接进行分类。同时还得出了基于DL分类器的性能优于传统的基于ML分类器的结论。
如Table III所示,在都使用同样DBN模型的前提下,讨论了前文所述的GBFS以及RP-DFS两步特征筛选的有效性,以及最后使用BO超参数优化的有效性,并阶段性对比10次10-fold-cv下的平均准确率,结果显示随着方法的叠加,模型的性能是逐渐提升的。
比较不同的特征选择方法,结果如Table IV所示。考虑到GBFS方法的可靠性能,采用了三种有代表性的方法进行性能比较,即RF封装器方法、t检验滤波法和卡方统计滤波法。GBFS方法的总体性能,平均精度和特异性都最高。RF达到了0.806的最高灵敏度。然而,它们都无法在灵敏度和特异性之间进行权衡,对比结果表明了所提出的方法在FC特征选择方面的优越性。
Table V讨论了模型中其他参数选择对最终准确率的影响。展示了DBN中隐藏层的个数对结果的影响,3层的DBN会带来更好的分类性能。
Fig.9则对GBFS中的过滤因子α和近邻个数K进行了全局优化,选择α=1,K=6时的性能最佳。
由于ABIDE是包含17个国家间站点汇总的存储库,因此,所提出的模型应足够可靠才能降低不同实验环境和参与者带来的影响。除了10折交叉验证的结果之外,Table VI展示了Leave-One-Site-Out的测试结果,即来自一个站点的数据集用于测试分类的准确性,而来自其他站点的剩余数据集以8:2的比例分成训练/验证集。
所提出的模型的平均准确度达到了0.782。四个站点(SBL,NYU,OHSU和MAX_MUN)的精度明显低于平均值,这意味着这些站点可能具有特有的变异性和异质性,而这些变异性和异质性在其他站点中可能是不存在的。因此,可以得出如下结论:所提出的模型对来自新站点的不确定性分类预测具有较高的可靠性。
// 2· ASD亚型的分类
ASD作为一系列精神障碍的统称,可进一步诊断为自闭症、阿斯伯格综合征、未指定的广泛性发育障碍(PDD-NOS)等。临床表现的细微变化对基于症状的诊断标准的发现和区分具有挑战性,这阻碍了对ASD个体更精确的治疗决策。在本研究中,试图利用提出的模型,作为一个多类分类问题,来解决使用fMRI数据识别ASD内可能的亚型的问题。
Table VII展示了ABIDE数据库中各个亚型的样本个数,三类的比例是不均衡的。
在训练之前,采用了数据增强和超采样的方法,参看Fig.10。
如Table VIII所示,所有被比较的分类器在GBFS的相同特征选择下,在自闭症和阿斯伯格的样本中都获得了可靠的性能。DBN分类器的宏观平均精度最高(0.838)。所有分类器在不同程度上都表现出偏向性预测能力,在多数类上有较高的F1-measure,但在少数类上F1-measure较差。然而,DBN分类器在PDD-NOS样本上的预测性能表现出适度的提高。通过剔除少数类,即PDD-NOS,也使用所提出的模型来识别自闭症和阿斯伯格综合征。在10折交叉验证中,所提出的模型达到了令人满意的平均准确度0.896±0.030,高灵敏度0.885,高特异度0.907。这表明文中模型可以对自闭症和阿斯伯格综合症进行可靠的识别。
// 3·评估混杂因素对分类精度的影响
一个可靠的模型应该保持鲁棒性,并且如果使用部分样本作为训练数据时,不同的划分方式不会存在显著差异。文章探讨了不同的混杂因素对分类精度的影响,如Fig.11所示。准确率与眼动、利手性、FIQ评分、性别、年龄等混杂因素基本没有显著差异。数据集的不平衡性会对预测精度产生负面影响。值得注意的是,基于平衡样本数据显示,低FIQ组(<91)的准确性比高FIQ组(>121)高14.9%。这一结果表明,智力缺陷可能是ASD受试者很好的诊断特征之一。
//4·对模型的解释:自闭症大脑的神经模式
在基于RP-DFS筛选出的显著以及半显著的连接中,正向分数排名前10以及负向分数排名后10的ROI之间的连接,具体如Fig.12所示。Table IX显示了通过数字对象标识符(DOIs),确认与ASD有关的涉及ROI的验证结果。65%(13/20)和60%(12/20)参与的ROIs被证实在自闭症脑内具有高功能连接和低功能连接。
在本研究中,预测自闭症大脑中左侧梭状回(122)与右侧中央前回(115)有很强的正相关关系(在预测列表中排名第一)。此外,基于体素的形态测量分析发现,自闭症儿童灰质体积减少的区域位于左侧额上回(173)。在这项研究中,左额上回(173)被预测与自闭症大脑中的左前额皮质(19)有很强的负相关(在预测列表中排名第四)。这些预测的自闭症神经模式有望作为可再生的生物标记,为ASD的病理生理机制提供深刻见解。
四·结论
本研究提出了一个新的基于图的计算模型,使用rs-fMRI数据用于分类ASD。使用GBFS方法,通过外部和内部测度两步提取显著性连接特征;为了利用图中隐含的拓扑信息,提出了RP-DFS进一步提取半显著连接的方法。最后,采用自动调优超参数的三层DBN模型进行分类。
与其他先进的方法相比,文中模型获得了最高的平均准确率0.764±0.022。综合实验充分证明了该方法的可靠性。这项工作也为鉴别ASD可能的亚型提供了一种见解。通过统计分析,模型的可解释性使揭示自闭症大脑中的相关模式成为可能。未来,期望这一模型能够利用神经网络对复杂的心理疾病进行计算机辅助诊断。
五·主要问题
本文中特征选择的过程是基于全体数据集上进行的,这会导致筛选出组间差异较为显著的特征,自然会得到很好的分类性能。
合理的做法是在每次训练时都重新选择特征,保证测试集独立于训练集后,再进行训练和性能评估。但这样做的缺陷在于每次训练选出的特征不会完全相同,从而导致模型的可解释性下降。
六·有什么启发
1. 可以利用本文分类模型以及特征选择的方法,在其他精神障碍数据库分类模型的准确率问题上进行探讨。
2. 可以转换研究问题的方向,尝试探索其他精神障碍亚型的分类任务,以验证所使用的脑神经标志的有效性。
3. GBFS的内部测度中使用了ROI在真实欧式空间的K个近邻作为显著性连接的扩充,或许可以选取另外一种更有意义的近邻扩充方案。
七·原文
Huang, Z. A., Zhu, Z., Yau, C. H., & Tan, K. C. (2020). Identifying Autism Spectrum Disorder From Resting-State fMRI Using Deep Belief Network. IEEE Transactions on Neural Networks and Learning Systems.
DOI: 10.1109/TNNLS.2020.3007943
主讲&翻译:张钦戬
编辑&排版:金书玉、李嘉琳
审校:杨志
文字:PHI课题组
心理健康与脑影像研究组致力于神经影像数据科学和儿童青少年精神障碍的神经影像研究。研究方方向为:
(1)神经影像数据科学:面向临床应用,发展神经影像数据的统计和机器学习方法。目前研究项目涉及影像数据驱动的个体分类、利用自然刺激范式识别精神疾病、大规模神经影像数据库的构建和数据挖掘。
(2)儿童青少年精神障碍与脑发展异常:从脑发展异常角度研究儿童青少年精神障碍的脑异常、客观诊断指标和干预方法。目前研究项目涉及8-17岁儿童青少年焦虑障碍的脑影像队列研究。
欢迎加盟与合作。
PHI group
扫二维码|关注我们
分享有趣的学术!