学会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播,通过短篇文章让读者用母语快速了解相关学术动态,欢迎关注和投稿~
MESNet:一种在长视频中多尺度检测微表情片段的卷积神经网络
原文标题: MESNet: A Convolutional Neural Network for Spotting Multi-Scale Micro-Expression Intervals in Long Videos 原文地址:https://doi.org/10.1109/TIP.2021.3064258 微表情检测是微表情分析的一个基本步骤。为了在长视频中检测多尺度的自发微表情区间,本文提出了一种基于卷积神经网络(CNN)的新型模型,我们将其命名为MESNet。MESNet由三个模块组成:第一个模块是2+1D时空卷积网络,使用2D卷积提取空间特征,1D卷积提取时间特征;第二个模块是一个Clip Proposal Network,它给出了一些候选的微表情视频片段。最后一个模块是一个分类回归网络,它将候选的视频分类为微表情与否,并进一步回归其时间边界。我们还提出了一种新型的评价指标,用于衡量微表情区间检测的性能。我们在两个长视频数据集,即 CAS(ME) 和 SAMM上进行了广泛的实验,并采用留一主体出交叉验证的方法来评估MESNet的微表情检测性能。结果表明,我们提出的MESNet有效地提高了F1-score指标,优于其他的现状方法。
微表情是一种短暂的、无意识的面部表情,通常出现在个体试图隐藏真实感受的时刻[1]。微表情的分析有很多潜在的应用价值,例如在医疗关怀、执法审讯、国家安全等领域。和常见的普通表情相比,微表情有三个显著特征:持续时间短(<500ms)、强度低和局部运动。人类用肉眼很难发现和识别如此短暂而微弱的表情。因此需要借助计算机视觉来进行相关的分析。其中,微表情的检测是定位微表情在视频中发生的时刻,这是进一步分析情绪的必经步骤。然而,目前微表情识别的研究则相对较少。主要原因是微表情数据库的样本量较少,限制了深度学习技术与微表情检测方法的结合。近年来,更适合用于微表情检测研究的长视频数据集 CAS(ME)2 [2]和SAMM[3]已经被发布。研究长视频中微表情的检测方法将有助于实现微表情分析在真实场景的应用。 在本文中,一个多尺度的卷积神经网络(CNN):MESNet被用于在长视频中检测微表情片段。据我们所知,这是CNN 首次与长视频中微表情检测方法相结合。MESNet包含一个两阶段的预测框架和几种针对微表情检测任务设计的特殊的架构和策略。 首先,我们设计了一个基于微表情识别任务的轻量级的2+1D-时空卷积网络(如图1所示),通过分别提取空间和时间上微表情特征来区分固定长度的视频片段是否为微表情或非微表情样本。
在训练过程中,2+1D-时空卷积网络需要判别给定的微表情片段是否为微表情。我们利用交叉熵损失函数和L2正则化损失函数来优化网络: 其中, 包括2D卷积、两个1D卷积和两个全连层的参数。 2.MESNet
在MESNet中,这个2+1D-时空卷积网络被用于提供主干网络和预先训练的参数。此外,为了更准确地检测微表情片段,我们增加了一个片段候选网络(Clip Proposal Network,CPN)和一个分类回归网络(CRNet)。其中,CPN 是一个全卷积网络,它被添加到2+1D-时空卷积网络预训练的卷积层中,并将在长视频中所有可能的微表情区间列入候选(如图2所示)。
图2 片段候选网络(Clip Proposal Network,CPN) 假设输出的 对应片段的区间是 并且距离最近的真实微表情的区间是[a, b]。对应于 的真实标签是一个one-hot vector,定义为:
CPN的损失函数设计如下:
其中,第一项代表交叉熵损失函数,第二项代表所有可训练参数的L2正则化损失。 。 0 或 1,将其引入损失函数是为了缓解微表情和非微表情的样本不平衡问题。由于微表情的样本数量远远少于非微表情。所以,当 是微表情时, 1 。当 为非微表情时, 设置为1的概率是微表情和非微表情的比例。 然后, CRNet 模块 对候选视频片段进行进一步的判断,并且回归它们的时间边界,从而得出最终的微表情片段检测结果(如图3所示)。
CRNet最后包括两个全连层,第一个输出一个向量 将候选的视频分类为微表情或非微表情。另一个全连层也有两个神经元,但没有任何激活功能。它输出一个向量 来回归候选片段的时间边界。其损失函数设计如下:
其中,是 是平滑L1损失函数[4]。第一项是用于分类的交叉熵损失函数和回归的平滑L1损失,第二项是除最后两个全连接层外所有层可训练参数的L2正则化损失。 。 代表CPN 提出的每个候选片段。 是候选的微表情片段总数。如果预测值 表明ME的概率不小于阈值 ,则候选的片段以区间 输出。 同时,为了提升网络的检测性能,视频片段的光流特征作为高级特征被输入到MESNet中。 此外,我们改进了之前的微表情检测结果的评估方法,重新定义了更适应基于微表情区间检测的指标。在最近发布的长视频数据集CAS(ME)2 和SAMM中进行了大量的实验,并使用留一交叉验证法来评估定位性能。对比结果表明,我们所提出的MESNet算法取得了最先进的微表情片段检测性能,特别是在SAMM数据集上其检测结果明显优于其它已发表的方法 。表1 与其他已发表论文结果比较
本文首先提出了基于CNN的长视频多尺度自发微表情区间检测方法。我们提出的MESNet包括两阶段预测:一是CPN预测;二是CRN的进一步预测。我们利用微表情长视频数据库CAS(ME)2 和SAMM对算法性能进行了评价。实验结果证明,两阶段的网络设计可以有效提高F1-score指标。无论是否发生过拟合,我们所提出的MESNet都优于现有的最先进的微表情检测方法。特别是在SAMM中,检测性能的提高是非常显著的。此外,目前,我们只用几十个或几百个微表情样本来训练数万个参数。在未来有更多可用数据时,我们所提出的方法可以实现更优越的性能。这项工作是对基于卷积神经网络的微表情检测方法的探索,仍有很多改进需要。在未来的工作中,我们将进一步研究更好的模型。
[1] Ekman P, Friesen W V. Nonverbal leakage andclues to deception[J]. Psychiatry, 1969, 32(1): 88-106.
[2] Qu F, Wang S J, Yan W, et al. CAS(ME)2: A Database for Spontaneous Macro-Expression and Micro-Expression Spotting andRecognition[J]. IEEE Transactions on Affective Computing, 2018, 9(4): 424-436.
[3] Yap C H, Kendrick C, Yap M H. SAMM long videos:A spontaneous facial micro-and macro-expressions dataset[C] 2020 15th IEEEInternational Conference on Automatic Face and Gesture Recognition (FG 2020).IEEE, 2020: 771-776.
[4] Ren S, He K, GirshickR, et al. Faster R-CNN: towards real-time object detection with region proposalnetworks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2016, 39(6): 1137-1149.