本发明提出一种基于自适应权重的双路协同学习的视频分类方法,包括以下步骤:利用视频训练样本,对预先使用大规模图像数据集训练好的卷积神经网络模型进行精细调整,得到适用于视频特征学习的卷积神经网络模型;利用训练得到的卷积神经网络模型,提取视频的运动和静态特征,并通过运动‑静态协同学习优化这两种特征的表示,最终输出与运动和静态特征对应的两种预测得分;利用两种预测得分,对于每个类别自适应地学习融合权重,并根据得到的权重预测视频所属的语义类别.本发明通过协同学习和自适应权重学习提高了视频分类的准确率.
发明专利
CN201710379016.1
2017.05.25
CN107220616A
2017-09-29
彭宇新 赵韫禛
北京大学
G06K9/00(2006.01)I,G,G06,G06K,G06K9
G06K9/00(2006.01)I,G06K9/62(2006.01)I,G06N3/08(2006.01)I,G,G06,G06K,G06N,G06K9,G06N3,G06K9/00,G06K9/62,G06N3/08
一种基于自适应权重的双路协同学习的视频分类方法,包括以下步骤:(1)利用视频训练样本,对预先使用大规模图像数据集训练好的卷积神经网络模型进行精细调整,从而得到适用于视频特征学习的卷积神经网络模型,并提取视频的运动和静态两种特征;(2)设计协同学习层以构建运动‑静态协同学习模型,利用步骤(1)中得到的视频的运动和静态特征作为输入,通过协同学习优化各自特征的表示,并最终输出视频的运动和静态特征对应的预测得分;(3)利用步骤(2)中得到的两种预测得分,对于每个语义类别自适应学习不同的融合权重,得到运动和静态特征对于不同语义类别所起到作用的权值,并根据得到的权值预测视频所属的语义类别.