• 一种基于混合深度学习模型的动态手势识别方法

    • 摘要:

      本发明公开一种基于混合深度学习模型的动态手势识别方法包括:训练阶段,首先基于构成手势视频的图像集训练CNN,然后利用训练好的CNN逐帧提取动态手势视频序列每帧的空间特征;对待识别的每个手势视频序列,将CNN学习到的各帧级特征按时间顺序组织成矩阵;把该矩阵输入到MVRBM以学习融合时空属性的手势动作时空特征;引入具有判别性的NN;即把MVRBM看作NN模型参数的预训练过程,把MVRBM学到的网络权值和偏置作为NN的权值和偏置的初值,并通过反向传播算法微调NN权值和偏置;测试阶段,同样基于CNN逐帧提取动态手势视频序列每帧特征并拼接,输入前述训练好的NN进行手势识.采用本发明的技术方案,实现对3D动态手势视频序列的有效时空表示.

    • 专利类型:

      发明专利

    • 申请/专利号:

      CN201710120922.X

    • 申请日期:

      2017.03.02

    • 公开/公告号:

      CN106991372A

    • 公开/公告日:

      2017-07-28

    • 发明人:

      施云惠 淮华瑞 李敬华 王立春 孔德慧 尹宝才

    • 申请人:

      北京工业大学

    • 主分类号:

      G06K9/00(2006.01)I,G,G06,G06K,G06K9

    • 分类号:

      G06K9/00(2006.01)I,G06K9/62(2006.01)I,G,G06,G06K,G06K9,G06K9/00,G06K9/62

    • 主权项:

      一种基于混合深度学习模型的动态手势识别方法,其特征在于,包括以下步骤:训练阶段:1.1、针对输入的动态手势视频,首先基于Canny边缘检测进行去光照预处理;1.2、基于全部视频所包含的预处理后的手势静态图像训练CNN模型;1.3、定义训练数据中每个手势动作视频用T帧描述,接着将预处理好的手势视频T帧序列图像逐一地输入到CNN中,提取视频序列每一帧的特征;1.4、假定基于CNN提取的每一帧图像的特征为M维,对每个待识别的手势动作视频单元,按时间顺序逐行顺次排列这些图像帧特征,这样,一个视频动作的特征可以表示为T行M列的矩阵形式;1.5、将大小为TxM的视频特征输入到MVRBM模型中进行训练,通过不断的调整参数训练出最优的MVRBM模型;1.6、此时所有的预训练阶段已经结束,接下来建模NNet,NNet的输入和隐层节点数对应MVRBM的输入和输出矩阵的向量化的维度,MVRBM模型的权重参数作为NNet网络的输入到隐层权重参数的初始值,MVRBM的输入向量化作为NNet的输入,然后通过反向传播算法不断调节NNet网络参数使得手势识别的误差最小;测试阶段:2.1、同样地,与训练阶段(1.1)(1.2)(1.3)步骤一样,对测试数据进行处理,即对每个T帧的视频序列,提取每一帧M维的特征;2.2、依次串联每个视频序列中的所有帧的特征,得到维度为T*M大小的向量,这样,每个视频数据都可以用T*M大小的向量特征表示;2.3、将(2.2)中向量作为训练好的NNet网络的输入,进行测试及分类.