• 一种实时的语音驱动人脸动画的方法

    • 摘要:

      本发明提供一种实时的语音驱动人脸动画的方法,该方法有如下特性:(1)基于真实捕捉的语音参数和视觉参数,采用高斯混合模型和马尔可夫模型结合的方法实现语音参数到视觉参数的转换;(2)实现了语音参数到视觉参数的直接转换,既考虑了过去视觉特征对当前视觉特征的影响,又不依赖于语音识别系统提供的音素序列作为转换的前提;(3)能够满足实时性要求以及非实时性要求;(4)能够产生高真实感的人脸动画,也能产生具有动漫效果的人脸动画;(5)可以控制脸部表情.本发明客观性能测试和主观互动测试验证了其在网上面对面交流、虚拟主持人、电脑游戏等方面应用的有效性.

    • 专利类型:

      发明专利

    • 申请/专利号:

      CN201310173929.X

    • 申请日期:

      2013.05.10

    • 公开/公告号:

      CN103279970A

    • 公开/公告日:

      2013-09-04

    • 发明人:

      汪增福 罗常伟 於俊

    • 申请人:

      中国科学技术大学

    • 主分类号:

      G06T13/40(2011.01)I,G,G06,G06T,G06T13

    • 分类号:

      G06T13/40(2011.01)I,G,G06,G06T,G06T13,G06T13/40

    • 主权项:

      一种实时的语音驱动人脸动画的方法,其特征在于,主要步骤有:获取语音参数及其对应的视觉参数,构造训练数据集;语音参数转换为视觉参数的建模及模型的训练;构造人脸模型对应的一组blendshape;视觉参数到人脸动画参数的转换.具体步骤如下:步骤1、获取语音参数和视觉参数,构造训练数据集;让一名表演者朗读一组中文、英文或者其他任何语种的句子,在表演者脸部正前方其进行录音录像,录音录像完成后,再对声音文件和视频文件进行处理,对视频中的正面人脸图像,利用计算机视觉技术跟踪人脸特征点,每一帧的特征点组成一个形状向量s,对所有视频帧的形状向量进行主成份分析,可得参数b就是视觉参数,P为协方差矩阵的特征向量构成的矩阵.对音频文件中的语音数据提取美尔复倒谱系数MFCC,作为语音参数,最后根据时间相等的关系对视觉参数和语音参数进行匹配,通过上述处理即可获得语音参数和视觉参数的训练数据集;步骤2、语音参数转换为视觉参数的建模及模型的训练;使用高斯混合模型和马尔可夫模型相结合的方法建立语音参数与视觉参数之间的关系,不仅利用了当前的语音参数,也考虑了过去视觉特征对当前视觉特征的影响,由于在实际转换过程中,无法获取到过去视觉参数的真实值,因此该方法利用一个主转换和辅助转换相结合的框架,主转换是利用当前语音参数和过去视觉参数的状态估计当前的视觉参数,辅助转换是在不引起误差积累的前提下,利用过去的语音参数估计过去的视觉参数的状态,得到的过去的视觉参数的状态提供给主转换使用;辅助转换能够采用高斯混合模型的方法或线性变换的方法或神经网络的方法中的任何一种,主转换利用高斯混合模型模拟马尔可夫模型的转移概率密度函数,高斯混合模型的训练方法是,利用基于最大似然估计的EM算法估计高斯混合模型的参数,再使用基于最小转换误差的训练方法对模型参数进行进一步的优化;具体过程是,将EM算法估计到的高斯混合模型的参数作为初始值,利用概率下降法不断更新模型参数;步骤3、构造人脸模型对应的一组blendshape;在所有的形状向量s中,自动选取M个关键形状向量,将其作为一组二维的关键形状向量基{s},这些向量基组成的矩阵为Q,以这些关键形状向量及其对应的人脸视频图像为依据,为人脸模型设计一组与关键形状向量相对应的blendshape,这些blendshape可以是二维的,也可以是三维的,如果要合成高真实感的三维人脸动画,则使用真实的人脸照片经过三 维重建和纹理映射得到blendshape,如果要合成卡通人脸动画,能够调整每个blendshape使其具有卡通的特点;步骤4、视觉参数到人脸动画参数的转换;人脸动画参数用向量ω表示,对于一个形状向量s,能够表示为也能够近似为s=Q·ω,利用最小二乘法,能够由b计算得到ω,使用人脸动画参数ω对blendshape进行插值,即可得语音驱动的人脸动画,在此基础上,还能够指定人脸表情,通过将当前的人脸形状与指定的人脸表情进行插值,能够使人脸模型拥有相应的表情.FDA00003175465000011.jpg,FDA00003175465000021.jpg