• 音素时长预测建模方法及音素时长预测方法

    • 摘要:

      本发明涉及一种对音素时长进行建模和预测的方法,利用计算机程序自动获取训练数据集,并对训练数据中的离群点进行自动剔除;对文本特征通过音向量和组合决策树建模,使文本特征的描述更加方便和精确;在音向量训练中,采用统计语言模型的训练方法来联合训练音向量和词向量,最大程度上保留了发音单元的连贯特性,不需要任何手工标注信息,从而大大降低了系统实现的复杂度和人工参与程度;采用双向长短时记忆循环神经网络对音素时长模型进行建模,能够更好地考虑上下文信息,也更加符合音素时长预测的本质.利用本发明,大大提高了时长预测的准确性,进而提高语音合成的表现力和自然度.

    • 专利类型:

      发明专利

    • 申请/专利号:

      CN201611027187.X

    • 申请日期:

      2016.11.18

    • 公开/公告号:

      CN106601226A

    • 公开/公告日:

      2017-04-26

    • 发明人:

      陶建华 郑艺斌 温正棋 李雅

    • 申请人:

      中国科学院自动化研究所

    • 主分类号:

      G10L13/02(2013.01)I,G,G10,G10L,G10L13

    • 分类号:

      G10L13/02(2013.01)I,G10L13/08(2013.01)I,G,G10,G10L,G10L13,G10L13/02,G10L13/08

    • 主权项:

      一种音素时长预测建模方法,其特征在于,包括以下步骤:步骤A1,获取音素时长数据集;步骤A2,对音素时长数据集中的音素时长数据进行筛选,得到音素时长训练数据集;步骤A3,依据音素时长训练数据集训练基于音向量的文本特征重表示模型M1;利用训练好的模型M1生成基于音向量的文本特征重表示;步骤A4,依据音素时长训练数据集训练基于组合决策树的文本特征重表示模型M2;利用训练好的模型M2生成基于组合决策树的文本特征重表示;步骤A5,将基于音向量的文本特征重表示和基于组合决策树的文本特征重表示进行组合,生成基于音向量和组合决策树相结合的文本特征重表示;步骤A6,基于音向量和组合决策树相结合的文本特征重表示,训练双向长短时记忆循环神经网络的音素时长预测模型M3.