本发明属于语音识别技术领域,具体涉及一种基于口音瓶颈特征的声学模型自适应方法.为了能够实现针对不同口音的用户,进行个性化定制声学模型,本发明提供的方法包括下列步骤:S1基于第一深度神经网络,以多个口音音频数据的声纹拼接特征作为训练样本,得到深度口音瓶颈网络模型;S2、基于所述深度口音瓶颈网络,获取所述口音音频数据的口音拼接特征;S3、基于深度第二神经网络,以多个所述口音音频数据的所述口音拼接特征作为训练样本,得到口音独立的基线声学模型;S4、利用特定的口音音频数据的所述口音拼接特征对所述口音独立的基线声学模型的参数进行调整,生成口音依赖的声学模型.通过本发明的方法,提高了带口音语音识别的准确率.
发明专利
CN201611232996.4
2016.12.28
CN106875942A
2017-06-20
陶建华 易江燕 温正棋 倪浩
中国科学院自动化研究所
G10L15/16(2006.01)I,G,G10,G10L,G10L15
G10L15/16(2006.01)I,G10L15/02(2006.01)I,G10L15/06(2013.01)I,G10L15/065(2013.01)I,G10L17/02(2013.01)I,G,G10,G10L,G10L15,G10L17,G10L15/16,G10L15/02,G10L15/06,G10L15/065,G10L17/02
一种基于口音瓶颈特征的声学模型自适应方法,其特征在于,所述方法包括下列步骤:S1、基于第一深度神经网络,以多个口音音频数据的声纹拼接特征作为训练样本,得到深度口音瓶颈网络模型;S2、基于所述深度口音瓶颈网络,获取所述口音音频数据的口音拼接特征;S3、基于第二深度神经网络,以多个所述口音音频数据的所述口音拼接特征作为训练样本,得到口音独立的基线声学模型;S4、利用特定的口音音频数据的所述口音拼接特征对所述口音独立的基线声学模型的参数进行调整,生成口音依赖的声学模型.