声学所在线端对端语音识别研究获进展

科技工作者之家 2020-08-14

内容来源:中国科学院

端对端语音识别是一种利用深度学习模型将语音信号直接转变为文字的技术,其中,基于注意力机制的模型可以达到较高的识别准确率。但大多数注意力机制模型需要完整的语音信号,不适用于在线处理语音流。

针对在线语音识别的应用场景,中国科学院声学研究所语言声学与内容理解重点实验室博士生缪浩然与其导师、研究员张鹏远,助理研究员程高峰等对主流注意力机制处理语音流的性能开展研究,提出一种单调截断语音流的在线注意力机制和一套高效实时的解码算法。近日,相关研究成果在线发表在IEEE/ACM Transactions on Audio, Speech, and Language Processing上。

研究发现,语音识别系统对各时刻语音信号注意力的权重分布呈指数衰减态势,这不利于处理长时语音流;在线注意力模型训练和推理之间存在差异,导致模型性能下降。基于上述问题,研究人员在设计单调截断语音流的在线注意力模型时,优化注意力权重指数衰减特性、通过离散化注意力权重缩小训练和推理之间的差异。

基于公开的中英文语音识别数据集的实验表明,单调截断语音流的在线注意力模型在处理长时语音流时性能更稳定;基于注意力机制和联结主义时序分类准则的联合在线解码算法,在线语音识别系统的字错误率略高于离线系统,其解码速度可以达到离线系统的1.5倍。这种单调截断语音流的在线注意力机制和相关解码算法为端对端语音识别技术在大规模工业在线产品中的应用提供可行方案。

该研究得到国家自然科学基金的资助。

  wt_a62312020084163117_575b85.jpg

  在线端对端语音识别框架(图/中科院声学所)

来源:中国科学院

原文链接:http://www.cas.cn/syky/202008/t20200810_4755664.shtml

版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。

电话:(010)86409582

邮箱:kejie@scimall.org.cn

注意力 模型 语音 机制

推荐资讯