科技工作者之家
科技工作者之家APP是专注科技人才,知识分享与人才交流的服务平台。
科技工作者之家 2020-08-14
内容来源:中国科学院
端对端语音识别是一种利用深度学习模型将语音信号直接转变为文字的技术,其中,基于注意力机制的模型可以达到较高的识别准确率。但大多数注意力机制模型需要完整的语音信号,不适用于在线处理语音流。
针对在线语音识别的应用场景,中国科学院声学研究所语言声学与内容理解重点实验室博士生缪浩然与其导师、研究员张鹏远,助理研究员程高峰等对主流注意力机制处理语音流的性能开展研究,提出一种单调截断语音流的在线注意力机制和一套高效实时的解码算法。近日,相关研究成果在线发表在IEEE/ACM Transactions on Audio, Speech, and Language Processing上。
研究发现,语音识别系统对各时刻语音信号注意力的权重分布呈指数衰减态势,这不利于处理长时语音流;在线注意力模型训练和推理之间存在差异,导致模型性能下降。基于上述问题,研究人员在设计单调截断语音流的在线注意力模型时,优化注意力权重指数衰减特性、通过离散化注意力权重缩小训练和推理之间的差异。
基于公开的中英文语音识别数据集的实验表明,单调截断语音流的在线注意力模型在处理长时语音流时性能更稳定;基于注意力机制和联结主义时序分类准则的联合在线解码算法,在线语音识别系统的字错误率略高于离线系统,其解码速度可以达到离线系统的1.5倍。这种单调截断语音流的在线注意力机制和相关解码算法为端对端语音识别技术在大规模工业在线产品中的应用提供可行方案。
该研究得到国家自然科学基金的资助。
在线端对端语音识别框架(图/中科院声学所)
来源:中国科学院
原文链接:http://www.cas.cn/syky/202008/t20200810_4755664.shtml
版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。
电话:(010)86409582
邮箱:kejie@scimall.org.cn
你好AI丨理解卷积神经网络中的自注意力机制
【WRC • 资讯】无需标注数据集,自监督注意力机制就能搞定目标跟踪
人民日报:智博会上品科技
注意力经济
微软论文解读:用于视觉对话的多步双重注意力模型
KT讲坛精华 | 董燕萍教授:译员的注意力控制机制
NAACL 2019论文独特视角|纠正归因谬误:注意力没有解释模型
基于字嵌入的可识别长流的分层注意力模型
声学所提出基于字嵌入的可识别长流的分层注意力模型
大赛预告丨第二届Byte Cup来袭,赢得2万美元奖金,登上字节跳动面试直通车