科技工作者之家
科技工作者之家APP是专注科技人才,知识分享与人才交流的服务平台。
科技工作者之家 2018-10-09
在真实的声学环境中,尤其是户外录音时,语音信号的感知质量和可懂度通常会受到非平稳背景噪声(如风噪)的严重影响。风噪一般是由用户头部、记录设备或其他障碍物周围的湍流气流产生,会严重削弱语音通信的声音质量。
为了消除语音通信中的风噪、减少语音失真,中国科学院声学研究所语言声学与内容理解重点实验室的白海钏、葛凤培等人提出了一种应用于实时通信的语音增强方法。相关研究成果发表于学术期刊China Communications 2018年第9期。
深度神经网络模型可以通过利用特定环境中采音的大量数据,对风噪和语音成分进行有效估计。但是由于3kHz以下低频区域风噪与语音频谱的重叠性,该区域仍然不可避免存在少量残余风噪。在较低信噪比的条件下,残余噪声极易被人耳感知,从而导致增强后语音信号的听觉质量和可懂度明显下降。
基于软听觉噪声掩蔽原理,研究人员提出了一种新的基于深度神经网络的风噪语音增强方法。采用心理声学模型计算语音频谱的听觉掩蔽阈值,并结合软听觉噪声掩蔽原理构建基于频谱加权的语音增强方法。为了适应信号的快速时变特性,语音和噪声频谱均基于深度学习网络进行建模。
客观测试和主观评价结果均表明,与传统的基于深度神经网络的风噪抑制方法相比,这种新的语音增强方法有效地抑制了低频区域中的残余风噪,显著提升了降噪性能。
该研究获得国家自然科学基金(No.11590772, 11590770)资助。
论文信息: BAI Haichuan, GE Fengpei, YAN Yonghong. DNN-based Speech Enhancement Using Soft Audible Noise Masking for Wind Noise Reduction. China Communications (Volume 15 Issue 9, September 2018, Pages 235-243). DOI: 10.1109/CC.2018.8456465.
论文链接
内容来源:中国科学院来源:中国科学院
原文链接:http://www.cas.cn/syky/201809/t20180930_4665182.shtml
版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。
电话:(010)86409582
邮箱:kejie@scimall.org.cn
“幂律与临界”支配神经网络,深度学习技术要向大脑学习
【速览】TPAMI 2019 | 正交深度神经网络
我们为什么会给动图脑补声音?
微软深度神经网络语音,定制个性化的自然人声
Geophysics:人工智能深度神经网络地震速度分析技术
基于深度神经网络的井下无人机视觉位姿估计
【CAA智库】高文院士:人工智能与智能编码AVS3标准
人工智能、深度学习、神经网络、大数据备忘录
解析深度神经网络背后的数学原理
“这是一张有声音的gif“:我们为什么会给动图脑补配音?