自动化所智能交互团队在语音情感识别方向获新进展

科技工作者之家 2019-08-01

来源:中国科学院自动化研究所

CASIA解锁更多智能之美20190801180851_315e11.jpg

编者按】2019年9月15至19日,全球语音顶级学术会议INTERSPEECH2019将在在奥地利格拉茨举行。INTERSPEECH是由国际语音通信协会ISCA(International Speech Communication Association)组织的语音研究领域的顶级会议之一,是全球最大的综合性语音信号处理领域的科技盛会,该会议每年举办一次,吸引了全球语音信号领域以及人工智能领域知名学者、企业以及研发人员参加。

自动化研究所智能交互研究组共有9篇论文入选该会议,小编接下来将分别从语音内容识别以及语音情感识别两大方面进行介绍。本次介绍本次介绍语音情感识别相关的《基于注意力机制的对话情感识别》、《基于无监督表征学习的语音情感识别》和《采用Lp范数池化的自动抑郁检测》等三项研究。

01

基于注意力机制的对话情感识别

20190801180851_3359c7.jpg

传统的对话情感识别方法通常从孤立的句子中识别情感状态,未能充分考虑对话中的上下文信息对于当前时刻情感状态的影响。

针对这一问题,陶建华、刘斌、连政等人提出了一种融合上下文信息的多模态情感识别方法。在输入层,采用注意力机制对文本特征和声学特征进行融合;在识别层,采用基于自注意力机制的双向循环神经网络对长时上下文信息进行建模;为了能够有效模拟真实场景下的交互模式,引入身份编码向量作为额外的特征输入到模型,用于区分交互过程中的身份信息。

在IEMOCAP情感数据集上对算法进行了评估,实验结果表明,该方法相比现有最优基线方法,在情感识别性能上提升了2.42%。

Conversational Emotion Analysis via Attention Mechanisms

Zheng Lian, Jianhua Tao, Bin Liu, Jian Huang

02

基于无监督表征学习的语音情感识别

20190801180851_37e0d3.jpg

由于情感数据标注困难,语音情感识别面临着数据资源匮乏的问题。虽然采用迁移学习方法,将其他领域知识迁移到语音情感识别,可以在一定程度上缓解低资源的问题,但是这类方法并没有关注到长时信息对语音情感识别的重要作用。

针对这一问题,陶建华、刘斌、连政等人提出了一种基于未来观测预测(Future Observation Prediction, FOP)的无监督特征学习方法。FOP采用自注意力机制,能够有效捕获长时信息;采用微调(Fine-tuning)和超列(Hypercolumns)两种迁移学习方法,能够将FOP学习到的知识用于语音情感识别。

该方法在IEMOCAP情感数据集上的性能超过了基于无监督学习策略的语音情感识别。

Unsupervised Representation Learning with Future Observation Prediction for Speech Emotion Recognition

Zheng Lian, Jianhua Tao, Bin Liu, Jian Huang

03

采用lp范数池化的自动抑郁检测

20190801180851_3d908c.jpg

相关生理学研究表明,MFCC (Mel-frequency cepstral coefficient)对于抑郁检测来说是一种有区分性声学特征,这一研究成果使得不少工作通过MFCC来辨识个体的抑郁程度。但是,上述工作中很少使用神经网络来进一步捕获MFCC中反映抑郁程度的高表征特征;此外,针对抑郁检测这一问题,合适的特征池化参数未能被有效优化。

针对上述问题,陶建华、刘斌、牛明月等人提出了一种混合网络并结合LASSO (least absolute shrinkage and selection operator)的lp范数池化方法来提升抑郁检测的性能。首先将整段音频的MFCC切分成具有固定大小的长度;然后将这些切分的片段输入到混合神经网络中以挖掘特征序列的空间结构、时序变化以及区分性表示与抑郁线索相关的信息,并将所抽取的特征记为段级别的特征;最后结合LASSO的lp范数池化将这些段级别的特征进一步聚合为表征原始语音句子级的特征。

Automatic Depression Level Detection via Lp-norm Pooling

Mingyue Niu, Jianhua Tao, Bin Liu, Cunhang Fan

来源:casia1956 中国科学院自动化研究所

原文链接:http://mp.weixin.qq.com/s?__biz=MzA5MDU0MTYxNw==&mid=2650782781&idx=1&sn=a5072429bbd374dd8691fb716cb368a9&chksm=88010763bf768e7559c4fb2d3788ba339526954634b3a7ed7ec7b16a80d8a868ad70d837fa0f&scene=27#wechat_redirect

版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。

电话:(010)86409582

邮箱:kejie@scimall.org.cn

情感识别

推荐资讯