【干货】易江燕：语音合成与鉴别（附PDF）

原创易江燕中国图象图形学学会CSIG

2021年4月24日-25日，中国图象图形学学会围绕“生物特征生成与安全”这一主题，在中国科学院自动化研究所举办第16期CSIG图像图形学科前沿讲习班。

本篇文章为讲习班报告第一篇，由中国科学院自动化研究所副研究员易江燕讲解，报告题目为：语音合成与鉴别。

关注本公众号，回复“易江燕”，获取报告PDF

易江燕来自于中科院自动化研究所研究员陶建华所带领的智能交互团队。智能交互团队主要从事的研究方向包括：语音与语言处理、多模态人机交互、情感计算、大数据分析、模式识别等。参与国家级项目（863计划、国家自然科学基金、国际合作）40余项，在包括IEEE TASLP、TAC、IEEE TIP、PR、JMUI、ICASSP、Interspeech、ICCV、ICIP等国内外学术期刊和会议上发表论文400余篇，申请国内发明专利40余项，完成多项国家和国际标准。论文和成果曾获多项国内外学术会议奖励，研究成果曾获得北京市科技进步二等奖。相关技术产品，分别应用在腾讯、百度、Nuance、联想、搜狗、三星、诺基亚、西门子、东芝、宝马、法国电信、意大利电信等四十余家大型跨国公司产品中，在语音云平台、智能手机和导航设备中获得广泛的应用。研究成果同时还应用在MIT、CMU、Cambridge、清华、中科院计算所等三十多所国内外科研机构的科研项目中。

易江燕：

语音合成是将文字转换为语音的技术，语音鉴别技术即鉴别语音真伪的技术。目前语音合成技术已经日趋成熟，合成的语音在特定条件下可以和真人语音相媲美，语音合成技术广泛用于教育、生活、娱乐等很多领域中，但是网络空间的虚假声音危害社会稳定、国家安全和民生安全等，因此亟需合成语音鉴别技术。而合成与鉴别技术是“攻与防”“矛与盾”的关系，两者相互制约、相互促进。

01 语音合成

语音合成是将文字变成语音的技术。1939年贝尔实验室H· 杜德利（H . Dudley）制作出第一台电子合成器，这是用共振峰原理制作的语音合成器，而共振峰技术至今还在使用。1942年Bell实验室发明了语谱仪，1960年瑞典科学家G·范特的著作《语音产生的声学理论》建立了现代语音分析、合成的理论基础，理论极大推动了语音合成技术的进步。值得一提的是Holmes(1973,1983)的串联共振峰合成器和Klat(1980)的串、并联共振峰合成器。只要精心调整合成参数，这两种合成器都能合成出非常自然的语音。后来，许多语音合成系统都是基于这两个模型的。八十年代末，基音同步叠加方法(Moulines and Charpentier, 1990)的提出，使基于时域波形拼接方法合成的语音自然度大大提高。

20世纪末，统计参数语音合成已经成为了新的主流算法，尤其以基于隐马尔可夫的语音合成最为成功。二十一世纪深度学习在语音合成技术上大放异彩；2016年，谷歌提出了WavetNet语音生成模型。该模型可以直接对原始语音数据进行建模，避免了声码器对语音进行参数化时导致的音质损失，在语音合成和语音生成任务中效果非常好。2017年Tacotron和WaveNet相结合，合成的语音在某些数据集上已经可以跟真人语音相媲美。

语音合成方法主要分为波形拼接和统计参数方法。其中波形拼接可以合成高自然度的语音，但是对于不同领域文本合成效果的稳定性不强，很难胜任任意文本合成的需求。而统计参数方法可以合成稳定流畅的语音，但因参数合成器本身的缺陷，以及参数建模和生成的平均效应，合成语音不够自然。统计参数的方法主要包括HMM的方法和基于深度神经网络的方法。HMM的不足主要是生成参数不够平滑，建模不够准确，音质受限于声码器。基于深度神经网络的方法包括管道式和端到端的语音合成。管道式方法主要包括文本分析、声学模型、声码器三个模块。管道式方法流程繁复，各个模块分开优化，误差累积，优化目标不一致，对语音信息标注的成本很高。端到端语音合成可以直接对文本序列和谱参数系列进行建模，然后采用神经声码器（比如WaveNet）合成时域波形。

近年来，陶老师团队基于端到端语音合成，进行了深入研究，相关工作已发表在IEEE/ACM TASLP、ICASSP和Interspeech等语音领域的顶级期刊和会议上，同时也在国内外个性化语音合成比赛中连获佳绩。针对端到端声学模型存在暴露偏差的问题，提出了基于双向解码的端到端语音合成，在普通话数据集上，合成的语音已很难与真人录音区分。为了提高个性化语音合成的自然度和相似度，提出了音素依赖的声纹表征，运用注意力机制将目标说话人提取的句子和音素层面特征动态融合，相关工作连续2年（2019,2020）获工信部组织的“个性化语音合成大赛”第一名。针对端到端语音合成模型复杂，参数量大，少样本自适应时易过拟合，系统不稳定的问题，提出了内容与音色少样本合成方法和韵律与音色解耦的方法，在端到端模型的注意力机制中引入时长控制向量，可以控制每个音素的时长信息和韵律特征，再通过解码器赋予说话人音色信息。从而达到将韵律和音色分解的效果。该方法获依托国际顶会ICASSP2021举办的“国际多风格声音克隆大赛M2VoC” 极少样本赛道第一名。针对One-shot语音合成存在相似度不高和自然度不佳的问题，提出了两级说话人监督的一句话语音合成方法。此外，为了提高自回归模型的解码速度，提出了非自回归语音合成。受BERT中随机掩蔽方法的启发，提出了衰减掩蔽的方法实现非自回归，采用了粗略到精细的级联式解码，融入更多上下文信息。这种方式在保证高音质的前提下解码速度提升296倍。

02 语音鉴别

随着语音生成技术的日趋成熟，开始具备欺骗人类听觉和声纹识别系统的能力，对社会带来重要危害，与之对应的语音鉴伪技术已受到国内外众多机构的密切关注。国际上，针对声纹验证系统反欺诈的规模最大的比赛为ASVspoof，由英国爱丁堡大学、法国EURECOM、日本NEC、东芬兰大学等研究机构，自2015起共举办了3届，主要聚焦在声纹验证系统的反欺诈上，涉及的伪造类型主要包括录音重放、语音合成与转换。ASVspoof 2017中，第一名团队来自俄罗斯，采用了由中科院自动化所提出的轻量型卷积神经网络（LightCNN）。国内， 2020年，由中央网信办和公安部主办了第二届“中国人工智能·多媒体信息识别技术大赛”，在其中设立了“语音鉴伪赛道”。此外，之江实验室也组织了音频鉴伪挑战赛，伪造音频的类型主要是声音合成与声音转换。

陶老师团队在语音伪造鉴别方面，也已展开了大量研究工作。针对卷积网络存在忽略全局信息的问题，提出了全局-时频注意力网络，从全局和时频特征图两个层面的注意力机制为不同的特征赋予不同的注意力权重，实现了真伪语音特征更全面精准的区分。针对合成技术升级速度快和目前鉴别方法存在泛化性差的问题，提出基于连续学习的语音鉴伪方法，在保证旧类型检测精度降低不超过5%的前提下，提高了未知类型的检测精度。