科技工作者之家
科技工作者之家APP是专注科技人才,知识分享与人才交流的服务平台。
科技工作者之家 2021-09-10
编译 | 禾木木
出品 | AI科技大本营(ID:rgznai100)
AI 已经将合成语音从单调的机器人电话和传统 GPS 导航系统转变为智能手机和智能扬声器中动听的虚拟助手。
虽然日常和Siri、小爱或小度等对话时声音还是很机械,但最新的技术进展显示, AI 的语音合成能力已经可以说得上是以假乱真了,并且还常常自我创新,赶上八卦潮流。
比如说:
人工智能合成的语音与我们在日常对话和媒体中听到的人类语音之间仍然存在一些差距,这是因为人们说话的节奏、语调和音色都很复杂,这对 AI 来说是难以模仿的。
这一差距正在迅速缩小。
NVIDIA 研究人员正在创建高质量、可控制的语音合成模型和工具,这些模型和工具能够捕捉人类语音的丰富性,并且不会出现音频杂音。
这些模型可实现为银行和零售商的自动客户服务热线配音、使视频游戏和书籍中的人物变得栩栩如生,并为数字化身提供实时语音合成。
情感语音合成只是NVIDIA研究院在对话式AI领域的重点工作之一。该领域还包括自然语言处理、自动语音识别、关键词检测、音频增强等。
比如下面这段语音,你能听出,这是 AI 唱的吗?
这音调、音律和小撒有一拼啊~
1I AM AI
NVIDIA 研究人员目前正在 INTERSPEECH 2021大会上展示他们的最新项目,本届大会将持续到9月3日。
语音合成模型已经被应用到 I AM AI 系列视频中,为这个介绍重塑各行业全球 AI 创新者的系列视频制作了生动的解说。
以前的语音合成模型对合成声音节奏和音调的控制十分有限,因此 AI 配音无法唤起观众的情感反应,只有富有感情的人类声音才能做到这一点。
过去一年,NVIDIA文本-语音研究团队开发出更强大、更可控的语音合成模型(如RAD-TTS),解决了上述难题。
NVIDIA 在 SIGGRAPH Real-Time Live 比赛中的获奖演示即采用这个模型。通过使用人类语音音频来训练文本-语音模型,RAD-TTS 可以将任何文本转换成说话人的声音。
该模型的另一项功能是语音转换,即使用一名说话人的声音讲述另一名说话人的话或歌唱。
RAD-TTS 界面的灵感来自于将人的声音作为一种乐器这一创意。用户可以使用它对合成声音的音调、持续时间和强度进行精细的帧级控制。
通过这个接口,视频制作者可以在录制中自行阅读视频文本,然后使用AI模型将他作为男叙述者的语音转换成女叙述者的声音。
制作者可使用这个基准叙述,像指导配音演员一样指示 AI ,比如通过调整合成语音来强调特定的词语、修改叙述节奏以更好地表达视频中的语气等。
该 AI 模型的能力已超出了配音工作的范围:文本-语音转换可以用于游戏、为有声音障碍的人提供帮助、或帮助用户用自己的声音进行不同语言的叙述。它甚至能重现标志性歌手的表演,不仅可以匹配歌曲的旋律,还能匹配人声背后的情感表达。
2为AI开发者和研究者提供语音功能
为了方便企业及研究人员的应用,NVIDIA提供了GPU加速的语音SDK。
NVIDIA NeMo是一款用于GPU加速对话式AI的开源Python工具包。NeMo中易于使用的API和预训练模型能帮助研究人员开发和自定义用于文本-语音转换、自然语言处理和实时自动语音识别的模型。
其中几个模型是在NVIDIA DGX系统上使用数万小时的音频数据训练而成。开发者可根据自己的使用情况对任何模型进行微调,用NVIDIA Tensor Core GPU上的混合精度计算加快训练速度。
NVIDIA NeMo还通过NGC提供在Mozilla Common Voice上训练的模型,该数据集拥有76种语言、近14000小时的众包语音数据。其目标是在NVIDIA的支持下,通过全球最大的开源数据语音数据集实现语音技术的普及化。
3结 语
其实,不只是英伟达,此前,小冰也发布过超级自然语音技术。
小冰公司 CEO 李笛此前曾表示,AI的声音太接近真人,就很有可能被滥用。因此小冰禁止为普通个人训练声音。
但这样的技术,也逐渐走进人们的日常生活中。
你平时会和手机助手怎么交流呢?可以在下方留言区评论呦~
参考链接:
https://blogs.nvidia.com/blog/2021/08/31/conversational-ai-research-speech-synthesis-interspeech/
来源:人工智能头条
原文链接:http://mp.weixin.qq.com/s?__biz=MzAwNDI4ODcxNA==&mid=2652260362&idx=1&sn=82aa27e409bf4808cee2f836ab51848b
版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。
电话:(010)86409582
邮箱:kejie@scimall.org.cn
迄今最复杂人工智能语音模型创建,可模仿人的原声
大风:社会组织与公益 是解决就业和社会稳定最重要的渠道
用“小AI”解决人工智能的“大”烦恼
“传播科学火种·启迪科学梦想”科普志愿新疆行举办
SDAAI第四届山东省大学生人工智能大赛人工智能语音应用赛项
SDAAI第四届山东省大学生人工智能大赛人工智能语音应用赛项
中国深耕人工智能领先迈向AI时代
迈向强人工智能:DeepMind让AI不再遗忘
人工智能语音技术试水网络鉴黄
AI技术打造世界首款人工智能律师