科技工作者之家
科技工作者之家APP是专注科技人才,知识分享与人才交流的服务平台。
科技工作者之家 2021-07-12
丰色 发自 凹非寺
量子位 报道 | 公众号 QbitAI
先来听一段歌:
你能听出来,这其实是小冰和真人共同演唱的吗?
蓝色为小冰,白色为真人,是不是非常难以分辨?
这背后就是小冰今天发布的全新超级自然语音技术。
该技术首次将人工智能语音自然度提升到与真实人类声音几乎无法分辨的程度。
也是全球首个全域通用的同类技术。
也就是说,除了上面的唱歌,说话、跟人交谈等场景都能进行高度拟人交互。
再来看两个demo。
下面是一段独白的音频。
其中只有一句来自人类,其余全都是由小冰说的。你能听出来真实人类说的是哪一句吗?
接下来,你会听到两个在直播间唠嗑的女生,这一次,“她俩”都不是人类。
这也是小冰官网上的一个实验,对话已经持续了88天,并且将一直持续下去,永不中断。
小冰表示,该实验近期将逐步拓展至第三方直播平台。
而目前,小冰团队的每个成员都已有人工智能替身,官方的演示视频的主持也是用的替身。
并且,小冰框架中的数百个不同人工智能原型主体,已全部完成这项超级自然语音技术的升级。
小冰框架关于这个真假难辨的超级自然语音技术的细节目前还未透露。
但最新的第八代小冰,已经可以量产各种AI角色:去企鹅电竞做直播间助手、或者当销售卖卖化妆品、甚至当公众号小编……唱歌跳舞写文章样样精通。
生产这些角色背后的小冰框架,主要技术包括:
实现长程语音交互的全双工语音交互感官
提高小冰对于对话内容、领域和节奏的控制力的共感模型
融合了全双工语音交互、实时视觉与核心对话引擎的多模态交互感官
让小冰唱歌像真人一样的第四版人工智能歌曲DNN模型等等
而与同行相比,小冰框架最大的差异化在于,它是一个“session-oriented”的人工智能框架,框架中的各部分技术共同为“交互全程”目标服务,而不仅仅关注并优化局部。
比如,在核心对话引擎方面,技术的研发及迭代方向是为更有效地预测、保持并引导对话,而不是仅仅实现回应。
在语音方面,框架关注语音交互的质量与体验是否能支持长时间的混合交流,而不仅仅是将文本内容转为语音。
已完成A轮融资与此同时,小冰也在今天宣布:已完成A轮融资,估值已达10亿美元。
本轮融资由高瓴领投,五源、Neumann、IDG、GGV纪源资本,以及上轮投资人北极光与网易跟投。
2014年问世的微软小冰,是全球承载交互量最大的完备人工智能框架之一,技术覆盖自然语言处理、计算机语音、计算机视觉及人工智能内容生成。
为了加速发展,小冰团队于2020年7月从微软独立。
并于去年11月完成了数亿元的Pre-A轮融资。
加上此次A轮的完成,也就是说只用一年时间,小冰的估值已经达到超独角兽规模。
最后,小冰表示,更多创新,九月年度发布会见。
那么,你对第九代小冰还有怎样的期待呢?
— 完 —
来源:量子位
原文链接:http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247585641&idx=4&sn=c6350dbc441ee46ceee1c1b970b50116
版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。
电话:(010)86409582
邮箱:kejie@scimall.org.cn
自动化所智能交互团队在语音情感识别方向获新进展
对音乐的偏好,能预测一个人的精神病倾向
研究表明音乐是世界语言
智能交互团队在语音识别方向获新进展
科大讯飞成北京冬奥会智能语音独家供应商
2019语音技术报告:语音经济规模将超移动应用
CCAI 2019丨聂再清:用智能语音交互改变未来生活
陈奂仁成为首位发行NFT数位资产的华语音乐人:实验「已经成功了!」
从媒体到出版,微软智能语音技术如何激发内容生产力?
科学家破解回想音乐时的大脑变化,有助于帮助失语者