语音合成标记语言

科技工作者之家 2020-11-17

语音合成标记语言(SSML:Speech Synthesis Markup Language),它是W3C的语音接口框架的一部分,是关于语音应用和在万维网上构建语音应用的一套规范,通过SSML,人们可以更多的通过移动电话、桌面计算机和其他设备来聆听合成语音,把计算和信息传输延伸到全球每个角落。

概述SSML是另一种在构建基于语音浏览器技术的VUI时令人迷惑的一部分。SSML能通过语音合成引擎界面推动便携性的发展,这个界面由不同供应商以统一方式提供。SSML是另一种W3C标准,它基于JSML(JSpeech Synthesis Markup Language,Java语音合成置标语言)。SSML根据它试图解决的问题更易于理解。1

原理SSML根据以下原理设计:

1.SSML是一种基于XML的语言:不仅依据它提供了一种标准文本分解机制,而且它使用XML表示结构化的数据来模仿书面语言里的结构(单词、句子、段落等)。

2.提供文本标准化:文本标准化能够告诉系统40#读音应为“forty pounds”而不是“forty number sign”。文本标准化通过XML标签使用来执行。

3.SSML支持使用音素发生说明:音素是在字典看起来奇怪的字符,它是用来显示如何发声的。音素是语言里的基本发音单元[SSML 2002]。

4.它能指明语音质量:SSML细节提到了改变音质、定时、语速和其他特征,这些使机器产生的发声更像人,例如韵律学。SSML设计的目标是能够提供指出语音质量的设施。

5.它有把音频集成到语音输出上的能力-许多平台在产生更像人声的方面有特别的功能。

SSML提供了这样一种功能,以至于由ssML外部功能产生的某些音频能够集成起来。它也提供连续语音合成的执行。

6.它能以模块的方式应用式样:使用基于WebGUI,我们能应用CSS来模块化、格式化和外观界面。设计SSML时应考虑的一点是能够应用ACSS模块化由语音合成系统产生的听觉界面的语音。例如在英国使用系统的用户就需要有英国VI音的语音,而在美国使用系统的用户就主要由美国口音的语音。1

语法SSML的语法如图:

本词条内容贡献者为:

王沛 - 副教授、副研究员 - 中国科学院工程热物理研究所

科技工作者之家

科技工作者之家APP是专注科技人才,知识分享与人才交流的服务平台。