语音合成标记语言学术资讯

语音合成标记语言（SSML：Speech Synthesis Markup Language），它是W3C的语音接口框架的一部分，是关于语音应用和在万维网上构建语音应用的一套规范，通过SSML，人们可以更多的通过移动电话、桌面计算机和其他设备来聆听合成语音，把计算和信息传输延伸到全球每个角落。

概述SSML是另一种在构建基于语音浏览器技术的VUI时令人迷惑的一部分。SSML能通过语音合成引擎界面推动便携性的发展，这个界面由不同供应商以统一方式提供。SSML是另一种W3C标准，它基于JSML(JSpeech Synthesis Markup Language，Java语音合成置标语言)。SSML根据它试图解决的问题更易于理解。1

原理SSML根据以下原理设计：

1．SSML是一种基于XML的语言：不仅依据它提供了一种标准文本分解机制，而且它使用XML表示结构化的数据来模仿书面语言里的结构(单词、句子、段落等)。

2．提供文本标准化：文本标准化能够告诉系统40#读音应为“forty pounds”而不是“forty number sign”。文本标准化通过XML标签使用来执行。

3．SSML支持使用音素发生说明：音素是在字典看起来奇怪的字符，它是用来显示如何发声的。音素是语言里的基本发音单元[SSML 2002]。

4．它能指明语音质量：SSML细节提到了改变音质、定时、语速和其他特征，这些使机器产生的发声更像人，例如韵律学。SSML设计的目标是能够提供指出语音质量的设施。

5．它有把音频集成到语音输出上的能力-许多平台在产生更像人声的方面有特别的功能。

SSML提供了这样一种功能，以至于由ssML外部功能产生的某些音频能够集成起来。它也提供连续语音合成的执行。

6．它能以模块的方式应用式样：使用基于WebGUI，我们能应用CSS来模块化、格式化和外观界面。设计SSML时应考虑的一点是能够应用ACSS模块化由语音合成系统产生的听觉界面的语音。例如在英国使用系统的用户就需要有英国VI音的语音，而在美国使用系统的用户就主要由美国口音的语音。1

语法SSML的语法如图：