语音产生装置学术资讯 - 科技工作者之家

语音生成设备 （SGDs）， 也被称为声音输出通信辅助设备 ，是一种电子辅助和替代通信（AAC）系统。为有语言障碍的人补充、代替言语或书写，使他们能够口头传达他们的需求。对于那些有语言沟通障碍的人来说，SGDs是很重要的。因为这个系统让每个人在沟通互动上成为积极的参与者。语音生成设备对于肌萎缩性侧索硬化症（ALS）的患者特别有帮助，但最近已被用于协助预测性语音不足的儿童。1

简介SGDs有多个输入和显示方法，给予不同类型的语言障害者使用。有些SGDs提供许多的符号页面来因应大量的言语讯息，因此随着系统定位这些符号页面时，一次仅能看到部分的符号。语音产生装置可以产生透过录制自然语音或语音合成的声音，这种声音或许带有较少的情感讯息，但可以让使用者表达丰富的语言讯息。

许多因素会引响系统内容、组织和SGD系统的词汇更新，例如在用户的需求，以及该设备使用的情境。透过技术的进步，改善现有的词汇量和输出语速是当前活跃的研究领域。使用者对词汇的使用应当是有高度重要性，是经常适用，具有一定范围的含义，并且是在功能务实。

存取设备上访问讯息有很多种方法：直接、间接地，或者使用专门的存取设备，虽然特定的存取方式会依用户的能力决定虽然速率增强策略可以增加输出的用户的速率，导致通信的效率提高，语音生成系统输出通常比语音慢得多。

第一个已知的SGD原型是在70年代中期，在硬件和软件开发进展迅速。这意味着SGD功能，当前可以整合到智能手机等设备。SGDs的用户包括著名的斯蒂芬·霍金，罗杰艾伯特、托尼Proudfoot、和皮特Frates（ALS的冰桶挑战的创始人）。

语音产生系统可以是纯粹为AAC开发的专用设备，或者非专用设备，如电脑运行的其他软件，来使系统作为AAC设备的电脑设备。2

语音产生装置的历史SGDs早在电子通信辅助根。第一个这样的援助是命名于1960年在英国注册由马岭原型病人操作的选择技术（POSSUM）一小口和粉扑打字机控制器POSSUM通过一组发光的显示器上的符号进行扫描。在1970年，荷兰代尔夫特理工大学的研究人员创建的亮点操作打字机（LOT），它利用端点的小幅度移动在字符的矩阵，每个配备了光电电池来指向一个小光点。尽管在商业上不成功，LOT仍深受其用户好评。

在70年代和80年代初，许多公司开始出现了成为后来SGDs的突出厂家。托比丘吉尔因脑炎而失去说话能力后，于1973年创立托比丘吉尔有限公司，在美国，Dynavox（当时称为有情系统技术）的发起是出于卡内基-梅隆大学的学生专案，始于1982年，以帮助一名年轻脑瘫女子脑麻痹沟通的。在20世纪80年代初期，技术改进导致语音沟通系统大大增加数目，产品多样性，和可商购的通信设备性能，并缩小尺寸和降低价格。替代性的存取，如目标扫描（也称为眼睛指向）校准使用者眼睛的移动直接引导SGD产生想表达的话语。使用者选则这种顺序性地替代性存取扫描，已在通信设备中得以取得。语音输出的可包括数位的和合成的语音。

硬件和软件的开发进展迅速且继续进行，其中包括由欧洲共同体资助的项目。第一个商用动态画面的语音生成装置是在20世纪90年代开发的。软件程序被开发，使得以点脑为基础的通讯面板得以研发。正当提高存取性和系统能力时，高科技装置继续变得更小，更轻。;通信设备可利用眼动追踪系统，执行如同电脑做的文字处理网络功能，并可作为独立接入其他设备，如电视，广播和电话的环境控制装置。

著名的ACC使用者包括斯蒂芬·霍金，罗杰艾伯特托尼Proudfoot，和皮特Frates。由于ALS所引起的病发性残疾，以及经过紧急性的气管手术，霍金无法说话。气管切开术。从那独特的语音合成设备发出的声音已经和他密不可分。在过去的20年左右有语言缺陷的年轻的孩子使用SGD有所增加，如自闭症，唐氏综合症，以及手术后的预期性脑部损伤。

在21世纪初开始，专家看到不仅SGDs在成人身上有好处，儿童也是。神经语言学家发现SGDs在帮助在脑部手术后历经暂时性语言缺陷的ALS儿童时，同样有效。特别是，数字化的SGDs已被用作用于在恢复过程中的儿科患者。

存取方法有许多方法可以存取话语讯息：直接，间接地，或专业化的存取设备。直接存取方涉及与系统的物理接触，透过使用键盘或触控板。关于使用系统，从SGDs间接和通过个别装置存取的使用者必须透过操纵感、游标、视觉指示器、光学指标、红外线指示器或开关来使用扫描器。

个别使用的方法将依赖于用户的技巧和能力有所不同。直接选择可用身体，指针，鼠标，操纵杆，或眼动，而开关控制扫描通常用于间接选择。不同于直接选择（例如，在键盘上打字，触摸屏），当电子设备的扫描指标（或光标）是所需的选项时，目标扫描的用户只能在进行选择。那些无法使让眼睛校准游标的使用者，用眼睛注视来指向和调整，选择所需要的单词和短语。扫描的速度和的图案模式，以及选择系统项目的方法，都是依使用者个别的生理条件、视觉或认知能力而设计。

信息建设增进式和替代式沟通一般比语音慢很多，用户通常每分钟生产8-10字。速率增强策略可以增加输出的用户的速率，大约每分钟增加12-15个词语，因此提高沟通的效率。

在任何SGD中可能有大量的声音表现形式有利于促进效率和有效的沟通，包括问候，表达欲望，和询问问题。随着使用者操纵各种网页，SGDs有许多符号页面来因应大量的声音表达，因此一次只有部分的符号可在屏幕上看见。语音产生装置通常显示一组使用选项: 一则使用动态变化的屏幕，或固定显示的屏幕。

提高SGD沟通速率有两个主要的方式：编码和预测

编码让用户产生一个或两个激活他们的SGD的字，句子或短语。标志性的编码策略，如结合的图标（图片符号）精简语意产生的单词或短语。在数字，字母，数字，字母和编码（也称为缩写扩展），单词和句子被编码为字母和数字序列。例如，键入“HH”或“G1”（用于问候1）可以得到“你好，你怎么样？“。

预测是一个速率的增强策略，通过预测的单词或短语，试图减少用的击键次数。然后，用户无需编写整个单词，就可以选择正确的预测用词。文字预测软件会根据语言的使用频率、与其他文字的关联性、过去的使用或文法切合度来决定选字。然而，用户已表示静态的键盘布局比具有预测性的设计在每分钟可以产生多个字（用扫描接口），这表明在使用扫描界面时，事先预示认知字词的排列法已否定了预测性的界面。

一些像是听觉科学的“声音互动装置”，结合编码和预测到同一个系统中。例如，键入“HMF”可以是“你能不能帮我找到____”，然后预测功能可以帮助用户完成句子，比如“你能不能帮我找到“我的眼镜”？或者你能帮我找到“我的车钥匙”？

另一种提升沟通效率是Dasher ，它使用语言模型和算术编码来呈现屏幕上目标字母。这些字词都是根据过去的使用历史给予选择。

文字产生的速率大部分依赖系统里的概念层次：TALK系统，以每分钟60字的展示输出，让使用者选择大量的句子。

固定和动态显示设备固定显示设备固定显示设备是指那些在特定模板中符号和数据项都是固定的;一些来源称为“静态”显示。这样的显示装置具有比一些其他装置更简单的学习曲线。

固定显示复制了传统低技术ACC的典型格局（低技术被定义为那些不需要电池，电或电子设备），如通讯板。他们有共同的缺点;例如，它们常限制符号和讯息的数量。要注意的是，随着二十一世纪制造技术的进步，固定显示SGDs已不再被广泛使用。

动态显示设备动态显示设备通常也是触摸面板设备。平板、TextSpeak Design，Tobii技术与Word+。的设备是最普遍使用的动态显示设备。当按下按键时，装置通常会产生电子生产的视觉符号，改变一连串的显示选择。用户可以利用页面连结来选取单字或讯息所在的页面，更改符号。动态显示设备的首页可能会显示与许多不同上下文或对话的主题符号。按任何一个符号能打开一个与该主题相关的屏幕页面。例如，看排球比赛的时候，用户可以按“运动”符号打开与有关体育的消息的页面，然后按记分牌的符号，说出“比分是多少？”

动态显示装置的优点包括大量的词汇可用性，并能透过句构看到句子动态显示装置的进一步优点是，能提供对多样的沟公平到，包括手机，简讯和电子邮件。由林雪平大学的研究显示，电子邮件写作练习让使用SGD的儿童开发新的社交技能，增加他们的社会参的能力。

输出SGD的输出可以是数字化的或合成的：数位为化语音是直接录制字词或语音；然而合成的语音是用文本语音录制软件录制，带有较少的情感讯息，但使用者能借由打入新词说出丰富的讯息。如今，每个使用者都使用了结合录制的语音和文本语音技术的语音生成装置。然而，一些设备仅能以一种类型的语音输出。

数字化语音单词，短语或整个讯息可以被数字化，并存储到使用者的播放装置。这个过程称为语音储存。录制化语音的优点包括: (1)给予听话者自然的韵律和语音自然度。例如，有相同的年龄和性别的AAC用户的人可以被选来录制声音）。(2)它提供了额外的声音，这些声音也是很重要的，像是笑声或吹哨声。此外，当语音失常患者失去说能力，数字化SGDs为患者和家人提供一定程度的常态服务。

只使用录音语音输出的主要缺点是，用户不能产创新的语音;它们仅限于使用预先录制在设备中的讯息。根据设备的不同，录音长度有可能会被限制。

合成语音SGDs运用合成语音和语言的语音规则的应用来把使用者的讯息翻译成语音输出。（语音合成）。使用者可以自由地创建新的词和信息，并且被那些已被预先记录在他人设备语音所限制。

智能手机和电脑已经透过应用程序的更新，增加合成语音的使用率。这应用程序让使用者在清单中选择已被当作话语说过的词组和讯息。相关应用程序，如Speak it！或是为iPhone提供的便宜的协助性表达装置，让使用者无需造访医生或学习使用专业机械。

合成SGDs可以使多样的讯息产生变得个人化或相互整合:可以透过单一的字母、字词、词组句子、图片来产生。透过合成语音，讯息除储存能力便没有限制，对于记忆空间的需求也没这么大。

合成语音引擎提供许多语言使用，引擎的参数，可以被使用者所操控。如说话速率、音调范围、性别、重音分布、停顿和发音异常。

选择字集和词汇SGD的选择字集是集合了所有的讯息、符号和编码。方便使用者的一种装置。内容、组织和选择字集的更新都是兴新的研究领域。同时也受许多因素引响，包括使用者的能力，兴趣和年龄。AAC系统的选择字集可包括使用者尚未知道的词语，这些字词被归类在“后续学习”许多因素会引响系统内容、组织和SGD系统的词汇更新，例如在用户的需求，以及该设备使用的情境。

最初的内容选择研究人员Beukelman和Mirenda列出了一些对初始内容选择可能的来源（如家庭成员，朋友，教师和护理人员）。广大的资源需求，是因为需要，个人没有经历过任何特定情境会产生的所有语音表达。例如，家长和治疗师可能不会想到邀加入俚语，如“是吗。”

以前技术已经典型说话者会说的话语和ACC使用者在语音设备上所产出的话语内容。如此的研发过程对于产生核心的话语集或语音表达是很好地的，但当特定的字词需要用在特定情形时，就没什么效率。（例如，使用者对骑马有兴趣，直接关连到骑马相关的字词。“边缘词汇”是指词汇对个人的兴趣或需要是特定、独特的。开发边缘词汇的设备典型的技术是: 进行与多个“话语人”采访：兄弟姐妹，父母，老师，同事和其他相关人员

其他研究人员，如Charlie Musselwhite同和圣路易斯表明初期的词汇项目应该是用户很感兴趣的，经常使用，且有一系列的语意汉语用功能。这些标准已被广泛用于在AAC中，作为SGD的生态学性质检验。

自动化内容维护Beukelman和Mirenda强调词汇的选择也包括正在进行的词汇维护;然而，维护AAC的困难是，用户或他们的照顾者必须手动编制任何新的话语（例如新的朋友或个人的故事的名字），而且没有自动添加内容的解决方案。若干研究方法试图克服这一困难，相关议题从“推断输入”，如基于载入与用户的朋友和家人的日志谈话产生的内容，到互联网采集到的数据、语言材料，如WebCrawler网络。而且，通过利用LIFELOG为基础来更改的方法，设备的内容可基于使用者发生在他们一天中的事件而改变。通过得到更多用户的使用数据，更高品质的讯息可冒险从他人使用者的资料中生成。例如，通过利用全球定位系统，设备的内容可以基于地理位置而改变。

伦理问题最近开发的许多SGDs系统包括表现测量和分析工具，以帮忙监视由用户使用的内容。这引起了人们对隐私的关注，有的认为，用户使用的设备应有让用户决定是否要在这样的监控下使用。类似的考量是关于自动内容生成装置提议，隐私的议题日益成为SGD设计的考量因素。随着AAC设备被设计成为所有地区用户所使用，有个攸关法律、社会和科技的议题，关注于个人资料和家庭的分配问题，这些问题在ACC的使用资料中都能被找到。个人信息管理系统例如，SGDs必须设计出来，如此才能支持使用者有权删除自动加入系统的对话或内容。

挑战动态生成语音设备通常是由专业人士增进式的对话所完成的。专家必须迎合患者的需求，因为患者通常选择他们想要什么样的词/词组。例如，使用患者根据自己的年龄，残疾，兴趣等。因此，内容的组织是非常耗时的。此外，SGDs很少是由医疗保险公司支付。因此，资金和人员的资源分配极有限。波士顿儿童医院的约翰·科斯特洛博士极力在他的医院或夸国医院招集和募款，维持这些计划的执行和良好的工作人员素质。

本词条内容贡献者为:

王沛 - 副教授、副研究员 - 中国科学院工程热物理研究所