kismet 学术资讯 - 科技工作者之家

Kismet是一款模仿人头部的机器人，由麻省理工学院的Cynthia Breazeal博士在二十世纪九十年代制作，是研究机器能否辨认和模仿人的情感的一项实验。 Kismet 一词来自一个土耳其语单词，意为“命运”或“好运”。Kismet是一种为与人类进行社会互动而设计的自主机器人。一般来说，社会机器人已经集中在一群机器人上，比如成群结队、觅食或分散，或者是成对的机器人与机器人的交互作用，比如模仿。这个项目的重点不是机器人与机器人的相互作用，而是构建与人类进行有意义的社会交流的机器人。这样做，就有可能有一个社会老练的人帮助机器人获得更复杂的沟通技能，并帮助它了解这些行为对其他人的意义。我们的方法受到婴儿学会与成年人交流的方式的启发。具体来说，社会互动的模式是一种看护婴儿的模式，在这种模式下，人类充当机器人的看护者。

简介Kismet,是一款较早出现的社交机器人，由美国麻省理工大学人工智能实验室仿人机器小组（Humanoid Robotics Group）负责开发的。

仿人机器人，是对于传统机器人概念的一种巨大的转变。传统的机器人，经常在远离人的恶劣环境下进行一些工作。比如说，救灾，超长时间重复工作，这些人类很难胜任的，而机器人却得心应手。但是，健康，管家，娱乐这方面的需求的增加，所以必然需要机器人能够与人进行近距离的交谈，学习，互动娱乐等等。

Kismet其实就是这样一款的仿人机器人，它具有视觉，听觉，触觉输入，位置感应。然后，他可以进行对话，表情，体态等与人互动。

Kismet的样子也是十分可爱的，整个形象还是很有卡通感觉的，也因该很受小朋友们的喜爱喔。弯弯的眉毛，大大的眼睛和耳朵，还有嘴巴，但是没有鼻子，如果加上一个气味的识别传感器，也可以有味道识别的功能哦，小编在想，气味识别也是有很多用处的，比如液化气和有害物质报警等等，这样他就可以第一时间把信息传递给我们了。

Kismet具有平静，感兴趣，生气，开心，沮丧，惊喜，恶心等表情定义，通过面部表情使我们觉得，他很具有感情表达的能力。1

以下是Kismet设计的简化视图。

系统架构由六个子系统组成：低级特征提取系统，高级感知系统，注意系统，动力系统，行为系统和电机系统。低级特征提取系统从世界中提取基于传感器的特征，高级感知系统将这些特征封装到可影响行为，动机和运动过程的感知中。注意系统随时确定环境中最显着和相关的刺激是什么，以便机器人可以组织其关于它的行为。动机系统以稳态调节过程和情绪反应的形式调节和维持机器人的“健康状态”。行为系统在竞争行为之间实现和仲裁。获胜行为定义了当前任务（即目标）。机器人。机器人在其保留曲目中有许多行为，以及满足的几种动机，因此它的目标随着时间而变化。电机系统通过协调输出模式（致动器或声音）来实现这些目标。对于Kismet，这些动作被实现为完成物理任务的运动技能，或通过社交信号完成任务的表达运动行为。

硬件设计和架构为了能使Kismet与人类正常地交流互动，它具有听觉，视觉和本体感受的能力输入设备。 Kismet通过各种面部的表情，会发声和移动来模拟人类的情绪。面部表情则是通过耳朵、眉毛、眼皮、嘴唇、下巴和头部的运动产生的。这些物质材料的成本估计为25,000美元。此外，还有四个摩托罗拉68332处理器，九个400兆赫的计算机和一个500兆赫的计算机。

Kismet是一种富有表现力的机器人生物，它的感知和运动方式适合于人类的自然交流渠道。为了方便婴儿和照顾者之间的自然互动，机器人配备了视觉、听觉和本体感知感官输入。运动输出包括发声、面部表情和调整眼睛注视方向和头部方向的运动能力。注意，这些运动系统可以引导视觉和听觉传感器到达刺激源，也可以用来显示交流线索。

我们的硬件和软件控制结构被设计来满足实时处理视觉信号(接近30 Hz)和听觉信号(8 kHz采样率和10 ms帧窗口)的挑战，最小延迟(小于500 ms)。高级感知系统、激励系统、行为系统、运动技能系统和面部运动系统在我们实验室开发的多线程Lisp的四台摩托罗拉68332微处理器上运行。视觉处理、视觉注意和眼/颈控制由9台运行QNX(实时Unix操作系统)的联网400 MHz个人计算机完成。表达性语音合成和语音情感意图识别工作在双450 MHz PC机上运行NT，语音识别系统运行在运行Linux的500 MHz PC机上。2

软件系统Kismet的社交智能软件系统(SNS)是按人类智能行为的模型为基础而设计的。它包含如下六个子系统。

基本特征提取系统该系统被用来处理来自相机和麦克风的原始视觉和听觉信息。 Kismet的视觉系统可以执行眼睛检测，运动检测，以及肤色检测(尽管有争议)。当Kismet移动头时，它会暂时禁用其运动检测系统，以避免检测自身的运动。它还使用立体相机来估计物体在其视野中的距离，例如检测威胁 - 迅速移动的大而近的物体。

Kismet的听觉系统主要是为了识别婴幼儿讲话中的情感。特别的，它可以检测五种不同类型的情感意图：批准，禁止，注意，安慰和中立。情感意图分类器处理步骤如下：从记录的语音样本中提取音调平均值和能量（音量）方差等低级特征。然后将情感意图的类别建模为高斯混合模型，并使用期望最大化算法将这些样本进行分类。分类是通过多个阶段完成的，首先将一个话语分为两个一般组（例如安慰/中立与禁止/关注/批准）之一，然后进行更详细的分类。这种系统架构显著提高了情感分类的性能，如“批准”（“你是一个聪明的机器人”）与“注意”（“嘿，Kismet，我在这里”）。

动机系统Breazeal博士把自己与机器人的关系形容为“像幼儿与看守人的互动，我本人就是看守者，而机器人就像一个婴儿”。这概述了在一个学习框架内设置的人机关系，Breazeal博士为Kismet的发展提供了支撑。它提供了Kismet能力的展示机会，描述了情绪与表情，表达了机器人的“动机状态”，Brazeal博士说：“这是一种愤怒（笑）极度的愤怒，厌恶，兴奋，恐惧，这是幸福，这是一个兴趣，这个是悲伤，惊喜，这个是疲倦，这个在酣睡。

在任何时候，Kismet一次只能处于一种情绪状态。然而，Breazeal指出Kismet没有意识，所以没有触觉。

语言系统Kismet用各种各样的音素说出初始语言，类似于婴儿的咿呀声。它使用DECtalk语音合成器，改变音高，时间，发音等来表达各种情绪。语调用于在问题和陈述式的话语之间变化。嘴形同步对现实化很重要，因此开发者使用动画策略：“简单是成功的嘴唇动画的秘诀”。因此，他们并不是完全模仿嘴唇的动作，而是“创造一个不受观众挑战的视觉short hand”。

视觉系统机器人的视觉系统由安装在立体声主动视觉头上的四个彩色CCD相机组成。两个宽视场（fov）摄像机安装在中央并相对于头部移动。这些是由Elmo Corporation制造的具有2.2mm镜片的0.25英寸CCD口红相机。它们用于决定机器人应该注意什么，以及计算距离估计。还有一个摄像头安装在每只眼睛的瞳孔内。这些是具有8mm焦距镜头的0.5英寸CCD中央凹相机，用于更高分辨率的注意后处理，例如眼睛检测。

Kismet有三个自由度来控制凝视方向和三个自由度来控制它的颈部。 Maxon DC伺服电机采用高分辨率光学编码器驱动自由度，实现精确的位置控制。这使得机器人能够像人类一样移动和定向其眼睛，从事各种人类视觉行为。这不仅从视觉处理的角度来看是有利的，而且人类也将通信价值归因于这些眼睛运动。

听觉系统看护员可以通过佩戴小型不显眼的无线麦克风来通过语音来影响机器人的行为。该听觉信号被送入运行Linux的500 MHz PC。实时，低级语音处理和识别软件由麻省理工学院的语言系统组开发。这些听觉功能被发送到运行NT的双450 mHz PC。 NT机器实时处理这些特征以识别护理人员的口头情感意图。

富有表现力的表情系统Kismet拥有15个DoF面部，可以显示各种各样的面部表情，以反映其“情绪化”状态以及服务于其他交际目的。每只耳朵都有两个自由度，让Kismet以感兴趣的方式振作耳朵，或者以一种让人想起愤怒动物的方式折回它们。每一条眉毛都可以在挫折中降低和皱起，向上抬起以获得惊喜，或者向上倾斜眉毛的内角以获得悲伤。每个眼睑都可以独立打开和关闭，让机器人眨眼或眨眼。机器人有四个唇部执行器，每个角部有一个，可以向上卷曲以获得微笑，向下卷曲可以皱眉。下颌也有一个自由度。

发声系统机器人的发声功能是通过发音合成器生成的。底层软件（DECtalk v4.5）基于Klatt合成器，该合成器模拟人类关节道的生理特征。通过调整合成器的参数，可以传达说话人的个性（Kismet听起来像一个小孩）以及为合成语音添加情感品质（Cahn 1990）。3

研究进展在人机游戏中学习社会行为我们正在探索如何通过利用培养看护人和未成熟学习者之间产生的互动类型来实现社会地位的学习。对我们来说，学习者是一个拟人化的机器人平台。它的主要感官输入包括视觉，试镜和其自由度的联合旋转。其输出包括发声，头部和眼睛方向以及面部表情。机器人被设计成一个复杂的系统，在精神上类似于人类婴儿。也就是说，机器人以一种相当无助和原始的状态开始，并需要一位老练和仁慈的看护人员的帮助来学习和发展。看护机器人之间的互动纯粹是社交的，就像母亲与婴儿的互动方式一样。针对学习的各种能力是人类婴儿在出生后第一年展示的社交和沟通技巧。

这项工作的目标是如何建立一个更开放的学习系统的更大问题。许多基于学习的机器人研究都是针对训练机器人来学习特定任务，模型，表示等等。通常，研究人员先验地确定机器人要学习什么任务（例如在办公室环境中导航），然后相应地设计学习任务。一旦机器人可以执行任务以达到期望的成功度，则完成学习任务。但是，由于学习算法是针对特定任务精心定制的，因此必须精心设计新的学习算法，以便机器人学习不同的任务。机器人学习算法的设计是一个劳动密集型过程，并且证明难以在更复杂的环境中将当前技术扩展到更复杂的任务。

相比之下，这项工作探讨了如何设计一个更开放的学习系统。为此，它深受儿童发展心理学的理论，观察和实验结果的启发。这项研究的核心是弄清楚如何设计一个综合学习系统，使学习者能够从先前获得的技能和认知结构中引导，以学习新的，更多样化和更复杂的技能。人类婴儿是我们希望我们的系统模仿的学习类型的主要参展者，通常被描述为具有发展形象，其中早期技能和能力被逐步修改，调整和构建，以产生更复杂，多样或新的能力。

方法我们的方法旨在利用人类婴儿在学习与照顾者互动时可以获得的许多相同的社会线索，约束和偏见。在学习早期技能时，可以使用从相对原始状态开始，特别是当系统位于极其复杂的环境中时。与新生儿一样，早期学习问题被简化，因为粗略的初始感知能力和有限的运动技能限制了系统必须处理和学习的信息的复杂性。这使婴儿有机会学习与其当前的感知，运动和认知能力相称的技能，而不是用麻烦的复杂性轰炸新生儿。此外，看护人通过仁慈地设计环境和满足婴儿当前能力的任务，帮助简化婴儿的学习问题。例子包括使用颜色鲜艳的物体，吸引婴儿注意显着因素，协助婴儿完成手头的任务，等等。

学习者和看护者之间的互动形成了一个相互调节的过程。使用来自婴儿的情绪反馈，护理人员协调学习情节以适应学习者当前的复杂程度。例如，如果学习者过度刺激（过于环境复杂性不堪重负），看护人必须简化甚至暂停学习情节。或者，如果学习者看起来很无聊，那么看护人会对学习情节引入更多种类或更多难度。在学习过程中，学习者构建内部结构以实现更复杂的技能和能力。因此，它能够处理稍微复杂的环境。因此，保持平衡，学习者总是有足够的挑战去学习已经拥有的东西，但是从来没有完全被淹没，所以几乎没有机会学习任何东西。随着发展的进行，新的目标被学习，因为发现了有趣的结果以及实现它们的不同方法。

挑战这项工作必须解决许多困难问题。两个主要问题是建立学习者和看护者之间自然，实时的互动动态，并提出一套适当的学习机制和基础，以建立内部结构。仅仅感知方面是众所周知的难题，我们将不得不将感知复杂性与实时性能进行权衡，以便将研究重点放在问题的学习和交互方面（而不是沉浸在复杂的视觉和听觉处理中））。这种权衡还有待确定。

从更广泛的角度来看，这项研究不仅旨在建立一个开放式学习系统，而且还旨在建立一个人类可以与自然，本能的方式进行互动和训练的系统。人类是高度社会化的生物，并使用各种线索和方式相互沟通。构建可以利用和理解类似社交线索的系统可以使人们更容易使用机器，并使人们能够以更丰富的方式与机器进行通信。4

本词条内容贡献者为:

王慧维 - 副研究员 - 西南大学