选自Science Robotics,机器之心编译,参与:Panda。
要让智能机器人在我们的日常生活中得到真正的应用,我们首先必须要先信任机器人的行为,这就要求机器人能以人类可理解的方式解释自身的行为。近日,新一期 Science Robotics 发表了来自加州大学洛杉矶分校和加州理工大学喷气动力实验室一项研究,介绍了一种通过整合符号方法与神经网络方法从机制角度和功能角度为机器人的行为提供解释的新方法。
另一方面,配备深度神经网络(DNN)的机器人已经在某些特定的任务上取得了出色的表现,这是因为 DNN 在处理低层面的有噪声传感输入方面能力很强。但是,基于 DNN 的方法也有一些众所周知的局限,尤其值得注意的就是其缺乏对知识表征的可解释性。近期一些 DNN 研究使用显著性映射图(saliency maps)或模块化组件解决了这个问题。这些数据驱动的方法在处理有噪声实时传感输入方面能力出众,能够通过对原始输入的提炼来预测其效果以及决定下一步动作。
为了填补这一空白,本项目的目标是实现可解释性与任务性能的分离,通过在任务性能与取得人类信任两方面通过衡量两类主要的表征方法(符号表征和数据驱动的表征)的优势和局限来对这两类方法分别进行评估。本项目的目标是探索(1)怎样才能为一项复杂的机器人操作任务构建一个表现优良的操作器(performer)?(2)怎样才能为解释机器人行为以及取得人类信任构建一个有效的解释器(explainer)?
从操作器的角度看,该任务是一个难度很高的学习问题,涉及到一些微妙的操作,因为其需要机器人按压和挤压瓶上的不同地方才能打开瓶盖。与此同时,该任务的解释难度也很高,因为仅有来自人类演示者的视觉信息不足以提供有效的解释。然而,智能体与药瓶之间的接触力却能提供打开瓶子的隐藏「钥匙」,但这些力无法通过视觉输入而直接观察得到。
为了构建一个优良的操作器,这里提出的机器人系统可以协作式地组合多个来源的信息来实现高性能,从而实现高层的符号动作规划器与低层的基于传感输入的触觉预测模型之间的协同工作。首先,机器人系统基于人类演示学习一个随机的语法模型,并将其用作获取任务的组成性质和长期限制的符号表征。然后,使用通过人类演示提供的传感信息(即施加的力和观察到的人类姿势)来训练一个触觉预测模型,以获取该任务的知识。后,使用一种经过改进的广义 Earley 解析器(GEP),以一种有原则的方式将这个符号规划器和触觉模型组合到一起,就可通过整合高层的符号规划器与低层的触觉模型来预测机器人的下一个动作。
为了了解机器人生成的解释在提升人类信任方面的效果,作者还执行了人类实验,以评估该机器人系统提供的解释能否促进人类用户的信任,如果可以,又是哪种形式的解释在提升人类对机器的信任方面是有效的。研究者这里指的是基于理性的「信任」的认知部分。认知信任在构建次级群体(secondary group,比如人机关系)的信任方面尤显重要,相比而言,在初级群体(primary group)关系(比如家庭和亲密朋友)中情感部分通常更加重要。
具体来说,研究者要求人类参与者在观察机器人解决一个操作任务时,通过机器人的动作序列以及对机器人内部决策的不同形式的解释来为其给出定性的信任度评级。然后,参与者再观察相似但新的机器人任务执行,但这时不再提供解释,之后让参与者预测机器人系统在整个时间内的行为。
机器人通过观察人类演示,同时使用符号表征与触觉表征来进行学习、执行和解释。(A)使用一只触觉手套收集细粒度的人类操作数据。在这种人类演示的基础上,(B)模型通过使用一种语法模型来学习符号表征,其中编码了长期的任务结构来生成机制角度的解释;(C)模型也使用一个自动编码器来学习实际机体上的触觉表征,从而将人类与机器人的传感输入连接到同一个空间中,进而提供对机器人动作的功能角度解释。(D)这两个组件使用 GEP 进行整合,然后进行动作规划。这样的过程能实现(E)机器人任务性能提升与(F)生成能促进人类信任的有效解释之间的互补。
力信息的示例。(A)通过触觉手套(具有 26 个维度的力数据)收集到的人类状态的力信息。(C)机器人的端部执行器(具有 3 个维度的力数据)中的力传感器记录的机器人状态的力信息。背景颜色指示了不同的动作段。对于等效的动作,人类和机器人可以需要不同的执行时间,这会导致动作段的长度不同。(B)具身的触觉表征和动作预测模型。自动编码器(黄色背景)以人类状态为输入,降低其维度得到一个人类嵌入,然后使用其重建来验证该人类嵌入是否维持了人类状态的关键信息。嵌入映射网络(紫色背景)以机器人状态为输入,并将其映射到一个等效的人类嵌入。动作预测网络(淡蓝色背景)以人类嵌入和当前动作为输入,预测下一步动作。因此,该机器人是根据其自身的触觉信号将自己想象成人类,并预测接下来所要采取的动作。
(A)在人类演示所观察到的瓶子上的测试表现。瓶子 1 没有锁机制,瓶子 2 使用了按下旋转的锁机制,瓶子 3 使用了捏紧旋转的锁机制。(B)在新的未曾见过的瓶子上的泛化性能。瓶子 4 没有锁机制,瓶子 5 使用了按下旋转的锁机制。在泛化实验中使用的瓶子都有类似的锁机制,但会引起明显不同的触觉反馈。不管是在演示的瓶子,还是在未曾见过的瓶子上测试,用 GEP 结合符号规划器和触觉模型的方法都能取得佳表现。
(A)机器人动作序列中 a_0 处的符号(机制角度)和触觉(功能角度)的解释。(B 到 D)分别是在时间 a_2、a_8 和 a_9 处的解释,其中 a_i 是指第 i 个动作。注意在机器抓取器的掌上的红色表示该抓取器施加了较大的力,绿色表示没有力;其它值是插值。这些解释是在机器人执行过程中实时提供的。
所有五个组都观察了机器人执行过程的 RGB 视频,但各自看到的解释面板都不一样。(A)机器人执行过程的 RGB 视频。(B)符号解释面板。(C)触觉解释面板。(D)文本解释面板。(E)呈现给各组的解释面板的总结。
(A)信任度的定性度量:五个组的平均信任度评级。(B)五个组的平均预测准确度。误差线表示 95% 的置信区间。在这两个度量上,GEP 的表现都是好的。对于定性信任度而言,文本组的表现与基准组的表现相近。