双译记：UCLA朱松纯团队验证机器人任务中的可解释性，登Science子刊

选自Science Robotics，机器之心编译，参与：Panda。

要让智能机器人在我们的日常生活中得到真正的应用，我们首先必须要先信任机器人的行为，这就要求机器人能以人类可理解的方式解释自身的行为。近日，新一期 Science Robotics 发表了来自加州大学洛杉矶分校和加州理工大学喷气动力实验室一项研究，介绍了一种通过整合符号方法与神经网络方法从机制角度和功能角度为机器人的行为提供解释的新方法。

论文链接：robotics.sciencemag.org/content/4/3…

两千多年以前，亚里斯多德曾经说过：「在我们理解一个事物为什么（也就是原因）出现之前，我们对其一无所知。」人类作为一种社会性的动物，一个显著特征是有能力通过对自身或他人行为的全面解释来回答这个「为什么」问题。这种寻求解释的动力深深根植于人类的认知中。学龄前的儿童往往会将不同的功能归因于不同类型的物体——钟表、狮子、云彩和树木，并以此来解释这些物体显然所能执行的行为活动。人类对解释的这种强烈的偏好和内在动机很可能是因为其在促进人类之间的相互理解中具有核心的重要作用，这能促进不同个体之间的信任，并由此实现复杂的合作。

虽然人类对解释有着强烈的渴望，但现代人工智能系统却尚未充分利用这一点。现代 AI 系统中大多数方法都主要侧重于任务性能。由此造成的后果是，机器人系统在面临有噪声的传感输入以及执行复杂的多步决策过程时，在解释自身行为的原因方面还很初级。基于规划器（planner）的机器人系统通常可以向人类提供对其自身行为的可解释说明（比如通过马尔可夫决策过程、HTN 或 STRIPS），但这些规划器难以解释它们是如何从低层面的传感信号输入推导出符号层面的知识的。

另一方面，配备深度神经网络（DNN）的机器人已经在某些特定的任务上取得了出色的表现，这是因为 DNN 在处理低层面的有噪声传感输入方面能力很强。但是，基于 DNN 的方法也有一些众所周知的局限，尤其值得注意的就是其缺乏对知识表征的可解释性。近期一些 DNN 研究使用显著性映射图（saliency maps）或模块化组件解决了这个问题。这些数据驱动的方法在处理有噪声实时传感输入方面能力出众，能够通过对原始输入的提炼来预测其效果以及决定下一步动作。

但是，还很少有人将经典的符号 AI 与近期 DNN 的进展协同起来进行研究，以让机器具备全面解释自身行为的能力。

为了填补这一空白，本项目的目标是实现可解释性与任务性能的分离，通过在任务性能与取得人类信任两方面通过衡量两类主要的表征方法（符号表征和数据驱动的表征）的优势和局限来对这两类方法分别进行评估。本项目的目标是探索（1）怎样才能为一项复杂的机器人操作任务构建一个表现优良的操作器（performer）？（2）怎样才能为解释机器人行为以及取得人类信任构建一个有效的解释器（explainer）？

为了回答这些问题，研究者开发了一种集成式框架，其中包含一个符号动作规划器（其使用一种随机语法作为基于规划器的表征）和一个触觉预测模型（其使用神经网络来构建数据驱动的表征）。研究者设计了一种打开具有多种安全锁机制的药瓶的操作任务，该任务需要进行丰富的接触；然后他们通过一个机器人系统在该任务上对这个集成式系统进行了检验。

从操作器的角度看，该任务是一个难度很高的学习问题，涉及到一些微妙的操作，因为其需要机器人按压和挤压瓶上的不同地方才能打开瓶盖。与此同时，该任务的解释难度也很高，因为仅有来自人类演示者的视觉信息不足以提供有效的解释。然而，智能体与药瓶之间的接触力却能提供打开瓶子的隐藏「钥匙」，但这些力无法通过视觉输入而直接观察得到。

为了构建一个优良的操作器，这里提出的机器人系统可以协作式地组合多个来源的信息来实现高性能，从而实现高层的符号动作规划器与低层的基于传感输入的触觉预测模型之间的协同工作。首先，机器人系统基于人类演示学习一个随机的语法模型，并将其用作获取任务的组成性质和长期限制的符号表征。然后，使用通过人类演示提供的传感信息（即施加的力和观察到的人类姿势）来训练一个触觉预测模型，以获取该任务的知识。后，使用一种经过改进的广义 Earley 解析器（GEP），以一种有原则的方式将这个符号规划器和触觉模型组合到一起，就可通过整合高层的符号规划器与低层的触觉模型来预测机器人的下一个动作。

这里给出的基于演示进行学习的框架与该研究团队之前的工作《Feeling the force: Integrating force and pose for fluent discovery through imitation learning to open medicine bottles》有相似的思路，但不同的是增加了一个新的触觉模型，并使用了更有原则的 GEP 方法来整合触觉模型和语法模型。计算实验表明，相比于单独的符号模型或触觉模型，组合模型的表现都要好得多。

为了构建出有效的解释器，研究者新提出的方法借鉴了人类学习和推理中几种主要的解释方法，这些解释方法可能通过促进智能体之间的相互理解来构建有助于提升信任的表征。之前已有研究表明，人类可从功能角度得出解释（这能描述动作的效果或目标），也能从机制角度进行解释（侧重于将行为视为一个过程）。触觉预测模型可通过可视化对确定下一个动作起关键作用的触觉信号（即前一动作的效果）来提供功能角度的解释。符号动作规划器可通过可视化多个规划步骤（而不只是一个步骤）来描述任务的过程，从而提供机制角度的解释。新提出的机器人系统可使用触觉模型和符号规划器来分别提供功能角度和机制角度的解释。

为了了解机器人生成的解释在提升人类信任方面的效果，作者还执行了人类实验，以评估该机器人系统提供的解释能否促进人类用户的信任，如果可以，又是哪种形式的解释在提升人类对机器的信任方面是有效的。研究者这里指的是基于理性的「信任」的认知部分。认知信任在构建次级群体（secondary group，比如人机关系）的信任方面尤显重要，相比而言，在初级群体（primary group）关系（比如家庭和亲密朋友）中情感部分通常更加重要。

研究者所执行的心理学实验侧重于认知信任，关注的是有「良好理性原因」的信任或评估，因为这是基于特定信任和目标（重在评估和预期）所构建的人机信任的关键组分。

具体来说，研究者要求人类参与者在观察机器人解决一个操作任务时，通过机器人的动作序列以及对机器人内部决策的不同形式的解释来为其给出定性的信任度评级。然后，参与者再观察相似但新的机器人任务执行，但这时不再提供解释，之后让参与者预测机器人系统在整个时间内的行为。

这些实证发现揭示了学习以人为本的模型（human-centric model）的重要性，即要让机器人系统对人类用户而言是可解释的、值得信任的和可预测的。研究结果表明，适合促进信任的解释形式并不一定对应于那些能实现佳任务性能的组分。这种分歧说明，机器人社区需要采用更可能促进人类信任的模型组件，并将这些组件与其它能实现高任务性能的模型组件整合起来。

图 1：演示、学习、评估和可解释性的整体概况

机器人通过观察人类演示，同时使用符号表征与触觉表征来进行学习、执行和解释。（A）使用一只触觉手套收集细粒度的人类操作数据。在这种人类演示的基础上，（B）模型通过使用一种语法模型来学习符号表征，其中编码了长期的任务结构来生成机制角度的解释；（C）模型也使用一个自动编码器来学习实际机体上的触觉表征，从而将人类与机器人的传感输入连接到同一个空间中，进而提供对机器人动作的功能角度解释。（D）这两个组件使用 GEP 进行整合，然后进行动作规划。这样的过程能实现（E）机器人任务性能提升与（F）生成能促进人类信任的有效解释之间的互补。

图 2：学习具身触觉表征和动作预测模型的示意图

力信息的示例。（A）通过触觉手套（具有 26 个维度的力数据）收集到的人类状态的力信息。（C）机器人的端部执行器（具有 3 个维度的力数据）中的力传感器记录的机器人状态的力信息。背景颜色指示了不同的动作段。对于等效的动作，人类和机器人可以需要不同的执行时间，这会导致动作段的长度不同。（B）具身的触觉表征和动作预测模型。自动编码器（黄色背景）以人类状态为输入，降低其维度得到一个人类嵌入，然后使用其重建来验证该人类嵌入是否维持了人类状态的关键信息。嵌入映射网络（紫色背景）以机器人状态为输入，并将其映射到一个等效的人类嵌入。动作预测网络（淡蓝色背景）以人类嵌入和当前动作为输入，预测下一步动作。因此，该机器人是根据其自身的触觉信号将自己想象成人类，并预测接下来所要采取的动作。

图 3：从人类演示推导动作语法的示例

绿节点表示「与」节点，蓝节点表示「或」节点。沿从「或」节点发出的边的概率表示选取每个分支的解析概率。（A）（B）（C）分别是从 5 个、36 个和 64 个演示推导出的语法模型。（C）中的语法模型也给出了一个解析图，用红色表示，其中的红色数字表示动作的时间顺序。在人类演示观察到的动作序列的基础上，假设每个机器人动作都能对应一个等效的人类动作，推导出的语法可用于解析和预测有可能成功打开药瓶的机器人动作序列。而且针对相似的任务（比如打开不同的药瓶），推导出的语法可以解析生成新的、未曾见过的和可行的动作序列，因此可以通过符号规划方法是用这些语法，比如 Earley 解析器。研究者将使用解析器和动作语法进行规划动作的过程称为符号规划器。由此，这个符号规划器能让机器人有能力从机制角度向自己提问：「根据我之前已经做过的事情以及我观察的人类所做的事情，哪些动作有可能在序列结束时打开瓶子？」

图 4：机器人使用符号规划器、触觉模型和整合两者的 GEP 在具有不同安全锁机制的不同瓶子上的任务表现

（A）在人类演示所观察到的瓶子上的测试表现。瓶子 1 没有锁机制，瓶子 2 使用了按下旋转的锁机制，瓶子 3 使用了捏紧旋转的锁机制。（B）在新的未曾见过的瓶子上的泛化性能。瓶子 4 没有锁机制，瓶子 5 使用了按下旋转的锁机制。在泛化实验中使用的瓶子都有类似的锁机制，但会引起明显不同的触觉反馈。不管是在演示的瓶子，还是在未曾见过的瓶子上测试，用 GEP 结合符号规划器和触觉模型的方法都能取得佳表现。

图 5：由符号规划器和触觉模型生成的解释

（A）机器人动作序列中 a_0 处的符号（机制角度）和触觉（功能角度）的解释。（B 到 D）分别是在时间 a_2、a_8 和 a_9 处的解释，其中 a_i 是指第 i 个动作。注意在机器抓取器的掌上的红色表示该抓取器施加了较大的力，绿色表示没有力；其它值是插值。这些解释是在机器人执行过程中实时提供的。

图 6：人类实验中所用的视觉刺激示意图

所有五个组都观察了机器人执行过程的 RGB 视频，但各自看到的解释面板都不一样。（A）机器人执行过程的 RGB 视频。（B）符号解释面板。（C）触觉解释面板。（D）文本解释面板。（E）呈现给各组的解释面板的总结。

图 7：人类的信任度评级和预测准确度结果

（A）信任度的定性度量：五个组的平均信任度评级。（B）五个组的平均预测准确度。误差线表示 95% 的置信区间。在这两个度量上，GEP 的表现都是好的。对于定性信任度而言，文本组的表现与基准组的表现相近。

栈主、嘉宾

小栈成员