焦点消息！谷歌将大模型塞进机器人，干活更麻利，还能听懂“话外音”

来源：36氪　2022-08-18 05:46:50

谷歌正试图训练出更像人类的机器人。

智东西8月17日报道，谷歌刚刚公布一项重磅研究进展：通过结合更强大的人工智能（AI）大型语言模型，进一步提高机器人的“智商”。

研究人员表示，这是第一次将大型语言模型集成到机器人中，“是一种非常不同的范式” 。

(相关资料图)

就像人类一样，机器人能响应完整的命令。换句话说，你不再需要像以前那样分步地发出一连串简短指令，一步一步指导机器人的每个动作。

谷歌研究人员做了个演示，对机器人说：“我饿了，你能给我点零食吗？”

接着，机器人在自助餐厅中搜索一番，然后打开一个抽屉，找到一袋薯片并将它拿给研究人员。

当然了，拿汽水也是不在话下。

▲机器人演示拿起物品的能力

这是一项雄心勃勃的技术突破，为多用途机器人铺平了道路，使其像以往的扫地机器人、巡逻机器人等单一任务机器人一样易于控制。

谷歌在本周二发布的博文中，详细介绍了这项研究进展，通过结合更复杂的语言模型，机器人执行命令的成功率从61%提高至74%。

项目链接：https://sites.research.google/palm-saycan

论文链接：https://arxiv.org/pdf/2204.01691.pdf

01.用大模型提高理解能力，让机器人不再是“铁憨憨”

指挥机器人干活不是什么新奇的事，但要让机器人能够理解你的命令背后的意图，那就要考验它的“大脑”好不好用了。

比如，当你问机器人：“我把饮料洒了，你能帮忙吗？”谷歌机器人可以迅速筛出适配指令的合适行动，然后从厨房拿块清洁海绵来。

但假如你只是惊呼：“完蛋！我的饮料！”那么常见的机器人通常毫无反应，这时候，如果有一个智能机器人听出你的话外音，主动帮你清洁，那它才是真正聪明的机器人。

这些看似简单的感知技能，实际上是最具计算挑战性的任务类型。

以前，机器人系统只能执行简短、明确的指令，例如“拿起一个苹果”、“往前走两步”。

机器人往往在明确具体的任务和奖励下表现最好，但在学习执行多步骤任务和推理抽象的、模棱两可的指令方面遇到困难。

比如，你问机器人：“我刚刚锻炼过，可以给我拿一份健康的零食？”机器人可能很难理解这句话里的细微表达差别和微妙之处。

虽然近年来大型语言模型进展飞速，取得许多令人印象深刻的结果，很多语言模型在特定领域的知识储备已经远超人类，但很多语言模型的训练并没有基于物理世界的数据，通常不会跟环境产生直接交互，也不会观察其响应的结果。

这可能导致语言模型生成的指令，会让在现实环境中运行的机器人做出不合逻辑、不切实际或者不安全的行动。

我们还用刚才提到的问题举例，问机器人：“我把饮料洒了，你能帮忙吗？”

经典的OpenAI大模型GPT-3会提供一个建议：“您可以尝试使用真空吸尘器。”

谷歌AI系统LaMDA会回答：“您想让我帮忙找个清洁工具吗？”

另一个谷歌FLAN语言模型则会直接道歉：“对不起，我不是故意的。”这显然是个没用的回应。

因此，谷歌研究人员提出设想，有没有一种有效的方法，能够将高级语言模型的语言理解能力和机器人系统擅长的处理感知和交互能力相结合，同时利用两者的优势？

这就是谷歌正与谷歌母公司Alphabet的机器人子公司Everyday Robots合作研发的新方法——PaLM-SayCan。

02.用语言模型做“大脑”，机器人充当“手”与“眼”

谷歌研究人员称，将PaLM-SayCan集成到机器人中后，机器人通过使用思维链提示和执行请求所需的分步解决方案，能更好地执行复杂、抽象的任务，根据自身能力权衡接下来最合适的执行步骤，并实现高度可解释的行动结果。

“我们发现它（机器人）甚至能处理16个步骤的指令。”研究人员说。

引入PaLM-SayCan后，语言模型可以帮助机器人更好地理解运用到高级语义知识、需要进行推理的指令，使其与人类、与物理环境的互动更自然。反过来，机器人可以充当语言模型的手和眼，通过与真实环境的不断交互为语言模型提供更多的经验。

具体是怎么做的呢？

PaLM-SayCan方法使用PaLM语言模型（Say）中包含的知识来确定和评估对高级指令有效的动作，它还用到Affordance功能（Can），来支持现实世界并确定在给定环境下可执行哪些操作。

这个系统可以看作是用户和机器人之间的对话平台。用户首先发出一个指令，语言模型将其拆解成方便机器人执行的一系列明确步骤。

然后，机器人对这些步骤进行筛选，通过评估确定在其当前状态和环境下最可行的行动计划，从而完成相应任务。

该模型通过将两个概率相乘，来确定特定技能成功学习的概率：一是task-grounding，即技能语言描述；二是world-grounding，即当前技能的可行性。

由于PaLM-SayCan方法拥有较好的可解释性，用户可以通过查看单独的语言和可视性分数，来轻松理解决策过程。

03.洒了饮料，机器人帮忙清理分几步？

如可视化界面所示，PaLM-SayCan执行复杂任务的行为是可解释的，这将使机器人的交互过程更加安全可控。

比如当你洒了饮料，请求机器人帮忙时，你可以看到它是如何做出决定，为执行任务选择最合适的步骤的：找到可乐罐，拾起可乐罐，走到垃圾桶旁边，放下可乐罐，找到一块海绵，拾起海绵，走向桌子，放下海绵……

蓝色显示的是语音模型分数，即语言模型判断技能有用的概率；红色是affordance分数，即系统成功执行技能的可能性；绿色显示的是用于最终决定执行技能的综合分数。

PaLM-SayCan方法将语言模型的概率和价值函数（VF）的概率相结合，以选择下一个要执行的技能，重复这个过程，直至高级指令成功完成。

研究人员使用基于图像的行为克隆（BC）来训练语言条件策略和基于时间差异（TD）的强化学习方法来训练价值函数。

智能体技能库中，训练策略和价值函数的每个技能都会被定义为一个具有简短语言描述的策略，用嵌入表示，以及一个指示从机器人当前状态完成技能概率的affordance函数。

为了学习affordance函数，研究人员使用稀疏奖励函数，设置为1.0表示成功执行，0.0表示未成功。

训练策略方面，研究人员从10个机器人在11个月内执行的68000次演示中收集了数据，并从一组自主学习的策略片段中筛选了12000次成功的片段，然后在Everyday Robots模拟器用使用MT-Opt学习语言条件值函数，通过使用演示来引导模拟策略的性能，以提供初步成功，再通过模拟中的在线数据收集来持续改进强化学习性能。