首页 >> 卓依婷

自我指导的机器人学习方法需要设定可行的目标李正峰

文章来源：瑶海娱乐网 | 2022-08-11

自我指导的机器人学习方法，需要设定可行的目标

到目前为止，强化学习已被证明是一种在个别任务上训练人工特工的有效技术。但是，在训练多功能机器人时，大多数现有的RL方法远非理想。

考虑到这一点，加州大学伯克利分校的一组研究人员最近开发了一种新的RL方法，该方法可用于教导机器人根据演示任务调整其行为这种方法在arXiv上预先发表的论文中概述，并在今年的机器人学习大会上进行了介绍。

该方法使机器人能够自动提出行为并随着时间的流逝进行实践，从而了解可以在给定环境中执行的行为。然后，机器人可以重新利用他们获得的知识，并将其应用于人类用户要求他们完成的新任务。

“我们坚信数据是机器人操纵的关键，并且要获得足够的数据以一般方式解决操纵问题，机器人将不得不自行收集数据，”进行这项研究的研究人员之一阿什文?奈尔告诉TechXplore。“这就是我们所谓的自我监督机器人学习：可以主动收集一致的勘探数据并独自了解它在任务中是成功还是失败以学习新技能的机器人。”

Nair和他的同事开发的新方法基于之前工作中提出的目标条件的RL框架。在这项先前的研究中，研究人员介绍了在潜在空间中设定目标的技术，该技术可以训练机器人进行技能训练，例如直接从像素推物体或开门，而无需外部奖励功能或状态估计。

研究人员在数据上训练了上下文条件下的VAE，这可以解开在部署期间保持不变的上下文。图片来源：Nair等。

“在我们的新工作中，我们专注于泛化：我们如何进行自我监督学习，不仅学习一种技能，而且还能在执行该技能时泛化成视觉多样性？” 奈尔说。“我们相信，能够适应新情况的能力将是更好地操纵机器人的关键。”

Nair和他的同事提出的条件性目标设定模型不是要单独训练机器人掌握许多技能，而是旨在设定适合于机器人并与机器人当前状态保持一致的特定目标。从本质上讲，他们开发的算法学习了一种特定类型的表示形式，该表示形式将机器人可以控制的事物与机器人无法控制的事物区分开来。

当使用他们的自我监督学习方法时，机器人最初通过与周围环境随机交互来收集数据。随后，它训练了该数据的压缩表示形式，该压缩表示形式将图像转换为低维向量，这些向量隐含了诸如对象位置之类的信息。这种表示方式没有明确告知要学习的内容，而是通过其压缩目标自动理解了概念。

Nair解释说：“使用学习的表示，机器人会练习达到不同的目标，并通过强化学习来训练策略。” “压缩表示形式是该练习阶段的关键：它用于测量两个图像的接近程度，以便机器人知道它成功或失败的时间，并且可以用来为机器人进行练习采样目标。在测试时，然后可以通过执行人员的学习策略来匹配人员指定的目标图像。”

研究人员在一系列实验中评估了他们方法的有效性，在这些实验中，人工代理在使用MuJuCo模拟平台创建的环境中操纵了以前看不见的物体。有趣的是，他们的训练方法使机器人代理可以自动掌握技能，然后将其应用于新情况。更具体地说，该机器人能够操纵各种物体，将以前获得的操纵策略推广到训练期间未遇到的新物体。

Nair说：“我们对这项工作的两个结果感到非常兴奋。” “首先，我们发现我们可以训练一个策略来将现实世界中的对象推到大约20个对象上，但是学习到的策略实际上也可以推其他对象。这种归纳是深度学习方法的主要前景，我们希望这是随后令人印象深刻的概括形式的开始。”

值得注意的是，在他们的实验中，Nair和他的同事们能够从固定的交互数据集中训练策略，而不必在线收集大量数据。这是一项重要的成就，因为机器人技术研究的数据收集通常非常昂贵，并且能够从固定的数据集中学习技能，这使得它们的方法更加实用。

将来，研究人员开发的自我监督学习模型可以帮助开发机器人，这些机器人可以解决各种各样的任务，而无需单独培训大量技能。同时，Nair和他的同事计划继续在模拟环境中测试他们的方法，同时还研究可以进一步增强它的方法。

“我们现在正在寻求一些不同的研究方向，包括解决具有更大视觉多样性的任务，以及同时解决大量任务，并查看我们是否能够针对一项任务使用该解决方案来加快速度解决下一个任务。”