中学物理

前沿 | BAIR开发现实环境的RL机器人,通过与人类的物理交互学习真实目标

字号+作者: 来源: 2018-02-16 05:43 我要评论() 收藏成功收藏本文

可交互机器人通常将人类干预当成干扰,在干预撤除后随即恢复原来的轨迹,像弹簧一样执拗,无法根据人类偏好优化动作。伯克利近日开发出可交互学习的机器人'...

 可交互机器人通常将人类干预当成干扰,在干预撤除后随即恢复原来的轨迹,像弹簧一样执拗,无法根据人类偏好优化动作。伯克利近日开发出可交互学习的机器人系统,以类似强化学习的范式(目标函数不确定),能根据人类干预对自身轨迹进行修正,以最大化奖励,从而可以实时学习人类偏好。

人类每天都在进行彼此间的物理交互—从某人快要撒掉饮料时扶住他/她的手到将你的朋友推到正确的方向,身体上的物理互动是一种用来传达个人喜好和如何正确执行一个任务的直观方式。

那么,我们为什么不和当下的机器人像人一样进行物理交互呢?人类和机器人之间进行无缝的物理交互需要很多条件:轻量级的机器人设计、可靠的力学传感器、安全和反应式的控制方案、预测人类协作者意图的能力,等!幸运的是,机器人学在专门为人类开发的个人机器人设计方面已经取得了很多进步。

然而,再推敲一下我们刚开始就列举的第一个例子,即你在朋友快要撒掉饮料的时候扶住了他/她的手。现在假定你那位即将撒掉饮料的朋友(而不是你)是一个机器人。因为在目前最先进的机器人的规划和控制算法中,通常会将人类的物理干预视为外部扰动,一旦你放开机器人,它将恢复它那错误的轨迹,继续洒出饮料。这种差距的关键在于机器人是如何思考与人类之间的物理交互的:绝大多数机器人会在交互结束之后恢复其初始行为,而不是思考人类为什么根据需求对它进行物理干预并重新规划。

我们认为机器人应该将人类的物理干预视为和它应该如何执行任务相关的有用的信息。我们将机器人对物理干预的反应形式化为一种目标(奖励)学习问题,并且提出了一个解决方案,使得机器人在执行一个任务的时候能够根据在这些交互中得到的信息来改变它们的行为。

对物理交互的推理:未知的干扰与有意义的信息

物理人机交互(pHRI)领域研究的是共享工作空间里亲密的物理交互中出现的设计、控制和规划问题。之前的 pHRI 研究已经开发出了应对机器人在执行任务时面对物理交互的应对方法。由 Hogan(http://summerschool.stiff-project.org/fileadmin/pdf/Hog1985.pdf)等人提出的阻抗控制是常用的方法之一,阻抗控制可以让机器人在有人存在的空间里朝着期望的轨迹移动。使用这个控制方法时,机器人就像一个弹簧一样:它允许人推它,但是在人停止施力之后,它会移回到原来的期望位置。尽管这种策略非常快速,并且能够让机器人安全地适应人类的力量,但是机器人并不会利用这种干预去更新它对任务的理解,机器人将继续以与人类交互之前规划好的方式执行任务。

请遵守《互联网电子公告服务管理规定》及中华人民共和国其他各项有关法律法规。本站管理员有权保留或删除评论内容。

相关文章
网友点评