IROS 2021 | 基于无监督学习环境模型的机器人运动控制

18次阅读

FAIR 训练 AI 玩拳击,效果堪比真人比赛,试探+周旋+爆头

基于 AI 深度强化学习的拳击选手身体不仅拥有超高自由度,而且它还掌握了格挡、后退、摆拳等拳击基本动作。

IROS 2021 | 基于无监督学习环境模型的机器人运动控制
AI科技评论报道

导读:本文是机器人领域顶级会议 IROS 2021入选论文《基于无监督学习环境模型的机器人运动控制(DMotion: Robotic Visuomotor Control with Unsupervised Forward Model Learned from Videos)》的解读。该论文由北京大学前沿计算研究中心董豪课题组主导完成。


项目主页:https://hyperplane-lab.github.io/dmotion/

论文地址:https://arxiv.org/abs/2103.04301

ICCV 2021 Oral | 基于点云的类级别刚体与带关节物体位姿追踪

该工作由北京大学前沿计算研究中心陈宝权课题组与斯坦福大学/北京大学王鹤等合作完成,论文共同一作翁伊嘉为2021届图灵班学生。

1

研究背景

在机器人控制、基于模型的强化学习领域,学习环境的模型是重要的问题。现有方法学习环境模型通常需要大量从环境中采集的带标签的数据,如智能体动作、物体位置、运动的真实标注,在许多现实场景的应用中有局限性。
而认知科学的研究认为,人类婴儿能够仅通过视觉观察,建立物理世界的模型、进行预测。
无监督地建立物理模型能够帮助人类与环境交互、操控工具来完成各种任务。
如图1的例子所示:玩家 B 通过观察玩家 A 操作,学习如何玩一个游戏。为学会玩游戏,玩家 B 需要建立游戏的模型,知道键盘上的操作(动作标注)与画面中主角动作的对应关系、采取某个动作会如何影响游戏的状态。现实中,玩家 B 大部分时间都会只关注游戏画面,而不去观察玩家 A 操作键盘的每一个动作。对游戏模型的理解,例如哪个是主角、主角和游戏环境是怎么互动的,大多是通过观看游戏画面完成的;观察键盘的操作仅仅是为了知道如何去控制主角的每个动作。
IROS 2021 | 基于无监督学习环境模型的机器人运动控制
图1. 学习玩游戏的例子
受此启发,我们研究如何利用缺少动作标注的视频数据学会环境模型,来实现基于模型的机器人运动控制。
如下图所示,我们提出的方法(DMotion)首先从无监督的视频中解耦智能体的运动、学习物体之间的交互规律;最后通过少量的带有动作标注的数据,DMotion 建立动作标注到智能体运动的映射,学会环境模型。
IROS 2021 | 基于无监督学习环境模型的机器人运动控制
图2. DMotion学习“机器人推物体”环境的过程


2


方法简介
IROS 2021 | 基于无监督学习环境模型的机器人运动控制
图3. DMotion的训练框架,由Object Extractor和Interaction Learner组合,进行端到端的学习

问题定义:环境是马尔可夫决策过程   ,假设只有一个智能体,动作   控制智能体的位移,观测空间是 RGB 图像   。提供环境中采集的视频数据   和少量带动做标注的数据   作为训练数据,任务的目标是得到环境的模型   。
物体解耦模块(Object Extractor):图像编码器(Image Encoder)将输入图像   分解为一组特征图   ,来表示不同物体的空间位置信息。运动编码器(Motion Encoder)输入连续几帧图像   ,输出一组空间变换矩阵   ,来表示每个物体从时刻   到   发生的位置变换。   是2*3矩阵,由2*2旋转矩阵和   方向的平移组成。空间变换器(Spatial Transformer)对特征图进行仿射变换   ,以得到   时刻的特征图,再通过解码器(Image Decoder)对图像   进行重构。
交互学习模块(Interaction Learner):此模块输入历史观测   和第一张变换后的特征图   ,输出对   的预测。为准确预测   时刻所有物体的位置,输入   中必须含有智能体的动作信息   。而仅当   是智能体的特征图时,此模块的输入才含有充分的动作信息。
Object Extractor 和 Interaction Learner 在视频数据集上端到端地训练,优化目标是:
IROS 2021 | 基于无监督学习环境模型的机器人运动控制
直观地,最小化前一项能够激励图像编码器解耦不同的物体、运动编码器分解不同物体的位移,最小化后一项能够激励第一张特征图表示智能体的空间位置信息、交互学习模块学习用   代替   的环境模型。
动作映射(Action-Transformation Mapping):为将交互学习模块转化为输入真实动作   的环境模型,我们利用少量的带动作标注的数据学习映射   。环境模型做预测的流程如下:输入历史观测   和智能体动作   ,通过动作映射将   转换为矩阵   ,通过图像编码器提取   ,用空间变换器得到   ,最后通过交互学习模块输出下一时刻的观测   。
IROS 2021 | 基于无监督学习环境模型的机器人运动控制
图4. DMotion应用于机器人运动控制的框架
机器人运动控制:DMotion 应用于机器人运动控制的框架如图4所示。给定一个目标图像,规划算法利用学习的环境模型(Forward Model),搜索出最优的决策动作   ,从而控制环境中的机械臂推动物体,达到目标图像的物体摆放位置。


3


实验结果
视频预测:我们以图像均方误差(MSE)和物体位置的平均误差(Pos err.)为指标,在 Grid World、Robot Pushing 环境中测试视频预测的准确性。表1显示了我们方法的表现比所有使用10%标注数据的有监督方法更好。在多数指标上,我们方法的准确性超过了使用全部标注数据的监督学习方法。
IROS 2021 | 基于无监督学习环境模型的机器人运动控制
表1. 视频预测的定量结果,数字越小表示越准确
机器人运动控制:我们在 Robot Pushing 环境中测试基于模型的机器人运动控制。图6显示,只有用我们的方法作为环境模型时,能够有效地完成任务,使环境中物体位置与目标位置的距离显著下降。图7对此进行了解释:可视化不同模型做多步预测的过程,只有我们的方法保证了机械臂始终是清晰的,其他方法在多步预测后机械臂的部分均出现模糊,导致规划算法不能有效执行。我们认为,我们的方法对智能体的空间位置和运动进行显式地表示,有利于模型输出智能体不模糊的图像。
IROS 2021 | 基于无监督学习环境模型的机器人运动控制
图5. DMotion在机器人运动控制中的部分效果


IROS 2021 | 基于无监督学习环境模型的机器人运动控制


图6. 机器人运动控制的定量结果,纵轴表示与目标的差距,横轴表示运行步数


IROS 2021 | 基于无监督学习环境模型的机器人运动控制
图7. 机器人运动控制的规划过程中,不同环境模型的预测
特征图可视化:在对图像编码器输出的第一张特征图   进行可视化后,我们看到特征图显示了智能体的 mask,丢弃了其他物体的空间位置信息,与我们方法的假设相一致。
IROS 2021 | 基于无监督学习环境模型的机器人运动控制
图8. DMotion首张特征图可视化的结果


4


总结
本文提出了一种无监督地用视频数据学习环境模型的新方法,在视频预测、机器人运动控制的任务中表现了相比监督学习的优越性。未来的研究可以将该方法推广到连续动作空间、多智能体、多关节智能体的场景,以适应更复杂的任务需要。



风情信息风情信息(公众号:风情信息)风情信息

风情信息特约稿件,未经授权禁止转载。详情见转载须知。

111场技术论坛!2位图灵奖得主,7位院士邀你参加中国计算机大会 | CNCC 2021

一年一度的中国计算机大会将于10月28日-30日在中国·深圳举行,本届大会共开设111场技术论坛,涵盖32个专业方向,从数量和范围上达到了历史之最。

正文完
 
admin
版权声明:本站原创文章,由 admin 2021-09-06发表,共计2854字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。