NeurIPS 2023 | LIBERO:机器人持续学习基准环境
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
AI/CV重磅干货,第一时间送达
作者:Heeger(源:知乎,已授权)
https://zhuanlan.zhihu.com/p/658683732
本文介绍我们最新发表在NeurIPS 2023 Datasets and Benchmarks Track上的一篇文章:《LIBERO: Benchmarking Knowledge Transfer in Lifelong Robot Learning》。我们搭建了一个全新的机器人持续模仿学习环境LIBERO,针对机器人持续学习问题中持续学习算法、网络架构、任务顺序、任务空间/目标/物体变化、语言嵌入、预训练等众多因素耦合导致的难以分析的问题,我们提出使用程序化生成的环境(Procedurally Generated Environments)来解耦地分析各个因素在机器人持续学习训练时带来的影响,为之后的领域内工作提供一个较为全面的实验环境。
文章介绍
在CVer微信公众号后台回复:LIBERO,可以下载本论文pdf、数据集和代码,学起来!
持续学习(Lifelong Learning, or Continual Learning)指的是智能体能够按照顺序持续不断地学习新的任务,同时保持旧的任务不遗忘,这是通用智能所具备的一个重要能力。对于机器人来说,持续学习可以帮助我们构建一个在整个生命周期中都能学习和适应的通用智能机器人,以此适应现实生活中的任务要求。
然而,与传统的图像和文本领域的持续学习问题主要涉及实体和概念的陈述性知识(declarative knowledge,例如图像和文本中的特征)的转移不同,决策领域的持续学习(Lifelong Learning in Decision Making, LLDM)还需要程序性知识(procedural knowledge)的转移,例如机器人的动作和行为。这给LLDM的研究带来了更多的难度:一个LLDM中任务的变化既有可能是所操作的物体变化,也有可能是所操作的物体位置变化,还有可能是所要实现的任务变化,这当中既包含了感知方面的持续学习问题,又包含了决策方面的持续学习问题。这些耦合的因素使得人们难以针对性地单独研究LLDM各个方面的问题,这些问题通常包括:
如何有效地理解和持续学习陈述性知识、程序性知识或两者的混合;
如何设计适合LLDM的、有效的策略网络架构;
如何设计适合LLDM的、有效的持续学习算法;
如何设计适合LLDM的任务学习顺序;
预训练模型对LLDM的训练影响如何;
额外的任务语言编码对LLDM的训练影响如何。
为了推进LLDM的研究,我们搭建了LIBERO:一个机器人操作任务的持续学习的新基准环境。针对以上几个主要研究问题,我们开发了一个可扩展的程序化生成仿真环境,理论上上可以可控地生成无限多的任务,并且可以针对某一中任务变化类型专门生成此类型的任务环境。例如,我们可以控制其他变量不变,而只改变所操作的物体种类,以解耦地探究物体种类变化对于机器人持续模仿学习的影响。
为了进行实验探究,我们选取并创建了四个任务集合(总共130个任务),包括LIBERO-SPATIAL、LIBERO-OBJECT、LIBERO-GOAL、LIBERO-LONG,用于研究上述研究问题。每个任务集合当中包括一系列针对某种单一任务变化方式的一系列机器人操作任务。我们为这130个任务提供了高质量的人工远程操作示教数据用于模仿学习。
基于这些环境和数据,我们对三类持续学习算法(ER、EWC、PackNet)、三种时空网络结构(ResNet-RNN、ResNet-Transformer、ViT-Transformer)、不同任务学习顺序、预训练对下游持续学习任务的影响、语言嵌入对持续学习的影响进行了深入探究。
实验发现
在以上的实验中,我们获得了大量的实验结果。下面是我们总结的一部分实验结论,更多的实验结果请参看文章实验部分:
网络架构设计和持续学习算法一样重要。与RNN相比,Transformer结构在抽象时间信息方面做得更好。ViT相比于CNN在具有丰富视觉信息的任务(例如,各种物体)上做得更好,但是当任务主要需要程序性知识时,CNN反而工作得更好;
虽然持续学习算法在减轻灾难性遗忘方面是有效的,但在持续学习任务的前向迁移(Forward Transfer)方面,它们通常比简单的直接finetune表现得更差;
我们的实验表明,使用语义丰富的任务描述的预训练语言嵌入并不比使用简单的任务ID的嵌入产生更好的性能;
在大规模离线数据集上的监督预训练可能会对LLDM中学习者的下游性能产生负面影响。
总结
目前的机器人持续学习算法在实际操作任务中的效果还难以令人满意。通常,对于比较干净的环境中的较为简单的操作任务,主流持续模仿学习算法大约能够在10个任务左右达到不错的持续学习效果,但是对于更复杂的任务和更复杂的环境来说,持续学习算法还有很长的路要走。LIBERO希望能够为未来持续学习算法和模型架构的开发提供良好的实验环境,同时,我们的实验发现对未来机器人持续学习领域的工作具有一定的启发意义。
在CVer微信公众号后台回复:LIBERO,可以下载本论文pdf、数据集和代码,学起来!
ICCV / CVPR 2023论文和代码下载
后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集
后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
机器人和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-机器人或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如机器人或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!
▲扫码进星球
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!
▲扫码进星球
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
微信扫码关注该文公众号作者