ICCV 2023 最佳论文候选!北大提出UniDexGrasp++:基于几何感知课程和迭代通用-专家策略学习的灵巧手抓取算法
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
AI/CV重磅干货,第一时间送达
在CVer微信公众号后台回复:太牛逼,可以下载本论文pdf,学起来!
在CVer微信公众号后台回复:太牛逼,可以下载本论文pdf,学起来!
导 读
本文是 ICCV 2023 入选 Oral 论文 UniDexGrasp++: Improving Dexterous Grasping Policy Learning via Geometry-aware Curriculum and Iterative Generalist-Specialist Learning 的解读。本论文由北京大学王鹤研究团队与清华大学、北京通用人工智能研究院合作,是研究团队 CVPR 2023 工作 UniDexGrasp 的后续工作。
面对三千多种物体在任意位姿下的泛化视觉强化学习困难,我们提出了基于几何的课程学习,对视觉空间进行划分,并进行多轮交替的专家策略学习和向通用策略的蒸馏,第一次达成了成功率超过80%的、点云输入的通用灵巧手抓取策略。
文章在 ICCV 2023 中获得全满分的评审成绩并被评为口头报告展示(Oral Presentation),还进入 Best Paper 候选名单中!
论文链接:
https://arxiv.org/abs/2304.00464
项目主页:
https://pku-epic.github.io/UniDexGrasp++/
代码地址:
https://github.com/PKU-EPIC/UniDexGrasp2
图1. 通用的灵巧手抓取
01
引 言
机器人抓取是机器人与环境交互的重要组成,也是机器人实现复杂操作的关键。尽管传统的二指抓取方法已经取得了很大的进展,但其在处理复杂物体也具有一定的局限性。相比之下,灵巧手抓取,特别是五指抓取,提供了更为丰富和多样的抓取方式。然而,灵巧手驱动空间的高维度既是赋予灵巧手这种多功能性的优势,也是难以执行成功抓取的主要原因。作为一种广泛使用的五指机器人灵巧手,ShadowHand[1]拥有26个自由度(DoF)。这种高维度加大了生成有效抓取姿势和规划执行轨迹的难度,从而迫使灵巧抓取任务的研究采取与平行抓取任务不同的方法。一些工作使用基于视觉输入的强化学习解决这个问题[2,3],但由于目前强化学习算法的局限性,通常这些方法很难学习不同物体不同姿态的通用抓取策略。
UniDexGrasp[4]使用物体课程学习(Object Curriculum Learning)以及知识蒸馏的方法学习了一个通用的视觉抓取策略。在 UniDexGrasp 中,一个局限性是基于状态(State-based)的教师策略只能达到79.4%的成功率,由此当使用知识蒸馏学习基于视觉(Vision-based)的学生策略时,学生策略的表现受到了很大的限制。另一方面,即使同一个物体,在不同位姿的下的几何信息也差异很大,而 UniDexGrasp 的物体课程学习只关注了物体类别却忽视了物体的位姿。我们提出了一种新的方法,UniDexGrasp++,关注不同物体不同位姿的几何差异,并利用通用策略-专家策略学习[5]方法,极大地提升了 UniDexGrasp 的泛化能力。
首先,为了提升基于状态的教师策略的表现,我们提出了使用场景点云的的几何特征来计算任务相似性的几何感知任务课程学习(GeoCurriculum)。为了进一步提高策略的泛化能力,我们采纳了通用策略-专家策略学习(Generalist-Specialist Learning, GSL)的理念,其中一组专家策略在任务空间的子集上训练,然后将其知识蒸馏给一个通用策略。我们进一步提出了几何感知的迭代通用策略-专家策略学习(Geometry-aware iterative Generalist-Specialist Learning, GiGSL),在这里我们使用几何特征来决定哪个专家处理哪个任务,并迭代地进行蒸馏和微调。我们的方法得到的基于状态的策略,在训练集和测试集上分别达到了87.9%和83.7%的成功率。
接下来,我们将表现最佳的专家策略蒸馏给一个基于视觉的通用策略,并在基于视觉的策略上再次进行 GiGSL,直至其性能饱和。通过我们完整的流程,我们最终的基于视觉的策略在3000+的物体实例上展现了普遍的灵巧抓取能力,其在训练集和测试集上的成功率分别为85.4%和78.2%,这显著地超越了最先进的基准。同时,完整的消融实验展现了我们提出的各个改进策略的优越性。
02
方法简介
图2. 方法概览。左侧为基于状态的策略学习阶段,右侧为基于视觉的策略学习阶段。
方法概览
如图2所示,方法的流程分为左右两个阶段:第一阶段为基于状态的策略学习,第二阶段为基于视觉的策略学习。
在第一阶段中,我们的目标是得到一个基于状态的通用策略,该策略以机器人状态
在第二阶段中,我们的目标是学习一个基于视觉的通用策略。对于基于视觉的策略,我们只允许它访问现实世界中可用的信息,包括机器人状态
图3. 算法伪代码
下面,我们分别详细介绍上述概览中提出的方法模块。
迭代通用策略-专家策略学习(iGSL)
我们在通用策略-专家策略学习[5]的基础上提出了迭代通用策略-专家策略学习。具体来说,我们将整个任务空间分割成多个子空间,并让一个专家策略负责一个子空间。由于每个子空间的任务变化较少,因此更容易学习,每个专家策略都可以受到良好的训练,并在其任务分布上表现出色。最后,我们使用 DAgger-based policy distillation 的方法将所有的专家策略蒸馏成一个通用的 A 策略,并重复迭代执行这个过程。
几何感知的迭代通用策略-专家策略学习(GiGSL)
对于 iGSL,一个重要难题是如何划分任务空间。之前的工作通常处理的是数量有限的任务,因此可以为每个任务指定一个专家,或者随机指定。然而,在我们的工作中,考虑到初始物体姿态可以连续变化,我们面临的是无数的任务。我们只能负担有限数量的专家策略,并需要找到一种方法将采样的任务分配给一个专家。我们认为,相似的任务需要被分配给同一个专家,因为只有当其任务变化很小时,一个专家策略通过强化学习才能有效地提高。为此,我们提出了基于几何的聚类策略(GeoClustering),这是一种在任务空间中进行几何感知聚类的策略。
基于几何的聚类策略(GeoClustering)
我们将任务空间
图4. 基于几何的聚类(GeoCurriculum)伪代码
基于几何的课程学习(GeoCurriculum)
UniDexGrasp 中提出了物体课程学习。具体来说,物体课程学习首先使用 RL 训练一个策略来抓取一个对象实例(这个对象可能处于不同的初始姿态);一旦这个策略训练得很好,通过整合同一类别的几个相似对象来增加对象的数量,然后使用 RL 在新的对象集合上微调策略;接着,再次增加对象的数量,使用该类别的所有对象并微调策略;最后,将对象范围扩展到整个训练对象中的所有不同类别,并完成最终的微调。但是这种方法并没有考虑到物体的几何特征。利用几何特征来衡量任务之间的相似性,而不是对象身份和类别标签。因此,我们引入了 GeoCurriculum,一个利用层次任务空间划分的几何感知任务课程。具体来说,我们设计了一个多层次任务的课程,该课程将任务按照逐渐增加的变化级别分配给策略学习,并促进逐步学习。伪代码如图5所示。在训练过程中,我们迭代地在每个分配的任务集下训练策略。从在
图5. 基于几何的课程学习(GeoCurriculum)伪代码
03
实验结果
我们将我们的方法与其他基线方法的结果进行了比较。具体来说,我们使用了 UniDexGrasp 的 non-goal conditional setting,包含有来自133个物体类别的3165个物体,每个物体都在桌面上随机初始化位姿。详细成功率结果见图6。图6中列出了这些方法在训练集和测试集上的平均成功率。结果显示,UniDexGrasp++ 在训练集和测试集上分别达到85.4%和78.2%的平均成功率,显著优于其他方法。
图6. 抓取成功率结果比较
我们在图7中可视化了聚类策略的定性结果。第一行显示了一种简单的聚类方式,它基于对象类别,这种聚类方法没有对象几何信息,因此在抓取学习中帮助有限。第二行显示了我们基于状态的聚类策略,它基于点云编码器的特征,可以聚类具有相似形状的对象。在第三行,我们的使用的基于视觉的聚类策略利用了视觉骨干提取点云特征,它具有更多的任务相关信息,因此聚类的对象不仅形状相似,而且抓取姿势也相似, 更有利于每个专家策略的学习。
图7. 不同聚类策略的定性可视化结果
同时,我们在图8中可视化了每个学习或微调步骤的成功率。无论是对于基于状态的策略还是基于视觉的策略,通用策略-专家策略微调和蒸馏的改进都显示了几何感知迭代通用-专家学习 GiGSL 策略设计的有效性,并提高了通用灵巧抓取的最终性能。
图8. GiGSL 算法过程中的成功率变化
参考文献
[1] ShadowRobot. https://www.shadowrobot.com/dexterous-hand-series/, 2005.
[2] Priyanka Mandikal and Kristen Grauman. Dexvip: Learning dexterous grasping with human hand pose priors from video. In CoRL 2021.
[3] Yuzhe Qin, Binghao Huang, Zhao-Heng Yin, Hao Su, and Xiaolong Wang. Dexpoint: Generalizable point cloud reinforcement learning for sim-to-real dexterous manipulation. In CoRL 2022.
[4] Yinzhen Xu, Weikang Wan, Jialiang Zhang, Haoran Liu, Zikang Shan, Hao Shen, Ruicheng Wang, Haoran Geng, Yijia Weng, Jiayi Chen, Tengyu Liu, Li Yi, and He Wang. UniDexGrasp: Universal robotic dexterous grasping via learning diverse proposal generation and goal-conditioned policy, In CVPR 2023.
[5] Zhiwei Jia, Xuanlin Li, Zhan Ling, Shuang Liu, Yiran Wu, and Hao Su. Improving policy optimization with generalistspecialist learning. In ICML 2022.
[6] Tongzhou Mu, Zhan Ling, Fanbo Xiang, Derek Yang, Xuanlin Li, Stone Tao, Zhiao Huang, Zhiwei Jia, and Hao Su. Maniskill: Generalizable manipulation skill benchmark with large-scale demonstrations. arXiv preprint arXiv:2107.14483, 2021.
图文 | 万维康、耿浩然
Embodied Perception and InteraCtion (EPIC)
在CVer微信公众号后台回复:太牛逼,可以下载本论文pdf,学起来!
最新CVPR 2023论文和代码下载
后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者ransformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!
▲扫码进星球
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
在CVer微信公众号后台回复:太牛逼,可以下载本论文pdf,学起来!
最新CVPR 2023论文和代码下载
后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者ransformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!
▲扫码进星球
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
微信扫码关注该文公众号作者