Redian新闻
>
NeurIPS 2023|北京大学提出类别级6D物体位姿估计新范式,取得新SOTA

NeurIPS 2023|北京大学提出类别级6D物体位姿估计新范式,取得新SOTA

公众号新闻

机器之心专栏

作者:张继耀

类别级 6D 物体位姿估计是一个基础且重要的问题,在机器人、虚拟现实和增强现实等领域应用广泛。本文中,来自北京大学的研究者提出了一种类别级 6D 物体位姿估计新范式,取得了新的 SOTA 结果,论文已被机器学习领域顶会 NeurIPS 2023 接收。


6D 物体位姿估计作为计算机视觉领域的一个重要任务,在机器人、虚拟现实和增强现实等领域有众多应用。尽管实例级别的物体位姿估计已经取得了显著进展,但它需要事先了解物体的特性,因此无法轻松适用于新的物体,这限制了其实际应用。为了解决这一问题,近年来,越来越多的研究工作集中在类别级别的物体位姿估计上。类别级别的位姿估计要求算法不依赖于物体的 CAD 模型,能够直接应用到与训练数据中相同类别的新物体。


目前,主流的类别级别 6D 物体位姿估计方法可以分为两大类:一是直接回归的端到端方法,二是基于物体类别先验的两阶段方法。然而,这些方法都将该问题建模为回归任务,因此在处理对称物体和部分可见物体时,需要特殊的设计来应对多解问题。


为了克服这些挑战,北京大学的研究团队提出了一种全新的类别级 6D 物体位姿估计范式,将该问题重新定义为条件分布建模问题,从而实现了最新的最优性能。他们还将这一方法成功应用于机器人操作任务,如在视频中展示的倒水等任务。



论文地址:https://arxiv.org/abs/2306.10531



类别级 6D 物体姿态估计中的多解问题


在类别级 6D 物体姿态估计中,多解问题指的是在同一观测条件下,可能存在多个合理的位姿估计。这种情况主要源于两个方面,如图 1 所示:对称物体和部分观测。对于对称物体,例如球形或圆柱形的物体,在不同方向上的观测可能会完全相同,因此从理论上讲,它们有无限多个可能的位姿真值。同时,单一视角无法获取到完整的物体观测,例如马克杯,在没有观察到杯柄的情况下,也存在无限多个可能的位姿真值。


图 1. 多解问题的来源:对称物体和部分观测


方法介绍


那么如何应对上述多解问题呢?作者把该问题看作条件分布建模问题,提出了一种名为 GenPose 的方法,利用扩散模型来估计物体位姿的条件分布。该方法首先使用基于分数的扩散模型生成物体位姿的候选项。然后通过两步对候选项进行聚合:首先,通过似然估计筛选掉异常值,接着通过平均池化对剩余候选位姿进行聚合。为了避免在估计似然时需要繁琐的积分计算,研究作者还引入了一种基于能量的扩散模型的训练方法,以实现端到端的似然估计。


图 2. GenPose 框架结构


基于分数的扩散模型用于物体姿态候选的生成


这一步骤旨在解决多解问题,那么如何建模物体位姿的条件概率分布呢?作者采用了基于分数的扩散模型,利用 VE SDE(Variational Eulerian Stochastic Differential Equation)构建了一个连续的扩散过程。在模型的训练过程中,其目标是估计扰动条件姿态分布的分数函数,并最终通过 Probability Flow ODE(Ordinary Differential Equation)从条件分布中采样物体姿态的候选项。


图3. 基于分数的扩散模型生成物体姿态候选


基于能量的扩散模型用于物体姿态候选的聚合


从训练好的条件分布可以采样出无限个物体位姿候选,如果从候选中得到一个最终的物体位姿呢?最直接的方式是随机采样,但是这种方法无法保证预测的稳定性。是否可以通过平均池化来聚合候选项呢?然而这种聚合方式未考虑候选的质量,容易受到离群值的影响。作者认为可以通过似然估计的方式把候选的质量作为聚合的参考。具体来说,根据似然估计结果对物体姿态候选进行排序,过滤掉似然估计较低离群候选后对剩余候选进行平均池化,就可以得到聚合后的姿态估计结果。但是,扩散模型进行似然估计需要繁琐的积分计算,这严重影响了推理速度,及其限制其实际应用。为了解决这个问题,作者提出训练一个基于能量的扩散模型,直接用于进行端到端的似然估计,实现候选的快速聚合。


图4. 基于能量的扩散模型用于似然估计与物体姿态候选聚合


实验与结果


作者在 REAL275 数据集上对 GenPose 性能进行了验证,可以看出 GenPose 在各项指标上都大幅优于之前的方法,即使是与使用更多模态信息的方法进行对比,GenPose 依然有很大的领先优势,表 1 展示了作者提出的生成式物体姿态估计范式的优势。图 5 是可视化的结果。


表 1. 与其他方法的对比


图 5. 不同方法的预测可视化效果


作者还研究了使用不同的聚合方法(随机采样,随机排序后聚合、基于能量排序后聚合、GT 排序后聚合)的影响。可以看出使用能量模型进行排序明显优于随机抽样方法。可以看出作者提出的基于能量的扩散模型对物体姿态候选进行聚合的方法明显由于随机采样的方法和随机排序后平均池化的方法。


表 2. 不同聚合方式的对比


为了更好地分析能量模型的影响,作者进一步研究了估计的位姿误差与预测的能量之间的相关性。如图 4 所示,预测的位姿误差和能量之间存在一般的负相关关系。能量模型在识别误差较大的姿态时表现较好,而在识别误差较小的姿态时表现较差,这解释了为什么预测的能量被用来去除离群点,而非直接选出能量最大的候选。


图6. 能量与预测误差相关性分析


作者还展示了该方法跨类别泛化的能力,该方法不依赖类别先验,在跨类别的泛化上的表现也显著优于之前的方法。


表 3. 跨类别泛化效果。‘/’ 左边表示训练数据集包含测试类时的性能,‘/’ 右边表示把训练时把测试的类别移除时候的性能。


同时,由于扩散模型的闭环生成过程,文章中的单帧姿态估计框架还可以直接用于 6D 物体姿态跟踪任务,没有任何特殊的设计,该方法在多项指标中优于最先进的 6D 物体姿态跟踪方法,结果如表 4 所示。


表 4. 类别级 6D 物体姿态追踪性能对比


总结与展望


这项工作提出了一个类别级 6D 物体位姿估计新范式,训练过程无需针对对称物体和部分观测带来的多解问题做任何特殊设计,取得了新的 SOTA 性能。未来的工作会利用扩散模型的最新进展来加速推理过程,并考虑结合强化学习来实现主动式 6D 物体位姿估计。


研究团队介绍:


本次研究的通讯作者董豪为北京大学的助理教授、博导、博雅青年学者、智源学者,其创立并领导北大超平面实验室(Hyperplane Lab)。


论文共同一作张继耀、吴铭东为北京大学博士生,导师为董豪老师,详见个人主页。


  • https://jiyao06.github.io/

  • https://aaronanima.github.io/




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
NeurIPS 2023 | 无需配对数据就能学习!浙大等提出连接多模态对比表征C-MCRICCV 2023 | 用“自编码器+多模态学习”更有效地解决3D物体可供性问题NeurIPS 2023 | 模仿人类举一反三,数据集扩增新范式GIF框架来了NeurIPS 2023 | 任意模型都能蒸馏!华为诺亚提出异构模型的知识蒸馏方法NeurIPS 2023 | MCUFormer: 可在内存有限微控制器上部署的Vison Transformer模型NeurIPS 2023 | 中科院&旷视提出DropPos:全新的自监督视觉预训练代理任务NeurIPS 2023 | 单张图片3D数字人重建新SOTA!浙大&悉尼科技大学发布GTANeurIPS 2023 | 李飞飞团队提出SiamMAE:孪生掩码自编码器,刷榜视觉自监督方法!《魅羽活佛》第353章 说唱之王1张图2分钟转3D!纹理质量、多视角一致性新SOTA|北大出品在Mount Rainier National Park 赏秋 (10/7/2023)马库斯锐评GPT-5!急需新范式,OpenAI并无优势美:与超级大国中俄过招NeurIPS 2023 | 旷视张祥雨等人提出RevColV2:当解耦学习遇见自监督训练!视觉预训练新思路多个考古重大项目,取得新成果!JMT 2023俄乌战况10NeurIPS 2023 | 港科大&华为提出CoDA:开放词汇3D目标检测新网络让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%美国的屠呦呦--诺贝尔奖获得者卡里科的美国梦北大全新「机械手」算法:辅助花式抓杯子,GTX 1650实现150fps推断|NeurIPS 2023FC Cincinnati win 2023 MLS Supporters' Shield「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR|NeurIPS 2023突发地震!超2400人死亡,最高震级6.2!宣告破产?龙头房企紧急发声!"史上最惨烈熊市"突袭NeurIPS 2023 | 北大&华为提出:多模态基础大模型的高效微调​AAAI 2024 | 视觉定位标注难?浙大赵天成博士团队提出零样本定位新SOTA模型GroundVLP计算需求降为1%! 清华大学首次提出「二值化光谱重建算法」,代码全开源|NeurIPS 2023家,女人修行的道场(加建中式厨房 – 4)NeurIPS 2023 | 北大具身智能团队提出需求驱动导航:对齐人类需求,让机器人更高效​NeurIPS 2023 | PropCare: 面向因果关系推荐系统的倾向性估计方法NeurIPS 2023 | 浙大等提出C-MCR:连接多模态对比表征,无需配对数据就能学习!NeurIPS 2023 | 全新机械手算法:辅助花式抓杯子,GTX 1650实现150fps推断Mol Cell|北京大学魏文胜团队实现人类蛋白质组中赖氨酸位点的功能解码第三個奶頭视频场景图生成任务新SOTA!中山大学提出全新时空知识嵌入框架,登顶刊TIP'24English teachers of my generation:Shen Baoqing (and Peng Wenlan)NeurIPS 2023 | 港科大提出EAC:"可解释一切"图像概念解释器NeurIPS 2023 | 清华ETH提出首个二值化光谱重建算法NeurIPS 2023 | 清华&ETH提出首个二值化光谱重建算法CoRL 2023 | SA6D:针对被遮挡下新物体的自适应少样本6DoF姿态估计器
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。