NeurIPS 2023 | 全新机械手算法：辅助花式抓杯子，GTX 1650实现150fps推断

2023-12-07 05:12

©作者 | PKU Hyperplane

单位 | 北京大学前沿计算研究中心

本文是对发表于 NeurIPS 2023 论文 GraspGF: Learning Score-based Grasping Primitive for Human-assisting Dexterous Grasping 的解读。该论文是由北京大学董豪超平面实验室完成，共同一作为计算机学院博士生吴天昊、吴铭东。

人类在执行动作（如抓取）时具有多样性，这项研究将人类的抓取多样性分解为“如何抓”以及“何时抓”，通过扩散模型来学习“如何抓”，进一步结合强化学习来学习“何时抓”。辅助人类在日常生活中实现对不同物体不同部位的多样化抓取。作者提出的方法能实现与人类的实时交互，并根据人类的行为进行自适应的调整。

论文标题：

GraspGF: Learning Score-based Grasping Primitive for Human-assisting Dexterous Grasping

论文链接：

https://arxiv.org/abs/2309.06038

项目主页：

https://sites.google.com/view/graspgf

▲ 项目视频

新方法结合扩散模型和强化学习，将抓取问题分解为「如何抓」以及「何时抓」，平价显卡即可实现实时交互。

手是人类与世界交互的重要部分，手的缺失（如上肢残障）会大大影响人类的正常生活。

北京大学董豪团队通过将扩散模型和强化学习结合，使机械手能根据人手腕部的移动轨迹，自适应的抓取物体的不同部位，满足人类多样化的抓取需求。

有了这个机械手，只要动动手腕，机械手就能按照人类想要的方式抓起物体，比如抓取杯身和杯壁。

由于人类行为的复杂与多变性和真实世界物体的多样性，仅仅根据人手腕部的移动轨迹来不断预测人类想法是一件非常困难的事情。

新方法真正实现了灵巧的抓取，能在真实世界中对于不同的物体，不同的抓取姿态，不同的抓取轨迹进行泛化。

机械手如何明白人类的想法？

我们提出将人类的想法分解成两个部分：

1. 如何抓：考虑到人类和物体当前的相对姿势，机械手应该如何抓取物体？

2. 何时抓：机械手应该根据用户历史运动轨在何时、以什么速度执行抓取动作？

如何抓？

首先，如上图所示，新方法将学习人类想要「如何抓取物体」，定义为从一个包含各种抓取姿态的数据集中，学习抓取梯度场 Grasping Gradient Field（GraspGF）。

基于当前人手腕部和物体的相对关系，GraspGF 会输出一个梯度，这个梯度代表最快提高「抓取可能性」的方向。这个梯度可以转化为对每个手指关节的原始控制，使手指能够通过不断迭代达到适当的抓取姿态。

这样的梯度场可以随着人手腕部和物体的关系的变化，而不断的输出新的梯度指示当前人类的抓取意图，即意向抓取的物体区域及抓取姿态。

▲ GraspGF 随着手腕的旋转，不断调整抓取姿态

何时抓？

▲ GraspGF的动作会导致提前合拢

然而，只知道「如何抓」并不够完备，如果不知道要「何时抓」（如上图所示），虽然最终的抓取姿态是合理的，但是在达到抓取姿态的过程中会和物体发生碰撞。

如上所示，为了解决「何时抓取」的问题，新方法还训练了一个基于强化学习的残差策略，它首先会输出一个「缩放动作」，根据手腕轨迹的历史，决定手指关节应该以多快的速度沿着原始动作的方向移动。

此外，因为原始策略是基于最终抓取姿态数据集离线训练得到的，原始策略并不了解环境的物理约束，残差策略还会输出一个「残差动作」来进一步校正原始动作。通过结合残差策略，模型能够通过残差策略学习到的「何时抓」更好地实现原始策略学习到的「如何抓」。

简单的奖励函数

该方法在奖励函数的设置上不需要过多的 human design，因为原始动作已经提供了一个比较好的「如何抓」的引导，在训练强化学习模型时，除了给定成功抓取和抓取后的高度变化奖励，仅仅只需要一个奖励函数去鼓励机械手跟随原始动作即可。

该方法的优势

该方法仅需要成功抓取的抓取姿态数据集用于训练，与需要专家演示的方法相比，不需要大量的人工标注或者工程工作。

GraspGF 借助了扩散模型强大的条件生成建模能力，这使它能够根据新颖的用户意图输出有效的原始动作。

残差学习的设计改善了强化学习探索效率低下的问题，提升了强化学习模型在未见过物体和轨迹上的泛化能力。

结果

最终在 4900 多个物体，200 条不同的人类移动轨迹上，新方法都优于基准。

该方法的最终的抓取姿态相比于基线更符合人类的抓取意图。

此外，该方法在抓取过程中对物体造成的扰动要小于其他基准。

经过测试，该模型在 GTX1650 的显卡上，能达到 150fps 的推断速度，能做到与人类的实时交互，也许未来能真正用于辅助手部缺失的人更好地进行日常生活。

超平面实验室 Hyperplane Lab

超平面实验室隶属北京大学前沿计算研究中心，由董豪老师带领，其研究方向主要涉及计算机视觉、智能机器人、具身智能和开源 AI 软件。实验室目前的研究方向包括：机器人泛化操纵、导航及具身大模型等；研究旨在打造机器人型号无关、自主决策的通用具身智能系统，以加速机器人普适化。

实验室 PI 简介：董豪助理教授

‍实验室相关新闻：‍#PKU Hyperplane

实验室主页：

https://zsdonghao.github.io/

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：[email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章