Redian新闻
>
北大全新「机械手」算法:辅助花式抓杯子,GTX 1650实现150fps推断|NeurIPS 2023

北大全新「机械手」算法:辅助花式抓杯子,GTX 1650实现150fps推断|NeurIPS 2023

公众号新闻



  新智元报道  

编辑:LRS 好困
【新智元导读】新方法结合扩散模型和强化学习,将抓取问题分解为「如何抓」以及「何时抓」,平价显卡即可实现实时交互。

手是人类与世界交互的重要部分,手的缺失(如上肢残障)会大大影响人类的正常生活。



北京大学董豪团队通过将扩散模型和强化学习结合,使机械手能根据人手腕部的移动轨迹,自适应的抓取物体的不同部位,满足人类多样化的抓取需求,目前该工作已被NeurIPS 2023接收。


论文地址:https://arxiv.org/abs/2309.06038

项目主页:https://sites.google.com/view/graspgf


有了这个机械手,只要动动手腕,机械手就能按照人类想要的方式抓起物体,比如抓取杯身和杯壁。




由于人类行为的复杂与多变性和真实世界物体的多样性,仅仅根据人手腕部的移动轨迹来不断预测人类想法是一件非常困难的事情。


新方法真正实现了灵巧的抓取,能在真实世界中对于不同的物体,不同的抓取姿态,不同的抓取轨迹进行泛化。


机械手如何明白人类的想法?


北大董豪团队提出将人类的想法分解成两个部分:


1. 如何抓: 考虑到人类和物体当前的相对姿势,机械手应该如何抓取物体?

2. 何时抓: 机械手应该根据用户历史运动轨在何时、以什么速度执行抓取动作?

如何抓?



首先,如上图所示,新方法将学习人类想要「如何抓取物体」,定义为从一个包含各种抓取姿态的数据集中,学习抓取梯度场Grasping Gradient Field(GraspGF)。

基于当前人手腕部和物体的相对关系,GraspGF会输出一个梯度,这个梯度代表最快提高「抓取可能性」的方向。这个梯度可以转化为对每个手指关节的原始控制,使手指能够通过不断迭代达到适当的抓取姿态。

这样的梯度场可以随着人手腕部和物体的关系的变化,而不断的输出新的梯度指示当前人类的抓取意图,即意向抓取的物体区域及抓取姿态。

GraspGF随着手腕的旋转,不断调整抓取姿态

何时抓?

GraspGF的动作会导致提前合拢

然而,只知道「如何抓」并不够完备,如果不知道要「何时抓」(如上图所示),虽然最终的抓取姿态是合理的,但是在达到抓取姿态的过程中会和物体发生碰撞。


如上所示,为了解决「何时抓取」的问题,新方法还训练了一个基于强化学习的残差策略,它首先会输出一个「缩放动作」,根据手腕轨迹的历史,决定手指关节应该以多快的速度沿着原始动作的方向移动。

此外,因为原始策略是基于最终抓取姿态数据集离线训练得到的,原始策略并不了解环境的物理约束 ,残差策略还会输出一个「残差动作」来进一步校正原始动作。
通过结合残差策略,模型能够通过残差策略学习到的「何时抓」更好地实现原始策略学习到的「如何抓」。

简单的奖励函数


该方法在奖励函数的设置上不需要过多的human design,因为原始动作已经提供了一个比较好的「如何抓」的引导,在训练强化学习模型时,除了给定成功抓取和抓取后的高度变化奖励,仅仅只需要一个奖励函数去鼓励机械手跟随原始动作即可。

该方法的优势

  • 该方法仅需要成功抓取的抓取姿态数据集用于训练,与需要专家演示的方法相比,不需要大量的人工标注或者工程工作。

  • GraspGF借助了扩散模型强大的条件生成建模能力,这使它能够根据新颖的用户意图输出有效的原始动作。

  • 残差学习的设计改善了强化学习探索效率低下的问题,提升了强化学习模型在未见过物体和轨迹上的泛化能力。

结果

最终在4900多个物体,200条不同的人类移动轨迹上,新方法都优于基准。


该方法的最终的抓取姿态相比于基线更符合人类的抓取意图。


此外,该方法在抓取过程中对物体造成的扰动要小于其他基准。


经过测试,该模型在GTX1650的显卡上,能达到150fps的推断速度,能做到与人类的实时交互,也许未来能真正用于辅助手部缺失的人更好地进行日常生活。

本次研究的通讯作者董豪是北京大学的助理教授、博导、博雅青年学者、智源学者,其创立并领导北大超平面实验室(Hyperplane Lab)。


董老师在NeurIPS、ICLR、CVPR、ICCV、ECCV、ICRA、IROS等国际顶尖会议/期刊上发表论文40余篇,Google Scholar引用4700余次,多次担任国际顶尖会议如NeurIPS、CVPR、AAAI、ICRA的领域主席和副编委。

其领导了多个开源项目,例如TensorLayer和OpenMLsys,出版书籍获得15万次下载,开源软件获得上万Github Star,获ACM Multimedia 最佳开源软件奖、OpenI杰出项目奖。

论文一作吴天昊,现为北京大学博士生,导师为董豪老师,研究方向为灵巧手操纵算法。
参考资料:
https://sites.google.com/view/graspgf




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
JMT 2023.08.252023 环游波罗的海(4)西贡姑娘(上)OpenAI神秘Q*项目解密!诞生30+年「Q学习」算法引全球网友终极猜想NeurIPS 2023 | 全新机械手算法:辅助花式抓杯子,GTX 1650实现150fps推断【C1->AV 15% Bonus; UR->BA 30% Bonus; MR->AF 25% Bonus】转点奖励活动汇总【回国记录】一次特别的遇见· 花妖吞下「机械胶囊」、靠振动饱腹!减肥黑科技获诺和诺德赞助|知料JMT 2023.08.27NeurIPS 2023 | 北大具身智能团队提出需求驱动导航:对齐人类需求,让机器人更高效6799元,机械师·曙光16,i7-13650HX、RTX4060【无忧买房】Lexington全新独栋别墅出售,2023年完工,高分学区,近镇中心和Arlington地区剑指豪华7座SUV市场!Lexus推出全新三排TX系列,太适合华人了600刀Desktop(i5-9400f/16gram/gtx 1660ti/500g ssd/2t hdd)Asus tuf gaming fx505d (Ryzen 7 3750h/8gram/gtx 165/512g ssd /12笑谈邂逅(44)熊总是一位性情中人JMT 2023.08.26【租房】找主卧室友|男生|NEU|优质2b1b|1680650刀Desktop(i5-10400f/16gram/gtx 1660ti/256g ssd/b460 WiFi )聊聊美国汽车工会(UAW)罢工计算需求降为1%! 清华大学首次提出「二值化光谱重建算法」,代码全开源|NeurIPS 2023NeurIPS 2023 | SlotDiffusion: 基于Slot-Attention和扩散模型的全新生成模型3D打印新突破 可一次性打印工作肌腱的机械手NeurIPS 2023 Spotlight | 半监督与扩散模型结合,实现少标签下可控生成【租房】免中介费|10/11月入住|Greenhouse 现房|NEU 友好|1B1B 3650|2B2B 5530「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR|NeurIPS 2023步韵遍野君《一身秋》吞下「机械胶囊」、靠振动饱腹!减肥黑科技获诺和诺德赞助丨知料NeurIPS 2023 | 中科院&旷视提出DropPos:全新的自监督视觉预训练代理任务【租房】卧室出租|无中介费|现在入住|NEU/BU友好|两室无厅卧室|1575包供暖和热水600刀ITX desktop(Ryzen 5 3500x/16gram/gigabyte b450i/gtx 1660ti/5NeurIPS 2023 | 单张图片3D数字人重建新SOTA!浙大&悉尼科技大学发布GTA【租房】1.1入住|NEU/伯克利学生友好|优质 Studio 2350|包水暖|宠物友好【酒店点数->UA 30% Bonus; Choice -> UA 5:2; UR->VS 30% Bonus】转点奖励活动汇总JMT 2023.08.24NeurIPS 2023 | 清华ETH提出首个二值化光谱重建算法NeurIPS 2023 | Backbone之战:计算机视觉任务模型大比较650刀Desktop(Ryzen 5 3600x/16gram/gtx 1060 6g/1t ssd)NeurIPS 2023 | 清华&ETH提出首个二值化光谱重建算法NeurIPS 2023 | 北大&华为提出:多模态基础大模型的高效微调
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。