Redian新闻
>
清华叉院提出「GenH2R」框架,用百万场景打造基于视觉的通用人机交接策略

清华叉院提出「GenH2R」框架,用百万场景打造基于视觉的通用人机交接策略

公众号新闻


©作者 | 机器之心编辑部

来源 | 机器之心
来自清华大学交叉信息研究院的研究者提出了「GenH2R」框架,让机器人学习通用的基于视觉的人机交接策略(generalizable vision-based human-to-robot handover policies)。这种可泛化策略使得机器人能更可靠地从人们手中接住几何形状多样、运动轨迹复杂的物体,为人机交互提供了新的可能性。

‍‍


‍‍随着具身智能(Embodied AI)时代的来临,我们期待智能体能主动与环境进行交互。在这个过程中,让机器人融入人类生活环境、与人类进行交互(Human Robot Interaction)变得至关重要。我们需要思考如何理解人类的行为和意图,以最符合人类期望的方式满足其需求,将人类放在具身智能的中心(Human-Centered Embodied AI)。


其中一个关键的技能是可泛化的人机交接(Generalizable Human-to-Robot Handover),它使机器人能够更好地与人类合作,完成各种日常通用任务,如烹饪、居室整理和家具组装等。


大模型的火爆发展预示着海量高质量数据+大规模学习是走向通用智能的一种可能方式,那么能否通过海量机器人数据与大规模策略模仿获取通用人机交接技能?然而,若考虑在现实世界中让机器人与人类进行大规模交互学习是危险且昂贵的,机器很有可能会伤害到人类:

 


而在仿真环境中(Simulation)进行训练,用人物仿真和动态抓取运动规划来自动化提供海量多样的机器人学习数据,然后将其部署到真实机器人上(Sim-to-Real Transfer),是一种更可靠的基于学习的方法,可以大大拓展机器人与人协作交互的能力。

 


因此,「GenH2R」框架被提出,分别从仿真(Simulation),示例(Demonstration),模仿(Imitation)三个角度出发,让机器人第一次基于端到端的方式学习对任意抓取方式、任意交接轨迹、任意物体几何的通用交接


1)在「GenH2R-Sim」环境中提供了百万级别的易于生成的各种复杂仿真交接场景;


2)引入一套自动化的基于视觉 - 动作协同的专家示例(Expert Demonstrations)生成流程;


3)使用基于 4D 信息和预测辅助(点云 + 时间)的模仿学习(Imitation Learning)方法。


相比于 SOTA 方法(CVPR2023 Highlight),GenH2R 的方法在各种测试集上平均成功率提升 14%,时间上缩短 13%,并在真机实验中取得更加鲁棒的效果。


论文标题:
GenH2R: Learning Generalizable Human-to-Robot Handover via Scalable Simulation, Demonstration, and Imitation

论文地址:

https://arxiv.org/abs/2401.00929

论文主页:

https://genh2r.github.io/

论文视频:

https://youtu.be/BbphK5QlS1Y


方法介绍

A. 仿真环境(GenH2R-Sim)


为了生成高质量、大规模的人手 - 物体数据集,GenH2R-Sim 环境从抓取姿势和运动轨迹两方面对场景建模。


在抓取姿势方面,GenH2R-Sim 从 ShapeNet 中引入了丰富的 3D 物体模型,从中挑选出 3266 个适合交接的日常物体,使用灵巧抓取的生成方法(DexGraspNet),总共生成了 100 万个人手抓住物体的场景。在运动轨迹方面,GenH2R-Sim 使用若干控制点生成多段光滑的 Bézier 曲线,并引入人手和物体的旋转,模拟出手递物体的各种复杂运动轨迹。




GenH2R-Sim 的 100 万场景中,不仅在运动轨迹(1 千 vs 100 万)、物体数量(20 vs 3266)两方面远超之前最新工作,此外,还引入了接近真实情境的互动信息(如机械臂足够靠近物体时,人会配合停止运动,等待完成交接),而非简单的轨迹播放。尽管仿真生成的数据不能完全逼真,但实验结果表明,相比小规模的真实数据,大规模的仿真数据更有助于学习。


B. 大规模生成利于蒸馏的专家示例


基于大规模的人手和物体运动轨迹数据,GenH2R 自动化地生成了大量专家示例。GenH2R 寻求的 “专家” 是经过改进后的 Motion Planner(如 OMG Planner),这些方法是非学习、基于控制优化的,不依赖于视觉的点云,往往需要一些场景状态(比如物体的目标抓取位置)。


为了确保后续的视觉策略网络能够蒸馏出有益于学习的信息,关键在于确保 “专家” 提供的示例具有视觉 - 动作相关性(Vision-action correlation)。规划时如果知道最后落点,那么机械臂可以忽略视觉而直接规划到最终位置 “守株待兔”,这样可能会导致机器人的相机无法看到物体,这种示例对于下游的视觉策略网络并没有任何帮助;而如果频繁地根据物体位置进行重新规划,可能会导致机械臂动作不连续,出现奇怪的形态,无法完成合理的抓取。

 


为了生成出利于蒸馏(Distillation-friendly)的专家示例,GenH2R 引入了 Landmark Planning。人手的运动轨迹会按照轨迹光滑程度和距离被分成多段,以 Landmark 作为分割标记。在每一段中,人手轨迹是光滑的,专家方法会朝着 Landmark 点进行规划。这种方法可以同时保证视觉 - 动作相关性和动作连续性。




C. 以预测为辅助的 4D 模仿学习网络


基于大规模专家示例,GenH2R 使用模仿学习的方法,构建 4D 策略网络,对观察到的时序点云信息进行几何和运动的分解。对于每一帧点云,通过迭代最近点算法(Iterative Closest Point)计算和上一帧点云之间的位姿变换,以估计出每个点的流(flow)信息,使得每一帧点云都具有运动特征。


接着,使用 PointNet++ 对每一帧点云编码,最后不仅解码出最终需要的 6D egocentric 动作,还会额外输出一个物体未来位姿的预测,增强策略网络对未来手和物体运动的预测能力。

 


不同于更加复杂的 4D Backbone(例如 Transformer-based),这种网络架构的推理速度很快,更适用于交接物体这种需要低延时的人机交互场景,同时它也能有效地利用时序信息,做到了简单性和有效性的平衡。



实验

A. 仿真环境实验


GenH2R 和 SOTA 方法进行了各种设定下的比较,相比于使用小规模真实数据训练的方法,在 GenH2R-Sim 中使用大规模仿真数据进行训练的方法,可以取得显著的优势(在各种测试集上成功率平均提升 14%,时间上缩短 13%)。


在真实数据测试集 s0 中,GenH2R 的方法可以成功交接更复杂的物体,并且能够提前调整姿势,避免在夹爪靠近物体时再频繁进行姿势调整:

 


在仿真数据测试集 t0(GenH2R-sim 引入)中,GenH2R 的方法可以能够预测物体的未来姿势,以实现更加合理的接近轨迹:

 

在真实数据测试集 t1(GenH2R-sim 从 HOI4D 引入,比之前工作的 s0 测试集增大约 7 倍)中,GenH2R 的方法可以泛化到没有见过的、具有不同几何形状的真实世界物体。


B. 真机实验


GenH2R 同时将学到的策略部署到现实世界中的机械臂上,完成 “sim-to-real“的跳跃。


对于更复杂的运动轨迹(例如旋转),GenH2R 的策略展示出更强的适应能力;对于更复杂的几何,GenH2R 的方法更可以展现出更强的泛化性:

 

GenH2R 完成了对于各种交接物体的真机测试以及用户调研,展示出很强的鲁棒性。




了解更多实验、方法内容,请参考论文主页。



团队介绍

该论文来自清华大学 3DVICI Lab、上海人工智能实验室和上海期智研究院,论文的作者为清华大学学生汪子凡(共同一作)、陈峻宇(共同一作)、陈梓青和谢鹏威,指导老师是弋力和陈睿。


清华大学三维视觉计算与机器智能实验室(简称 3DVICI Lab),是清华大学交叉信息研究院下的人工智能实验室,由弋力教授组建和指导。3DVICI Lab 瞄准人工智能最前沿的通用三维视觉与智能机器人交互问题,研究方向涵盖具身感知、交互规划与生成、人机协作等,与机器人、虚拟现实、自动驾驶等应用领域密切联系。团队研究目标是使智能体具备理解并与三维世界交互的能力,成果发表于各大顶级计算机会议、期刊上。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
魔法OS上新!荣耀MagicOS 8.0发布,首发意图识别人机交互计算需求降为1%! 清华大学首次提出「二值化光谱重建算法」,代码全开源|NeurIPS 2023​CIKM 2023 | 为序列推荐引入自适应以及个性化全局协同信息的通用框架从H20到H200,国产算力差在哪儿?权力是一个很神奇的东西!LVM 是噱头还是通用视觉的新突破?让机器人感知你!清华团队使用百万场景打造通用人机交接策略!大模型勇闯洛圣都,加封「GTA五星好市民」!南洋理工、清华等发布视觉可编程智能体Octopus:打游戏、做家务全能干让AI模型成为GTA五星玩家,基于视觉的可编程智能体Octopus来了从文科到理科,从教育技术到人机交互,跨专业的路上磕磕绊绊,而我坚守本心五位清华教授团建!从复杂推理到算力瓶颈,他们眼中“通用人工智能” 该如何降临?谷歌DeepMind打造基于人工智能的医疗问诊对话工具AMIE从20亿数据中学习物理世界,基于Transformer的通用世界模型成功挑战视频生成把ChatGPT塞进副驾驶!清华、中科院、MIT联合提出Co-Pilot人机交互框架:完美把控乘客意图把ChatGPT塞进副驾驶!清华、中科院、MIT联合提出Co-Pilot人机交互框架当韩国女团BLACKPINK进军二次元,清华叉院AI神器原来还能这么玩清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力浦创智能,技术创新助力HUD人机交互体验升级|年会展商AI领域又增院士!清华胡事民当选,「计图」框架出自其实验室马斯克:成功将芯片植入患者大脑;开启了人机交互新纪元联合语言和视觉的力量,复旦团队发布全新多专家融合视觉-语言大模型AI OS时代来了!国产操作系统换道超车,颠覆人机交互范式AAAI 2024 | 武大提出神经元分类全新框架,联合学习神经元骨架与大脑回路拓扑结构留点给自己!顶刊TPAMI 2023!中科院提出:基于几何分析的神经辐射场编辑方法今日arXiv最热NLP大模型论文:IBM研究院提出Genie方法,自动生成高质量数据集视频场景图生成任务新SOTA!中山大学提出全新时空知识嵌入框架,登顶刊TIP'24红色日记 打起架来 1974年 25岁 7.1-15科研实习 | 鹏城实验室童倩倩老师招聘虚拟现实/人机交互等方向访问学生/博士后【首发】瑞彼加医疗完成千万美元A++轮融资,打造基于微射频技术的多产品技术平台让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接AAAI 2024 | 中科院信工所提出结构化概率编码框架,有效增强预训练语言模型泛化能力人脸编辑神器!浙大&腾讯提出FaceX:统一面部表征建立通用人脸编辑模型相聚多伦多(二十二)幸或不幸做生意遇到的敲竹竿官司
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。