买个机器人端茶倒水有希望了?Meta、纽约大学造了一个OK-Robot
机器之心报道
编辑:张倩、陈萍
如果有个这样的机器人,你几点回家?
预训练的视觉语言模型对开放词汇导航非常有效:目前的开放词汇视觉语言模型 —— 如 CLIP 或 OWL-ViT—— 在识别真实世界中的任意物体方面表现出色,并能以零样本的方式导航、找到这些物体。 预训练的抓取模型可直接应用于移动操控:与 VLM 类似,根据大量数据预训练的专用机器人模型可以直接应用于家庭中的开放词汇抓取。这些机器人模型不需要任何额外的训练或微调。 如何组合组件至关重要: 研究者发现,在预先训练好模型的情况下,可以使用一个简单的状态机模型(state-machine model)将它们组合起来,而无需进行任何训练。他们还发现,使用启发式方法来抵消机器人的物理限制,可以在真实世界中获得更高的成功率。 目前仍存在一些挑战:考虑到在任意家庭中进行零样本操作的巨大挑战,OK-Robot 在先前工作的基础上进行了改进:通过分析失败模式,他们发现在视觉语言模型、机器人模型和机器人形态学方面可以进行重大改进,这将直接提高开放知识操纵智能体的性能。
论文标题:OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics 论文链接:https://arxiv.org/pdf/2401.12202.pdf
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章