国际科技财经博客移民网络热点娱乐民生时事公众号

>

MIT推出拾物机器人「最强辅助」，少量训练样本即可实现自然语言控制

MIT推出拾物机器人「最强辅助」，少量训练样本即可实现自然语言控制

公众号新闻

2023-08-19 03:08

克雷西发自凹非寺
量子位 | 公众号 QbitAI

MIT的这项新成果，让取物机器人变得更聪明了！

不仅能理解自然语言指令，还可以拾取没见过的物体。

麻麻再也不用担心我找不到东西了！

研究人员将2D特征嵌入了三维空间，构建出了用于控制机器人的特征场（F3RM）。

这样一来，在2D图像中构建的图像特征和语义数据，就能被三维的机器人理解并使用了。

不仅操作简单，训练过程中需要的样本量也很小。

低训练样本实现轻松取物

我们可以看到，在F3RM的帮助下，机器人可以娴熟地拾取目标物体。

哪怕要找出机器人没遇见过的物体，同样不是问题。

比如……大白（玩偶）。

对于场景中的同种物品，可以根据颜色等信息进行区别。

比如分别拾取同一场景中蓝色和红色两种不同的螺丝刀。

不仅如此，还可以要求机器人抓取物体的特定位置。

比如这个杯子，我们可以指定机器人抓住杯身或者杯把。

除了拾取问题，还可以让机器人把拾到的东西放到指定位置。

比如把杯子分别放到木制和透明的支架上。

团队提供了完整的，没有经过筛选的实验结果。他们在实验室周边随机选取了 out-of-distribution （训练集外）测试样本。

其中使用 CLIP ResNet 特征的特征场在三成以上的测试样本中（78%）成功抓取和放置。在基于开放性人工语言指令的任务上，成功率在 60%。该结果没有经过人工选择（cherry-picking），因此对特征场在零微调情境下的表现有客观的描述。

那么，如何利用F3RM帮助机器人工作呢？

将2D特征投射到三维空间

下面这张图大致描述了利用F3RM帮助机器人拾取物品工作流程。

F3RM是一个特征场，要想让它发挥作用，首先要得到有关数据。

下图中的前两个环节就是在获取F3RM信息。

首先，机器人通过摄像头对场景进行扫描。

扫描过程会得到多个角度的RGB图像，同时得到图像特征。

利用NeRF技术，对这些图像做2D密度信息提取，并投射到三维空间。

图像和密度特征的提取使用了如下的算法：

这样就得到了这一场景的3D特征场，可供机器人使用。

得到特征场之后，机器人还需要知道对不同的物体需要如何操作才能拾取。

这一过程当中，机器人会学习相对应的六个自由度的手臂动作信息。

如果遇到陌生场景，则会计算与已知数据的相似度。

然后通过对动作进行优化，使相似度达到最大化，以实现未知环境的操作。

自然语言控制的过程与上一步骤十分相似。

首先会根据指令从CLIP数据集中找到特征信息，并在机器的知识库检索相似度最高的DEMO。

然后同样是对预测的姿势进行优化，以达到最高的相似度。

优化完毕之后，执行相应的动作就可以把物体拾起来了。

经过这样的过程，就得到了低样本量的语言控制取物机器人。

团队简介

研究团队成员全部来自MIT的CSAIL实验室（计算机科学与人工智能实验室）。

该实验室是MIT最大的实验室，2003年由CS和AI两个实验室合并而成。

共同一作是华裔博士生William Shen，和华人博后杨歌，由Phillip Isola 和Leslie Kaelbling监督指导。他们来自于MIT CSAIL（计算机和人工智能实验室）和IAIFI（人工智能和基础相互作用研究院）。其中杨歌是2023年CSAIL具身智能研讨会 (Embodied Intelligence Seminar) 的共同筹办人.

左：William Shen，右：杨歌

论文地址：
https://arxiv.org/abs/2308.07931
项目主页：
https://f3rm.github.io
MIT 具身智能团队
https://ei.csail.mit.edu/people.html
具身智能研讨会
https://www.youtube.com/channel/UCnXGbvgu9071i3koFooncAw

— 完 —

「中国仿生机器人产业全景报告 · 量子位智库」下载

AGI 的火热发展为仿生机器人的实现补全了最后一块拼图，仿⽣机器⼈将在技术创新和商业模式上迎来新周期。量子位智库发布《中国仿生机器人产业全景报告》，扫描下方二维码即可查看并下载完整报告。

9月6日，我们将在北京举办仿生机器人行业沙龙，欢迎感兴趣的企业联系活动负责人王琳玉，联系方式见下方。

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

人形机器人成新风口！探馆世界机器人大会："机器人+制造业"国产替代加速商用清洁机器人「冰火两重天」：资本热炒、巨头涌进、市场寒冬妈妈的发型大模型加持的机器人有多强，MIT CSAIL&IAIFI用自然语言指导机器人抓取物体韩国造出「世界首个室温超导体」？127度即可实现超导速度提升数十倍，只需一张图一句话，谷歌新模型20秒即可实现变脸小学体测成绩计入中考？别焦虑，体测鞋、肺活量训练器这些神器来了！MIT华人博士生将ChatGPT搬进Jupyter，自然语言编程一站式搞定 Nat Med丨斯坦福团队利用twitter资源，开发出“病理图像文本对应”的自然语言-图像预训练模型 PromptAppGPT重磅更新！AI助手0门槛开发+运行：几十行代码即可实现AutoGPT 清华系「自然语言编程神器」上新！支持100+种编程语言，效率upup ACL 2023 | GLUE-X：基于分布外泛化的自然语言理解模型测试集突破自监督学习效率极限！马毅、LeCun联合发布EMP-SSL：无需花哨trick，30个epoch即可实现SOTA 天然矿物：新材料的最强辅助？｜络绎学术Online第167期久遠的端午節回憶新能源汽车，智能房车，宠物机器人，扫地机器人…各种新鲜的高科技智造，9月15日，澳中博览会让你大开眼界！Graphcore携手Pienso荣获CogX最佳创新类别的自然语言处理奖 ACL 2023｜大模型时代，自然语言领域还有什么学术增长点？谷歌正在像训练人工智能聊天机器人一样训练机器人场面震撼！9个「世界最强」机器人同登台，亮相联合国AI机器人发布会 ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成仅用7500条轨迹数据训练，CMU、Meta就让机器人「上得厅堂、下得厨房」这些城市的人「最想搬到波特兰」正在寻找买房的机会！房价还在上涨！5096 血壮山河之武汉会战浴血田家镇 4 OPRO：利用LLM作为优化器，解决一系列用自然语言描述的任务从纽约64岁的大妈卖淫说起学习生成式大语言模型，东北大学自然语言处理实验室有一堂课 20万张图片训练出医用AI大模型，斯坦福团队整理16年来社交网络数据并建库，使用图像或文本即可检索类似病例 “AI智能辅助医学综述写作训练营”帮您快速顺利入门医学科研！国自然高级评审专家培养学生的“必过第一关”！移民生活（15）王老师的贤妻刘岩凤北京内推 | 微软亚洲研究院自然语言计算组招聘NLP方向研究实习生能站、跳、飞、蹲的全能机器人！加州理工发布变形轮式机器人M4：实现八种运动模式，AI加持自主导航 Anthropic 创始人：可以给大模型「照 X 光」，AGI 2-3 年可实现厉害了！仿生植物机器人能在火星给人类造一片大森林？华为在手机上，率先实现本地端自然语言搜图功能

热点事件追踪