Agent触摸汉堡辨冷热,首次拥有类人感官!UCLA等发布3D多模态交互具身智能大模型
新智元报道
新智元报道
【新智元导读】Sam Altman认为AGI很快就会降临,但若是没有感官兼备的AI何以称为智能?最近,UCLA等机构研究人员提出多模态具身智能大模型MultiPLY,AI可以知冷知热、辨音识物。
多感官大模型
Multisensory-Universe数据集
向3D场景中添加互动对象
主要来源有:
ObjectFolder,包含了1000个对象模型,这些对象的撞击声效被储存在隐式神经场中,并且还标注了对象的材质; Objaverse,是一个涵盖了丰富类别的800,000个三维对象的集合。
挑选一些外观相似的对象。比如,选两个外形相似的瓶子,其中一个是塑料的,另一个是金属的。这样,就需要通过不同的传感器收集信息来消除歧义。 挑选那些与环境匹配、并可以组合使用完成任务的对象。例如,在厨房环境中,可以选择食材和烹饪工具。
获取新物体的传感器数据
智能体采集场景构建数据
MultiPLY架构
以对象为中心的场景表征
动作token
状态token
训练与推理
实验结果
对象检索
工具使用
多感官标注
任务分解
定性实验
作者介绍
其所需关键要素包括:
- 构建三维世界的模型;
- 发展大规模具身基础模型;
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章