Redian新闻
>
首个精通3D任务的具身通才智能体:感知、推理、规划、行动统统拿下

首个精通3D任务的具身通才智能体:感知、推理、规划、行动统统拿下

公众号新闻
机器之心专栏
机器之心编辑部

想要迈向通用人工智能,必须要构建一个能够理解人类生活的真实世界,并掌握丰富技能的具身通用智能体。

今年以来,以 GPT-4 (V)[1]、LLaVA [2]、PALM-E [3] 等为代表的多模态大语言模型(Multi-modal Large Language Model)在自然语言处理、视觉理解、机器人等任务上取得了显著的成功,但这类模型都是基于二维图片文本数据训练得到,在理解三维世界和与三维世界交互方面能力欠缺。

为解决这一问题,北京通用人工智能研究院联合北京大学、卡耐基梅隆大学和清华大学的研究人员提出了首个三维世界中的具身多任务多模态的通才智能体 LEO


  • 论文链接:https://arxiv.org/abs/2311.12871
  • 项目主页:https://embodied-generalist.github.io/
  • 代码链接:https://github.com/embodied-generalist/embodied-generalist

通才智能体 LEO 以大语言模型为基础,可以完成感知(perception)、定位(grounding)、推理(reasoning)、规划(planning)和动作执行(acting)等任务。

LEO 的三维视觉语言理解、具身推理和动作执行能力在现实世界中有广泛的应用场景与巨大的应用价值。作为未来的家庭助理,LEO 可以与人交互,回答与场景相关的问题,例如根据用户喜好调整家居布局、帮助用户找到特定物品、为用户的各种问题提供建议。LEO 的导航能力可用于购物中心、办公楼中的智能引导,其操控能力可用于家居自动化任务,如打扫、整理或简单厨房任务,以及仓库和物流中心的物品整理和搬运。


研究概述

图 1. LEO 能力示意图

通才智能体 LEO 以 LLM 为基础,在不同任务之间采用共享的架构和权重,经由如下两个阶段训练得到:

1)三维视觉 - 语言对齐 
2)视觉 - 语言 - 动作指令微调。

为完成上述两阶段的训练,作者收集并生成了包括物体级别(object-level)和场景级别(scene-level)的大规模数据集,并在问答(3D QA)、描述(3D captioning)、具身推理(embodied reasoning)、具身导航(embodied navigation)、机器人操作(robotic manipulation)多个任务上展示了 LEO 杰出的能力。

该工作的主要贡献可以总结如下:

1)构建了第一个能够在三维世界中进行感知、定位、推理、规划和动作执行的具身智能体 LEO。

2)提出了高效的学习策略,将以物体为中心(object-centric)的三维表征与 LLM 连接起来,同时加入具身动作任务,在三维世界中打通视觉 - 语言 - 动作(vision-language-action)。

3)提出了生成高质量三维视觉语言数据的方法,构建了视觉 - 语言 - 动作(vision-language-action)指令微调的大规模数据集。

模型介绍


图 2. LEO 的通用任务序列和自回归式训练目标

LEO 模型的整体设计思想围绕两个核心点:

1)在统一的框架内处理第一视角的二维图片、三维场景信息和自然语言指令,并同时支持文本与动作的输出;
2)能够充分利用预训练语言模型的先验信息来促进下游任务。基于上述两个原则,作者设计了如图 2 所示的模型框架,将所有的多模态(2D、3D、text)输入都对齐到 LLM 的文本空间。

其中,作者利用 PointNet++ 提取出场景点云中物体级别的特征,随后用空间编码器(Spatial Transformer)对空间位置关系进行建模,从而得到三维场景级别(scene-level)的特征。输入中的二维图像则经过预训练模型 OpenCLIP ConvNext 处理得到第一视角的视觉特征。二维和三维的视觉特征最后分别经过 projector 映射到文本空间中。

具体过程如图 3 所示。

图 3. 图片和三维场景特征提取示意图

LLM 方面,作者采用 Vicuna-7B 作为预训练语言模型来处理 token 序列,训练中,利用 LoRA 方法来微调 LLM,训练目标如图 2 中所示。

数据集

数据集概况

根据两阶段的训练策略,作者分别收集了相应的数据,其整体概况如图 4 所示。数据集涵盖了大规模的三维物体数据,如 Objaverse,以及三维场景数据集,如 ScanNet、3RScan、Matterport3D 等,还包括了机器人操作相关的数据集 CLIPort,表 1 则给出了两阶段训练中所有数据的来源和数量统计。

图 4. LEO 数据集示意图

表 1. 数据集统计

LLM 辅助数据生成

为了解决当前三维场景视觉语言指令微调数据不足、现有的生成方法得到的数据质量不高的问题,作者提出了基于三维在场景图(scene graph)的数据生成方法,以及精炼过程(refinement procedures)来生成高质量的数据。具体过程如图 5 所示。

图 5. 基于 LLM 的三维视觉 - 语言指令微调数据生成

为了提高 LLM 生成数据的可靠性,作者提出了物体为中心的思维链(Object-centric Chain-Of-Thought)方法,提高生成回答和场景的关联,减少了输出中的幻觉(hallucination),并进一步通过精炼过程(Refinement Procedures)纠正生成数据中的错误。经过这一流程,最终得到了高质量的指令微调数据,更多关于数据集生成方法的细节和统计结果参见论文的附录部分。

模型能力

三维视觉语言理解和具身推理

视频 1. LEO 在 ScanQA, Scan2Cap, SQA 等任务上的表现

作者在三维场景问答数据集 ScanQA、三维物体描述数据集 Scan2Cap、三维场景具身推理数据集 SQA3D 上测试了模型的能力,这几类任务都以三维场景、自然语言指令为输入,其中 SQA3D 任务上还包括了提问时所处的位置和朝向,基于这些输入模型需要给出相应的回答,如上面的视频所示。

作者比较了之前各个数据集上的 SOTA 方法,如 3D-VisTA [4],3D-LLM [5],结果表 2 所示,实验结果表明 LEO 在三维视觉语言理解的任务上的多个指标明显优于之前的方法。

表 2 - 表 4. LEO 在三维视觉语言理解任务上的性能表现

三维世界中的具身动作执行

视频 2. LEO 在 manipulation 和 object navigation 任务上的表现

作者测试了 LEO 在机器人操作数据集 CLIPort 上的表现,该任务要求模型根据三维、二维感知结果和自然语言指令输出机械臂操作指令,如视频 2 所示。作者比较了 CLIPort 的基线方法 [6],结果如表 3 所示,证明了提出方法的优越性。另外,作者还测试了 LEO 在 MP3D(in domain)和 HM3D(out of distribution)这两个数据集上的表现,这一任务以三维场景、第一视角图片和自然语言指令作为输入,模型需要给出下一步的动作,如视频 3 所示。

论文与近期的相关工作 [7][8] 进行了比较,如表 4 所示。可以看出所提方法在学习最短路径数据下的表现可圈可点,在 SPL 指标上超越了先前的基准方法,而由于 LEO 的模型没有采用 recurrence 的结构,因此在学习 70k human demonstrations 的设定下表现出的能力有限。

图 6. LEO 的能力可视化

三维场景中的对话和规划

图 6 给出了 LEO 在多种任务中的可视化结果,可以看出,由于经过了指令微调训练的过程,LEO 可以进行多轮的场景对话,如按照用户需求在场景中寻找物体、按照不同的要求描述房间中的物体、给出建议等。还可以根据场景信息进行任务规划,如将房间整理为一个学习空间、打扫房间、重新装饰房间等,更多的例子可以在项目主页中进一步了解。

实验分析

图 7. 消融实验结果

为了研究所提出的训练策略有效性,作者进行了不同数据集和训练阶段的多组对比实验。其中图 7-(a) 展示的是采用不同的训练数据得到的模型在多个任务上的表现,图 7-(b) 展示的是采用不同规模的 token 训练得到的模型对 test loss 的影响。

从实验可以得出如下结论:1)指令微调训练遵循 scaling law [9] 的规律。2)所提出的两阶段训练策略是重要的,对齐阶段的缺失会造成性能的明显下降。3)简单将模型参数规模从 7B 扩大至 13B 会造成性能的降低。

结论

本文提出的智能体 LEO 将当前的 LLM 模型能力拓展到了三维世界以及动作执行任务上,这一工作为构建通用具身智能体迈出了重要的一步。

基于这一工作,作者认为未来可以在如下方面进一步进行探索:

1)通过大规模的场景 - 文本数据对提升三维视觉 - 语言定位能力;
2)填补视觉 - 语言能力和动作执行能力之间的差距;
3)探索具身通用智能体的对齐和安全问题。

团队介绍

论文核心团队来自北京通用人工智能研究院通用视觉实验室,团队负责人黄思远博士长期从事关于三维场景理解、具身智能体、视觉机器人等方向的相关工作。该团队拥有包括全职研究员、工程师、以及实习生在内的三十余人团队,团队的长期目标是打造未来的通用具身智能体 / 视觉机器人。


参考文献
[1] https://cdn.openai.com/papers/gpt-4-system-card.pdf
[2] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. arXiv preprint arXiv:2304.08485, 2023b.
[3] Danny Driess, Fei Xia, Mehdi SM Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan
Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, et al. Palm-e: An embodied multimodal
language model. In International Conference on Machine Learning (ICML), 2023.
[4] Yining Hong, Haoyu Zhen, Peihao Chen, Shuhong Zheng, Yilun Du, Zhenfang Chen, and Chuang Gan. 3d-llm: Injecting the 3d world into large language models. arXiv preprint arXiv:2307.12981, 2023.
[5] Ziyu Zhu, Xiaojian Ma, Yixin Chen, Zhidong Deng, Siyuan Huang, and Qing Li. 3d-vista: Pre-trained transformer for 3d vision and text alignment. In International Conference on Computer Vision (ICCV), 2023c.
[6] Mohit Shridhar, Lucas Manuelli, and Dieter Fox. Cliport: What and where pathways for robotic manipulation. In Conference on Robot Learning (CoRL), 2021.
[7] Ram Ramrakhya, Eric Undersander, Dhruv Batra, and Abhishek Das. Habitat-web: Learning embodied object-search strategies from human demonstrations at scale. In Conference on Computer Vision and Pattern Recognition (CVPR), 2022.
[8] Arjun Majumdar, Karmesh Yadav, Sergio Arnaud, Yecheng Jason Ma, Claire Chen, Sneha Silwal, Aryan Jain, Vincent-Pierre Berges, Pieter Abbeel, Jitendra Malik, et al. Where are we in the search for an artificial visual cortex for embodied intelligence? arXiv preprint arXiv:2303.18240, 2023. 7
[9] Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020.



© THE END 

转载请联系本公众号获得授权

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
视觉模型+大语言模型:首个支持10K+帧长视频理解任务的新型框架真正靠谱的人,话不多、判断准、行动狠NeurIPS 2023 | AI Agents先行者CAMEL:首个基于大模型的多智能体框架「灌篮高手」模拟人形机器人,一比一照搬人类篮球招式,看一遍就能学会,无需特定任务的奖励具身智能超级对话:人工智能如何引领机器人革命CMU清华MIT引爆全球首个Agent无限流,机器人「007」加班自学停不下来!具身智能被革命再议景观都市主义:“拯救世界”的具体路径一文看尽最新趋势:智能物联2.0,产业元宇宙,DePIN,具身智能,工业大模型 | 2023彭昭专栏回顾哈马斯般的突袭战术对哪些国家能造成打击不比不知道!新西兰国家党、行动党和优先党竟然有这么多政策共同点!这民主不是那民主AI翻山进乡,教育是爱的具象资金经理、交易经理、网络顾问、新媒体运营... ... 一大波岗位“职”等你来!西工大提出全新「群聊式」无人机控制框架!类人对话交互、主动环境感知、自主实体控制Agent触摸汉堡辨冷热,首次拥有类人感官!UCLA等发布3D多模态交互具身智能大模型黑科技自清洁蓄能衣!免搓洗一冲即净,蓄能保温又透气,温度感知、NFC!玩推理、学科普,解锁“涨知识”的新方式历史定格一瞬间清华微软「LLM+推理智能体」超越GPT-4!攻克数理难题,斩获开源界MATH最佳成绩2023年三星跌落半导体霸主宝座,英特尔登顶;3D打印电子皮肤具弯曲和感知能力丨智能制造日报悲哀!聪明才智都用这块儿了……具身智能专场:具身智能的数据、感知模态、算法设计以及下游应用中的最新进展 | 第16届中国R会议暨2023X-AGI大会百万奖金池!目标检测、分割、测距、融合、规划、控制等新赛事全面启动!2023中国智能网联汽车算法挑战赛(CIAC 2023)来了首个获得驾照的AI!Agent担任私人助理样样精通,还能帮助考试作弊芝加哥马拉松经历- -欢乐篇ED上岸,来一场彻头彻尾规划、申请复盘总结雅诗兰黛集团上季度净销售额同比跌10%,中国内地香氛业务的增长部分弥补了护肤业务的下跌Meta重磅更新,小扎在元宇宙里养了会做家务的狗!人形化身超逼真,AI智能体在真实物理世界和人互动赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了6024 血壮山河之随枣会战 第三章 3科研上新 | 第2期:可驱动3D肖像生成;阅读文本密集图像的大模型;文本控制音色;基于大模型的推荐智能体golang批量执行任务的通用模板脉脉高聘人才智库:2023人工智能人才洞察报告实现定时任务的六种策略在高福利陷阱中越来越穷,阿根廷选出极右总统拿国家当实验耗材
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。