Agent的未来，蕴藏在AI的发展史

公众号新闻

2023-08-30 15:08

内容来源：本文转载自微信公众号飞哥说AI（FeigeandAI），笔记侠经授权转载。转载请联系原公众号授权。

责编 | 金木研
第 7667 篇深度好文：12510字 | 31 分钟阅读

“烫杯温壶，拂盖取茶，将茶叶拨至壶中，封壶，用茶巾揩拭桌面……”

Meta、CMU团队耗时2年打造的RoboAgent，能烘培、收纳餐具、使用微波炉，也能将一套茶艺演绎得行云流水。

但如果对它说，「我想尝尝初秋的老白茶，请泡一壶云南古树白牡丹。」它也能听得懂，并娴熟奉上么？

人类一直想要一个能够如人类一般有「头脑」、在任何场景都能灵活操作的通用机器人，成为人类的伙伴和助手。而以前的机器人，对各类场景操作的数据如饥似渴，同时也缺乏能生成数据的「聪明大脑」。

直到大模型的加持，机器人焕发了新的生命力。

不久前，谷歌DeepMind推出RT-2——一个视觉-语言-动作（Vision-Language-Action）模型，将多模态大模型的能力塞进机械臂。

它可以从网络和机器人数据中学习到大量知识，并将这些知识转化为机器人控制的通用指令。这使得机器人也能像 ChatGPT一样理解自然语言，并根据自然语言做出一系列动作，能数学推理、能辨认人物、也能泛化到各种新环境、新任务。

RT-2 种种能力的“涌现”，并非视觉或机器人本身能力的“涌现”，而是大模型能力“涌现”的迁移。在某种意义上，这就是所谓的 Grounding，让语言构建的虚拟世界与物理世界走向连接。

RT-2 当然不是一蹴而就，就像GPT的进化，RT系列此前经历了从RT-1到Palm-E，再到RT-2的过程。如同从一只仅会简单动作的猴子，到进化出聪明的大脑，再用大脑灵活指挥猴子手臂去完成各种任务——RT-2实现了从自然语言到动作的「端到端」，成为单一的通用模型。

如果说当年GPT-3的出现让我们看到了通用语言AI的曙光，那么 RT-2 则让我们看到了通用机器人的希望。

而从每年迭代一次的GPT，到每三个月进化一次的RT系列，是不是意味着通用智能正以更快的速度指数级进化？

从1920年，捷克斯洛伐克作家卡雷尔·恰佩克在他的科幻小说中，根据捷克文Robota（意为“劳工”）创造出“机器人”一词，到1961年第一支机械臂的诞生，再到能空中体操的人形机器人Atlas，人类对机器人的热望已持续百年。

未来机器人将沿着怎样的路径迭代，RT-2对大模型的多模态和Agent发展有什么启发？是否有一条模糊的进化规则日渐清晰：如同任何智能体的进化一样，通用——单一智能体Agent——多Agent互动。

无论什么场景，AI的灵魂都需要一个“载体”才能释放，一支智能手表、一支机械臂，或一辆自动驾驶汽车。RT-2 会为同样本质是Agent的自动驾驶带来什么启示呢？是否端到端的自动驾驶系统也将成为可能？

端到端的多模态系统，本身具有很强的泛化和知识迁移能力，假设自动驾驶系统通过大量的互联网文本学到了很多知识、逻辑、推理的能力，那么它就有可能解决很多corner case。我们可以在虚拟世界模拟自动驾驶过程遇到的各种情况，然后再将相关知识技能迁移到物理世界。

这是一个用新变革，解决旧问题的方法论。

在技术不断推进我们想象边界的同时，前沿创业者、科技公司已开始尝试写下自己的答案。如何探索虚拟世界的多模态和可学习的 Agent，再将智能从虚拟世界迁移到现实？

卡梅隆在《阿凡达》中，将一名人类的智力注入遥控的生物身体中，让我们看到人与机器人，在未来世界共存的可能。美国人形机器人公司Agility Robotics的首席技术官Jonathan Hurst表示：“它现在只是一个两岁半的孩子。”而这个两岁半的孩子已然能推理，能辨物，能泡茶。

人类与机器人品茗共话的一幕，时不远矣。

‍

一、RT-2：

让我们看到了通用机器人的可能性

单臂机器人站在一张桌子前，桌上有多个塑料雕像：狮子、鲸鱼、恐龙等——给机器人发出指令：「捡起灭绝的动物。」机器人流畅地将手臂伸出，爪子落下，抓住了恐龙。

大模型时代到来之前，人们训练机器人，通常针对每个任务进行优化，比如抓取某种玩具，需要足量机器人抓取玩具的数据，机器人才能准确地从各种角度、光线下识别这种玩具，才能抓取成功。

而今天，RT-2 照亮了实现通用机器人的曙光。大模型的智能和泛化能力，让人们看到了解决这些问题的可能性。

不同于过去的专用机器人模型（如专门处理动作的模型，专门理解自然语言到动作序列的模型等）， RT-2 把多模态大模型的能力直接塞入机械臂，实现了从自然语言到动作的「端到端」，是一个单一的通用模型。

1.RT-2的智能「涌现」：从泛化到多步推理

当收到「捡起灭绝的动物。」的指令时，RT-2 能在众多物品中分辨出玩具恐龙是已灭绝的动物。原因在于，它是一个知识迁移系统，可以把在互联网数据上学到的知识，以及互联网上的文本与图片之间的对应关系等，迁移到机器人的任务中。它从互联网数据里得知恐龙是已灭绝的动物，而且从图片也知道恐龙长什么样，于是它捡起恐龙。

而以前的机器人系统，如果想要完成类似的动作，必须要给模型一个明确、简单的指令，比如说「捡起恐龙」，模型才能通过相应的专用系统，输出动作序列来操作机器人。而且，训练机器人时，训练数据得包含每一个场景、每一项物品（比如恐龙）、每一种环境，这将导致庞大的「数据爆炸」。

知识迁移则开辟了一条新路径，通过知识迁移可以先让模型在互联网上学习大量知识，然后将这些知识与视觉模型「对齐」，在执行操控任务之前模型便知道了什么是恐龙、苹果、梨子。

比如，我们可以让 RT-2 把杯子拿起来，当我们把指令换成“把苹果拿起来”或者“把梨子拿起来”，它也能完成。RT-2 证明了机器人模型可以理解并处理在训练数据里没见过的新对象、新环境和新背景。

除了展现出良好的“泛化”能力之外，RT-2 还表现出了多种能力的“涌现”。比如，它可以将苹果移动到画着树木的卡片上，还能够理解什么是健康饮料。

RT-2 种种能力的“涌现”——并非视觉或机器人本身能力的“涌现”，而是大模型能力“涌现”的迁移。这种“涌现”在模型多步推理、对符号的理解，对“人”的识别中体现得尤为明显。

比如，让 RT-2 把香蕉放到和 2 + 1 相近的地方，桌子上没有 2 + 1 ，但是桌子上有3，这时凭借大模型的能力，可以很容易算出来 2 + 1 = 3，因此它便知道放到数字“3”的地方。

除了数学运算，RT-2 还能识别和理解符号、“人”等具体概念，比如他可以根据指令将可乐拿给戴眼镜的人。首先，它需要识别哪一位是戴眼镜的人，因为它在训练数据中没见过；其次，它要知道什么叫“戴了眼镜的人”。

这在以前的 RT-1 很难实现，而 RT-2 的能力实际上都是大语言模型本身“涌现”的结果，最后的抓取和移动等操作反而是机器人最基本而机械的事情。

某种意义上，这就是所谓的 Grounding，语言逻辑世界与视觉听觉触觉等物理世界的连接。

对于大语言模型而言，它虽然理解苹果，比如说知道苹果是一种水果、可以吃，但只有看到含有苹果的图片时，才对苹果这个概念有视觉上的连接。某种意义上，机器人也是在帮助大模型做 Grounding，实现了其与物理世界的连接，而反过来大模型又帮助机器人实现了通用的操控。

RT-2 智能“涌现”的另一个重要表现是，它可以通过大模型的思维链进行多步推理。当被要求在多个物品中拿起“不一样”的物品后，它最终选择了巧克力，因为其他的都是瓶子。

“不一样”是一个二阶逻辑，因为它先要把所有的东西理解清楚，然后再去找出其中的区别。同理，最重的、最贵的、最小的，也都是二阶逻辑，因为这些指令都要基于一阶逻辑去推理。在没有引入大模型之前，仅有机械臂操作能力的机器人，很难实现多步推理或者高阶逻辑。

2.RT-2的演进史：从RT-1、PaLM-E到RT-2

RT-2 展现出的各项能力，刷新了我们对传统机器人模型的认知。然而，其诞生并非一蹴而就，是基于Google 前两代机器人系统 RT-1 和 PaLM-E 进化而来。

这三个系统之间的区别是什么？他们之间有着怎样的递进联系呢？

RT-1 仅是一个能听懂简单指令的机械臂，只能执行拿起、放下、向左、向右等基本指令，模型中没有思维链，也不具备推理能力。

PaLM-E 让机器人有了聪明的大脑，可以将复杂自然语言指令分解为简单指令，然后再去调用 RT-1执行动作。所以，PaLM-E所做的只是自然语言理解以及 Planning 部分的工作，并不涉及机器人动作本身。

那么RT-1、PaLM-E、RT-2这三个系统之间有什么关系？这可以通过下面简单的流程图来理解。我们可以将机器人执行任务的过程分为四个环节，分别是复杂文本指令输入、大模型规划任务、简单文本指令输出和机械臂执行动作。

比如，机器人收到的复杂指令是把苹果移到 1 + 2 的地方，收到指令之后，它会先做推理1+2=3，随后做出规划：第一步，把苹果拿起来；第二步，把苹果往左移动一定的距离到“3”的地方；第三步，把苹果放下去。

完成规划之后，它会将分解后的步骤转化成简单指令输出给执行系统，然后由机器人来执行最终操作。

在机械臂执行操作命令的过程中，它还会给大模型一个 Feedback，告诉它这个任务是否已经完成，或者通过拍摄图片来反馈任务状态的变化。

在这个过程中，RT-1 做的事情只是把简单指令转化成机械臂动作序列，而 PaLM-E 的工作则是用大模型将复杂的指令分解成多个简单的指令，然后再去调用 RT-1 执行动作。

RT-2 则是把以上环节端到端地集成到了一起，它能够用复杂文本指令直接操控机械臂，中间不再需要将其转化成简单指令，通过自然语言就可得到最终的 Action。比如，可以直接对它说往左边移 0.1 毫米，把夹子松开或者夹紧等。

作为一个端到端的系统，相比 PaLM-E、 RT-1 的工作流，RT-2具有很大的优势。

以前的系统，可以理解为一个管道（Pipeline）系统，管道系统最大的问题在于，管道里每一个步骤都要做出一个Hard decision，如果这个 Hard decision 是错的，那么这个错误就会传播到下一个步骤。比如说，如果PaLM-E 输出的是一个 RT-1 没有办法执行的错误指令，那整个任务会失败。

而由于RT-2 不输出中间的 Hard decision，也就不存在这种问题，这也是所有 End to End 系统与 Pipeline 机器学习系统的最大区别。

3.GPT vs RT：RT-2是不是机器人的GPT-3？

自2018 年6月 GPT-1 发布后，GPT-2、GPT-3等 GPT 序列以年为单位相继出新。而 RT 系列的迭代则倍速起来，代际3个月。基于大模型的应用将加速发展是否已成常见规律尚未定论，但不可否认的是，像 Google 这样非常“缓慢”的公司，有了大模型后，其它相关技术都在加速进化。

如果说GPT-3是信仰的转变——让我们看到了通用语言智能的希望，那么RT-2是否让我们看到了通用机器人的希望？

换个视角来看，Google 经常起大早，赶晚集。2017年，Google发布了 Transformer，隔壁的 OpenAI 看到后立刻将以前使用的 RNN，LSTM 等系统全部换成 Transformer。那么，今天是不是也存在 Google 以外的公司，看到 RT-2 之后已经完全放弃了 Pipeline 系统，正在重新基于 LLM 做端到端机器人模型？也许再过两三年，我们就能看到类似于 OpenAI 在 Google 先发地盘颠覆 Google 的故事在机器人领域重演？

4.RT的未来：从通用到多智能体

从 RT-1 到 RT-2 机器人模型实现了从专用系统到通用系统的升级，如果我们将 RT-2 定义为机器人的 GPT-3，那么未来，RT-3、RT-4、 RT-5 又将如何发展？

现在 RT-2 的动作和技能非常有限，也很粗糙，未来是不是可以让它的动作更加精细、技能更加丰富，真正实现通用的操控？这也许是 RT-3。

在实现了通用操控之后，我们是否可以让它通过试错的方式去发现新技能、快速地适应的各种各样的新环境，从而让它再进一步。

拥有自主规划或者自主探索的能力，变成 Agent？这也许是 RT-4。

在实现了单一 Agent 后，将迎来多Agent互动的世界，多个机器人 Agents 之间能够相互协作、配合，完成更复杂的任务，多Agent 互动将改变一切。这也许是 RT-5。

二、RT-2 对多模态的启示：

循序渐进、Co-Fine-Tuning、

跨模态知识迁移

RT-2 的出现对于多模态大模型的可行性是一个非常好的证明，并且对多模态大模型的训练也有着几点重要启示。

需要说明的是，这里所说的多模态指的是将所有模态放到一个模型里，而非在一个语言模型里必须调用 Vision 或者 Action等其它模态功能，那种做法更像 PaLM-E，不是真正端到端的多模态。

RT-2 对于多模态训练的第一个启发是，多模态训练是一个循序渐进的过程。

仔细研究 RT-2 的训练过程，我们会发现，RT-2 是在文本 LLM 模型的基础上，加入了图片和文本对应数据，训练出所谓 VLM 模型，然后加入文本和 Action 对应数据，训练出所谓VLA模型。这是一个循序渐进的过程。

LLM模型可能有苹果的概念，有梨子的概念，但它对这些概念并没有具体的视觉感知，即使看到这些东西也不认识。但是，如果在模型中加入苹果和梨子等水果的图片，这些概念就有了一个 Grounding，模型就知道了梨子、苹果等概念对应的物体，加入的图片越多，模型从抽象语言概念到具体视觉体现的 Grounding 就越多——这就是 VLM。

但是，VLM 模型虽然学会了语言和视觉的对应关系，但却不知道如何做动作操作，所以这个时候再加入少量的 Action 数据，它就可以基于文本模型和 Vision 模型的认知结果，完成整个任务——这就是 VLA。

值得一提的是，在大模型基础上，因新模态加入而增加的数据或参数都比较小，不会对训练造成太大的压力。比如，语言模型中的文本数据可能是万亿级的 Token，但 Vision 模型中的数据如果转成 Token，可能只有百亿级别，而 Action 可能只有亿级别，这对多模态大模型的研发是一个非常重要的认知。

第二个启发是，我们可以更加坚信文本大模型对于AGI的重要性，文本是所有模态的基础，而文本模型是智能的基础。

文本代表了大模型的认知能力，是一个认知模型，而 Vision、 Action 则是一些 Perception 或者 Grounding 的事情。在机器拥有强大的认知模型后，只需加入少量的数据就可以拥有多模态的能力，反之则不然。

第三个启发是 Co-Fine-Tuning，可以显著提升多模态模型的表现。

假设我们现在已经有了一个 Vision-Language-Model，我们准备在这个 VLM 上做机器人。最简单粗暴的 Fine-Tuning 的做法是只将机器人数据加入到 VLM 中进行微调训练，这样做会产生一个问题，模型可能会遗忘一些在语言、视觉上的通用能力。而 Co-Tine-Tuning 的做法是在做训练的时候，把互联网的预训练数据也加进来和机器人数据进行联合微调。

在下面的图表中我们可以看到，"Scratch"是不做Fine-Tuning ，也就是不用预训练的语言和视觉模型，只训练机器人模型，结果非常差；基于语言和视觉预训练模型，用机器人的数据进行 Fine-Tuning 之后，结果得到了显著的提升；如果在做 Fine-Tuning 的时候，除了加入机器人的数据之外，再 Mix 一定比例的文本、图片、视觉理解等预训练数据，也就是 Co-Fine-Tuning，最终的结果要比只用机器人数据做 Fine-Tuning 还高十几个点。

这是一个很重要的观察，出门问问自己在做多模态模型的时候，经常会遇到理论上听起来完全没问题，但真正训练起来效果差强人意的情况。以上面的视角来看，可能只是因为一些小细节没有做好。

第四个启发是，RT-2 证明了多模态知识迁移的可行性和必要性，解决了机器人数据组合爆炸的问题。

假设我们要做一个通用机器人，如果没有语言-视觉预训练模型，我们就需要收集大量的机器人训练数据，描述机器人在不同环境和背景下操作不同物体的情景，由于物理世界环境和背景的复杂性，这在实际操作中不太现实，因为数据量会组合爆炸。

但是，互联网的文本数据中有海量的知识、语言、逻辑，同时还有海量的图片，甚至含有大量文本和图片对齐的数据。

因此，可以用循序渐进的方法，先训练一个文本模型，学习到互联网的语言、知识、逻辑，再加上中量的图片，做一个从抽象语言概念到视觉的 Grounding，最后跟 Action 连起来，这样就很好的解决了机器人所需数据组合爆炸的问题，使得很多下游的通用系统变成可能。

‍

三、RT-2 对 Agent 的启示：

多模态、可学习的 Agent 是解决幻觉的有效路径

在谈论 RT-2 对 Agent 的启示之前，我们先明确 Agent 的概念。

一个完整的Agent，一定是与环境充分交互的，它包括两部分：一是Agent的部分，二是环境的部分。Agent 在与环境交互的过程中，会获得环境的一些 Feedback，然后它会根据这些 Feedback 重新做规划，也会通过 Action 以及 Observation 重新进行学习训练，所以 Agent 系统是一个不停循环自我提升的过程。

那么，RT-2 对 Agent 的启发是什么？

第一个启示是，通过 RT-2 我们可以发现，物理和虚拟的 Agent 是同一物种。

首先，物理和虚拟的 Agent 在原理上是一致的。

和RT-2一样，AutoGPT这种虚拟 Agent 也是由 Perception，到Planning，再到 Action 和 Feedback 的循环，两者一模一样。只不过 AutoGPT 的 Perception 和 Feedback 更多是纯文本聊天，可以直接获取，而机器人的 Perception 和 Feedback 更多是物理视觉和物理环境的反馈。

其次，物理和虚拟的 Agent 用到的工具也是一致的，都包括了COT、ReACT、Reflection，以及各种各样的 Tool use。

RT-2 与虚拟 Agent 一样，也会用到 COT。同时，它自然也会用到 ReACT ，因为它在收到一个复杂自然语言指令之后，会有一个 Plan 的阶段，这就是 ReACT 里面的 Reasoning，Planning之后就可以看到 Action 的结果，所以本质上这就是一个ReACT，只不过在 RT-2 系统中没有这么称呼而已。

再次，物理和虚拟的 Agent 遇到的问题也是一致的，两者都会用到 LLM 的规划和推理能力，但目前LLM的这两项能力并不可靠，所以会使得两者的性能也都不鲁棒。

RT-2 对 Agent 的第二个启示是，多模态对 Agent 非常重要。

想要真正做好一个 Agent，多模态是必须的。首先，多模态本身就是把语言模型这个虚拟的东西 Grounding 的过程，没有 Grounding 语言模型就会胡说八道，学习效率很低，也无法适应环境。而且，Agent 的输入和输出都是多模态的。

Agent 对输入的Perception需要多模态。

虽然很多时候 Agent 看不到环境的真实状态，但它可以看到一些表象（所谓Observation），比如说它观察到了一张图片，一个文本，或者某一个动作。可以看出，反应环境反馈的 Observation 一定是多模态的，如果都用文本去描述，整个流程就会变得很复杂和低效。所以 Perception、 Observation 都需要多模态才能够非常有效率，才能够做联合的 Inference。

Agent 的 Policy 输出的 Action 也是多模态的。

除了输出文字，RT-2 模型还会直接输出 Action，告诉机器人当下机械臂在什么位置，下一刻机械臂的位置应该在什么地方，或者夹子要松开多少，夹紧多少，这个时候它的模态就不只是文本了，而是一个多模态。

RT-2 第三个启示是，Agent 能够对环境进行学习和自适应特别重要。

因为大模型规模太大，没法针对每个具体场景或环境去做调整，所以现在我们看到的绝大部分所谓的 Agent 都还不具备对环境进行学习和适应环境的能力。

由于大模型本身不可调整，所以很多人便把大模型在具体场景上得到的 Feedback 转化成向量，用向量数据库存储，变成Memory，或者主动的做一些简单的 Reflection，然后通过上下文学习（In-Context-Learning）来提升大模型的在特定场景下的动态表现。

而 RT-2 不同，它将Action直接放到了模型当中，是一个端到端的 VLA 模型，它跟人已经很相似，可以在一定程度上适应环境的变化，当环境发生变化时，它会重新去做 Planning。

虽然，它的底层模型现在还无法进行动态 Online 的学习，但是未来将整个 Pipeline 放在一起之后，它便能具备动态学习的基础，实现闭环学习的过程：Agent 输出 Action，环境给出反馈，Agent 得到新的一个Observation，并重新Percept，Agent 重新学习调整自己的行为。

而现阶段对于环境学习和自适应而言，一个可能的解决方案是用一个专门的小模型对环境进行适配，然后与LLM 协作。

当然，这还只是一个设想，目前我们尚未看到大小模型协作的成功案例。但这个方向却很重要，因为现在环境的动态适配只有上下文学习和向量数据库两种形式，只靠这两种形式是不够的。

关于大模型，幻觉是常被提及的问题，而多模态、可学习的 Agent 可能是一种解决幻觉的有效路径。

在多模态、可学习的 Agent 的技术流程中，大模型需要将做出的决策输出到环境，而环境有物理限制，同时也能够及时给与模型 Feedback，收到 Feedback 之后，模型就可以做 Fact 或者 Reality check，也就能够较好的降低幻觉。

四、RT-2 对 3D视频生成的启示：

视频生成的另一种路径

现在大模型领域不只有文本生成，还有图片生成、声音生成、视频生成等多个研究和应用方向，其中视频生成是最复杂的。

文本生成是一个从左到右的Sequence，后一个词依赖前面一个词，或者前面第500个词，所以文本模型是一个时间序列模型。

与文本生成类似，视频生成里的后一帧也需要依赖于前面的一帧或者几百帧。但与文本生成不同的是——如果把视频看的是一帧一帧的组合，它既包含时间的依赖，也包含空间的依赖。

时空序列的建模难度远高于单纯的时间序列建模，因为在生成视频时，不仅要预测画面的变化，还要考虑下一帧画面和之前画面的时空关系，就像图片中显示的小狗，前几帧戴了眼镜，不能下一帧眼镜就消失了，必须要符合物理规律。

现在常规的视频生成技术，主要遵循两种路径。一种是弱化时空关系，通过动态镜头运作营造出一些假象；另一种是折中的方法，使用一个模版，模版里大部分都固定，仅一小部分是动态生成的，即局部模板化。比如说人物说话时只动态生成嘴唇动作，其它不变。

在动态运镜的思路中，因为视频中的运动可以是物体在动，也可以是镜头在动，其中镜头动会比较简单的，只要设计好镜头的动作即可。物体本身的动就会存在建模难度很大的问题，因为视频中的人物、环境、其他对象等都要动态地生成，整体的复杂度太高。

局部模版化，如出门问问数字人产品奇妙元，生成的内容只有说话和表情动作，只需用一张图片或者是一个小视频建模，就可以做出一支视频。

RT-2 的出现还带来了另外一条路径， 3D 视频生成。乍看，物理世界的 RT-2 和虚拟世界的 3D 视频生成似乎没有什么关系。

不过，可以假设有这样一个系统，通过大模型不仅可以控制 3D 空间里各种各样人物的动作，还可以动态地控制镜头，把操控人物和操控镜头的过程记录下来，那么我们就会得到一个视频。这个视频生成的过程跟 RT-2 通过语言操控机器人的过程是一样的，由此来看，RT-2 和 3D 视频生成本质上是相同的。

出门问问正在做一些类似的工作，构建了很多 3D 场景， 3D 场景里有人物、物体，并且他们的位置已经定好，现在做的是要让整个 3D 场景动起来。比如，让里面的人物可以对话、互相之间能协作等，最终可以自动生成很多剧情类的视频。

在这个流程里面，如果直接从Text 到 Video 会非常困难。但是，由于我们的 3D 世界本身已经建模，就可以分成两步来实现：第一步，先完成 Text to Motion；第二步，由 3D 虚幻引擎Unreal 或者 Unity 渲染实现 Motion to Video。

对于第一步的 Text to Motion 而言，今天的大语言模型已经拥有了空间规划能力。比如，如果对我们的大模型「序列猴子」说，“如果我是一个机器人，能上下前后左右移动，也能松开和抓取物品，现在想去会议室的书桌上取回一本西游记制办公室，我要怎么一步步做？”它就能够帮你把每一步都规划好。

有了 3D 世界、虚拟人物以及大模型的空间规划能力等元素之后，我们就可以将这些元素转化成Agent。以下是我们基于「序列猴子」做的一个3D 数字人语音交互的案例。

虽然这个Demo还比较粗糙，但是它证明了刚才提到的所有元素的可行性。第一，它能理解自然语言；第二，它能将自然语言指令分解成多个简单指令；第三，它能把简单指令转成视频中小狗的动作序列，然后让它去完成。

上面视频中只有一个 Agent，和它对话的人在视频之外，所以是它是一个单一 Agent 的展示。下一步就是驱动多个 Agent 的互动。

什么是多 Agent？可以将多 Agent 想象成自己有很多只猫或者狗，我们把它们的形象在 3D 世界生成出来之后，让它们通过语言模型对话，对话过程中这些动物还能自己去做一些动作或进化出别的复杂社会行为。

五、RT-2 对自动驾驶的启示：

端到端的自动驾驶系统是否可能？

以前的自动驾驶的系统，绝大部分都是 Pipeline 类型的系统，每一个任务都会有一个单独的模型，模型之间通过一个 Pipeline 串起来，甚至有的任务是基于规则，而不是基于数据学习，比如说 Planning 本身。

RT-2 让我们看到了端到端自动驾驶的可能，自动驾驶本质是一个 Agent 系统，理论上也同样会遵循 Perception、Planning、Action 这样一个过程，包括有了 Observation 之后也会重新循环，不同的是自动驾驶可能要比其他应用复杂很多。

多模态的 Language Model，比如 RT-2 的 VLA，本身就集成了 Perception、Planning，以及把 Planning 出来的 Policy 转成 Action 的能力，所以VLA大模型本身可以是一个端到端的一个 Driving Policy。

那么，它有什么好处呢？首先，这种端到端的多模态系统，它有很强的泛化和知识迁移能力。大家知道，Corner case 是自动驾驶面临的一个很大的问题，就红灯而言，在不同环境下，有的时候自动驾驶系统能够识别它是红灯，有的时候就识别不了。

但是，人只要看到这个抽象的特征就能识别，人的这种能力就是泛化和跨模态的知识迁移。假设自动驾驶系统通过大量的互联网文本学到了很多知识、逻辑、推理的能力，那么它就有可能解决很多corner case。

另外，我们可以在虚拟世界里模拟自动驾驶过程中遇到的各种情况，然后再把相关知识技能迁移到物理世界。

因为自动驾驶系统的现实数据，就相当于 RT-2 的机器人数据，如果让我们把物理世界的数据都收集一遍，这显然不现实。如果通过大模型，先在虚拟世界模拟各种环境、路况等，然后再把这些技能、知识迁移到物理世界，就相对简单的多。

还有一点，在自动驾驶系统中，危险的、事故的数据非常少，但这反而是自动驾驶的学习重点，人为制造这种数据显然是不可能的，因此从虚拟世界到物理世界，看起来可能会是更加合适的一种路径。

虽然，虚拟环境模拟在自动驾驶领域并不是什么新鲜事物，但今天的生成式AI，能够自动生成各种 corner cases，让模拟更加真实，还能让决策系统更加端到端。

不过，其中还是有很多问题需要解决。

虽然 VLA 这种模型很通用，但物理世界的复杂性对其通用性仍然是一种巨大的考验，同时还要考虑如何降低模型幻觉，提高其可靠性。

同时，不同于机器人的推理效率，自动驾驶对于推理的速度要求极高，需要在很短的时间里重新 Planning 和 Decision，而且物理世界的复杂程度决定了模型必须要足够大，在数据不能传到云端的情况下，如何提升推理效率也是一个很重要的问题。

此外，因为端到端的大模型系统，不可解释，也无法定向纠错。在这种情况下如果出了问题，也很难立刻改正。

不仅如此，自动驾驶还需要有很强的 Prediction，也就是可以在非常短的时间里 Predict 别的 Agent （比如说其它车和行人）会如何变化。如果模型反馈的频率足够高，那么只需要根据每次反馈做一个Reactive 的反应即可，但是如果模型反馈的频率不够高，或者是环境变化的频率超越了模型做决策的频率，那么就需要对未来进行一些预测 Prediction，否则就会发生碰撞这类危险的状况。

六、出门问问的AGI探索

最后讲一下，出门问问跟前面讲的内容的关系。目前，出门问问的业务可以分为技术、解决方案、商业化三个层面。我们将基于通用大模型「序列猴子」面向企业、消费者和创作者三个不同的场景，分别打造优质的AIGC解决方案、企业解决方案和AIoT解决方案。

AIGC解决方案是当下的重点发展方向，基于「序列猴子」我们推出了面向创作者的一站式AIGC产品矩阵，包括AI配音助理「魔音工坊」及其海外版「DupDub」，数字人平台「奇妙元」，AI写作助理「奇妙文」以及AI绘画助理「言之画」。

截止今年 5 月份，出门问问AIGC产品的累计注册用户数量已经超过了600万，付费用户数量超过40万，这一数据在中国甚至全世界都是领先的。

在大模型的研发中，以大语言模型为基础的多模态模型是我们的重点。「魔音工坊」的产品形态实际上就是多模态的一种，它将文字和声音融合到了一起。

过去，绝大部分的配音应用都需要按照固定的格式操作，比如输一段文字，系统给你配出一个声音。但未来，基于我们的多模态模型，可以直接通过文本 Prompt 跟机器说我需要一个什么样的声音，它就可以给你生成动态的声音。

（魔音工坊多模态视频）‍

出门问问要做的是虚拟世界的多模态和可学习的 Agent。目前，我们已经有这种有声音和形象且可交互的Agent原型。

未来，出门问问的整体发展路径是先训练出SOTA的大语言模型，在此基础上加入声音、视觉和3D动作等多模态，从而实现3D视频自动生成的研发和落地。我们在虚拟3D世界学到的各种知识、模型和Agent，未来也有迁移到物理世界（如机器人和自动驾驶）的可能性。正如前面所说，这种发展路径与 RT-2 这种多模态以及可学习的 Agent 的路径也是完全一致的。

未来科学家尼葛洛庞蒂说：“预测未来的最好办法，就是把它创造出来。”

Agent的未来，也蕴藏在AI的发展史里。路漫漫其修远兮，AI上下而探索。

*文章为作者独立观点，不代表笔记侠立场。

9月16日，笔记侠“AI新视野，增长新势能”第二届新商业智能大会，将在杭州宝盛水博园大酒店举办。

众多行业大咖、一线企业、初创公司在这里聚集，分享彼此对AI的认知和经验，帮你发现AI带来的增长势能，看到未来，融入未来，成为未来！

余票不多，先到先得。

分享、点赞、在看，3连

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章