硅谷大佬都在聊的AI Agents，是真热还是虚火？｜甲子光年

2023-07-26 10:07

AI Agents注定是一场马拉松。

作者｜李晗朱悦

编辑｜栗子

ChatGPT获得巨大成功后，OpenAI已然奔向下一个目标——AI Agents（智能体）。

“如果一篇论文提出了某种不同的训练方法，OpenAI内部会嗤之以鼻，认为都是我们玩剩下的。但是当新的AI Agents论文出来的时候，我们会十分认真且兴奋地讨论。普通人、创业者和极客在构建AI Agents方面相比OpenAI这样的公司更有优势。” OpenAI联合创始人，前TeslaAI总监Andrej Karpathy说道。

Karpathy的公开发言为AI Agents添了不少热度。但他的判断并非一家之言。

早在3月份，AutoGPT就在GitHub上获得7.4万星，并快速成为史上Star数量增长最快的开源项目；而后发布的BabyAGI、AgentGPT更如雨后春笋般涌现：订购披萨、整理邮箱、创建博客，甚至举办一场情人节派对……

越来越多的AI Agents出现在人们生活的各个场景下，热潮迅速开始从硅谷蔓延。

自主执行、独立运作，AI Agents被科技人士给予极高的期待，认为其是“变革社会的生产力工具”。更有人将其视作“通往通用人工智能（AGI）时代的开始”。

但呼声并不能掩盖现存的问题。

“大模型是AI Agents的前提，有了足够好的硬件基础后，才能去发展AI Agents。”真格基金管理合伙人戴雨森对「甲子光年」表示。

严格来说，市面上只有ChatGPT一个“合格”的大模型底座。受制于模型算力，国内仍然缺乏AI Agents的开发土壤。

未来美好，现实残酷。技术研发与创业投资等都在摇摆中进行。AI Agents的红利期何时真的伴随大模型浪潮而来，谁都不得而知。但可以肯定的是，改变已悄然开始。

1.AI Agents：帮你做事的“数字助理”

与其把AI Agents当作ChatGPT升级版，不如将它视作人类的“数字助理”更为合适。

它不仅告诉你“如何做”，更会“帮你做”。作为一种媒介，AI Agents代替人类与GPT等大语言模型（Large Language model, LLM）进行反复交互，只要给定目标，它便可以模拟智能行为，自主创建任务、重新确定任务列表优先级、完成首要任务，并循环直到目标达成。

与传统的人工智能不同，AI Agents可以在没有人类控制的情况下独立运行。通过接入API，AI Agents甚至可以浏览网页、使用应用程序、读写文件、使用信用卡付款等等。

简单来说，只需要给它一个目标，AI Agents就能完成剩下的全部工作。例如HyperWrite研发的AI agent通过Chrome浏览器的控制程序来自动帮你订购披萨。

图源：HyperWrite CEO Matt Shumer Twitter账号

这种想象放在科幻电影里并不难，但在人工智能探索历程上，已经持续了将近半个世纪。

早在20世纪80年代，计算机科学家就开始探索如何开发一个可以像人类一样交互的智能软件。但苦于数据和算力限制，AI Agents缺乏必要的现实条件。

斯坦福大学计算机科学博士Joon Park曾在访谈中表示：“我们一直在朝着那个方向努力，但过去几十年的所有方法，甚至都没有接近我们现在借助LLM所实现的效果......这就是为什么我们忘记了这一愿景。但当LLM出现时，我们意识到机会来了。”

大语言模型是AI Agents的核心大脑。通过拆解复杂任务，可以将复杂的用户需求拆解为可实现的任务方式。

一方面，大模型的训练建立在互联网的基础上包含了大量的人类行为数据，弥补了构建可信AI Agents的关键要素。

另一方面，在可观的知识容量下，大模型涌现出优秀的上下文学习能力、推理能力。通过建立思维链来实现模型的连续思考和决策，AI Agents可以分析复杂问题，并将其拆解成简单、细化的子任务。

与此同时，LLM以语言作为媒介也改变了前端的交互形式。BV百度风投AI应用赛道负责人，投资副总裁温永腾告诉「甲子光年」：“BV百度风投很早就开始关注AI Agents的发展，通过研判，我们认为原先的图形用户界面（GUI）有可能转变为语言用户界面（LanguageUI），AI Agents的前端应用将存在于所有可能与人类交互的前端形式之中。”

只是拆解任务，还远远算不上智能。LLM驱动下的AI Agents，离不开三个关键组件：

规划（Planning）：将大型任务分解为较小的、可管理的子目标；进行反思与细化，对过去行为进行分析、总结和提炼，以提高自身的智能和适应性，提高最终结果的质量。
记忆（Memory）：短期记忆，进行上下文学习；长期记忆，能够长期保存和调用无限信息的能力，一般通过外部载体储存和快速检索来实现。
工具使用（Tool use）：可以学习调用外部API，以获取模型权重中缺少的额外信息。

LLM驱动下的AI Agent System概览

图片来源：Lilian Weng个人博客

三个组件配合下，AI Agents不仅能像人一样思考，也能像人一样行动。

就像人类一样，在从事复杂任务时，每一步之间往往会有一个推理过程。AI Agents也会借助ReAct组件（用于构建用户界面的JavaScript库），将大模型的推理能力和行为决策紧密结合起来，使语言模型可以根据知识进行有逻辑地计划安排。

Reflexition框架则为AI Agents提供动态记忆与自我反思的能力。通过语言反馈而非更新权重的方式来强化Language Agents，让它可以改进过去的行动决策、纠正过往的错误以不断提高自身表现。

在信息获取、储存、保留、检索的进程上，AI Agents也力图模仿人类的记忆构成，构建高效的内存系统。

模拟人类记忆方式，AI Agents会将感觉记忆、短期记忆、长期记忆，分别表示为原始输入的学习嵌入（如文本、图像等）、上下文学习、外部向量储存。任务与结果会储存在记忆模块中，当信息被调用时，储存在记忆中的信息会回到与用户的对话中，由此创造出更加紧密的上下文环境。

人类最显著的特征之一就是使用和创造工具。通过配备外部工具，使用API来调用各种接口，AI Agents能够模拟人类使用工具，完成更复杂的任务。

虽然技术层面并未完全成熟，诸如数据管理、长期记忆等问题仍在解决。但AI Agents自主执行、迭代优化、“解放双手”的能力也让走红成为必然。

2.接替LLM，AI Agents成为下一个AI热点

ChatGPT的诞生，实现了AI与人类进行多轮对话，并提供信息和建议的功能。Copilot的推出，使AI足以承担为人类完成工作初稿的能力，例如Github Copilot、Microsoft 365 Copilot、Midjourney，分别成为人们在编程、办公、图像生成领域中的“智能副驾”。

告诉AI完成一件任务，它就能完成一件任务——撰写文案、回答问题，或者生成一张人类肉眼难以分辨真假的照片。而与此同时，人们也往往需要为AI的每一步行动提供具体清晰的提示。

此时的AI就像是初来乍到，没有任何经验，需要手把手教导的实习生。但是，如果你想要一个听指令办事，执行中遇到困难自己解决，尽量不给人添麻烦的好员工呢？

3、4月份，Camel、AutoGPT、BabyAGI、西部世界小镇等多个AI Agents集中爆发，似乎让人们看到了这样的可能。

自3月份，Significant Gravitas将AutoGPT开源后，发布时间不到2个月，AutoGPT在GitHub上获得的star数量已经达到13万，成为史上star数量增长最快的开源项目。

斯坦福大学打造的西部世界小镇

图片来源：论文《Generative Agents: Interactive Simulacra of Human Behavior》

Andrej Karpathy就曾在Twitter上表示：“提示工程（prompt engineering）的下一个前沿是AutoGPTs”。截至目前，AutoGPT在代码托管平台Github上已经获得超过14万star，排名历史第25位。

OpenAI联合创始人兼CEO Sam Altman曾在多个场合表示，构建庞大AI模型的时代已经结束，智能体才是挑战。

在一篇介绍自主智能体的文章中，作者Octane AI（一家数据营销平台提供商）联合创始人兼CEO Matt Schlicht收集了来自业界、学术界、投资界等上百余人的观点和看法，有来自Meta、Nvidia、Stability AI等大公司或AI初创公司的专家，也有斯坦福CS的教员和投资了包括Hugging Face在内的AI投资人，绝大多数都表达了对AI Agents潜能的期待和展望，甚至将其称为“原始AGI”。

接替大模型，AI Agents似乎正在成为AI的下一个热点。

但与此同时，反对的声音也不绝于耳。

图灵奖获得者Yoshua Bengio在今年5月发布的博文《危害人类的AI是如何出现的》中就提及，人类能控制AI Agents总任务、总目标，并不意味着人类能控制AI Agents凭借自己的智慧分解出来的子任务、子目标，除非AI对齐（alignment）的研究取得突破，否则人类就没有强有力的安全保障。

智能体的集体出现，大佬的追捧和质疑，AI Agents的浪潮迅速且火热。

然而，AI Agents在人工智能的圈子内并不是一个新名词。

2014年，DeepMind推出的围棋AI AlphaGo，其实就是AI Agents的一种。与之类似的还有2017年OpenAI推出的用于玩《Dota2》的OpenAI Five，2019年DeepMind公布用于玩《星际争霸2》的AlphaStar。

当时的业界潮流是通过强化学习（reinforcement learning）的方法来训练和改进AI Agents，主要应用于游戏场景，特别是一些对抗性、具有明显输赢双方的比赛中。但如果想要在真实世界中实现通用性，却是一个悬而未决的问题。

之后的几年，OpenAI转向大语言模型，GPT系列的相继推出，大模型成为各家科技厂商争先涌入的赛道，也正是大模型的发展，让AI Agents有了突破瓶颈、重新发展的契机。

相较于几年前局限在游戏场景，在大模型的基础上AI Agents可以实现什么？BV百度风投AI应用赛道负责人，投资副总裁温永腾向「甲子光年」表示：“我们看到的不仅仅是技术进步使得AI在理解用户意图、收集信息以及执行任务的能力大大增强，更重要的是，AI Agents完全有能力重构未来的应用生态”。

在AutoGPT推出后不久，已经有不少网友使用AutoGPT来搭建自动化的个人助理。例如FirstSales.io的创始人兼CEO Udit Goenka发帖称，他利用AutoGPT搭建了一个勘探引擎，可以搜索去年获得种子轮投资的公司，并能描述创建列表的详细信息。

Google软件工程师Yew Jin Lim表示，他用AutoGPT创建了一个电子邮件助手，通过电子邮件向AI Agents发送任务详情。

真格基金管理合伙人戴雨森告诉「甲子光年」：“Agent是一个让生产力真正能大幅提高的方向，因为如果还是人做事情，人总是有限的”。

“AI Agents将会成为日常生活和工作中的生产力工具。”Matt Schlicht写道，“从管理社交媒体账号、投资市场，到出版最好的儿童读物，AI Agents将存在于各个行业和每一项可以被想象出的任务之中。”例如aomni，是一款可以在网络上查找任何主题信息的AI Agent，会通过创建列表，一项一项完成用户的目标。

除了生产力需求之外，Inflection AI的个人AI Agent Pi提供了另一个可能的应用方向。

不同于ChatGPT、Claude通用人工智能的定位，Pi主打高情商、情感陪伴、提供情绪价值。Pi还会记住和用户的历史对话，除了参与并辅助人们的工作与生活，还会学习联系朋友和家人的方式与用户建立联结。目前Inflection AI已获得超15亿美元的投资，超越了Anthropic，仅次于OpenAI。

3.AI Agents会是下一个风口吗？

“Building a kind of JARVIS（构建类似于JARVIS）”，这是Andrej Karpathy在Twitter上最新更新的简介，JARVIS是漫威超级英雄钢铁侠的一位人工智能助手，具备独立思考的能力，能帮主人处理各种事务，计算各种信息。

Karpathy的简介也意味着，AI Agents赛道的发令枪已经打响。

外媒《The Information》指出，Sam Altman曾在5月私下告诉部分开发者，OpenAI希望将ChatGPT打造成个人工作助手，并有知情人士指出，OpenAI一直在关注如何使用聊天机器人来创建自主的AI Agents，相关功能很有可能部署在ChatGPT助手中。

无独有偶，Meta也看到了AI Agents的机会。

早在4月，Zuckerberg就曾对投资者表示，Meta看到了“以有用且有意义的方式向数十亿人介绍AI Agents的机会”，但此时他并没有说明具体的应用。

而在6月一次与员工举行的全体会议上，Zuckerberg宣布了一系列处于不同开发阶段的技术，其中一个就是将带来具有不同个性和能力的AI Agents来提供帮助或娱乐，最初主要用于Messenger和WhatsApp。

在国内，AI Agents相关的产品也相继诞生。

在7月初的WAIC现场，阿里云就发布了旗下第一个智能体——ModelScopeGPT，面向开发者群体，并将在未来推出一系列智能体以应对多种应用场景。

华为在该领域也有涉及，但更侧重于具身智能（Embodied AI），即大模型与机器人的结合。

除了大厂，AI Agents也是创业者们的机会。OpenAI联合创始人Karpathy特意在此前的演讲中提到：“普通人、创业者和极客在构建AI Agents方面相比OpenAI这样的公司更有优势。”

BV百度风投AI应用赛道负责人，投资副总裁温永腾表示，BV团队目前也对初创企业在AI Agents领域中的机会持乐观态度。

“未来的应用生态将是多元化的，而非由单一巨头主导。AI Agents的出现带来了一次范式转移的机会，许多传统应用都面临被颠覆改造的可能性。在这个过程中，初创公司有大量的机会去开垦新的领域。对于每一个特定的任务，AI Agents都有大量的优化空间，包括特定算法与服务的构建、用户数据以及产品设计等方面，都是初创公司可以建立差异化优势的地方。”

“此外，当前AI Agents的生态还不够明确，这为初创企业提供了有利的发展机会，因为它们并不需要在一个已经确定的规则下进行竞争，从这个角度上来看，初创企业与大公司是站在同一起跑线上的，并且初创企业更为灵活，可以很快进行产品的调整。”

凭借在人工智能领域布局多年所积累的认知，BV百度风投并不认为模型公司会垄断应用层的机会。因为对于底层模型公司来说，构建生态的意义远大于垄断某一应用，如果底层模型公司采取排他性的策略来获取应用层的竞争优势，可能会对其自身的生态造成伤害。底层模型公司可能会在他们关注的一两个领域构建强大的AI Agents，但他们没有必要在所有领域都与初创企业竞争。

尚未确定的生态，还未被制定规则的赛场，所有人又回到了同一起跑线上。

但不可否认的是，目前为止，除了许多演示之外，AI Agents并没有真正的产品出现。

真格基金管理合伙人戴雨森将AI和人类协作的程度类比为自动驾驶的不同阶段，AI Agents就好比自动驾驶的L4阶段。但就如同L4一样，AI Agents容易想象、演示，却难以实现，AI Agents的真正应用还在不确定的未来。