OpenAI打了个「响指」，AI Agent厂商重建护城河｜36氪新风向

公众号新闻

2023-12-07 09:12

OpenAI加速大浪淘沙，接下来拼的是真本事。

文｜周鑫雨

编辑｜苏建勋

来源｜智能涌现（ID：AIEmergence）

封面来源｜IC photo

AI Agent（智能体），即便你不知道这是什么，今年也一定在某些AI大佬口中，听到过这个词：

2023年11月13日，微软创始人比尔·盖茨为Agent撰写了一篇千字博文，称其将颠覆软件行业和人机交互方式：“谁能主宰个人助理Agent，那才是大事。因为你将永远不去搜索网站，不去生产力网站，不去亚马逊。”

哥伦比亚大学计算机科学教授Jeff Clune则在Agent身上看到巨大商机：“可能价值数万亿美元。”而进一步，英伟达高级研究员Jim Fan预言，Agent将“推动整个文明的进化”。

时间倒退到6月27日，OpenAI应用研究主管Lilian Weng的一篇六千字博客《LLM-powered Autonomous Agents》，则迅速为方兴未艾的AI应用层指明了方向：做Agent。

所谓的AI Agent，可以被理解为一颗能自主使用工具、执行任务的“人造大脑”。

今年Agent有多火？“6月后，AI赛道几乎没人谈怎么做大模型，涌过来的都是自称Agent的项目。”一名投资人告诉36氪。近一个月，她聊了20多家自称做Agent的公司：“有之前做RPA的，也有做AIGC的，一半多的项目做的根本不是Agent。”

而在“AI腹地”硅谷，据知名AI记者Matt Schlicht的统计，至少有100个正经项目在将Agent商业化，近10万名开发者正在构建Agent。“每周都有新的Agent公司诞生。”AI应用云服务厂商E2B如此形容Agent创业的盛况。

知名Agent一览，图源：E2B

太平洋对岸动作频频，国内巨头和创业公司也很快踏上Agent的追风之路。

在9月-10月短短两个月里，百度、智谱AI等大厂和AI独角兽先后发布了Agent开发框架，或者自研了Agent应用。市面上的打着Agent旗号的创业项目，也如雨后春笋般冒了出来——在近期阿里云主办的黑客松上，18个AI项目，其中7个提到了Agent。

然而，5个月后，在11月6日举办的首届Dev Day（开发者日）上，OpenAI轻轻打了个响指：发布定制版ChatGPT（OpenAI称其为GPTs）的低代码开发工具GPT Builder——下游的客户和开发者只需上传训练数据、配置模型参数，用几天甚至几小时，就能用目前全球最强的大模型基座，开发自己的Agent。

GPT Builder发布仅一天，就有上千基于GPT的AI应用上线了GPT Store；三天内，定制化的GPTs以每分钟一个的惊人速度新增。截至12月4日，即便在非官方商店GPTs Hunter，也已经上线了3.3万个GPTs。

OpenAI用一场发布会，让Agent创业一下子陷入全网唱衰的境地。前有OpenAI利用GPT的基座能力优势自己搞开发，后有下游客户和开发者用GPT Builder低门槛做自研——Agent企业，似乎已经到了随时可能被上下游吞并的“存亡之秋”。

先前被OpenAI指路的不少Agent创业公司迅速陷入恐慌：

在Twitter Space上，一场关于Dev Day的实时讨论会吸引了近百人。当GPTs出现在Sam Altman身后的屏幕上，讨论会的“国粹”立刻此起彼伏：“woc，这半年都白干了！”几名开发者在网上开玩笑：“我们和OpenAI的差异性就是比他差。”

一名正在帮两家Agent公司谈融资的FA焦虑到夜不能寐。她连夜和创始人拉会，“必须让他们在BP里强调技术的差异化，不管多小的差异都行。还有就是，先强调国内市场，毕竟OpenAI还进不来。”

但在海外，不少创业公司对Dev Day又显得十分冷静。

美国AI 3D创业公司Luma AI增长负责人Barkley Dai告诉36氪，感到恐慌的企业往往只是套壳了Agent一词，没有真正找到落地的场景，“找到场景的AI厂商已经开始商业化形成数据飞轮了，没那么容易被淘汰”。

“正好借机大浪淘沙，还能重新炒热AI应用赛道。”另一名海外开发者也表达了类似的观点。

即便开发者们观点态度不一，但OpenAI在Agent上的狼性布局，也恰恰证明，如今没有人会否定Agent在AI落地中的价值。

本文将解答的问题是：

Agent的落地价值是什么？业内玩家如何分类？
OpenAI对Agent企业的影响是？Agent企业的核心竞争力是什么？
Agent的商业化情况如何？

当一颗聪明的人造大脑，学会了使用工具

“ChatGPT只能做谈天说地、写诗作画这些风花雪月的事，但没法订票、报销、做PPT。”

这句在业内广为流传的论断侧面反映出了大语言模型的局限性：无法主动感知环境信息，并做出决策和行动。图灵奖获得者杨立昆（Yann LeCun）也断言：大语言模型无法通往AGI（通用人工智能）。

但基于大语言模型的Agent，却被Andrej Karpathy和Lilian Weng等OpenAI技术专家视作通往AGI的必经之路。

如何理解Agent的革命性？我们不妨将AI的落地，想象成完成一个项目的过程。

无论是以Midjourney等为代表的AIGC（AI生成内容）技术，还是ChatGPT，都可以被视作组内具有智慧的“军师”。“军师”们能根据沉淀在脑海中的知识，对上级布置的项目进行头脑风暴，给出初步的想法和思路。

与此同时，“军师”发挥潜力的程度，极大程度上还依赖于人类下达指令的质量——也就是输入Prompt（提示词）的质量。

但要交付一个出色的项目，只有“军师”纸上谈兵是不够的，还需要上网检索信息，或从数据库中找到并分析以往的业务数据，并用办公软件做一份上级和合作部门看得懂汇报PPT。

这意味着，要想大模型真正在实际任务中派上用场，必须让它能够调用第三方工具的API，学会使用工具。

2023年3月微软发布的365 Copilot（副驾驶），已经让大模型初步学会了实用工具，帮人类做PPT、写文稿、整摘要。

然而，由于Copilot无法自主执行和结束任务，在使用Copilot的过程中，人依然需要通过调整Prompt等方式，对Copilot的执行结果进行修改、给出反馈。

更进一步，能几乎自主执行任务、不需要实时输入高质量Prompt的AI实体，就是Agent。

图源：腾讯研究院、招商证券

Lillian Weng的博客指出，Agent能让人类解放双手的原因，则在于模仿人类执行任务过程的四个组件：

大模型+记忆+规划能力+工具使用。

“记忆”确保前后目标一致，“规划能力”则体现在对任务的拆解和检查。剩下的则是Agent最核心的两个部分：“大模型”是能够理解任务并进行决策的大脑，“工具使用”则意味着执行行动。

图源：Lilian Weng《LLM-powered Autonomous Agents》

发展至今，Agent的落地方向，根据“调用Agent数量”和“是否设置特定目标”，已有了四个探索方向的分野。

就像真实的项目组中，既可以由一人主导所有流程，也可以多人分工，根据任务所调用Agent的数量，Agent的模式也无外乎两种：单体Agent（Single Agent），和群体Agent（Multi Agent）。

放眼国内，单体Agent目前被更多应用于某一特定的流程，或者具有特定场景的任务中。

比如高瓴创投投资的语音转录平台“Airgram”，推出了销售场景下的会议Agent；成立于2021年的“魔音智能”的Agent，聚焦在私域运营和客服场景。而百度、滴滴、蓝凌等大中型厂商，则针对企业的费控、数据分析、沟通等具体工作环节，分别推出了Agent方案。

但当业务流程愈加复杂，并且难以切分成孤立的环节，让一群Agent互相分工就成了最直接的解决方式。

下半年以来，愈来愈多的厂商对群体Agent进行了研发。近期完成天使轮融资的“KeepChat”，针对完整的销售流程和客户需求，在AI销售背后接入了4个Agent进行协作。

清华大学计算机科学与技术系副教授刘知远成立的“面壁智能”，则把智能软件开发平台ChatDev做成了一家只有Agent员工的软件开发公司。CEO Agent负责接收用户需求后，并把开发和交付任务分配给CTO、开发经理、产品经理、测试专员等Agent角色。

根据是否设置特定目标，Agent又可以分为自主式（Autonomous）和生成式（Generative）。

自主式Agent，往往受限于特定的任务目标，比如交付特定功能的软件、制作特定内容的PPT。但剧本、游戏脚本创作等创意型工作，往往需要不经意间碰撞出的思维火花。为了探寻Agent产生创意的可能，没有特定目标的生成式Agent应运而生。

生成式Agent探索的里程碑事件，发生在2023年4月——在斯坦福大学和谷歌研究院研发的“虚拟AI小镇”内，15个身份各异的Agent居民，自由进行社会交往。

图源：斯坦福大学、谷歌研究院

“虚拟AI小镇”的诞生，让不少开发者和厂商看到了Agent重构游戏和社交玩法的可能性。比如小冰成立的游戏工作室ICEGamer，在游戏中引入了Agent NPC。开发者只需为NPC编写必要的世界观脚本和人设，游戏过程中的迭代和进化则全权交由Agent和玩家。

“理想情况下，生成式Agent能够根据玩家行为自主构建游戏副本。”前《和平精英》AIGC策划张昊阳告诉36氪。他成立的AI游戏公司AutoGame，探索的不仅仅是用Agent作为可智能问答的游戏NPC，还用Agent作为数字员工，编写游戏脚本，制作游戏组件，创造游戏玩法。

可见的是，人们对于Agent的期望，已经不仅仅是让人类在原有工作中解放双手，而是期待Agent真正成为人类的“数字分身”，构建新的生产方式。

OpenAI淘沙，数据和技术仍是企业“护城河”

11月6日的Dev Day，被不少人视为OpenAI正式开抢Agent厂商蛋糕的标志。

多数人认为，像OpenAI一样提供开发框架和工具的Agent中间层公司，会首当其冲。Atom Capital在官方推文中直言：“大量 Agent 框架公司将失去存在价值，开发者会因为生态便利性等原因转移到 OpenAI 的官方框架之下。

当OpenAI直接向下游开发者“卖水”，Agent生态的竞争也将加剧。已有的几万个GPTs，功能覆盖了设计、写作、故障排除等工作需求，也延伸到了算命、教学、食谱生成等生活娱乐场景。“其余厂商再想开发特定场景下的Agent，都会撞型。”一名开发者对36氪表示，“相当于和OpenAI生态中的几千名开发者竞争。”

图源：GPT Store

但当Dev Day引发的震荡逐渐消退，厂商们也逐渐回归冷静。在大会上，Sam Altman将GPTs称作“precursors to agents（Agent的前身）”。这句话已明确指出，GPTs更偏向于聊天机器人，还达不到自主行动的程度。

经过一个月的试用和研究后，前述开发者告诉36氪，由于主要由简单指令创建，大部分GPTs远达不到交付给客户的企业级标准。

这意味着，OpenAI的GPTs尚未达到与Agent厂商争抢蛋糕的水平。不过，OpenAI在Agent布局上显露的野心，也让国内外厂商重新审视自身的壁垒。

要想在Agent竞争中构建“护城河”，数据壁垒是关键的一堵墙。

但在国内，构建数据壁垒并不容易。一方面，大部分领域私有数据分散在不同企业和专家手中，具有高敏感和难整合的特点。另一方面，业务中产生的“过程数据”，往往非结构化地存储在企业的服务器中，甚至专家的“大脑”中。而澜码科技CEO周健认为，专家知识的数字化是AI Agent落地的必要条件。

一些企业的“巧劲”，是寻求与中游企业或者第三方服务商的合作，进而共享下游行业的客户数据。比如以人力资源行业为业务切口的“澜码科技”，先与企业客户众多的猎头平台进行合作，以此为切入点，积累简历筛选、人岗匹配等业务数据。

但过程数据，往往难以通过第三方服务商进行共享。不少厂商认为，为数不多的获取路径，是先从相关业务“冷启动”，完成过程数据的原始积累。比如想要做游戏Agent，不妨先开发一款传统游戏。

而在数据私有化程度不高的行业——比如视频生成、小说生成等数据主要来源于网络的场景——不少从业者认为，Agent企业要做的是数据治理。

将公开数据转化成半私有，甚至私有数据，比拼的不仅是清洗技术，还有企业的业务理解水平。

“任何数据都有利用价值，根据业务需求去分级是比清洗更重要的一环。而分级就考验企业的业务理解能力，理解越深，越知道哪些数据是重要的。”内容创作Agent厂商波形智能的CEO姜昱辰解释。

她用小说写作场景举例，文笔流畅优美并非高质量数据的重要特征，读者评分、浏览量等市场化指标才是最重要的数据质量标准。

“护城河”的另一堵墙，则是技术。

在Agent的构建上，仍有许多悬而未决的技术难题，其中不少源于“大脑”大模型。2023年6月，风投机构a16z在与4位AI独角兽CEO的对谈中就指出，目前的LLM需要解决不受控制乱说话的“幻觉”问题、长时记忆的前后一致性问题，以及增强多模态的理解能力。

不少从业者都对36氪表示，OpenAI开发者大会后，其他竞争者还有一段点对点突破技术难题的“缓冲期”，用技术解决方案去获客。

比如，波形智能选择突破的难题是：自研名为RecurrentGPT的增强记忆技术解决方案，提升大模型记忆力；同时，在解码阶段控制文本生成的循环次数，控制平方级增加的内存和推理成本。

再比如，人机交互界面的多模态探索，目前还是鲜有人涉足的领域。目前人机交互最主流的方式，仍然是输入自然语言。但落实到具体的业务场景，LUI（自然语言交互界面）的作用十分有限。“比如对门店经营状态的分析，往往要输入一段门店监控视频。”澜码科技CEO周健表示，“由于多模态技术处于发展初期，对图片、视频、图表等多模态UI的探索还很少。”

越用越亏，Agent商业化需求解

从实验室走向广阔的应用田野，是Agent的宿命。

今年，随着技术实现成为可能，Agent的商业化也正式迎来了爆发。比如在硅谷，至少有100个严肃项目在推进Agent的商业化。

然而，如何控制高昂的调用成本，是困扰不少Agent厂商的首要难题。

接入Agent后，所有需要处理的业务场景，都会转化成需要底层大模型理解的数据，产生高昂的推理成本。一个典型案例是，斯坦福的虚拟小镇框架开源后，每个Agent一天就需要消耗20美金的Token数，比用人成本还要高。

所谓的Token，是模型能够理解和生成的最小单元（1 Token≈750个单词）。张昊阳也算了一笔账：在游戏场景下，Agent的调用需要消耗海量的Token，成本高达人均1元/小时——一旦用户达到上万规模，企业就会很难负担成本。

Agent想要真正实现规模化落地，多个厂商都对36氪表示，Agent玩家们最先考虑的不是盈利，而是如何把高昂的推理成本转嫁给用户。

目前，无论是To B还是To C的Agent玩家，“Pay by Token”是最基础的一种商业模式。所谓“Pay by Token”的付费模式，就像用水龙头放水，用户使用Agent消耗了多少Token，就要支付Agent厂商相应的算力成本。

目前，To B的Agent厂商已经摸索出较为成熟的一套收费模式：定制/部署费用+Pay by Token。相应的，消耗Token所能产生的价值也有客观的衡量标准，比如节省的人力成本、增加的销售额、提升的办公效率。

但对于以游戏和社交产品为主的To C Agent应用而言，要让“Pay by Token”模式运作起来并不容易。Token的价值，需要转嫁到主观的产品体验，难以有衡量的维度，用户的使用和付费意愿并不能被保证。

张昊阳举了一个例子：目前主流游戏内付费手段主要靠通行证（月卡）、道具付费等手段，月卡玩家可以获得更多游戏内收益。生成式AI接入游戏后，在玩家付费意愿有限的前提下，如果不采取按量付费的商业模式，部分超高粘性的玩家游玩所产生的算力成本将变得难以承担。

这让To C的Agent产生了一个商业悖论：玩家越多、使用时长越长，公司反而亏得越多。

但C端难以真正商业化的核心原因，在于Agent还没有为用户创造新的需求。

以游戏为例，“目前大多数‘AI游戏’产品只做到了将Agent的能力应用于NPC对话，这并没有带来本质上的玩法创新，而是在用新技术提升现有体验。”张昊阳总结，“游戏接入生成式AI能力后，必须创造出新的游戏玩法，真正做到AI Native（AI原生），玩家才能真正为AI游戏买单。”

不过，即便付费模式尚未有定论，但在IP打造上，Agent已经显现出了切中用户需求的潜力。成立于2021年的Character.AI，用Agent打造的则是一个角色定制社交平台。今年，这个AI独角兽的App最高月活，已经达到420万。

图源：Character.AI

目前，不少厂商正在尝试为Agent增加数字形象，实现原来数字人无法主动进行的电话呼出、网络搜索等能力。更进一步，具有记忆力的Agent IP，还能与粉丝产生比肩真实追星体验的情感联系。

如今看来，OpenAI已经用GPTs为Agent热好了场子，但想让Agent真正飞进寻常百姓家，无论技术，还是商业化，都还有一段路要走。

36氪旗下AI公众号

👇🏻真诚推荐你关注👇🏻

来个“分享、点赞、在看”👇

AI Agent厂商重建护城河

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章