贫穷限制AI想象？｜硅谷徐老师对话前OpenAI模型专家

2023-08-18 13:08

编者按：

年初火爆一时的斯坦福 Smallville「虚拟小镇」现在宣布正式开源。在这个「虚拟小镇」中，研究人员添加了 25 个生成式智能体 (Generative Agents)，智能体由 ChatGPT 和自定义代码控制，每一个都有自己独特的身份、记忆和行为，并且可以独立交互，只是他们不会意识到自己是虚拟的，仿佛美剧《西部世界》里的剧情变成了现实。

本期「科技早知道」是硅谷徐老师与「OnBoard」的串台节目，邀请了两位曾在 OpenAI 工作的 AI 智能体研究领域的大牛，一起聊一聊硅谷人正在 all-in 的 AI 智能体，会把我们带入一个怎样的未来。

本期嘉宾

Jim Fan：英伟达高级 AI 研究科学家，曾在OpenAI实习，博士就读于斯坦福大学。

戴涵俊：Google DeepMind 研究员，博士就读于乔治亚理工大学。

▲硅谷徐老师、戴涵俊、Jim Fan 和「OnBoard」主播 Monica（从左至右）的合影。| 图源：硅谷徐老师

▲本文部分内容整理自播客「What's Next丨科技早知道」节目。更完整对话，请收听本期节目

AI 智能体离我们有多远

Jim Fan：虚拟世界与物理世界的 AI 智能体有相通之处，也有不同。如果我们需要一个 AI 助手，帮助我们查收邮件、预定会议，那让 AI 智能体参与进来的最佳方式之一是让它写代码，充分利用开源接口 API，把软件工具串联到一起，比如像 ChatGPT。而应用在游戏、机器人等方面时，就不仅仅是写代码，还要考虑计算机视觉等其他问题，要能让 AI 智能体看到一个完整的三维世界，因此多模态变得非常重要。

通用机器人要投入应用，还需要解决一个更有挑战性的问题——数据采集。机器人和 LLM 有一个重要区别，LLM 在训练大语言模型时，可以轻松从互联网上获取训练用的数据，数据量不成问题。但机器人不同，很多数据无法从互联网上获得，而是需要主动采集。数据采集有两种主流模式，要么是通过模拟器完成，要么是以量取胜，购买大量机器人。两种采集方式各有利弊。

硅谷徐老师：AI 智能体未来的成长空间非常大。但目前这个阶段，距离它落地成为成熟的工业应用，还有很长一段路要走。就好像今年三四月，AutoGPT 非常火，但没有人真正用 AutoGPT 做严肃的事。

戴涵俊：完成一件事需要多次迭代，在客户服务这样的场景中，延迟（latency）就是需要解决的棘手问题。

如何评估则是另一个需要考虑的问题。AI 智能体在使用工具时，需要将一个具体任务分解成无数个小步骤。比如我们现在让 AI 智能体帮我们订机票，它需要先找到正确的网站，然后输入正确的时间、正确的地点，这就跟强化学习有关，中间的每个环节最好都有反馈，在反馈中得到最优路径需要耗费比较长的时间。

当 AI 智能体在其中某个环节没能完成目标任务时，应该如何评估这些错误的行为和错误的结果，也是 AI 智能体需要具备的能力。比如，前面有一辆汽车停下来了，AI 智能体需要判断前面这辆车停下的原因是什么，进而选择自己的动作是停下还是绕道；又或者说，AI 智能体发现自己判断不了当前的情况，它是否需要联系后端的操作人员，请求人为远程干预来解决当前的情况。如何让 AI 智能体实现对各类工具的安全使用、合理使用，是有挑战的事。

Jim Fan：在很多领域，比如无人驾驶领域，安全性、可靠性都是至关重要的考虑因素。如果不能在这些方面实现 90% 或以上的保障，AI 智能体可能很难落地。换个角度，AI 智能体最容易落地的场景，应该是更强调创造性、娱乐性的场景，比如游戏。

游戏大厂其实对 AI NPC（non-player character）非常感兴趣，因为这能让玩家实现独一无二的游戏体验，像前一段时间有一个「病娇女友」的游戏，就是 AI-first 游戏，背后完全是通过 ChatGPT 做的。不过，目前还没有 3A 级的游戏大厂在大规模部署 AI NPC。

▲图源：Youtube 森零

Monica：如果未来 APP 变成 AI 智能体的工具，用户不需要知道 AI 智能体到底操作了哪一个 APP，那对于工具提供方来说意味着什么？SaaS（软件即服务，指一种基于云的软件交付模式）行业会受到什么样的影响？

硅谷徐老师：不管是软件领域，还是硬件领域，都一定会发生这个情况，可能硬件领域需要的时间会长一些。每一个企业服务商都会有自己的 Copilot（一个人工智能工具）产品，就算不是明年，也会在 5 年之内实现。对于写程序的人来说，当 Copliot 变成一等公民（first-class citizen）之后，需要考虑的问题会跟现在不一样，因为以后写代码文件也得考虑怎么写才能让机器人更好地学习。企业服务商最后是要做服务于 AI 智能体的产品，这也是一件解放所有人生产力的事。

戴涵俊：对于软件开发商来说，之前能直接面对客户，未来则是面对 AI 智能体这样的中间商，那软件开发商的积极性会受打击吗？软件商如何实现获利？

Jim Fan：能掌管生态系统、控制 API 的大公司，未来就会有巨大优势，比如说微软能控制自己背后所有的源代码，那微软 Copilot 在未来就拥有更大的优势。

▲图片来源：Microsoft

人才必然流动，阻碍定会变化

Monica：大家觉得现在大模型更像是一种炼金术，有很多可能，或者不足为外人道，或者就算告诉你了，你也很难去复刻。不过，既然人才是流动的，那与大模型相关的商业核心或者技术秘密一般能维持多久？

戴涵俊：从能力或者知识储备的角度来说，每个大厂在这方面的人才积累都是足够的，人才差距也不是很大。但是，很多时候哪怕是知道了模型的一些细节，也很难完全复刻，主要问题就是如何在小规模实验中不断尝试和积累模型调用的经验，以及如何在大模型中正确运用这些经验。大厂也需要花算力来学习这些知识。

Jim Fan：顶级人才基本上还是在 OpenAI 和谷歌之间互相流动。想要弥合闭源和开源模型之间存在的巨大差距，目前还比较难。

硅谷徐老师：从长远角度看，在硅谷的历史中，人才其实从来不会只困在几家公司里，包括OpenAI，也有人选择自己出来创业或者加入别的公司；也没有哪个产品是只有一家企业能做，其他公司都做不了的。

不同企业做同一个产品的条件有所不同，比如算力对 AI 企业来说是一个必要条件，那仅有人才优势的企业所拥有的竞争条件就是不充分的。但如果我们拉长观察的时间维度，仔细看过去百年中我们经历的每一个技术革命周期，就会发现，再贵的技术，只要能实现大规模生产，成本最终会大幅下降。最终来说，算力不会成为技术创新的阻碍。

历史总是不断被重复。对于一家企业来说，真正重要的不是寻找个别人才，而是打造能不断汇集各类人才的企业文化。3 年之内，前沿模型的优势会继续保持，人才流动可能也不会很快，但 3 年之后我们再看，可能会有其他因素变得更加重要。

对于一家企业来说，很多任务都不需要用最好的、最前沿的模型来处理，用开源模型就已绰绰有余。而对于像金融、国防这样的关键领域，不是所有数据都能想拿就拿，也可能必须要做一个领域专属的模型。

▲图源：Forbes

Jim Fan：哪怕是现在做闭源模型的企业，其实也会为合作伙伴提供微调服务，像 Anthropic、OpenAI。像 OpenAI 还有自己的基金，会投资一些感兴趣的创业公司，每家被投企业都可以看作是一个垂直领域。

举个例子，OpenAI 投资了一家为法律行业提供大模型服务的 AI 企业 Harvey，Harvey 可能在 AI 法律这个领域里有最好的前沿模型，也能为法律行业的合作伙伴提供微调服务。专注于垂直领域前沿模型的企业，对于合作方会挑剔一些，偏向与大企业合作，因为它们服务企业的能力会受限于自身芯片的数量。

戴涵俊：所以在企业应用中，有两个特别重要的思考点，一是成本，二是隐私。

第一视角看 OpenAI

Jim Fan：OpenAI 2015年成立，我 2016年夏天在 OpenAI 实习，那时候 OpenAI 还在探索期，AGI（通用人工智能）已经是 OpenAI 的一个口号，但大家还不清楚这条路要怎么走通。当时 OpenAI 觉得，让 AI 控制鼠标和键盘，就是迈向 AGI 最直接、最通用的办法。但最后这个项目因为泛化能力不足而被关停。同一时间，OpenAI 主要投入精力去做的项目，都是 OpenAI 觉得人类通往 AGI 可能要走的必经之路，有一个项目是准备在 Dota 这款游戏上赢过人类团队，还有一个项目是做能解开魔方的机械手。

同样是在2016年，OpenAI 里已经有人借助 Reddit 的数据来训练聊天机器人（Chatbot）了，用回馈式的神经网络来预测下一个单词是什么，当时还没有 Transformer（一款利用注意力机制来提高模型训练速度的模型），训练效果也不是很好。这个项目当时在 OpenAI 内部的优先级并不高，也没有投入很多算力，但这个项目就是后来 GPT 的雏形——GPT0。

戴涵俊：我是 2018 年进入 OpenAI 实习的。刚刚提到的这些内部项目，在 2018 年已经很有成效了。比如 Dota 那个项目，能跟比较头部的选手打得有来有回。我当时的组就是要让模型更快适应新游戏，用少量样本完成新知识的学习、新能力的积累。

那时 GPT 项目已经进展到 GPT2，相关论文在外部评审中也收到了很多反馈，有一些批评是比较尖锐的，中间项目也有不顺利或者走下坡路的阶段，但 Sam Altman 等人的决心没有动摇，团队坚信通向 AGI 是正确的事情。另外，ChatGPT 最先对公众开放，收获了很多重要数据，因而迭代速度非常快，这就是量变引起质变。

▲图源：Wired

硅谷徐老师：2015 年 OpenAI 成立时，我觉得 ChatGPT 实现的时间点在 2030 年左右，因为我认为这是要十几年才能实现的事。大概在 2020 年，GPT3 出来了，对我来说是很大的惊喜，GPT3 在当时所展现的基于文本的学习能力，比预期出现时间要早好几年。这样的技术跳跃让我觉得，ChatGPT 会在更短的时间内出现。

Jim Fan：从我 2016 年开始关注 OpenAI 的每一篇论文起，GPT3 对我的震撼也是最大的，其次就是 CLIP （一种基于对比文本—图像对的预训练模型）和 DALL-E（一款可以根据书面文字生成图像的人工智能系统）。这些产品开创了一个新纪元，堆更多的算力，然后把互联网上所有（公开）数据都拿来做训练。如今想来理所当然的事，跟当时的主流做法是不一样的。当时的学术圈因为贫穷而限制了想象，OpenAI 的做法提供了全新的思维模式和技术范式。

▲图源：The Times

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章