【文字精华】OnBoard! x 硅谷徐老师|生成式AI系列4：对话微软大模型专家：GPT是否是通用人工智能的下一步

公众号新闻

2023-05-26 13:05

采访｜Monica，硅谷徐老师

文丨含之，Ryann

编辑丨Amanda，徐涛

🔽 欢迎大家在各个播客平台上关注 OnBoard!

编者按：

在 GPT-4 引起一波热潮后，人们可能会想知道下一步将如何发展。

对此，恐怕没有比行业内的科研人员和实践者更有资格做出推测。例如他们比任何人都了解 GPT-4 获得的飞跃以及目前依然存在的限制，他们也还在研究如何让 GPT 具备更好的推理能力，下一步需要如何迭代，如何运用到更复杂的场景中等等。

因此我们组织了这样一场对话，参与对话的专家横跨太平洋两岸，有企业界的也有学术界的。他们是：

硅谷徐老师，硅谷连续创业者、人工智能高管、斯坦福商学院客座讲师，「科技早知道」主播｜推特：@H0wieXu｜微信公众号：硅谷云｜ AI博客：howiexu.substack.com
张弋，微软亚洲研究院高级研究员，主要研究方向为通用人工智能的物理、数学，《Microsoft researcher，Sparks of AGI》论文作者之一
谭旭，微软亚洲研究院高级研究员，主要研究方向为生成式人工智能及其在语言/语音/音乐生成中的应用，《MSRA researcher, HuggingGPT》作者之一
红博士，某 AI 公司研发总监，研究方向：计算机视觉、数据压缩、通用人工智能。公众号：红博士说
Monica：美元VC投资人，前 AWS 硅谷团队+AI创业公司打工人，公众号：M小姐研习录主理人 | 即刻：莫妮卡同学

🔽 文字有删减和整理，欢迎在小宇宙、Apple Podcasts、喜马拉雅等音频平台收听完整音频

GPT 出现，人类才真正有意义来讨论到底什么是智能

Monica：最近业界有一篇非常有影响力的论文，是张弋博士所在的微软亚洲研究院发表的「 GPT-4：通用人工智能的火花」，有 150 多页，对 GPT 的能力进行了深入研究。能介绍一下这个研究吗？

张弋：首先给大家介绍一下研究背景。去年，微软和 OpenAI 在 GPT-4 上有一个绝密的合作项目，在此期间，我们优先拿到了 GPT-4 的模型，比公开的 GPT-4 模型能力更强。我们的论文就是基于这个模型。

当时我们觉得 GPT-4 确实比 GPT-3 看起来更厉害，例如可以把《纽约时报》的风格拷贝过来，或是可以完成很多任务。但我们就问自己，这到底是不是智能？

因此我们就想了一些任务，主要是通过一些数学题来测试。之前 GPT-3 是无法答出来的，但令人震惊的是， GPT-4 基本上完美地解决了我们以前觉得人工智能不太可能解决的那些问题。

为什么 GPT-4 就能解决这些问题，我们内部其实也有分歧。一部分人会觉得可能是它在网上见过类似的题，另外一部分人就觉得这个网上一定没有，它是自己解决的。我们越想越多，最后所有人都认为它确实很厉害，可以称得上是有智能。

但接下来的问题是，它到底是不是 AGI，是不是通用人工智能？

这个值得商榷。因为其实现在学术界对 AGI 这个词有一点「过敏」。但如果我们抠字眼，AGI，artificial general intelligence，那 GPT-4 它确实是 artificial，然后它是 general 的。

并且我们发现是非常地 general。虽然 OpenAI 说他们可以处理图片，但我们拿到的只是纯文字版。我们发现这个纯文字版的 GPT-4 它竟然能够「看见」。我说的「看见」是指，你让它去画一个东西，它可以给你画出来，虽然不完美，但甚至可以按照你的要求在某些地方加上细节。

一个例子是我们让它画了一个独角兽，它画出来了。这个很震惊，对吧？它从来没有见过独角兽，它可能读到过类似的代码，现在就画出来了。但是我们还不满意，因为它有可能就是备注了这个代码对不对？我们就又改了一下，我们把独角兽代码里画头和画角的那部分去掉了，然后我让它把头上的角再加回去。

这就是考验模型的时候了，考验它到底知不知道它画的是什么？它到底知不知道独角兽应该有一个角，而且这个角要长在头上，它才叫独角兽。结果发现模型完全知道它在干什么，它不仅把这个东西画出来了，而且完全知道我每一行代码的每一个地方画的是什么东西。

刚刚我们说它是 artificial 的，是 general 的，那它有没有 intelligence？

对于 intelligence 历史上也没有什么很好的定义。我们在论文中也有谈到，可能人类到现在这个时候才真正有意义来讨论到底什么是 intelligence，因为我们现在是真真切切地有一个模型，每天跟它互动，发现它展示出了很多跟人非常相似的高级推理能力。那这个时候我们才需要这个好好想一想，我们在如何定义 intelligent 这个事。

所以我们在论文中也说，这个东西它可能已经展现出了很多 AGI 的特质，虽然不完美，但它好像是在告诉我们说，沿着这条路走下去，我们终于可以看到终点了。

大部分人，包括我自己，两年前看到 GPT-3 的时候，我还会觉得这辈子可能都不太能看到 AGI，可能 50 年内都不太能看到 GPT-4，但两年内居然就发生了，而且这只是一个开始，之后的发展速度只会越来越快。

Monica：那论文中提到模型还有哪些限制或者有挑战的地方吗？

张弋：我们比较关注它的推理能力。有一点明显的不足就是在于它无法做规划，无法先试错。

比如说它进行一个任务，可能一开始会不知道怎么办。作为人类我们可以说先往前走几步试试看，对吧？不行我们再退回来。但模型它只要把这个字写下去了，它就存在于这个模型的 input 里了，它是没有一个橡皮擦把它擦掉的。

举个例子，我们让模型来证明一个数学定理。其实顶级数学家证明的时候，也很少一次就证明出来，会试好几种方法，最后找到一种成功的，但写论文的时候并不会说之前试了了 100 种方法，失败了什么，并且在哪儿失败的。模型在处理的时候会直接吐给你一个答案，然后再假装写很多步骤，一般说来这种 99% 都是错的。它没有一个试错的过程。

硅谷徐老师：我觉得你说的这个试错这个观点是很对。但从另外一方面我想提到大模型的错误，就是我们经常会批评大模型的 hallucination，幻觉。

张弋：对，我们有个很有意思的例子，是问 GPT-4 一个东欧小国人口最多的 10 个城市。

限制于 bing 的搜索 API，返回给 GPT-4 的只有 5 个城市，因此 GPT-4 就把前五复读了一遍，都是对的，但第 6 个开始就自己想象了。它有一半的事实，剩下一半的事实有点模糊，其实跟人一模一样。人说话可能也就是 90% 非常确定的事实，然后再加 10% 的假话。这个问题我们到最后都没有解决得很好，我们觉得这可能要以后在数据或者在模型训练这些层面解决。

谭旭：人类对比 GPT-4 的 hallucination，的确感觉是可以类比的。

我们通常说人学习有 4 个经典阶段：不知道自己不知道；知道自己不知道；知道自己知道；不知道自己知道，当然这一步已经顿悟了。

那其实可能现在 GPT-4 估计还是处于最早的阶段，就是我不知道自己不知道，所以它就自己天马行空地生成，或者在 decoding，逐步解码。

那有什么样的机制让他能够知道自己不知道？

如果单纯从模型的角度，很难让它知道哪个东西是错的。所以还是要回到人的学习过程，比如说小孩子可能什么东西都不懂，需要更多的反馈，比如在家庭、学校和社会去跟其他人互动并获得反馈。这就涉及到新的模型训练机制，比如说具身人工智能。

红博士：其实更本质的一个解决方案还是从模型下手。

当模型输出一个人类认为不够完美的答案的时候，我们只是惩罚了一下这个模型，但是并没有告诉他到底哪错了哪对了，方法上还有非常多可以挖掘的地方，从基础模型上来解决错误的问题。

张弋：我非常同意这一点，还有就是怎么检测模型它处于一种什么状态。

我们现在拿不到 GPT-4 内部运算的数据，比如每一层的输入输出。但假设我们能拿到，我们能先在小模型上做这件事情。如果它出现错误，能不能通过内部运算的结果来独立训练一个 classifier （识别机制）？可以告诉我这个模型现在很有可能在胡说。我现在还没有看到太多的结果，但我觉得是非常有意思和很重要的一个领域。

Monica：最终实现我们所期望的 AGI 或者智能，还有哪些限制？

谭旭：现在的 GPT-4 模型更多是做数据的频率统计，然后做一个 pattern （模式）的映射，中间没有完整的推理过程。当然，现在有些机制强制它去做慢思考，把中间的步骤都拿出来。

但我觉得本质上现在的模型还是在「喂数据」，对是否有一个能够实现推理的计划，或者认知一些逻辑上面的技术方法，不是特别清楚。

张弋：我觉得现在模型犯的很多错是因为它思考得太快了，第一句话就先把答案吐出来。

但问题就在于训练数据就长成这个样子，比如说大家在网上看到那些文章，一定是先把结论告诉你，这样别人才会想往下读。除非我们能改大规模地修改数据结构，我们就能改变这个问题。但是我们不知道怎么做。

还有一个一定要解决的，就是实现真正的多模态。因为我的想法是这样，就比如说一个小孩子，他通过视觉收集信息，是他成长过程中最重要的信息。

这样的数据从哪里来？

▲ImageGPT｜图片来源：OpenAI

人类最大的数据库就是 YouTube 上面的视频，而且很多视频的质量非常高，比如说教大家怎么写代码，教基础数学。怎样用好这些非常高质量的人类的视觉信息，帮助模型更好地推理，这个事情我们必须得解决。但是就是视频数据它太贵了，1TB 都存不了几部电影。

让 GPT 处理更复杂的任务

Monica：谭旭是《Hugging GPT》这篇论文的作者，给大家介绍一下 Hugging GPT。

谭旭：Huggingg GPT 的核心思想是应用于，比如多模态的或者更加长链条的一些任务。它利用语言模型作为一个调度的中心，通过解析用户的请求，把它分解成不同的子任务，去调用一些专家模型来分别执行这些子任务，把结果汇总起来，整理成最后的回复返回给用户。

当前开发的一些系统，都是面向单个任务，比如说图像识别或者文本的生成、检测、语音合成。但往往我们需要的是一个长链条的或者很复杂的，更面向用户实际需求的能力。有很多复杂的场景，只要我们的语言模型足够的强大，它可以把复杂的用户需求拆解成 AI 可以实现的任务。

硅谷徐老师：Hugging GPT 和另外一个比较火的 Auto-GPT 比起来，两者有什么不同？

谭旭：Auto-GPT 主要是围绕语言模型构造 prompt，让 GPT-4 自己可以运行起来处理复杂问题的系统。Auto-GPT 最初主要想用 GPT-4 优化商业决策，赚更多钱。它可以参考互联网信息、历史对话等等来生成最终结果。

Hugging GPT 这种语言模型只是一个大脑，负责调度决策或者整合，具体任务的执行还是交给其它专家模型，这些专家模型可能是语言模型，也可能是别的模型，然后一起形成一个协调的系统，相互配合完成一些复杂的 AI 任务。

硅谷徐老师：核心思想就是 Auto-GPT 是调用各种 API，让它能尽量把这个问题完成得越多越好；而Hugging GPT 只是一个大脑，然后大量的其他事情是大脑之外在做的。

谭旭：对，我觉得这也是我想谈到的，就是范式的转变。

我们看到 AI 的解决方案经历了不同的范式。比如早期我们有专家系统，后面我们有些统计机器学习的方法，到后面我们有深度学习的模型，到这几年我们有 foundation 的大模型。那也许再往下一代就是基于 foundation 模型，然后去连接各个领域的专家，然后解决更复杂、更实用的问题。

硅谷徐老师：既然聊到这一点，我想知道你觉得各行各业有必要去自己做一个 foundation model 吗？还是说一般来说现在这个 foundation model 已经足够了？反正你自己微调一下也可以。

谭旭：如果我们选择的系统，未来是大语言模型作为大脑，然后每个领域的专家模型作为具体执行角色，它更多可能需要我们对这个场景下面的大语言模型，有决策调度和任务拆解的能力。

每个领域的专家模型我相信不会有太大问题，因为每个领域自己的一些模型都深耕了很久。那对于大语言模型本身来讲，它是否能够迁移到每个领域都能做得这么好？这个能力也许并不是重头去训练一个语言模型，而是可能去微调它，让它更理解这个领域所涉及到的任务，并且去拆解、规划和执行。

张弋：但现在最大的瓶颈就是在这个地方。

学术界不知道怎样能够让模型微调之后，能学到新的知识，同时又不把旧的给忘了。这就导致现在微调的时候大家都非常非常小心，特别是你的领域需要机强推理能力的时候，微调可能就不是一个很好的选择。

但我个人觉得这只是一个技术层面的问题，随着时间推移，大家经验越来越多，可能会找到一个比较好的办法。

我个人觉得不是各个领域都需要一个 foundation model，这主要是从成本考虑的。就 GPT 来说，微软注资了 20 亿美元， GPT-3 之后微软还投了新的一笔钱。大部分公司没法承担如此高成本和高风险，目前只有 OpenAI 一家公司做出来这么厉害的产品。

其实现在去训练这种大模型，地球上的资源可能是不够用的。GPT-4 是在英伟达 A100 基础上训练出来的，微软的 Agic Cloud 利用全球大部分的 A100 ，但还是会不够用。所以，从资源和资金方面来说，不太可能每一个领域都有大模型，想办法把 fine tune 做好更现实。

硅谷徐老师：随着硬件质量提升，大家也找到各种方法优化训练，可能五年、十年之后大模型烧钱的局面会发生改变，产业界会有更多公司有实力去预训练。

谭旭：对，我觉得这个话题也挺有意思的，就是猜测业界有没有挑战者，或者是多长时间能够追赶上，或者差距会有多大。我觉得可能从两个角度来理解这个问题。

我们可以来反观一下，比如说为什么 OpenAI 为什么这样大的优势，可能两个点，一个点是资金，一个是团队的使命。

资金方面，它作为头部公司，可以有源源不断的资金继续去投入。我看到有说未来还要融资上百亿。团队使命方面，我觉得和别的公司相比，它的目标明确，上下一心，执行力非常强，会比大公司里还需要各种协调沟通甚至竞争的那种强很多。

但另外一个角度就是，我们是否在实现 AGI 的路径中只有大语言模型这一个赛道，还有没有别的一些途径？比方说现在大家关注的多模态，或者具身人工智能的方式，甚至是机器人的方式？那可能就会弯道超车。

如何打造更好的行业生态？

Monica：我好奇大家有没有考虑过，到底怎么样才能够真正打造好这个生态？

硅谷徐老师：我觉得易用性很重要。

比如 Pytorch 之所以能够后来居上，能够现在基本上超过 Tensorflow，有很大的一个原因就是易用性。那再看其他领域，其实也是一样。

还有一点是开放性，我觉得易用性、开放性这些所谓的肤浅的东西，其实是决定了很多的技术的发展。当年 Windows 打败 IBM 的 OS/2，也不是因为技术上的原因。这种例子是一代一代的，历史是在不断地重演。

Monica：我们怎么把 AI 的技术应用到我们的日常生活中，它带来了哪些新机会，同时又有哪些挑战？

硅谷徐老师：行业内外的人都在关注 ChatGPT，但我觉得世界 500 强公司或全世界最大的 2000 家公司，在短期内真正用到 GPT 技术，用到大模型的，其实不多。

每个公司的 CEO 都在说、都在想，但要把这件事情做成其实不容易的。因为如果光是依靠 ChatGPT，它并不能告诉我公司下一步发展应该怎么样。商业决策的生成需要有大量的数据去喂给它，前提是一个公司的数据能够打通，是数据驱动的，然后要有信念和一定的执行能力去把这件事做起来。这是一个痛点。

另一个痛点是合规性问题。比如说 ChatGPT 现在能够写代码，但绝大多数的财富 500 强公司是不会让 ChatGPT 来写代码的，因为公司并不知道以后会不会有法律上面的纠纷。

但也有一个激动人心的方面，就是现在的大语言模型原生的公司都是这个时代生长出来的。我们可能都知道一个数据，就是财富 500 的公司大概每隔二三十年就大致会轮换一圈。

30 年前财富 500 强的公司，没几家今天还在这个行列。这个轮换速度在过去五六十年越来越快。我觉得在 AI 时代、大模型时代，这个轮换可能会更快，完全有可能过了 15 年，今天绝大多数我们知道的财富 500 强公司就不在这个榜单里面了。

张弋：现在虽然好像所有人都在谈 GPT-4，但是大家用得很少。

▲图片来源：ZDNet

对普通用户，好像现在还有每小时访问次数的限制，这就导致这个模型即使很强，也没有办法放到日常生活当中去。即使在微软，GPU 资源为了支撑各种 GPT 模型其实已经非常吃紧了。然后就是市面上怎么买到更多的 A100 或者新的 A100 的问题。

现在所有的都是以英伟达一家公司为基础，然后英伟达以台积电为基础，台积电以 ASML 为基础，一环扣一环，想提升产能非常非常难，这不是有钱就能买得到的。

所以大家想用好这个模型，并且能够广泛地用，我们必须得把它做小，或者是把它做快、更便宜。因为现在已经到了整个地球都拿不出足够的 A100 让所有地球人使用的这么一个奇怪的场景了，一年之前没有人会想得到。

之前我听说微软在给 OpenAI 建一个新数据中心的时候，他们还在考虑要放在美国的哪个州，因为大部分的州的电网无法支持一个如此强大的数据中心。

Monica：对于 AI 的未来，你们个人觉得最让你们觉得兴奋的点在哪？

谭旭：我认为有一个点，就是要有理想主义和现实主义的区分。我们讨论 AGI ，我觉得更多是在强调理想主义，我们能不能达到完全的人类智能。

但是现在，即使 GPT-4 这种模型没有完全实现 AGI，但是它已经解决了大部分的问题，已经产生了非常大的影响，而且帮到各行各业的提升效率。

在这种情况下，是不是达到了 AGI 其实已经没有那么重要了，只要能提升现在的一些生产效率，我觉得目的已经达到了。

我觉得在未来一段时间内，沿着现在大语言模型的方向往下走，应该是能够有几点方向，第一个是多模态，第二个是和世界交互，第三个是偏向行动，或者说机器人、具身的人工智能，这种方向往下应该会有一个大的突破。

张弋：我可能关注的问题更学术一点，就是怎么样更好解决大模型现在的这些问题。

解决好这些问题之后，应该它能有一个质的飞跃，就是在现在的基础上，甚至还有一个质的飞跃。那个是什么呢？我们现在都不好假设，也猜不到那是什么。比较希望看到的就是，在未来的很短时间内，大家能够逐渐打开大模型训练的黑盒。

红博士：在 AI 领域是有很多前沿的科学问题需要研究的，包括模型本身的，比如说数据。

到了现在这个时间点，扩大规模这件事已经变得越来越困难了，我们需要静下心来去看一看这些更加精细的科学问题的：包括模型本身的数据，也包括算法有没有比 transformer 更好的架构，有没有更好地去解决长记忆的问题的方法，还有一些很重要的可解释性的研究。

我们得知道什么东西是记忆，什么东西是泛化，然后在什么阶段模型会倾向于去记忆，在什么阶段开始去做泛化，然后记忆的水平和泛化的水平，在训练的每一个阶段是怎么变化的。我们得去理解训练好的这个模型，当我们理解了以后，我相信我们会看到很多新的提升的手段。

还有一个很重要的是 AI for science，其实人类的科学家是比较少的，顶尖的科学家就更少，如果一个 AI 能够成为科学家的助手，甚至超过科学家的认知水平，它是否能够快速地推进我们科学的进步？

比如说在生命科学领域、材料领域等等。目前的 AI 技术，它有点像从人类知识里面去做蒸馏，它在学人类的知识、人类在互联网上留下的知识，人类有多少知识，它就有多少智能。那怎么样让它能够获得更多的智能呢？

还是需要人类在科学上有更多的突破，比如说去做更好的观测仪器。我非常希望可以有更多的人参与研究 AI，或者是把 AI 用于解决科学问题，这样我们可能可以获得人类有史以来的最大复利，一个可以无限复制的、很强的人工智能，从而推动人类文明的进步。

以上就是我们本期播客的全部内容，今年我们将继续走访优秀 SaaS 公司，AI 技术大牛，继续我们的走心分享与硅谷干货连线。如果有听众感兴趣的公司与话题，请在评论区给我们留言，并分享你的感想！

快到你听播客的平台上订阅OnBoard!

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章