现场围观 | 黄仁勋对话Transformer论文作者：世界该给Tranformer翻篇了

2024-03-22 02:03

作者｜张潇雪
邮箱｜[email protected]

英伟达GTC大会当之无愧的重头戏，也是黄仁勋除了自己的主题演讲外唯一参与的环节，真真是万众期待的一场世纪对话，来了：

今天上午，老黄亲自领衔七位Transformer发明人、开山巨作「Attention is All You Need」作者一起登台，带来「Transforming AI」主题小组讨论。

全场最大的会议室门口，慕名而来的人流也是前所未见。提前1小时已经被围得水泄不通，导致会议不得不延迟开始，完全像是巨星见面会。

2017年，谷歌的八名研究人员联合发表具有里程碑意义的「Attention is All You Need」论文，引入变压器模型和自注意力机制，让NLP一夜之间变了天，人工智能领域从此不同。这篇论文也是成就后续许多大模型的奠基之作，可以说没有Transformer架构，就没有今天的ChatGPT、Claude、Gemini...

这八人后来已先后离开谷歌，各奔东西。这次除Niki Parmar因紧急原因未能到场外，七人都在黄仁勋的召集下合体GTC大会。是老友重聚，更是他们史上首次在公众面前同框——足见黄仁勋和英伟达现在的势不可挡的影响力，以及如日中天的行业地位。

而他们之中，除一人去了OpenAI，其余七名都选择投身创业。手中又诞生了Character.ai, Cohere, Essential AI, Inceptive这些我们耳熟能详的AI独角兽和当红公司。加上黄仁勋，造就眼前这个公司总价值巨壕的阵容。八仙同台，有种传说照进现实的感觉。

整场对话围绕机器学习模型和AI技术的“昨天、今天、明天”。七位「Transformer Mafia」共同追忆了那篇明星论文的诞生故事，讨论从变换器架构提出到现在的7年里模型的发展水平，也各自讲述了自己离职谷歌的原因和创业秘辛。并且对未来模型探索方向，包括推理能力、数据来源、小型模型、评估标准等各个层次的预测。

黄教主第一个从粉丝簇拥中走出，上来就笑着感叹：“今天排队的人好多！这间会议室和两个休息室全挤满了，等会儿他们一进来就得是一场混乱。”

他再次强调现在是「新工业革命的开始」。英伟达从计算机图形到专注加速计算，再到将GPU应用于AI，大幅降级了人类计算成本，如今迎来了不可思议的生成式人工智能。

“这种从任何数据中学习的能力是极其变革性的。在这场新的工业革命中，我们将生产出前所未有的产品。就像以前的流水线工厂会用发电机把原材料转化为有价值的产品那样，在前所未有的人工智能工厂中，原材料是数据，我们所说的GPU系统就是发电机。数字进入再产出，并且应用到各行各业。这都是从未存在过的，但我们正在见证这一切发生。你绝不想错过接下来的10年，令人难以置信的新能力将会出现，而这一切都源于一些研究人员。

今天,我们邀请到了一个名为Transformer的机器语言模型发明者们，我们就以会客厅式的方式和他们聊聊。”

黄仁勋还打趣说，刚刚在后台大家开了一大堆深度学习笑话，也有好多争论。不如就把嘉宾请上来，一起看看话题会引向何处。

在对七位Tansformer发明人依次介绍时，他又喃喃自语道，“全是CEO，这些人的公司名字里怎么都有AI这个词。其实我也早就把A和I两个字母放在NVIDIA，只是顺序没弄对。”

请出在OpenAI当Member of Technical Staff的Lukasz kaiser时还说：“天哪Lukasz，上台吧，你是现在唯一还坚持做工程师的人，你是我的英雄！”一身的幽默功力引发全场爆笑。

接下来，硅星人就在GTC前排带大家一起，见证这场传奇对话:

1．哪些挑战催生了Transformer和「Attention is All You Need」？

黄仁勋：首先，他们从未同时在同一个房间里相见过。

这个 ‘work from home thing’现在已经失控了！但它没停止创新的脚步。很高兴今天能见到你们，我们会讨论transformer重要的工作意义，令人难以置信的变革能力和对行业产生的深远影响。正如我之前所说，我们今天所享有的一切，都可以追溯到那个重要时刻。事实上，我们能够以序列和空间的方式从大量数据中学习，发现关系和模式，创建出这些庞大的模型，确实是变革性的。

等会儿你们可以互相打断，互相交谈，如果意见不同，可以互相抗议甚至起身离开，今天没有什么禁忌哈哈。但回到最初——你知道作为工程师，我们需要有问题来激发灵感——是什么问题让你们挣扎，促使你们产生transformer的想法?

Illia Polosukhin：我想每个人面临的问题都不一样。但对我和我们团队来说，我们当时在研究问答系统。非常简单，就是在谷歌上提出一个问题，它给出答案，而且谷歌有要求延迟极低。因此如果你想让实际的模型去搜索数据、阅读成吨的文件，需要做到极快速地处理。而当时的模型和RNN网络无法做到这一点。

Jakob Uszkoreit：当时我们正处在一个生成训练数据的速度远超实际训练模型速度的时期。实际上我们用的是更简单的架构，只是用前馈网络和n-gram作为输入特征，因为它们在谷歌级别的训练上速度更快。所以看起来解决这个问题是很有价值的事情。

Noam Shazeer：我们在2015年就已经看到了这种规模效应。你可以看到模型越大，它就变得越聪明。这是有史以来最简单的问题，你只是在预测下一个token。它会变得非常聪明，能够做出100万种不同的事情，你只需扩大规模，让它变得更好。

一个巨大的挑战是，处理RNN确实痛苦对吧？所以当我无意中听到这些家伙在谈论，嘿，让我们用卷积或者自注意力取代它吧！我想，太好了，我们就这么做！这就像蒸汽机和内燃机的区别。我们在蒸汽机上做了各种改进,但效果一直有限。而内燃机出现后,情况就大为改观。我们仍在等待核聚变，这就是下一波革命性突破。

Ashish Vaswani：我想，我一直被这两个教训所提醒，尤其是在transformer时期。当我在读研时从事机器翻译时，我就意识到梯度下降训练的模型是一个比我更好的老师。所以我不再学习语言规则，而是让梯度下降替我做这件事。另一点是，可扩展的通用架构终将赢得长期胜利。今天是tokens，明天可能是我们在计算机上执行的动作，它会开始模仿我们的活动，自动化我们大量的工作。

所以正如我们所讨论的，transformer的自注意力机制具有极大的通用性，能让梯度下降发挥最大效用。第二个感到高兴的是物理方面的，我们随着时间推移不断优化神经网络结构和算法，以适应加速器。所以我们把这些因素结合起来，这种模式一直在重复。每当我们有新的算法突破时，它都学得更快更好。

Noam Shazeer：就是这样！整个深度学习领域都是如此，我们每次都是在构建一个适应GPU特性的AI模型，而不是反过来的。所以现在我们实际上是在为超级计算机构建人工智能模型，你们都懂的哈哈。

黄仁勋：只是友情提示，我们正在做适合新模型的超级计算机。

（大家：是的，对，哈哈哈）

黄仁勋：另外几位当时在试图解决什么问题？

Lukasz Kaiser：必须是机器翻译问题。5年前这看起来是如此困难，你不得不收集数据，也许它会翻译，也许会稍有错误，总之处于最基线水平。但现在这些模型，它自己就能学习，只需指定源语言和目标语言，就为你自动翻译。

2. 论文标题和「Transformer」名字的由来，7年前已有多模态构想

黄仁勋：是什么初衷让你们起了「Attention is All You Need」这个论文标题?

Llion Jones：是我想出来的哈哈。基本上当时，我们正在寻找合适的标题，我们只是做一些消除操作，试着抛弃模型的一些部分，看看性能会变差多少。但令我们惊讶的是，包括扔掉所有卷积部分后，效果反而更好。所以标题就是这样来的。

Ashish Vaswani：有趣的是，我们实际上是从一个非常简陋的东西开始的，然后添加了其他部分，比如卷积，但后来又将它们移除了，还有诸如多头注意力之类的重要部分。但当时我正在看一部名为《The Man From Earth》的电影，不知Llion你有没有看过？讲的是一个人居住在一个宇宙中，那个世界已经没有甲虫（Beatles）存活了，我想知道在那个宇宙里我们的论文应该起什么名字。

（“Beatles”是Transformer模型选择正弦函数作为位置编码机制的一种俏皮称呼，受披头士乐队一句歌词启发）

Llion Jones：不知道，先生（笑）。

黄仁勋：听着，这很重要，transformer是怎么来的，你们还考虑过哪些其他选择？为什么叫transformer？顺便说一句，这个是个很棒的名字。

Jakob Uszkoreit：我的意思是它很符合所有模型做的对吗？Transformer形式，即在输入和输出之间进行转换，而不是使用序列模型那样的逻辑架构，这就是机器学习的本质。

黄仁勋：几乎所有的机器学习模型都涉及转换。

Jakob Uszkoreit：之前竟然没人用这个名字！

Noam Shazeer：我当时觉得这个名字太简单不喜欢，结果后来每个人都觉得它挺好。

黄仁勋：你想了哪些名字？

Noam Shazeer：哦！我想了很多，比如「Google Cargo Net谷歌货网」，「recognition辨认器」，「convolution卷积」等等。

黄仁勋：天，太可怕了。我很高兴你被否决了。

Llion Jones：我认为这样一个广义的名字是合适的，因为在论文里我们并不仅仅关注于机器翻译，而是清楚意识到我们正在努力创造一种非常通用的东西，可以将任何东西转换为任何其他的东西。当然我们没有预料到它最终表现得如此之好。

黄仁勋：是的，当transformer被用于图像时是很惊喜的。你可以把图像切块标记每个加载权限。这种标记化的处理方式从一开始就体现在架构中了，很符合你们的逻辑。

Aidan Gomez：当我们在构建Tensor库时,我们真正关注的是大规模和积极的训练。它不仅仅是为语言服务，里面也包含了处理图像、音频和文本的组件，无论是输入还是输出。虽然Lukasz之前说他主攻的是翻译，但我觉得他低估了自己。因为我们现在看到的多模态融合的理念，当初就已经萌芽在Transformer库中了，那正是Lukasz要找的。

Lukasz Kaiser：我当时没找到…

Jakob Uszkoreit：那可是5年前啊大哥！现在有了。我是说，那篇纸质论文统治了现在的模型。

Aidan Gomez：是的，尽管前5年确实进展缓慢，但自注意力机制想法很早就有了，只是渗透需要时间。Lukasz当时就有一个明确的目标，让模型在所有这些学术数据集上训练，包括从图像到文本、文本到图像、音频到文本、文本到文本等任务。他觉得我们需要在所有东西上训练。

这种想法是现在一切的驱使，真正推动了我们努力对整个网络进行建模。OpenAI已经在这方面取得了成功，现在我们许多人都在做类似的事情。所以从第0天开始，我们就将这个北极星般的目标种在了脑海里，看到它逐步实现、开花结果是令人感到兴奋和被肯定的。

黄仁勋：有趣的是，有那么多知识并不局限于翻译，而是从图像到文本、文本到图像等等。Transformer的想法确实具有很强的通用性。事实上Jacob，你在将它应用于生物学。

Jakob Uszkoreit：是的，或者我们喜欢称之为"生物软件"。这类似于计算机软件，生命起源于一段程序，然后被编译成可在GPU上运行的东西。在我们这种情况下，生物软件的生命周期始于对某种行为的规范说明。比如你说，“到细胞中产生特定数量的蛋白质”，然后使用深度学习将其翻译为RNA分子，一旦分子进入细胞就会展现出这些行为。所以这种想法不仅能将英语翻译成计算机代码，还能将传统医药数据中的规范转换为实际的分子结构和药物。

黄仁勋：那你们是否创建了一个巨大的湿实验室来生产所有这些东西呢?

Jakob Uszkoreit：你必须在自然界中进行实验验证对吧？虽然有大量极其宝贵的基因组公开数据可下载，这主要是因为公费资助的缘故。但你仍需要重新关注，并明确定义你试图建模和在产品中应用的那些东西。比如mRNA疫苗中的蛋白质表达。

黄仁勋：这确实是个很好的例子。

Jakob Uszkoreit：在palo Alto，我们这里有一大群机器人和穿实验服的人，他们之前是生物学家。但现在我们认为自己是在开创新事物的先驱，我们致力于创造那些数据并验证模型。

3. 从Transformer问世到现在的模型发展，进步空间

黄仁勋：所以Aidan，你说一开始就有了那种通用翻译和通用学习的想法，那么在基础transformer设计之上，你们看到了哪些主要的架构修复、增强或突破性进展，是非常有价值的额外贡献呢?

Aidan Gomez：我认为在推理方面，人们已经做了大量工作来加速这些模型，提高效率。但我仍然觉得有些不安，现在还是离我们最初的形式太相近了。我觉得世界需要比transformer更强的东西。我想我们所有人都希望能有新的突破，登上新的性能高峰。我想问在座各位，你们认为接下来会有什么新的进展？因为这将是令人兴奋的一步，现在与6、7年前的情况太过相似了对吧?

Llion Jones：是的，人们对它的相似程度感到惊讶。而且大家确实喜欢问，接下来会有什么新的进展？如果我能魔法般地知道，那就该上报刊头版了。但我通常是这样回答这个问题的，这种事物进展的一个重要事实是，你不仅需要变得更好，而且必须明显更好。因为如果只是略微得好，还不足以让整个AI行业转向新的东西。我们仍然停留在原始模型上，尽管从技术上讲，它可能已经不同于我们现在拥有的最强大东西，但工具集还是差不多。

黄仁勋：但哪些部分是你们希望更好的？是生成能力，还是想让生成token的速度更快?

Llion Jones：我不确定你是否会喜欢这个回答，但现在的计算量太大了。我想人们处于大量的计算量浪费。

黄仁勋：我们正在努力提高效率谢谢。

Jakob Uszkoreit：其实这是关于资源分配，不是总计算量。是你放在重要问题上的努力和精力问题。你不想在简单事情上放太多，也不想在困难事情上放太少，以至于无法很好地解决问题。

Illia Polosukhin：是的。假如你输入"2+2"这个问题，它会使用数万亿的计算力，尽管计算机完全有能力解决这种简单的问题。

Llion Jones：所以我认为，计算是接下来必须解决的问题之一。我们需要知道针对特定问题应该投入多少计算资源。

Aidan Gomez：我知道马上有其他作者在随后的论文中提出了通用transformer，就是针对这一点的。所以这些想法当时就已经存在了。

Noam Shazeer：那之前是一篇MoE论文，现在已经到处都是了。

Ashish Vaswani：我不知道在座的其他人，但我觉得我们在最初的愿景上有些失败了。我们当初这样做，是因为不仅希望模拟token的线性生成，代码也能不断进化、迭代和编辑，从而让我们更好地模拟人类如何产生和改进文本。因为如果像人类那样自然生成，它们实际上可以得到反馈，对吗?

我的意思是，我们都读过香农关于语言模型的论文，但那种情况并没有发生。我认为这也与如何明智地组织计算资源有关。未来有趣的模型属性是它们可以迭代式完善和改进。这让我想到另一个基本问题，即知识应该内置在模型中还是存在于模型之外？检索模型，比如RAG，就是这种情况的一个例子。它也与推理有关，哪些推理应该在符号系统之外完成，哪些推理应该在大模型中完成？因为大模型做加法等简单运算是很低效的。

黄仁勋：在这个例子里，如果问"2+2等于几"，AI就应该直接拿起计算器，用我们已知的最省能量的方式来解决。然而，如果被问及"你是怎么得出2+2等于4的"或者“2+2的正确答案是不是4”，它就可以从原理上解释清楚。所以虽然你给出了这个例子，但我很确定你们做出的AI完全有能力去拿起计算器解这种简单的问题。

Lukasz Kaiser：ChatGPT 现在就能做这些啊~

Noam Shazeer：我想问题在于目前的模型还是太便宜或太小了。我是说Jensen，谢谢你你把每次操作的计算成本从10美元减少到-18美元，谢谢你成就这些。但是，如果你看一个有5千亿参数的模型，每个token要做万亿次计算，那仍然相当于每花1美元可以生成100万个token。这比买一本平装书还便宜100倍。

它太便宜了，以至于我们有成百上千种更有价值的应用，而不是在一个巨大的神经网络上进行高效计算。比如像是，治疗癌症这种重大问题，或者与任何人交谈、与医生、律师、程序员等交谈、获取不同观点，你支付每个token1美元。我们本可以利用这些资源让系统变得更聪明，因为有时恰当的一个词就能改变世界。

Ashish Vaswani：让它们变得更智能，界面非常重要。我们如何实际获得正确的反馈？我们如何以一种人类可以适时介入的方式来分解我们正在处理的任务？如果最终目标是构建可以通过观察我们的界面来模仿和学习解决任务的模型，那么这个接口将至关重要。

4. 当初为何离职谷歌，离开后做了什么，各自的创业理念？

黄仁勋：这可能是实现这一目标的一个好方法。你们发明transformer后离开了谷歌，每个人能否简单介绍一下自己的公司及创办的原因？因为你们描述的也许是你们公司正在努力的事情。

Ashish Vaswani（Essential AI）：是的这太重要了。我们真的想理解并复制人类的认知目标，而不是简单模仿他们在做什么，因为这最终将改变我们与计算机交互以及工作的方式。基本上在2021年，我离开的一个主要原因是，唯一让这些模型变得更聪明的方式就是把它们放到人们手中。你不可能在实验室的真空环境中让这些模型变得更聪明。你必须让它们走向世界，让世界与这些模型互动，从中获取反馈，并让它们变得更聪明。做到这一点的方式就是走出去，创建新的学习体验。

黄仁勋：学习确实需要绝对的经验飞轮。绝对是这样。

Ashish Vaswani：没错。当时在实验室的真空环境中做这件事很困难，而把东西推向世界则更容易一些。

Noam Shazeer( Character.AI)：是的。我在2021年离职时最大的挫败感就是，这项令人难以置信的技术还无法触及每个人。而它有如此多的用途，如此简单易用。

黄仁勋：你是不是太没耐心了？

Noam Shazeer：是的哈哈，你们能想象有数十亿人能够使用它，让它们发挥百万种用途吗?

黄仁勋：这叫禅道，Deep learning的时候就得deep，你要冷静点。（Noam确实是台上几位里情绪最饱满的一个~）

Noam Shazeer：感谢上帝赐予我们这令人难以置信的技术啊。你知道，我们的最终目标是帮助全世界每个人。所以我必须离职创业，让这些发生。从真正构建一些东西开始，尽快推出并让数十亿人能够使用它。从一开始，许多人可能只是将它用于娱乐、情感支持或交友等...

黄仁勋：但Character确实帮助了很多人，你都没提它的用户数量！说明它真的很有用，恭喜你们。

Jakob Uszkoreit（ Inceptive）：我已经说了些生物软件方面的东西。关于为什么我个人在2021年创办公司的原因，可能是更多意识到这项技术能比以前更广泛地改善人们的生活质量。

我的第一个孩子在疫情期间出生，这让我重新认识到生命的脆弱性。几周后，用于蛋白质结构预测的AlphaFold 2用于蛋白质结构预测的结果公布，Alpha Fold 2比1的一个重大变化是使用了transformer架构来取代其他模型架构，因此它在分子生物学领域可以投入使用，这一点变得很明确。再过几周，mRNA COVID疫苗的功效结果公布，RNA尤其是RNA世界假说的潜力变得非常明确——用RNA就能完成生命中的任何事情，但长期以来数据一直很少，在某种程度上它是分子生物学领域的"遗孤"。所以这几乎成为了一种道德义务，必须有人去做。

黄仁勋：我一直把它看作是药物设计。但我更喜欢你将其比作编程蛋白质，这个类比更有意义。我非常喜欢这个概念。当然，这个编译器必须是学习出来的。我们不会手写这个编译器，因为人们需要学习使用它。如果你要学习使用这个编译器，显然需要一个实验室,你将在实验室中生成目标物质，这个飞轮就可以运转起来了，我已经可以想象它的样子了。Llion 呢？

Llion Jones（Sakana AI）：是的，我是最后一个离开谷歌的。目前我还处于非常早期的阶段，但我可以告诉你到目前为止的进展。我是 Sakana AI公司的联合创始人，

黄仁勋：Sakana是指什么？

Llion Jones：有点奇怪，是“鱼”的意思。英语听起来有点怪吧，好在日本人就喜欢这种。我们之所以将它命名为“鱼”，是希望能够让人联想到鱼群。我们希望结合自然和人工智能。类比就是，单个鱼可能很简单，但当你将许多简单的东西组合在一起时，它们就会变得相当复杂。人们并不完全确定我们所说的"受自然启发"是什么意思，所以我想就此多讨论一下。

当我试图向加入的研究人员灌输的核心理念是，学习总是对的。任何时候，如果你从人工尝试某事转向让计算机自己搜索最优解，你总是会赢的。事实上，最初的深度学习革命就是一个例子，我们不再进行人工特征工程，而是直接学习，效果好多了。所以对这间屋子里的研究者，我想提醒大家，有了英伟达提供的大量计算资源后，我们除了在狭义的意义上训练大型语言模型外，还可以利用它来探索当前手工工程的搜索空间。

实际上我想告诉你们，今天或明天，我们就会做一个官宣。我有些惊讶，因为我们还如此早期，但我们确实有一些正在开源的研究成果，而且与当下的热门主题模型融合非常吻合。目前模型融合都是手工完成的，所以我们做的是,利用大量计算资源对我们平台上的所有可用模型进行进化计算，搜索如何合并和堆叠各层，而且结果非常好。所以我想说，请留意相关发布。

黄仁勋：哇，太棒了，先祝贺你们！

Llion Jones：实话说还有件事，我们正在招聘。

Aidan Gomez（Cohere）：我创办 Cohere 的原因与大家很相似，是因为认为这项技术能够改变世界。你知道，计算机开始与我们对话，获得了一种新的交互模式。所以我认为这应该改变一切，改变我们使用的每一种产品、我们与之交互的一切，所有这些东西都将构建在计算机之上。但现实中一切都没有改变，面对的是停滞状态，存在着技术发展与现实世界之间的差异，对我们这些了解内情的人来说是一种不协调感。

所以我希望能够弥合这一差距。我思考问题的方式与你们有些不同，Cohere是为企业构建的。我们创建了一个平台，让每个企业都可以采用和集成这项技术到他们的产品中，而不是直接面向消费者。但这是我们想要推广该技术、让它更容易获取、更便宜且更有竞争力的方式。

黄仁勋：你知道，我真正喜欢的是，这是Aidan很兴奋时看起来的样子。（他风格很像《硅谷》电视剧中的Gilfoyle，一样得镇定，发型也差不多），然后那边是Noam很冷静时看起来的样子。Lukasz 呢？

Lukasz Kaiser（ OpenAI）：我没创立任何公司。

黄仁勋：我知道，但你们改变了世界，说说看！

Lukasz Kaiser：我最终加入了OpenAI。有一个著名的故事，有人问银行劫匪为什么抢银行，他说因为那里有钱。当我加入时，OpenAI正是拥有最好的Transformer模型的地方。在那家公司，我们知道可以利用大量数据和计算资源创造出优秀的东西。我当时还抱有一个希望，即使没有大量数据，只要有更多计算资源就行。

Illia Polosukhin：我是第一个中途离开的。软件正在吞噬世界，机器学习正在吞噬软件。所以最直接的方式就是教会机器编码，以便能够实际生成软件，改变每个人获取软件的方式。当时是2017年，那会儿还为时过早，我们当时的计算能力还不够好。因此我们当时所做的，是试图协调人们实际生成更多数据。作为一家初创公司，你确实有能力将某些东西呈现给用户，并给予他们动机。我们最终意识到需要一种新的基本元素，即可编程货币，因为可编程货币能让我们协调大规模的人力。

所以我们最终构建了一个协议，这是一个区块链，你知道，自2020年以来一直在运行。它在区块链领域拥有全球最多的用户，有数百万的日活跃用户，他们甚至都不知道自己在使用区块链。但他们正在与这种可编程货币价值进行交互。现在我们开始利用它来重新构建一些工具，以生成更多数据。我认为从根本上说，虽然在这可能是有争议的，但70年代的版权技术需要改变，我们正迎来一个新的生成时代。目前我们奖励创作者的方式已经被打破。唯一的解决方案是利用可编程货币、可编程价值和区块链。

所以我们正在从事的一项工作就是，创造一种全新的方式，让人们为超酷的模型贡献数据。

黄仁勋：的确超级酷。然后你就可以在此基础上构建一个全新的正反馈系统，与我们正在做的一切都是一致的，并在其上建立一个全新的经济体系。我们有可编程的人类，有可编程的蛋白质，有可编程的货币…我太喜欢这种概念了。

5. 未来需要什么样的新模型技术，例如获取数据、推理能力、训练范围、

所以人们有一个问题是，当现在的GPT模型的训练数据集大约有10万亿个token，相当于整个互联网的大小，包括你可以从互联网上免费抓取的所有内容。那么接下来呢？我们需要探索什么样的新模型技术？比如推理，这些数据怎么来？

Illia Polosukhin：互动，数据必须来自于用户的互动。

黄仁勋：确实，需要来自大规模用户互动的数据。你说得对，我们需要建立庞大的平台来实际跟踪这些互动，并给予人们从中获利的经济价值作为动机来做这件事。然后在后端，我们终于可以利用这些模型变得更加智能，并通过这种方式使模型变得更好。但是，如何获得每个人都想与之互动的那种令人难以置信的预训练模型？也许我们可以让模型通过强化学习相互交互？或者使用合成数据生成技术？你知道的，我认为在我们所有人中间，我们正在致力于这些技术中的每一种。

Llion Jones：我认为即将到来的下一个重大突破是推理能力。我想很多人都已经意识到这一点，并且有很多人都在从事相关的工作。但同时，目前很多工作仍然是在人工设计。我们手工编写提示，然后尝试让模型以我们认为它们应该互动的方式进行互动。我认为实际上应该搜索这个解集空间，并学习如何真正将这些东西连接在一起，以获得我们想要的强大推理能力。

Jakob Uszkoreit：另一种思考方式是，那些被设计为生成我们人类想要消费的媒体内容的模型，应该在我们想要消费或能消费的所有刺激上进行训练，包括任何类型的视频、音频或观察世界的任何方式，以及3D信息、空间信息、时空信息等，它们都应该被完全输入进去。

Lukasz Kaiser：我不确定每个人是否都理解推理和从少量数据中学习是非常相关的。因为如果你有一个能够进行推理的模型，那么即使只有一小部分数据，它也能进行大量处理，比如推理这个东西为什么会跟随那个东西？但它可以在这个过程中投入大量计算。然后你就会知道，哦是的，结果就是这样。由于投入了大量用于推理的计算，它就能够从微小的状态推广开去。就像人脑在思考时一样。然后基于此你就可以让它自由运行，尝试构建它认为会做得很好的事物，自行设计实验，以便推理能力可以持续搜索获得最有影响力的数据。一旦我们掌握了推理,它将大幅减少所需的数据量。但你需要的数据质量将变得更加重要，这就是人们与现实世界交互的地方。

Illia Polosukhin：所以我们认为，将会有一个新时代，仍然会在一些纯token上进行预训练，但真正重要的可能是那些高质量的东西，让人们更容易为贡献这些数据而获得回报，基本上是在教导机器变得越来越好。

Noam Shazeer：即使一个人只见过十亿个token，人们也可以学习得相当好，这就是证明。

Ashish Vaswani：这个领域取得了很多进展，这在很大程度上是因为制定了基准测试和评估指标。因此，将现实世界的大规模任务分解为更简单的级别也很重要。因为我们的模型可能可以完成其中的一些，然后它们就可以部署、获取更多数据。一旦这个循环关闭，它们就有能力承担更复杂的任务。一方面是因为它们也可能在观察自己在做什么，这提供了更多数据，然后可以做更复杂的事情。所以我的确觉得随时构建、衡量进展才能取得进步，有精确的测量系统才能帮助我们做好工程。

黄仁勋：好的，我有个问题要问你们，现在你们最想互相问对方哪三个问题?

Aidan Gomez：关于序列状态模型(Sequence State Models)，你们觉得怎么样?

Illia Polosukhin：变换器其实有一个复现步骤。这是一个有趣的事实，我发现没人真正利用变换器可以运行可变数量步骤的事实，并以不同方式训练它。比如实际探索我们能用复现做些什么。就像这个模型，每一个时间戳它都会为每个token增加一些信息，以解决问题并进行推理。很明显，如果你有6个步骤，你实际上只做5个推理步骤就能获取更多上下文，从而跳过1步。所以有时你不需要6步，有时需要更多。那么，在这方面你能做哪些不同的循环呢？另一个是，我们如何摆脱token？

Lukasz Kaiser：也许从根本上来说，你需要用不同于梯度下降的方式来训练它。在某种意义上，我们人类也是循环的，我们生活在时间中，我们的大脑会随时间更新。但很明显，我们并非通过反向传播进行训练。所以也许存在一种方式，只是不是梯度下降，这就是为什么它一直如此难以解决。

黄仁勋：好了各位，很高兴能与你们共度一些时光。我真希望你们能不时聚在一起。下次你们的互动会产生怎样的神奇效果？整个行业都感激你们所做的工作。

谢谢！我很感激你们！我无法表达感谢之情。

最后，黄仁勋给每人送上一台DGX-1（当初给OpenAI捐赠的那个），上面题字「Thank you for transforming the world！」

现场掌声雷动，身旁小伙伴表示“好像奥斯卡颁奖礼”。

黄仁勋跟依次排列的七位作者握手致谢的时候，也让大家感叹，果然老黄才是大哥中的大哥啊！