AI教父Hinton 牛津大学最新演讲全文

公众号新闻

2024-03-28 04:03

你好，我是郭震

Hinton 前几天在牛津大学做了一次演讲，三个核心要点：

神经网络和语言理解：讲述者阐述了神经网络如何通过特征和特征之间的交互来理解语言。这些交互在大型语言模型（如GPT）中被用来预测下一个词，其中模型通过处理数以亿计的特征和特征之间的交互来"理解"文本。这种方法与人类大脑处理信息的方式有相似之处，即通过特征分配和特征交互来理解语言，暗示了这些模型在某种程度上确实能够"理解"它们所处理的语言。
人工智能的潜在风险：讲述者提出了由于AI技术的发展可能带来的一系列风险，包括但不限于：假图像、声音和视频的制作，大规模失业，大规模监控，自主武器系统，以及由于超级智能竞争可能导致的不可预测后果。特别强调了超级智能可能会追求更多控制权的倾向，以及这可能如何引发对人类的长期存在性威胁。
超级智能的未来与挑战：讲述者深刻反思了我们对于发展类似或超过人类智能水平的AI的期望，以及这可能带来的技术和伦理挑战。他特别指出，尽管数字计算在能源效率方面存在限制，但通过分享学习和经验，数字AI模型（如GPT-4）能够累积远超个体人类的知识和理解，从而在未来几十年内可能发展出超越人类智能的系统。同时，讲述者对于将人工智能系统的知识和能力转移给其他系统（知识的"蒸馏"过程）表示担忧，因为这可能导致知识的损失，以及人工智能系统之间的知识传递远比人类之间的知识传递更为高效。

目前还没有文字版，也没有中文版。我使用AI翻译为中文，希望对读者朋友们，尤其想了解AI发展的，有些启发。

好的，我将会让计算机科学和机器学习领域的人感到失望，因为我打算做一次真正的公众演讲。

我要尝试解释什么是神经网络，什么是语言模型，以及为什么我认为它们能够理解。

我有一整列的这些事情，最后我会简要地谈论一些来自AI的威胁，

然后我会讨论数字和模拟神经网络之间的差异，以及为什么这种差异我认为是如此可怕。

自1950年代以来，智能有两种范式。受逻辑启发的方法认为，智能的本质是推理，通过使用符号规则来操作符号表达式来完成。

他们过去认为可以等待学习。我当学生的时候被告知不要研究学习。那会在我们理解如何表示事物之后再来。

生物学上受启发的方法非常不同。它认为，智能的本质是学习神经网络中连接的强度，推理可以等待，现在不要担心推理。一旦我们能学习事物就会来。

所以现在我将解释什么是人工神经网络

那些了解的人可以觉得好笑。一种简单的神经网络有输入神经元和输出神经元。

输入神经元可能代表图像中像素的强度。输出神经元可能代表图像中物体的类别，比如狗或猫。

然后有中间层的神经元，有时称为隐藏神经元，学习检测对找到这些事物相关的特征。

一个思考方式是，如果你想在图像中找到一只鸟，最好是从检测图像中各个位置和各种方向上的边缘的特征检测器层开始，然后你可能有一层神经元检测边缘的组合，比如两条边缘在一个细角度相遇，这可能是一个喙或者可能不是，或者一些边缘形成一个小圆圈。然后你可能有一层神经元检测到像一个圆圈和两条边缘相遇看起来像一个喙在正确的空间关系中，这可能是一只鸟的头。

最终，你可能有一个输出神经元说，如果我找到一只鸟的头，一只鸟的脚，一只鸟的翅膀，那它很可能是一只鸟。

所以这些东西将学会成为。现在，小红点和绿点是连接上的权重问题是谁设置了这些权重？这里有一种做法显而易见。

对每个人来说都会起作用，也很明显需要很长时间。你从随机权重开始，然后随机选择一个权重，比如一个红点，你稍微改变它，然后看网络是否表现得更好。你必须尝试很多不同的情况来真正评估它是否表现得更好。而你做所有这些工作只是为了看看增加这个权重会稍微改善事情还是减少。如果增加它使情况变得更糟，你就减少它，反之亦然。

这是变异方法，这就是进化的工作方式，对于进化来说，这样做是有意义的，因为从基因型到表现型的过程非常复杂，充满了随机外部事件。所以你没有该过程的模型。但对于神经网络来说，这样做是疯狂的，因为所有这些复杂的过程都发生在神经网络中，我们有发生过程的模型，所以我们可以使用我们知道的在正向传递中发生了什么，而不是测量改变一个权重将如何影响事物，我们实际上计算改变权重将如何影响事物。有一种称为反向传播的方法，你通过网络反向发送信息。这些信息是关于你得到的和你想要的之间的差异，你会发现网络中每个权重的，无论是应该稍微减少还是增加一点以获得更像你想要的。这是反向传播算法。你用微积分和链式法则来做这个，这比变异方法更有效超过网络中权重数量的因子。

所以，如果你的网络中有一万亿个权重，它就比变异方法有效一万亿倍。

神经网络常用于图像中物体的识别。

现在的神经网络可以拿一个像展示的图像，并产生实际的图像描述作为输出。

以前用符号来尝试做这个多年，甚至没接近过。这是一个困难的任务。

我们知道生物系统是通过层次化的特征检测器来做到这一点的，所以有意义的是训练神经网络这样做。

2012年，我的两个学生Ilya Sutskever和Alex Krizhevsky 在我的一点点帮助下，展示了你可以这样制作一个非常好的神经网络用于识别一千种不同类型的物体。在那之前，我们没有足够的训练图像，对Ilya来说，这是显而易见的。如果我们尝试

当时的神经网络在图像网上，它们会赢。他是对的。他们以戏剧性的方式赢了。

他们获得了16%的错误率，而最好的传统计算机视觉系统错误率超过了25%。

然后发生的事情在科学中非常奇怪。通常在科学中，如果你有两个竞争的学校，

当你取得一点进展时，另一个学校会说是垃圾。在这种情况下，差距足够大，最好的研究人员Jitendra Malik和Andrew Zisswerman，Andrew Zisswerman给我发邮件说这太神奇了，并转向他正在做的事情并做了那个，然后相当烦人地比我们做得更好。

那么语言呢？显然，符号AI社区觉得他们应该擅长语言，他们中的一些人已经在印刷品中说过，这些特征层次结构不会处理语言，很多语言学家对此非常怀疑。

乔姆斯基设法说服他的追随者认为语言不是学来的。回顾起来，这只是一件完全疯狂的事情要说。

如果你能说服人们说一些明显是假的事情，那么你就把他们带入了你的邪教。

我认为乔姆斯基做了惊人的事情，但他的时代已经过去了。

所以，一个大型神经网络，没有任何先天知识，实际上可以仅仅通过观察数据来学习语言的语法和语义，这被统计学家和认知科学家认为是完全疯狂的。

我曾有统计学家向我解释说，一个大型模型有100个参数。想象通过学习一百万个参数的想法是愚蠢的。

好吧，我们现在正在做的是一万亿个参数。

接下来，我要谈论一下我在1985年做的一些工作。这是第一个用反向传播训练的语言模型。

实际上，你可以把它看作是现在这些大型模型的祖先。我会详细讨论它，因为它非常小且简单，你可以真正理解它是如何工作的。一旦你理解了它的工作原理，它就能给你一些洞察力，了解这些更大的模型里发生了什么。所以有两种非常不同的意义理论，一种是结构主义理论，认为一个词的意义取决于它与其他词的关系。这来自索绪尔和符号AI真正相信这种方法。所以你会有一个关系图，你有节点代表单词和弧代表关系，你可以这样捕捉意义，他们假设你必须有像那样的一些结构。然后有一种理论，自1930年代或更早以来一直存在于心理学中，一个词的意义是一大堆特征。单词“狗”的意义是它是有生命的，它是一个捕食者等等。

但他们没有说这些特征来自哪里或者这些特征确切是什么。这两种意义理论听起来完全不同。

我想向你展示如何统一这两种意义理论。我在1985年的一个简单模型中做到了这一点，尽管它有超过一千个权重。

思路是我们将学习每个词的一组语义特征，并且我们将学习这些词的特征应该如何相互作用，以预测下一个词的特征。所以这是下一个词预测。就像当前的语言模型在微调时一样。但所有关于事物如何组合在一起的知识将在这些特征交互中。这里不会有任何明确的关系图。如果你想要那样的关系，你可以从你的特征中生成它们。

所以这是一个生成模型，知识存在于你给符号的特征中。

以及这些特征是如何相互作用的。所以我用一些简单的关系信息，两个家族树。

它们是故意同构的，我的意大利研究生总是把意大利家庭放在上面。

你可以将相同的信息表达为一组三元组。所以如果你使用那里发现的十二种关系，

你可以说像Colin的父亲是James，Colin的母亲是Victoria，从中你可以推断出在这个简单的

1950年代的世界里，James有妻子Victoria，

还有其他你可以推断的事情。而问题是，如果我只给你一些三元组，

你如何得到那些规则？所以一个符号AI的人想做的是推导出形式如下的规则：如果X有母亲Y，Y有丈夫Z，则X有父亲Z。

我所做的是拿一个神经网络，展示它可以学到相同的信息。

所有都是通过这些特征交互来学习的，不需要任何明确的关系图。对于像这样从不违反的非常离散的规则，这可能不是最佳方法。事实上，符号人士尝试使用其他方法来处理它。但是，一旦你得到一些规则有点摇摆不定，不总是适用的时候，那么神经网络就更胜一筹了。

所以问题是，神经网络能否仅通过反向传播捕获一个符号人士会通过规则放入的知识？这个神经网络看起来像这样：有一个代表人的符号，一个代表关系的符号。那个符号通过一些连接转换成一系列特征，这些特征是由网络学习的。所以第一人的特征和关系的特征。然后这些特征相互作用，预测输出人的特征，从中你预测输出人你找到与之最匹配的。

这个网络有趣的地方在于它学会了合理的东西。如果你做了正确的正则化，六个特征神经元。如今，这些向量长达300或1000。那时它们只有6个。这是在一台进行浮点乘法需要12.5微秒的机器上完成的，这比我的苹果二代机需要的两千五百毫秒要快得多。对不起，这是一个老人的话。所以它学到了像国籍这样的特征，因为如果你知道第一人是英国人，你知道输出会是英国人。所以国籍是一个非常有用的特征。它了解了人所处的代，因为如果你对关系了解，如果你了解关系，答案是比输入高一代，你知道输入的代，你就知道输出的代，通过这些特征交互。所以它学到了所有这些显而易见的领域特征，它学会了如何让这些特征相互作用，以便能够生成输出。所以发生的是，它被显示了符号串，它创造了特征，以便特征的交互可以生成符号串，但它并没有存储符号串，就像GPT-4那样。它不会在其长期知识中存储任何单词序列，而是将它们全部转换为权重，从中你可以重新生成序列。但这是一个特别简单的例子，你可以理解它是如何做到的。

今天我们拥有的大型语言模型，我认为是这个微小语言模型的后代，它们有更多的输入词，比如一百万，一百万个词片段。它们使用更多层的神经元，比如几十层。它们使用更复杂的交互。所以它们不仅仅是一个特征影响另一个特征。它们对特征向量进行匹配。然后如果相似，让一个向量大量影响另一个向量，如果不同则不怎样。类似这样的复杂交互，但它是相同的一般框架，相同的一般思想，让我们将简单的字符串转换为词片段的特征和这些特征向量之间的交互。

这在这些模型中是相同的。它更难以理解它们做了什么。

许多人，特别是那些来自乔姆斯基学派的人，认为这些模型实际上并不具备真正的智能，它们只是利用统计规律将人类创造的文本片段拼贴在一起的一种高级自动完成工具，这是某人的引用。

那么，让我们来处理一下自动完成的反驳。当有人说它只是自动完成时，他们实际上是在引用你对自动完成工作方式的直观概念。在过去，自动完成的工作方式是，你会存储你看到的前两个词的三元组，计算第三个词出现的频率。因此，如果你看到“fish and”，在其后出现“chips”频率很高，而“hunt”也相当频繁，因此“chips”很有可能，“hunt”也相当可能，“although”非常不可能。你可以这样做自动完成，这就是人们在说它只是自动完成时所借助的，我认为这是一种欺骗，因为这根本不是LLM预测下一个词的方式。它们将词转换成特征，让这些特征交互，通过这些特征交互来预测下一个词的特征。我想要声称的是，这些模型中学到的数以百万计的特征和数十亿次的特征间交互，就是理解。它们真正做的是，这些大型语言模型，它们是在对数据拟合一个模型。这不是统计学家直到最近才开始大量考虑的那种模型类型。这是一种奇怪的模型，它很大，有大量的参数，但它确实试图通过特征及其交互来理解这些离散符号串。

所以它是一个模型。这就是为什么我认为这些东西确实理解了。

记住的一件事是，如果你问我们是如何理解的？因为显然我们认为我们理解了。

很多人都这么认为。这是我们对我们如何理解的最好模型。

所以这并不是说有一种神奇的理解方式是这些AI系统在做的，而大脑则不是这样做的。

我们所拥有的，关于大脑如何做到这一点的最好模型，就是通过为词分配特征并让特征交互。

最初，这个小型语言模型是作为人类如何做到这一点的模型设计的。

好的，我提出了这些东西确实理解的非常强烈的主张。

现在，有些人使用的另一个论点是，人们说GPT-4只是在幻想，

它实际上应该被称为当由语言模型完成时的杜撰。他们只是在编造东西。

心理学家不太会这么说，因为心理学家知道人们只是在编造东西。

任何研究记忆的人，回到Bartlett在1930年代，

都知道人其实就像这些大型语言模型一样。他们只是发明东西，而对我们来说，真实记忆和虚假记忆之间并没有明显的界限。

如果某件事最近发生，并且与你理解的事情相符，你可能会大致正确地记住它。如果某件事很久以前发生了，或者很奇怪，你会记错它，而且经常你会非常自信

你记得是对的，但你就是错了。很难显示那个。但一种你可以展示的情况是约翰·迪恩的记忆。约翰·迪恩在水门事件中宣誓作证。回顾起来很清楚，他是试图说出真相的。但他说的很多内容都是错的。他会混淆谁在哪次会议中，他会将陈述归咎于其他人，实际上那并不是那个陈述。他把会议彻底混淆了，但他正确地抓住了白宫发生的事情的要点。因为他不知道录音，你可以很好地进行实验。Ulric Neisser有一篇精彩的文章讨论了约翰·迪恩的记忆，他就像一个聊天机器人，只是编造东西。但这是可信的。所以，他产生的东西听起来对他来说很好。

他们也可以进行推理。所以，我在多伦多有一个朋友，他是一个符号AI的人，但非常诚实，所以他对这些东西能工作感到非常困惑。他给我提了一个问题。我让问题变得更难了，我给了GPT-4这个问题，那时它还不能查看网络。所以，当它只是一堆201年冻结的权重时，所有的知识都在特征之间交互的强度中。

我家的房间被涂成了蓝色、白色或黄色，黄色油漆会在一年内褪成白色。两年后我希望它们都变成白色。我该怎么做，为什么？赫克托认为它做不到。

这就是GPT-4所说的。它完全命中要害。

首先，它开始说假设蓝色油漆不会褪成白色，因为在我告诉你黄色油漆会褪成白色之后，也许蓝色油漆也会。所以假设它不会，白色房间你不需要涂漆，黄色房间你也不需要涂漆，因为它们会在一年内褪成白色。你需要将蓝色房间涂成白色。一次当我尝试时，它说，你需要将蓝色房间涂成黄色，因为它意识到那会褪成白色。那是数学家解决问题的方式，通过将问题归结为之前的问题。

所以，既然我声称这些东西确实理解了，我现在想谈一谈一些风险。

有很多来自强大AI的风险。有假图像、声音和视频

将会被用于下次选举。今年有很多选举，

它们将帮助破坏民主。我对此非常担忧。大公司正在采取一些措施，但也许不够。

有可能出现大规模的失业。我们真的不知道，我是说，过去的技术经常创造就业，但这个东西，

好吧，我们曾经是除了动物外最强大的东西。

当我们得到工业革命时，我们有了比我们更强大的机器。体力劳动的工作消失了。

所以，智力劳动的工作的类似物将会消失，我们得到比我们更聪明的东西。

所以我认为会有很多失业。我的朋友詹恩不同意。

人们必须区分两种类型的失业，两种类型的工作流失。有些工作领域你可以无限扩展所做的工作量。像医疗保健，每个人都希望拥有自己的私人医生随时和他们交流。因此，他们一有小痒就可以得到医生的回应，那不是癌症。所以，在医疗保健中，工作量有巨大的扩展空间，那里不会有工作流失。但在其他领域，可能会有显著的工作流失。

将会出现大规模的监控，这在中国已经发生。将会出现致命的自治武器，这将是非常恶劣的，它们确实将是自治的。美国很明确已经决定，他们说人类将掌控，但当你问他们那意味着什么时，它并不意味着人类将参与做出杀戮的决定。据我所知，美国打算到2030年让一半的士兵成为机器人。

现在，我并不确切知道这是否为真。我问过查克·舒默的国家情报顾问，他说，如果房间里有人知道，那将是我。所以，我把这理解为美国人说的，你可能会这么想，但我无法置评。后面关于AI危险涉及其他问题，不包括在文中。

以上。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章