天才创始人对谈AI教父Hinton：多模态是AI的未来，医疗将发挥AI最大的潜力

公众号新闻

2024-05-21 09:05

Hinton认为，模仿大脑并且克服大脑的缺陷，是AI超越人类智能的关键。

文｜陈斯达

编辑｜李然

封面来源｜视频截图

5月17日消息，AI教父Geoffrey Hinton接受访谈。对谈不仅涉及Hinton对大型神经网络、多模态学习、模拟计算、AI安全等技术发展的看法，还有其接触人工智能的经历以及与Ilya初识的回忆。

访谈的提问者是一名天才创业者——Joel Hellermark。

Joel是Sana AI的创始人兼首席执行官，Sana是一家领先的人工智能公司，已从NEA、Menlo和EQT筹集了超过8000万美元的融资。他在13岁时自学编程，16岁时创立了自己的第一家公司，开发了一个视频推荐引擎。

对谈要点整理如下：

初识Ilya时就觉得十分优秀，Ilya很早就预测过Scaling Law是存在的。
下一个token预测能有效解释大脑的学习机制，模型在学习过程中可以习得推理能力。
类比是创造力的源泉，而模型能挖掘事物之间的共有结构，找到人类不曾注意的类比，进而超越训练数据。
多模态能让模型更好理解学习，并且能让模型的空间推理能力更强，一定是提升AI能力的重要方向。
医疗将是AI应用的最重要领域之一，AI的发展无法阻挡。

Ilya是完美的研究伙伴，他的直觉非常灵敏

Hinton：我想起当时从英格兰第一次来到卡内基梅隆大学。是在英格兰的研究部门，下午6点后一般都会去酒吧喝酒。但我来了几周后的一个周六晚上，一个朋友都没有，也不知道能做什么。我实验室有要用的机器机，但家里没有，所以决定去实验室编程。

于是我在周六晚上9点左右来到实验室，所有的学生都在那里，挤满了人。他们都在那里。他们都相信自己在研究未来，接下来做的事情，将改变计算机科学的发展，这与英格兰的情况完全不同。所以这令我耳目一新。

主持人：带我回到最初在剑桥探索脑科学的日子。那时候什么感觉？

Hinton：说实话，很失望。我学的生理学，夏季学期教大脑的工作方式，结果只教了神经元如何传导动作电位。确实有趣，但并没有说明白大脑究竟如何工作，所以我比较失望。我后面转去学哲学，希望能学到思维是如何运作的。但同样失望。

我最后去爱丁堡大学学习人工智能，那更有趣。至少可以进行模拟，可以测试理论。

主持人：还记得开始是对人工智能的哪些方面感兴趣吗？有没有特定的一篇论文或者科学家，让你发现了有意思的点子。

Hinton：唐纳德·赫布的一本书对我影响颇深。他对如何学习神经网络中的连接强度非常感兴趣。我还读过约翰·冯·诺伊曼的一本书，关注大脑如何计算、大脑计算方式与普通计算机的差异。

主持人：你在爱丁堡的时候，觉得这些接触到的想法以后会有用吗？你那时候的直觉是怎样的？

Hinton：在我看来，我们需要遵循大脑本身的学习方法。显然，大脑不可能将所有东西先编程，然后使用逻辑推理，这从一开始就显得不太对。所以必须弄清楚，大脑是如何学习调整神经网络中的连接，去处理复杂任务。冯·诺伊曼和图灵都相信这一点，他们都非常擅长逻辑，但他们不相信这种逻辑方法。

主持人：学习神经科学，仅仅做人工智能里的算法，你在二者之间如何分配精力的？你在早期受到了多少启发？

Hinton：我对神经科学研究不多，主要受到的启发来自大脑的工作方式。大脑有一大堆神经元，执行相对简单的操作，工作又是非线性的，但它们能接收输入，进行加权，然后在此基础上输出。问题是，到底如何改变权重使整个系统做一些厉害的事？这个问题看上去相当简单。

主持人：那个时候，你和谁有合作？

Hinton：我在卡内基梅隆大学做研究，但主要合作者并不是卡内基梅隆大学的。我与特伦斯·谢诺夫斯基（注：他与杰弗里·辛顿共同发明了玻尔兹曼机）往来比较多。他在巴尔的摩的约翰霍普金斯大学。应该是每个月一次，要么他开车来匹兹堡，要么我开去巴尔的摩，距离是250英里。我们会用周末时间研究玻尔兹曼机。合作非常愉快，我们都相信这是大脑的工作方式，这是我做过的最令人兴奋的研究。也许有很多成果也很棒，但我认为那不是大脑的工作方式。

我还与彼得·布朗有很好的合作，他是优秀的统计学家，IBM从事语音识别工作。所以，到卡内基梅隆大学攻读博士学位时，他作为学生已经很成熟，已经知道很多。他教了我很多关于语音的知识。事实上，他教了我关于隐马尔可夫模型的知识。这就是我理想的学生：从他那里学到的，比我教他的还多。他教我隐马尔可夫模型时，我正在使用带有隐藏层的反向传播。那时候还不叫隐藏层，但我决定使用马尔可夫模型中的命名方式，这个叫法能很好地表示究竟在做什么的变量。总之，这就是神经网络中隐藏一词的来源。

主持人：谈谈Ilya出现在你办公室的时候吧。

Hinton：那时候我在办公室，应该是个周日，我在编程，然后有人敲门。敲门声很急促，和一般敲门不太一样。我开门发现是一个年轻的学生。他说整个夏天他都在炸薯条，但他更愿意在我的实验室工作。所以我说，约个时间来聊聊？然后他说，不如就现在？Ilya就是这样的人。于是我们聊了下，我给他一篇文章读，是关于反向传播的Nature期刊论文。

我们约定一周后再次见面，他回来了，他说他不太明白。我挺失望的，本来看起来蛮聪明。这只是链式法则，理解它并不难。他说：不，我理解链式法则，我只是不理解，为什么你不把梯度赋予一个合理的函数优化器。好家伙，他提出的问题让我们思考了好几年。他总是是这样，对问题的直觉非常好，总是能提出好的想法。

主持人：Ilya为什么有这种直觉？

Hinton：我不知道。或许他总是独立思考，很小就对人工智能感兴趣。他也很擅长数学。但我不知道为什么他直觉那么准。

主持人：你和他之间，合作分工是怎样的？

Hinton：真是很有趣。记得有一次，我们试着用数据制作复杂的地图，用的是一种混合模型，所以你可以使用相似性来制作两张地图，使得在一张地图上，河岸可以靠近绿地，而在另一张地图上，河岸可以靠近河流。因为在一张地图上，你不能让它同时靠近两者，河流和绿地相距很远。所以有了混合地图，我们在MATLAB中进行操作，这涉及到对代码进行大量重组，进行正确的矩阵乘法。

然后他就做得烦了。有一天他来找我说，我要为MATLAB编写一个交互界面，就可以用另一种语言编程，然后把它转换成MATLAB。我说，不，Ilya，那将花费你一个月的时间。这个项目要继续，不能被那个分散注意力。Ilya说，没关系，我早上就做好了。

主持人：简直不可思议！这些年来，最大的变化不仅仅体现在算法，还有规模。你如何看待？

Hinton：Ilya很早就看到这点，总是说，规模更大，表现更好。我之前总觉得站不住脚，新的想法还是需要的。但事实证明，他的判断基本上是正确的。像Transformers这样的算法确实很有用，但真正起作用的，是数据和计算的规模。当时想象不到计算机会快上数十亿倍，觉得快上一百倍了不得了，于是试着提出巧妙的想法来解决问题。然而，有更大的数据和计算规模，很多问题就迎刃而解了。

大约在2011年，Ilya和另一个叫James Martins的研究生与我合作，写了一篇关于字符级预测的论文。使用维基百科，并试图预测下一个HTML字符。用的是GPU上的一个很好的优化器，效果出乎意料的好。我们从未真正相信它理解了任何东西，但它看起来又好像理解了，这似乎让人难以相信。

神经网络不仅仅是记住训练数据，而是在“理解”，推理能力的提高指日可待

主持人：能解释一下模型如何预测下一个单词，以及这样认识他们为何是错误的？

Hinton：好吧，我其实觉得这不算错。

事实上，我认为我制作了第一个使用嵌入和反向传播的神经网络语言模型。数据非常简单，只是三元组，将每个符号（Symbol）转换为一个嵌入（embedding），然后让嵌入相互作用以预测下一个符号的嵌入，然后从该嵌入中预测下一个符号，然后通过整个过程反向传播以学习这些三元组。大约10年后，Yoshua Bengio（图灵奖得主）使用非常相似的网络，展示了它在真实文本上的效果。大约10年后，语言学家开始相信嵌入。这有一个发展的过程。

我认为它不仅仅是预测下一个符号。

问一个问题，答案第一个单词是下一个符号，那就必须理解这个问题。大多数人认为的“自动填充”则是，看到不同的单词出现在第三位的频率，这样就可以预测下一个符号。但其实不是这样。

为了预测下一个符号，必须理解正在说什么。我们是通过让它预测下一个符号，迫使它理解。很多人说，它们不像人类那样推理，只是在预测下一个符号。但我认为，它的理解方式像我们一样。为了预测下一个符号，它必须进行一些推理。现在已经看到，你制作一个大的模型，不添加任何特殊的推理内容，它们也已经可以进行一些推理。规模越大，它们未来能进行的推理也更多。

主持人：现在除了预测下一个符号外，还做了其他什么吗？

Hinton：这就是学习的方式。不管是预测下一个视频帧，还是预测下一个声音。我觉得这就是解释大脑学习的十分合理的理论。

主持人：为什么这些模型能够学习如此广泛的领域？

Hinton：大语言模型所做的，是寻找事物之间共同的结构。基于共同结构对事物进行编码，这样一来效率很高。

举个例子。问GPT-4，为什么堆肥堆像原子弹？大多数人都无法回答这个问题，觉得原子弹和堆肥堆是非常不同的东西。但GPT-4会告诉你，尽管能量、时间尺度不同，但相同的是，堆肥堆变热时会更快地产生热量；原子弹产生更多的中子时，产生中子的速度也会随之加快。这就引出了链式反应的概念。通过这种理解，所有的信息都被压缩到它自己的权重中。

这样一来，它将能处理人类尚未见过的数百种类比，这些看似不相关的类比，正是创造力的源泉。我想，GPT-4变得更大时，创造力将非常高。如果只是觉得，它只在反刍学过的知识，只是将它已经学过的文本拼凑在一起，那就小看它的创造力了。

主持人：你可能会说，它会超越人类的认知。尽管我们看到了一些例子，但貌似尚未真正见到你说的这点。很大程度上，我们仍然处于当前的科学水平。你认为什么能让它开始有所超越呢？

Hinton：我觉得在特定情况中已经看到这点了。以AlphaGo为例。与李世石的那场著名比赛中，AlphaGo的第37步，所有专家看来都觉得是错棋，但后来他们意识到这又是一步妙棋。

这已经是在那个有限的领域内，颇具创造力的动作。随着模型规模增加，这样的例子会更多的。

主持人：AlphaGo的不同之处在于，它使用了强化学习，能够超越当前状态。它从模仿学习开始，观察人类如何在棋盘上博弈，然后通过自我对弈，最终有所超越。你认为这是当前数据实验室缺少的吗？

Hinton：我认为这很可能有所缺失。AlphaGo和AlphaZero的自我对弈，是它能够做出这些创造性举动的重要原因。但这不是完全必要的。

很久以前我做过一个小实验，训练神经网络识别手写数字。给它训练数据，一半的答案是错误的。它能学得多好？你把一半的答案弄错一次，然后保持这种状态。所以，它不能通过只看同一个例子来把错误率平均。有时答案正确，有时答案错误，训练数据的误差为50%。

但是你训练反向传播，误差会降到5%或更低。换句话说，从标记不良的数据中，它可以得到更好的结果。它可以看到训练数据是错误的。

聪明的学生能比他们的导师更聪明。即使接收了导师传授的所有内容，但他们能取其精华去其糟粕，最终比导师更聪明。因此，这些大型神经网络，其实具有超越训练数据的能力，大多数人没有意识到。

主持人：这些模型能够获得推理能力吗？一种可能的方法是，在这些模型之上添加某种启发式方法。目前，许多研究都在尝试这种，即将一个思维链的推理反馈到模型自身中。另一种可能的方法是，在模型本身中增加参数规模。你对此有何看法？

Hinton：我的直觉告诉我，模型规模扩大后，推理能力也能提升。

人们如何工作？大致来说，人类有直觉进行推理，再用推理来纠正我们的直觉。当然，在推理过程中也会使用直觉。假设推理的结论与直觉冲突，我们就会意识到需要纠正直觉。

这与AlphaGo或AlphaZero的工作方式类似，它们有一个评估函数，只需看一眼棋盘，然后判断“这对我来说有多好？”但是，进行蒙特卡罗推演时，你会得到一个更准确的想法，你可以修改你的评估函数。因此，通过让模型接受推理的结果，来对模型进行训练。

大语言模型必须开始这样做，必须开始通过推理，来训练模型的直觉，知道下一步做什么，并意识到什么是不对的。这样，他们就可以获得更多的训练数据，而不仅仅是模仿人类。这正是AlphaGo能够做出第37步妙棋的原因，它拥有更多的训练数据，因为它使用推理来检查下一步应该是什么。

多模态让模型学习更加容易，同时利于空间推理

主持人：你对多模态有何看法？我们谈到了这些类比，而这些类比往往远远超出了我们所能看到的范围。模型发现的类比远远超出了人类的能力，可能是在我们永远无法理解的抽象层面上。现在，当我们将图像、视频和声音引入其中时，你认为这会如何改变模型？你认为它将如何改变，它能够进行的类比？

Hinton：这将带来很大的改变。例如，它将使模型更好地理解空间事物。仅从语言角度来看，很难理解一些空间事物。尽管值得注意的是，即使在成为多模态之前，GPT-4也能做到这一点。但是，当你让模型成为多模态时，如果你让它既能做视觉，又能伸手抓东西，它能拿起物体并翻转它们等等，它就会更好地理解物体。因此，虽然可以从语言中学到很多东西，但如果是多模态，学习起来会更容易。事实上，需要的语言更少。

多模态模型显然会占据主导地位。你可以通过这种方式获得更多数据，它们需要的语言会更少。当然，可以仅从语言中学习出一个非常好的模型，但从多模态系统中学习要容易得多。

主持人：你认为这将如何影响模型的推理能力？

Hinton：我认为它将使空间推理变得更好，例如，实际尝试捡起物体，会得到各种有用的训练数据。

主持人：你认为人类大脑的进化服务于语言，还是说语言的进步是服务于人类大脑？

Hinton：这是一个非常好的问题，我认为两者是共存的。我曾经认为，可以完全不需要语言去进行大量的认知活动，但现在我的想法有所改变。

那么，我将给出三种不同的语言观点以及它们与认知的关系。

一种观点是陈旧的符号观点，即认知包括使用某种经过清理的逻辑语言中的符号串，这些语言没有歧义，并应用推理规则。这就是认知——只是对语言符号串之类的事物进行符号操作。这是一种极端观点。

另一种极端观点是，一旦你进入头脑，它就全是向量。符号进来了，把这些符号转换成大向量，所有内容都是用大向量完成的，然后想产生输出，又会生成符号。2014年左右，机器翻译中有一个说法，当时人们使用循环神经网络，单词会不断进入，它们会有一个隐藏状态，它们会在这个隐藏状态下不断积累信息。因此，当它们读完一个句子时，它们会得到一个大的隐藏向量，它捕捉到了该句子的含义，然后可以用来生成另一种语言的句子。这被称为思维向量。这是对语言的第二种看法——将语言转换成一个与语言完全不同的大向量，这就是认知的全部内容。

第三种观点，也是我现在所相信的，即你采用这些符号，将符号转换成嵌入，并使用多层嵌入，这样你就得到了这些非常丰富的嵌入。但是嵌入仍然与符号相关联，从某种意义上说，你有一个用于这个符号的大向量，以及一个用于那个符号的大向量。这些向量相互作用，产生下一个单词的符号的向量。这就是理解的本质——知道如何将符号转换成这些向量，并知道向量的元素应该如何相互作用，从而预测下一个符号的向量。无论是在这些大型语言模型中，还是在我们的大脑中，理解就是这样进行的。这是一个介于两者之间的例子。你继续使用符号，但将它们解释为这些大向量，这就是所有工作所在。所有的知识都在于你使用的向量以及这些向量的元素如何相互作用，而不是符号规则。

这并不是说，能完全摆脱符号。而是将符号变成大向量，保留符号的表面结构。这就是这些模型的工作方式。在我看来，这也是人类思维比较合理的模型。

借助共享权重，数字系统的思维迁移十分高效

主持人：您是最早想到使用GPU的人之一，我知道Jensen（黄仁勋）很喜欢你。2009年你就告诉Jensen，这可能是训练神经网络的一个绝佳办法。当初要使用图形处理单元（GPU）训练神经网络，您是怎么想的？

Hinton：记得在2006年，我有位研究生，是十分优秀的计算机视觉专家。一次会议上，他建议我考虑使用图形处理卡（GPU），因为它们在矩阵乘法方面表现出色，我所做的基本上都是矩阵乘法。我考虑了下，然后我们开始研究配备四个GPU的Tesla系统。

我们一开始只是购买了游戏用的GPU，发现它们将运算速度提高了30倍。然后又买了一个配备四个GPU的Tesla系统，并在此基础上进行了一次公开汇报，效果非常好。2009年，我在NIPS会议上发表了演讲，告诉在场的一千名机器学习研究人员：你们都应该去购买NVIDIA的GPU，它们是未来，你们需要GPU进行机器学习。

我还给NVIDIA发了一封邮件，说我已经动员一千名机器学习研究人员去购买你们的卡，你们能不能送我一个？他们并没有回复。但后来把这个故事告诉Jensen时，他免费给了我一个（要显卡，得直接找老板谈）。

主持人：人工智能发展过程中，GPU其实也在发展。在计算领域，我们路在何方？

Hinton：我在谷歌的最后几年里，其实一直在思考模拟计算。这样，我们可以使用 30 瓦的功率（例如大脑），而不是使用一兆瓦的功率。我希望在模拟硬件中，运行这些大型语言模型。虽然从来没实现，但我开始真正重视数字计算。

使用低功耗的模拟计算，每个硬件部分都会有所不同，即需要学习利用特定硬件的属性。这就是人们身上正在经历的。人和人的大脑都是不同的。我们不能将你大脑中的权重，放入我的大脑中。硬件不同，各个神经元的精确属性也不同。我们最后都会死去，我脑中的权重，对其他大脑也毫无用处。

我们可以很低效地将信息从一个人传递给另一个人。我写句子，你想办法改变你思维里的权重，你就会说同样的话。这其实叫做提炼，但这种知识交流非常低效。

数字系统却不同，它们不会死去。一旦有了一些权重，计算机这个壳就不重要了。只需将权重存储在某个磁带或者什么上，就可以把同样的权重转移进另一台计算机。如果是数字的，它就可以与其他系统一样计算。所以，数字系统能够以极高效率共享权重，甚至还能迭代。假设你有一大把数字系统，从相同的权重开始，各自进行微量的学习，还能再次共享权重，这样它们都能知道其他系统学到了什么，甚至完成了迭代。人类无法做到这一点，在知识共享上，数字系统比我们做得好太多。

主持人：许多已经在该领域实施的想法，其实都是非常传统的，因为这些想法在神经科学中一直存在。那么，你认为还有哪些想法可以应用于我们正在开发的系统呢？

Hinton：因此，我们仍需追赶神经科学的发展。

在几乎所有的神经网络中，都存在一个快速的活动变化时间尺度。因此，当输入进来后，活动和嵌入向量都会发生变化，然后有一个缓慢的时间尺度会改变权重。这就是长期学习。

你只有这两个时间尺度。然而在大脑中，权重会改变的时间尺度很多。例如，我说一个意想不到的词，比如“黄瓜”，五分钟后，你戴上耳机，会听到很多噪音，而且单词非常模糊，但你会更好地识别“黄瓜”这个词，因为我五分钟前说过这个词。大脑中的这些知识是如何存储的呢？这些知识，显然是突触的暂时变化，而不是神经元在重复“黄瓜”这个词。你没有足够的神经元来做这件事。这是权重的暂时变化。你可以用暂时的权重变化做很多事情，我称之为快速权重。

我们的神经模型并不会这样做，原因是，对依赖于输入数据的权重进行临时更改，则无法同时处理大量不同的情况。目前，我们采用大量不同的字符串，将它们堆叠在一起，然后并行处理它们，因为这样我们可以进行矩阵乘法，效率要高得多。正是这种效率，阻止了我们使用快速权重。但大脑显然将快速权重用于临时记忆。而且，你可以通过这种方式。做各种我们目前不做的事情。

我认为这是你必须学习的最重要的事情之一。我非常希望像Graphcore（一家英国的AI芯片公司）这样的设备，它们采用顺序方式，并只进行在线学习，那么它们就可以使用快速权重。但这还没有奏效。或许当人们使用电导作为权重时，最终它会奏效。

官网截图：https://www.graphcore.ai/

主持人：了解这些模型如何工作，了解大脑如何工作，对你的思维方式有何影响？

Hinton：多年来，人们非常看不起大型随机神经网络，只要给它大量的训练数据，它就会学会做复杂的事情的想法。你和统计学家或语言学家，或者大多数人工智能领域的人交谈，他们会说，那只是一个白日梦。没有某种先天知识，没有很多架构限制，模型就不可能学会真正复杂的事情。以为随便用一个大型神经网络，就能从数据中学习一大堆东西——但这是完全错误的。

随机梯度下降，即使用梯度反复调整权重，也可以学习非常复杂的东西，这些大型模型已经证实了这一点。这是对大脑理解的一个重要观点。大脑并不需要拥有所有的先天结构。即使大脑确实拥有许多先天结构，但对易于学习的事物，又并不需要这些先天结构。

乔姆斯基的观点是，只有当知识本身无比扎实、成熟，才能学习像语言这样复杂的事物。然而现在看来，这种观点显然很荒谬。

主持人：乔姆斯基会很高兴看到你说他的观点很荒谬。

Hinton：乔姆斯基的许多政治观点非常明智。我很惊讶，为什么一个在中东问题上观点如此明智的人，在语言学方面会犯如此大的错误。

主持人：你认为什么会让这些模型有效模拟人类的意识？现在的 ChatGPT 每次都从头开始，删除对话的记忆。如果有一个你一生中与之交谈过的人工智能助手，它能自我反省。有一天，你去世了，你认为助手在那个时候会有感觉吗？

Hinton：我认为他们也会有感觉。所以我认为，就像我们有这种感知的内在剧场模型一样，我们也有一个感觉的内在剧场模型。这些是我能体验到的东西，但其他人却不能。我认为那个模型同样是错误的。我认为，假设我说，我想打Gary的鼻子，我经常这样做。让我们试着从内心剧场的概念中总结出这一点——我真正想告诉你的是，如果不是因为我的额叶受到抑制，我就会采取行动。所以当谈论感觉时，我们实际上是在谈论没有限制的情况下会采取的行动。这就是感觉的真正含义——没有限制时，我们会采取的行动。所以没有理由说这些东西不能有感觉。

在1973 年，我看到过有情感的机器人。他们在爱丁堡有一个带有两个夹子的机器人，如果你把零件分开放在一块绿色毛毡上，它可以组装一辆玩具车。但是你把零件堆在一起，机器人视力不够，看不清零件。就会把夹子放在一起把零件敲散，再拼一起。要是看到一个人类这么做，你会说这个他不太理解情况，很生气，所以才敲散了零件。

主持人：在我们之前的谈话中，你把人类和LLM描述为擅长做类比机器（analogy machines）。你一生中发现的，最有力的类比是什么？

Hinton：我想可能对我影响很大的一种弱类比，是宗教和符号处理之间的类比。

我来自一个无神论家庭，我小时候上学时就面临着宗教信仰。在我看来，这简直是无稽之谈。即使我再次审视，我仍然认为这是无稽之谈。有人将符号处理视为对人们工作方式时，我认为这种观点依然荒谬。

但我不认为现在的观点完全是荒谬的，我们确实在进行符号处理，我们把大的嵌入向量赋予给符号。但不是像人们以为的那样，单单匹配符号——符号的唯一属性就是与另一个符号异同，让这成为符号的唯一属性。但我们并不是这样做的。我们用上下文，为符号提供嵌入向量；借助嵌入向量组成部分之间的交互，我们才能进行思考。

有位非常优秀的谷歌研究员叫 Fernando Pereira。他认为，我们确实在进行符号推理，但唯一符号就是自然语言。我们把自然语言作为符号语言进行推理。我现在觉得这很正确。

很难因为安全问题减缓AI研究，看好医疗保健应用

主持人：你已经进行了一些计算机科学史上最有意义的研究。你能给我们讲讲，你是如何发现合适的研究问题的？

Hinton：首先，我要纠正你一下，是我和学生一起完成了很多有意义的研究。这离不开我与学生的良好合作，离不开我发现优秀学生的能力。从70年代到本世纪初，研究神经网络的人不多。我作为少数研究神经网络的人，可以选到最优秀的学生。这非常幸运。

科学家都有自己的一套研究方法理论，虽然很多科学家会总结一套自己的研究方法理论，但是实际上他们不一定真的是这么做的。但我还是想说，我的理论是，我会寻找那些人人都赞同、但直觉又能感觉出有点不对的问题。然后我就把这个定为研究问题，看看我是否能深入，说清楚我认为它是错的原因。比如也许我能用一个小的计算机程序做个demo，说明大家的预期是错的。

让我举一个例子。很多人认为，给神经网络添加噪音会让结果变得更糟。如果训练示例，让一半的神经元保持沉默，效果就会更糟。然而实际上，这样做的话会带来更好的泛化效果。你可以用一个简单的例子来证明这一点。这就是计算机模拟的优点。你可以证明，增加噪音会使情况变得更糟，去掉一半的神经元，会使它工作得更糟。短期内确实如此。但你这样训练它，最终它会工作得更好。你可以用一个小型计算机程序来证明这一点，然后你可以认真思考为什么会这样，以及它如何阻止复杂的协同适应。

这是我的研究方法。找到并研究那些看上去不可靠的事情，看看自己能否给出简单demo，说明为什么错误。

主持人：你觉得现在有什么不可靠的点呢？

Hinton：我们不使用快速权重的做法，貌似不是很可靠，我们只有两个时间尺度，这完全是错误的，一点不像大脑的工作方式。从长远来看，肯定要有更多的时间尺度。这只是一个例子。

主持人：我们谈到了推理、时间尺度。假设一群学生来问你，你的领域中最重要的问题是什么？你又会给他们什么最值得研究的问题？

Hinton：对于我来说，现在的问题和我过去 30 年来一直存在的问题是一样的，那就是大脑会进行反向传播吗？我相信大脑会获得梯度。你得不到梯度，你的学习效果就会比得到梯度时差很多。但是大脑是如何获得梯度的？它是以某种方式实现某种近似版本的反向传播，还是某种完全不同的技术？这是一个悬而未决的大问题。我继续做研究的话，这就是我要研究的内容。

主持人：当你现在回顾你的研究生涯时，你会发现你在很多事情上都是对的。但是你在什么地方做错了，以至于你希望自己花更少的时间？

Hinton：这是两个独立的问题。一是错在什么地方，二是是否希望自己花更少的时间在这上面。

我认为我对玻尔兹曼机的看法是错误的，我很高兴我花了很长时间研究它。关于如何获得梯度，有比反向传播更漂亮的理论。反向传播很普通，很明智，它只是一个链式法则。玻尔兹曼机很聪明，它是一种获取梯度的非常有趣的方法。我希望大脑也能这样工作，但事实应该并非如此。

主持人：您是否也花了很多时间想象，这些系统开发后会发生什么？您是否曾经想过，我们能让这些系统运行良好，我们就能让教育民主化，让知识更容易获得，解决医学上的一些难题。对您来说，这更多的是了解大脑？

Hinton：科学家应该做一些对社会有益的事情，但实际上这并不是开展研究的最佳方式。当好奇心驱使时，您会进行最好的研究。您只需要了解一些事情，仅此而已。

但最近，我意识到这些技术是把双刃剑，开始更加担心它们对社会的影响。但这不是我的研究动机。我只是想了解，大脑究竟是如何学习做事的？这正是我想要知道的。但我有点失败了。作为失败的副作用，我们得到了一些不错的工程。

主持人：是的，这对世界来说是一次很好的“失败”。从真正可能顺利的事情的角度来看，你认为最有前途的应用是什么？

Hinton：医疗保健显然会是很大的应用。社会可以吸收的医疗保健几乎是无穷无尽的。以一位老年人为例，他们可能需要五位全职医生的照顾。因此，当人工智能在某些领域的表现超过人类时，我们会期待它能在更多领域发挥更大的作用。这可能意味着我们需要更多的医生。每个人都能拥有三位专属的医生，那将是极好的。我们有望实现这一目标，这也是医疗保健领域的优势之一。

此外，新的工程项目和新材料的开发，例如用于改进太阳能电池板或超导性能的材料，或者仅仅是为了更深入地了解人体的运作机制，都将产生巨大的影响。这些都是积极的一面。

然而，我担心有政治家可能会利用这些技术来做邪恶的事情，比如利用人工智能制造杀人机器人，操纵舆论或进行大规模监控。这些都是非常令人担忧的问题。

主持人：你是否担心，我们放慢这个领域的发展速度，也会阻碍其积极一面的发展？

Hinton：当然，我有这样的担忧。我认为这个领域的发展速度不太可能放慢，部分原因是它具有国际性。一个国家选择放慢发展速度，其他国家并不会跟随。因此，中国和美国之间显然存在人工智能领域竞争，双方都不会选择放慢发展速度。有人提出我们应该放慢六个月的发展速度，但我并未签署这一提议，因为我认为这种情况永远不会发生。尽管如此，我可能应该签署这一提议，因为即使这种情况永远不会发生，它也提出了一个政治观点。为了表达观点，有时候我们需要提出一些无法实现的要求，这往往是一种有效的策略。但我不认为我们会放慢发展的步伐。

主持人：你认为有了这些人工智能助手，会对 AI 研究过程产生什么影响？

Hinton：我认为它们会大大提高研究效率。有了这些助手，AI研究将变得更加高效，它们不仅能帮助你编程，还能帮助你思考问题，甚至可能在各种方程式方面为你提供很大帮助。

建立自己的认知框架对于独立思考来说非常重要

主持人：你是否考虑过人才选拔的过程？这对你来说主要是依赖直觉吗？例如，当Ilya出现在门口时，你会觉得他很聪明，于是决定与他一起工作。

Hinton：在人才选拔方面，有时候你就是能感觉到。与Ilya交谈不久后，我就觉得他非常聪明。再深入交谈几句，他的直觉、数学能力都非常出色，这让我觉得他是理想的合作伙伴。

还有一次，我参加了一次NIPS会议。我们有一张海报，有人走过来，他开始询问有关学术海报上的问题。他提出的每一个问题都深入地揭示了我们的错误。五分钟后，我就给他提供了一个博士后职位。那个人就是 David McKay，他非常聪明。他去世了，这让人感到非常遗憾，但他的才华是显而易见的，你会希望能与他一起工作。然而，有时候，情况并不总是那么明显。

我确实学到了一件事，那就是人与人是不同的。优秀的学生并不只有一种类型。有些学生可能没有那么有创造力，但他们在技术上非常强，能够让任何事情都成功。有些学生在技术上可能并不出色，但他们却拥有极高的创造力。理想的情况下，我们希望找到的是既有技术实力又具备创造力的学生，但实际上，这样的学生并不总是那么容易找到。然而，我认为在实验室环境中，我们需要的是各种不同类型的研究生。

我始终坚信我的直觉，有时候，你只需要和某人进行一次交谈，他们就能理解你的意思。这就是我们所期待的。

主持人：你是否曾经思考过，为什么有些人的直觉会更强呢？他们是否只是比其他人拥有更好的训练数据？或者，你是如何培养自己的直觉的？

Hinton：我认为，部分原因在于他们不允许胡说八道。因此，这里有一种获取错误直觉的方式，那就是盲目相信你被告知的一切，这是非常危险的。我认为有些人就是这样做的。我觉得有独立思考能力的人会有一个理解现实的完整框架。当有人告诉他们某件事情时，他们会试图弄清楚这件事如何融入他们的框架。无法融入，他们就会予以拒绝。这是一个非常好的策略。

那些试图将他们被告知的一切都融入自己的框架的人，最终会得到一个非常模糊的框架，并且会相信一切。这是无效的。因此，我认为，对世界有强烈的看法，并试图操纵传入的事实以符合自身观点，是非常重要的。显然，这可能会导致你陷入深刻的宗教信仰和致命缺陷等等，就像我对玻尔兹曼机器的信仰一样。但我认为这是正确的做法。

主持人：当你看到今天正在进行的研究类型时，你是否认为我们把所有的鸡蛋都放在一个篮子里，我们应该在这个领域更加多样化我们的想法？或者你认为这是最有前途的方向然后全力以赴？

Hinton：我认为拥有大型模型并在多模态数据上训练它们，即使只是为了预测下一个单词，也是一种非常有前途的方法，我们应该全力以赴。显然，现在有很多人在做这件事。看到有很多人似乎在做疯狂的事情，这很好。我认为大多数人走这条路是可以的，它效果很好。

主持人：你认为学习算法真的那么重要吗，还是只是尺度之一？我们是否有数百万种方法可以达到人类水平的智能，或者我们需要发现少数几种？

Hinton：特定的学习算法是否非常重要，或者是否有各种各样的学习算法可以完成这项工作，我不知道这个问题的答案。但在我看来，反向传播某种意义上是正确的做法。获得梯度以便更改参数使其更好地工作，这似乎是对的，而且它也取得了惊人的成功。

可能还有其他学习算法，它们是获得相同梯度的替代方法，或者将梯度转移到其他东西上，并且也有效。我认为现在这一切都是开放的，也是非常有趣的问题，关于是否还有其他你可以尝试和最大化利用的东西，可以为你提供良好的系统，也许大脑这样做是因为这样更容易。但反向传播在某种意义上是正确的做法，我们知道这样做效果很好。

主持人：最后一个问题，当您回顾您几十年的研究历程，您最引以为豪的成就是什么？是你学生的成就吗？或者是您的研究成果？在您的整个职业生涯中，您最引以为豪的是什么？

Hinton：我的回答是玻尔兹曼机的学习算法。这个算法非常优雅，尽管在实践中可能并不实用，但这是我和 Terry共同开发的过程中最享受的事情，也是我最引以为豪的成就，即使它可能是错误的。