OpenAI科学家：什么才算是好的人工智能算法？

2023-05-10 23:05

图源：https://pxhere.com/

导读：

在人工智能领域，当代最为火爆的莫过于OpenAI推出的大型语言模型机器人ChatGPT。最近，ChatGPT的两位核心研发科学家肯尼斯·斯坦利（Kenneth Stanley）和乔尔·雷曼（Joel Lehman）在合著新书《为什么伟大不能被计划》中，对目标导向的思维在人工智能领域的影响进行了讨论，指出艺术和科学等领域中最大的发现，需要遵循好奇心。

在以下文章中，他们通过算法之争的案例，阐述了在人工智能的研究中，一个好的算法，并不在于其出色的性能表现，而是要能引导我们去思考其他算法。

肯尼斯·斯坦利乔尔·雷曼｜撰文

想象一下，有一种多年来人们用以训练机器人完成困难任务的最流行方式，其被称为“老靠谱”（Old Reliable）算法。然后有一天，一群科学家发明了一种叫作“超自然”（Weird）的新算法。虽然“超自然”算法教给机器人的技能与“老靠谱”算法相似，但新算法却非常新颖。然而，试图决定“超自然”算法是否应该被发表的期刊评审员，以前没有见过类似的东西。为了加大评审过程的复杂性，让我们假设作者在提交研究论文中，描述了新算法“超自然”在标准基准（如教机器人如何行走）上的表现，比“老靠谱”算法差5%。这类比较在人工智能领域很常见：也许“超自然”算法在学习如何行走方面需要多花费5%的时间，或者它学习的行走步态不稳定性超出了5%。

因为它的表现更差，实验派启发式方法认为应该驳回“超自然”新算法的发表。毕竟，在人工智能领域，涉及新研究的论文，通过大肆报道一个新算法的表现更差来宣传新观点，也是很罕见的操作。大多数作者甚至不屑于提交这种研究，因为他们很清楚，实验派启发式方法，是人工智能研究领域的一个强大过滤器。因此，如果一个新的算法，在一个基准上的表现，比不上它的竞争对手，新想法的发明者往往会试图改善它的性能，或找到一个更有利的基准进行比较。

但假设作者很固执，在提交的论文中，“超自然”算法的表现还是差了5%。审稿人可能因此直接拒稿，但以此为由驳回“超自然”算法就真的合理吗？它是一个全新的研究方向，充满了新的想法。关键的问题是，如果驳回了“超自然”算法，那么就没有人能知道它。更糟糕的是，将没有人去进一步探索“超自然”算法所开辟的踏脚石，以及其后续可能带来的踏脚石。因此，实验派的启发式思维是短视的。它对“超自然”算法的评判标准，是基于其当前的价值，而不是它为人工智能研究开辟新未来和新道路的价值。但因为它的后续潜力没有得到认可，“超自然”算法和所有后续可能会衍生出来的算法，都被扫进了学术垃圾箱，从此无人问津。这类“一刀切”式的评判，也砍掉了很大一部分的“搜索空间”，即所有人工智能算法的未来空间。那些被砍掉的空间，将永远不会被探索，因为它们只能从那些“表现”并不出色的算法中获得。

考虑到“超自然”算法的创新性，无论它与“老靠谱”算法相比的结果如何，都应该被接受。但这里有一个更大的问题：我们为什么要把“超自然”算法与“老靠谱”算法相比？这种比较只会分散我们的注意力，使我们忽略“超自然”算法本身就是一个有趣想法的本质，而这可能是一个更好的关注点。然而，现实情况下，为了通过实验派启发式评审员的筛选，研究人员必须进行这些导致焦点偏离的比较。

我们可以从一个略显滑稽的角度来理解这种比较。想象一下，一个发条玩具和一台人形机器人在赛跑，尽管人形机器人已经竭尽全力地追赶，但发条玩具实在是跑得太快了，并以显著优势获胜。回过头看，这场赛跑对人形机器人的研究意义何在？我们是否应该彻底抛弃对人形机器人的研究，直到它们能够在赛跑中击败发条玩具为止？当然，这个比赛结果其实根本没有任何意义，因为发条玩具和人形机器人之间的差异，不亚于苹果和橘子的差别。但这就是实验派启发式方法的最大问题：我们对人形机器人感兴趣的原因，与它们同发条玩具的赛跑表现无关。同样，我们对“超自然”算法感兴趣的原因，可能与其同“老靠谱”算法表现的比较结果无关。或许我们不愿意承认，但什么是好的踏脚石，实际上比我们想象的更难以预测，并且似乎不存在什么简单的成功公式。一个基于目标的启发式方法，如通过一系列基准任务的表现来衡量一个新算法的潜力，可能会让人很省心，因为它提供了一个明确的原则，使我们能够很轻松且不费脑地判断一个新算法是否值得传播。但基准并不能说明为什么一个研究方向会比另一个研究方向更有趣，或更无趣。

过分依赖实验结果和比较的问题在于，它们可能具有高度欺骗性。“超自然”算法很可能是人工智能革命的新火种，但它却因为5%的技术表现问题，而失去了被进一步探索的可能性。而发条玩具和人形机器人之间的竞赛无疑是愚蠢的，因为我们不可能从二者的比较中学到任何东西，因为人形机器人本身是很有趣的，无论它们在竞赛中的表现与发条玩具相比有多么糟糕。所有这些都表明，有时实验派启发式方法就像之前提到的“中国指铐”整蛊玩具：松开指铐的正确的做法，是把手指用力往里推，然而目标欺骗性的表象总是诱导我们要用力往外拉，因为“往里推”这种正确的做法一开始在目标函数上的得分表现就比较差。

问题的根源在于，实验派启发式方法，是由一个目标驱动的方法，而这个目标通常会阻碍进一步的探索。在这个案例中，实验派方法背后暗含的目标，是“完美的表现”，所有的新算法都要根据这个目标来衡量。如果新算法在表现上还有改善的空间，哪怕只是一点点，它们就会得到承认和发表。但是，如果它们不能在表现上取得进展，就会被驳回并被忽略。最终导致的结果就是，人工智能领域也被卷入了一个典型的目标驱动型搜索中——其背后的驱动力是：假设目标驱动型搜索运作良好。但实验派启发式方法由如此简单的目标驱动，以至于今天很少有人工智能研究人员，会真正采用基于这种天真的启发式方法的算法。

虽然搜索的算法已经变得更加复杂，可以削减一定程度的欺骗性，但涉及人工智能研究人员本身作为一个群体在搜索中的行为时，这些见解并没有得到应用。因此，即使简单的实验派启发式方法的欺骗性已经显而易见，人工智能领域的探索还是一如既往地受其驱动。不知何故，人们仿佛忘了质疑其合理性。事实上，这种奇怪的脱节也表明，较为简单的目标驱动型方法是多么有吸引力，即使是搜索理论的专家群体也依然甘心受其驱使。

还有另一种角度，可以帮助我们看穿实验派启发式方法存在的问题，即通过思考“搜索空间”。在这种情况下，“搜索空间”就包含了所有可能的人工智能算法。因此，“老靠谱”算法和“超自然”算法都是这个大空间中的一个点。回想一下我们在本书第一章中提到的，包含所有可能事物的大房间的概念。在人工智能领域的这个大房间充满了各种算法，从这面墙到对面墙，从地面到天花板，层出不穷。请记住，这个由算法组成的大房间的布局，包含了一定的逻辑。沿着一面墙，你可能会发现一个简单的算法，以递增的顺序对数字列表进行排序；而紧挨着它，你可能会发现同一算法的轻微变体，以递减的顺序对列表进行排序。

因为这个房间包含所有的算法，在这个广阔空间中的某个地方，有我们熟悉的“老靠谱”算法，它周围存在着类似的算法。而在远处另一个角落的是新来者，即“超自然”算法。这个场景想要展示的是，实验派启发式方法经常要求我们在一个巨大的“搜索空间”中比较两个遥远的点之间的性能和表现，这就像人形机器人和发条玩具之间的赛跑。而在大多数搜索中，以这种奇怪的比较方式为指导是没有意义的——它不能帮助我们决定，在大房间里应该朝着哪个方位去搜寻。只因为梵高画出了《星空》这幅传世佳作，我们就不去欣赏米开朗基罗的《大卫》吗？只因为有了火车，我们就应该停止发明更好的自行车吗？橙子的存在，并不是停止培育苹果的理由，即使你个人更喜欢橙子。当然，有些人会继续培育更好的苹果，也有些人会培育更好的橙子，两个方向的探索都符合所有人的利益。

反过来说，我们也并不是建议大家都不应该去研究“老靠谱”算法是否比“超自然”算法更优秀。二者比较的结果可能仍然会给某些人带来启示——尽管它在指导算法的搜索时，可能会造成欺骗性。要了解背后的原因，就要考虑到人工智能行业研究人员和实践者之间的区别。研究人员着眼于开辟未来的创新道路，而行业实践者则希望当下就解决现实世界的实际问题。行业实践者不会试图编写新算法，而是审视当前可用的算法，然后选用其中的一些来解决当前的问题。前者就像发明新的实验性汽车类型，后者就好比是从经销商处选购一台已上市的汽车。行业实践者更像是一位人工智能用户，而不是人工智能的研发人员。二者之间重要的区别是，行业实践者不参与寻找新的算法。对他们来说，手里有现成的问题解决方案就万事大吉，即确保现有的最佳算法能应付当下的需求就足够了。因此，你可以看到“老靠谱”算法和“超自然”算法之间的比较，可能会帮助行业实践者在当下做出明智的选择。如果在实践者待处理的某一问题上，对两种算法进行基准测试，若“老靠谱”算法的性能比“超自然”算法高出5%，那么他们就应该使用“老靠谱”算法而不是“超自然”算法。但是我们不应该让这种区别混淆视线，因为对行业实践者而言最好的东西，不一定是研究人员的心头好，就好比一位汽车研究人员，不应该因为发现悬浮喷气式汽车原型机比福特金牛座更耗油就放弃继续研究。

需要再次强调的是，我们的目标是了解研究人员如何判断新算法是否值得探索，更重要的是，我们想了解这些判断，如何决定探索哪些踏脚石，以创造更新的算法。因此，一位只求“利在当代”的行业实践者，他感兴趣的东西对于一位立志“功在千秋”的创新者来说，并不是正确的指南针。也许这两种角色（行业实践者和研究者）之间的混淆，帮助我们理解了实验派启发式方法是如何主导人工智能的研究方向的（以及类似的经验法则，如何主导了许多其他领域的研究）。对行业实践者来说，“性能表现”的确是一项比较适用的评判标准，但对研究者来说，这个标准就不可靠了，因为它充满了欺骗性。

但正如前文所示，实验派启发式方法并不是唯一发挥作用的因素。寻找人工智能算法的另一个主要经验法则，是定理派启发式方法，其核心思想是，具备更可靠的理论验证的算法就是最具未来探索潜力的算法。事实上，一些研究人员认为，定理派启发式方法是比实验派启发式方法更好的选择，因为它提供了不容置疑的保证。实验派启发式方法并没有证明“老靠谱”算法何时会优于“超自然”算法，或者二者比较的结果，在多大程度上取决于特定的设置——它只是表明，在某些情况下“老靠谱”算法更好。理论结果（依赖于数学证明的结果）的优势在于，它们总是包含了理论成立的各种条件。因此，只要这些条件得到满足，那么在某种程度上，我们就能知道算法有望得到怎样的结果。但是，即使“理论验证”看起来像是一个坚实的基础，事实证明，定理派启发式方法也是有缺陷的。也许更令人惊讶的是，当它被用来指导人工智能算法的搜索时，它存在的缺陷与实验派启发式方法并无不同。

但在我们指出这个缺陷之前，还需要再解释一下“定理派启发式方法”，这个短语本身就有些奇怪，“定理派”和“启发式”这两个词似乎是矛盾的。正如人工智能领域的研究人员都知道，启发式方法是经验法则，那么，“得到理论验证的经验法则”有什么意义？虽然启发式方法可能在大多数时候能够发挥作用，但它们往往不能保证进步。但反过来看，数学定理确实提供了保证，所以它们不能以同样的方式受到质疑。就好像人们可能会质疑一个特定的启发式方法在某个问题上是否真的有效，但质疑一个特定的定理是否仍然是真理并没有意义。因为一个定理被证明为正确之后，它将永远是正确的。定理的这种可靠性，也是它对人工智能领域如此具有吸引力的一个原因。如果我们能证明一个特定的算法，在某些条件下会成立，那么由此产生的保障性，是永远都无法被否认的。所以在“定理派启发式方法”这个短语中，启发式的不确定性，似乎与定理的绝对确定性产生了冲突。

但这个短语在本案例中的确适用，因为这两个词分别作用于人工智能算法的元搜索的两个不同层面。“定理派”这个词，适用于单个算法，旨在确定特定算法是否具备良好的保证。相较之下，“启发式”这个词适用于通过人工智能算法开展的搜索，即经过大量可靠验证的算法，往往会成为很好的踏脚石。然而，我们需要再次意识到，涉及“元”概念的东西都很难把握，但其内在逻辑其实很简单。人们只是将定理（理论部分）当成评判什么是好算法的经验法则（启发式方法的部分）而已。然而重要的是，研究人员不应该只关注人工智能算法的特定定理，甚至最好不要特别关注特定的人工智能算法本身。事实上，整个人工智能研究领域，整体应该专注于探索所有人工智能算法的空间，并发掘出有潜力的踏脚石。因此，我们真正应该探讨的，是如何运用定理来指导人工智能算法空间的探索。一个算法的良好理论结果的数量，应该成为人工智能领域进行的更高层次的算法搜索中的启发式方法。在其他条件相同的情况下，人工智能领域通常更倾向于选择具有更多理论保证的算法。

定理派启发式方法的核心逻辑，是这样一种理念：确保一个算法在理论上“有保障”，就一定能够带来更多、更好的保障，并在此基础上，通过人工智能算法的空间确定了一个目标梯度。如果我们相信这个目标梯度，如果它真的有效并且不会有欺骗性，那么它最终将产生强有力的保障，从而实现人工智能的终极目标。但是，一组越来越有“保障”的踏脚石，就可以为我们铺设一条通往人类智力水平相当的人工智能的道路，这个假定真的成立吗？事实上，有些真理是无法证明的。就我们所知，即使是最强大的人工智能算法，也无法提供任何“保障”。

毕竟，自然进化确实孕育出了人类智慧，但在其整个史诗般的运行过程中，它从未证明过任何一个定理。即使没有提供任何定理，进化也收集了一块又一块踏脚石，最终架起了一座通往人类智能的桥梁。当然，这个故事并不能证明定理派启发式方法是一种糟糕的梯度，但它确实表明，我们不需要定理也同样可以不断地扩展探索的深度。至少发人深省的是，推动了人类智力产生的这一有史以来最强大搜索，在一路上没有使用任何定理。更深层次的问题是，定理派启发式方法在人工智能算法的空间中，创造了一种目标驱动型搜索，而历史经验已经告诉我们，这些类型的搜索在复杂的空间中通常有糟糕的表现。

实验派启发式方法和定理派启发式方法不只是经验法则。它们不仅仅是科学家们在黑夜中独自摸索时使用的工具，还是人工智能领域的把关人手中挥舞的铁尺。把关人设定的衡量标准，决定了哪些想法足够优秀且值得分享。无论你是否喜欢这些“铁尺”，无论你是否想使用它们，无论人工智能是否真的沿着它们设定的路径发展，如果你提出的想法不能在某种程度上满足它们的规定，那么想要公开发布和分享个人想法，便可能是一场艰苦卓绝的战斗。如果你的算法表现得比现有的算法差，那么向他人论证你的算法存在的合理性将是一个备受煎熬的过程。如果你没有将自己的方法与其他人进行比较，那么大多数评审员都会把它当作未经证实的方法而直接否定它。如果你没有定理来支持自己的新想法，便很难说服人工智能理论家，让他们相信你的新想法值得所有人关注。这样做的后果很严重，这把“铁尺”迫使整个人工智能研究领域的人，只能通过这些启发式方法规定的狭隘踏脚石往前探索，并将所有不符合的可能性通通扼杀。

正如我们所看到的那样，这些启发式方法实际上阻碍了发现和进步，因为它们只有在目标的欺骗性四处泛滥的情况下，才能发挥积极作用。为此，我们将一如既往地遭遇同一个问题：是否存在一个有潜力的、非目标的替代方案，可以取代当下在人工智能领域大行其道的目标驱动型搜索？是否有一种更类似于寻宝者的非目标驱动型方法，可以指导人工智能研究，即一种尊重踏脚石的内在特性，而不是欺骗性、机械性的启发式方法？

要回答这个问题，我们需要从头开始，重新思考我们首先应该寻求的是什么。什么才是真正“好的”人工智能算法？人工智能研究领域如此专注于算法的性能表现，甚至到了“一叶障目，不见泰山”的程度。一个好的算法，并不在于其出色的性能表现，而是要能引导我们去思考其他算法。人工智能的终极目标位于迷雾笼罩的湖面的彼岸，而它离我们依旧十分遥远，所以我们不应该如此专注于把“性能表现”当作衡量标准。目前的算法智能化水平与人类相差甚远，我们目前的探索行为好比本书第四章中提到的思维实验，即给细菌做智商测试，以期发展出接近人类的智力水平。我们不应该关心“超自然”算法是否比“老靠谱”算法好。相反，我们应该问“超自然”算法是否带来了新的超“超自然”算法，且后者可以沿着任何有趣的维度（不仅仅是性能）继续扩展衍生新的“超自然”算法。例如，超“超自然”可能会创造出比“超自然”算法看上去更像现实世界大脑的类脑结构，即使它的性能表现更差。我们应该仅仅因为其性能表现比较差，而放弃这个新的想法吗？人工智能研究领域的本质，毕竟是在进行搜索，而搜索的功能，则是发现新事物。实验派和定理派启发式方法，能找到的东西比较有限，因为它们筛掉了许多有趣的算法。

这就是为什么人工智能的期刊上，随处可见关于性能改进的内容，而每位参加会议的人工智能研究者汇报的内容差不多都是：自己如何通过各种复杂的技巧，将算法的性能表现提升了2%。或许一个解决方案是让会议评委驳回更多的论文，因为2%的性能改进实在是太微不足道了，不值得放到大会上来宣扬。但真正的问题是，没有人会持续地关注这些算法，因为通过细枝末节的调整，挤出最后一丝性能提升空间的做法，并不会带来令人振奋的洞见。另外，这些纯靠挤压性能提升空间来撑场面的算法，本身并不能算是“优良”的踏脚石。就像人类历史上所有的伟大发明那样，所有被历史记住的算法，必然是为未来的开拓者奠定基础的算法。它们将推动新算法的诞生，甚至帮助我们开辟全新的领域。到那时，谁还会在乎这些新算法在刚开始出现时，与“老靠谱”算法比较时的表现如何呢？

痴迷于性能表现的提高，可能还会产生另一个负面影响，即“同行就是冤家”，它会致使研究人员之间产生狭隘竞争。然而科学研究并不是一场田径赛，这种狭隘的竞争思维，往往会导致人们分散对人工智能领域真正目标的注意力。相较于竞争，研究人员更需要的是携手合作，共同探索人工智能算法的无限空间。

但目前经常发生的现实情况是，一位研究人员致力于证明自己的算法比业内当前的“头号算法”表现得更好，之后就会有另一位研究人员，绞尽脑汁地继续争夺新一任的“天下第一”。例如，假设在一个得到广泛认可的基准测试中，“超自然”算法比前任王者“老靠谱”算法表现得更好，那么一位个人英雄主义爆棚的研究者就会横空出世并试图力挽狂澜。这位“大英雄”会证明，实际上有另一种名为“转移”（Diversion）的算法，在不同的基准测试中击败了“超自然”算法，于是后者便从云端一下子跌落到了尘埃里，因为它已经不能被称为最好的算法。尽管这位英雄澄清事实的举动出于善意，但这种围绕基准的激烈竞争分散了我们的注意力，导致我们只专注于性能表现的比拼。如果“超自然”算法是真正的突破，是通往新领域的踏脚石，那么它与“转移”算法之间的争斗，不过是一场不值一提的小打小闹，因为真正的大手笔，应该是对“超自然”算法的后续探索，即它衍生出的超“超自然”算法。同样，在人工智能研究领域，踏脚石才是真正万众瞩目的巨星。

本文摘自《为什么伟大不能被计划》，【美】肯尼斯·斯坦利、【美】乔尔·雷曼著，中译出版社2023年4月出版。

作者简介：

肯尼斯·斯坦利（Kenneth Stanley），全球创新思维和前沿科技领域的代表性专家、人工智能科学家，OpenAI（开放式人工智能公司）研究员。他曾任中佛罗里达大学教授，深耕机器学习领域，发表了80多篇专业论文，其中数10篇获得了最佳论文奖，并经常受邀在世界各地发表演讲。他还曾是Uber（优步）人工智能实验室的创始成员，在行业内具有卓著的影响力。

乔尔·雷曼（Joel Lehman），全球知名的人工智能科学家，OpenAI研究员。他也曾是Uber人工智能实验室的创始成员，目前在OpenAI做“大型语言模型（大模型）+演进算法”方面的研究，聚焦的领域包括人工智能安全、强化学习和开放式搜索算法。2022年，乔尔所率领的研究团队发表了一篇“神奇”的论文，首度揭秘了OpenAI的一项研究：大模型自己学习、自己写代码，然后自己“调教”出了一个智能体机器人——“成精了！”这也揭示了大模型的代码生成能力已足够影响智能体的进化，而这一进展反过来也能增强大模型的生成能力。这篇论文当时在科技圈和创投圈都曾引发爆炸式讨论。最近，乔尔还发表了一篇名为《机器之爱》的有趣论文。

《为什么伟大不能被计划》

【美】肯尼斯·斯坦利、【美】乔尔·雷曼著

彭相珍译

中译出版社

2023年4月出版

本书已在赛先生书店上架，欢迎点击图片购买。

两位作者持续多年扎根人工智能前沿领域，这本书是他们在科学研究的过程中蹦出的意外火花。因为这一全新发现并不是直接回馈于他们本身所处的人工智能领域，而是“无心插柳”收获了对人类约定俗成的思维方式的全新颠覆。这一研究打破了人类世界延续多年、难以撼动的、依靠目标和计划成事的文化基因，真正开启了人类伟大创新的惊喜之旅。

特别提示：赛先生书店所购图书可开发票，请在购书备注中留下开票信息（单位、税号和邮箱），确认收货后，由出版社开具。

欢迎关注我们，投稿、授权等请联系

[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章