OpenAI研究员肯尼斯·斯坦利：我从AI研究中，发现了人类思维的根本BUG

2023-07-09 13:07

在混沌“一”思维创新嘉年华活动现场，有人问肯尼斯·斯坦利：“在公司里创新扮演着什么样的角色？管理者或领导层，迎接AI应该做什么准备？”

他说：“对一些公司来说，不必整个公司试图创新，而是公司的一部分考虑创新，这对公司的某些器官或组织来说是一种保护。公司今年如何增加收入？如何增加利润？提出这种问题，实际上就会抑制创新。”

“我们研究人工智能的时候，发现了一个人类根本性缺陷。即‘单一的目标导向思维会阻碍创造力和创新’，这对社会而言是一个极其严重的问题。”

“人类在人工智能或机器学习领域的许多基准文化可能已落入歧途。算法的强大力量，并不在于当你真正建立一个目标时，它们做事情的能力；而在于，当你没有设定目标的时候，它们做事情的能力。”肯尼斯·斯坦利（Kenneth Stanley）说。

肯尼斯·斯坦利（Kenneth Stanley），OpenAI 研究员，全球创新思维和前沿科技领域的代表性专家、人工智能科学家。他曾任中佛罗里达大学教授，深耕机器学习领域。他曾是 Uber 人工智能实验室的创始成员，在行业内具有卓著的影响力。

在对前沿算法的研究的过程中，他意外收获了对人类约定俗成的思维方式的全新颠覆，在人工智能研发领域取得了飞跃式的突破和进展，产生了一系列惠及人类的伟大创造。

什么是“寻宝者思维”、“踏脚石模型”、“新奇性探索”？

今天，肯尼斯·斯坦利做客混沌“一”思维创新嘉年华活动。带来议题《为什么伟大不能被计划》，带你探讨人工智能带来的启发，习得创新的元逻辑。

混沌在上海滴水湖洲际酒店举办“一”思维创新嘉年华活动。打造一整座岛、两天两夜的共学场、2000位混沌同学参与其中。邀请张颖、李志飞、傅盛、叶军、韦青、OpenAI研究员……AI 全明星阵容空降授课，更有7/8-7/9两天线上直播免费开放，从4 大视角，为你讲透大模型时代的底层逻辑。

以下为分享笔记：

授课老师｜肯尼斯·斯坦利（Kenneth Stanley），OpenAI 研究员，人工智能科学家

编辑丨混沌商业研究团队

支持丨混沌前沿课

目标悖论

很荣幸能跟大家分享、交流。我的研究领域是开放性（open-endedness）机器学习。我们都知道，大多数机器学习算法，往往预设了一个优化目标，达成目标很重要。开放式算法与此不同，这一算法没有终点。它让机器具有无限的潜力和持续的创造力，可以在没有明确目标或终止条件的情况下不断演化和产生新的结果。

那什么才算开放性？什么进程是永远不会停止的？举两个现实世界中我们能体会的例子，它们非常具有启发性。

第一个例子是进化。从地球上的第一个单细胞开始，它不断分化并创造，经历数亿年甚至十多亿年，创造出了人类等等生物，进化的脚步永远不会停止。

第二个例子是文明。人类出现后，你会看到思想和文明的迸发，这个过程是宏大的，不可思议的。从火种和车轮一直演变到现在的计算机、空间站，文明不断演化，一直持续到今天。它不会停留在某个具体的目标上，只会持续向前发展。从某些方面来看，文明其实是人类最重要的创造发明。不断再造周围世界的能力，是人类智力的重要组成部分。

我们都是开放性进化的产物，而人类作为产物本身又创造了文明。

在这样的背景下，我想同大家分享一个故事。我们研究人工智能的时候，发现了一个人类根本性缺陷。即“单一的目标导向思维会阻碍创造力和创新”，这对社会而言是一个极其严重的问题。

不仅是机器算法，你会发现人类所做的一切，几乎都是以目标为导向的。但目标在我们处理重大事项时，有时反倒是无用的，无法帮我们实现创新。

举个例子，10多年前我在大学任教时，建立了一个网站Picbreeder。它可以帮助人们“繁衍”图片——用一张图片作为母图片，可以 " 生出 " 与之类似的许多子图片。这个技术和现代的图像生成技术是不同的。

如果你准备在Picbreeder繁衍图片，可以先自选一张图片，这张选中的图片就是下一代图片的父母。你可以转身去忙别的事儿，Picbreeder不需要任何指令就会继续繁衍，到最后，出现的图片可能是一只蝴蝶，一个头骨，甚至是木星。这个过程令人震撼。

我需要向各位解释一个非常重要的机制，它被称为分支（branching）。如果用户确实繁衍出一些有趣的东西，并且通过网站保存这一图像，相当于把图像公开发布。那么其他人就可以把这张图片为起点进行分支演化，也就是用这张图去繁衍，获得新图片。这意味着，在前人的基础上继续发现更多新事物。

这就出现了生物学家口中的不断发展的系统发育。就像一棵生命树，这些生命之树末端的叶子就代表着新的发现，而这些都是以一种看似偶然的方式被发现的。

大家可以看下面这张幻灯片上的图片，为什么会繁衍出现这些图片？我得出了一个惊人的发现。

有些人认为，想最终得到一只热带鸟的图片，只要选择看起来最像热带鸟的斑点，通过繁衍就可以得到想要的结果。但有趣的是，事情不是这样运作的。

如果你想用Picbreeder生成一张热带鸟的图片，肯定会失败，这就是以目标为导向的思维方式。能让我们繁衍出鸟类图片的东西，往往看起来并不像鸟。我们的世界是复杂的，臆断只会导致失败。一些人按照自己的想法去繁衍图片，最终的结果令他们感到沮丧。

那么，如果将它们作为目标来搜索无法成功的话，怎样做才能成功呢？我认为这就是事情变得更加深刻的起点。

再以Picbreeder为例回答这个问题。我用一张外星人脸的图片，繁衍出一辆汽车的图片。

首先有一个非常重要的前提，我最初的想法并不是繁衍出一辆车。当时，我只是看到了是一张像E.T.一样的外星人脸，觉得繁衍这张图片一定很有趣，可以得到更多的外星人面孔。

神奇的事情发生了，通过分支出来的图片，外星人的眼睛开始向下移动，这时我意识到外星人的眼睛正逐渐变成轮子，可能会演化出一辆汽车。

在演化的过程中有两个条件必须成立。首先，必须有人去完成我永远不会做的事（比如繁衍出一张外星人图片，供我选择）；其次，我不能带着目标去做事。只有这样，我才能获得我想要的发现。

让人震惊的是，这种繁衍方式，不是巧合。Picbreeder数据库记录了每一张图片的繁衍过程，记录了每一张热门图片背后的“踏脚石”，我们能够确切地知道每张图片是怎么来的。Picbreeder网站上的大多数热门图片，都有着完全相同的繁衍路径。

这其中蕴含着一个非常奇怪的寓意，你只有不带目的的寻找才能实现目的。这与我们的直觉相违背，也与我们对现实生活的认知相悖。

如果这条理论成立，人们就不能通过对目标的寻找来发现任何东西。

实际上，这条理论并不仅仅存在于Picbreeder之中，整个现实世界都是这样运作的，所有的复杂空间都有这个性质，这是一个非常重要的发现。

如果我没有通过外星人的脸发现那辆车，我就永远不可能意识到这一点，也不可能创造出后来的算法，也永远不会写《为什么伟大不能被计划》这本书。

当然，这也是一个可以用来理解“开放性”的例子，因为你永远不会知道，你走出的每一步会带来什么结果。

现在有更多的证据来证明这条理论。例如，这张图片中的蝴蝶和头骨是由随机斑点演化而来，各进行了74次、和90次迭代。但在另一个实验中，我们把生成这些图片当作目标，让15个孩子通过自主选择来生成这些图像，最后经历了3万次演化才得到了目标图像。这个结果是多么的疯狂。

我个人认为，这表明人类在人工智能或机器学习领域的许多基准文化可能已落入歧途。算法的强大力量，并不在于当你真正建立一个目标时，它们做事情的能力；而在于，当你没有设定目标的时候，它们做事情的能力。

如果你的目标是生成一张蝴蝶、头骨照片，这个目标会导致你忽略了这些踏脚石，事实上你更应该关注这些踏脚石，我称之为目标悖论。目标悖论的含义是，即拥有一个目标，会妨碍你实现目标。

这里需要澄清一点，目标悖论并不是要你没有目标，而是说当你没有目标的时候，更有可能实现创新。目标只会在简单的、非欺骗性空间里生效，解答容易的问题，有一个适度的目标并没有错。当你放弃目标的时候，你可能会做成伟大的事情，但是你不会提前知道这件事情是什么。

这就是我们面临的选择。

这个世界上，不可能有人在完成一件惊人的事情的同时又有一个目标。我们希望世界能以这种方式运作，但事实并非如此。这不仅是Picbreeder的运作结构，也是现实世界的运作结构。

人类总是在适度的目标中成功完成任务，相信并由此推断这一思维模式对一切都有成效，这是根本错误的。觉得每件事儿都会围绕目标运作，这是人类文化中产生的一种误解。

“新奇式搜索算法”和“发散寻宝”

在发现这一理论的时候，我还在研究计算机科学或者人工智能，对这个发现的兴趣完全是在算法范围内的。我和同事乔尔·雷曼在思考，也许我们可以发明一种新的算法，让它以非常反直觉的方式工作，不设立任何目标，我们称之为“新奇式搜索算法”。

举个例子。我们想训练一个两足行走机器人走路，想法是机器人走得越远越能获得奖励。传统机器学习观念认为，必须一小段一小段地走，机器才能学会走路。我们的训练理念是让机器人做一些与此前不同的事情，想法越新奇越好，这种探索未必是正确的，但只要机器人采用了一种新方法，就能获得奖励。

最后实验证明，新训练理念的最好结果要远远优于传统版本，这种违反人类直觉的结果令人震惊。学会走路的机器人，不一定看起来像在学走路。

新奇式搜索算法催生出了一个新的领域，高质量多样性算法。通过把有趣与高质量目标结合，找到多样性选项中的最佳结果。

在一个非目标导向的世界里，人类的本能之一就是想要追随有趣的事物，因为有趣可以驱动进一步探索。

简单来理解，要想实现最高目标，必须先愿意放弃目标。只有当我们没有真正想着这些目标时，或者当别人没有遵循你所谓的正确的道路以及符合你的利益时，才可能实现目标。

如果人们只做自己认为正确的事，就会忽略掉那些真正能帮你解决问题的“踏脚石”，忽略这些能够奠定伟大基础的东西。就好比，发现一张外星人的面孔，为繁衍出汽车图片奠定了基础。

从目标悖论的角度来看，合作可以导致趋同和共识，但是也将消除通向伟大事物的“踏脚石”。协作的含义是什么？当一群人一起进入一个房间，大家想要达成某种共识，想要找到某种正确的道路，这就导致了多样性的缺失，也带来了妥协。

有时在组织里不达成共识也是很重要的，人们必须跟随直觉，才能到达某种地点。我称之为发散寻宝。寻宝的人只是随便看，并不知道会找到什么。发散是因为每个人都有不同的方向。

这样的搜索过程没有目标，只是凭直觉在荒野中漫步，去发现有趣的事物。有人会认为我在赞美随机性，并非如此，这一过程还是遵循一定原则的。举个例子，人们在Picbreeder上选择图片不是出于随机，而是出于一定的喜好，而你的喜好一定不是随机的，而是由你的生活经历决定的。

非目标导向的演化过程是非常有趣的，比如Picbreeder和新奇式搜索，进化和文明可以看作是一个发散寻宝的过程，它们也没有最终目标，这才是现实世界的运作方式。

在发散寻宝的过程，收集“踏脚石”仍然是关键。

举个例子，Picbreeder的强大之处在于它运行的时间越长就会出现越多有趣的图像，这意味着我们可以找到更多有趣的事物。这就是踏脚石，这些图片不仅可以用来解决具体问题，还能不断发散、不断繁衍，最终繁衍出一个具有很高价值的宝藏。

人工智能时代应该如何创新？

为什么只有不设定目标才更有可能取得惊人的发现？这就是我们今天一直讨论的话题。我想通过《为什么伟大不能被计划》这本书，引起整个社会对这一问题的关注和讨论。

为什么人们要用目标来定义每一次伟大的努力？目标给我们规定了每一步，指引我们每一次行动，这种想法无处不在。我个人认为它是有毒的，抑制了创造力。如果人类所做的每一步都是根据生活中的某个目标来进行的、评估的，从出生到退休，那这段时光太令人窒息了。

IT技术的进步符合这种目标导向思维，人类制定性能指标，评估其表现，认为一切事物都必须向前发展。但如果我们只奖励目标上的东西，就永远不会发现有趣的技术。因为传统思维带有一种惩罚失败的意味。

另一种选择是奖励有趣的东西，这种方式会让一些人不安，但对另一些人而言却是解放性的。人类拥有的最好技能，就是发现有趣事物的主观本能。世界上所有的创新，都是因为人类有对有趣事物产生兴趣的本能，它不是随机的，而是基于人生经验的。

直觉会告诉我们什么是有趣的事物。我们应该倾听并讨论有趣的事情，即使讨论的一部分是主观性的。需要再次强调的是，目标导向思维，在某种程度上是成立的，比如那种最有抱负的目标，比如你想变得富有。

20世纪40年代产生的ENIAC是第一台计算机，这台计算机是怎么产生的？实际上促使其产生的是真空管。在第一台计算机出现之前，人们已经研究真空管150多年了。有趣的是，如果人们直接对计算机感兴趣而不去研究真空管，人类就不会有真空管和计算机。研究真空管的人并未将发明计算机当做目标，这再次体现了目标悖论。

再举一个商业案例，二十世纪七八十年代出现了电唱机，盒式磁带、音箱和各种盒式磁带播放器，之后是随身听、CD随身听和iPod。iPod是苹果公司发布的一种革命性的音乐播放器，但苹果的目标不是作出最好的音乐播放器，iPod成了一块通往iphone的踏脚石，最终那个引领性的产品是一部手机。

避免掉入目标悖论，超越狭隘的目标局限，这一能力对创新来说至关重要。

有人会好奇，在人工智能时代应该如何创新？从我目前的经验来看，考虑到目标悖论、目标神话以及新奇性搜索算法，我会给大家六点建议。

第一，看到这条路的前景，也要超越眼前的道路。超越的眼光十分重要，我们要超越眼前的路，而不仅仅只关注是否能走得更远。

第二，期待惊喜的出现。世界是具有欺骗性的，惊喜在等待着你，会发生的可能不会发生，而不会发生可能就会发生。

第三，准备好接受欺骗。即使看起来是在做正确的事情，结果也会是错误的，或者看起来是错的结果却是对的。所以，信念非常重要。可能所有人都会觉得你错了，但事实却会证明你所专注的事情恰恰是十分正确的。

第四，相信有趣的事物，质疑所谓的标准。人们喜欢设定标准，因为它们可以提供安全保障，这是一种评估形式。但人类社会并没有给予有趣适当的重视，我们应该相信有趣的事情，换句话说，你需要相信自己的主观判断，凭借你自己的人生经验。

第五，不要随波逐流，而要追随有趣。每当有任何抓眼球的事物出现时，人人都会随波逐流，但恰恰是那些不起眼的事物才值得我们率先关注，因为它们可能会创造巨大的价值。

第六，不起眼的事物可能带领人们去到全新的领域，即使当下我们未能察觉。这就是生活中人们必须接受的不确定性。

最后，还需要特别注意的一点。追求有趣的事物，并不能保证你一定会做出惊人的成就，你只是有取得成功的可能。所以，你必须学会接受一定程度的风险。如果你不想在生活中冒险，就做一些安全简单的事情，这虽然不会给你带来伟大的成绩，但也能够让你取得相对不错的结果，这只是个人的选择而已，无论是否以这种方式成为真正的先驱，这两种选择都是完全可接受的。