AI的“智能涌现”，对你意味着什么？

公众号新闻

2023-08-02 13:08

内容来源：本文为公众号MindCode首发，作者文君将在8月8日与柯洲在“柯洲-商业知识总结专家视频号”连麦直播。

责编 | 金木研
第 7595 篇深度好文：13812字 | 35 分钟阅读

硬核科技

AI大模型存在智能涌现的现象。当规模超过约600亿参数时，它们将展现出前所未有的新能力，这就是我们所说的“智能涌现”。

为什么会这样？业内仍在探讨，尚无定论。

今天这篇文章，我将以最简单易懂的语言，让你理解AI大模型中智能涌现的现象。

你多半会说：“我哭死，连专家都还没有弄明白的事，你居然想用一篇短文教会平凡的我？”

别这样，你要相信你自己，学术界尚无定论的议题，不代表普通人不能理解，因为理解一个现象和用公式证明它是两码事。

在数学领域，有许多命题难以证明，但你却可以轻松理解。例如，你明白1+1=2，但要严格证明这个等式，却需要使用研究生水平的数学知识。

在物理学领域，情况更是如此。人类利用了许多现象却不了解其原理，例如骑自行车——为什么超过一定速度，车就不会倒？这个物理原理至今未明，但亿万人每天仍然骑车不倒。

还要强调一点：相比从数理上证明一件事，从直觉理解一件事，并不“肤浅”。正确的直觉理解恰恰可指导后续的数理证明。

爱因斯坦曾意识到要推导相对论，他必须先“体验”相对论，因此他花费许多时间去思索“一个人坐在光上会看到什么”。

相反，如果你能用方程描述一个现象，却不能从直觉上理解它，这往往意味着你并未真正理解，理查德·费曼曾说过：“尽管我们能用公式计算，但我敢说没有人真正理解量子力学”。

真正的挑战也许是：要使用简明易懂的语言，让普通人从直觉上理解“智能涌现”这个概念，本身是一个极具野心且难以完成的目标。

既然如此，那为啥还要挑战它？因为理解“智能涌现”这个概念，对你价值巨大。

读完本文，你会看到，当你从直觉层面理解“智能涌现”这个概念后，它会成为你思考其他AI问题的基础；成为你构建更大、更复杂思维的“乐高积木”。

这意味着，对于AI的发展，你将更有洞察力和预判力，相关概念，你能懂、能用、还能拿去在朋友面前装个x。

好，不多说了，赶紧上车，我们出发！

一、图片实验

为了让你理解“智能涌现”，下面将做一个实验，我称之为“图片实验”。

第1步：请看下图

请问你看到什么? 四个色块对吗？

还有其他吗？仔细看，集中注意力，用力看!

——还是四个色块呀，你说。

但若我说图中藏有秘密，你能看出来吗?

第2步：看不出来？再看这张图

有什么发现吗? 更多色块? 还有别的吗？

——没有别的呀，你说。

第3步：那我们继续，这张图

这次你发现什么没? 深入观察！图中藏有秘密！

还是看不出来?

第4步：我们加快速度，再看这张图

看到了什么没？

是不是…好像看到点啥？但具体是什么呢?

仔细看，并猜一猜！

第5步：好，再接再厉，这张图

是什么？看出来了吗？（线下进行这个实验时，部分人能依稀看出来。）

第6步：最后一次机会，这张图呢？

哇！看出来了，对不对？简直不费吹灰之力！

没错，不仅你看出来了，所有人到这一步都看出来了，且毫不费劲：一艘船、水面、远山、太阳、云朵、树木，以及整体的圆形。

恭喜你，就在刚刚，你亲身体验了一次涌现。

从第1步到第6步，每次图片的像素规模扩大4倍，分别是：

第1步：2x2 = 4个像素色块

第2步：4x4 = 16个像素色块

第3步：8x8 = 64个像素色块

第4步：16x16 = 256个像素色块

第5步：32x32 = 1024个像素色块

第6步：64x64 = 4096个像素色块

“图片实验”的结果是：前4步无人看出，第5步极少数人能依稀辨认，而到了第6步，突然所有人都看明白了。

图片在第6步突然有了意义，这就是涌现，一种突然的理解、突然的获得；在涌现之前毫无痕迹，在涌现后轻而易举。

你可能会质疑：也不是很突然吧，毕竟第5步就有人隐约看出来了。

说得很对，而这正是涌现的特征：涌现存在一个临界点（下文中又叫“阈值”），在这个点附近，涌现不是一定发生或不发生，而是会不稳定地发生。

反过来，当观察到涌现在不稳定地发生时，我们就可以据此确定：当前的要素规模（比如像素规模）正好处于涌现的阈值附近。

在上述“图片实验”中，由于图片的像素规模在32x32这个附近时，涌现变得不稳定，具体表现为：有的人能看出图里的内容，有的人看不出；有时这张32x32的图能看出，另一张32x32的图却又看不出，我们可以据此认定：32x32的像素规模就是一张图片涌现出意义的阈值。

请注意，图像是否能涌现意义，只与像素规模有关，而与图像大小无关，图像太小看不清是一个单纯的视力问题，用放大镜就好了，而像素规模小造成的“看不清”，无论什么镜都帮不了你。另外，把32x32定为图片涌现图像意义的阈值，这是一个经验值，我们会在后面反复用到它。

在本文最开头我们说：AI涌现新能力的阈值是在600亿参数，也就意味着一个参数规模在600亿左右的大模型，会表现出不稳定的高级智能：有的问题它能回答，但稍微改变一下问法，它可能就懵了；同样的问题，这次它能答对，下次却又错了……等等。

这恰恰是目前很多人使用大模型时遭遇的处境。

你可能还会质疑：第五步图片的像素规模是32x32，第六步是64x64，这之间差距可不小啊，怎么能称之为“突然涌现”呢？多了这么多像素，一点都不突然嘛！

很好的问题，关于“涌现为何发生？”学术上有很多种解释，其中一种解释是:

宏观涌现可能只是构成系统的微观因素的线性变化的结果。

说人话就是：微观的渐变，引起宏观的质变。

但要我提醒你的是：微观渐变并不能否定宏观的质变（即突然地涌现），宏观的质变也不能简化为微观渐变。

举个例子：沙堡是由沙粒组成，但沙堡会崩塌，沙粒不会，“坍塌”是成规模的沙粒涌现出来的宏观特性。

以上我们通过“图像实验”直观体验了什么是涌现，然后回答了两个关键质疑，一个涉及涌现的稳定性和阈值，另一个涉及宏观与微观的关系。

恭喜你，你已深入探索了涌现的本质，也许你没有意识到，在直觉层面，你对涌现的理解已经跟这个领域的顶尖科学家差不多了，只是他们还将用数学语言做进一步研究，而你停留在直觉理解——已经很够用了，想想爱因斯坦。

二、“图像实验”中的涌现，

跟AI大模型的智能涌现是一回事

你可能会问：“图像实验”中的涌现，跟AI大模型的智能涌现是一回事吗？

就是一回事。

唯一的不同是，它们一个是通过扩大像素规模产生涌现，一个是通过扩大参数规模产生涌现。

你可能还担心：所以，我们只是在用类比的方式去近似地理解AI大模型的智能涌现吗?

当然不是。

类比是很重要的思维方式，但运用不当会得出荒谬结论，比如：把天体运动和人生命运进行类比和关联。

我们上面的讨论不是类比，而是对AI大模型的智能涌现所做的直观、准确、本质的体验和理解。

在这个过程中，我们唯一使用的技巧是——“降维”。

人类几乎无法理解和想象高维系统，而AI模型恰恰拥有海量维度，要想从直觉上理解它的涌现现象，不太可能。所以我们降维，用二维图像来完成对涌现现象的理解过程。

是不是觉得理解起来很轻松？甚至觉得，这么轻松就能理解，大约也没啥价值吧？

那我们就来谈谈理解涌现对的价值。

所以，从直觉上理解了AI的智能涌现，对你到底有什么价值呢?

价值十分、非常、无比重大。

对创业者，这将帮助你看清AI发展前景乃至终局——终局思维有多重要，不用多强调。

对从业者，这将帮助你理解AI能力的本质，指引你的工作。

对所有人，这将帮助你在AI时代拥有更好的预判力、适应变化的能力。

说得好像很务虚？来点具体的。

无论你是创业者、从业者还是普通人，当你从直觉上理解了智能涌现后，你将能更好地理解以下7个极深刻的问题。

问题一：除600亿参数规模外，还存在其他阈值，可以让AI发生智能涌现吗?

目前确实有一种观点认为：没有了，从千亿级的参数规模再往上，AI不会再有新的“顿悟时刻”。

但当你理解了涌现，你就会意识到这种观点一定是错的。

我们还是拿“图片实验”来回答这个问题——插一句，好的实验就是这样，可以回答不同现象和不同问题。

看下面这张32x32的图：

也许你大约能看清楚，图里是一个人拿着一把红色的扇子。

但无论你怎么看，哪怕用尽全身力气，你都不可能“看清“这个人到底有没有挥动扇子，因为要涌现出”挥扇子“这一事件，至少需要两张图，像下面这样：

做成动图就是这样：

前面我们说了，一张图至少要有32x32个像素才能涌现图像意义。

而这个例子告诉我们：要涌现一个扇动扇子的事件至少需要两张32x32像素的图，即至少要2x32x32=2048的像素规模才能涌现。

所以，让图片像素实现涌现的阈值不止一个，要涌现不同能力，需要越过不同的阈值。

图片是如此，跟图片等价（只是维度更高）的AI模型也是如此。所以，600亿不会是涌现的唯一阈值，甚至可能不是最关键的那个。

而这就牵扯出第2个问题——

问题二：随着AI参数规模的增加，AI的能力会持续提升，但这会有上限吗?

答案是肯定的，又是否定的。

什么意思？

首先，AI能力一定会随参数规模扩大而增强，并且一路向上，跨越一个又一个能力涌现的阈值。

其次，人类对AI进步的感知，会受到阈值的深刻影响，表现为，刚突破阈值时，兴奋不已，之后越来越习以为常，直到突破下一个阈值时情绪再次high起来。

第三，但最终人类将抵达这样一个临界点：越过它后，人类再也无法感知到AI的进步——即便它依然在大幅进步和突破新的阈值。

要形象地讲清这一点，就又涉及到第3个问题——

问题三：未来二十年你将会如何感受AI？

以下将是你与AI的未来：接下来二十年里，每当AI的参数规模跨过一个新的阈值进而涌现出新的能力后，你都会强烈地、清晰地感觉到AI能力的提升，但之后，即便AI的参数规模仍在扩大，你对它进步的感知会越来越弱，直到AI再次跨越下一个阈值，你才会再次“哇哦！”。

为了更好地让你想象这样的未来，我们拿图像来类比：过去十几年，iPhone屏幕分辨率在持续提高，但最让人惊叹的始终是iPhone第一次发布视网膜屏幕那一年，之后，虽然每次新iPhone发布都会强调屏幕又升级了，你却越来越难感知到屏幕的变化。

尤其这两年，拿到新款iPhone时，你多半会说：屏幕好像…是比上一代iPhone又好了些，好像是吧？但具体的…我也说不上来。

而最有趣的地方在于，在你使用新款iPhone几个月后，如果再次开机旧iPhone，你多半会感慨：“呀！老款iPhone的显示原来这么拉垮啊，怎么我之前用的时候不觉得？”

下面这两张图就展示了这样的情况：

上面两张图，像素规模差了4倍，你看出来了吗？

你多半很难感觉到差异，但又觉得“似乎是有点不一样”。

未来，你与AI的故事也将是这样：每当AI涌现出新的能力，你会“哇哦！”一下，之后，虽然每一代AI都在进步，你却越来越难感到差别，逐渐陷入一种”是有点不一样，但说不出来”的感觉里。

未来的你会说：“ChatGPT14好像确实比ChatGPT13更善解人意一些，但具体好在哪里我也说不清楚。”

不过即便如此，你打死也不会回头去使用“上一代AI”。

这是今天正在发生的事：使用过GPT4后，很多人会很难再回去使用GPT3.5，即便在某些任务上二者表现差不多。

这种感觉不到AI进步的局面，将一直持续到AI的参数规模跨过下一个阈值，然后新能力涌现，你又会大声地“哇哦！”。

故事到这里还没有结束，终有一天，你以及整个人类将彻底地感知不到AI的进步，即便它依然在飞速进步、跨越阈值。

为什么？

再次拿图片举例。人类对图片的精细度存在一个终局性的感知上限一样，这个上限就是人眼的分辨率，具体数值还有争论，但这个上限是硬性存在的。

同样的，人感知智能也将有上限。是多少呢？目前没人知道，但我猜测是在100万亿参数这个量级附近。

这是人脑皮质中神经连接的数量级，具体的，我们会在后续文章里做进一步探讨。

有句话是这么说的：当你遇到一个人，你说什么他都能理解，你们沟通无比顺畅，跟他在一起时你感觉自己聪明、自信、有魅力，你觉得找到了人生伴侣、灵魂伴侣。那99%的可能性是你遇到了一个情商智商都很高的人，他在对你向下兼容。

这就是你跟AI的未来。

当AI智能超过到人类感知的上限后，面对AI你不会自卑，相反会更加自信，你会觉得自己更聪明，你会更愿意跟AI相处，你甚至会爱AI 胜过人类，“他/她”是你的Soulmate。

……

以上三个问题还算比较温和，下面我们来点硬核的。

问题四: 什么是“知识压缩”，它跟AI有什么关系?

”知识压缩“是过去几个月被讨论得很多的一个概念，理解它对理解AI有巨大的意义。但很难用人话解释清楚，其大意是：对完成某个任务有效方法的最小描述长度代表了对该任务的最大理解，因此我们可以通过比较不同AI模型对同一个任务的描述长度（即压缩效率）来评价AI大模型对该任务的理解能力。

看，很难理解吧？

不过，当你从直觉上理解了智能涌现，情况就不一样了。

让我们再次回到“图片实验”——再重复一遍，好的实验可以解释不同的现象和回答不同的问题。

我们已经知道：

当图片像素规模不断增加，突破阈值后，图片将突然涌现出有意义。
“图像实验”则告诉我们这个涌现的阈值在32x32=1024像素规模。
当像素规模就在阈值附近时，图片将不稳定地涌现出图像意义，具体现象就是：只有少部分人能隐约看见图像内容。

但请你看下面这张图：

看出来是什么了吗？

绝对多数人都能看出来——蒙娜丽莎嘛！

问题来了，这张图的像素规模只有16x16，远低于阈值。

按理说，即便是像素规模达到32x32，涌现也是不稳定的，只能让少数人看出来。为什么这幅图这么特殊，绝大多数人都看出来？

因为你见过它。

如果把这张图拿给从没见过《蒙娜丽莎》的人，他们将无法分辨。

就像大部分人看不出下面这张图——

你看出来了吗？多半不行。

但如果你看过这幅名画，会一眼认出来：这就是克里姆特的名作《吻》。

你甚至可以轻易地指出正在亲吻的两人是什么姿势、轻吻的位置在哪里。而没看过的人，则一脸懵逼：我是谁，我在哪里，你们在说什么？

如果上面两张图你都能看出来，我们可以说：你比那些只能看出一张图的人有更多的美术知识。

更进一步，如果有一千张这样的图你都能看出来，我们可以说：你在绘画方面有丰富的知识。

我们在说什么？

我们在说，有一个东西可以让图像在远低于像素规模临界点的情况下依然稳定地涌现意义。

这个东西叫做——知识。

实际上，通过体验那张模糊的蒙娜丽莎，我们可以很直觉地理解知识、涌现、压缩之间的关系：如果你掌握了某张图片的知识，那么，即便该图片被过度压缩，你依然可以让它在你面前涌现意义。

而你肯定还知道另一句话：知识就是对万千现象背后的规律的总结。

这句话本质是在说：所有的知识，所有、无一例外，本质都是一种“压缩方法”。

因为知识就是对现象的规律性总结，当我们说“这个知识概括、总结了一系列现象”，我们本质上是在说这个知识压缩了这些现象！

上面两句话都很好懂，但将它们联系起来就很厉害了，将不仅让你能理解为什么你可以看清极度模糊的蒙娜丽莎，更能让你理解AI工程的本质——而这正是我们的目的。

以下是一些从这两句话中引申出来的重要结论：

知识就是压缩方法。
训练大模型的目的就是寻找压缩方法（知识）。
训练大模型的过程本质是一种“尝试-验证”的过程：大模型猜测一个可能的压缩方法，然后验证它是否正确。这个过程会重复很多次，消耗巨大的算力。
那么，如何验证一个压缩方法（知识）是否正确呢？要满足两个条件：首先，这个方法（知识）确实可以让数据被压缩，比如一张蒙娜丽莎图片；其次，逆向使用这个压缩方法时，还能够让压缩后的图片依然涌现原本的意义。
如果一个压缩方法（知识）压缩率很高，还原度又很高，我们可以说：这个压缩方法（知识）更具有本质性。
除了AI，你的大脑也是这么工作的，当你第一眼看到蒙娜丽莎时，你的大脑就完成了上面所有的步骤。

关于“知识和压缩”的议题，限于这篇文章篇幅所限就讲到这里，后面还会有其他文章做进一步探讨。

但我们不禁要问：所以，找到压缩方法（知识）就意味着实现了人工智能吗？

并不。知识不等于智能，而这就引出了下面第5个重要问题——

问题五：什么是智能？

以下内容包含部分原创性的认知（当然也可能早就有人说过，只是我不知道）。

我尝试鲁莽地给智能下一个定义：智能不是一个状态，而是一个过程。并且，智能不是任何别的过程，它必须是一个生成过程。

怎么理解这句话？还是回到我们的“图像实验”，以及上面问题4中的蒙娜丽莎。

如果你可以从一张别人无法识别的图片中看出来它是蒙拉丽莎，那这个过程其实可以表述为：你基于你的知识，外加一张模糊的图生成了蒙娜丽莎。

实际上，你大脑确实是这么工作的，回想一下，当你看到上面在那张16x16像素的图时，发生了什么？

你的脑海里是不是出现了（生成了）蒙娜丽莎大致的样子？并出现了（生成了）一些细节，比如她手放的位置，她的眼睛，乃至她那神秘的嘴角？

毫无疑问，这一个生成过程，这是一种智能表现。

但这不是一个高级智能，因为与其说它是在生成，不如说它更多的是在还原。

什么意思？

举一个直觉上很好理解的例子：如果一个学生A看了例题后，可以背着把例题做对，我们可以说，这个学生掌握了些知识，但如果他只会解这一道例题，显然不能说他学得好。

高级的智能肯定不是只能做对例题，还必须能用这个知识做对别的题。在术语上，这叫“泛化能力”。

啥叫“泛化能力”？

下面，让我们从直觉上理解一下什么是“泛化能力”。

假设另一个学生B，他看了例题后不但做得出原本这道例题，还能做出更多题来，我们显然可以认为他学得比A好。

但为什么B能比A解答更多的题目呢？这中间发生了什么？唯一的解释是：学生B找到了更多的压缩方法（知识），因此相比A，学生B才能压缩（总结、概括、解答）更多的题目。

所以，什么是泛化？你明白了吗？这里需要你回想一下你已经从直觉上理解的“涌现”……

下面给出我对泛化的定义：所谓泛化能力，本质是成规模的知识涌现的结果。

我不知道，有没有别人从这个角度定义过泛化（ChatGPT告诉我没有），但我真的认为它是一个直指本质的定义。

而且最重要的是，它符合人们的直觉理解：我们平时怎么形容一个有智慧但智慧不高的人？

我们会说：“这人只能依样画葫芦”。什么叫依样画葫芦？不就是能“还原”嘛。

我们又怎么形容一个有高级智慧的人？

我们说：“这人能融会贯通！”

融的是什么？贯的是什么？许多知识嘛。

顺着以上的理解，关于智能的本质，我们可以写n篇文章。同样的，限于篇幅所限（用费马的话叫做，“此处空白太小我写不下”），我们先做一个总结，直接给出几个很重要的结论：

知识就是压缩数据的方法，寻找压缩方法，就是在寻找知识。
当我们正向使用压缩方法（知识）时，可以压缩（总结概括）数据；当我们逆向使用压缩方法（知识）时，则可以让被压缩后的数据涌现出原貌。
智能不是一个状态，而是一个过程。并且，智能不是任何别的过程，它必须是一个生成过程。
低级智能以还原主要表现。高级智能则拥有更强的泛化能力。而泛化本质是大量的、成规模的知识涌现的结果。
你电脑里那个小小的压缩软件就是一种人工智能，只不过它是一种原始、低级的人工智能。它的压缩算法（知识）数量有限，这造成它主要做的是还原而非生成。
在进化领域，有一种叫做“前生命体”的东西，指的是一种在进化上介于“生命和非生命”之间的物质。它极其简单，缺少某些连最原始细胞都有的细胞零件，但它呈现出生命特有的物质交换特点，它是所有生物最早的祖先。压缩软件就是一种“前智能体”，它介于“智能和非智能”之间。
在训练AI大模型的过程中，不存在无损压缩，也不应该追求无损压缩（即预测无误差），误差（Loss）是智能涌现的必要条件，它的本质是知识之间不可避免的“空隙”，以及知识之间的不可调和。

对于已经从直觉上理解了涌现、压缩、知识、泛化等等概念的你，以上这些结论应该很容易理解。

特别提醒一句：如果你是AI领域的从业者，上面对泛化的理解可以很好地指导你的工作。比如，选择训练数据集的技巧，就可以从这条结论中推论出来。同时这条结论还可以让你从一个全新的角度去理解训练误差（Loss）。

Anyway，当你理解了什么是智能，你就能理解下一个问题——

问题六：OpenAI到底做对了什么？

关于OpenAI的成功已经有很多论述，但下面要讲的你一定从未看到过（如果你看到过，当我没说）。

让我们再看一看那个压缩软件……

在问题5中我们说了，你电脑中那个小小的压缩软件就是最原始的智能体，我们还说了它之所以原始是因为它掌握的压缩算法（知识）数量有限，这造成它主要做的是还原而非生成。

我们不禁要问，是什么造成了压缩软件的悲剧？这一切的是人性的扭曲还是道德的沦丧？

其实压缩软件最大的问题是：它的压缩方法（知识）是开发者写进代码里的。这就造成它的压缩算法（知识）不会太多，只能是寥寥几条。

同时，为了有商业价值，压缩软件本来就是以“精确还原”为目的去设计和开发的，你显然不希望明明解压的是”美女帅哥.rar”，得到的却是 “葫芦娃全集.mp4” 。

压缩软件没有拥有海量知识的“福报”，也没有去生成数据的“使命”。

相比压缩软件，AI工程的最大特点是搭建了一套训练架构，可以让AI大模型自行寻找可能的压缩方法（知识），这样的架构存在两个优势：

一是，只要算力和数据够，它可以尽可能地寻找所有的压缩方法（知识），这里面将包括海量的、人类没有找到的压缩方法（知识）；
二是，由于AI是自行从数据中寻找压缩方法（知识），因此AI天然地具备反向利用压缩算法进行生成的能力！

在ChatGPT出现以前，AI的训练架构就已经是这样了，基于这套架构诞生了很多AI应用，比如人脸识别软件、翻译软件，它们的智能表现远远超过了压缩软件，以至于过去10年被称为AI 1.0时代。

但为什么它们远不如ChatGPT让你惊叹？为什么我们会说ChatGPT开启了AI2.0时代？

原因恰恰在于绝大多数人低估了、甚至没有意识到上面那两个优势具有“第一性”。

过去10年，绝大多数研究者、工程师们都没有意识让AI自己去找压缩方法（知识）这件事极为重要和有价值，几乎所有研究者都自负的认为：应该是由人类来教会AI压缩算法（知识），而不是AI自己。

为什么大家会这么想？是傻吗？显然不是。

这背后的原因是：教AI压缩算法（知识），比让AI自己去发现算法要轻松得多。

干过管理的人，应该很容易get到这点。有时候把一个活儿分配给新手干，还不如自己亲自干轻松。

尤其考虑到让AI自己干所需要的算力、数据量，你就更明白这样选择的合理性。假设一个活儿，实习生干要花1000万，你亲自干只需要1000块，你怎么决策？

更不要说，你在一开始完全不知道需要1000万还是1000亿，你面对的风险是：这活拿给实习生干，没准能把公司干垮100次，还没有结果。

本质上，研究人员陷入了某种“求职悖论”：除非实习生有这个能力，否则你永远不会让他干这个活儿；但如果你不让他干这个活儿，他就永远不会有这个能力。

除了上面这个原因，还有第二个原因同样重要：过去10年，人类没有意识到高级智能必须是一个生成过程，生成和高级智能本质是一回事。这意味着，人们没有意识到必须以生成为目标去打造人工智能，否则人工智能就不会智能——至少不会非常智能。

为什么大家没有意识到这些？是傻吗？也不是。

这背后的原因是：人们一直误以为，生成不过是人工智能达到一种程度后，其发挥价值的商业场景之一。

正是因此，当生成能力不成熟时，没人会想到要把生成能力作为首先和首要的目标，人们会选择把理解、识别这些能力作为目标，因为甲方爸爸会为这些成熟的能力买单。

由于没把生成作为目标，AI的智能就上不来，智能上不来，就更没有人考虑把生成作为目标。

这又是一个“求职悖论”。

要打破这个悖论，需要有这样一群人：一方面他们要在算力和数据投入上不计代价，这才能给AI机会，让AI自己可以大规模地发现压缩算法（知识）。

另一方面，他们要在商业上不计回报，不以任何具体使用场景为目标，而仅仅以生成为首先和首要的目标，这样才能给AI机会，让AI可以去尝试逆向使用压缩算法去生成，然后持续调优。

而这就是OpenAI的故事！

很多人没有看到事情背后的悖论，把OpenAI的成功简单的归结于大力出奇迹、有AGI信仰。真相却是OpenAI完成了两个悖论的解套。

尤其第二个悖论，根据目前的线索看，OpenAI自己直到ChatGPT推出前夜，也没有充分意识到生成的重要性——他们意识到了它非常重要，但依然低估了它。

而对于第一个悖论，很多知名的专家至今很难接受，Rich Sutton作为业界的大神，曾在2019年发表过一篇名为《Bitter Lesson》的著名短文，文中感叹：过去70年的AI发展史证明，在算力上追求大力出奇迹才是最有效的方法。

Sutton 用几个AI史上的著名案例证明了他的观点，但纵观全文，至少Sutton在写他这篇文章时没有想明白为什么“大力”就可以出奇迹。

我不清楚Sutton现在是否想明白了，但我想你现在应该搞明白了。也许整个故事里面最重要的一点是要意识到：强大的泛化能力是从成规模的知识中涌现出来的，而要获得成规模的知识，唯一的办法是让AI自己去找，而这需要算力。

所以，哪里有什么大力出奇迹，海量的算力是基础，是前提，就像水到100度才能开一样的必然。当然这种必然，需要有勇气的人才能发现。

所以，你是说让AI自己去发掘海量的知识，把它们堆成一堆，就能涌现强大的、有生成能力的智能吗？

显然不能。这就引出了我们这篇文章最后一个议题——

问题七:什么是“世界模型（world model)”？

让我们再次回到“图片实验”。

需要澄清一点：我们说，像素需要达到32x32的规模才能涌现出意义，但并不是说，达到了32x32的规模，像素就必定涌现出意义，也可能只是一个有32x32个像素的“垃圾堆”。

规模是必要条件，但不是充分必要条件。

同样的，如果要让一堆知识涌现出高级智能，也需要将知识按照一定的层次结构组织起来。

实际上现有的包括ChatGPT在内的大语言模型就很好地完成了这个动作。

但ChatGPT就是AI的终极形式吗？接下来的工作就是在原有基础上持续优化，让AI从语言乃至图片中（从编码角度看图片其实也是一种语言）挖掘出更多的知识，涌现更好的智能？

一定不是。

为什么这么肯定？

作为一个基于文本训练的模型，ChatGPT等大模型主要掌握了关于语言本身的知识（比如语法），以及可以用语言（包括数学语言）描述的知识，这是一个伟大的成就，但十年后我们回看今天，我们会发现这只是渺小的开端。

因为大量知识是无法用语言表达的，且数量上远多于可以被语言表达的。

不信？请你用语言准确的表述一下什么叫做：“难过”、“高兴”、“豁然开朗”、“绿色”…

这就引出一个问题，如果我们可以穷尽所有知识，我们应该用怎样的形式让这些知识涌现出更强大的智能？

这个答案就是世界模型。

这大约是一种把成规模的知识以精细的层次组织起来的模型架构。

世界模型并不是一个很新的概念，几十年前就有研究者在思考。以至于当图灵奖获得者、Meta的首席AI科学家Yann Lecun 提出“世界模型才是AI的未来”时，受到了不少人的嘲讽，人们认为他是在“新瓶装旧酒”。

OpenAI的首席科学家Ilya就在访谈中认为，世界模型不是一个值得深究的概念。他唯一承认的是，也许世界模型有价值，并且很高效，但仍然嘴硬地认为不是必须。他甚至恰好用AI如何理解“绿色”作为例子，来证明自己的观点。

他说：一个AI哪怕没有眼睛，也可以通过理解海量的文本，最终理解绿色。

我认为，如果Ilya不是兵不厌诈、误导竞争对手，如果他是真的这么想，OpenAI其实很危险。是的，盲人是可以理解绿色，但毕竟还是盲人啊。

“这个世界上，最怕的事情恰恰就是‘新瓶装酒’ ”——乡村教师代言人·马老师

所以，说了这么多，到底什么是世界模型？能不能下个定义？

由于人类还是认识它的路上，对它的定义有很多，但我认为其中有一个最好也最简洁：世界模型就是外部世界的内部模型。

啥意思啊？什么外部？怎么又内部了？

别急，下面我将依然尝试帮助你从直觉上理解这句话。

思考一个问题：台球运动员是怎么打台球的？

一个台球运动员，可以不知晓“球体碰撞物理学”，却可以无需计算动能、动量，仅凭对球体碰撞的直觉把握，就可以击球乃至赢得比赛。

他是如何做到这点的呢？分两步：

第一步，他通过练习（本质是反复观察台球碰撞这一现象），积累了对台球碰撞、走位的直觉理解。

第二步，在击球前，他不是拿出小本本来计算物理公式，而是在脑子里模拟击球的球路、碰撞后的走位，俗称“过电影”，然后——挥杆击球！

每个专业台球运动员的脑子里都有一个台球桌，桌上有球。这个脑中的台球桌就是外部真实台球桌在脑袋内部的模型。

而世界模型不过是这个台球模型的扩大版，它是在脑袋内部建立一个外部世界的模型。

我们每个人的脑子里都有一个这样的模型。

就像台球手不计算物理公式，而是让脑中的模型“动”起来、去模拟真实台球一样，我们思考时，也是如此。

想象一下，当你思考“明天怎么跟老板谈加薪”，脑子里会出现什么？——老板的办公室、老板、你自己……，然后你会让这些东西在脑子里“动”起来。

简言之你的脑子里在“过电影”。

在这部电影里，所有你了解的关于这个世界的知识会以特定的层次组织起来，比如：

你和你老板的动作要符合物理定律，你的老板不会一挥手就飞了起来。

你和你老板的行为要符合你理解的社会法则，你的老板不会突然掏出一箱金条给你（哪怕你非常希望这件事发生）。

甚至哪怕你和你老板吵起来了，也要符合生理学，你的老板不会从嗓子里发出超声波。

……

最终你根据模拟的结果去行动。在这个过程中有语言吗？有，但不是全部，甚至可能不是最重要的东西。

通过模拟一个台球桌，模拟一个办公室+老板+自己，就可以去比赛，去加薪。那如果有一个AI能穷尽整个世界的知识，并在它的神经网络里将这些知识以特定的层次组织起来，然后让这个世界“动”起来，会发生什么？

它会拥有远高于现有AI的智能。

怎么理解这种“远高于”？

举个例子：文学上，这样的AI可以写出《红楼梦》级别的著作。

实际上曹雪芹在写作红楼梦时，脑中就有一个精细完整的荣府、宁府模型，以至于书中那些关于支出进项的片言碎语汇集起来，居然是一本很清晰的账目，可以撑起后世学者进行相关的经济学研究。

再举个例子：科学上，这样的AI可以自行发现新的物理学定律。

一个爱因斯坦+曹雪芹水平的AI…想想就让人激动。也许下一个评估AI智能的标准就是看它能不能续写《红楼梦》后40回。

这不是在讲科幻，你要知道，在十年前乃至五年前的人看来，今天的AI已经很科幻了。你更要知道，乐观预估AGI（通用人工智能）将会在2027年出现……

同样，关于世界模型的话题，我们还可以讲很多，先就此打住，这里直接给出一些有价值的结论，不少是我的原创思考（可能别人也说过，但我不知道）：

世界模型是未来，大语言模型不是。
世界模型是多模态的，但多模态AI模型不一定是世界模型。
视频数据将在世界模型的故事中变得极为重要。无论是训练还是生成。
世界模型的进入门槛很可能不高。
世界模型一定是大小模型协同的架构，且很多地方是小模型指挥大模型，而不是相反。
“类脑架构”是世界模型的一个可能选项，但一定不是终局。
OpenAI对于ChatGPT所做的RLHF（基于人类反馈的强化学习），本质上就是在搭建一种初级的世界模型——它将人类的社交禁忌知识，用“人肉”的方式告诉AI，并要求AI把这些知识置于其他知识的下方，成为其更底层的“信念”。
世界模型也不是AI的终局，更之后的智能，将在更高维度涌现，比如从1000万个智能体的协同中涌现出来。
进化论的思想需要更多地被引入到AI领域。涌现、复杂性科学、脑科学、心理学等等也是。
世界模型是“模拟”的，而不是计算的，对这个世界的各种规律，它将拥有有层次的、直觉的理解。

文章写到这里，呈现出一种美妙的闭环：一开始，我们是以“从直觉上理解AI”为目标而出发的，绕了一大圈后回来却发现，AI的终局恰恰是“让AI从直觉上理解世界”。

关于世界模型这个议题，我们在后面的文章里作更进一步探讨，这里唯一需要再啰嗦几句的是：如果你是一家宣称致力于大模型的公司，请你务必严肃认真地思考“世界模型”这个议题，不要因为它还很遥远就搁置一边。

你要从计算机、认知科学、脑科学等多个维度去考虑它，这很重要。

实际上，一旦你涉足了这个领域，你就是领先的。因为即便是OpenAI的 Ilya，或者Meta的 Yann Lecun 对这个议题都还一知半解。

Yann Lecun 最近刚提出了一个世界模型的架构，其本质是一个类脑架构，很有启发性，唯一的问题是他对于大脑生理的认知也算不得多深。作为一个AI、脑科学、心理学“三修”的人士，我真的可以做出这样的评价。

还需要特别要注意的是，如果你真的致力于搞大模型，也许你要捺住去搞AI应用的念头。你应该让你的AI有更具普遍性的商业价值，比如生成、意图实现等等。

但不要奔着很具体的商业场景去搞AI应用，最主要的原因不是因为要构建什么生态，而是存在一个核心判断：现有的AI能力远没到上限，且很可能很快跨越下一个阈值。

当意识到你可以明年就制造出导弹，今年就不要花太多时间去贩卖弓箭。

反过来，对于没有打算/能力做大模型的公司，应该踏踏实实的做好AI应用，你要相信开源的力量，而不是担心大模型公司会侵蚀应用层。既然发明不了“火车头”，那做一家“铺铁轨”的公司，从历史上看，后者往往同样赚钱，且成功率更高。

三、总结

要用最简明的语言解释清楚本文所涉及到的议题，是一个巨大的挑战。在这个过程中，我自己对AI的理解也深化了很多。

问题4和问题5，受到了OpenAI 研发主管Jack Rae 所做的名为《Compression for AGI》的访谈的启发。Jack 的观点极有启发性，但同时，我认为他犯了很严重错误，因此我的部分观点与他不一致。

本文中的一些观点，可以从信息论中获得解释，但我认为对普通人不太必要，而且它们缺乏直觉性，同时是微观而非宏观的。

本文对AI的发展走向发表了观点，这些观点不代表任何商业上的建议，请自行斟酌使用。

本文的讨论主要集中在大语言模型（LLM），但也适用于对图像生成模型的理解。实际上，本文揭示了二者底层的统一性。后面会有文章进一步讨论。

由于我的愚蠢和精力有限，本文中多个议题无法彻底展开，只能直接给一些结论，剩下的留待以后再另文探讨。

本文其实有一个重要的隐含议题，没有被讨论，那就是“观察者和被观察对象”的问题——你有意识到吗？“涌现”是需要观察者的。而这恰恰是我认为智能必须是一种生成过程的底层逻辑。

*文章为讲者独立观点，不代表笔记侠立场。

分享、点赞、在看，3连

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章