知圈专栏 | 走进智能的本质— 智能的原理（中）

2023-07-23 03:07

海归学者发起的公益学术平台

分享信息，整合资源

交流学术，偶尔风月

编者按：

在全民皆可成为信息源的今天，科学的推广和触达有了更容易的途径，但碎片化令思考停留于浅表也是不可忽略的负面效应。在知社的读者群里，不乏有常规科研人员之外的严肃思考者和孜孜求索者，感于他们的努力，我们决定增设“知圈专栏”，不定期选发相关文章，与读者共探科学发展与传播之路。首期话题：智能。本文作者为李新宇先生，分上中下三篇发布，本篇为中篇。

摘要：

本文从哲学概念上主观与客观的关系入手，分析世界的随机性本质是产生智能的必要条件，从数学上描述了智能的超集——元选择体，由于元选择体可以由简单单元连接构成，所以智能也可以由简单单元连接构成，在此基础上提出智能的两个重要本质特征：压缩输入输出状态和必然消耗能量。根据对智能原理的归纳，本文的结论是：机器智能达到和超越人类不存在原理上的障碍，需要得到充分的重视。

关键词：智能，人工智能，主观，客观，智能原理

图片来源：Tara Winstead

1.5元选择体

“元选择体”是一个名词，在更早的时候我使用的名词是“原智能体”，但是似乎“原智能”这个词有在其他地方使用，不少人会以自己理解的“原智能”来理解它，为了避免概念的混淆，我选用“元选择体”这个名词。

元选择体的定义如下：

一个客观实体可以接受M类输入，自身可以做N类的输出，对于任一类输入，这个客观实体会以一定的概率分布在N类输出中选择做出某一类输出，则这个客观实体被定义为元选择体。

需要注意两点，首先输入的M类和输出的N类都具有互斥性，即任一时刻，只能有M类中的某一类输入和N类中的某一类输出，如果用计算机术语说，这里的输入和输出都是单热点表达（one hot）。其次M和N都是自然数，不管它们有多大，它们都是一个有限的数，把输入输出归类为有限集，而这样做的合理性见前面阐述的等效原理。

定义“元选择体”的原因是智能本身太难以描述了，元选择体是拥有智能的客体的一个超集，不管智能如何表现，拥有智能的客体一定是一个元选择体。当然，反过来则不成立，一个元选择体不一定是一个智能体。实际上，智能体是元选择体中非常非常小的一个子集。

上面的描述是一个严格意义上的数学描述，那么下面我们将用通俗的话来讲一下元选择体究竟是个什么东西。

举个例子，眼睛让我们接受图像信息，那么这样的信息有多少呢，是不是无限的呢，也许是，但是和有限的信息也没有区别。现在有一种手机屏幕叫做视网膜屏，就是说显示屏上显示颗粒的精细度已经达到了眼睛分辨的极限。根据等效原理，可以认为，手机屏幕所能显示的所有图像组合，就是我们眼睛某一时刻所能看到的一切，目前典型的视网膜屏手机分辨率为2160×1080的点阵，每个点用一个32比特（bit）来表示，那么这个屏幕所能显示的不同图像有2的2160×1080×32次方类，这个数可以认为是人类眼睛所能看到的所有图像的类别数，尽管它是一个非常非常大的数，但是它仍然是一个有限的集合。

同样，对于听觉，嗅觉，味觉，触觉我们也可以根据等效原理，归纳为一个有限的输入集合。

对于人体的输出也可以用同样的方法得到一个输出的总集合，比如将膝关节的张合度分为1000类状态，这样膝关节的任何运动都可以用这1000类状态中的一类状态来表示，如果还觉得不够精确的话，也可以细分为10000类状态或更多有限状态。身体的其他输出也可以用同样的方法归类，它们之间的组合构成了N类的输出，N也是一个非常非常大的数，但仍然是一个有限集合。

元选择体的行为数学上可以描述为一个输入有限集到输出有限集的映射，所以数学上一定有解。

从元选择体的描述我们可以看出，我们通常所说的有智能的客体（简称智能体）是元选择体的一个子集，所以智能在数学上一定有解。

元选择体有一个重要的性质，那就是任意复杂的元选择体，可以证明能够由最简单的几种元选择单元连接构成。由于前面已经说明智能体是原选择体的一个子集，所以得到一个重要的结论：

任意复杂的智能可以由几种简单的元选择体单元连接构成。

任意复杂的智能体可以由简单的基本单元连接构成，这个重要的结论在我们的现实世界中有活生生的实例，比如人的大脑是由有限种类和数量的脑细胞构成，更有代表性的是计算机智能，不论哪一个看起来“智能”的计算机程序，最终可以用或与非三个逻辑门连接构成。

1.6 智能的物理特征

前面章节提到过不少智能的特征，描述这些智能特征的词汇包括“推理”、“理解”、“计划”、“解决问题”、“抽象思维”、“表达意念”等等。但是，如果分析这些词汇，就会发现这些词汇都是基于社会学概念或抽象概念，很难用严谨科学的方法进行定义和分析。我们的目标是从科学的角度理解智能，构造智能，那就需要从数学和物理的角度来观察智能都有哪些基本的特征。

为了更好的从科学的角度研究智能，下面介绍我认为非常基础也非常重要的智能特征。

第一个从物理上可以观察到的智能特征是——智能需要消耗能量。这是一个用常识归纳就可以得到的命题，作为一个命题是可以证伪的，只需举一个反例即可。

设想一种容易混淆的情况来否定这个命题。假设有一个被冷冻的人，他的一切活动都已经冻结，可以认为他不消耗能量，那这个人是否具有智能？不少人会认为，他是人，当然有智能，与他是否冷冻无关。这想法看似有理，但我认为这个看法是存在问题的，问题是由于自然语言表述上的不严谨造成的。严格的讲，他当前的状态并不属于有智能的情况，只有当他解除冷冻状态，开始进行智能活动，他才是真正具有智能的客体，否则他此时的状态与一具雕塑有何区别？

前面已经阐明，一个客观实体是否具有智能的直接判断依据应该基于它的输入和输出。对于一个冷冻的人，我们说他具有智能的原因仅仅因为他和一个具有智能的人一样在物理、化学或生物学上的相似性。这其实是一个间接的判断，所以他实际只是“可能”具有智能，最终判断他是否有智能，还必须将他解冻苏醒，身体开始正常运转才能最终确定。

再假设另外一个例子，一个机器人，它运行的电脑程序已经被判定具有智能，那么在它停机断电的时候，它能被称为有智能吗？如果是该机器的销售人员，把它作为产品介绍时，当然会介绍它是具有智能的，但这仍然是由于语言的模糊性造成的，其真正准确的含义应该是它通电后运行起来是有智能的，如果不通电运行，它只是一系列机械元件构成的硬件造型，不消耗能量，但也不能说它有智能。

写上面的内容，目的要明确一个概念，智能这个词，我认为严谨准确的定义应该是一个“动态”的概念，智能必然对环境的信息输入产生自己的动作输出，具有现实意义的智能一定会消耗能量。例如，一个运行的电脑程序可以称其具有智能，但是电脑程序本身的代码不是智能，当电脑程序保存在硬盘，甚至保存在电脑内存里时，它仍然不是智能，只有当它正在运行时，对输入信息进行处理，并给出恰当的输出，它才可能真正可以称之为“具有智能”。

通过上面的讨论，我们得出第一个智能的基本特征，即智能必然消耗能量，如果更加严谨的话，应该是智能体必然引入负熵，由于负熵的概念在理解上并不友好，这里不做更深入的讨论，用能量的概念简单易懂。

1.8 智能的基本原则之状态合并压缩

智能的第二个基本特征，是从数学的角度看智能对信息的处理，就是对信息状态数的压缩合并。

如果把智能的输入信息看成一个数学集合，智能的输出看成另外一个数学集合，那么智能首先做的主要工作就是对输入的信息进行状态合并，将其不断的处理为一个小得多的数学集合，用通常的语言表达是智能对其输入信息进行归类、抽象、压缩。同时，对于归并成一类的输入，对其输出也进行压缩，将输出概率集中到少量的几个“有意义”的输出状态上，相对于可能的输出状态，这也是一种压缩。

比如，人工智能的重要领域图像识别系统，表示一张图片大约几十千字节到几百万字节，经过人工智能程序识别后，识别结果通常为一串文字，大约几个字节到几十个字节不等。如果从纯数学的角度来看，这是一个信息压缩的过程，更准确的说是一个有损的信息压缩过程。

再比如，人工智能的另一个重要领域语音识别系统，通常一秒钟的语音数据大概32K字节（16bit精度，16K采样率情况下），经过语音识别后，通常是得到几十个字节表示的文字，从数学的角度看，同样是一个信息有损压缩的过程。

从信息的角度看，智能对信息的处理过程几乎等效于一个有损压缩过程，我将其称为智能基本原则。这里在等效前面用了几乎这个词，是因为智能还有创新、创作的问题，但即使是创新和创作仍然离不开智能基本原则，这个问题将在以后的文章中详细解释。

我们的信息接收器官和大脑时时刻刻都在做信息的压缩工作，如果不做这个工作，我们的脑容量会非常的不够用。

例如：大脑要记录我们所看到的一切，那么以我们现在的脑容量，恐怕保存不了多少内容。因此在我们用眼睛观察外部的过程中，大脑只提取了少量的“重要”信息，大量的“不重要”的信息就被大脑忽视掉了，这个过程通常我们使用名词“归纳”、“抽象”、“提取”等来描述。更一般的，在此基础上，这些当时比较“重要”的信息在稍后也会被大脑遗忘掉大部分。

因此，遗忘并不是大脑的缺点，实际上，它是大脑的一大优点，只有有效的遗忘，才能保存真正重要的内容。问题在于，对于大脑来说，眼睛看到的信息中，哪些才是“重要”的？什么样的信息需要保留？什么样的信息应该抛弃？判别标准是什么？

既然称之为智能基本原则，它应该具有普适性质。人的大脑对信息的处理比较复杂，且不透明，所以放到后面分析。先让看看在目前电脑领域，基本原则是否成立。

电脑是我们处理信息的工具，很多电脑在我们看来已经具有了一定的“智能”，尽管还不够“聪明”，电脑“智能”来自于电脑的软硬件，尤其是软件。电脑软件是由程序和数据构成的，而程序通常又由程序语句以及调用一个个的子程序或子函数构成。

对于目前的通用电脑程序，可以提出一个明确的命题：

当一个计算机程序的输入是确定的，那么它的输出也是确定的，输入的状态数大于或等于输出的状态数。只有三种情况是例外，一种是程序里直接或间接的调用了产生随机数的函数，第二种是程序读取了外部不确定的输入，如鼠标、键盘、传感器的输入，第三种是程序内部保留了以前调用时的某个状态，并且当前的输出与这个保留的状态相关，例如计数器程序，第一次调用它返回结果1，同样的第二次调用它，输入参数没有变，但返回结果是2，依次类推，在第三种情况中，如果把程序内部保留的状态也作为一个输入参数看的话，它仍然满足输入状态数大于等于输出装填数的命题。

这个命题换个表达：如果电脑程序的内部和外部提供的数据是一定的，且程序没有直接或间接的调用随机数函数，则程序的输出也是一定的。由内部和外部数据构成的输入状态数大于或等于程序输出的状态数。

可能会有程序员提出质疑，假如一个程序是打印书籍，给程序提供一个书名，程序打印出一本书，这两者的信息量明明是输出的更大，你为什么说输入的状态数大于等于输出的状态数？

需要注意这里的输入输出的描述用的是状态数，一个书名是输入的一个状态，一本书的内容同样是一个输出的状态。对于上面所说的程序，不管你输入多少次同样书名，程序输出的内容都是一模一样的一本书，所以这里是一个输入状态对应一个输出输出状态。假如这个程序只能输出100本书，对应有100书名，找不到的书名就输出一页空白，这种情况下，这个程序的输出状态有101种，而输入状态可以有各种不同文件名。所以输入状态数量远远大于输出状态数量。

从宏观的层面看过了电脑处理信息的过程满足智能的基本特征，再从微观的层面来看看电脑基本单元对信息的处理是否满足命题。

前面提到过，电脑的芯片信息处理由基本的三个逻辑门构成，它们分别是或门、与门和非门。或门和与门都由是两个输入和一个输出构成，每个输入和输出只取值0或1；当两个输入中有任意一个为1，或门输出1，否则输出0；当两个输入同时为1时，与门输出1，否则输出0；非门只有一个输入和一个输出，当输入为1时输出为0，输入为0时输出为1。

从输入输出的状态数来看，或门和与门都是四个输入状态，两个输出状态，非门两个输入状态，两个输出状态。目前常用的电脑，所有运算最终都由或与非三个门完成，所以从微观层面上来看，电脑内部的每一步运算也是在做输入状态大于等于输出状态的工作。

对于人的大脑，虽然难以严格证明，但从宏观上看人的大脑也主要在做输入输出信息状态数合并压缩的工作，比如前面提到的图像识别和语音识别，将需要万千字节表达的信息抽象为几十个字节的表达，对于输出端的处理宏观上也是在做压缩，将输出概率集中到少数输出状态上，正常人在任一时刻理论上能做的动作输出是很多的，每个关节，每块肌肉都能做出很多不同的输出，而在智能的控制下，人只会做出其中极少数比较有“意义”的动作输出。

关于人的创新、创作是否违反这个原则，这个我会单独出文解释，创新和创作来源于前面的随机性，与这个原则并不冲突。

图1人脑神经元结构

从微观上看看大脑对于信息的处理，图1是人脑神经元的结构。脑细胞神经元由输入部分的接收端（也称之为树突）从其他脑细胞的输出端接受输入，经过细胞体的处理，然后将自己的输出通过轴突传递给其他脑细胞，在输入的影响下脑细胞通常只有两种状态，兴奋状态和抑制状态，虽然脑细胞整体的工作原理还没有完全弄清楚，但是从信息处理的角度看，单个脑神经细胞满足输入信息状态数量大于等于输出状态数量的原则。

智能基本原则同样适用于人工神经网络。伯克利马毅教授团队发布了《On the principles of parsimony and self-consistency for the emergence of intelligence》。其中提到智能出现的两个重要原则，简约性和自洽性。简约性和自洽性结合在一起，可以形成一个智能体不断自我学习进化的闭环结构。与这里说的智能基本原则非常相似，只是这里的智能基本原则不需要复杂的数学去证明，原始人的大脑的发展也不应该需要复杂的数学机理。

前面用等效原理，将输入输出可能无限的状态集合，通过量化，首先简化成了有限状态集合，这一步本身就符合智能基本原则。例如，实际生活中看到的某一个点，它的颜色强度变化可以分为近乎无限级别，但是拍照后，这一个点在手机上对应像素的颜色用三种基本颜色RGB（红绿蓝）组合表示，每种颜色只分为256个级别，这就是第一步的状态合并，将每种基本颜色强度近乎无限的状态，合并成了256种状态，对于人眼来说，颜色强度无限状态与256种状态几乎没有区别。

*本文系投稿作品，著作权利归原作者所有。本文分上中下三篇连载，本篇为中篇。