贝叶斯定理中的知识哲学
文:姚斌
来源:在苍茫中传灯(ID:chuandeng169)
多年前,虽然我也知道贝叶斯定理,但实际上从来都是理解得模模糊糊的。后来,在《极端不确定性》中又看到了约翰·凯对贝叶斯定理的批判。他确定,贝叶斯定理只适用于“小世界”,而不适用于“大世界”。瑞士洛桑联邦理工大学教授黄黎原对贝叶斯定理情有独钟,大概只有他确信贝叶斯公式极为“深邃”,是一个无法抗拒的公式。并且,他甚至愿意说,“理性”本质上可以归结于贝叶斯公式的应用。对某一事件未来会发生的认知,大多取决于该事件或类似事件过去发生的频率。这就是贝叶斯定理的数学模型,它最早由数学家托马斯·贝叶斯提出。贝叶斯定理的过程可以归纳为,“过去经验”加上“新的证据”得到“修正后的判断”,即经验主义、归纳统计分析和调整预测。它提供了一种将新观察到的证据和已有的经验结合起来进行推断的客观方法。
01
何谓贝叶斯主义?黄黎原教授以三句话概括出贝叶斯主义:(a)贝叶斯主义就是假设“现实”的所有模型、理论和概念都只不过是某种信仰、虚构或诗歌,尤其要指出的是,“所有的模型都是错的”;然后,(b)实际数据应该迫使我们调整赋予不同模型的重要性,即置信度;(c)关键在于,调整这些置信度的方式应该尽可能地遵循贝叶斯公式。贝叶斯主义是正确的知识哲学、关于理论模型的正确理论或理性的正确定义。因此,贝叶斯公式是一个“智慧工程”。
黄黎原教授之所以选择了贝叶斯主义,是因为(a)贝叶斯主义具有普遍性,任何现象,无论来自社会学、历史还是神学,都可以通过贝叶斯主义的视角来分析;(b)贝叶斯主义严谨、简洁与清晰,它定义了清晰的推理规则、应用这些规则似乎足以精确地(即使只是近似地)理解这个世界。贝叶斯主义的首要目标是分辨出有用的模型。它的基础实际上来自乔治·博克斯的一句话:“所有模型都是错的,有些模型很有用。”
贝叶斯主义解释了为什么科学共同体比其中每一个成员更可靠,也解释了为什么我们大脑里的小傻瓜们一直会受到锚定效应的影响。它还解释了为什么互相不相容的模型组合起来能得到更好的结果,还有为什么奥卡姆剃刀是不可或缺的工具。它甚至可能是理解记忆的运转和梦的作用的钥匙。就像特奥多修斯·多布朗斯基所说的:“生物学中的任何东西,只有在演化之光下才有意义。”为数众多的机制只能通过贝叶斯的视点来理解。
贝叶斯主义就是将条件概率的语言作为所有知识的基础。比如,条件概率描述了在已知化验结果为阳性的情况下感染病毒的概率。然而,我们所获知的数字并不是这个概率,我们听到90%这个数字其实是当我们没有感染病毒时化验结果正确的概率。也就是说,90%这个数字是当我们没有感染病毒时,化验结果为阴性的概率。于是,剩下的10%对应在没有感染病毒时获得阳性结果的概率。
贝叶斯逻辑的神奇之处在于,它可以让我们超越经典逻辑,允许我们处理不同程度的确定性,并把它们组合起来。贝叶斯主义者持有的置信度总会随着观察到的结果而上下互动。在这个过程中,即使是最优秀的理论,它们的置信度也不会一直上升,而且非常可能遭受多次(微小的)损失,尤其是因为某些观察结果偶然会符合与之竞争的理论。然而,长期来说,如果某个理论真的比其他竞争者更准确,那么它的置信度就会倾向于上升到高位。
爱因斯坦的广义相对论能够出色地解释水星的轨迹,即使爱因斯坦理论的先验置信度与牛顿力学相当,它在不依赖极不可能的假设的情况下,也能完美解释水星的轨迹。这一事实扫除了所有疑问:贝叶斯公式指出,爱因斯坦理论的置信度要远远高于牛顿理论。毫无疑问,爱因斯坦从直觉上就做出了贝叶斯推理。从1915年开始,与整个科学共同体相左的是,爱因斯坦早已确信广义相对论是最可信的引力理论,没有别的理论能出其右。
02
“主观偏见”似乎是贝叶斯哲学的致命缺陷。然而,黄黎原教授指出,虽然“主观”,但毫不随意。即使贝叶斯偏见是主观的,它们也绝非任意而成。“贝叶斯偏见”遵循概率法则,而且在更理想的情况下,他们会采用贝叶斯公式的计算。纯粹贝叶斯主义者甚至认为,“偏见”正是贝叶斯推理的力量源泉,前提是这些偏见是由正确的贝叶斯方法得来的。对于他们而言,为了进行正确的思考,偏见必不可少,偏见组成了理性的基础。没有偏见,就得不出任何结果。这就是贝叶斯哲学最受争议的地方。
在科学家对经验中的反常情况的处理上,偏见能得出非常有用的结论。即使是数学家,也可能对某些未被证明的数学定理持有巨大的置信度。今天绝大部分数论学家相信著名的“黎曼假设”是真的,许多人认为它是数学中最负盛名的未解难题。这种信念是如此强烈,以至于现在有大量定理从黎曼假设的正确前提出发,探索它的推论。在一般情况下,贝叶斯主义对于任何事情都强制要求进行(概率性)预测的计算。贝叶斯主义者总有某种偏见,不能说“我不知道”。对于贝叶斯主义者来说,深埋这种偏见是非常不理性的行为。我们的偏见在本质上都不符合贝叶斯主义,但错误偏见的存在绝对不能证明贝叶斯式偏见并非必要。
为此,黄黎原教授建议,教师应该只教授那些违反直觉并且有教育意义的重要内容。比如,应该教授认知偏差、演化理论的关键过程、理论计算机科学和道德功利主义,同时可以削减三角学和量子力学的内容。此外,贝叶斯公式似乎提示我们应该通过例子来学习,而不是直接记住理论。我们应该先以游戏、谜题和逻辑悖论等能吸引学生的形式来引入数学,之后再向他们解释这些内容都是更普遍的理论的应用事例。要教授的最重要的内容还是认识论,还有对于认识论的应用来说不可或缺的统计学。作为极端贝叶斯主义者,他尤其认为贝叶斯公式及其大量违反直觉的推论法应该成为教育的支柱之一。他认为是时候放弃积累公认正确的教条知识这种做法了,应当转而教授知识是什么、如何获得知识、如何分辨可信的理论和不值得赋予置信度的理论。
算法信息论的发明者雷·所罗门诺夫是一位典型的贝叶斯主义者。所罗门诺夫认为,值得考虑的理论应该包含对宇宙物理状态的(部分)描述,因为它首先必须具有预测能力。在理想情况下,这种理论也应该考虑到给定宇宙物理状态的不确定性。但最重要的是,最终它必须做出概率性的预测。毕竟一个理论应该只有给出可计算的预测才值得考虑。对此,黄黎原教授说,如果你花足够长的时间来思考,最终就会得出结论:任何具有预测能力的理论,都是所罗门诺夫意义上的理论。为了得到知识,只需进行所罗门诺夫的贝叶斯计算——而其他途径很有可能通向失败。
一般而言,我们在物理上永远不可能得出对贝叶斯公式的近似计算的一个合适的置信度。但所罗门诺夫断言,所有这些算法都必然是不完备的。更准确地说,所有可计算的知识哲学都不可能检测出数据中的所有规律。这就是惊人的所罗门诺夫不完备性定理。也就是说,无论你的知识哲学是什么,只要它是可计算的,那就存在某些可能存在的世界会让你上当受骗,而你会在其中一直做出非常糟糕的预测。
03
科学与伪科学之间的区别,是被称为“怀疑主义”“批判性思考”或者“探索派”的思想运动偏好的话题。这一思想运动主要讨论伪科学支持者的常见诡辩与认知偏差。这些论证中的错误的确相当糟糕,是大量阴谋论、替代医学和超常现象的基础。对于某些人来说,对这些问题的正确反应是构筑自己的意见。然而,这种反应的危险在于,有些事情必须具有大量知识或者经验储备才能得出足够切中要害的意见,但这种反应难免导致对这些事情的怀疑,甚至是无法避免的偏见、误解和错误。例如,疫苗的有效性、谷歌和脸书的算法以及气候变化的人为因素,都属于这种情况。除非花上几年仔细研究这些问题。否则自己形成的意见必定缺乏足够的信息,也因此无足轻重。
我们十分希望即使只花上几个小时,最终也能在这些问题上得出正确的答案,但事实远非如此。对于许多问题,比如女性平均受教育时间、自然灾害造成的死亡人数、世界贫困人口等,我们的表现比无知还要糟糕,我们一贯选择的都是错误的答案。更糟糕的是,要估计应该对自己的直觉有多少信心,对我们来说难上加难,因此即使花上相当长的时间思考并汲取有关某个问题的信息,我们对于自己理解了多少,以及自己的意见是否考虑了足够多的信息。了解起来可能还是相当困难的。
我们每个人都经历过太多次这种反复出现的自信过度了。在《贝叶斯的博弈》一书中,黄黎原教授自述尝试克服的主要认知偏差,那是因为贝叶斯公式、所罗门诺夫不完备性迫使我们承认的东西:我们总是过分自信。正如伟大的逻辑学家伯特兰·罗素所言:“世界上所有问题的根源在于,笨蛋和自信者总是无比自信,而更有智慧的人却一直在怀疑。”物理学家艾蒂安·克莱因补充道:“要尽量避免得出结论。”
实际上,“只靠自己”去相信任何事物都是难于登天的任务,其中布满无法逾越的障碍。如果构筑正确的意见那么容易的话,那么高等研究就不需要花那么长的时间了,而且知识也不会被如此切分为相互隔绝的学科了。如果没有足够的财力、时间和认知能力去沉浸在特定问题的详细研究之中的话,那么我们就难免需要依靠他人的意见。实用贝叶斯主义者也更倾向于利用其他人在数十年甚至数百年中做出的工作来细化自身对世界的理解。即使是纯粹贝叶斯主义者也知道,其他个体能访问众多他无法访问的数据,所以他有不少东西可以向这些人学习。
某些伪科学或多或少遵循的是科学方法的路线。然而,贝叶斯主义否定了这种科学方法的客观性,甚至也否定了它的正确性。但更重要的是,科学工作者几乎从来不按照科学方法做事。即便如此,科学工作者同样也无法避免那些导致伪科学的认知偏差甚至诡辩的荼毒。这是因为,即使是最优秀的科学工作者,面对某些简单却令人困惑的问题也无能为力。阿尔伯特·爱因斯坦做出过对于许多物理学家来说如同奇迹般的突破,但他也曾经反复犯下错误,比如在1913年为有问题的广义相对论前身做辩护,还有为了强行加入稳态永恒宇宙的可能性而在广义相对论方程中引入了一个宇宙学常数——他将自己称其为“一生中最大的错误”。无论是现在还是将来,即使像最优秀的科学家那样聪明的人,拥有的认知能力也有极限。
丹尼尔·卡尼曼曾经仔细研究过投资者与市场。他发现,交易员的每月评级在连续几个月之间几乎没有任何关联,仿佛交易员的成功就是独立分布的随机变量。此外,卡尼曼指出最成功的交易员在市场上最不活跃,这就像是在说,要获得最大的利润,只需盲目信赖市场,而不是尝试跑输市场。所有这些经验都似乎一次又一次地表明,市场比任何其中一个投资者都更有能耐。更不用说跟我们中间的任何一个人比了。也就是说,市场对贝叶斯公式的应用要比市场中的任一位参与者对它的应用更准确。在这里,我们看到了市场预测能力的根本极限。新投资者的经常流入,其他投资者的经常性流出,都会使市场动态与贝叶斯公式产生分歧。尤其是市场的这些特性使其更加短视。这就是行动较缓慢的政策与投机泡沫之间不兼容的地方。用统计学的术语来说,市场的高速度必然导致对近期历史的过度解读。这就是市场长期预测的置信度远远不如科学共识的原因。
04
在分析各种现象时,人们往往低估随机的作用。但是,我们必须习惯在思考中考虑不确定性,而不是在那些本质上不可预测的情境中也要尝试去做确定性的预测。在这个复杂的宇宙中,没有任何认识是确定无误的,无论原因是现实的物理本质、经验数据的欠缺、混沌现象的存在,还是我们在计算能力上的限制。绝大部分预测问题没有简单一致的回答,回答这类问题时要谨慎。只有最终承认大量事件发生的原因都是运气不好,这种谨慎才站得住脚。因此,对模型与预测的判断必须能量化不确定性。量化不确定性实在非常重要,这件事不能被随意决定。
自信过度是最常见、最有害的认知偏差。它让我们退缩到我们觉得正确的事物当中,而不会去怀疑这些真理。黄黎原教授坦诚:“对我来说,这似乎是在学习各种违反直觉的概念、现象或解释时最主要的障碍。要对抗这种自信过度,我觉得很有用的一个方法就是认为手头上的那些理论实际上是某种‘锤子’而不是真理,它们也许很有用,但也可能被更好的工具替代。在我看来,完全接受这种哲学取向,也就意味着否定任何理论作为真理的可能性。”
科学工作者经常提倡对知识的渴望,将知识作为社会的目标。然而,只是将知识定为科学的目标,也许会导致许多奇怪的结果。问题在于世界既庞大又复杂。这个世界中可以知晓的事物的数量远远超越了我们的认知能力。欧内斯特·卢瑟福甚至主张“所有科学要么是物理,要么就是集邮”。亨利·庞加莱也这样说:“事实的堆砌与一门科学的距离并不比一堆石头与一座房屋的距离近”。我们确实没有任何耐心去背诵那些由零碎知识组成的列表。与其关心数据,我们更希望寻求这些数据中暗含的理论,而常用的方法就是应用贝叶斯公式。
要得到正确的结论,只需要停留在容易预测的问题上。我们需要做的是,考虑那些我们已经非常了解的事物,这也是我们自然会去做的事情,我们会将自己困在熟悉的日常中——有时甚至主张这种日常就是现实。对于总希望得到正确结论的人来说,好奇心是个糟糕的策略。如果工程师不知道自己在做什么,那就最好停手。即使是研究者在职业生涯中也常常犯错。没有人比数学家更经常犯错,他们整天都在草稿纸上涂涂改改。如果研究者知道自己在做什么,那就最好停手。
人们在处理“现实”世界的问题时,经常认为数学和哲学与之毫不相干。而人们在谈论日常而具体的事物时,也通常觉得这个领域无需数学博士学位就能理解。这就是严重的自信过度。正如约翰·冯·诺依曼所说:“如果有人不相信数学是简单的,那是因为他没有意识到人生有多复杂。”我们无法理解乌鸦悖论,无法理解为什么要选择公立医院而不是私人诊所,无法理解指数级增长有多疯狂,这种能力的缺失理应迫使我们怀疑在“真实”世界中自认为已经理解的东西。
查尔斯·达尔文断言,那些因缺陷而无法繁衍的物种不可避免走向灭亡,因此,在至今仍然存活的物种中,重大缺陷极少。理论也是如此。因此,我们需要沉浸在激情、着迷和疑问之中。然后,开始探索贝叶斯主义的基础和推论必经的旅程。无论是理论计算机还是认知科学,或者演化生物学和统计物理学,抑或奥卡姆剃刀的证明、对归纳问题的抽丝剥茧,还是对实在论的质疑。这些学科对贝叶斯主义的理解和诠释来说,都是非常有用的。它呈现出一种贝叶斯式的知识哲学。
微信扫码关注该文公众号作者