欧洲“脑奖”得主:人脑为什么比机器学得好?
人脑与人工智能,是否终有一战?图源:by Kohji Asakawa from Pixabay
导读:
人工智能将把我们带往何处?它会统治人类吗?在回答这个问题之前,我们有必要意识到,人类大脑的独特优势。
2014年欧洲“脑奖”(The Brain Prize)获得者、法国著名认知神经科学家斯坦尼迪拉斯·迪昂(Stanislas Dehaene)认为,相比人工智能,我们人类的大脑要灵活得多,它能够很快掌握信息并分清主次,还能在任何可能的时候提取具有普遍性、逻辑性的明确的原则。这些独特的能力都使得人类的学习能力要强于人工智能。
人工智能近几年的迅猛发展,也许意味着我们已经发现了如何复制甚至 超越人类学习能力和智力的奥秘。一些预言家甚至认为,机器即将统治人类。然而,这与事实相去甚远。
事实上,许多认知心理学家在赞赏人工神经网络最近的发展的同时,也清楚这些机器的能力仍然十分有限。大部分人工神经网络实际上只能进行人脑在前零点几秒内进行的无意识的运作,比如接收、识别、分类一个图像并理解其含义。但是,我们的脑法力无边,它能有意识地、仔细地、一步一步地,在几秒钟内搜索这个图像,它还能构建这个图像在真实世界的符号表征,并通过语言与他人分享。
这样缓慢地、理智地、符号化地运作是人脑的特权。现有的机器学习无 法进行这样的运作。虽然机器翻译与逻辑推理领域的研究一直在进步,但关于人工神经网络的一个常见批评是它们尝试在同一水平上学习所有事物,就好像任何问题都属于自动分类一般。这就好比对一个拿着锤子的人来说,任何东西看起来都像钉子!但是我们的脑要灵活得多,它能够很快掌握信息并分清主次,它还能在任何可能的时候提取具有普遍性、逻辑性的明确的原则。
找到人工智能的缺陷是个有趣的任务,因为这也是分辨人类独特的学习能力的方法。下面是一份简短的,可能还不完整的功能清单。这些功能甚至连婴儿都具备,而目前的大多数人工智能却缺乏这些能力。
学习抽象概念。大部分人工神经网络只能掌握信息处理的初级阶段,就像大脑的视觉区域在 1/5 秒内解析一幅图。深度学习算法的运算深度也远不及一些人宣称的那样。深度学习算法的发明者之一约书亚 ·本吉奥( Yoshua Bengio)认为,深度学习实际上更倾向于学习数据中浅显的统计规则,而非高层次的抽象概念。比如说,在识别一个物件时,它们经常依赖于视图中几个浅显特征的呈现,如具体的颜色或形状等。改变这些细节,深度学习算法就会崩溃。因为现在的卷积神经网络无法识别物件的核心组成,它们很难理解一张椅子不管有四只脚还是一只脚,不管是由玻璃、金属还是可伸缩塑料做成的,它都只是一张椅子。倾向于关注肤浅的特征使这些网络更容易产生大规模的差错。有许多关于如何忽悠人工神经网络的文献,比如用一根香蕉的图像,对像素做些许改变或贴上一个特殊标签,人工神经网络就会误以为该图片是一台烤面包机!
当你将一张图在某人眼前快速闪过时,人们大概率会像机器一样犯下相同错误—把狗当成猫。但是,只要给他们多一点时间,他们就会纠正自己的错误。与电脑不同,我们具有质疑自己所相信的并将注意力重新聚焦到图像中与我们第一印象不相符的部分的能力。这样的二次分析是有意识且聪
字母的各种形态
认知科学家侯世达( Douglas Hofstadter)曾经说过,人工智能的真正挑战在于识别字母 A !这一嘲讽无疑是夸张的,但也触及了问题的核心,即便在这最微小的问题背景下,人类都能施展自己无与伦比的抽象化本领。这个壮举来源于日常生活中的一个有趣物件—验证码,即一小段字母,一些网站会让你识别它,来证明你是人类而不是机器。但计算机科学迭代迅速,2017 年,一个人工智能系统以几乎拟人的程度成功识别了验证码。不出所料,这种算法从多个方面模仿了人脑。这绝对是一次精心的杰作,因为它能够提取每个字母的架构,如字母 A 内部的短横线,并使用了所有统计推理资源来认证一个抽象概念是否适用于当前的图像。然而,无论这个算法多么精密,也只能运用于验证码。我们的脑则能将抽象化本领用于日常生活的方方面面。
高效的数据学习。每个人都同意,当今的人工神经网络的学习速率缓慢,它们需要成千上万甚至上亿的数据来发展一个领域的直觉。我们甚至还有其行动缓慢的实证。比如,DeepMind 设计的神经网络至少要玩 900 小时才能在雅达利( Atari Consale)游戏中达到一个合理等级,而人类达到相同等级只需要 2 小时。另一个例子是语言学习方面的。心理语言学家伊曼纽尔·迪普( Emmanuel Dupoux)推测,在大多数法国家庭中,儿童每年会听到 500 ~ 1000 小时的对话。这个数据比掌握笛卡尔式的方言,包括拗口的 soixante-douze (法语意为72) 或 s’il vous plaît (法语意为请求) 要多得多。但是,对玻利维亚丛林里的提斯曼原住民来说,他们的儿童每年只会听到 60 小时的对话。令人惊奇的是,这有限的经验并不会阻碍他们说一口流利的提斯曼语。相比之下,当前来自苹果、百度和谷歌的最好的计算机系统需要其 20 到 1000 倍的数据来获得些许语言技能。在学习领域,人脑的高效性仍然无与伦比。机器渴求数据,而人类可以高效地运用数据。人类的学习可以将最少的数据实现最大化运用。
社会学习。人类是唯一会主动分享信息的物种。我们通过语言向其他人学习。这一本领是目前的人工神经网络无法企及的。在这一模式中,知识被加密,在数以亿计的突触权重值( synaptic weights)中被稀释。在这个隐蔽的形式下,它无法被提取并选择性地分享给他人。相反,我们的脑可以有意识地感知最高级的信息,从而使我们能明确地向他人说明。有意识的知识与口头表达相辅相成,每当我们足够清楚地理解某件事物时,头脑中一个公式与想法的语言就会形成呼应,然后用语言表述我们的理解。我们在与他人分享信息时会使用最少的词汇(如“教堂后面那条小路右转就到市场了”),这样非凡的效率仍是动物界和计算机界无法企及的。
一次性测试学习。一个极端例子是我们通过一次测试就能学会一项新东西。如果我们介绍一个新动词,就拿 purget[注1]来说,哪怕只介绍一次,你就学会如何运用它了。当然,一些人工神经网络也能储存一个具体的片段。机器尚无法做到而人脑能够轻而易举地做到极致的,是将新信息综合到已存在的知识系统里。你不仅会记住 purget 这个新词,你还能立马知道它的时态变化形式以及如何把它放入其他句子:Do you ever purget? I purgot it yesterday. Have you ever purgotten? Purgetting is a problem. 当你说“Let’s purget tomorrow ”时,你不仅仅是在学习一个单词,你也在将它插入一个符号与规则的巨大系统,即它是一个具有不规则过去分词的动词(过去式和过去分词分别为purgot、purgotten),并且在现在时中具有规则的变化(I purget、you pueget、she purgets 等)。 学习就是成功地将新知识纳入已有的知识网络的过程。
系统性以及思想的语言。人脑能够在具体事例背后发现普遍规律,语法 规则只是这独特天分中的一个例子。不论是在数学、语言、科学领域,还是 在音乐领域,人脑都能从中提取抽象原则、系统规律,从而再运用到不同情 境中。以算数为例,我们将两个数相加的能力是非常普遍的,一旦我们学习 了较小数字的加法,便可以将之系统化,并任意运用到更大的数字的加法。更为出色的是,我们可以得出非常普遍的推论。许多五六岁的儿童就能发现任意一个数字 n 都有一个后续数字 n+1,那么所有整数的序列是无限的,且没有最大的整数。我仍感怀自己第一次发现这个规律的时刻,实际上那是我知道的第一个数学定律。抽象化的力量是卓越的!我们脑中的神经元是有限的,那么它是如何构建出无限的概念的呢?
如今的人工神经网络无法表达“每个数字都有一个后续数字”这样简单的抽象定律。总结绝对真理不是它们所擅长的。系统性是在符号规则基础 上进行总结的能力,而不是肤浅的同质化。它仍然困扰着现行人工神经网络 的运算。具有讽刺意义的是,所谓的深度学习算法几乎完全无法进行任何深刻的思考。
然而,我们的脑似乎具有用一种思维语言构建方程式的流畅本领。比 如,它可以表达无穷集的概念,因为脑具有一个内部语言,其天生就具有否 定(negation)和量化的抽象功能(无穷=非有限=超越任何数字)。美国哲学家杰里·福多尔(Jerry Fodor)根据这项能力发展了一个理论,他认为,我们的思考包含了会根据“思想的语言”的系统规则来组合的符号。这一语言的力量源于其循环往复的天性,即每个新创造的客体(比如“无限”这个概念)都可以不受限地立刻被重新使用在新的组合里。有多少无限可能存在着?数学家格奥尔格·康托尔(Georg Cantor)问了他自己这个看似荒谬的问题,却引导他构建了超限数理论。威廉·冯·洪堡( Wilhelm von Hum- boldt)认为,对有限方法进行无限使用的能力就是人类思维的特征。
一些计算机科学模式尝试掌握儿童对抽象数学规律的习得。但是它们不得不结合一种完全不同的学习方式,这是一种涉及规则和语法,并能在最短时间内选择出最合理规律的学习方式。在这一观点中,学习变得与编程相似,即它包括了从思维语言的所有选项里选择出符合数据的最简单的内部公式。
现行的人工神经网络大部分无法表达人脑模拟世界时所运用的一系列抽象词组、公式、规则和理论。这大概不是巧合,因为这当中涉及人特有的一些东西,一些不曾在动物脑中发现的、也尚未被现代神经科学解释的、人类独有的面貌。在灵长类动物中,似乎只有人脑能根据一个复杂的树状句法的组合来表征一组符号。比如,我的实验室数据发现,人脑在听到一连串的声音,如“哔哔哔啵”时,会不由自主地将其背后的抽象结构(3 个相同的声音之后是一个不同的声音)理论化。在同样情况下,猴子探测到了连续的4 个声音,发现最后一个声音的不同,但似乎不会把这样的片段性知识整合到一个单独的公式里。我们认识到这一点,是因为在检测猴子的脑活动时,我们看到数字和序列回路明显地活跃起来,但从来没有在被称为“布罗卡区”的人类语言区观察到整合性激活。
类似地,猴子需要几万次测验才会理解如何将序列的顺序颠倒(从ABCD 转变成 DCBA),而对一个4 岁的孩子而言,尝试 5 次即可 。甚至几个月大的婴儿就已经能够用抽象和系统的规则编码外部世界。这是人工神经网络和其他灵长类物种完全无法企及的能力。
组合。一旦我们学会了两个数字相加这样的本领,这个能力就会变成我们的整体才能中的一部分,即刻就能被用于达到其他目标。我们可以在各种情况下把它用作子程序,比如在餐厅付钱时,或检查我们的税表时。最重要的是,我们能把这项能力与其他习得的技能重组,比如,我们可以轻松地根据一个运算指令,在一个数字上加上 2,然后判断其结果大于还是小于 5 。
令人惊讶的是,当下的人工神经网络尚未显示出这样的灵活性。它们习 得的知识还局限于隐秘的、无法获取的联结中,从而很难将它重新运用于其 他更复杂的任务中。将之前所学技能进行组合的能力,也就是重组技能并运用于解决新问题的能力,超越了当下的人工神经网络模型。如今的人工智能只能解决极其有限的问题:AlphaGo 程序虽然打败了所有围棋冠军,却是一个固执的“专家”,它无法将其才能运用到其他的游戏中,哪怕这个游戏只与围棋有些许差异,如使用 15 × 15 的棋盘,而不是 19 × 19 的标准棋盘。而在人脑中,学习几乎总是代表着使知识显性化,从而使之被再次使用、重组,并能向他人解释。我们再次看到了人脑独有的本领,与语言相关且已证实无法被机器复制。早在 1637 年,笛卡尔在其名著《方法论》(Discourse on Method)中就预测了这个问题:
如果存在与我们的身体相似并尽可能真实地模仿我们行动的机器,总有两条确凿的途径来识别他们不是真正的人类。第一条途径是,机器绝不可能像人一样,能通过讲话或组建其他符号来向他人表达自己的想法。我们能很容易地想象,一台机器的制造方式使它能够说话……但它无法将词语以不同方式排列以回应在其面前所说的一切话,而最愚笨的人都能做到这一点。第二条途径是,即便它们能与人类媲美,把许多事做好,甚至比任何人都做得更好,它们也绝对会在其他事情上失败。由此我们可以发现,机器的行动不是以知识为基础的,而仅仅只是由其零件的属性决定的,因为理性是一种能被用于各种情况的普遍工具,而机器零件需要对每一个特定的行为作出特定的处置。
注:本文摘自斯坦尼迪拉斯·迪昂所著《精准学习》一书,《赛先生》获湛庐授权转载。
欢迎关注我们,投稿、授权等请联系
微信扫码关注该文公众号作者