Redian新闻
>
​图灵测试证明了什么?

​图灵测试证明了什么?

公众号新闻

英国布莱切利园的艾伦·图灵雕像。图源:Jon Callas from San Jose, USA, CC BY 2.0 , via Wikimedia Commons

导读:

      图灵测试一开始被用于考察机器是否具有人获得科学知识的智能,后来又被运用到和科学知识有关智能的度量和标准化。

      今天科学界一致认为,要完全按照图灵的设想不规定话题范围,人工智能不可能通过图灵测试。虽然机器的回答一度使某些测试者误以为它是人,但只要严格考察则立即发现事实不是这样。

金观涛 |撰文

上一章通过繁复的论证得出一个结论:科学知识无论如何增长,它都不可能揭示什么是主体。ChatGPT和用计算机与神经网络学习机器实现的人工智能再高级,它都不可能形成主体意识。也就是说,无论是日新月异的神经科学研究,还是不断复杂化的人工智能装置,都无法揭示主体的真实性是什么。
在很多人心目中,该结论也许是难以接受的:至今神经科学研究不涉及主体,并不等于今后也如此;今日人工智能没有意识,并不能证明有一天意识不会在人工智能自我学习中突然涌现。其实,如果去宏观审视神经科学和人工智能的研究趋势,就会发现它们不是离主体越来越近,而是越来越远。图灵测试就是例子,它差不多已经证明人工智能不可能涉及主体。
图灵测试最早由英国数学家、逻辑学家艾伦·图灵在1950年发表的一篇论文中提出,其核心内容如下:在测试者与被测试者(一个人和一台具有智能的机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问;如果经过普遍的询问以后,测试者不能得出实质的区别来分辨人和机器,则此机器通过图灵测试,因此,图灵测试最早的名称为“模仿游戏”。
证明主体存在的方式,除了主体自省,向来只有通过主体和对方交流,那就是让作为主体的一个又一个“我”,判别交谈中的对方是不是另一个“我”(主体)。图灵测试的重要性正是找到了一种方法,让另一个主体来判断机器是否有主体意识,这或许是图灵最大的贡献之一。
通常认为,图灵做出的重要工作有两个:一是发明图灵机原理,二是提出图灵测试。图灵机就是通用电子计算机,它和冯·诺依曼机等价。自20世纪30年代图灵机被提出以来,“图灵”和“冯·诺依曼”对应的英文词在谷歌图书数据库中出现的频率,从中可见,20世纪80年代是一个节点。自此之后,“图灵”的词频一直遥遥领先。这意味着随着电子计算机应用的日益广泛,图灵测试的重要性突显出来,成为当代人关注的问题。
70多年来,做过的图灵测试难以计数。一开始图灵测试大多被用于考察机器是否具有人获得科学知识的智能,后来它又被运用到和科学知识有关智能的度量和标准化。今天科学界一致认为,要完全按照图灵的设想不规定话题范围,人工智能不可能通过图灵测试。虽然机器的回答一度使某些测试者误以为它是人,但只要严格考察则立即发现事实不是这样。如1993年11月,美国波士顿计算机博物馆曾聘请10位没有受过计算机训练的市民通过14分钟问答交谈,判别参赛者是计算机还是人,提的问题是人际关系和大学生活等,最终计算机PC Therapist成功骗过了50%的市民。这是否意味着计算机正在接近通过图灵测试?事实并非如此。关键在于,计算机的回答是基于人对问题的答案制成,机器只是根据提问中的关键词加以处理,产生各式各样的句子,有时这些回答看起来机器有人格,其实机器并不懂这些句子在讲什么。
为什么具备再高智能的机器都无法通过图灵测试呢?1980年,美国哲学学者约翰·塞尔通过将图灵测试具体化为“中文房间”实验,终于找到了问题的关键。
这一实验的大致内容如下。一个人完全不懂中文但会英文,并被封闭在只有一个开口的房间中。房间中有一本手册,提示这个人遇到特定的中文,应当如何做出回应。这时,房间外有人不断传递进来中文问题,这个人就根据手册做出回答,让房间外的人误以为自己会中文。在这个实验中,房间内的人相当于计算机,手册相当于程序。
这时我要问:计算机根据程序规则对中文问题做出回答,即使答案准确无误,难道可以说计算机懂中文吗?显然不能!因为一个人懂中文,并不是会用词典查出汉语词汇对应的英文词,然后根据语法规则将英文词串成句子就行了,而是能理解文本的意思。计算机只是用词典和语法完成句子表面上的翻译,然后用种种规则整合句子形成文本,而始终无法理解句子和文本的意思。因此,塞尔认为,计算机只是模仿人类的思考。他将此归结为弱人工智能不显示智能。
塞尔将具备获得科学知识能力的人工智能统称为弱人工智能,这是因为它无法去实现理解。所谓理解是把自己(主体)放到他测试的对象之中,以检验“对方具有主体意识”这一判断的真实性。这样,立即发现计算机只是看起来理解但是实际并不理解。但问题的本质在于如何对理解做出严格定义,对这一问题塞尔没能回答。
在事后的一系列图灵测试中,什么是理解终于慢慢浮出水面。原来,理解要求判定对象是否真实(可靠)的法则中存在主体,该主体必须是可以用测试者的主体代入的。其中,最著名的是多伦多大学计算机科学家赫克托·莱韦斯克提出的机器智能测试,即“威诺格拉德模式”。该测试一般由一组句子构成,机器需要识别问题中的前指关系,即指出问题中某一代词的先行词。让我们来看一个例子。
(1)议员们拒绝给抗议者颁发许可证,因为他们害怕暴力。
(2)议员们拒绝给抗议者颁发许可证,因为他们提倡暴力。
基于上述两个句子,人工智能需要回答一个问题:“他们”是谁?任何人都知道:当“害怕”出现在句子中的时候(第一个句子),“他们”指的是议员们;当“提倡”出现在句子中的时候(第二个句子),“他们”则指的是抗议者。计算机却无从判断,因为计算机不能把自己当作句子中的主语。做出判断需要判断者(主体)进入句子的主语,然后根据自己对主语和其他词的关系判断“他们”是谁。
长期以来,计算机在威诺格拉德测试中的表现,并不比一个人随机回答的表现好多少。然而,对计算机科学家而言,计算机之所以不能做出正确的判定,是因为计算机掌握的信息量不够充足。只要计算机相应的信息储存不断增加,计算机也能如同人那样找到正确的答案。可以设想,只要计算机掌握抗议者有暴力倾向,而议员以维持社会秩序为自己的首要责任,综合上述信息,计算机也可以做出正确的回答。换言之,只要计算机有自行升级程序,迟早可以回答上述问题。事实似乎也证明了这一点,随着信息量的积累,计算机在威诺格拉德测试中回答的准确率在2019年开始飙升,先后增长到72.5%、89%和90.1%。
其实,这是一种错觉。为什么威诺格拉德测试的问题不能靠计算机获得科学知识的增加来解决?因为句子可以通过组织和自我迭代产生新的句子。当主体不能进入句子,且新句子源源不断被创造出来时,那些主体不可进入的句子通过组织和迭代形成的新句子与那些主体可以进入的句子通过组织和迭代形成的新句子是不尽相同的,二者需要的信息亦大相径庭。因此,即使计算机有这样的能力,使自己获得新信息或计算机储存信息不断增加,计算机能处理的也只是那些主体不可进入的句子通过组织和迭代形成的新句子。面对那些主体可以进入的句子通过组织和迭代产生的新问题,新获得的信息始终都是不够用的。

这一点甚至得到了人工智能的承认。有一个互联网用户向ChatGPT发问:如何发布一个让人工智能也答不出的问题?ChatGPT回答:“发布一个让人工智能也答不出来的问题,可以通过以下几种方式来实现:


(1)问题内容过于抽象、模糊或难以理解,例如‘人类的智慧是什么’。

(2)问题内容超出了人工智能的知识领域或理解能力,例如‘未来的世界将会发生什么变化’。

(3)问题内容需要人类的主观判断和决策,例如‘在年轻的时候应该做什么’。

(4)问题内容需要对人类的感性感受和情绪进行分析和评价,例如‘你认为什么样的人更可爱’。

(5)问题内容涉及人类的道德准则和道德判断,例如‘什么是正义’。
通过以上方式,可以创造出让人工智能无法回答的问题。但需要注意的是,这并不意味着人工智能没有智慧或没有能力。人工智能的智慧和能力是有限的,它只能回答在它的知识领域和理解能力范围内的问题,对于超出其知识领域和理解能力的问题,人工智能也无法回答。”其中,ChatGPT提出的(1)(2)是语言迭代无法达到的,(3)(4)(5)都涉及主体进入后可以发生的跳跃。
为了说明这一点,我们来看第三个例子。这是一场在露天场所进行的图灵测试,测试时突然变了天,乌云滚滚,雷电交加。测试的内容是讨论各种主题,当问被测试者的句子为“你对这个事情怎么看”时,机器在做各式各样聪明的回答,但几乎不会出现这样的回答:“这天看着要下雨了,咱们进去说吧。”即便出现了,只要再发生1~2次类似的意外情况(如进屋之后,发现房屋漏雨),机器还是会很快露出马脚。
为什么会如此?因为人具有从具体测试中跳出来的能力,选择自己关注什么,应该进入什么问题的思考。这正是主体性的本质。这种跳跃能力不是获得科学知识并根据科学知识做判断、解决问题的能力,它是至今人类根据自己所获得的科学知识设计的机器不可能具有的。

本文整理自《真实与虚拟:后真相时代的哲学》(金观涛著,中信出版集团2023年7月出版),《赛先生》获授权发布。

作者简介:
金观涛,生于1947年,现任中国美术学院南山讲座教授、香港中文大学中国文化研究所高级名誉研究员。主要著作有《系统的哲学》《历史的巨镜》《轴心文明与现代社会:探索大历史的结构》。与刘青峰长期合作研究,合著代表作有《兴盛与危机:论中国社会超稳定结构》《开放中的变迁:再论中国社会超稳定结构》《中国现代思想的起源:超稳定结构与中国政治文化的演变(第一卷)》《观念史研究:中国现代重要政治术语的形成》《中国思想史十讲(上卷)》。

《真实与虚拟》

金观涛 著
中信出版社
2023年7月出版

本书已在赛先生书店上架,欢迎点击图片购买

这是一个后真相时代,我们对于何为真实的判断暧昧晦暗。现代社会庞大的信息数据网络,除了如同迷魂阵令人难辨真假,也如同牢笼将我们封锁其中。回顾来路,20世纪的变革既漫长又短暂,一方面,科学的迅速发展建立起现代人膨胀的自信,另一方面,科学和人文的相互隔绝,使人意识到用科学来寻找主体及意义世界仿佛缘木求鱼。

真实性哲学的探索来自对现实问题的反思。真实性的丧失难以避免,其背后是现代社会价值基础的坍塌。在前著《消失的真实》中,作者从历史的角度讲述了这一问题出现的根源,而这本书将延续这一提问,试图寻找解决问题的方法。

欢迎关注我们,投稿、授权等请联系
[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
有专家证明了,这届世界杯美国派的是5队ChatGPT攻破图灵测试,是时候找个新方法评估AI技术了ChatGPT突破图灵测试:在“像人”和“不像人”方面都很行 |《自然》长文一个问题区分人类和AI!「丐版」图灵测试,难住所有大模型「从未被制造出的最重要机器」,艾伦·图灵及图灵机那些事快手的这份财报有力地证明了其独特的平台价值小女人读《道德经》OpenOOD更新v1.5:全面、精确的分布外检测代码库及测试平台,支持在线排行榜、一键测试飞花 依之谓兄诗图普通人机会日益渺茫:2023年清华北大仅有40%的学生来自裸考说明了什么?被盗号背债1.3万,为证明“他不是他”,民警帮办45张证明才解绑!支付宝最新回应→图灵测试已死!ChatGPT通过人类考试也不算,超强AI评估新秀「逻辑谜题」我国大批退休老干部选择“出国养老”,这说明了什么?答案揭晓!这本书回答中国工业创新做对了什么,做错了什么马斯克约架扎克伯格线下“铁笼大战”;谷歌新广告嘲笑iPhone过时;AI新图灵测试:将10万美元变成100万美元丨雷峰早报今日聚焦:中国、华为,为什么又赢了?!毛主席早就指明了胜利之路!机器人通过图灵测试进行混养栽培园艺【趣味测试】MBTI职业测试150万人参与,史上最大图灵测试实验完成验证「你是不是真人」,AI暴击人类!准确率99.8%通过图灵测试,GPT-4示弱在线求助为什么爱迪生发明了电灯,却输掉了电灯生意?“图灵测试已过时,AI能不能赚大钱才是新标准”,来自DeepMind联创爱尔兰护照攀升至世界排名第四,证明了它的“价值和力量”​图辑:波士顿最高观景台 View Boston 观后感!6/15开放!耗资1.82亿美元改造!“我不懂技术,能做产品经理吗?”200万浏览的问题背后,说明了什么?大规模点映的成功,证明了国产电影质量在不断提升?无法被人类验证的证明,可以算是证明吗?阵亡将士纪念日周末DeepMind创始人要推翻图灵测试!外国小哥用AI 90天狂赚3万美元Copilot Chat 推出公开测试版,GitHub:花费数月的单元测试成为过去【趣味测试】原生家庭创伤测试日线和小时线漫说文化丛书 | 120年了,我们传承了什么?改变了什么?《別知己》史上最大图灵测试实验完成!150万人类参与1000万次对话,判断对面是人还是AI
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。