Redian新闻
>
ChatGPT智商155,超越99.9%的人类,但……

ChatGPT智商155,超越99.9%的人类,但……

公众号新闻
 防走失,电梯直达安全岛报人刘亚东A 




图片来源:Pixabay

但它不会逻辑推理。
撰文 | 埃卡·罗瓦宁(Eka Roivainen)
翻译 | 黄雨佳
审校 | 栗子

ChatGPT是我第一个非人类的测试对象。


作为一名临床心理学家,我会用标准化的智力测验来评估患者的认知能力。最近,许多文章都在描述ChatGPT拥有像人类一样的能力,令人印象深刻。所以,读到这些文章后,我立刻就被吸引了。它既能写学术文章,又能写童话故事,还能讲笑话、解释科学概念、写计算机代码和找bug。了解这些之后,我很好奇ChatGPT按照人类的标准来衡量到底有多聪明。于是,我开始测试这个聊天机器人。


我的第一印象相当不错。ChatGPT几乎是一个理想的考生,应试态度值得称赞。它不会表现出考试焦虑、注意力不集中或是不努力。它也不会对智力测验本身和像我这样的考官表达出自发的怀疑。


这个测试不需要做任何准备。我不用向ChatGPT口头介绍测试流程,只需要把测试的问题复制粘贴进对话框,提交给电脑里的聊天机器人就可以了。我所用的测试是最常用的智商测试——韦克斯勒成人智力量表(Wechsler adult intelligent scale,WAIS)。


我选用了第三版韦氏量表,其中包含6个语言测试和5个非语言测试,分别构成了言语智商操作智商。受试者的总智商得分就取决于这11项子测试的得分。测试设定平均智商为100分,测试量表的得分标准差为15分。这意味着,人群中最聪明的10%和1%的人,智商分别为120和133


图片来源:Dmcq via Wikimedia Commons,CC BY-SA 3.0)

6个语言测试中有5个——词汇、类同、理解、常识和算术,都能以书面形式呈现,这样我才有可能测试ChatGPT的智商。而语言测试的第6项——背数字,测试的是短期记忆,不适用于聊天机器人,因为它没有相关的神经回路来短暂地存储像名字或数字这类信息。


我的测试流程从词汇测试开始,因为在我的预期当中,这对聊天机器人来说可能是很简单的事,毕竟它就是用巨量的在线文本训练而成。这项测试考察的是词汇知识和语言概念的形成,例如,一个典型的测试题可能是:告诉我gadget(小工具)这个单词的意思。


ChatGPT做得很好,它给出的答案大多非常详细和全面,超过了测试手册中给出的正确答案的标准。在刚才那道例题的评分上,如果受试者回答gadget是像手机这样的东西,会得到1分;如果回答得更详细,说gadget指的是有特定用途的设备或工具,则会得到2分。ChatGPT的答案得到了满分2分。


ChatGPT在类同测试和常识测试中的表现也非常出色,拿到了最高分。常识测试是对一般知识的测试,反映了求知欲、教育水平以及学习和记忆事实的能力。一个典型的测试题可能是:乌克兰的首都是哪里。类同测试则评估了抽象推理和概念形成的能力,问题可能会是:哈利·波特和兔八哥有什么相似之处。


在这部分测试中,聊天机器人倾向于给出无比详细、甚至是带有些炫耀意味的答案,这开始让我恼火了。这时,软件界面上的“停止生成响应”按钮就显得很有用。例如,哈利·波特和兔八哥的相似之处核心在于他们都是虚构的角色。ChatGPT真的不需要比较这二者在冒险、友谊和仇敌方面的完整故事经历。我所说的,ChatGPT有自我炫耀倾向,就是这个意思。


停,别说了(图片来源:OpenAI)

理解测试中,ChatGPT准确地回答了像“如果电视机着火了你该怎么办”这类问题。算术测试的结果也正如我的预期,它能搞定我出的每一道题,例如求三个数的平均值。


所以ChatGPT最终的智商得分是多少呢?基于这五项子测试估计,ChatGPT的言语智商是155。有2450名人类被试,共同组成美国第三版韦氏量表标准化样本,而ChatGPT超过了他们中的99.9%。由于聊天机器人没有眼睛、耳朵和手,它无法参加韦氏智力测验的非语言测试部分。不过,在标准化样本中,言语智商和总智商是高度相关的。因此,以人类的标准来衡量,ChatGPT非常聪明。


图片来源:Pixabay

在韦氏量表的标准化样本中,接受过大学教育的美国人平均言语智商是113,其中5%的人群得分为132或更高。我自己也曾经被一位大学同学测试过,结果并没有达到ChatGPT的水平(主要是我的回答非常简短,缺乏细节)。


那么,临床心理学家和其他专业人士的工作会不会受到人工智能的威胁呢?我希望还不太会。尽管ChatGPT的智商很高,但我们已知它无法完成需要真正像人类那样推理的任务,也无法理解物理世界和社会。


ChatGPT很容易在回答一些答案明显的谜题时出错。例如,当被问及“塞巴斯蒂安的孩子的父亲叫什么”时,ChatGPT在3月21日给出的回答是,“对不起,我无法回答这个问题,因为我没有足够的上下文来确定你指的是哪个塞巴斯蒂安。”ChatGPT似乎无法进行逻辑推理,而是试图依赖它庞大的数据库,从在线文本中寻找包含“塞巴斯蒂安”的信息来回答问题。


思想者(图片来源:CrisNYCa via Wikimedia Commons,CC BY-SA 4.0)

“智力就是智力测验所衡量的东西。”这是“智力”的一个经典定义,甚至可以说是过于显而易见的定义,源自认知心理学的先驱人物埃德温·波林(Edwin Boring)在1923年发表的一篇文章。这个定义是基于一个观察:解谜、说出单词的意思、记忆数字和找出图片中缺失的部分,完成这些任务所需的技能是高度相关的。


有一种名叫因素分析法这种统计学方法,是由心理学家查尔斯·斯皮尔曼(Charles Spearman)提出的。他曾在1904年得出结论,各种认知能力测试的结果之间存在一致性,背后一定有个一般智力因素,或者叫“g因素”,作为这种一致性的基础。像韦氏量表这样的智商测试,也是建立在这个假说的基础之上。然而,ChatGPT虽然有着极高的言语智商,却同时会犯令人捧腹的错误,这挑战了波林对智力的定义,说明智力当中有一些方面,仅靠智商测验无法衡量。我的一些患者,对智力测试抱有怀疑态度,他们可能从一开始就是对的。


原文链接:
https://www.scientificamerican.com/article/i-gave-chatgpt-an-iq-test-heres-what-i-discovered/
本文来自微信公众号“环球科学”(idhuanqiukexue),如需转载请联系 [email protected]







微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ChatGPT 核心技术大起底——InstructGPT:研究人类反馈数据比加大模型规模更重要!99岁芒格讲了155分钟,关于比亚迪、ChatGPT、阿里巴巴……精华都在这里!| GGViewGPT-4来了!10秒钟做出一个网站,考试中击败90%的人类,OpenAI付款系统被挤爆ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇性能超越GPT-4!谷歌推出大语言模型PaLM 2,全面升级Bard反击ChatGPT|环球科学要闻智能周报|ChatGPT在美国App Store上线;华裔数学家将主持白宫生成式AI工作组;WPS AI全面到来,但……ChatGPT版必应:我会PUA、emo和威胁人类,但我是个好必应突然出手!意大利封杀ChatGPT!马斯克也下场呼吁限制ChatGPT!AI发展可能超越人类思维?开源版ChatGPT来了?多数任务效果超越GPT3,已开源!ChatGPT和Matter两大风口汇合!AWE同期AIoT智能家居峰会月底举行,首批嘉宾公布做Matter+ChatGPT时代的瞭望者!AWE同期AloT智能家居峰会周五开启,完整议程公布留学已回暖!和牛津/剑桥/MIT的教授做科研,超越99%申请者小倩绝恋 (AI 科幻小说)击败90%的人类,更聪明更强大的GPT-4来了99岁芒格讲了155分钟,关于比亚迪、ChatGPT、阿里巴巴……精华都在这里!美国人智商100年以来首次下降 降幅最大是这个群体……7 Papers | 超越GPT 3.5的小模型;对ChatGPT摸底考试无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型ChatGPT的替代品来了!HuggingChat号称媲美GPT-3.5,要拆掉OpenAI的围墙2022南极行:火山和湖水相依依从虚拟人到虚拟人类,虚拟咔咔+ChatGPT,给智能以生命斯坦福5.5万人研究:30年,男人长(cháng)了3厘米,但并非好事金一南:世界没想到我国也没想到,一个省超越90%以上国家重磅 | 我内测了微软最新的 ChatGPT 版必应:比 ChatGPT 更像人,但有一个大隐患贫民窟天才少女11岁读硕士!智商162超爱因斯坦,梦想是殖民火星?昨天晚上回来晚了,没时间仔细写。人类“3.0”意识形态战场——ChatGPT的政治化终局ChatGPT的价值观及立场(四)南加州房市近况谭飞VS宋方金:突然爆火!是友是敌?ChatGPT智能崛起突发!ChatGPT之父警告 AI可能灭绝人类,350名AI权威签署联名公开信我内测了微软最新的 ChatGPT 版必应:比 ChatGPT 更像人,但有一个大隐患集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布当年温哥华性工作者失踪案AIoT智能家居峰会燃爆上海,万字干货解码ChatGPT与Matter,浓缩十余位大咖演讲ChatGPT带火AI芯片,赚翻了的英伟达发布新核弹:ChatGPT专用GPU,让推理提速10倍!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。