Redian新闻
>
GPT-4抽象推理PK人类差距巨大!多模态远不如纯文本,AGI火花难以独立燃烧

GPT-4抽象推理PK人类差距巨大!多模态远不如纯文本,AGI火花难以独立燃烧

公众号新闻



  新智元报道  

编辑:Mindy 润
【新智元导读】圣达菲研究所的科研人员用非常严谨的定量研究方法,测试出了GPT-4在推理和抽象方面与人类水平还有较大差距。要想从GPT-4的水平发展出AGI,还任重道远!

GPT-4,可能是目前最强大的通用语言大模型。一经发布,除了感叹它在各种任务上的出色表现之外,大家也纷纷提出疑问:GPT-4是AGI吗?他真的预示了AI取代人类那一天的到来吗?
推特上也有一众网友发起了投票:
其中,反对的观点主要在于:
- 有限的推理能力:GPT-4被诟病最多的就是不能执行「反向推理」,而且难以形成对世界的抽象模型进行估计。
- 任务特定的泛化: 虽然GPT-4可以在形式上进行泛化,但在跨任务的目标方面可能会遇到困难。
那到底GPT-4的推理能力和抽象能力和人类相比,有多大的差距,大家的这种感性似乎一直没有定量的研究作为支撑。
而最近圣达菲研究所的科研人员,系统性地对比了人类和GPT-4在推理和抽象泛化方面的差距。

论文链接:https://arxiv.org/abs/2311.09247
研究人员在GPT-4的抽象推理能力方面,通过ConceptARC基准测试评估了GPT-4文本版和多模态版的表现。结果说明,GPT-4仍与人类有较大差距。

ConceptARC是如何测试的?


ConceptARC基于ARC之上,ARC是一组1000个手动创建的类比谜题(任务),每个谜题包含一小部分(通常是2-4个)在网格上进行变换的演示,以及一个「测试输入」网格。

挑战者的任务是归纳出演示的基础抽象规则,并将该规则应用于测试输入,生成一个经过变换的网格。

如下图,通过观察演示的规则,挑战者需要生成一个新的网格。

ARC设计的目的在于,它强调了捕捉抽象推理的核心:从少量示例中归纳出普遍规律或模式,并能够灵活地应用于新的、以前未见过的情况;而弱化了语言或学到的符号知识,以避免依赖于先前训练数据的「近似检索」和模式匹配,这可能是在基于语言的推理任务上取得表面成功的原因。
而ConceptARC在此基础上,改进为480个任务,这些任务被组织成特定核心空间和语义概念的系统变化,如Top和Bottom(上和下)、Inside和Outside、Center(里面,外面,中间),以及Same和Different(相同,不同)。每个任务以不同的方式实例化该概念,并具有不同程度的抽象性。
在这种改动下,概念更加抽象,也就是说对人类来说更加容易,结果也更能说明GPT-4和人类在抽象推理方面的能力对比。

测试结果,GPT-4比起人类还有很大差距


研究人员分别对纯文本的GPT-4和多模态的GPT-4进行了测试。

对于纯文本的GPT-4来说,研究人员使用更加表达丰富的提示对GPT-4的纯文本版本进行评估,该提示包括说明和已解决任务的示例,如果GPT-4回答错误,会要求它提供不同的答案,最多尝试三次。

但在不同的温度设置下(温度是一个可调节的参数,用于调整生成的文本的多样性和不确定性。温度越高,生成的文本更加随机和多样,可能包含更多的错别字和不确定性。),对于完整的480个任务,GPT-4的准确率表现都远远不如人类,如下图所示。 

而在多模态实验中,研究人员对GPT-4V进行了评估,在最简单的ConceptARC任务的视觉版本上(即仅仅48个任务),给予它与第一组实验中类似的提示,但使用图像而不是文本来表示任务。
结果如下图所示,将极简的任务作为图像提供给多模态GPT-4的性能甚至明显低于仅文本情况。
这不难得出结论,GPT-4,可能是目前最强大的通用LLM,仍然无法稳健地形成抽象并推理关于基本核心概念的内容,而这些概念出现在其训练数据中之前未见过的上下文中。

网友分析


有位大牛网友对于GPT-4在ConceptARC上的表现,发了足足5条评论。其中一条主要原因解释道:

基于Transformer的大型语言模型的基准测试犯了一个严重错误,测试通常通过提供简短的描述来引导模型产生答案,但实际上这些模型并非仅仅设计用于生成下一个最可能的标记。

如果在引导模型时没有正确的命题逻辑来引导和锁定相关概念,模型可能会陷入重新生成训练数据或提供与逻辑不完全发展或正确锚定的概念相关的最接近答案的错误模式。 

也就是说,如果大模型设计的解决问题的方式是上图的话,那实际需要解决问题可能是下图。

研究人员说,对于提升GPT-4和GPT-4V在抽象推理能力的下一步,可能尝试通过其他提示或任务表示方法实现。

只能说,对于大模型真的能完全能达到人类水平,还是任重而道远啊。

参考资料:
https://arxiv.org/abs/2311.09247





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
「专题速递」GPU算力思考、内容生产技术实践、AI动漫、多模态可控的作曲框架CNN能搞多模态了!UniRepLKNet:大核CNN一统多种模态,图像/视频/点云/时序/音频均达SOTA水平!谷歌Gemini被曝视频造假!多模态视频竟是剪辑配音,击败GPT-4靠「作弊」?我不会原谅把别人的痛苦当做笑谈的人华为查询建议新范式MMQS入选WWW 2024,解锁基于人类反馈的多模态查询建议chat gpt 怎么上不去了? 彻底罢工了纯文本模型训出「视觉」表征!MIT最新研究:语言模型用代码就能作画AI早知道|ChatGPT模型大更新;阿里云发布多模态大模型;百度推多模态模型UNIMO-GGPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评谷歌深夜放复仇杀器Gemini,最强原生多模态史诗级碾压GPT-4!语言理解首超人类任意文本、视觉、音频混合生成,多模态有了强大的基础引擎CoDi-2时间的湾 1专访|Luma 创始团队 ,构建多模态人工智能扩展人类想象力,获 a16z 领投的 B 轮融资芝大经济系学长、中科大少年班学霸名师、公立校原版娃家长...理工科PK人文社科,寒假阅写资源大放送!以色列和哈马斯的地道战为什么可怕?​AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpan112页报告深挖GPT-4V!UCLA等发布全新「多模态数学推理」基准MathVista说一个有关Open AI的Chat GPT 创投人和我家的小故事北大&腾讯打造多模态15边形战士!语言作“纽带”,拳打脚踢各模态,超越Imagebind刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能Google发布Gemini,暗示GPT-4不是「原生」多模态难以独立生存的直播间游戏新旧文明社会制度的生死搏斗零一万物发布Yi-VL多模态语言模型并开源,测评仅次于GPT-4V谷歌AI大模型Gemini亮相:擅长复杂学科推理,能懂编程语言 PK GPT-4一位看到上海万圣节的中年阿姨说:好想哭,又看到人了。计算机视觉GPT时刻!UC伯克利三巨头祭出首个纯CV大模型,推理惊现AGI火花腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法全球首个开源多模态医疗基础模型:人工打分平均超越GPT-4V、支持2D/3D放射影像上海街头皇帝被赶,天冷的一道好菜(图)GPT谷歌深夜放杀器Gemini,最强原生多模态碾压GPT-4?杭州/北京内推 | 阿里达摩院多模态团队招聘多模态方向全职研究员/实习生比肩GPT-4,商汤日日新大幅升级4.0,多模态能力领先一步GPT turbo 看了没?!这真是大批失业人员在路上。GPT-4完成正确率仅6%!北大等提出首个「多轮、多模态」PPT任务完成基准PPTCGPT-5明年降临?爆料人泄露多模态Gobi就是GPT-5,已初现自我意识智谱 AI 推出新一代基座大模型 GLM-4,能力逼近 GPT-4,配备多模态、长文本和智能体字节版GPTs“扣子”上线;阿里推自主多模态AI代理MobileAgent;王仲远加入智源研究院任院长丨AIGC日报
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。