Redian新闻
>
Hinton和LeCun再交锋,激辩LLM能否引发智能奇点!LeCun:人类理解能力碾压GPT-4

Hinton和LeCun再交锋,激辩LLM能否引发智能奇点!LeCun:人类理解能力碾压GPT-4

公众号新闻



  新智元报道  

编辑:桃子 润
【新智元导读】大模型能否理解自己所说,Hinton和LeCun再次吵起来了。LeCun新论文证明,GPT-4回答问题准确率仅为15%,自回归模型不及人类。

AI大佬的激战再次掀起。

Hinton在线直接点名LeCun,说他对AI接管风险的看法对人类的影响微乎其微。

这意味着,他把自己的意见看得很重,而把许多其他同样有资格的专家的意见看得很轻。

在Hinton看来,他们之间意见分歧的核心论点是「LLM是真正理解自己说什么」。

当然了,一直站在末日派中的Hinton认为大模型有了意识,而LeCun、吴恩达等人却认为LLM不明白自己所说。

对此,LeCun反驳道,大模型显然对其阅读和生成的内容有「一些」理解,但这种理解是非常有限和肤浅的。

总的来说,目前自回归大模型没有对推理和规划能力,远未及人类水平的智能。

恰在近日,LeCun发表了一篇新论文,再提自回归LLM做得不好。

论文中,研究人员介绍了一个通用AI助手基准GAIA。

其中提出了需要一系列基本能力的现实世界问题,比如推理、多模态处理、网页浏览和一般的工具使用熟练程度。

论文地址:https://arxiv.org/pdf/2311.12983.pdf

结果表明,GAIA设计的问题对人类来说简直轻而易举,而对大多数高级AI来说却很有挑战性。

即,人类回答准确率为92%,而用上插件的GPT-4回答准确率仅为15%。

通用人工智能助手基准——GAIA


GAIA的产生,既是因为需要修订AI基准,也是因为发现了LLM评估的不足之处。

研究人员提出的通用人工智能助手的基准——GAIA,包含了466个精心设计的问题和答案,以及相关的设计方法。

这些问题对AI系统具有挑战性,大多数需要复杂的代数。

但又能给出唯一的、符合事实的答案,从而实现简单而稳健的自动评估。

GAIA问题示例

设计选择

第一个原则:瞄准概念上简单但对人类来说可能乏味的问题。

这些问题多种多样的,植根于现实世界,对当前的人工智能系统具有挑战性。

因此,这些问题的设计将重点放在基本能力上,如通过推理快速适应、多模态理解和潜在的多样化工具使用,而不是专业技能上。

问题一般包括查找和转换从不同来源收集到的信息,如提供的文档或开放且不断变化的网络,从而得出准确的答案。

第二个原则:可解释性。

由于高度精选的问题数量有限,因此与汇总问题相比,该基准更易于使用。

任务的概念简单性(人类成功率为 92%)使得用户很容易理解模型的推理轨迹。

第三个原则:对记忆的鲁棒性。

为了完成一项任务,GAIA系统必须计划并成功地完成一些步骤,因为从当前的训练前数据中,得到的答案是设计成纯文本的。

第四个原则:易用性。

研究者的任务是附加文件的简单提示。至关重要的是,问题的答案是事实,简明和明确的。

这些特性允许简单、快速和事实性的评估。

评估


GAIA的设计的评估是自动化的、快速的、真实的。

在实践中,除非另有说明,否则每个问题都需要一个答案,这个答案要么是一个字符串(一个或几个单词) ,一个数字,要么是用逗号分隔的字符串或浮点列表。

每个问题,只有一个正确答案。

因此,评估是通过模型的答案和地面真值之间的准确匹配来完成的。

如下图,回答GAIA问题时,像GPT-4这样的人工智能助手,需要完成几个步骤,可能需要使用工具或者读取文件。

GAIA的构成


想要在GAIA上获得完美的分数,大模型需要先进的推理能力、多模态的理解、编码能力和一般的工具使用,例如网页浏览。

根据解决问题所需步骤的数量和回答问题所需的不同工具的数量,可以将问题分为三个难度增加的级别。

- 1级问题通常不需要任何工具,或者最多只需要一个工具,但不超过5个步骤。

- 第2级问题通常涉及更多的步骤,大约在5到10之间,需要结合不同的工具。

- 第三级是一个近乎完美的普通助理的问题,需要采取任意长的动作序列,使用任意数量的工具,并进入一般的世界。

GPT-4表现如何

 

使用GAIA评估大型语言模型只需要具备向模型发出提示的能力,即API访问权限。

研究人员在提问前使用一个前缀提示词,以便于提取答案,具体参见下图。

研究人员评估了GPT-4带插件和不带插件的版本,以及以GPT-4为后端的AutoGPT。

目前,GPT-4需要手动选择插件。相反,AutoGPT能够自动进行这一选择。

研究人员采用的的非LLM基准包括人类注释者和网络搜索。对于后者,他们在搜索引擎中输入问题,并检查是否能从搜索结果的第一页中推导出答案。

这使他们能够评估研究人员的问题答案是否可以轻松地在网络上找到。只要API可用,就运行模型三次,并呈现得到的平均结果。

GPT-4插件


与GPT-4不同的是,目前还没有带插件的GPT-4 API,研究人员不得不手动进行ChatGPT查询。

在撰写本文时,用户必须手动在一个高级数据分析模式(具有代码执行和文件读取能力)和最多三个第三方插件之间进行选择。研究人员根据任务给定的最重要功能的最佳猜测,选择第一种模式或选择第三方插件。研究人员通常依赖于:

(i)一个用于阅读各种类型链接的工具,

(ii)一个网络浏览工具,

(iii)一个用于计算的工具。

遗憾的是,目前无法在一段时间内使用一组稳定的插件,因为插件经常更改或从商店中消失。

同样,GPT-4的官方搜索工具也被移除,因为它可能绕过付费墙,但最近又重新推出。因此,研究人员对带插件的GPT4的评分是GPT-4潜力的「预估」,是基于更稳定和自动选择插件的估计。

结果


研究人员的评估结果如下图所示。

研究人员提出的难度等级,大致根据步骤数量和使用的不同能力数量定义,与当前模型的性能相关,增强了它们的有效性。

虽然人类在所有层面上表现出色,但当前最好的LLM表现不佳。

总的来说,GAIA允许清晰地对有能力的助手进行排名,同时也为未来几个月甚至几年的改进留下了很大的空间。

人类通过网络搜索可能会获得文本结果,从中可以推断出一级难度问题的正确答案,但当涉及到稍微复杂一点的查询时,这种方法就不那么有效了,并且比典型的大型语言模型(LLM)助手稍慢,因为用户需要浏览首批搜索结果。

这证实了LLM助手作为搜索引擎的竞争者的潜力。

GPT-4在没有插件的情况下的结果与其他情况的差异表明,通过工具API或访问网络增强LLM可以提高答案的准确性,并解锁许多新的用例,确认了这一研究方向的巨大潜力。

特别是,GPT-4加上插件表现出了诸如回溯或查询优化等行为,当结果不令人满意时,以及相对较长的计划执行时间。

AutoGPT-4允许GPT-4自动使用工具,但其在二级难度,甚至与不带插件的GPT-4相比,一级难度的结果也令人失望。这种差异可能来自AutoGPT-4依赖GPT-4 API(提示和生成参数)的方式。

与其他LLM相比,AutoGPT-4也较慢。总的来说,人类与带插件的GPT4的合作似乎到目前为止提供了最佳的得分与所需时间比。

下图显示了按能力划分的模型得分。

不出所料,GPT-4无法处理文件和多模态问题,但能够解决注释者使用网络浏览解决的问题,主要是因为它正确地记住了需要结合起来才能得到答案的信息片段。


参考资料:
https://twitter.com/ylecun/status/1728496457601183865
https://twitter.com/ylecun/status/1727707519470977311
https://arxiv.org/pdf/2311.12983.pdf





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
MIT惊人再证大语言模型是世界模型!LLM能分清真理和谎言,还能被人类洗脑GPT-4作弊被抓!吉娃娃or松饼打乱顺序就出错,LeCun:警惕在训练集上测试谷歌深夜放杀器Gemini,最强原生多模态碾压GPT-4?夏婳:两情难相知(十四)人工智能教父Hinton再次警告:AI可能会接管人类!LeCun和xAI联创对呛,GPT-4重大推理缺陷无解?网友:人类也是「随机鹦鹉」13B模型全方位碾压GPT-4?这背后有什么猫腻旅美散记(22):Who's number oneGPT-4不知道自己错了! LLM新缺陷曝光,自我纠正成功率仅1%,LeCun马库斯惊呼越改越错图灵奖得主LeCun:为什么未来几年AI更可能变得像狗一样聪明,而不是人类?关注养兰知识,终于入手极美的兜兰语言理解首超人类,谷歌最新大模型Gemini,碾压GPT-4参数量13B模型全方位碾压GPT-4?这背后有什么猫腻TUM、LMU食堂纷纷罢工!泼天的富贵这次轮到Döner店了?超级AI不会主宰人类,但人工智能必须开源!LeCun最新采访引全网300万人围观斯坦福公开十大主流模型透明度!Llama 2位列第一,GPT-4透明差,LeCun炮轰:盈利完全理解碾压GPT-4?谷歌发布最强AI模型,解读来了CVPR 2023 | MovieChat: 集成视觉模型和LLM的长视频理解新型框架红色日记 形势大好 7.26-31突发!谷歌深夜掀桌子,发最强大模型Gemini,跑分碾压GPT-4【附60页技术报告】LeCun又双叒唱衰自回归LLM:GPT-4的推理能力非常有限,有两篇论文为证碾压GPT4,超越人类?谷歌Gemini 6分钟互动视频来了鸿发超市「2000 万美元」买下82街前Walmart超市!开设第4家Hông Phát分店!FBEC2023 | 工具门槛持续下探,苹果能否引领3D共创时代?维基百科+大模型打败幻觉!斯坦福WikiChat性能碾压GPT-4,准确率高达97.3%专访VideoPoet作者:LLM能带来真正的视觉智能碾压GPT-4,微软最强AutoGen爆火!多个智能体协作,编码速度飙升4倍,GitHub狂揽10k星读很多书理解能力还是不好?关键是有效阅读,这件事一定要早开始Sam Altman:GPT-5 将有指数级跃升,人类已经非常接近 AGI | Hunt Good 周报谷歌深夜放复仇杀器Gemini,最强原生多模态史诗级碾压GPT-4!语言理解首超人类UNC斯坦福等曝光GPT-4V意外漏洞,被人类哄骗数出8个葫芦娃!LeCun和Jim Fan震惊了强烈增长是否引发通胀?美联储旧模型引发广泛争论马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力6016 血壮山河之随枣会战 南昌之战 9图灵奖得主吵起来了,LeCun:Bengio、Hinton等的AI灭绝论是荒谬的
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。