Redian新闻
>
Nature | 30多年前的断言被打破了?大模型具备了人类水平的系统泛化能力

Nature | 30多年前的断言被打破了?大模型具备了人类水平的系统泛化能力

公众号新闻

机器之心报道

机器之心编辑部


我们知道,人类具有「举一反三」的能力,即学习一个新概念后立即就能用它来理解相关用法。例如,当小朋友知道如何「跳」,他们就会明白「在房间里跳两次」是什么意思。

而对于机器来说,这种能力是极具挑战性的。20 世纪 80 年代末,哲学家和认知科学家 Jerry Fodor 和 Zenon Pylyshyn 认为人工神经网络缺乏系统组合的能力。几十年来,领域内的研究人员一直在努力让神经网络具备一些泛化能力,但能力很有限。因此,关于 Jerry Fodor 和 Zenon Pylyshyn 的观点的争论也一直存在。

现在,来自纽约大学和庞培法布拉大学的研究人员联合提出了一种称为「组合性元学习 (Meta-learning for Compositionality,MLC) 」的新方法,该方法可以提高 ChatGPT 等工具进行组合泛化的能力。

实验结果表明,MLC 方法不仅优于现有方法,还表现出人类水平的系统泛化(systematic generalization,SG)能力,在某些情况下甚至优于人类。组合泛化能力也是大型语言模型(LLM)有望实现通用人工智能(AGI)的基础。

这项研究表明 AI 模型可以具备较强的组合泛化能力,具有里程碑意义。研究论文发表在《Nature》杂志上。



论文地址:https://www.nature.com/articles/s41586-023-06668-3

方法介绍

在 MLC 方法中,神经网络会不断更新以提高其在一系列场景(episode)中的技能。在一个场景中,MLC 会收到一个新单词,并被要求组合使用该单词。例如,使用单词「jump」来创建新的单词组合,例如「jump times」、「jump around right times」;然后 MLC 接收一个包含不同单词的新场景,依此类推,每次都会提高神经网络的组合技能。


如下图所示,四个原语是从一个输入单词到一个输出符号的直接映射,每个输出符号都是一个特定颜色的圆圈。例如,「dax」对应红色圆圈(RED),「wif」对应绿色圆圈(GREEN),「lug」对应蓝色圆圈(BLUE)。「fep」、「blicket」和「kiki」是带有参数的函数。


函数 1(fep)将前面的原语作为参数,重复其输出其三次(例如「dax fep」是 RED RED RED);函数 2(blicket)将前面的原语和后面的原语作为参数,以特定的交替序列生成输出(例如「wif blicket dax」是 GREEN RED GREEN);最后,函数 3(kiki)将前面和后面的字符串作为输入,以相反的顺序连接它们作为输出(例如「dax kiki lug」为 BLUE RED)。该研究还测试了函数 3 的参数由其他函数生成的情况,例如「wif blicket dax kiki lug」为 BLUE GREEN RED GREEN)。

如下图 4 所示,MLC 实现采用标准的 seq2seq transformer。该架构涉及两个协同工作的神经网络 —— 一个编码器 transformer 用于处理查询输入和学习样本,一个解码器 transformer 用于生成输出序列。编码器和解码器都有 3 层,每层 8 个注意力头,输入和隐藏嵌入大小为 128,前馈隐藏大小是 512,使用 GELU 激活函数替代 ReLU。整个架构总共有大约 140 万个参数。


编码器网络(图 4(下))负责处理一个串联的源字符串,该字符串将查询输入序列与一组研究样本(输入 / 输出序列对)组合在一起。解码器网络(图 4(上))从编码器接收消息并生成输出序列。

MLC 使用标准的 transformer 架构进行基于记忆的元学习。具体来说,每个场景都会构成一个通过随机生成的潜在语法定义的特定 seq2seq 任务。

实验结果

为了展示 MLC 的能力,该研究在一个使用伪语言(pseudolanguage)的教学学习实验中,将 MLC 与人类进行了比较。主要结果包括以下几点。

人类表现出很强的系统性,但也依赖于归纳偏置,有时会偏离纯粹的代数推理(algebraic reasoning)。

MLC 在实验中实现了人类水平的系统泛化(SG)。当进行随机响应时,MLC 还会产生类似人类的错误模式,例如一对一映射和图标串联等偏置。

MLC 在预测人类行为方面优于更严格的系统模型和基本的 seq2seq 模型。它在某些指标上也超过了人类的表现。联合优化的 MLC 模型很好地捕捉了人类反应的细微差别。

MLC 通过元学习在 SCAN 和 COGS 等系统泛化基准测试中取得了较高的准确率,而 basic seq2seq 在这些测试中失败。

该研究发现,与完美系统但严格的概率符号模型和完美灵活但非系统的神经网络相比,只有 MLC 实现了模仿人类表现所需的系统泛化和灵活性。

接下来,我们看一些具体的实验报告展示。

如上图 2 所示,该研究给参与者 (n = 25) 提供了 14 个学习指令(输入 / 输出对)的课程,并要求参与者为 10 个查询指令产生输出。

结果显示,在 80.7% 的情况下,参与者能够生成与代数标准(algebraic standard )完全匹配的输出序列(由图 2b (i) 中的星号表示)。如果长度已知,则双长度输出序列的概率性能为 2.8%,而对于较长的序列则呈指数级降低。值得注意的是,在 72.5% 的情况下,参与者也正确地归纳了比训练期间看到的更长的输出序列 (图 2b (i) 中的最后一个指令显示了一个例子),这是神经网络经常难以做到的一种泛化。

如下图 3 是在开放式指令任务上的结果,不同的人类参与者(n=29)被要求对七个未知指令的输出以及它们之间的关系做出合理的猜测(用一系列彩色圆圈响应 fep fep 或 fep wif),并且实验过程中,不让参与者看到任何的输入、输出示例从而影响结果。

在 29 位参与者中,有 17 位(约占 58.6%)的响应模式类似于图 3a,b (左),这与三种归纳偏置完全一致。在所有的回答中,29 名参与者中有 18 名遵循一对一 (62.1%),29 名参与者中有 23 名 (79.3%) 遵循标志性的串联,除了两人之外,所有参与者都遵循相互排他性来对每个指令做出唯一的响应(29 名中的 27 名,93.1%)。


总的来说,MLC 方法通过动态的合成任务流来指导神经网络的训练,从而实现了模仿人类表现所需的系统泛化和灵活性。

感兴趣的读者可以阅读论文原文,了解更多研究内容。

参考链接:
https://www.nature.com/articles/d41586-023-03272-3https://www.nature.com/articles/s41586-023-06668-3https://www.sciencedaily.com/releases/2023/10/231025163006.htmhttps://twitter.com/LakeBrenden/status/1717198382115221859https://twitter.com/IntuitMachine/status/171724086849775617



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
30多年前的鬼片,今夜福利来了北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型从单体到微服务的系统改造:采用事件驱动架构优化会员系统Nature:超越ChatGPT,思维更像人类的人工智能诞生,具备了人类举一反三的能力红色日记 1967年 18岁 1.1-16猫猫纪念碑?奥格斯堡大学:在准备了,在准备了谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱纽约川菜天花板又被打破了!55年历史传奇面馆,联手国内“麻小”创始人 新店来袭!谷歌DeepMind力证:GPT-4终局是人类智慧总和!Transformer模型无法超越训练数据进行泛化回忆与思考加州|34人死亡!4年前加州最严重的游船火灾,船长被判罪名成立,但依据200多年前的法律,最高只是10年刑期20多年前,任正非就断言华为是“一定能活下来的”34人死亡!4年前加州最严重的游船火灾,船长被判罪名成立,但依据200多年前的法律,最高只是10年刑期霸榜港澳台、东南亚夺冠后,20多年前的“白月光”回来了?35年首次证明!NYU重磅发现登Nature:神经网络具有类人泛化能力,举一反三超GPT-4创始于康熙中期,慈禧尝过都说好的酥皮月饼,国营老厂手艺人40年坚守,“还原了”300多年前的味道一张40多年前的Coles照片火了!引发大量转发,网友感慨:这才是超市该有的样子...何处是江南:300多年前的“江南省”小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大Nature:神经网络“举一反三”能力甚至超人类Nature | 利用人类胚胎干细胞在实验室构建完整的胎龄为14天的人类胚胎模型战国故事《定风波》卷二(25):春梦免费大模型实战课|首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营11月16日开讲!谷歌DeepMind力证:Transformer模型无法超越训练数据进行泛化!GPT-4终局是人类智慧总和!麦肯锡发布生成式AI报告,预测2030可达人类水平RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平首批AI大模型获批上线,BATH在列;华为Mate 60开售即火,接入盘古大模型;AI操控无人机能力超越人类冠军丨AI周报Nature | 从一颗干细胞到完整人类胚胎,以色列科学家开发模拟人类早期发育的新模型MIT斯坦福Transformer最新研究:过度训练让中度模型「涌现」结构泛化能力这个本班竟然没人讨论?Nature:不可避免的(unavoidable )南极西部冰盖融化会在21世纪内实现LM-Infinite: 一种简单有效的大模型即时长度泛化,解决更长文本推理问题谷歌大模型研究陷重大争议:训练数据之外完全无法泛化?网友:AGI奇点推迟了美国西北角小家庭和单身人士购物最爱的一家连锁超市厚重的历史书,雄伟的大教堂Adobe推出三个新的生成式AI模型;AMD收购AI软件公司Nod.ai;百度文心生物计算大模型登Nature子刊丨AIGC日报李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。