Redian新闻
>
谷歌发现大模型「领悟」现象!训练久了突然不再死记硬背,多么痛的领悟

谷歌发现大模型「领悟」现象!训练久了突然不再死记硬背,多么痛的领悟

公众号新闻
萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

哪怕只有几十个神经元,AI也能出现泛化能力!

这是几个谷歌科学家在搞正经研究时,“不经意间”发现的新成果。

他们给一些很简单的AI模型“照了个X光”——将它们的训练过程可视化后,发现了有意思的现象:

随着训练时间增加,一些AI会从“死记硬背”的状态中脱离出来,进化出“领悟力”(grokking),对没见过的数据表现出概括能力。

这正是AI掌握泛化能力的关键。

基于此,几位科学家专门写了个博客,探讨了其中的原理,并表示他们会继续研究,试图弄清楚大模型突然出现强理解力的真正原因。

一起来看看。

并非所有AI都能学会“领悟”

科学家们先探讨了AI出现“领悟力”(grokking)的过程和契机,发现了两个现象:

  • 一、虽然训练时loss会突然下降,但“领悟”并不是突然发生的,它是一个平滑的变化过程。

  • 二、并非所有AI都能学会“领悟”。

先来看第一个结论。他们设计了一个单层MLP,训练它完成“数奇数”任务。

“数奇数”任务,指识别一串长达30位“0”“1”序列中的前3位是否有奇数个“1”。例如,在000110010110001010111001001011中,前3位没有奇数个1;010110010110001010111001001011中,前3位有奇数个1。

在训练前期阶段,模型中各神经元的权重(下图中的热图)是杂乱无章的,因为AI不知道完成这一任务只需要看前3个数字。

但经过一段时间的训练后,AI突然“领悟了”,学会了只看序列中的前3个数字。具体到模型中,表现为只剩下几个权重会随着输入发生变化:

这个训练过程的目标被称之为最小化损失(提升模型输出准确率),采用的技术则被称之为权重衰减(防止模型过拟合)

训练过程中,有一些权重与任务的“干扰数字”(30位序列的后27位)相关,下图可视化为灰色;有一些则与完成任务的“前3位数字”有关,下图可视化为绿色

当最后一个灰色权重降到接近0,模型就会出现“领悟力”,显然这个过程不是突然发生的。

再来看第二个结论。不是所有AI模型都能学会“领悟”。

科学家们训练了1125个模型,其中模型之间的超参数不同,每组超参数训练9个模型。

最后归纳出4类模型,只有2类模型会出现“领悟力”。

如下图,“白色”和“灰色”代表学不会“领悟”的AI模型,“黄色”和“蓝色”代表能“领悟”的AI模型。

总结概括规律就是,一旦权重衰减、模型大小、数据量和超参数的设置不合适,AI的“领悟力”就有可能消失——

以权重衰减为例。如果权重衰减太小,会导致模型过拟合;权重衰减太大,又会导致模型学不到任何东西。

嗯,调参是门技术活……

了解现象之后,还需要探明背后的原因。

接下来,科学家们又设计了两个小AI模型,用它来探索模型出现“领悟力”、最终掌握泛化能力出现的机制。

更大的模型学会泛化的机制

科学家们分别设计了一个24个神经元的单层MLP和一个5个神经元的单层MLP,训练它们学会做模加法(modular addition)任务。

模加法,指(a + b) mod n。输入整数a和b,用它们的和减去模数n,直到获得一个比n小的整数,确保输出位于0~(n-1)之间。

显然,这个任务的输出是周期性的,答案一定位于0~66之间。

首先,给只有5个神经元的单层MLP一点“提示”,设置权重时就加入周期性(sin、cos函数)

在人为帮助下,模型在训练时拟合得很好,很快学会了模加法。

然后,试着“从头训练”具有24个神经元的单层MLP,不特别设置任何权重。

可以看到,训练前期,这只MLP模型的权重(下面的热图)变化还是杂乱无章的:

然而到达某个训练阶段后,模型权重变化会变得非常规律,甚至随着输入改变,呈现出某种周期性变化:

如果将单个神经元的权重拎出来看,随着训练步数的增加,这种变化更加明显:

这也是AI从死记硬背转变为具有泛化能力的关键现象:神经元权重随着输入出现周期性变化,意味着模型自己找到并学会了某种数学结构(sin、cos函数)

这里面的频率(freq)不是固定的一个值,而是有好几个。

之所以会用到多个频率(freq),是因为24个神经元的单层MLP还自己学会了使用相长干涉(constructive interference),避免出现过拟合的情况。

不同的频率组合,都能达到让AI“领悟”的效果:

用离散傅里叶变换(DFT)对频率进行隔离,可以发现和“数奇数”类似的现象,核心只有几个权重起作用:

总结来看,就像前面提到的“数奇数”任务一样,“模加法”实验表明,参数量更大的AI也能在这个任务中学会“领悟”,而这个过程同样用到了权重衰减

从5个神经元到24个神经元,科学家们成功探索了更大的AI能学习“领悟”的机制。

接下来,他们还计划将这种思路套用到更大的模型中,以至于最后能归纳出大模型具备强理解力的原因

不仅如此,这一成果还有助于自动发现神经网络学习算法,最终让AI自己设计AI。

团队介绍

撰写博客的作者来自谷歌的People + AI Research(PAIR)团队。

这是谷歌的一个多学科团队,致力于通过基础研究、构建工具、创建框架等方法,来研究AI的公平性、可靠性等。

一句话总结就是,让“AI更好地造福于人”。

博客地址:
https://pair.withgoogle.com/explorables/grokking/

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「广告营销」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
免费领丨谁说历史只能死记硬背?这13部历史动画片有趣又有料!赶快给孩子增加一些历史知识吧~5091 血壮山河之武汉会战 黄广战役 23清华校友立功!谷歌发布首个全科医疗大模型,14项任务SOTA网店模特危机,谷歌发布图片合成模型TryOnDiffusionAnthropic 创始人:可以给大模型「照 X 光」,AGI 2-3 年可实现谷歌:大模型不仅有涌现能力,训练时间长了还有「领悟」能力移民生活(14)王老师和他的洋弟子大模型与知识图谱融合?爱数推出基于大模型的领域认知智能产品与方案上山下海,360收获AI大模型「第一桶金」马可?奥勒留:受爱戴的真正的哲学家皇帝真能听懂人话!机器人ChatGPT来了,谷歌发布又一AI大模型黑科技父母该不该给孩子们银行账户的密码?谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱8.23 中国大模型「顶流群聊」笔记中科院计算所推出多语言大模型「百聆」,我们已经上手聊起来了(10个邀请码)如何快速实现大模型落地?5小时get大模型时代实战密码!智能周报|OpenAI发布ChatGPT企业版,预计今年营收10亿美元;首批11家国产大模型「获批」,不包括阿里巴巴通义大模型告诉大模型「深呼吸,一步一步来」有奇效,DeepMind发现最有效的提示方法中年以后最深刻的领悟:遇到烂人不计较,碰到破事别纠缠姚期智领衔提出大模型「思维」框架!逻辑推理正确率达98%,思考方式更像人类了首个可商用的32k上下文开源大模型「长颈鹿」来了,两万词长文不在话下陈丹琦ACL学术报告来了!详解大模型「外挂」数据库7大方向3大挑战,3小时干货满满为防大模型作恶,斯坦福新方法让模型「遗忘」有害任务信息,模型学会「自毁」了如何用AI大模型「读脑」并重建所见图像?中国科学院学者在线分享英伟达推出大模型加速包;Meta将训练对标GPT-4的大模型;ChatGPT等成费水大户丨AIGC大事日报破解大模型「涌现」之谜:新奇性搜索是AI腾飞的踏脚石全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超 2 万亿 tokens主要说书法,不时打打岔百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报开源大模型FLM-101B:训练成本最低的超100B参数大模型幼儿园掀起关停潮,经济学家预测:未来十年, 「鸡娃」现象将会消失!谷歌 | 大模型除了涌现,还有「领悟」能力!大模型「点火」,AI for Science 提速大模型「上车」关键一步:全球首个语言+自动驾驶全栈开源数据集来了快手自研大模型「快意」亮相,在多个大模型榜单上表现优异
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。