国际科技财经博客移民网络热点娱乐民生时事公众号

>

谷歌发现大模型「领悟」现象！训练久了突然不再死记硬背，多么痛的领悟

谷歌发现大模型「领悟」现象！训练久了突然不再死记硬背，多么痛的领悟

公众号新闻

2023-08-12 04:08

萧箫发自凹非寺
量子位 | 公众号 QbitAI

哪怕只有几十个神经元，AI也能出现泛化能力！

这是几个谷歌科学家在搞正经研究时，“不经意间”发现的新成果。

他们给一些很简单的AI模型“照了个X光”——将它们的训练过程可视化后，发现了有意思的现象：

随着训练时间增加，一些AI会从“死记硬背”的状态中脱离出来，进化出“领悟力”（grokking），对没见过的数据表现出概括能力。

这正是AI掌握泛化能力的关键。

基于此，几位科学家专门写了个博客，探讨了其中的原理，并表示他们会继续研究，试图弄清楚大模型突然出现强理解力的真正原因。

一起来看看。

并非所有AI都能学会“领悟”

科学家们先探讨了AI出现“领悟力”（grokking）的过程和契机，发现了两个现象：

一、虽然训练时loss会突然下降，但“领悟”并不是突然发生的，它是一个平滑的变化过程。
二、并非所有AI都能学会“领悟”。

先来看第一个结论。他们设计了一个单层MLP，训练它完成“数奇数”任务。

“数奇数”任务，指识别一串长达30位“0”“1”序列中的前3位是否有奇数个“1”。例如，在000110010110001010111001001011中，前3位没有奇数个1；010110010110001010111001001011中，前3位有奇数个1。

在训练前期阶段，模型中各神经元的权重（下图中的热图）是杂乱无章的，因为AI不知道完成这一任务只需要看前3个数字。

但经过一段时间的训练后，AI突然“领悟了”，学会了只看序列中的前3个数字。具体到模型中，表现为只剩下几个权重会随着输入发生变化：

这个训练过程的目标被称之为最小化损失（提升模型输出准确率），采用的技术则被称之为权重衰减（防止模型过拟合）。

训练过程中，有一些权重与任务的“干扰数字”（30位序列的后27位）相关，下图可视化为灰色；有一些则与完成任务的“前3位数字”有关，下图可视化为绿色。

当最后一个灰色权重降到接近0，模型就会出现“领悟力”，显然这个过程不是突然发生的。

再来看第二个结论。不是所有AI模型都能学会“领悟”。

科学家们训练了1125个模型，其中模型之间的超参数不同，每组超参数训练9个模型。

最后归纳出4类模型，只有2类模型会出现“领悟力”。

如下图，“白色”和“灰色”代表学不会“领悟”的AI模型，“黄色”和“蓝色”代表能“领悟”的AI模型。

总结概括规律就是，一旦权重衰减、模型大小、数据量和超参数的设置不合适，AI的“领悟力”就有可能消失——

以权重衰减为例。如果权重衰减太小，会导致模型过拟合；权重衰减太大，又会导致模型学不到任何东西。

嗯，调参是门技术活……

了解现象之后，还需要探明背后的原因。

接下来，科学家们又设计了两个小AI模型，用它来探索模型出现“领悟力”、最终掌握泛化能力出现的机制。

更大的模型学会泛化的机制

科学家们分别设计了一个24个神经元的单层MLP和一个5个神经元的单层MLP，训练它们学会做模加法（modular addition）任务。

模加法，指(a + b) mod n。输入整数a和b，用它们的和减去模数n，直到获得一个比n小的整数，确保输出位于0~(n-1)之间。

显然，这个任务的输出是周期性的，答案一定位于0~66之间。

首先，给只有5个神经元的单层MLP一点“提示”，设置权重时就加入周期性（sin、cos函数）。

在人为帮助下，模型在训练时拟合得很好，很快学会了模加法。

然后，试着“从头训练”具有24个神经元的单层MLP，不特别设置任何权重。

可以看到，训练前期，这只MLP模型的权重（下面的热图）变化还是杂乱无章的：

然而到达某个训练阶段后，模型权重变化会变得非常规律，甚至随着输入改变，呈现出某种周期性变化：

如果将单个神经元的权重拎出来看，随着训练步数的增加，这种变化更加明显：

这也是AI从死记硬背转变为具有泛化能力的关键现象：神经元权重随着输入出现周期性变化，意味着模型自己找到并学会了某种数学结构（sin、cos函数）。

这里面的频率（freq）不是固定的一个值，而是有好几个。

之所以会用到多个频率（freq），是因为24个神经元的单层MLP还自己学会了使用相长干涉（constructive interference），避免出现过拟合的情况。

不同的频率组合，都能达到让AI“领悟”的效果：

用离散傅里叶变换（DFT）对频率进行隔离，可以发现和“数奇数”类似的现象，核心只有几个权重起作用：

总结来看，就像前面提到的“数奇数”任务一样，“模加法”实验表明，参数量更大的AI也能在这个任务中学会“领悟”，而这个过程同样用到了权重衰减。

从5个神经元到24个神经元，科学家们成功探索了更大的AI能学习“领悟”的机制。

接下来，他们还计划将这种思路套用到更大的模型中，以至于最后能归纳出大模型具备强理解力的原因。

不仅如此，这一成果还有助于自动发现神经网络学习算法，最终让AI自己设计AI。

团队介绍

撰写博客的作者来自谷歌的People + AI Research（PAIR）团队。

这是谷歌的一个多学科团队，致力于通过基础研究、构建工具、创建框架等方法，来研究AI的公平性、可靠性等。

一句话总结就是，让“AI更好地造福于人”。

博客地址：
https://pair.withgoogle.com/explorables/grokking/

— 完 —

「AIGC+垂直领域社群」

招募中！

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群，一起学习、探索、创新AIGC！

请备注您想加入的垂直领域「教育」或「广告营销」，加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

免费领丨谁说历史只能死记硬背？这13部历史动画片有趣又有料！赶快给孩子增加一些历史知识吧～5091 血壮山河之武汉会战黄广战役 23 清华校友立功！谷歌发布首个全科医疗大模型，14项任务SOTA 网店模特危机，谷歌发布图片合成模型TryOnDiffusion Anthropic 创始人：可以给大模型「照 X 光」，AGI 2-3 年可实现谷歌：大模型不仅有涌现能力，训练时间长了还有「领悟」能力移民生活（14）王老师和他的洋弟子大模型与知识图谱融合？爱数推出基于大模型的领域认知智能产品与方案上山下海，360收获AI大模型「第一桶金」马可?奥勒留：受爱戴的真正的哲学家皇帝真能听懂人话！机器人ChatGPT来了，谷歌发布又一AI大模型黑科技父母该不该给孩子们银行账户的密码?谷歌证实大模型能顿悟，特殊方法能让模型快速泛化，或将打破大模型黑箱 8.23 中国大模型「顶流群聊」笔记中科院计算所推出多语言大模型「百聆」，我们已经上手聊起来了（10个邀请码）如何快速实现大模型落地？5小时get大模型时代实战密码！智能周报｜OpenAI发布ChatGPT企业版，预计今年营收10亿美元；首批11家国产大模型「获批」，不包括阿里巴巴通义大模型告诉大模型「深呼吸，一步一步来」有奇效，DeepMind发现最有效的提示方法中年以后最深刻的领悟：遇到烂人不计较，碰到破事别纠缠姚期智领衔提出大模型「思维」框架！逻辑推理正确率达98%，思考方式更像人类了首个可商用的32k上下文开源大模型「长颈鹿」来了，两万词长文不在话下陈丹琦ACL学术报告来了！详解大模型「外挂」数据库7大方向3大挑战，3小时干货满满为防大模型作恶，斯坦福新方法让模型「遗忘」有害任务信息，模型学会「自毁」了如何用AI大模型「读脑」并重建所见图像？中国科学院学者在线分享英伟达推出大模型加速包；Meta将训练对标GPT-4的大模型；ChatGPT等成费水大户丨AIGC大事日报破解大模型「涌现」之谜：新奇性搜索是AI腾飞的踏脚石全面拥抱大模型！腾讯正式开放全自研通用大模型：参数规模超千亿、预训练语料超 2 万亿 tokens 主要说书法，不时打打岔百度华为阿里等入选大模型“国家队”；盘古大模型3.0发布；阿里云推AI绘画大模型丨AIGC大事日报开源大模型FLM-101B：训练成本最低的超100B参数大模型幼儿园掀起关停潮，经济学家预测：未来十年, 「鸡娃」现象将会消失！谷歌 | 大模型除了涌现，还有「领悟」能力！大模型「点火」，AI for Science 提速大模型「上车」关键一步：全球首个语言+自动驾驶全栈开源数据集来了快手自研大模型「快意」亮相，在多个大模型榜单上表现优异

热点事件追踪

美国公司裁员Layoff

2024-01-28 18:01

2024-01-09 19:01

2024-01-07 18:01

美国堕胎权争议

2024-01-06 18:01

美国枪击案

2024-01-06 18:01

2023-12-13 17:12

2023-12-02 07:12

2023-11-26 18:11

中美航班重磅消息！每周85班，直飞更方便！

微软、亚马逊、谷歌大裁员！哪些科技和零售公司有缩减规模计划？

中国外长王毅：中美关系已经止跌回稳

脱轨事故造成20多人受伤联邦调查纽约市全部地铁系统

更多 2024-05-06 的新闻