Redian新闻
>
​Transformer是推断还是记忆?初始化大小很重要

​Transformer是推断还是记忆?初始化大小很重要

公众号新闻
©作者 | 张众望,许志钦,GPT-4o(负责幽默部分)
单位 | 上海交大深度学习基础理论团队

Transformer 架构在当前大语言模型中的地位,堪比麦当劳里的牛肉饼——谁不爱呢?这位“全能选手”能解数学题、写诗作赋,简直是 AI 界的“跨界网红”。不过,要揭开它才华横溢的秘密,可比哄孩子吃饭还费劲。


直接研究真实的大语言模型,难度堪比在菜市场里向大妈们讲解狭义相对论——你会被讨价还价的嘈杂声淹没。所以,咱们换个思路,采用“锚点-关键项”这招“偷天换日”,既省时又高效。接下来,让我们一探 Transformer 学习复合函数的究竟:它是靠推理,还是单纯拼记忆?


假设我们有四种基本运算,它们可以组合出 16 种“变身形态”(16 种复合运算)。如果我们只拿其中 15 种训练模型,你猜:它能掌握剩下那个“遗珠”吗?

答案是肯定的!


我们给模型输入一个 Token 序列,其中有一对从 {1, 2, 3, 4} 中选出的“天选锚点”,每个代表一种加减法运算。还有一个从 20 到 100 中挑选的“关键项”,它在经过“天选锚点”的洗礼后,幻化成序列的目标值。我们令四个锚点分别代表 “+5”、“+1”、“-2”、“-8” 四种魔法。举个栗子,如果关键项是 80,锚点是(1, 2),那目标值就是(80+5)+1=86。


如果我们只用 15 个锚点组合训练,模型竟然能掌握第 16 个的套路。这就像隔着手机屏幕学会做大餐,是不是很酷?那模型到底是怎么做到的呢?为了方便讨论,我们就假设缺席训练的是(4, 3)这对“神仙眷侣”。


其实,模型的学习机制有两种可能。一是走“福尔摩斯”路线,通过演绎推理出每个单锚点的能力,再将 “4”、“3” 的技能组合,找到推理解,破解(4, 3)的奥秘。二是走“复制粘贴”路线,发现(a, b)和(b, a)这两类锚点组合的效果一样(因为加减法可交换嘛),于是把(3, 4)的规律“拿来主义”,安到(4, 3)头上,找到对称解。Transformer 究竟更爱哪一套呢?

破案的方法很简单,我们把(3, 4)的效果从 “-10” 改成“-6”,看(4, 3)是否也跟着变。如果(4, 3)的结果仍是 “-10”,说明模型是靠推理;如果变成了 “-6”,就说明模型其实在背公式。


实验发现,以默认初始化为分水岭,大的初始化推动模型多用背诵,学到对称解,小的初始化则有利于推理。这就像健身房的两类人,一类死记硬背每个动作,一类则掌握基本原理,灵活运用。

这其实与模型复杂度有关。对于推断机制,模型仅需要记住 4 种单 anchor 运算,而对于记忆机制,模型需要学习所有非对称关系的运算规律(如(1,1),(1,2)(1,3),(1,2),(2,2)等共 10 种)。因此学习推断机制所需要的模型复杂度更低。对于小初始化,模型初始复杂度低,模型参数会 发生凝聚现象。简单来说,就是同层的神经元会趋同。例如 矩阵的列,在小初始化时,有明显地相似度(低秩),但大初始化下并没有这种现象。

训练开始时,参数聚集在少数方向,随着训练深入,聚集的方向逐渐增多,模型复杂度水涨船高。当模型发现学 4 种映射就够拟合训练集,学习就停止了,所以它更爱简单的推理解。而在大初始化下,复杂度够高,模型很快记住其中的对称性。如果初始化再大一点,它干脆把每个输入序列到输出的映射都记住,反而学不到算术规律,连见过的锚点组合都不能保证完美复现。


通过这项研究,我们发现,Transformer 模型的初始化大小决定了它是像福尔摩斯一样通过推理解谜,还是像我奶奶一样通过记忆菜谱来做饭。小初始化让模型像侦探一样,只需要记住几个关键的线索(运算规则),就能推理出所有结果。而大初始化则像孙悟空,把所有知识吃下去的方式记下来。


展望未来,科学家们可能会像调配宇宙飞船的发动机一样,精确调节 Transformer 的初始化参数,以便它们在各种复杂任务中都能表现出色。想象一下,将来有一天,Transformer 不仅可以帮你证定理、写论文,还能帮你规划度假行程,甚至给你家的猫咪制定健身计划。


不过,要实现这些目标,我们还需要深入探讨不同初始化对模型复杂度和泛化能力的影响,就像农民研究如何让奶牛在听音乐时产奶更多一样。这不仅需要大量实验,还需要一点点运气和许多好奇心。


参考文献

[1] Zhongwang Zhang, Pengxiao Lin, Zhiwei Wang, Yaoyu Zhang, Zhi-Qin John Xu*, Initialization is Critical to Whether Transformers Fit Composite Functions by Inference or Memorizing, arxiv 2405.05409 (2024)
[2] Zhongwang Zhang#, Zhiwei Wang#, Junjie Yao, Zhangchen Zhou, Xiaolong Li, Weinan E, Zhi-Qin John Xu*, Anchor function: a type of benchmark functions for studying language models, arxiv 2401.08309 (2024)



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Transformer解码真实场景!Meta推出70M参数SceneScript模型脱离现实-忘我的状态,是健康长寿的一个关键因素善待老去的父母就是善待明天的自己妮妮的感谢中文实录!黄仁勋集齐Transformer论文七大作者,对话一小时,干货满满OpenAI公关跳起来捂他嘴!Transformer作者公开承认参与Q*!Transformer仍是2024发论文神器Indian是印度,Summer是夏天,那​你知道Indian summer是什么意思吗?谁将替代 Transformer?开源日报 | 华为腾讯相爱相杀;Redis不再 “开源”;老黄集齐Transformer论文七大作者;“中国大模型第一城”争夺战超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTTYOCO:打破传统Decoder-only架构,内存消耗仅为Transformer的六分之一CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术现场围观 | 黄仁勋对话Transformer论文作者:世界该给Tranformer翻篇了纯加法Transformer!结合脉冲神经网络和Transformer的脉冲Transformer | NeurIPS 2023Mamba和Transformer合体!Jamba来了:超越Transformer!Transformer要变Kansformer?用了几十年的MLP迎来挑战者KAN记录是一种集体的记忆还是个体的记忆?AI 大神首次承认参与神秘模型 Q* 研发,把 OpenAI 吓坏了 | Transformer 作者专访人人都能当周杰伦!Suno作曲,ChatGPT写词,网友用Transformer造出神曲!三道菜的电影大餐OpenAI官宣开源Transformer Debugger!不用写代码,人人可以破解LLM黑箱ICML 2024|Transformer究竟如何推理?基于样例还是基于规则黄仁勋集齐Transformer论文七大作者,对话一小时,干货满满7人创业、1人投敌!Transformer 八子谷歌坐冷板凳5年再成老黄座上宾一文理解透Transformer性能突破Transformer!Mamba引爆AI圈ICML 2024 | Transformer究竟如何推理?基于样例还是基于规则Mamba架构第一次做大!混合Transformer,打败TransformerMeta革命新架构掀翻Transformer!无限上下文处理!Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量璀璨而悲凉:大明才子的传奇人生为什么Transformer一般使用LayerNorm?Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文开源日报 | 清明节前AI复活亲人成热门生意;中国没有“百模大战”,未来也不会有“十模大战”;谁将替代Transformer?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。