Redian新闻
>
田渊栋新作:打开1层Transformer黑盒,注意力机制没那么神秘

田渊栋新作:打开1层Transformer黑盒,注意力机制没那么神秘

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】AI理论再进一步,破解ChatGPT指日可待?


Transformer架构已经横扫了包括自然语言处理、计算机视觉、语音、多模态等多个领域,不过目前只是实验效果非常惊艳,对Transformer工作原理的相关研究仍然十分有限。


其中最大谜团在于,Transformer为什么仅依靠一个「简单的预测损失」就能从梯度训练动态(gradient training dynamics)中涌现出高效的表征?


最近田渊栋博士公布了团队的最新研究成果,以数学严格方式,分析了1层Transformer(一个自注意力层加一个解码器层)在下一个token预测任务上的SGD训练动态。


论文链接:https://arxiv.org/abs/2305.16380


这篇论文打开了自注意力层如何组合输入token动态过程的黑盒子,并揭示了潜在的归纳偏见的性质。


具体来说,在没有位置编码、长输入序列、以及解码器层比自注意力层学习更快的假设下,研究人员证明了自注意力就是一个判别式扫描算法(discriminative scanning algorithm)


从均匀分布的注意力(uniform attention)开始,对于要预测的特定下一个token,模型逐渐关注不同的key token,而较少关注那些出现在多个next token窗口中的常见token


对于不同的token,模型会逐渐降低注意力权重,遵循训练集中的key token和query token之间从低到高共现的顺序。


有趣的是,这个过程不会导致赢家通吃,而是由两层学习率控制的相变而减速,最后变成(几乎)固定的token组合,在合成和真实世界的数据上也验证了这种动态。


田渊栋博士是Meta人工智能研究院研究员、研究经理,围棋AI项目负责人,其研究方向为深度增强学习及其在游戏中的应用,以及深度学习模型的理论分析。先后于2005年及2008年获得上海交通大学本硕学位,2013年获得美国卡耐基梅隆大学机器人研究所博士学位。



曾获得2013年国际计算机视觉大会(ICCV)马尔奖提名(Marr Prize Honorable Mentions),ICML2021杰出论文荣誉提名奖。


曾在博士毕业后发布《博士五年总结》系列,从研究方向选择、阅读积累、时间管理、工作态度、收入和可持续的职业发展等方面对博士生涯总结心得和体会。


揭秘1层Transformer


基于Transformer架构的预训练模型通常只包括非常简单的监督任务,比如预测下一个单词、填空等,但却可以为下游任务提供非常丰富的表征,实在是令人费解。


之前的工作虽然已经证明了Transformer本质上就是一个通用近似器(universal approximator),但之前常用的机器学习模型,比如kNN、核SVM、多层感知机等其实也是通用近似器,这种理论无法解释这两类模型在性能上的巨大差距。



研究人员认为,了解Transformer的训练动态(training dynamics)是很重要的,也就是说,在训练过程中,可学习参数是如何随时间变化的。


文章首先以严谨数学定义的方式,形式化描述了1层无位置编码Transformer的SGD在下一个token预测(GPT系列模型常用的训练范式)上的训练动态。


1层的Transformer包含一个softmax自注意力层和预测下一个token的解码器层。



在假设序列很长,而且解码器的学习速度比自注意力层快的情况下,证明了训练期间自注意力的动态行为:


1. 频率偏差Frequency Bias


模型会逐渐关注那些与query token大量共现的key token,而对那些共现较少的token降低注意力。


2. 判别偏差Discrimitive Bias


模型更关注那些在下一个要预测的token中唯一出现的独特token,而对那些在多个下一个token中出现的通用token失去兴趣。


这两个特性表明,自注意力隐式地运行着一种判别式扫描(discriminative scanning)的算法,并存在归纳偏差(inductive bias),即偏向于经常与query token共同出现的独特的key token


此外,虽然自注意力层在训练过程中趋向于变得更加稀疏,但正如频率偏差所暗示的,模型因为训练动态中的相变(phase transition),所以不会崩溃为独热(one hot)。



学习的最后阶段并没有收敛到任何梯度为零的鞍点,而是进入了一个注意力变化缓慢的区域(即随时间变化的对数),并出现参数冻结和学会(learned)。


研究结果进一步表明,相变的开始是由学习率控制的:大的学习率会产生稀疏的注意力模式,而在固定的自注意力学习率下,大的解码器学习率会导致更快的相变和密集的注意力模式。


研究人员将工作中发现的SGD动态命名为扫描(scan)和snap:


扫描阶段自注意力集中在key tokens上,即不同的、经常与下一个预测token同时出现的token;其他所有token的注意力都下降。


snap阶段注意力全中几乎冻结,token组合固定。



这一现象在简单的真实世界数据实验中也得到验证,使用SGD在WikiText上训练的1层和3层Transformer的最低自注意力层进行观察,可以发现即使在整个训练过程中学习率保持不变,注意力也会在训练过程中的某一时刻冻结,并变得稀疏。

参考资料:
https://arxiv.org/abs/2305.16380




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
让注意力提速9倍!FlashAttention燃爆显存,Transformer上下文长度史诗级提升!比Transformer快4成!Meta发布全新Megabyte模型,解决算力损耗硬伤ICCV 2023 | token过度聚焦暴露注意力机制弱点,两种模块设计增强视觉Transformer鲁棒性transformer的细节到底是怎么样的?Transformer 连环18问!PackedBert:如何用打包的方式加速Transformer的自然语言处理任务逐利的商人和国家利益Transformer开山论文惊天「翻车」?图与代码不一致,神秘bug看傻了Attention机制竟有bug?Softmax是罪魁祸首,影响所有TransformerChatGPT危了!注意力机制的神秘bug曝光!Transformer模型恐大受冲击...ChatGPT危了!「注意力公式」8年神秘bug首曝光,Transformer模型恐大受冲击能胜任统计学家?Transformers超强学习机制「自动算法选择」《伤心无话》&《一剪梅*舟过吴江》无需人类反馈即可对齐!田渊栋团队新作RLCD:无害型、有益性、大纲写作全面超越基线模型LeCun、田渊栋参与撰写,70页「自监督学习」大全来了5047 血壮山河之武汉会战 鏖战幕府山 16回国-出租司机吐槽,老百姓喜欢的饭菜(多图)云原生 AI 工程化实践:FasterTransformer 加速 LLM 推理我的X档案 - 不可思议之事 2(灵魂出窍)(请勿上城头)在Transformer时代重塑RNN,RWKV将非Transformer架构扩展到数百亿参数无自注意力照样高效!RIFormer开启无需token mixer的Transformer结构新篇章Attention机制竟有bug,Softmax是罪魁祸首,影响所有TransformerLeCun力挺!马毅教授五年集大成之作:数学可解释的白盒Transformer,性能不输ViT炸裂!微软新作LongNet:将Transformer扩展到10亿个Tokens8年了,Transformer注意力机制一直有Bug?Transformer作者创立,Hinton、李飞飞青睐,明星创企Cohere推出打工人专用知识助手华为将推盘古数字人大模型;搜狗原CMO加盟王小川公司;首个线性注意力Transformer大模型推出丨AIGC大事日报羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品LeCun力挺,马毅教授五年集大成之作:完全数学可解释的白盒Transformer,性能不输ViT大模型的好伙伴,浅析推理加速引擎FasterTransformer基于Transformer的大模型是如何运行的?Meta从全局和上下文学习揭秘ICLR 2023 | Edgeformers: 基于Transformer架构的表征学习框架田渊栋团队最新研究:不到1000步微调,将LLaMA上下文扩展到32K田渊栋团队新作:通过位置插值来扩展大语言模型的上下文窗口ICLR 2023 | DIFFormer: 扩散过程启发的Transformer12种模态,一个学习框架,Meta-Transformer实现骨干网络大一统
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。