Redian新闻
>
​Bias项的神奇作用:RoPE + Bias = 更好的长度外推性

​Bias项的神奇作用:RoPE + Bias = 更好的长度外推性

科技

©PaperWeekly 原创 · 作者 | 苏剑林
单位 | 追一科技
研究方向 | NLP、神经网络


万万没想到,Bias 项能跟 Transformer 的长度外推性联系在一起!

长度外推性是我们希望 Transformer 具有的一个理想性质,笔者曾在《Transformer升级之路:长度外推性与局部注意力》《Transformer升级之路:长度外推性与位置鲁棒性》系统地介绍过这一问题。至于 Bias 项(偏置项),目前的主流观点是当模型足够大时,Bias 项不会有什么特别的作用,所以很多模型选择去掉 Bias 项,其中代表是 Google 的 T5 和 PaLM [1],我们后面做的 RoFormerV2GAU-α 也沿用了这个做法。

那么,这两个看上去“风牛马不相及”的东西,究竟是怎么联系起来的呢?Bias 项真的可以增强 Transformer 的长度外推性?且听笔者慢慢道来。




隐藏彩蛋
首先,为什么会想到考察 Bias 项和长度外推性的联系呢?这是因为笔者前几天在重温 GAU 的论文《Transformer Quality in Linear Time》[2] 时,发现了之前没有在意的一个“隐藏彩蛋”——加性相对位置编码,其伪代码为:

▲ GAU 的加性相对位置编码的伪代码
这里我们主要看 的部分,如果写成公式,大致是

其中 是 RoPE 的旋转矩阵, 是两个可学习参数。
这个加性相对位置编码其实之前也留意到了,但当时的评价只是“不理解为什么同时用几种位置编码”,而最近笔者一直在思考长度外推性问题,所以对这个形式就比较敏感了。
可以证明, ,结果正好是《Transformer升级之路:长度外推性与局部注意力》介绍的能改善长度外推性的 Sandwich ,其原理就 现出关于 递减的趋势,加到注意力矩阵上后,能够起到局部化注意力的作用,而根据《Transformer升级之路:长度外推性与局部注意力》,注意力局部化是语言模型外推性的关键。
所以笔者不禁猜测,难道原论文中的这个加性相对位置编码,就是用来增强长度外推性的?GAU 的作者竟然如此有先见之明,早在 Sandwich 之前就提出了类似的想法来解决长度外推性问题?



换成偏置
不过,对于笔者来说,这种往 Attention 矩阵上额外加上一项来增强长度外推性的方案都显得不够优雅,所以不管原作者意图如何以及实际效果如何,笔者都不倾向这样做。有什么类似的但几乎“无感”的方案呢?笔者考虑到,如果 分别是 的 Bias 项,或许可以起到类似的效果,即考虑

很明显,单纯增加一个 Bias 项,不管从形式上还是计算量上看都几乎是“无感”的,如果这样就能增强长度外推性,无疑是一个很漂亮的方案。是否可行呢?我们先来看展开后的结果:

其中第一项和第四项正好对应公式(1),它们都是我们想要的,所以我们想看看第二项和第三项起到什么作用,如果它们不会有什么明显的效应,那么直接加上 Bias 项的做法,至少是“有希望”能够取得跟式(1)或者 Sandwich 相似的外推效果。

笔者是这样想的:作为 Attention 的 Query 和 Key, 应该是比较“各向同性”的,即它们的方向比较均匀,接近球面上均匀采样, 是一个正交变换,它不改变 的各向同性性质,那么 这两项,就相当于从各向同性分布采样出来的向量,跟一个固定向量的内积,根据我们在《n维空间下两个随机向量的夹角分布》[3] 中的讨论,这样的两个向量夹角应该是很接近 90 度的,换言之这个内积的期望应该是 0,所以第二项和第三项的效应理论上没有剩余两项那么强。
当然,这仅仅是猜测,实际它会训练成怎样,只能通过实验来确定。所以事不宜迟,笔者立刻进行了实验。



实验结果

这次笔者选了语言模型任务进行实验,模型架构还是之前的 GAU-α,训练长度和 batch_size 都是 512,优化器是 Tiger,两个模型的唯一差别就是 Q、K 的 Bias 是否开启(其他 Bias 仍被去掉)。

外推效果上的对比:

可以看到,Bias 项确实不怎么影响训练效果(512长度),但却在长度外推性上面明显拉开了差距,看似毫无存在感的 Bias 项居然有此神奇作用!当然,要是重跑几次实验,外推性的结果可能会有明显的波动,毕竟长度外推性属于“赠送功能”,并不是我们主动触发的。

为了验证剩下生效机制是否如我们猜测,笔者可视化了式(3)的四项在某个样本某一层的变化规律:

▲ 加上Bias后四项内积对比

可以看到,第 4 项确确实实呈现衰减趋势,并且其大小占据了主导地位,将这四项叠加起来,与没有加 Bias 的模型对比如下:

▲ 有无Bias的Attention矩阵对比
很明显,跟前面的猜测一致,带有 Bias 项的模型的注意力矩阵呈现更明显的衰减趋势,换言之它的局部化效应更加强,从而有更好的外推性能。需要指出的是,加上 Bias 的模型并不是每一层的 Attention 都有这么明显的衰减趋势,总体来说前面的层衰减趋势更明显些,后面的层衰减趋势更弱些,说明越靠近输入的层越关注局部信息,这跟《The Devil in Linear Transformer》[4] 的结论一致。



延伸思考

这时候问题就来了:之前做长度外推性的工作不是都验证了 RoPE 的外推性不大好了吗?难道它们都没加 Bias?为此,笔者特意去考证了一下,果然”不出所料”:“开山之作”ALIBI 和最近的 XPOS 都是没有加 Bias 项的,而 KERPLE 和 Sandwich 则是加了 Bias 项的。

之前笔者在读论文的时候,就一直感觉 KERPLE 和 Sandwich 中的 RoPE 外推效果似乎比 ALIBI 和 XPOS 中的好,现在可以肯定这应该不是错觉了,既然 KERPLE 和 Sandwich 都加了Bias,那么根据本文的结论,RoPE 是可能呈现出更好的长度外推性的。

可能有读者想起,之前不是说 Attention 的 Key 的 Bias 可以去掉吗?难道这里也可以去掉?关于这个问题,可以参考知乎的提问《为什么有的 Vision Transformer 中的 key 不需要 bias ?》[5],事实上,“可以去掉 Key 的 Bias”这个结论,是针对没有 RoPE 的 Attention 的,由于 Softmax 的存在,加上的 bias 可以约掉:

然而,这个“可以约掉”依赖于 无关,但从式(3)我们就知道,经过 RoPE 后, 也算是 的函数了,实际上是无法约掉的,因此对于加了 RoPE 的模型,Bias 项去掉前后会有不一样的效果。
还有一个问题,就是为什么要费力探索长度外推性呢?直接在更长的样本下微调模型不行吗?事实上,即便是对于抱有这样想法的读者,长度外推性也是有好处的。抛开算力不说,更好的长度外推性意味着在微调的时候与预训练差距更小,于是微调更不容易发生灾难性遗忘,这对于当前的 LLM 更为重要了。当然,还可以发散一下,最理想的结果是:在短文本学习的模型,能够切换到长文本场景而无损效果甚至效果更优。



文章小结
本文分享了笔者发现的一个“万万没想到”的有趣结论:Bias 项能增强 RoPE 模型的长度外推性!看上去毫无存在感的 Bias 项,居然能跟 Transformer 的长度外推性联系在一起,让人不得不感叹细节的重要性——细枝末节有时候也能发挥关键作用。


参考文献

[1] https://arxiv.org/abs/2204.02311

[2] https://arxiv.org/abs/2202.10447

[3] https://kexue.fm/archives/7076

[4] https://arxiv.org/abs/2210.10340

[5] https://www.zhihu.com/question/506218961




更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
日本传奇作曲家坂本龙一 | 经济学人亚洲版块“口袋”里的显微镜,放大120倍的神奇世界,让娃兴奋到爆香脆不怕胖!吃饭时加点它,竟还有神奇的作用......如何更好地赚钱?你要有更好的变现思维Opera推出Opera One,将取代Opera浏览器Transformer升级之路:一种全局长度外推的新思路Ai智能瞒过评委眼睛的一幅摄影获大奖(图)怎么才能穿上鲁迅的长衫而不是孔乙己的长衫宇宙人(1216期)三八节最美同框:女飞行员遇上女航天员;国防科工局关于加强民用航天发射项目许可证管理有关事项的通知在实验室里重现埃及的神奇...岗位播报 | Bank of England开放金融Events项目,在KCL举办7 Papers & Radios | BERT上下文长度达200万token;华人团队通用分割模型SEEMNpj Comput. Mater.: 聚簇描述—机器学习法实现外推漫画解读免疫 5 项的临床应用,快收藏!JARVIS项目原作解读:连接ChatGPT和HuggingFace解决AI问题牡丹猫+八大山人的鸦+岳阳红梅奇妙物语VOL.35 | 创造力,唯物世界的神奇魔法Jiangsu City Punishes Property Developers For Selling Cheaply惊呆了!加拿大有些你没听过的神奇怪工作,年薪竟然能到$9.5万!交通部《关于进一步明确公路公共基础设施养护支出管理有关事项的通知》关于调整网络安全专用产品安全管理有关事项的公告小鹏回应人脸识别需对车头半跪/iPhone 15 Pro前玻璃面板曝光/​Bing Chat隐藏功能曝光阿里&华科大提出ONE-PEACE:更好的通用表征模型,刷新多个SOTA!龙卷风健康快递 236网信办等部门《关于调整网络安全专用产品安全管理有关事项的公告》闲说跨年在墨西哥城 (6b) 博物馆 - 阿兹特克展厅GPT-4被投诉要求禁用:FTC发布的人工智能标准,OpenAI一个都不满足懒人版奇葩元宵“口袋”里的显微镜,放大120倍的神奇世界,让童心得到满足预告 | 鸡兔同笼、注排水...搞定应用题的神奇桌游 & 自然地理宝藏书和人文地理趣味漫画风靡海外的神奇喷射水壶,自带三种创意玩法,喷水喷雾还能秒变水枪天赋“易昺(bǐng)”,创造历史!一种 30 秒就能搞定的粗粮,常吃还有神奇的作用!大语言模型友好的 API:借助集体智慧构建更好的软件架构项目对外推进乏力,有何“破局之策”
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。