Redian新闻
>
​Bias项的神奇作用:RoPE + Bias = 更好的长度外推性

​Bias项的神奇作用:RoPE + Bias = 更好的长度外推性

科技

©PaperWeekly 原创 · 作者 | 苏剑林
单位 | 追一科技
研究方向 | NLP、神经网络


万万没想到,Bias 项能跟 Transformer 的长度外推性联系在一起!

长度外推性是我们希望 Transformer 具有的一个理想性质,笔者曾在《Transformer升级之路:长度外推性与局部注意力》《Transformer升级之路:长度外推性与位置鲁棒性》系统地介绍过这一问题。至于 Bias 项(偏置项),目前的主流观点是当模型足够大时,Bias 项不会有什么特别的作用,所以很多模型选择去掉 Bias 项,其中代表是 Google 的 T5 和 PaLM [1],我们后面做的 RoFormerV2GAU-α 也沿用了这个做法。

那么,这两个看上去“风牛马不相及”的东西,究竟是怎么联系起来的呢?Bias 项真的可以增强 Transformer 的长度外推性?且听笔者慢慢道来。




隐藏彩蛋
首先,为什么会想到考察 Bias 项和长度外推性的联系呢?这是因为笔者前几天在重温 GAU 的论文《Transformer Quality in Linear Time》[2] 时,发现了之前没有在意的一个“隐藏彩蛋”——加性相对位置编码,其伪代码为:

▲ GAU 的加性相对位置编码的伪代码
这里我们主要看 的部分,如果写成公式,大致是

其中 是 RoPE 的旋转矩阵, 是两个可学习参数。
这个加性相对位置编码其实之前也留意到了,但当时的评价只是“不理解为什么同时用几种位置编码”,而最近笔者一直在思考长度外推性问题,所以对这个形式就比较敏感了。
可以证明, ,结果正好是《Transformer升级之路:长度外推性与局部注意力》介绍的能改善长度外推性的 Sandwich ,其原理就 现出关于 递减的趋势,加到注意力矩阵上后,能够起到局部化注意力的作用,而根据《Transformer升级之路:长度外推性与局部注意力》,注意力局部化是语言模型外推性的关键。
所以笔者不禁猜测,难道原论文中的这个加性相对位置编码,就是用来增强长度外推性的?GAU 的作者竟然如此有先见之明,早在 Sandwich 之前就提出了类似的想法来解决长度外推性问题?



换成偏置
不过,对于笔者来说,这种往 Attention 矩阵上额外加上一项来增强长度外推性的方案都显得不够优雅,所以不管原作者意图如何以及实际效果如何,笔者都不倾向这样做。有什么类似的但几乎“无感”的方案呢?笔者考虑到,如果 分别是 的 Bias 项,或许可以起到类似的效果,即考虑

很明显,单纯增加一个 Bias 项,不管从形式上还是计算量上看都几乎是“无感”的,如果这样就能增强长度外推性,无疑是一个很漂亮的方案。是否可行呢?我们先来看展开后的结果:

其中第一项和第四项正好对应公式(1),它们都是我们想要的,所以我们想看看第二项和第三项起到什么作用,如果它们不会有什么明显的效应,那么直接加上 Bias 项的做法,至少是“有希望”能够取得跟式(1)或者 Sandwich 相似的外推效果。

笔者是这样想的:作为 Attention 的 Query 和 Key, 应该是比较“各向同性”的,即它们的方向比较均匀,接近球面上均匀采样, 是一个正交变换,它不改变 的各向同性性质,那么 这两项,就相当于从各向同性分布采样出来的向量,跟一个固定向量的内积,根据我们在《n维空间下两个随机向量的夹角分布》[3] 中的讨论,这样的两个向量夹角应该是很接近 90 度的,换言之这个内积的期望应该是 0,所以第二项和第三项的效应理论上没有剩余两项那么强。
当然,这仅仅是猜测,实际它会训练成怎样,只能通过实验来确定。所以事不宜迟,笔者立刻进行了实验。



实验结果

这次笔者选了语言模型任务进行实验,模型架构还是之前的 GAU-α,训练长度和 batch_size 都是 512,优化器是 Tiger,两个模型的唯一差别就是 Q、K 的 Bias 是否开启(其他 Bias 仍被去掉)。

外推效果上的对比:

可以看到,Bias 项确实不怎么影响训练效果(512长度),但却在长度外推性上面明显拉开了差距,看似毫无存在感的 Bias 项居然有此神奇作用!当然,要是重跑几次实验,外推性的结果可能会有明显的波动,毕竟长度外推性属于“赠送功能”,并不是我们主动触发的。

为了验证剩下生效机制是否如我们猜测,笔者可视化了式(3)的四项在某个样本某一层的变化规律:

▲ 加上Bias后四项内积对比

可以看到,第 4 项确确实实呈现衰减趋势,并且其大小占据了主导地位,将这四项叠加起来,与没有加 Bias 的模型对比如下:

▲ 有无Bias的Attention矩阵对比
很明显,跟前面的猜测一致,带有 Bias 项的模型的注意力矩阵呈现更明显的衰减趋势,换言之它的局部化效应更加强,从而有更好的外推性能。需要指出的是,加上 Bias 的模型并不是每一层的 Attention 都有这么明显的衰减趋势,总体来说前面的层衰减趋势更明显些,后面的层衰减趋势更弱些,说明越靠近输入的层越关注局部信息,这跟《The Devil in Linear Transformer》[4] 的结论一致。



延伸思考

这时候问题就来了:之前做长度外推性的工作不是都验证了 RoPE 的外推性不大好了吗?难道它们都没加 Bias?为此,笔者特意去考证了一下,果然”不出所料”:“开山之作”ALIBI 和最近的 XPOS 都是没有加 Bias 项的,而 KERPLE 和 Sandwich 则是加了 Bias 项的。

之前笔者在读论文的时候,就一直感觉 KERPLE 和 Sandwich 中的 RoPE 外推效果似乎比 ALIBI 和 XPOS 中的好,现在可以肯定这应该不是错觉了,既然 KERPLE 和 Sandwich 都加了Bias,那么根据本文的结论,RoPE 是可能呈现出更好的长度外推性的。

可能有读者想起,之前不是说 Attention 的 Key 的 Bias 可以去掉吗?难道这里也可以去掉?关于这个问题,可以参考知乎的提问《为什么有的 Vision Transformer 中的 key 不需要 bias ?》[5],事实上,“可以去掉 Key 的 Bias”这个结论,是针对没有 RoPE 的 Attention 的,由于 Softmax 的存在,加上的 bias 可以约掉:

然而,这个“可以约掉”依赖于 无关,但从式(3)我们就知道,经过 RoPE 后, 也算是 的函数了,实际上是无法约掉的,因此对于加了 RoPE 的模型,Bias 项去掉前后会有不一样的效果。
还有一个问题,就是为什么要费力探索长度外推性呢?直接在更长的样本下微调模型不行吗?事实上,即便是对于抱有这样想法的读者,长度外推性也是有好处的。抛开算力不说,更好的长度外推性意味着在微调的时候与预训练差距更小,于是微调更不容易发生灾难性遗忘,这对于当前的 LLM 更为重要了。当然,还可以发散一下,最理想的结果是:在短文本学习的模型,能够切换到长文本场景而无损效果甚至效果更优。



文章小结
本文分享了笔者发现的一个“万万没想到”的有趣结论:Bias 项能增强 RoPE 模型的长度外推性!看上去毫无存在感的 Bias 项,居然能跟 Transformer 的长度外推性联系在一起,让人不得不感叹细节的重要性——细枝末节有时候也能发挥关键作用。


参考文献

[1] https://arxiv.org/abs/2204.02311

[2] https://arxiv.org/abs/2202.10447

[3] https://kexue.fm/archives/7076

[4] https://arxiv.org/abs/2210.10340

[5] https://www.zhihu.com/question/506218961




更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
JARVIS项目原作解读:连接ChatGPT和HuggingFace解决AI问题惊呆了!加拿大有些你没听过的神奇怪工作,年薪竟然能到$9.5万!网信办等部门《关于调整网络安全专用产品安全管理有关事项的公告》懒人版奇葩元宵预告 | 鸡兔同笼、注排水...搞定应用题的神奇桌游 & 自然地理宝藏书和人文地理趣味漫画“口袋”里的显微镜,放大120倍的神奇世界,让娃兴奋到爆阿里&华科大提出ONE-PEACE:更好的通用表征模型,刷新多个SOTA!闲说跨年在墨西哥城 (6b) 博物馆 - 阿兹特克展厅日本传奇作曲家坂本龙一 | 经济学人亚洲版块一种 30 秒就能搞定的粗粮,常吃还有神奇的作用!Npj Comput. Mater.: 聚簇描述—机器学习法实现外推Ai智能瞒过评委眼睛的一幅摄影获大奖(图)宇宙人(1216期)三八节最美同框:女飞行员遇上女航天员;国防科工局关于加强民用航天发射项目许可证管理有关事项的通知Transformer升级之路:一种全局长度外推的新思路“口袋”里的显微镜,放大120倍的神奇世界,让童心得到满足项目对外推进乏力,有何“破局之策”怎么才能穿上鲁迅的长衫而不是孔乙己的长衫龙卷风健康快递 236岗位播报 | Bank of England开放金融Events项目,在KCL举办如何更好地赚钱?你要有更好的变现思维Opera推出Opera One,将取代Opera浏览器牡丹猫+八大山人的鸦+岳阳红梅香脆不怕胖!吃饭时加点它,竟还有神奇的作用......交通部《关于进一步明确公路公共基础设施养护支出管理有关事项的通知》漫画解读免疫 5 项的临床应用,快收藏!关于调整网络安全专用产品安全管理有关事项的公告Jiangsu City Punishes Property Developers For Selling Cheaply小鹏回应人脸识别需对车头半跪/iPhone 15 Pro前玻璃面板曝光/​Bing Chat隐藏功能曝光奇妙物语VOL.35 | 创造力,唯物世界的神奇魔法GPT-4被投诉要求禁用:FTC发布的人工智能标准,OpenAI一个都不满足7 Papers & Radios | BERT上下文长度达200万token;华人团队通用分割模型SEEM大语言模型友好的 API:借助集体智慧构建更好的软件架构在实验室里重现埃及的神奇...天赋“易昺(bǐng)”,创造历史!风靡海外的神奇喷射水壶,自带三种创意玩法,喷水喷雾还能秒变水枪
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。