Redian新闻
>
​Transformer升级之路:旋转位置编码的完备性分析

​Transformer升级之路:旋转位置编码的完备性分析

科技

©PaperWeekly 原创 · 作者 | 苏剑林
单位 | 追一科技
研究方向 | NLP、神经网络

在去年的文章《Transformer升级之路:博采众长的旋转式位置编码》中,笔者提出了旋转位置编码(RoPE),当时的出发点只是觉得用绝对位置来实现相对位置是一件“很好玩的事情”,并没料到其实际效果还相当不错,并为大家所接受,不得不说这真是一个意外之喜。后来,在《Transformer升级之路:二维位置的旋转式位置编码》中,笔者讨论了二维形式的 RoPE,并研究了用矩阵指数表示的 RoPE 的一般解。

既然有了一般解,那么自然就会引出一个问题:我们常用的 RoPE,只是一个以二维旋转矩阵为基本单元的分块对角矩阵,如果换成一般解,理论上效果会不会更好呢?本文就来回答这个问题。




指数通解

《Transformer升级之路:二维位置的旋转式位置编码》中,我们将 RoPE 抽象地定义为任意满足下式的方阵

然后,我们探讨了如下矩阵指数形式的解

这里的矩阵指数,不是像 Softmax 那样的激活函数式的 element-wise 运算,而是按照泰勒级数定义的“Matrix Exponential”[1]。根据“Baker–Campbell–Hausdorff 公式”[2],我们有

这里 省略的都是 的三次或三次以上的项。按照式(1),那么上式指数部分应该等于 ,这就推出
即要求 是反对称矩阵。



正交通解
进一步地,我们有 和 前者说明 是正交矩阵,后者则启示我们这是不是可以推广到任意正交矩阵?不难验证,答案是肯定的,我们有结论:
对于任意正交矩阵 是满足式(1)的解。
值得指出的是,在实数域内,并不是所有正交矩阵都可以写成 的形式,所以 实际上是比矩阵指数形式更宽泛的解。从《恒等式 det(exp(A)) = exp(Tr(A)) 赏析》[3] 中我们知道 ,所以能写成矩阵指数形式的正交矩阵行列式必然大于 0(即等于 1),事实上这个结果反过来也成立,即行列式等于 1 的正交矩阵,必然可以写成 的形式,其中 是反对称矩阵。(参考《Why can any orthogonal matrix be written as O=e^A》[4])。
而对于 的正交矩阵,我们有 其中 是对角线元素有一个-1、剩下都是1的对角阵, 则是 的正交矩阵,它可以写成 的形式,此时 这也就是说,即便对 ,也只是 的简单变换,所以接下来我们主要研究 形式的解。



完备分析
众所周知,我们平时所用的 RoPE 位置编码,是如下形式的分块对角矩阵:

它可以简写成
其中
这种选择可以说是最简单的一种,其本质原因可以说是为了降低计算量。那么,所谓完备性问题,就是要回答:如上的分块对角矩阵的特例,相比全参数 ,是否有能力上的缺失?换句话说,如果不考虑计算量,将 替换为一般的反对称矩阵,效果是否可能会有提升?
回答这个问题不困难,事实上,对于任意偶数阶反对称矩阵,它都可以对角化为分块对角矩阵
该结论可以参考 Skew-symmetric matrix [5]。也就是说,存在可逆矩阵 ,使得 ,于是
也就是说,任意的 与分块对角的 ,仅仅相差一个相似变换,而我们在 Self Attention 中应用 RoPE 时,是

由于 一般都是输入 经过某个可学习的线性变换而来, 原则上都可以吸收到线性变换的训练参数中,因此直接设为 理论上不会损失一般性。
所以,对于 Self Attention 来说,问题的答案是否定的。不过,如果是线性 Attention,答案会有少许区别,因为线性 Attention 的 加了个激活函数:

这就导致了 不一定能吸收到线性变换的训练参数中,因此对线性 Attention 补上两个参数矩阵,是有可能带来提升的。



文章小结
本文简单分析了 RoPE 的完备性问题,表明对于 Self Attention 来说,目前的分块对角型 RoPE 不会损失一般性。

参考文献

[1] https://en.wikipedia.org/wiki/Matrix_exponential
[2] https://en.wikipedia.org/wiki/Baker–Campbell–Hausdorff_formula
[3] https://kexue.fm/archives/6377
[4] https://math.stackexchange.com/questions/2467531/why-can-any-orthogonal-matrix-be-written-as-o-ea
[5] https://en.wikipedia.org/wiki/Skew-symmetric_matrix#Spectral_theory

更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
超越ConvNeXt!Conv2Former:用于视觉识别的Transformer风格的ConvNetICLR盲审阶段就被评审赞不绝口的论文:会是Transformer架构的一大创新吗?疏狂一醉(组诗)7 Papers & Radios | 无残差连接训练深度transformer;DeepMind写代码AI登Science封面全球首个面向遥感任务设计的亿级视觉Transformer大模型CF-ViT:用于视觉Transformer的由粗到细的两阶段动态推理架构 | AAAI 2023ICLR 2023 | 高分论文!上海交大提出H2RBox:旋转目标检测新网络美国入境档案--童第周、刘道元、江季平顶会上的热宠:Transformer​NeurIPS 2022 | IPMT:用于小样本语义分割的中间原型挖掘Transformer一个基于Transformer的深度学习架构,在基因调控中组蛋白代码的定量破译方面性能超群更快更强!EfficientFormerV2来了!一种新的轻量级视觉TransformerICLR盲审阶段被审稿人赞不绝口的论文:会是Transformer架构的一大创新吗?强的离谱,Transformer 杀疯了ICRA 2023 | CurveFormer:基于Transformer的3D车道线检测新网络EeSen、FSMN、CLDNN、BERT、Transformer-XL…你都掌握了吗?一文总结语音识别必备经典模型(二)希腊圣岛-4:穿行在五彩斑斓的小街深巷首次!无残差连接或归一化层,也能成功训练深度TransformerCIKM2022 | 基于文本增强和缩略-恢复策略的缩略词TransformerTransformer升级之路:长度外推性与位置鲁棒性7 Papers & Radios | 谷歌开源机器人领域transformer;DeepMind推出剧本写作AI家长凭什么要给孩子们安排前程?7 Papers & Radios | 推理速度比Stable Diffusion快2倍;视觉Transformer统一图像文本统治扩散模型的U-Net要被取代了,谢赛宁等引入Transformer提出DiT超越ConvNeXt!Transformer 风格的卷积网络视觉基线模型Conv2Former扩散模型和Transformer梦幻联动!一举拿下新SOTA,MILA博士:U-Net已死Transformer:一种图灵完备的神经网络Transformer如何做扩散模型?伯克利最新《transformer可扩展扩散模型》论文谷歌新作!Transformer杀入机器人领域!RT-1:97%成功率,轻松完成700多条控制指令!如果您有长期服药,考虑做一个这个卡片带在身上Meta发布ConvNeXt V2!仅用最简单的卷积架构,性能不输Transformer强化学习中的Transformer发展到哪一步了?清北联合发布TransformRL综述NeurIPS 2022 | 大图上线性复杂度的节点级Transformer
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。