Transformer升级之路：旋转位置编码的完备性分析

2023-01-10 06:01

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

在去年的文章《Transformer升级之路：博采众长的旋转式位置编码》中，笔者提出了旋转位置编码（RoPE），当时的出发点只是觉得用绝对位置来实现相对位置是一件“很好玩的事情”，并没料到其实际效果还相当不错，并为大家所接受，不得不说这真是一个意外之喜。后来，在《Transformer升级之路：二维位置的旋转式位置编码》中，笔者讨论了二维形式的 RoPE，并研究了用矩阵指数表示的 RoPE 的一般解。

既然有了一般解，那么自然就会引出一个问题：我们常用的 RoPE，只是一个以二维旋转矩阵为基本单元的分块对角矩阵，如果换成一般解，理论上效果会不会更好呢？本文就来回答这个问题。

指数通解

在《Transformer升级之路：二维位置的旋转式位置编码》中，我们将 RoPE 抽象地定义为任意满足下式的方阵

然后，我们探讨了如下矩阵指数形式的解

这里的矩阵指数，不是像 Softmax 那样的激活函数式的 element-wise 运算，而是按照泰勒级数定义的“Matrix Exponential”[1]。根据“Baker–Campbell–Hausdorff 公式”[2]，我们有

这里，省略的都是的三次或三次以上的项。按照式（1），那么上式指数部分应该等于，这就推出

即要求是反对称矩阵。

正交通解

进一步地，我们有

和，前者说明是正交矩阵，后者则启示我们这是不是可以推广到任意正交矩阵？不难验证，答案是肯定的，我们有结论：

对于任意正交矩阵是满足式（1）的解。

值得指出的是，在实数域内，并不是所有正交矩阵都可以写成的形式，所以实际上是比矩阵指数形式更宽泛的解。从《恒等式 det(exp(A)) = exp(Tr(A)) 赏析》[3] 中我们知道

，所以能写成矩阵指数形式的正交矩阵行列式必然大于 0（即等于 1），事实上这个结果反过来也成立，即行列式等于 1 的正交矩阵，必然可以写成的形式，其中是反对称矩阵。（参考《Why can any orthogonal matrix be written as O=e^A》[4]）。

而对于的正交矩阵，我们有，其中是对角线元素有一个-1、剩下都是1的对角阵，则是的正交矩阵，它可以写成的形式，此时。这也就是说，即便对于的，也只是的简单变换，所以接下来我们主要研究形式的解。

完备分析

众所周知，我们平时所用的 RoPE 位置编码，是如下形式的分块对角矩阵：

它可以简写成

其中

这种选择可以说是最简单的一种，其本质原因可以说是为了降低计算量。那么，所谓完备性问题，就是要回答：如上的分块对角矩阵的特例，相比全参数，是否有能力上的缺失？换句话说，如果不考虑计算量，将替换为一般的反对称矩阵，效果是否可能会有提升？

回答这个问题不困难，事实上，对于任意偶数阶反对称矩阵，它都可以对角化为分块对角矩阵

该结论可以参考 Skew-symmetric matrix [5]。也就是说，存在可逆矩阵，使得，于是

也就是说，任意的与分块对角的，仅仅相差一个相似变换，而我们在 Self Attention 中应用 RoPE 时，是

由于一般都是输入经过某个可学习的线性变换而来，原则上都可以吸收到线性变换的训练参数中，因此直接设为理论上不会损失一般性。

所以，对于 Self Attention 来说，问题的答案是否定的。不过，如果是线性 Attention，答案会有少许区别，因为线性 Attention 的加了个激活函数：

这就导致了不一定能吸收到线性变换的训练参数中，因此对线性 Attention 补上两个参数矩阵，是有可能带来提升的。

文章小结

本文简单分析了 RoPE 的完备性问题，表明对于 Self Attention 来说，目前的分块对角型 RoPE 不会损失一般性。

参考文献

[1] https://en.wikipedia.org/wiki/Matrix_exponential

[2] https://en.wikipedia.org/wiki/Baker–Campbell–Hausdorff_formula

[3] https://kexue.fm/archives/6377

[4] https://math.stackexchange.com/questions/2467531/why-can-any-orthogonal-matrix-be-written-as-o-ea

[5] https://en.wikipedia.org/wiki/Skew-symmetric_matrix#Spectral_theory

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：[email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

​Transformer升级之路：旋转位置编码的完备性分析

Transformer升级之路：旋转位置编码的完备性分析