VQ一下Key,Transformer的复杂度就变成线性了
然而,尽管 Efficient Transformer 在理论上是精彩的,但实际上该领域一直都是不愠不火的状态,并没有实际表现十分出色的模型,在 LLM 火爆的今天,甚至已经逐渐淡出了大家的视野,也淡出了笔者的兴趣范围。
不过,最近有一篇论文《Transformer-VQ: Linear-Time Transformers via Vector Quantization》[1],却让笔者为之拍案叫绝。作者非常高明地洞察到,只需要对标准 Attention 的 Key 做一下 VQ(Vector Quantize),复杂度就会自动降低为线性!这种线性化思路保留了标准 Attention 的形式,是标准 Attention 到线性 Attention 的一个完美过渡,同时最大程度上保留了标准 Attention 的能力。
说起来,本站也算是比较早关注 Efficient Transformer 相关工作了,最早可以追溯到 2019 年解读 Sparse Transformer 的一篇文章《为节约而生:从标准Attention到稀疏Attention》。此后,陆续写的关于 Efficient Transformer 的其他文章还有:
线性Attention的探索:Attention必须有个Softmax吗?
Performer:用随机投影将Attention的复杂度线性化
Nyströmformer:基于矩阵分解的线性化Attention方案 [2]
Transformer升级之路:从Performer到线性Attention
然而,正如本文开头所说,尽管 Efficient Transformer 已有不少工作,也曾被大家寄予厚望,但实际上该领域一直都没什么能“出圈”的作品,这其中的原因可能是:
1. 不少 Efficient Transformer 的提速以牺牲效果为代价;
2. 很多 Efficient Transformer 的复杂度降低仅仅是理论上的,实际使用提升不明显;
3. 有些 Efficient Transformer 难以用来训练 Causal LM,所以在 LLM 流行的今天就没有了用武之地;
4. Flash Attention 的出现表明即便是标准的 Transformer 仍有很大的提速空间。
解决了梯度回传问题之后,在自回归交叉熵损失的基础上,再上 VQ 带来的用来更新编码表的辅助 loss,就得到完整的训练目标了。当然,对于编码表的更新,Transformer-VQ 采用了直接滑动平均的方案,所以只补充了 Key 的辅助 loss,这些细节读者在熟悉 VQ-VAE 之后,稍微看一下原论文就理解了。
这一节我们来看一下原论文的实验结果。作者已经将代码开源如下:
Github:
https://github.com/transformer-vq/transformer_vq
▲ PG-19的实验结果
▲ 母语与非母语对话占比
总之,在笔者眼中,Transformer-VQ 在众多 Efficient Transformer 工作中,是非常独特、出色而又潜力深厚的之一。
本文介绍了一个名为 Transformer-VQ 的 Efficient Transformer 方案,它基于“只需 VQ一下Key,Transformer 的复杂度就会变成线性”的观察结果进行展开,个人认为是一种非常独特且亮眼的线性化思路,实验结果也很优异。它既可以理解为一种更高明的线性 Attention/RNN 模型,也可以理解为一个带有“可训练的 Tokenizer” 的 Attention 模型。
参考文献
[1] https://arxiv.org/abs/2309.16354
[2] https://kexue.fm/archives/8180
[3] https://kexue.fm/archives/6760
[4] https://arxiv.org/abs/1901.02860
[5] https://arxiv.org/abs/2006.04768
[6] https://arxiv.org/abs/2305.07185
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者