Redian新闻
>
我在Performer中发现了Transformer-VQ的踪迹

我在Performer中发现了Transformer-VQ的踪迹

科学
©PaperWeekly 原创 · 作者 | 苏剑林
单位 | 月之暗面
研究方向 | NLP、神经网络


前些天我们在《VQ一下Key,Transformer的复杂度就变成线性了》介绍了“Transformer-VQ”,这是通过将 Key 序列做 VQ(Vector Quantize)变换来实现 Attention 复杂度线性化的方案。


诚然,Transformer-VQ 提供了标准 Attention 到线性 Attentino 的一个非常漂亮的过渡,给人一种“大道至简”的美感,但熟悉 VQ 的读者应该能感觉到,当编码表大小或者模型参数量进一步增加时,VQ 很可能会成为效果提升的瓶颈,因为它通过 STE(Straight-Through Estimator)估计的梯度大概率是次优的(FSQ 的实验结果也算是提供了一些佐证)。


此外,Transformer-VQ 为了使训练效率也线性化所做的梯度截断,也可能成为将来的效果瓶颈之一。
为此,笔者花了一些时间思考可以替代掉 VQ 的线性化思路。从 Transformer-VQ 式中,笔者联想到了 Performer,继而“顺藤摸瓜”地发现原来 Performer 可以视为 Soft 版的 Transformer-VQ。进一步地,笔者尝试类比 Performer 的推导方法来重新导出 Transformer-VQ,为其后的优化提供一些参考结果。


前情回顾

首先,让我们花一些时间回顾一下 Transformer-VQ。设 ,Transformer-VQ 的关键,是对 做了如下 VQ 近似:
这里 是矩阵,其中 是可训练的参数, 则定义为:
说白了,VQ 就是用与 最相近的那个 来近似 。在这个近似之下,我们有(简单起见,以 Encoder 为例)
了解线性 Attention 的读者很容易认出来,最后一个式子的运算就是线性复杂度的,它就是本文的主角之一 Transformer-VQ(的分子,还有分母同理)。

没有很复杂的推导,线性 Attention 就出来了,这就给我们一种感觉,仿佛我们是在对 Key 做近似的“不经意间”就将 Attention 的复杂度降为了线性,美感十足。因此,再次回到了我们已经提过多次的评价——Transformer-VQ 提供了标准 Attention 到线性 Attentino 的一个非常漂亮的过渡。



似曾相识
Transformer-VQ 的 让笔者联想到了之前的文章《Transformer升级之路:从Performer到线性Attention》。在那篇文章中,笔者对 Performer 的结果做了一些简化,然后断言线性 Attention 的 的最佳激活函数是 ,而 Transformer-VQ 同样出现了 ,所以它们之间也许有着某种相关性。
为了挖掘这种联系,让我们请出 Performer,它基于一个漂亮的近似:

由于最后还要对所有 的注意力归一化,所以去掉上式中的 都不会影响最终结果,同时,如果假设 的模长都相等(参考 JL 引理),那么 的指数都减去 也不会影响结果。于是,Performer 等价于用以下的格式做
对比最后一个式子和(3),就会发现它们有诸多相似之处: 不就相当于编码表 不就相当 至于最后的 ,它 logits 做 softmax,突出的不就是与 最相近的那个 ?而 softmax 的极限就是 one hot,所以这不正好对应着 Transformer-VQ 的 矩阵?因此,这不能说一模一样,但也有六七分相似了。


依样葫芦
当然,上述结果更多的是一种形象的类比而不是等价性,因为Performer本质上基于完全不同的近似思路,比如它里边的 是随机采样并固定下来的,这意味它们作为中心向量的近似程度其实是很差的。
但这种类似引发了一个思考:能否模仿 Performer 的思路来重新推导一遍 Transformer-VQ 呢?即像式(4)一样,先构造一个精确相等的结果,然后再转化为采样近似来得到线性版本。
经过几天的思考,笔者发现了一种可以构造出期望推导的方案。首先,我们借助狄拉克函数 [1] 写出
这是纯粹有狄拉克函数的定义给出的恒等式,还没涉及到任何精巧的运算或者近似。然而,当我们将它代入 Attention(的分子)时,出现了一些有意思的结果:

最后一个等号,不就正好是线性 Attention 的形式?!当然,由于需要对 积分,所以上式跟《Transformer升级之路:5、作为无限维的线性Attention》[2] 一样,都是“无限维”的线性 Attention,暂时只有形式上的价值。
通常来说,我们会将 理解为正态分布 的极限,这也意味着 具有条件分布 的意义。不过,从生成模型的角度来看,狄拉克函数就是单点分布,说白了就是把训练集背下来,所以它没有抽象和泛化能力。为了缓解这一点,我们将 用 GMM [3](Gaussian Mixture Model,高斯混合模型)来近似:
代入式(7),然后取 的极限,我们就得到
这就得到一个有限维的线性 Attention。如果将 对齐 Transformer-VQ 的 one hot 分布 的定义,那么得到的结果就是 Transformer-VQ 的式(3)。


文章小结

本文介绍了笔者的一个发现:早期的线性 Attention 工作 “Peformer” 可以视为一个 “Soft” 版的 Transformer-VQ。然后,在这个观察上进一步得到了 Transformer-VQ 的一个新推导:利用狄拉克函数将标准 Attention 转化为无限维线性 Attention,然后加上 GMM 近似就可以得到 Transformer-VQ。



参考文献

[1] https://kexue.fm/archives/1870

[2] https://kexue.fm/archives/8601

[3] https://en.wikipedia.org/wiki/Mixture_model



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
简化版Transformer来了!网友:年度论文预测token速度翻番!Transformer新解码算法火了,来自小羊驼团队|代码已开源南开&山大&北理工团队开发trRosettaRNA:利用Transformer网络自动预测RNA 3D结构AI测出你几岁死亡?Transformer「算命」登Nature子刊,成功预测意外死亡2023年夏旅行 - 那些坑ConvNet与Transformer谁更强?Meta评测4个领先视觉模型,LeCun转赞宾州福吉谷(Valley Forge),秋景相框MIT斯坦福Transformer最新研究:过度训练让中度模型「涌现」结构泛化能力改进分子表征学习,清华团队提出知识引导的图 Transformer 预训练框架简化版Transformer来了,网友:年度论文颠覆Transformer!新架构Mamba引爆AI圈!马斯克让盗梦空间成真?初创公司用Transformer诱导清醒梦,Neuralink技术操控梦境效果惊人那些挑战Transformer的模型架构都在做些什么颠覆Transformer霸权!CMU普林斯顿推Mamba新架构,解决致命bug推理速度暴增5倍矩阵模拟!Transformer大模型3D可视化,GPT-3、Nano-GPT每一层清晰可见周蕙/于文文深情演唱《约定》 狂野与柔美的碰撞《歌德堡变奏曲1460》你没有看过的全新版本,Transformer数学原理揭秘Transformer变革3D建模!MeshGPT来了!效果惊动专业建模师。。。Transformer挑战者出现!斯坦福CMU联合团队,开源模型及代码,公司已创办智能的本质就是压缩?马毅团队5年心血提出「白盒」Transformer, 打开LLM黑盒!「GPT-4只是在压缩数据」,马毅团队造出白盒Transformer,可解释的大模型要来了吗?BEV+Transformer架构加速“上车”,智能驾驶市场变革开启华为改进Transformer架构!盘古-π解决特征缺陷问题,同规模性能超LLaMAMeta对Transformer架构下手了:新注意力机制更懂推理Mamba可以替代Transformer,但它们也能组合起来使用Transformer变革3D建模,MeshGPT生成效果惊动专业建模师,网友:革命性ideaRobot Transformers 是什么 Transformer?果敢同盟军给以色列国防军上了一次实战课Arxiv最热论文推荐:揭秘Transformer新身份、谷歌VLM蒸馏、复旦LEGO模型五倍吞吐量,性能全面包围Transformer:新架构Mamba引爆AI圈Web ML 库 Transformers.js 提供文本转语音功能Yann LeCun点赞!Meta对Transformer架构下手了:新注意力机制更懂推理VQ一下Key,Transformer的复杂度就变成线性了Hyena成下一代Transformer?StripedHyena-7B开源:最高128k输入,训练速度提升50%
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。