SSM 能取代 Transformer 搞出更「牛」的大模型吗？

2024-06-09 06:06

机器之心PRO · 会员通讯 Week 23

---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----

1. SSM 能取代 Transformer 搞出更「牛」的大模型吗？

SSM 为何引起关注？最强 Transformer 挑战者 SSM 竟和 Transformer 是一回事？结合了注意力机制和 SSM 的 Mamba-2 架构效果如何？近期还有哪些挖掘 Transformer 潜力的新研究有必要了解一下？...

2. 从「开城」到「无图」：大模型砸下来的钱好赚吗？

智驾车企们为何现在纷纷探索大模型「上车」？背后有哪些深意？为什么需要大模型上车？大模型上车后，能解决哪些问题？从技术角度看，实现「无图化」这事儿有何难点？大模型「上车」能赚钱吗？智驾车企们离真正赚钱还有多远的路要走？...

3. 硅谷对谈：如何应对AI大模型下半场的市场变革

Meta 推出的 Llama 3 模型给市场带来了哪些巨大影响？开闭源模型如何选择？如何应对企业 AI 的大浪潮？AI 技术未来在个人应用、自动驾驶等方面有哪些新的突破？...

...本期完整版通讯含 3 项专题解读 + 28 项本周 AI & Robotics 赛道要事速递，其中技术方面 10 项，国内方面 9 项，国外方面 9 项。

本期通讯总计 24659 字，可免费试读至 13 %

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读 ① SSM 能取代 Transformer 搞出更「牛」的大模型吗？

日期：5 月 31 日

事件：基于注意力机制的 Transformer 架构和 Scaling Law 是公认推动这一轮 AI 革新的根源，挖掘 Transformer 更多的潜力或将解决目前大模型所面对的诸多局限性问题。近期 CoPE、KAN、Abacus 嵌入等工作均从不同维度拓宽了 Transformer 的能力边界。但在一系列进展中，SSM 与注意力机制可以互补的发现将对 Transformer 的探索推向了一个新的小高潮。

什么？! 最强 Transformer 挑战者 SSM 竟和 Transformer 是一回事？

1、SSM（Structured State Space Models）是一类深度学习中的序列模型，它们结合了循环神经网络（RNNs）、卷积神经网络（CNNs）以及经典的线性状态空间模型的特点。

① 这些模型在计算上非常高效，可以通过递归或卷积的方式实现，并且随着序列长度的增加，它们的计算复杂度呈线性或近似线性增长。

② SSM 还具备在特定数据模态中建模长距离依赖性的能力，并在长范围竞技场等基准测试中表现出色

③ Mamba 模型是引发近期业界关注 SSM 的主要原因。Mamba 提出了选择性 SSM 的概念，它通过使 SSM 参数成为输入的函数来克服离散模态上的弱点，允许模型根据当前 token 沿序列长度维度有选择地传播或遗忘信息。

④ Mamba 通过引入选择性状态空间机制，提高了对长序列建模的有效性，而 SSM 则因其线性计算复杂度和上下文感知能力，成为了 Transformer 的潜在替代模型。

2、自 Mamba 在 2023 年被提出，这种状态空间模型（SSM）在中小型规模上已经实现了与 Transformers 匹敌，甚至更优的表现。

① 从 Mamba 开始，SSM 开始受到更多关注，也由此衍生了许多变体。

② 基于 SSM，Mamba 架构可以随上下文长度的增加实现线性扩展，解决了 Transformer 自注意力机制在这种增长在计算量暴增的局限，因此关于「Mamba 将有机会取代 Transformer」的说法不时出现。

3、在 Mamba 提出后，也有工作尝试将 SSM 与 Transformer 组合使用。NeurIPS 2023 的一篇论文提出的 Block-State Transformer 架构将基于局部注意力的归纳偏差与长期上下文建模能力组合到了一起，做成了单一层。[19]

① 该工作提出的 BST 模型不仅能轻松支持 65k token 长度的超长输入，而且计算效率还非常高，速度相比使用循环单元的 Transformer 提升十倍。

② 该工作发布时， Mamba 作者之一 Tri Dao 也点赞表示「SSM 和 Transformer 似乎可以互补。」

4、Mamba 的原班人马在近期 Mamba-2 的论文中，通过提出结构化状态空间对偶性（SSD）的理论框架，证明了 Transfomer 和 SSM 在数学层面上存在极为紧密的联系。

① 该工作将 SSM（状态空间模型）和 SMA（结构化掩码注意力）联系起来，显示它们有一个很大的交集，彼此是对偶的，同时具有 SSM 式的线性形式和类似注意力的二次方形式。

② 该工作还证明了任何具有快速循环形式的核注意方法都是 SSM。

③ 该工作还发现，结合了 4-6 个注意力层的 Mamba-2 在表现上可以更优，从而验证了注意力和 SSM 确实可以互补。

图：SSD 框架（红、蓝）介绍。状态空间模型（即半可分矩阵）和结构化掩码注意力（SMA）囊括了一大类高效序列模型。它们的交集就是 SSD 模型（紫色）。

为什么从数学上来讲，SSM 和 Transformer 是一回事？[13]

Mamba 的作者在论文《Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality》中构建了 SSD（state space duality）理论框架，从数学的角度证明了许多线性注意力变体和 SSM 是等效的。

1、Mamba-2 论文的重点在于结构化状态空间对偶性（SSD，也称选择性 SSM），它代表着：

① SSD 模型（model）指可以纳入深度神经网络（如注意力机制或 SSM）的特定独立层

② SSD 框架（framework）是推理此模型（以及更多理论联系）的通用框架

③ SSD 算法（algorithm）是一种比以往 SSM 更有效地计算 SSD 层的算法

2、在论文中，研究者分别从 SSM 的角度和注意力的角度出发，用两种完全不同的方式推导出了 SSD「对偶性（duality）」。

3、论文先从 SSM 的角度出发，通过矩阵序列变换/矩阵混合器的框架来证明对偶性。

① 许多序列模型都可以写成矩阵乘法的形式，如 Y = M（X） · X，这种形式被称为矩阵序列变换（matrix sequence transformation），或者简称为矩阵变换（matrix transformation，也有 matrix mixer 的说法）。

② 在许多领域的文献中都有此类以结构为特征矩阵的例子，而自注意力本身则是事实上的例子，比如𝑀=𝑠𝑜𝑓𝑡𝑚𝑎𝑥（𝑄𝐾^T）就是注意力矩阵。

③ 关心此类模型的缘由在于，将序列模型写作矩阵变换形式可以为理解模型的结构和特性提供强有力的工具。

④ 虽然一般的非线性 RNN（如 LSTM）不能写成 matrix mixer，但状态空间模型（SSM）可以。SSM 写成的矩阵变换形式有一个特殊的名字，称为（三角）半可分矩阵（（triangle）semiseparable matrices）。

4、论文从算法角度考虑了 SSM 写成 matrix mixer 形式，其核心结论之一在于：「所有 SSM 的算法都可以看作是半可分矩阵上的结构化矩阵乘法算法」

① 在此基础上， SSD 模型的对偶性可以看作是半可分矩阵上的两种不同的矩阵乘法算法。

② 最初的 SSM 是线性非时变（Time-Invariant）的。由于半可分矩阵的低秩结构可以对应 SSM 模型中的状态变量，因此矩阵乘法可以看作 SSM 的线性时变（Time-Varying）系统，也就是 SSD 可以看作广义的线性注意力机制。

图：半可分矩阵对角线的上方和下方包含的所有子矩阵都是低秩的

5、论文又从注意力的角度出发，通过张量收缩框架来证明对偶性。

① 研究者在这里定义了结构掩码注意力（Structured masked attention，SMA），证明了线性注意力中出现的累计和（cumulative sum）完全等同于因果掩码（causal mask）也就是矩阵乘法编码的累计和。也就是

y = L·x <=> y = cumsum(x)

② 首先，线性注意力的二次形式可以写作一个四向的张量收缩（4-way tensor contraction），也就是「queries/keys/values」和任意结构化矩阵「L」的函数，即

𝑌 = contract(TN, SN, SP, TS → TP) (𝑄, 𝐾,𝑉 , 𝐿).

③ 然后，它可以用任何其他收缩顺序来计算，也就是可以对顺序进行成对缩减代替

Z=contract(SP,SN → SPN)(V,K)
H = contract(TS, SPN → TPN)(L, Z)
Y = contract(TN, TPN → TP)(Q,H)

④ 关键的发现在于上述第二行公式，其可以看作一个矩阵乘法，可以通过累计和的形式计算。因为不需要写出一个单一的总结，因此可以被抽象为张量收缩与结构的结合，证明了线性注意力中累计和的主张。

⑤ 由此 SMA 的定义可以写作：一个采用结构化矩阵的注意力掩码的四向张量收缩。SMA 所具备的双重二次（dual quadratic）和线性模式可以简单表示成两个不同的成对缩减阶数。

6、当注意力的掩码矩阵处于半可分状态，基本就和 SSM 等价。

① SSD 模型在公式中可以被定义为标量恒等（scalar identity）SSM，或是类似注意力的形式。

② 类似双重注意的 SSD 层表述形式，可以理解为 SMA 的一个特例。其主要特殊之处就是它的矩阵形式，论文把这种矩阵称为「1-半可分矩阵」，简称 1-SS 矩阵。

③ 体而言，SSD 模型可以看作是一个 1-SS SMA，

7、基于 SSD 框架设计的 Mamba-2 架构比初代 Mamba 支持更大的状态维度（从 16 扩展到 256+），且具备更快的训练速度。

① 借由注意力和 SSM 之间的联系，SSD 能够将 Transformer 架构的优势引入 SSM。如通过张量并行和序列并行将 SSM 扩展成更大的模型和更长的序列，或是通过引入可变序列长度帮 SSM 实现更快的微调和推理。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章