稀疏量化表示（SpQR）：3到4比特近乎无损压缩大规模语言模型

科技

2023-08-11 05:08

©Paperweekly 原创 · 作者 | An.

单位 | 中科院自动化所

研究方向 | 计算机视觉、模型压缩

论文标题：

SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression

论文链接：

https://arxiv.org/pdf/2306.03078.pdf

代码链接：

https://github.com/Vahe1994/SpQR

动机&背景

大规模语言模型（LLM）取得了突破性进展，尤其是 LLaMA [1] 的开源及其衍生模型 [2] 极大地推动了 LLM 的实用化进程。如果能够将这些 LLM 量化压缩到每个参数的 3-4 比特，它们就有可以在大部分笔记本电脑和手机等内存有限的设备上自主部署，从而实现个性化使用。然而，量化到每个参数 3-4 比特通常会导致中等到高精度的损失，尤其是对于非常适合边缘部署的 1-10B 参数范围内的较小模型。

为了解决准确性问题，本文引入了稀疏量化表示（SpQR），这是一种新的压缩格式和量化技术，首次实现了 LLM 的近乎无损压缩，同时达到了与以前方法类似的压缩水平。该方法受到一项新的实验分析的启发，该分析表明 LLM 权重量化误差表现出垂直和水平组相关性，对应于与输入特征维度和输出隐藏维度相对应的系统大误差。

虽然在 LLM.int8 [3] 已经观察到异常值输入特征，但本文首次证明，类似的异常值出现在对于特定输出隐藏维度的权重中。与输入特征异常值不同，输出隐藏维度异常值仅出现在特定输出隐藏维度的小段中。

SpQR 的工作原理是识别和单独处理会导致大量化误差的异常值权重，并以更高的精度存储它们，同时将所有其他权重压缩到 3-4 比特，对于高精度的 LLaMA 和 Falcon LLM，在困惑中实现了小于 1% 的相对精度损失。这使得在单个 24 GB 消费级 GPU 上运行 33B 参数 LLM 成为可能。

LLM权重的量化敏感度

2.1 量化视角下的参数敏感度

并非神经网络中的所有参数都同等重要。直观地说，如果权重的舍入误差较大，则可以将其视为具有较大的量化参数敏感度。直接统计权重的舍入误差忽略了 LLM 向量相关性非常大的事实：权重可能有较大的舍入误差，但与另一个权重密切相关，这意味着舍入的误差可以通过向下舍入很好地补偿。参考 GPTQ [4] 工作，量化视角下的参数敏感度可以以更好地方式定义：

该敏感度度量可以通过量化求解器有效近似。具体来讲，GPTQ 逐列量化权重矩阵，而在每一步调整尚未量化的部分以补偿上述量化误差。因此，该方法可以通过使用对应于尚未量化权重的 Hessian 逆的子矩阵来动态处理每一列，而不是静态地确定所有灵敏度。这个矩阵已经由GPTQ有效地计算，因此不会引入任何额外开销。这种方法的主要优点是始终根据的当前值确定，因此也考虑了由于先前量化的权重而引起的调整。

2.2 参数敏感度分析

本文对权重的参数敏感度进行了分析，分析表明敏感权重在权重矩阵中的位置不是随机的，而是具有特定结构。图 1 可视化了 LLaMA-65B 最后一个自注意力层的输出投影层的权重的敏感度。

▲ 图1. LLaMA-65B最后一个自注意力层的权重对数敏感度。深蓝色阴影表示敏感度较高。

利用敏感度分析，作者观察到几种在权重矩阵中存在的模式，通常在单行或单列中。由于 LLaMA-65B 中的大权重矩阵有太多的行/列，无法在紧凑的图像中重新呈现，本文在左图采用最大池化来可视化矩阵，选 32×32 行和列的每个正方形中的最大敏感度。图 1 中可以观察到量化误差模式受到层类型和层深度的影响。特别是，本文发现更深的层存在更敏感的异常值。现在我们以注意力权重矩阵为例，对异常值结构进行分类：

行异常值：如图 1 底部中心所示，对应于输出特征的高敏感度区域。其中一些模式横跨整行，而另一些则是部分模式。在注意力层中，一些部分行异常值对应于注意力头部的某个子集。
列异常值：该模式出现在图 1 的右下角，显示了所有行的选择输入维度（列）的高灵敏度。
敏感注意力头：图 1 顶部中心区域出现了宽度为 128 的规则条纹，这对应了一个注意力头的所有权重。对应的“条纹”在 QK 投影矩阵中是水平的，在输出投影矩阵中是垂直的，在 V 投影矩阵和任何 MLP 权重中都没有。值得注意的是，即使在敏感的头部内，单独权重敏感性也存在显著差异。
旋转嵌入模式：图 1 右上角展示了具有 64 个单位周期的敏感度的重复垂直模式，这是旋转嵌入位置编码的特有模式。任何不使用旋转嵌入的层都没有这种图案。
非结构化异常值：除此之外，每一层都有许多单独的灵敏度权重，这些权重不适合任何上述模式。

SpQR：敏感度感知压缩表示

3.1 概述

现有的 LLM 量化算法平等地对待低敏感度权重和高敏感度权重；然而，上述实验分析表明，这可能导致次优量化。理想情况下，我们应该为更高敏感度的权重分配更多的存储资源。然而，这些权重多为非结构化异常或小组异常值。为了捕捉这种结构，本文对量化过程做了两大改进：一项用于捕捉小的异常组，另一项用于捕获单个异常值。

使用双层量化捕获小的权重组。本文对极小的组使用逐组量化，以应对小的权重异常组。过往的经验表明小分组往往会导致存储量化统计数据的开销超过精度优势。为避免这一矛盾，本文使用与权重相同的量化算法——非对称（最小-最大）量化来量化分组统计本身。这种分级量化的思想巧妙解决了过小分组所带来的巨大开销。

高敏感度异常值。上述实验分析表明，存在一小部分敏感权重以小组形式（在 Self Attention 层）或单独“异常值”形式（在 MLP 中）出现的情况。这些异常权重往往只占全部权重的 1%，但却会导致总体量化误差的 75% 以上。因此本文选择将这些异常值保持在高精度（16 位），并以类似于压缩稀疏行（CSR）表示 [5] 的行排列对它们进行单独编码。

算法流程。算法 1 展示了 SpQR 的详细过程：1）找到并隔离异常值，保持 16 比特权重；2）将非异常值近似量化为 3~4 比特，并将剩余的量化转移到 16 比特异常值权重中。在第一个异常值检测步骤之后，SpQR 会忽略同一量化组中的所有异常值，只量化非异常权重。同时，在最小-最大量化后，该算法还会继续应用 GPTQ 来量化剩余权重。最后，该算法通过分级量化对稀疏异常值矩阵以及最终的量化统计量进行收集和压缩，并返回压缩后的权重及其元数据。

3.2 稀疏量化表示的实现与利用

该算法将均匀权重转换为多种大小和精度的数据结构。总体而言，该表示由（1）量化权重、（2）一级量化量化统计、二级量化统计和（3）CSR 异常值索引和值组成。我们在图 3 中总结了 SpQR 的总体结构，并在下面描述了每个组件。

▲ 图2. 单个权重张量的 SpQR 表示方法的概述，图像的右侧描绘了所有存储的数据类型及其维度。

存储量化组。所有非异常值权重都被编码为一个结构，具体见图 2，该结构包含：

单独权重比特
每个大小为的组的标量和零点各比特（一级量化）
用于量化组的量化标量和零点的统计量 16 比特（二级量化）

存储异常值。由于异常值是非结构化的，SpQR 按照它们的行和列对它们进行排序，这样同一行中的异常值在内存中是连续的。对于每个异常值，本文存储两个标量：16 位权重值和 16 位列索引。对于每一行，还存储一个 32 位的数字，用于表示行中异常值的总数。每个异常权重的平均存储成本为 32.03 至 32.1 比特。

SpQR 推理加速。作者为 SpQR 格式设计了一个高效的基于 GPU 的解码实现，通过负载平衡和对异常值的行模式进行特定的存储器访问出来。该自定义方法比 PyTorch 中的稀疏矩阵算法更快。

实验

1. LLaMA 压缩表现：表 1 展示了不同量化方法在 LLaMA上的压缩表现。SpQR 在更低量化比特的情况下在各个数据集上都获得了优于其他方法的困惑度表现。

▲ 表1. 多个任务上的LLaMA的量化表现

2. Falcon 压缩表现：表 2 展示了不同量化方法在 Falcon 上的压缩表现。SpQR 在更低量化比特的情况下在打分表数据集上都获得了优于其他方法的困惑度表现。这也验证了 SpQR 在不同 LLM 模型结构上的通用性。

▲ 表2. 多个任务上的LLaMA的量化表现

3. 消融实验：SpQR 的主要改进是具有小量化组大小的双层量化和非结构化异常值的处理。表 3 展示了各个设计的贡献。

▲ 表3. 不同设计对困惑度的影响（LLaMA-65B 为例）

4. 推理耗时：如表 4 所示，虽然 PyTorch 中的标准稀疏矩阵乘法并不比 16 比特推理快，但本文专门的稀疏矩阵乘法算法产生了大约 20-30% 的加速。

▲ 表4.推理速度比较（tokens/s），OOM意味着显存溢出。

参考文献

[1] Touvron, Hugo, et al. "Llama: Open and efficient foundation language models." arXiv preprint arXiv:2302.13971 (2023).

[2] Taori, Rohan, et al. "Stanford alpaca: An instruction-following llama model." (2023).

[3] Dettmers, Tim, et al. "Llm. int8 (): 8-bit matrix multiplication for transformers at scale." arXiv preprint arXiv:2208.07339 (2022).

[4] Frantar, Elias, et al. "Gptq: Accurate post-training quantization for generative pre-trained transformers." arXiv preprint arXiv:2210.17323 (2022).

[5] Hoefler, Torsten, et al. "Sparsity in deep learning: Pruning and growth for efficient inference and training in neural networks." The Journal of Machine Learning Research 22.1 (2021): 10882-11005.

更多阅读