AAAI 2023 | 权重不是低秩的，但特征是

科技

2023-07-20 11:07

©Paperweekly 原创 · 作者 | An.

单位 | 中科院自动化所

研究方向 | 计算机视觉、模型压缩

论文标题：

Compressing Transformers: Features Are Low-Rank, but Weights Are Not!

论文链接：

https://cs.nju.edu.cn/wujx/paper/AAAI2023_AFM.pdf

动机&背景

低秩近似是一种在模型精度和模型大小之间取得平衡的有效的压缩技术，一直是 CNN 模型压缩的主流方法之一，但它在 Transformer 上的应用和研究较少。现有方法需要完整的数据集来微调压缩模型，这些模型既费时又需要大量数据。本文通过 SVD 分解发现了 Transformer 结构的一大特点——模型权重不是低秩的，而特征（即激活）是低秩的。

本文由此设计了一种自适应搜索方法来确定压缩模型架构，即自适应原子特征模仿（AAFM），用于低秩分解。近似会随着深度的增加而累积误差，因此本文还提出了全局特征模拟（GFM）来使用少量未标记样本微调压缩模型。该方法可以很容易地应用于 NLP 和 CV 领域，只需要很少的样本和较短的压缩时间，就可以自适应地确定压缩模型结构，并很好地推广到下游任务。

方法

本文所提出的方法主要可分为三个部分：首先是低秩分解的分析方法，即原子特征模拟（AFM）；其次，为了自动确定压缩模型的结构，本文提出了自适应原子特征模拟（AAFM）；最后，为了弥补误差累积，本文还提出了全局特征模拟（GFM）来最小化输出特征的差异。在整个压缩过程中，该方法只需要少量未标记的样本。

2.1 基础知识

与现有的主流方法类似，本文也将整个 Transformer 模型的压缩问题拆分为多个线性层的压缩子问题，即针对 QKV 层、输出投影层、FC1 和 FC2 四种线性层独立进行低秩近似。为了方便起见，我们可以假设线性层的输入为，输出为，权重矩阵和偏置分别为和，他们的关系很简单：

标准的低秩近似方式如下，其中

。

常见的做法是对进行 SVD 分解，但本文的实验分析发现 Transformer 的权重矩阵几乎是满秩的，选择较小时，低秩近似的信息损失很大，而选择较大的话，模型的压缩比则相对有限。

2.2 原子特征模仿（AFM）

本文提出了一种特征信息量的分析方法，将特征视为随机特征向量的多个实例，并计算其协方差矩阵，并对其进行特征分解（即主成分分析或 PCA）：

图 1 分析了 DeiT-B 模型在 ImageNet1k 验证集上的权重、输入特征和输出特征的特征分解结果。具体来说，图像的横轴是层序号，纵轴是保留 90% 的特征或奇异向量能量所需要的维度比例。从图中可以看出，输出特征所需的维数小于输入特征和模型权重，这表明输出特征更有可能是低秩的（即分解友好），但模型权重不是。同时，从低秩近似的视角观察 Transformer 模型，较低层对于低秩近似更加友好，较高层则需要更大的秩来保持足够的信息。

由此本文提出了原子特征模仿（AFM），不是分解模型权重，而是旨在分解输出特征。由于该方法只模仿单层内的特征，不涉及任何其他层，所以它是原子的。从式（3）的分解中，我们可以只保留前个特征值，并将选择的前列，其中，因此：

对照式（2）可以表示为：

算法 1 展示了 AFM 的具体细节，只需要少量样本即可完成协方差的统计。

2.3 自适应原子特征模仿（AAFM）

低秩近似的一大挑战是准确地确定不同层保留的秩，本文提出了自适应 AFM（AAFM）来克服这一困难。AAFM 的基本思想是保持更高的秩，甚至不压缩那些更敏感的层，同时对那些不太敏感的层采取更积极的压缩策略。

为了测量层的灵敏度得分，本文在参考数据集上提取原始模型的输出 logits，并评估在单层中应用 AFM 之前/之后的性能变化。为了最大限度地提高 GPU 利用率并减少搜索开销，我们将秩设置为 32 的倍数（类似于网格搜索）。最后，AAFM 以 AFM 前后两个模型之间的KL散度作为每层的灵敏度得分，即：