Redian新闻
>
AAAI 2023 | 权重不是低秩的,但特征是

AAAI 2023 | 权重不是低秩的,但特征是

科技

©Paperweekly 原创 · 作者 | An.
单位 | 中科院自动化所
研究方向 | 计算机视觉、模型压缩



论文标题:
Compressing Transformers: Features Are Low-Rank, but Weights Are Not!

论文链接:

https://cs.nju.edu.cn/wujx/paper/AAAI2023_AFM.pdf




动机&背景

低秩近似是一种在模型精度和模型大小之间取得平衡的有效的压缩技术,一直是 CNN 模型压缩的主流方法之一,但它在 Transformer 上的应用和研究较少。现有方法需要完整的数据集来微调压缩模型,这些模型既费时又需要大量数据。本文通过 SVD 分解发现了 Transformer 结构的一大特点——模型权重不是低秩的,而特征(即激活)是低秩的

本文由此设计了一种自适应搜索方法来确定压缩模型架构,即自适应原子特征模仿(AAFM),用于低秩分解。近似会随着深度的增加而累积误差,因此本文还提出了全局特征模拟(GFM)来使用少量未标记样本微调压缩模型。该方法可以很容易地应用于 NLP 和 CV 领域,只需要很少的样本和较短的压缩时间,就可以自适应地确定压缩模型结构,并很好地推广到下游任务。




方法

本文所提出的方法主要可分为三个部分:首先是低秩分解的分析方法,即原子特征模拟(AFM);其次,为了自动确定压缩模型的结构,本文提出了自适应原子特征模拟(AAFM);最后,为了弥补误差累积,本文还提出了全局特征模拟(GFM)来最小化输出特征的差异。在整个压缩过程中,该方法只需要少量未标记的样本。

2.1 基础知识

与现有的主流方法类似,本文也将整个 Transformer 模型的压缩问题拆分为多个线性层的压缩子问题,即针对 QKV 层、输出投影层、FC1 和 FC2 四种线性层独立进行低秩近似。为了方便起见,我们可以假设线性层的输入为 ,输出为 ,权重矩阵和偏置分别为 ,他们的关系很简单:

标准的低秩近似方式如下,其中

常见的做法是对 进行 SVD 分解,但本文的实验分析发现 Transformer 的权重矩阵几乎是满秩的, 选择较小时,低秩近似的信息损失很大,而 选择较大的话,模型的压缩比则相对有限。
2.2 原子特征模仿(AFM)
本文提出了一种特征信息量的分析方法,将特征视为随机特征向量的多个实例,并计算其协方差矩阵,并对其进行特征分解(即主成分分析或 PCA):

图 1 分析了 DeiT-B 模型在 ImageNet1k 验证集上的权重、输入特征和输出特征的特征分解结果。具体来说,图像的横轴是层序号,纵轴是保留 90% 的特征或奇异向量能量所需要的维度比例。从图中可以看出,输出特征所需的维数小于输入特征和模型权重,这表明输出特征更有可能是低秩的(即分解友好),但模型权重不是。同时,从低秩近似的视角观察 Transformer 模型,较低层对于低秩近似更加友好,较高层则需要更大的秩来保持足够的信息
由此本文提出了原子特征模仿(AFM),不是分解模型权重,而是旨在分解输出特征。由于该方法只模仿单层内的特征,不涉及任何其他层,所以它是原子的。从式(3)的分解中,我们可以只保留前 个特征值,并将选择 的前 ,其中 ,因此:
对照式(2)可以表示为:
算法 1 展示了 AFM 的具体细节,只需要少量样本即可完成协方差的统计。
2.3 自适应原子特征模仿(AAFM)
低秩近似的一大挑战是准确地确定不同层保留的秩 ,本文提出了自适应 AFM(AAFM)来克服这一困难。AAFM 的基本思想是保持更高的秩,甚至不压缩那些更敏感的层,同时对那些不太敏感的层采取更积极的压缩策略。
为了测量层的灵敏度得分,本文在参考数据集 上提取原始模型的输出 logits,并评估在单层中应用 AFM 之前/之后的性能变化。为了最大限度地提高 GPU 利用率并减少搜索开销,我们将秩 设置为 32 的倍数(类似于网格搜索)。最后,AAFM 以 AFM 前后两个模型之间的KL散度作为每层的灵敏度得分,即:

在获得具有不同秩 的灵敏度得分后,给定目标模型大小 ,AAFM 最小化所有层的灵敏度得分之和。由于 是整数,该问题可以视为一个整数规划问题,本文采用了简单的贪婪算法来近似地解决它。
2.4 全局特征模仿(GFM)
尽管 AAFM 的每层内部的重建误差很小,但这一误差会随着更多线性层的近似而累积。因此,作者提出了全局特征模仿(GFM)来校正它们。GFM 非常简单:使用少量样本对最终 LayerNorm 层之后的输出特征图进行优化:

经验表明,即使在少量样本中,通过 GFM 对压缩网络进行微调也不会导致过拟合,并且对提高精度非常有帮助。



实验

  1. 视觉任务压缩:表 1 展示了本文的方法在 DeiT-B、Swin-B 和 Swin-L 的压缩性能表现,并对每个阶段做了消融分析,本文的方法在删除 40% 参数量,提速 24.5% 时在 ImageNet-1k 的准确率只降低 0.57%,远远超过 SVD 分解。

▲ 表1. ImageNet-1k DeiT-B、Swin-B 和 Swin-L 低秩近似的 Top-1 准确率

  1. 迁移能力:表 2 和表 3 分别展示了本文的低秩近似方法在检测、分割和下游分类任务上的表现。在低秩近似后,模型在各个下游任务的表现与原始模型相当,这说明了本文所提出的低秩近似方法的有效性。

▲ 表2. MS-COCO2017 数据集 Swin-B 的检测分割 mAP表现

▲ 表3. 下游分类任务下 DeiT-B 的表现

  1. NLP 任务压缩:表 4 对了 SVD 和 AAFM 在 WikiText 数据集上的低秩近似表现。与之前的实验类似,本文方法的表现与原始模型相当。特别是当去除20%的参数时,AAFM 比 SVD 的困惑度低了 7.42。

▲ 表4. WikiText-103 上低秩近似模型的表现

  1. 消融实验:论文分析了不同自适应搜索方法(AAFM、Adaptive SVD)、不同全局特征模仿方法(GFM、soft-kd、hard-kd)以及不同参考样本数量对压缩性能的影响,一一证明了本文所提出的设计的有效性,具体细节可见原文。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
微软开源的大模型太强了,数学推理超ChatGPT,论文、模型权重全部公开简单理解高温等离子流驱动力原来“相由心生”是真的,宝宝身上这4个特征,是天生的福相!真正能给自己撑腰的,不是家人,不是贵人,不是朋友,而是…问诊案例丨宝宝体重不见长,是生长发育迟缓吗?客户在银行金融等机构做合规风控工作,免背景调查递交直接通过澳洲VET信息和组织专业人员职业评估,超冷门职位,还是低分获邀职位!用别的模型权重训练神经网络,改神经元不影响输出:英伟达神奇研究古希腊文明真伪探讨之三:地球是圆的吗?吵翻!多大学生痛苦提问:成绩到底重不重要?学长:我GPA1.9年薪40万!星期日义务劳动多大学生痛苦提问:成绩到底重不重要?wow! Tom Hanks Presidential Harvard Speech Motivational Inspirat俄罗斯选美冠军“与图片严重不符”但坚决否认整容,因为老公不一般ICML 2023 | 英伟达神奇研究:用别的模型权重训练神经网络,改神经元不影响输出!LoRA继任者ReLoRA登场,通过叠加多个低秩更新矩阵实现更高效大模型训练效果矮小!瘦弱!长得慢!宝宝身高体重不达标,原因是你忽略了这个小贵,但特牛!自带四线的快充充电宝,轻巧便携颜值高、大容量!他们宣布:伤重不治,头目死亡!这个周未伯克利的喜玛拉雅集市催眠大师吉利根:真正拖垮你的,是低能量体质一个人去别人家里,带这三样,就是低情商的表现!永居 (四十四)北爱 (一)完犊子!澳洲人死后没地葬了!墓地供应严重不足!有人竟研究出这种新方式“下葬”!?炸裂!最新CVPR2023、ICML2023、AAAI2023、ACL2023论文+Code大合集!人为什么会衰老 (2023我还是低估了江歌妈妈!Tour de l’ile de Montréal 2023今天买到T6岁前一定要吃够!缺它影响视力和大脑发育,很多娃摄入量严重不足我们还是低估了刘鑫的恶!Jennie新剧画面曝光引争议!究竟是性感还是低俗?ICML 2023 | 英伟达神奇研究:用别的模型权重训练神经网络,改神经元不影响输出宝宝体重不长,先从这3个方面找原因慢性萎缩性胃炎的病理特征是?澳洲墓地供应严重不足!悉尼下葬空间恐在3年内耗尽受房地产拖累!需求严重不足!经济担忧升温“军事媒体人员太多,前线士兵严重不足”俄乌战况242023 NSS英国大学教学满意度排名出炉!第一不是牛剑G5,而是低调的它!金晨体重不到100斤,瘦出「肋骨胸」,凭啥人不垮掉?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。