AAAI 2023 | 权重不是低秩的,但特征是
论文链接:
动机&背景
本文由此设计了一种自适应搜索方法来确定压缩模型架构,即自适应原子特征模仿(AAFM),用于低秩分解。近似会随着深度的增加而累积误差,因此本文还提出了全局特征模拟(GFM)来使用少量未标记样本微调压缩模型。该方法可以很容易地应用于 NLP 和 CV 领域,只需要很少的样本和较短的压缩时间,就可以自适应地确定压缩模型结构,并很好地推广到下游任务。
方法
本文所提出的方法主要可分为三个部分:首先是低秩分解的分析方法,即原子特征模拟(AFM);其次,为了自动确定压缩模型的结构,本文提出了自适应原子特征模拟(AAFM);最后,为了弥补误差累积,本文还提出了全局特征模拟(GFM)来最小化输出特征的差异。在整个压缩过程中,该方法只需要少量未标记的样本。
2.1 基础知识
视觉任务压缩:表 1 展示了本文的方法在 DeiT-B、Swin-B 和 Swin-L 的压缩性能表现,并对每个阶段做了消融分析,本文的方法在删除 40% 参数量,提速 24.5% 时在 ImageNet-1k 的准确率只降低 0.57%,远远超过 SVD 分解。
▲ 表1. ImageNet-1k DeiT-B、Swin-B 和 Swin-L 低秩近似的 Top-1 准确率
迁移能力:表 2 和表 3 分别展示了本文的低秩近似方法在检测、分割和下游分类任务上的表现。在低秩近似后,模型在各个下游任务的表现与原始模型相当,这说明了本文所提出的低秩近似方法的有效性。
▲ 表2. MS-COCO2017 数据集 Swin-B 的检测分割 mAP表现
▲ 表3. 下游分类任务下 DeiT-B 的表现
NLP 任务压缩:表 4 对了 SVD 和 AAFM 在 WikiText 数据集上的低秩近似表现。与之前的实验类似,本文方法的表现与原始模型相当。特别是当去除20%的参数时,AAFM 比 SVD 的困惑度低了 7.42。
▲ 表4. WikiText-103 上低秩近似模型的表现
消融实验:论文分析了不同自适应搜索方法(AAFM、Adaptive SVD)、不同全局特征模仿方法(GFM、soft-kd、hard-kd)以及不同参考样本数量对压缩性能的影响,一一证明了本文所提出的设计的有效性,具体细节可见原文。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者