Redian新闻
>
ICML 2024 | 超越LoRA!港科大提出FourierFT:新型傅立叶微调!训练参数大幅减少

ICML 2024 | 超越LoRA!港科大提出FourierFT:新型傅立叶微调!训练参数大幅减少

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/扩散/多模态】交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

本文介绍了香港科技大学(广州)的一篇关于大模型高效微调(LLM PEFT Fine-tuning)的文章「Parameter-Efficient Fine-Tuning with Discrete Fourier Transform」,本文被 ICML 2024 接收,代码已开源。

  • 论文地址:https://arxiv.org/abs/2405.03003
  • 项目地址:https://github.com/Chaos96/fourierft

背景

大型基座模型在自然语言处理(NLP)和计算机视觉(CV)领域都获得了瞩目的成就。微调(Finetuning)大型基座模型,使其更加适应特殊的下游任务,成为了一项热门研究课题。然而,在模型越来越大,下游任务越来越多样的今天,微调整个模型带来的计算、存储消耗已大到不再能被接受。LoRA 采用低秩拟合微调增量的方案,成功降低了大量的此类消耗,但每个适应器(adapter)的大小仍然是不可忽视的。这激发了本文的核心问题:相比 LoRA,如何进一步大幅减少可训练参数?此外,一个有趣的附加问题是能否采用更少的参数量得到高秩增量矩阵
方法
傅立叶基底在各类数据压缩应用中广泛使用,例如一维向量信号和二维图像的压缩。在这些应用中,稠密的空域信号通过傅立叶变换被转化为稀疏的频域信号。基于这一原理,作者推测模型权重的增量也可以被视为一种空域信号,其对应的频域信号可以通过稀疏表示来实现。
在这一假设的基础上,作者提出了一种新的方法,用于在频域中学习增量权重信号。具体来说,该方法通过随机位置的稀疏频域信号来表示空域权重增量。在加载预训练模型时,首先随机选择 n 个点作为有效的频域信号,然后将这些信号拼接成一个一维向量。在前向传播过程中,这个一维向量被用来通过傅立叶变换恢复空域矩阵;在反向传播过程中,由于傅里叶变换的可导性,可以直接对此可学习的向量进行更新。这种方法不仅有效减少了模型微调时所需的参数数量,同时保证了微调性能。通过这种方式,作者不仅实现了对大规模基础模型的高效微调,还展示了傅立叶变换在机器学习领域中的潜在应用价值。

得益于傅立叶变换基底的高信息量,仅需很小的 n 值即可达到与 LoRA 相当甚至超过 LoRA 的表现。一般来说,傅立叶微调的可训练参数仅为 LoRA 的千分之一到十分之一。
实验
1. 自然语言理解
作者在自然语言理解的 GLUE 基准测试上对傅立叶微调方法进行了评估。基线对比方法包括全量微调(FF,Full Finetuning)、Bitfit、适应器微调(Adapter Tuning)、LoRA、DyLoRA 和 AdaLoRA。下表展示了各种方法在 GLUE 各个任务上的表现及其所需的训练参数量。结果表明,傅立叶微调以最少的参数量达到了甚至超越了其他微调方法的性能。

2. 自然语言指令微调
大模型的自然语言生成是目前模型微调的重要应用领域。作者在 LLaMA 系列模型、MT-Bench 任务和 Vicuna 任务上评估了傅立叶微调的性能。结果显示,傅立叶微调以极低的训练参数量达到了与 LoRA 相似的效果,进一步验证了傅里叶微调方法的通用性和有效性。

3. 图像分类
作者在 Vision Transformer 上测试了傅里叶微调的性能,涵盖了 8 个常见的图像分类数据集。实验结果表明,虽然在图像分类任务中傅立叶微调相较LoRA的压缩率提升并不比自然语言任务中显著,但其仍然以远小于 LoRA 的参数量超越了 LoRA 的效果。这进一步展示了傅立叶微调在不同应用领域中的有效性和优势。

4. 突破低秩
在 GLUE 基准的 RTE 数据集上,FourierFT 可以实现明显高于 LoRA (通常为 4 或 8) 的增量的秩。

5.GPU 资源消耗
微调过程中,FourierFT 可以实现比 LoRA 更少的 GPU 消耗。下图为采用单张 4090 显卡在 RoBERTa-Large 模型上的巅峰内存消耗。

结论
作者介绍了一种名为傅立叶微调的高效微调方法,通过利用傅里叶变换来减少大基础模型微调时的可训练参数数量。该方法通过学习少量的傅里叶谱系数来表示权重变化,显著降低了存储和计算需求。实验结果显示,傅立叶微调在自然语言理解、自然语言生成、指令调优和图像分类等任务上表现优异,与现有的低秩适应方法(如 LoRA)相比,傅立叶微调在保持或超过 LoRA 性能的同时,所需的可训练参数大幅减少。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba、多模态和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ICML 2024 | 北大、字节提出新型双层位置编码方案,有效改善长度外推效果时隔一年Falcon回归!110亿参数5.5万亿token,性能超越Llama 3给文字动画注入语义灵魂!港科大开源「文字跳动」技术,每个单词都浪漫ICML 2024 | 大语言模型预训练新前沿:「最佳适配打包」重塑文档处理标准有不烦车子的自动停启功能的吗?2024 BMW X5CVPR 2024 | 无参数无训练也能大幅涨点!港城大等提出全新小样本3D分割模型Best CD Rates Of April 2024: Up To 5.42%ICML 2024 | 清华提出DecisionNCE,用多模态表征预训练加速具身智能愚人节(4/1/2024)北京算力基建实施方案重磅发布!重点支持采购自主可控GPU,要支撑万亿参数大模型训练CVPR 2024 | 北大提出HoT:高效3D人体姿态估计新框架国内的个人护照要由单位保管,要出国出境再申领。哈哈比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISAICML 2024 | 提升收敛速度!人大提出基于镜像下降的贝叶斯小样本分类忐忑不安nervous anxious5亿参数“小模型”如何超越千亿级参数大模型GPT-3.5?文学城的排名谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择ICML 2024 | 即插即用!无需训练!基于球面高斯约束引导的条件扩散模型搬家清囤的Lululemon, Aritzia Randy & Murphy, Sophie Webster蝴蝶鞋及其他最新数据:美国本土博士后大幅减少,仅过去1年就下滑了8%ICLR 2024 | 冻结住的CLIP仍可作为教师模型!港大提出全新开集动作识别模型全面超越Transformer!清华蚂蚁推出纯MLP架构,长短程时序预测大幅提升ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了AAAI 2024 北大提出BEV-MAE:高效的LiDAR感知模型预训练策略统一所有模态的3D范式来了!Any2Point:仅需训练1%的参数量,超越SOTA!ICML 2024 | 大语言模型预训练新前沿:最佳适配打包重塑文档处理标准【求职战报】全球金融交易平台Deutsche Börse Systems销售运营面试邀约!爱美丽的第一件wetsuit,想起我以前wetsuit的故事狗引儿【长篇】(七十八)洛杉矶东区猫狗领养活动 4/28/2024 周日下午3ICML 2024|华为诺亚提出SLAB:从BN和注意力角度改进TransformerICML 2024 | 面向第三代推荐系统:Meta提出首个生成式推荐系统模型ICML 2024 | 川大提出外部引导的深度聚类新范式,大幅提升CLIP图像聚类性能[评测]Colorful Colorfire Meow R15 评测即插即用,快速适配!港大FlashST:简单通用的智慧交通时空预测模型 | ICML 2024ICML 2024 | 过犹不及:揭示Graph Transformers中的过全局化问题ICML 2024 | 新型傅立叶微调来了!脱离LoRA架构,训练参数大幅减少ICML 2024 | 无需LayerNorm简化Attention,精度无损推理效率大幅提升CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。