Redian新闻
>
NeurIPS 2023 | 北大&华为提出:多模态基础大模型的高效微调

NeurIPS 2023 | 北大&华为提出:多模态基础大模型的高效微调

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【多模态和大模型】微信交流群

作者:Wang.hx(源:知乎,已授权)| 编辑:CVer

https://zhuanlan.zhihu.com/p/664394525

在CVer微信公众号后台回复:Aurora,可以下载本论文pdf、代码,学起来!

很荣幸我们近期的工作Parameter-efficient Tuning of Large-scaleMultimodal Foundation Model被NeurIPS2023录用!

https://arxiv.org/abs/2305.08381

这是我们第一篇拓展至多模态领域的高效微调的工作,在该工作中我们首次采用模式逼近(mode apprximation)的方法来进行大模型的轻量化高效微调,仅需训练预训练大模型0.04%的参数。同时我们设计了两个启发性模块来增强高效微调时极低参数条件下的模态对齐。实验上,我们在六大跨模态基准测试集上进行全面评估显示,我们的方法不仅超越当前的sota, 还在一些任务上优于全量微调方法。

论文的相关代码也会开源在这个GitHub项目:

github.com/WillDreamer/Aurora

大模型的高效微调是一个非常新且日渐繁荣的task,欢迎小伙伴们一起学习交流~

一、背景

深度学习的大模型时代已经来临,越来越多的大规模预训练模型在文本、视觉和多模态领域展示出杰出的生成和推理能力。然而大模型巨大的参数量有两个明显缺点。第一,它带来巨大的计算和物理存储成本,使预训练和迁移变得非常昂贵。第二,微调限制了预训练知识在小规模数据量的下游任务中的应用效果。这两点阻碍了大模型从特定数据集扩展到更广泛场景。

为缓解预训练大模型的高昂成本,一系列参数高效微调方法相继提出。其通用范式是冻结大模型的骨干网络,并引入少量额外参数。最近,一些工作开始关注多模态领域的高效微调任务,例如UniAdapter、VL-Adapter和MAPLE。但是,它们的通用思路是将自然语言处理领域的现有架构用于多模态模型并组合使用,然后直接在单模态和多模态分支的骨干网络中插入可训练参数以获得良好表现。直接、简单的设计无法将参数高效迁移的精髓融入多模态模型。此外,还有两个主要挑战需要面对: (1)如何在极轻量级高效微调框架下进行知识迁移;(2)在极低参数环境下如何提高各模态间的对齐程度。

图1:与现有主流的高效微调方法的对比

在这篇文章中,我们尝试解决这两种挑战,贡献可以总结为:

  • 介绍了名为Aurora的多模态基础大模型高效微调框架,它解决了当前大规模预训练和微调策略的局限性。

  • 提出了模式近似(mode approximation)方法来生成轻量级可学习参数,并提出了两个启发性模块来更好地增强模态融合。

  • 通过六个跨模态任务和两个零样本任务进行实验验证,结果显示Aurora相比其他方法取得了最先进的性能,同时也只使用最少的可学习参数。

扫码加入CVer知识星球可以最快学习到最新顶会顶刊上的论文ideaCV从入门到精通资料,以及最前沿项目和应用!搞科研,强烈推荐!

二、高效微调的轻量化架构的设计

Aurora的整体过程示意图。

三、高效微调的模态对齐的设计

3.1 Informative Context Enhancement

该模块的目标是为了实现更好的模态对齐,在交叉注意力模块后的融合特征中提供提示文本来更好的激活。受“上下文学习”这一领域的进步启发,我们意识到为提示词提供示范模板是很重要的。最直观的方法是对图像与文本对进行对齐,以获得更多跨模态上下文信息。但是,即使与相关图像区域匹配,描述这些区域的文本可能还是有多个选择。一些文本可能准确概括图像内容,而另一些可能不行。在没有事先匹配文本信息的先验情况下,我们决定引入上下文增强模块来涵盖各个方面的可能的文本信息。

四、实验结果

4.1 实验设置

数据集与基准比较。我们在六个跨模态任务领域的benchmark上评估了Aurora,这些任务包括图片文本检索、问答(QA)、视频文本检索和视频QA。我们将Aurora与两类方法进行比较:完全微调后的SOTA方法以及Frozen重要部分的LoRA和UniAdapter方法。更多细节请参阅附录。

实现细节。我们的实现基于Salesforce开源代码库。与UniAdapter一致,我们使用BLIP-base作为所有多模态下游任务的视觉语言初始化权重。我们使用PyTorch在8台NVIDIA V100 GPU(32G)设备上实现所有实验。我们使用AdamW优化器,设置权重衰减为0.05,学习率通过网格搜索得到为1e-4。需要注意的是,在微调过程中,参数组只更新交叉注意模块的权重, backbone初始化权重不更新。

4.2 实验结果

Image-Text Retrieval

Video-Text Retrieval

VQA

实验气泡图

4.3 消融实验

How Rank of CP Decomposition Affects Aurora?

How Does Aurora Benefit from Informative Context Enhancement

How Does Aurora Benefit from Gated Query Transformation?

How Does Aurora Benefit from Parameter Sharing?

4.4 可视化分析

参数分布可视化

Video-Text retrieval cases on MSRVTT

Video Question Answering cases on MSRVTT-QA

写在最后

月华水殿春光照,银饮金阙年华绿。

在CVer微信公众号后台回复:Aurora,可以下载本论文pdf、代码,学起来!

ICCV / CVPR 2023论文和代码下载

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

多模态和大模型交流群成立


扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-多模态或者大模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如多模态或者大模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
NeurIPS 2023 | 无需配对数据就能学习!浙大等提出连接多模态对比表征C-MCRNeurIPS 2023 | SlotDiffusion: 基于Slot-Attention和扩散模型的全新生成模型工业异常检测大模型来了!哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型马毅团队新作!微调多模态大模型会「灾难性遗忘」NeurIPS 2023 | 跨模态提示:微调大型预训练模型适应音视频下游任务北大全新「机械手」算法:辅助花式抓杯子,GTX 1650实现150fps推断|NeurIPS 2023北大&腾讯打造多模态15边形战士!语言作“纽带”,拳打脚踢各模态,超越Imagebind最强"全开源"多模态基础感知大模型APE发布!在160种测试集上取得强力结果!UC伯克利等发布多模态基础模型CoDi-2;谷歌DeepMind利用AI工具发现200万种新材料丨AIGC日报媒体基础:打开多模态大模型的新思路华为预售Mate 60 Pro和Mate 60 Pro+重磅课程再次升级,一次性搞定大模型多模态AIGC与强化学习 --《2023秋季AIGC大模型与强化学习前沿技术实战》 招生简章NeurIPS 2023 | MQ-Det:首个支持多模态查询的开放世界目标检测大模型Gunn HS让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%NeurIPS 2023 | 浙大等提出C-MCR:连接多模态对比表征,无需配对数据就能学习!看电影孤注一掷 & 吃火锅实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR|NeurIPS 2023女儿正式开学第一天和其它NeurIPS 2023 | 北大具身智能团队提出需求驱动导航:对齐人类需求,让机器人更高效NeurIPS 2023 | FD-Align:基于特征判别对齐的预训练模型小样本微调NeurIPS 2023 | 超越YOLO系列!华为提出Gold-YOLO:实时目标检测新SOTANeurIPS 2023 | MixFormerV2:基于Transformer的高效跟踪器《情人的眼泪》& 介绍一位呱呱叫的音乐老师NeurIPS 2023 | AI Agents先行者CAMEL:首个基于大模型的多智能体框架科研上新 | 大模型推进科研边界;大模型的道德价值对齐;优化动态稀疏深度学习模型;十亿规模向量搜索的高效更新华为提出QA-LoRA:让微调大型语言模型‘轻装上阵’精确率提升7.8%!首个多模态开放世界检测大模型MQ-Det登NeurIPS 2023最近发生在的Texas的Law and Order的具体案例,你觉得和你想象的一样吗?你会支持这样的Law&order吗五绝 天热心烦9/11,后撞的南塔为何早46分倒?及本世纪最英勇华裔 &《WB翅膀》顶刊TPAMI 2023!北大&华为提出:人体动作生成综述马毅团队新作!微调多模态大模型会「灾难性遗忘」,让性能大减NeurIPS 2023 | 任意模型都能蒸馏!华为诺亚提出异构模型的知识蒸馏方法ICCV 2023 | 通向3D感知大模型的必由之路!UniTR:统一多模态Transformer Encoder!世界最好国家排名闲聊NeurIPS 2023 | InstructBLIP:指令微调训练通用视觉-语言模型《雁双飞》&《春庭雪》NeurIPS 2023 | 多模态基础大模型的高效微调
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。