Redian新闻
>
CVPR 2023 | 基于CLIP的微调新范式!训练速度和性能均创新高!

CVPR 2023 | 基于CLIP的微调新范式!训练速度和性能均创新高!

科技

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉】微信技术交流群

基于CLIP的微调新范式(cross-modal adaptation):仅用线性分类器即可超越CoOp,Tip-Adapter等多种算法在小样本图像识别训练集上的性能。

Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with Multimodal Models[1]

主页链接:

https://linzhiqiu.github.io/papers/cross_modal/

论文:https://arxiv.org/abs/2301.06267

代码链接:

https://github.com/linzhiqiu/cross_modal_adaptation

论文总结:我们提出了一种简单而有效的基于多模态预训练模型CLIP的小样本微调算法,通过将跨模态信息(例如文字标签)作为训练样本加入cross-entropy loss进行微调,即可用一个简单的线性分类器在十一个图像识别训练集中取得SOTA效果。我们的方法(cross-modal adaptation)的训练速度和性能均大幅优于先前基于prompting、adapter或ensemble的算法,例如CoOp、CoCoOp、Tip-Adapter和WiSE-FT等。此外,实验表明了我们的算法在OOD测试集(比如ImageNet-V2和Sketch等)上也具备良好泛化能力,并可以适应多种输入模态(例如音频)。我们希望这项工作能为未来的多模态学习提供有益的参考价值,也可以取代传统的linear-probing来作为未来预训练模型的衡量基准。

论文介绍:

研究动机:

小样本学习(Few-shot learning)是机器学习领域的一个重要方向,然而基于深度学习的识别算法仍然无法达到人类甚至婴儿在此类任务上的性能。我们认为这一现象主要是因为现阶段的小样本学习任务往往只考虑单一模态的训练样本,例如只用少量图像来训练一个分类器。然而,大量神经科学的研究1 2指出人脑在学习新概念的时候会利用跨模态的信息,比如语言或者音频。

这一跨模态学习的现象在当前以CLIP为代表的预训练模型上尤为突出。CLIP在各大图像识别任务上都取得了非常先进的“zero-shot”识别性能, 即是仅用文本的信息(标签名)就可以取得非常优异的分类结果。此类模型利用了“contrastive learning”(对比学习)使得不同模态的样本能在同一个空间中对齐。基于此,我们提出了一个简单的基于CLIP的小样本微调算法,即是将跨模态的信息(比如文本标签)作为额外的训练样本,同图像样本一起用来优化softmax (cross-entropy) loss。

方法介绍:

我们发现目前最流行的基于CLIP的小样本学习算法,例如CoOp[2], Tip-Adapter[3], WiSE-FT[4] 等,均只用单一的图像样本来训练一个分类器:

其中为图像样本,为图像标签,为特征提取器(feature extractor)。则是常用的cross-entropy损失函数:

而我们提出将跨模态的信息(例如文本标签)作为额外的“one-shot”训练样本,并加入损失函数。假设我们有种模态(例如= (图像,文本)):

那么我们的方法(cross-modal adaptation)就会使用如下的损失函数:

实验结果:

对于图像识别而言,几乎所有的数据集(例如ImageNet等)都会附带每个class的文本标签,因此我们的方法可以得益于这类数据集自带的“免费”跨模态信息来进行训练。在训练过程中,我们只需要微调一个线性分类器(Cross-modal Linear Probing),既可以取得SOTA的效果。同时,我们也可以部分微调CLIP的图像特征提取器来取得更好的性能,例如神经网络的最后一层 (Cross-modal Partial Finetuning):

因为我们的方法仅需要微调很少的参数,我们的训练成本和速度较之前方法也得以优化了好几倍。需要注意的是,我们所比较的方法,例如CoOp和Tip-adapter等均利用了同样的跨模态文本标签信息。在这一基础上,我们发现我们提出的损失函数仍然可以提升以往方法的性能:

结论与展望:

Cross-modal adaptation先进的实验结果证明了CLIP这一类的多模态模型的最优微调范式一定要利用跨模态的信息,这一点和单模态微调(例如prompting和adapter之于大语言模型)有显著的区别。

在论文中我们还展示了我们方法在OOD(out-of-distribution)测试集上,例如ImageNetV2和ImageNet-Sketch上的优越泛化性能。同时我们基于AudioCLIP[5]提出了第一个小样本视觉音频识别任务ImageNet-ESC,并证明了我们的方法也能够利用音频来提升图像识别的性能(或者用图像来提升音频识别的性能)。基于此,我们希望跨模态微调(cross-modal adaptation)能够取代单模态微调,成为未来预训练模型的性能衡量基准。

PyTorch代码展示:

参考资料

[1]

Arxiv原文: https://arxiv.org/pdf/2301.06267.pdf

[2]

CoOp: https://arxiv.org/abs/2109.01134

[3]

Tip-Adapter: https://arxiv.org/abs/2111.03930

[4]

WiSE-FT: https://arxiv.org/abs/2109.01903

[5]

AudioCLIP: https://arxiv.org/abs/2106.13043

[6]

论文代码: https://github.com/linzhiqiu/cross_modal_adaptation


点击进入—>【计算机视觉】微信技术交流群


最新CVPP 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


多模态和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-多模态或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如多模态或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!


扫码进群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
国际要闻简报,轻松了解天下事(03川普官司未结,拜登前办公室也发现机密文件——这事咋整?转:2023 回国探亲(5)CachyOS:基于 Arch 的发行版,具有速度和易用性 | Linux 中国CVPR 2023 | 浙大提出全归一化流模型PyramidFlow:高分辨率缺陷异常定位新范式英特尔开源基于CPU的OpenCL运行时五万字综述!Prompt Tuning:深度解读一种新的微调范式CVPR 2023 | 谷歌提出CLIPPO:仅从像素理解图像和语言2023 春 祝姐妹们周末快乐!速度提升24倍,30分钟完成室内大场景逆渲染,如视研究成果入选CVPR 20232022年半导体硅晶圆出货面积及营收均创新高《山居续忆》:第二十九章:我最早的“日记” —— 有关我出生后头两年的记录 (三)Eruope 2023ICLR 2023 | 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究美国移民局报告:2022财年H-1B申请和获批均创历史新高!CVPR 2023 | 白翔团队提出:将CLIP模型用于场景文本检测CVPR 2023 | G2SD: 让小模型也能从自监督预训练中受益的蒸馏方法四天三夜玩转阿拉巴马轻量版ChatGPT训练方法开源!仅用3天围绕LLaMA打造,号称训练速度比OpenAI快15倍CVPR 2023 | GAN的反击!朱俊彦新作GigaGAN,出图速度秒杀Stable Diffusion!CVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型CVPR 2022 | ELP:简单间断线性探针即可提升各种分类性能2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一GAN的反击:朱俊彦CVPR新作GigaGAN,出图速度秒杀Stable DiffusionNeurIPS 2022 | 训练速度100倍提升!基于PyTorch实现的可微逻辑门网络开源CVPR 2023 | YOLOv7强势收录!时隔6年,YOLOv系列再登CVPR!CVPR 2023 接收结果出炉!再创历史新高!录用2360篇!(附10篇最新论文)录用2360篇、接收率25.78%,CVPR 2023接收结果公布2022辞旧迎新晚宴!CVPR 2023 | 即插即用!SQR:对于训练DETR-family目标检测的探索和思考CVPR 2023 | MobileOne:移动端仅需1ms的高性能主干!超越MobileViT!CVPR 2023 | 中山大学HCP实验室新突破:用因果范式再升级多模态大模型Prompt一键抠图!Meta发布史上首个图像分割基础模型,开创CV新范式今年 CV 热点这么多,不可错过 CVPR 2023 线下论文分享会CVPR 2023 | HPM:在掩码学习中挖掘困难样本,带来稳固性能提升!CVPR 2023 | EMA-VFI: 基于帧间注意力提取运动和外观信息的高效视频插帧揭开FIFA的遮羞布(中)- 丑闻不断CVPR 2023 | GAN的反击!朱俊彦新作GigaGAN,出图速度秒杀Stable Diffusion第四范式开源强化学习研究通用框架,支持单智能体、多智能体训练,还可训练自然语言任务!训练速度提升17%CVPR 2023 | 何恺明团队开源FLIP:MAE助力CLIP更快更高精度!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。