Redian新闻
>
NeurIPS 2023 | FD-Align:基于特征判别对齐的预训练模型小样本微调

NeurIPS 2023 | FD-Align:基于特征判别对齐的预训练模型小样本微调

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉和Transformer】交流群

作者:sanker(源:知乎,已授权)| 编辑:CVer

https://zhuanlan.zhihu.com/p/663423245

在CVer微信公众号后台回复:FD,可以下载本论文pdf、代码,学起来!

简单介绍一下我们被 NeurIPS 2023 录用的一个小样本预训练模型微调的工作

FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained Models in Few-Shot Learning

论文:arxiv.org/abs/2310.15105

代码:github.com/skingorz/FD-Align

背景

CLIP在各类视觉任务中表现得极其出色。将其应用到下游任务时,往往需要在下游数据上进行微调。但是在数据量不足的情况下,直接对CLIP进行微调很容易出现过拟合。并且会影响OOD数据上的泛化性。因此,先前的方法大多数尝试仅微调分类头或者引入额外的结构,但是这并没有充分挖掘CLIP的视觉编码器的潜力。所以我们探索如何尽可能的使用少量样本微调CLIP时不破坏其OOD性能。

动机

我们通过模型对虚假关联性的鲁棒性来解释全微调的CLIP的OOD性能变差的原因。虚假关联性的鲁棒性指的是模型是否具有区分出样本中和类别相关信息(因果信息)以及(背景、风格等)类别无关信息(虚假信息)的能力。先前的工作发现,CLIP对虚假关联性有很好的鲁棒性,因此有很好的OOD性能[1]。然而,全微调的CLIP的OOD性能会下降[2]。对CLIP和全微调后的CLIP的attention map可视化后发现:全微调的CLIP更关注于物体的局部特征,这种对局部信息的注意力使得模型对虚假关联性的鲁棒性变差[3]。也就是说,对CLIP进行全微调时,虽然模型更好得学习到了微调样本的因果特征,但是模型对虚假特征的识别能力也变差,导致模型学习到的因果特征不能很好的泛化到未见过样本。从而出现过拟合,影响OOD数据上的泛化性。因此,本文提出了一种不影响模型对虚假特征识别能力的微调方法来保证微调后的模型对虚假关联性的鲁棒性。

扫码加入CVer知识星球可以最快学习到最新顶会顶刊上的论文ideaCV从入门到精通资料,以及最前沿项目和应用发论文强推!

方法

虚假特征约束

在微调时保证虚假特征不变最直接的方式是将因果特征和虚假特征解耦出来,并保证虚假特征不变。然而,在图像中对特征解耦是一个极其困难的任务。相比之下,将虚假特征和因果特征从文本中解耦出来极其简单。例如:对于提示 "a photo of a dog",dog是因果特征。"a photo of a"是虚假特征。借助于CLIP极强的视觉和文本对齐能力。我们可以将文本的虚假特征作为图像虚假信息的原型。

虚假原型修正

目前的提示模板大多是人工设计或者语言模型生成,难免会出现不合理或者冗余的情况,从而导致虚假信息原型不准确。为此,我们首先使用异常值检测算法来删除不合理的提示特征

实验结果

OOD性能

如下表所示,我们在ImageNet上对CLIP进行16 shot微调,并在ImageNet两个变种数据集上进行性能测试。相对于全微调,我们的OOD性能有全面的提升。另外,我们直接将微调得到的视觉编码器替换到Tip和APE中,可以看出,我们微调后得到的模型能够无需重新微调直接应用到现有的方法中提升OOD性能。


同样,我们也按照N-way K-shot的小样本学习形式来对CLIP在miniImageNet上微调,并且在各种不同的下游数据集上测试了性能。下图是微调后的模型在不同数据集上的性能变化。我们微调后的模型在大部分数据集上都能带来显著的OOD性能提升。

ID 性能

我们同样也在11个数据集上测试了我们方法的ID性能。我们的方法有着显著的性能提升,并且随着shot数增加提升更明显。

同样,我们将微调后的视觉编码器直接应用到现有的方法,下表是在ImageNet上的性能。可以看出,我们微调后的模型同样也能直接提升现有方法的ID性能。

虚假原型修正的必要性

如下表所示,我们分别比较了使用全部提示特征作为原型,Tip手动筛选后的提示特征作为原型,以及使用虚假原型修正(SPC)后原型的ID性能。如图所示,使用SPC修正后的原型相对使用全部提示能达到更高的性能。值得关注的是,使用Tip手动筛选后的提示特征作为原型的性能大幅下降。具体原因我们分析是其中保留的模板 "itap of a {class}" 在SPC中被作为异常值删除。所以SPC自动修正虚假特征原型能够避免人工筛选的不合理性。

在CVer微信公众号后台回复:FD,可以下载本论文pdf、代码,学起来!

参考文献

[1] Self-supervision on images and text reduces reliance on visual shortcut features.
[2] Fine-tuning can distort pretrained features and underperform out-of-distribution.
[3] Are vision transformers robust to spurious correlations?

点击进入—>【计算机视觉和Transformer】交流群

ICCV / CVPR 2023论文和代码下载

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

计算机视觉和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-计算机视觉或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
NeurIPS 2023 | 扩散模型再发力!微软提出TextDiffuser:图像生成的文字部分也能搞定!NeurIPS 2023 | MSRA、清华、复旦等联合提出AR-Diffusion:基于自回归扩散的文本生成NeurIPS 2023 | 扩散模型解决多任务强化学习问题NeurIPS 2023 | 北大&华为提出:多模态基础大模型的高效微调NeurIPS 2023 | 大模型时代自监督预训练的隐性长尾偏见NeurIPS 2023 | 北大具身智能团队提出需求驱动导航:对齐人类需求,让机器人更高效NeurIPS 2023 | 任意模型都能蒸馏!华为诺亚提出异构模型的知识蒸馏方法预训练机器阅读理解模型:对齐生成式预训练与判别式下游场景NeurIPS 2023 | MixFormerV2:基于Transformer的高效跟踪器说说「山道猴子的一生」我想拥有男人的大智慧北大全新「机械手」算法:辅助花式抓杯子,GTX 1650实现150fps推断|NeurIPS 20232023/08最新民调,台湾人对于独立还是统一是怎么看的?Llama2 7B中文魔改PK:「雅意」百万指令集微调 VS「伶荔」扩词+增量预训练+指令微调US News 2023JMT 2023.08.20NeurIPS 2023 | 王利民团队提出MixFormerV2:首个基于ViT并在CPU设备实时运行的目标跟踪器!NeurIPS 2023 | PointGPT:点云和GPT大碰撞!点云的自回归生成预训练NeurIPS 2023 | 旷视张祥雨等人提出RevColV2:当解耦学习遇见自监督训练!视觉预训练新思路一文速览NeurIPS 2023大模型/预训练/上下文学习相关Spotlight文章NeurIPS 2023 | 多模态基础大模型的高效微调NeurIPS 2023 | RevCol V2: 当解耦学习遇上自监督训练,视觉预训练的思路更年期被忽视的心理巨变!也求建议,我上周将前公司401K roll over 到了Fidelity,大概200K左右,准备买大盘股指数,该如何操作才好?ICCV 2023 | 面向视觉-语言导航的实体-标志物对齐自适应预训练方法预训练通用神经网络CHGNet,实现基于电荷的原子模拟NeurIPS 2023 | 跨模态提示:微调大型预训练模型适应音视频下游任务​NeurIPS 2023 | RayDF:实时渲染!基于射线的三维重建新方法我被蒙了。。。(多图)《岁月静好》&《风吹哪页读哪页》NeurIPS 2023 | AI Agents先行者CAMEL:首个基于大模型的多智能体框架NeurIPS 2023 | 全新机械手算法:辅助花式抓杯子,GTX 1650实现150fps推断ICCV 2023 | 复旦&微软提出ILA:基于可学习隐式对齐的时序建模方法ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成NeurIPS 2023 | 中科院&旷视提出DropPos:全新的自监督视觉预训练代理任务NeurIPS 2023 | SlotDiffusion: 基于Slot-Attention和扩散模型的全新生成模型2023 US Open 美国网球公开赛NeurIPS 2023 | InstructBLIP:指令微调训练通用视觉-语言模型微调都不要了?3个样本、1个提示搞定LLM对齐,提示工程师:全都回来了NeurIPS 2023 | Backbone之战:计算机视觉任务模型大比较
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。