NeurIPS 2023 | FD-Align：基于特征判别对齐的预训练模型小样本微调

公众号新闻

2023-10-27 05:10

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【计算机视觉和Transformer】交流群

作者：sanker（源：知乎，已授权）| 编辑：CVer

https://zhuanlan.zhihu.com/p/663423245

在CVer微信公众号后台回复：FD，可以下载本论文pdf、代码，学起来！

简单介绍一下我们被 NeurIPS 2023 录用的一个小样本预训练模型微调的工作

《FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained Models in Few-Shot Learning》

论文：arxiv.org/abs/2310.15105

代码：github.com/skingorz/FD-Align

背景

CLIP在各类视觉任务中表现得极其出色。将其应用到下游任务时，往往需要在下游数据上进行微调。但是在数据量不足的情况下，直接对CLIP进行微调很容易出现过拟合。并且会影响OOD数据上的泛化性。因此，先前的方法大多数尝试仅微调分类头或者引入额外的结构，但是这并没有充分挖掘CLIP的视觉编码器的潜力。所以我们探索如何尽可能的使用少量样本微调CLIP时不破坏其OOD性能。

动机

我们通过模型对虚假关联性的鲁棒性来解释全微调的CLIP的OOD性能变差的原因。虚假关联性的鲁棒性指的是模型是否具有区分出样本中和类别相关信息（因果信息）以及（背景、风格等）类别无关信息（虚假信息）的能力。先前的工作发现，CLIP对虚假关联性有很好的鲁棒性，因此有很好的OOD性能[1]。然而，全微调的CLIP的OOD性能会下降[2]。对CLIP和全微调后的CLIP的attention map可视化后发现：全微调的CLIP更关注于物体的局部特征，这种对局部信息的注意力使得模型对虚假关联性的鲁棒性变差[3]。也就是说，对CLIP进行全微调时，虽然模型更好得学习到了微调样本的因果特征，但是模型对虚假特征的识别能力也变差，导致模型学习到的因果特征不能很好的泛化到未见过样本。从而出现过拟合，影响OOD数据上的泛化性。因此，本文提出了一种不影响模型对虚假特征识别能力的微调方法来保证微调后的模型对虚假关联性的鲁棒性。

扫码加入CVer知识星球，可以最快学习到最新顶会顶刊上的论文idea和CV从入门到精通资料，以及最前沿项目和应用！发论文强推！

方法

虚假特征约束

在微调时保证虚假特征不变最直接的方式是将因果特征和虚假特征解耦出来，并保证虚假特征不变。然而，在图像中对特征解耦是一个极其困难的任务。相比之下，将虚假特征和因果特征从文本中解耦出来极其简单。例如：对于提示 "a photo of a dog"，dog是因果特征。"a photo of a"是虚假特征。借助于CLIP极强的视觉和文本对齐能力。我们可以将文本的虚假特征作为图像虚假信息的原型。

虚假原型修正

目前的提示模板大多是人工设计或者语言模型生成，难免会出现不合理或者冗余的情况，从而导致虚假信息原型不准确。为此，我们首先使用异常值检测算法来删除不合理的提示特征

实验结果

OOD性能

如下表所示，我们在ImageNet上对CLIP进行16 shot微调，并在ImageNet两个变种数据集上进行性能测试。相对于全微调，我们的OOD性能有全面的提升。另外，我们直接将微调得到的视觉编码器替换到Tip和APE中，可以看出，我们微调后得到的模型能够无需重新微调直接应用到现有的方法中提升OOD性能。

同样，我们也按照N-way K-shot的小样本学习形式来对CLIP在miniImageNet上微调，并且在各种不同的下游数据集上测试了性能。下图是微调后的模型在不同数据集上的性能变化。我们微调后的模型在大部分数据集上都能带来显著的OOD性能提升。

ID 性能

我们同样也在11个数据集上测试了我们方法的ID性能。我们的方法有着显著的性能提升，并且随着shot数增加提升更明显。

同样，我们将微调后的视觉编码器直接应用到现有的方法，下表是在ImageNet上的性能。可以看出，我们微调后的模型同样也能直接提升现有方法的ID性能。

虚假原型修正的必要性

如下表所示，我们分别比较了使用全部提示特征作为原型，Tip手动筛选后的提示特征作为原型，以及使用虚假原型修正（SPC）后原型的ID性能。如图所示，使用SPC修正后的原型相对使用全部提示能达到更高的性能。值得关注的是，使用Tip手动筛选后的提示特征作为原型的性能大幅下降。具体原因我们分析是其中保留的模板 "itap of a {class}" 在SPC中被作为异常值删除。所以SPC自动修正虚假特征原型能够避免人工筛选的不合理性。

在CVer微信公众号后台回复：FD，可以下载本论文pdf、代码，学起来！

参考文献

[1] Self-supervision on images and text reduces reliance on visual shortcut features.
[2] Fine-tuning can distort pretrained features and underperform out-of-distribution.
[3] Are vision transformers robust to spurious correlations?

点击进入—>【计算机视觉和Transformer】交流群

ICCV / CVPR 2023论文和代码下载

后台回复：CVPR2023，即可下载CVPR 2023论文和代码开源的论文合集

后台回复：ICCV2023，即可下载ICCV 2023论文和代码开源的论文合集

计算机视觉和Transformer交流群成立

扫描下方二维码，或者添加微信：CVer444，即可添加CVer小助手微信，便可申请加入CVer-计算机视觉或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。

一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer444，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章