Redian新闻
>
​ICCV 2023 | APE:对CLIP进行特征提纯能够提升Few-shot性能

​ICCV 2023 | APE:对CLIP进行特征提纯能够提升Few-shot性能

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉】微信交流群

本文介绍我们在ICCV 2023上接收的论文《Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement》。这篇文章基于CLIP提出了一种特征提纯的方法为下游任务选择合适的特征,以此来提高下游任务的性能并同时提高计算效率。

论文: https://arxiv.org/pdf/2304.01195

代码: https://github.com/yangyangyang127/APE

相比于其他方法,我们能够在性能和计算量上实现较好的均衡,如下图所示。

1. 概述

问题:大规模预训练的视觉-文本模型,如CLIP,BLIP等,能够在多种数据分布下表现出良好的性能,并已经有很多的工作通过few-shot的方式将它们应用于下游任务。但这些方法或者性能提升有限(如CoOp, CLIP-Adapter等),或者需要训练大量的参数(如Tip-Adapter等)。因此我们会问,能否同时实现高few-shot性能且少参数量呢?

出发点和思路:CLIP是一个通用的模型,考虑到下游数据分布的差异,对某个下游任务来说,CLIP提取的特征并不全是有用的,可能包含一部分冗余或噪声。因此,在这篇文章中,我们首先提出一种特征提纯的方法,为每个数据集提纯个性化的特征通道,从而减少了参数量,且提升了计算效率;然后设计了一种参数高效的few-shot框架,提升了CLIP在不同数据集上的few-shot性能,下图是论文的整体流程图。

2. 方法

这一部分中,我们分别介绍特征提纯模块和新提出的few-shot框架。

2.1 特征提纯

CLIP是一个通用的模型,在下游任务上,考虑到数据分布,CLIP提取的特征可能并不全是有用的,因此我们试图为每个下游数据集提纯个性化的特征。我们通过最大化类间差异,或者说最小化类间相似度,来选择合适的特征。对于一个类的下游任务,我们计算所有类的所有样本表征之间平均相似度

其中,代表类的序号,代表两个类的先验概率,代表两个类中的样本数量,是相似度函数,代表表征。假设代表特征通道是否被选中,代表特征维度,代表预先限制个特征被选中,则通过求解使得最小我们可以得到需要的特征,即求解以下优化问题:

其中代表逐元素相乘。最后,经过特征提纯,我们在ImageNet上统计了图像和文本相似度的变化,如下图所示。相比于没有特征提纯,我们选定的特征减小了类间相似度,同时增大了图像和文本的匹配程度。且我们提纯出的特征能够获得更好的similarity map。

  

2.2 三边关系的few-shot框架

CLIP等视觉文本模型一般基于测试图像和文本表征的相似度或距离来完成分类任。但除此之外,我们还可以使用测试图像和训练图像的相似度来校正,并使用训练图像和文本的相似度来为困难样本提供额外的信息。基于这种考虑,我们探究了测试图像、文本描述和训练图像之间的三边嵌入关系。

假设代表测试图像特征,分别代表训练图像和文本描述的特征,代表训练图像的label,则我们可以建立三边关系,

其中,代表一般的CLIP基于视觉文本相似度的预测,代表模态间的相似度,即测试图像和训练图像之间的相似度,反映了训练图像对测试图像的贡献。基于以上三种关系,可以得到最终的预测为

    我们可以将特征提纯与三边关系结合起来,直接在选择出来的特征上进行三种关系的few-shot学习,这样可以减少参数和计算效率。我们提出了training-free和training-required两种框架,如下图,后者相比于前者增加了少量可训练的残差。

3. 结果

我们在11个分类数据集上研究了方法的性能,并提出了training-free和training-required两个版本,下图是11个数据集上的平均性能以及和其他方法的比较。

与其他方法相比,我们的计算效率和参数量都有所优化。

提纯的特征通道的数量对结果也有所影响:

感谢您的阅读,更多的实现细节和比较请看我们的文章,我们的代码已开源。感谢您提出宝贵意见。

点击进入—>【计算机视觉】微信交流群


ICCV / CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
人为什么会衰老 (2023AMD将提升FPGA和AI芯片产量ICCV 2023 | HoP:即插即用,重塑3D检测时序利用新范式任何美好的期待,都可能落空CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型ICCV 2023 | 即插即用!上海交大提出AccFlow:跨帧光流估计框架上海-北京!国产大飞机C919本周日商业首航,东航:对C919非常有信心从Ruby到Node:重写Shopify CLI,提升开发体验ICCV 2023 | 更快更强!北理工&旷视提出StreamPETR:纯视觉感知与激光雷达终有一战之力!一句话搞定3D模型纹理贴图,全程只需30秒,港大港中大TCL出品 | ICCV'23 OralICCV 2023 | 南开大学提出LSKNet:遥感旋转目标检测新SOTA炸裂!最新CVPR2023、ICML2023、AAAI2023、ACL2023论文+Code大合集!电商王者!DBC职梦SMU一年硕学员收获Shopee(SG) Internship OfferCVPR 2023 Workshop | 华为自研IPT-V2斩获NTIRE挑战赛图像去噪Track冠军wow! Tom Hanks Presidential Harvard Speech Motivational InspiratOpenAI对ChatGPT进行更新;百川智能正式推出70亿参数开源中英文大模型|AIGC周观察第六期ICCV 2023 | 清华&天津大学提出SurroundOcc:自动驾驶的环视三维占据栅格预测SHOPLINE:2023服饰品类店铺装修手册白皮书你好,我是筚(bì)篥( lì)!ICCV 2023 | 比分割一切SAM更早实现交互式开集分割!港科大提出OpenSeeD:开放词表图像分割和检测单GPU实现99%ChatGPT性能,「原驼」火了:手机也能微调大模型ICCV 2023 | 上交提出CCD:基于自监督字符到字符蒸馏的文本识别负责任地说-退休, 我悔过【视频】爬梯硬菜猪肘子,简单且让你垂涎欲滴CVPR 2023 | 谷歌教你用"注意力"提升产品体验俄乌战况24尼日利亚的绑架犯罪今天买到TLinux Shell 介绍:Bash、Zsh 和 Fish | Linux 中国11个LLM一起上,性能爆炸提升!AI2联合USC开源LLM-Blender集成学习框架:先排序再融合|ACL 2023阳狮MetaDesign茅毅辉&安赛莉:对ChatGPT的讨论太夸张,广告不会死 | 营销人说ICCV 2023 | PointCLIP V2:结合CLIP和GPT的3D开放世界分类、分割网络ICCV 2023 | 混合训练策略突破目标检测大模型上限,创下COCO、LVIS新SOTAICCV 2023 | 只需过一次CLIP!美团&港大提出高效的开放字典语义分割框架DeOPTour de l’ile de Montréal 2023ICCV 2023 | 北大提出MotionBERT:人体运动表征学习的统一视角社区服务是申请美国名校的必备条件吗?ICCV 2023 | 图像重缩放新方法:无需对模型重新训练即可提高性能"科技+央企","中特估"高科技版本来了!"入围"的公司有这些特征…实习有Offer | UCL学员斩获精品投行Jefferies2023暑期实习Offer
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。