Redian新闻
>
ICLR 2024 清华/新国大/澳门大学提出一模通吃的多粒度图文组合检索MUG:通过不确定性建模,两行代码完成部署

ICLR 2024 清华/新国大/澳门大学提出一模通吃的多粒度图文组合检索MUG:通过不确定性建模,两行代码完成部署

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【CV技术和求职】交流群

扫码加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,以及最前沿项目和应用!发论文搞科研,强烈推荐!

在本篇工作中,研究者探索了一种统一的学习方法,通过考虑多粒度的不确定性来同时对粗粒度和细粒度的图像检索进行建模。论文的方法集成了不确定性建模和不确定性正则化来提高召回率并增强检索过程,在三个公共数据集FashionIQ、Fashion200k 和 Shoes上,所提出的方法在baseline上分别提高了 +4.03%、+ 3.38% 和 + 2.40% Recall@50。

论文题目:
Composed Image Retrieval with Text Feedback via Multi-Grained Uncertainty Regularization
论文链接:
https://arxiv.org/abs/2211.07394
论文代码:
https://github.com/Monoxide-Chen/uncertainty_retrieval

一、背景

典型的检索过程包含两个步骤,即粗粒度检索和细粒度检索。粗粒度检索利用简短或不精确的描述查询图像,而细粒度检索则需要更多细节进行一对一映射。

之前工作有什么痛点?   

1. 传统的图像检索系统要求用户提前提供准确的查询图像,通常是不好获得;而添加文本反馈,用户则可以对查询图像进行的修改,来逐渐细化他们的搜索。

2. 现有的组合搜索方法通常侧重于在训练过程中优化严格的成对距离,这与一对多粗粒度测试设置不同。过多关注一对一度量学习会削弱模型对潜在候选图片的召回能力。

二、方法

1、总览  

在这篇论文中,研究者不追更精细的网络结构,而是采用一种新的学习策略。因此,主要遵循现有的工作CosMo[1]来构建网络以进行公平比较,更多的结构细节在论文中进行了提供。

给定源图像 和用于修改的文本 ,我们通过Compositor组合 得到了组合特征 。同时,我们通过与源图像相同的Image Encoder提取了目标图像 的视觉特征 。我们的主要贡献是通过Augmenter进行不确定性建模,以及对粗匹配进行的不确定性正则化。   

2、不确定性建模  

如上图所示,不再采用严格的一对一匹配,而是促使模型专注于一对多匹配,即从细粒度过渡到粗粒度。因此,首先引入了一个用于噪声增强的Augmenter来生成抖动,这个模块直接作用于最终的特征空间。具体而言,Augmenter向目标特征 添加原始特征分布的高斯噪声。高斯噪声的均值 和标准差 是从原始特征 计算得出的。因此,最终的抖动特征 可以表示为:

其中, 是与输入目标特征具有相同形状的噪声向量,,而 。通过这种方式可以使特征在有限程度上波动,接近于原始分布。

3、不确定性正则化  

现有的方法通常采用InfoNCE损失函数,可以看作是一种batch分类损失函数(batch-wise classification loss)。其简单表述如下:

对于一个具有 个样本的batch,给定图文合成特征 和目标特征 ,InfoNCE损失同时最大化自相似性 并最小化batch中与其他样本相似性 。可以看出,InfoNCE损失仅关注一对一的精细粒度匹配。在这项工作中旨在统一精细和粗粒度的匹配。由偶然不确定性(Aleatoric Uncertainty)[2]的启发,给定两种类型的特征 ,不确定性正则化可以定义如下:   

为了优化多粒度检索性能,采用了细粒度损失 和论文提出的不确定性正则化 的组合。因此,总损失如下:

三、实验  

1、实验设置  

论文在多个数据集上(FashionIQ、Fashion200k、Shoes)测试了方法的准确性,提升了召回率。代码已经公开在github上。

2、实验结果  

展示了一些论文结果,更多的实验结果和消融实验请参考论文。

在FashionIQ上的结果

在Fashion200k和Shoes上的结果    

四、总结  

总的来说,该论文通过多粒度不确定性正则化的角度提出了一种新颖的通过文本反馈进行组合图像检索的方法。该方法通过不确定性建模和正则化同时对粗粒度和精细粒度的检索进行建模,从而解决了现实世界图像检索中的训练和测试不一致性问题。该方法生成抖动特征以模拟不确定范围,并根据波动范围自适应地调整权重。与现有方法相比,所提出的方法在三个公共数据集上显著提高了召回率。论文还讨论了该方法在现实场景中的潜在应用以及其对集成数据集的可扩展性。总体而言,所提出的方法为通过文本反馈进行组合图像检索面临的挑战提供了有希望的解决方案。

[1] Lee et al. "CoSMo: Content-Style Modulation for Image Retrieval with Text Feedback". CVPR, 2021

[2] Kendall et al. "What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision?". NeurIPS, 2017

在CVer微信公众号后台回复:论文,即可下载论文pdf和代码链接!快学起来!

点击进入—>【CV技术和求职】交流群

计算机视觉技术交流群成立

扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-计算机视觉微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ICLR 2024 首个!Harvard FairSeg:第一个用于医学分割的公平性数据集全球代码质量骤降,罪魁祸首竟是AI!1.53亿行代码深度分析报告出炉ICLR 2024 放榜!接收率31%!清华LCM论文作者:讲个笑话,被拒了。。。一起“自杀”身亡的十六对夫妻【上海人在海外】在蒙特利尔我和我的赌徒老乡(中)ICLR 2024 | Adobe提出DMV3D:3D生成只需30秒!让文本、图像都动起来的新方法!ICLR 2024 | OCTAVIUS: 通过MoE缓解MLLM任务间的干扰AI正在使全球代码质量下降!1.53亿行代码深度分析报告出炉分析了1.5亿行代码发现:AI编程助手降低代码质量对话纪源Alpha:AI技术如何在不确定性中不断进步 | 亮马桥会客室从无限性成就确定性到有限性建立确定性——当下律师行业的转型与更迭裘国根:投资是一场与不确定性打交道的游戏,理性投资有三个层次沃衍资本成勇:在不确定的世界寻求确定性回报分析了 1.5 亿行代码发现:AI 编程助手降低代码质量谷歌推出创新SynCLR技术:借助AI生成的数据实现高效图像建模,开启自我训练新纪元!文革受难群体之一: 有宗教信仰的人三行代码无损加速40%,尤洋团队AI训练加速器入选ICLR Oral论文几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型:从质疑Scaling到成为ScalingStrong start 2024New Year's fireworks 2024 LIVE: NYC's Times Square ball drop用未来学应对不确定性,脱对对未知的焦虑Transformer变革3D建模,MeshGPT生成效果惊动专业建模师,网友:革命性idea深航发布最新国际及地区航班计划!厦门航空发布最新国际及地区航班计划!南航发布最新国际及地区新增航班计划NeurIPS 2023|北京大学提出类别级6D物体位姿估计新范式,取得新SOTAICLR 2024接收率31%,清华LCM论文作者:讲个笑话,被拒了张郎郎先生发表在“九十年代”杂志的文集Runner’s Tradition——2024 Opening老海龟陈梦家和赵萝甤ICLR 2024 | 根据压缩比率控制生成样本难度,NUS等提出首个无损数据集蒸馏方法深圳万科梅沙书院校长窦连辉:面对未来发展的不确定性,国际化教育培养必须兼顾眼前和远方ICLR 2024 | 微软提出全新LLM剪枝方法:参数减少25%,大幅提升计算效率视频场景图生成任务新SOTA!中山大学提出全新时空知识嵌入框架,登顶刊TIP'24【美坛综艺秀假日篇】Best wishes for 2024!ICLR 2024 | LLM Agent领域第一高分论文,全网Star数最高的多智能体框架2024 rav4 油车 le四驱检索增强的大型语言模型:EMNLP 2023 检索相关论文导览巧解「数据稀缺」问题!清华开源GPD:用扩散模型生成神经网络参数|ICLR 2024「云集」书影婆娑 - 读书会 第47期:《拥抱不确定性:生命中的持久主题》CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度Google开放域问答系统新突破!多粒度评估提升近20个点
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。