Redian新闻
>
CVPR2023 | 微软提出高效率大规模图文检索模型

CVPR2023 | 微软提出高效率大规模图文检索模型

公众号新闻

来自:圆圆的算法笔记

进NLP群—>加入NLP交流群

  • 论文标题LexLIP: Lexicon-Bottlenecked Language-Image Pre-Training for Large-Scale Image-Text Retrieval

  • 下载地址https://arxiv.org/abs/2302.02908


根据一张图片检索相关文本,或者根据一段文本检索相关图片,在现在的工业界中越来越常用。随着既有CLIP等多模态对比学习模型的发展,图文匹配一般采用embedding+内积的方式进行。使用图像encoder和文本encoder生成图像和文本的embedding,然后计算二者相似度,再根据相似度进行排序。然而,这种方法在工业界大规模数据集上应用起来效率很低。微软在CVPR 2023发了一篇图文检索工作LexLIP,将图像和文本离散化成token并进行token之间跨模态的对齐,实现检索效率的大幅提升

这篇文章很大程度上是将NLP中的稀疏检索工作搬到了图文匹配场景,借鉴了很多稀疏检索中的工作。

1

Sparse检索和Dense检索

LexLIP检索方法和传统的基于embedding的检索方法差异如下图。传统的检索方法中,使用图像和文本的encoder分别对图像和文本编码成向量,然后计算cosine相似度进行匹配。而LexLIP的思路是,将图像和文本离散化成token以及每个token的权重,然后用精确匹配的方式进行检索。

Dense检索需要计算一个样本和所有候选的cosine相似度再进行KNN,检索时间随着样本数量的增加线性增加。而基于LexLIP的检索框架,可以在图像侧构建一个token倒排索引,在文本侧识别出token后,去索引表里查找命中的图像,最后只计算有重叠token的涂香香-文本对的打分。这样就不需要所有候选样本都计算cosine相似度了,大大降低了检索的时间复杂度。LexLIP检索框架的整体架构如下图所示。

2

LexLIP检索框架

LexLIP检索的底层模型是一个双流多模态模型,一侧为文本Encoder,另一侧为图像Encoder,两个Encoder都采用Transformer的形式,需要输图像或文本每个位置的预测字典中各个token的分布。最后需要在序列维度上做maxpooling,得到整个文本或图像各个词的重要度分布。以图像侧为例,先使用Transformer得到每个位置的预测token分布,维度为patch数量(m)*字典中token数量(V)。然后在序列维度进行maxpooling,得到图像整体的维度为V的token重要度分布。这个重要度用来建立倒排索引和与文本侧进行匹配度计算,公式如下:

想要实现LexLIP的检索架构,关键是能够将图像和文本离散化成token,并将两个模态的字典进行对齐。为了解决这个问题,本文使用了两阶段的图文预训练:第一阶段是Lexicon-Bottlenecked Pretraining,主要目标是学习输入图像或文本的离散化token表示;第二阶段是Momentum Lexicon-Contrastive Pretraining,主要目标是对齐图像和文本这两个模态的字典空间。

3

第一阶段预训练

第一阶段预训练主要包括4个任务:self-supervised masked language modeling、两个lexicon-bottlenecked masked language modelings、in-batch lexicon-contrastive learning。第一阶段预训练的整体结构图如下。

Self-supervised masked language modeling:基础的MLM任务,mask掉一部分token后对这部分token进行预测,主要是训练文本侧Encoder的基础能力。

Lexicon-bottlenecked masked language modelings:这部分是实现表征离散化成token的关键。采用bottlenecked的训练思路,在Encoder得到图像和文本侧的token重要度分布后(和第二节的计算逻辑类似),将这个新信息输入到一个很浅层的Transformer模型中,预测被mask掉的token,让模型关注图像和文本侧最重要的token。由于直接使用token重要度分布维度太高,会利用这个重要度和token embedding做加权融合,token embedding侧不进行梯度传播,得到一个维度为embedding维度的向量作为Decoder的输入,相当于基于这个重要度做了一个CBOW。

in-batch lexicon-contrastive learning:主要目的是对齐图像和文本的字典空间,利用batch内对比学习的思路,以图像和文本的离散化表示作为输入,计算对比学习loss。

4

第二阶段预训练

第二阶段预训练主要是进一步对齐图像和文本的字典空间。大规模负样本对于对比学习的表征学习效果至关重要,因此这里采用了MoCo的思路,使用两个队列分别缓存图像侧和文本侧已经计算好的样本,并且使用动量慢更新的两个Encoder进行表征更新,这里可以参考之前对MoCo方法的介绍。这部分的输入仍然是图像和文本的离散化字典表示,进行图文字典的对齐。

5

实验效果

在大规模召回任务的效果上,不仅对比了与CLIP、BM25的效果,还重点对比了存储开销和检索效率指标。LexLIP的检索效率是CLIP这种dense表征检索效率的5倍,检索效果也有明显提升。

下图是从图像和标题中离散化出来的token分布,token越大代表其从模型中产出的重要度越高。可以看出训练好的模型可以很好的进行图像和文本的离散化。




进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
中科大&微软提出SinDiffusion:从单个自然图像学习扩散模型CVPR2023|天大联合卡迪夫大学发布SemanticHuman:部件级、精细语义、灵活可控的3D人体编辑表征CVPR 2023 | 微软提出LDGM:利用解耦扩散模型统一版面生成CVPR 2023 | DisWOT:给老师找个好学生?KD和NAS的高效组合CVPR 2023 | 港中大&IDEA开源首个大规模全场景人体数据集Human-ArtCVPR 2023 | 一键去除视频闪烁,该研究提出了一个通用框架CVPR 2023 | 浙大提出全归一化流模型PyramidFlow:高分辨率缺陷异常定位新范式证件照转数字人只需几秒钟,微软实现首个3D扩散模型高质量生成效果,换装改形象一句话搞定 | CVPR 2023大脑视觉信号被Stable Diffusion复现图像!“人类的谋略和谎言不存在了” | CVPR2023微软提出自动化神经网络训练剪枝框架OTO,一站式获得高性能轻量化模型CVPR 2023 | 移动传感器引导的跨时节六自由度视觉定位,准确且高效GPT-3解数学题准确率升至92.5%!微软提出MathPrompter,无需微调即可打造「理科」语言模型CVPR 2023|哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏美国自驾游——宾州骑行 匹兹堡 PittsburgChatGPT自己会选模型了!浙大和微软提出:HuggingGPT2020年的春节,2022年的圣诞,老天还没放过人类CVPR 2023 | 超越MAE!谷歌提出MAGE:图像分类和生成达到SOTA!CVPR 2023 | 白翔团队提出:将CLIP模型用于场景文本检测CVPR 2023 | 正则化方法DropKey: 两行代码高效缓解视觉Transformer过拟合一个AI驱动百万个API!微软提出多任务处理模型TaskMatrix,机器人和物联网终于有救了今年 CV 热点这么多,不可错过 CVPR 2023 线下论文分享会CVPR 2023 | 一块隔热片即可实现红外场景下的物理攻击,北航提出针对红外行人检测器的漏洞挖掘技术K12全科目标注人员招聘!微软提出MathPrompter后,难道国内直接全搞了吗?CVPR 2023 Workshop | 首个大规模视频全景分割比赛石鲁简到极致的画CVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey本次新冠疫情在中国大爆发,人们为什么担心出现新的变种病毒?新泽西州雕塑公园(Grounds for scuplture),有故事的雕塑CVPR 2023 | EMA-VFI: 基于帧间注意力提取运动和外观信息的高效视频插帧CVPR 2023 | YOLOv7强势收录!时隔6年,YOLOv系列再登CVPR!CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent DiffusionICLR 2023 | 微软提出自动化模型训练剪枝框架OTO,一站式获得轻量级架构杭电小哥抢先搞定GPT读图功能,单卡就能实现新SOTA,代码已开源|CVPR2023
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。