ICLR 2023|UniVL-DR: 多模态稠密向量检索模型
©作者 | 社媒派SMP
来源 | 社媒派SMP
论文标题:
Universal Vision-Language Dense Retrieval: Learning A Unified Representation Space for Multi-Modal Retrieval
刘正皓、熊辰炎、吕原汇一、刘知远、于戈
东北大学、微软研究院、清华大学
ICLR 2023 Main Conference
https://openreview.net/pdf?id=PQOlkgsBsik
https://github.com/OpenMatch/UniVL-DR
为了实现多模态检索过程,当前的多媒体搜索系统通常采用“分而治之”的方法。如图 1(a) 所示,这些方法首先在单个模态中进行搜索,包括文本、图像、视频等 ,然后将各个模态的检索结果融合在一起,例如,在这些单/交叉模态检索器之上构建另一个排序模块来进行模态融合。
显而易见,相关性建模(Relevance Modeling)和检索结果融合(Retrieval Result Fusion)二者的建模过程通常交织在一起,以实现更准确的多模态检索结果。然而,由于模态差距,这类模型只能以分而治之的方式进行流水线建模,这使得融合来自不同模态的检索结果具有挑战性。
多模态检索任务介绍
▲ 图2. 不同检索任务示意图
单模态检索(Single Modality Retrieval)。如图 2(a)所示,单模态检索侧重于在一个模态空间内进行相关性检索,包括文本-文本检索和图像-图像检索。文本-文本检索旨在从文本集合中检索出与查询相关的文本文档;而图像-图像检索期望于从图像集合中检索出与给定查询图像匹配度较高的图像。
跨模态检索(Cross Modality Retrieval)。如图 2(b)所示,该检索场景包含两个子任务:文本-图像检索,图像-文本检索。这两种任务要求检索模型在图像与图像对应的描述文字之间进行跨模态匹配,
例如,在图像-文本检索任务中,对于给定的图像,检索模型需要在给定的图像描述文本集合中检索出与之匹配的描述文本。这种跨模态检索场景中的任务更加侧重于文本与图像之间的跨模态语义信息匹配,不同于信息检索中的相似度搜索,这种跨模态匹配更加注重“浅层”的语义匹配,对于深层的文档理解能力要求不高。
多模态检索(Multi-Modal Retrieval)。如图 2(c)所示,该检索场景旨在包含多模态文档的数据集合中检索相关文档。在多模态检索场景下,检索模型需要同时处理查询与不同模态文档之间的相似度计算,例如,对于给定的查询,检索模型需要在给定的文档集合中检索出相似文档。
▲ 图3. UniVL-DR模型结构图
在多模态信息检索场景下,本文提出了 Universal Vision-Language Dense Retrieval (UniVL-DR) 模型来建模多模态检索过程。如图 3 所示,对于给定用户查询和多模态文档,UniVL-DR 将用户查询、文本文档和图像文档编码在一个统一的向量表征空间中,并在该表征空间中进行用户查询与相关文档的相关性建模以及多模态文档向量表征建模。
UniVL-DR 由两个编码器构成:文本编码器和图像编码器。查询、图像文档和文本文档均通过这两个编码器编码得到稠密向量表示。
为解决图像文档与文本文档在表征上的模态屏障,本文提出通过图像的语言化拓展来弥合不同模态文档间表征鸿沟的方法。
▲ 图4. 图像的语言拓展算法示意图
实验结果如表 2 所示。UniVL-DR 在性能评估上比所有基线模型提高了 7% 以上,显著的检索性能提升说明了本文算法在构建面向多模态文档的信息检索系统方面的有效性。相比较分而治之的策略,UniVL-DR 甚至超过了 BM25&CLIP-DPR(Oracle Modality)模型,该模型利用了数据集中标注的与用户问题相关的文档模态信息进行模态路由。证明统一化的多模态文档向量建模能够很好地建模多模态检索任务。
▲ 表2. 主实验结果
▲ 表3. 消融实验结果
▲ 图5. 图片检索样例
进一步我们通过不同负例选取方式训练得到的多模态检索模型的向量空间可视化,如图 6 所示。我们的实验结果发现,通过模态平衡难负例训练的检索模型学习的向量空间更加的均匀。同时,通过对难负例的模态进行平衡可以很好地缓解检索模型对于模态的偏见问题。
▲ 图6. 稠密向量可视化
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者