Redian新闻
>
ICLR 2023|UniVL-DR: 多模态稠密向量检索模型

ICLR 2023|UniVL-DR: 多模态稠密向量检索模型

公众号新闻

©作者 | 社媒派SMP

来源 | 社媒派SMP


论文标题:

Universal Vision-Language Dense Retrieval: Learning A Unified Representation Space for Multi-Modal Retrieval

论文作者:

刘正皓、熊辰炎、吕原汇一、刘知远、于戈

作者单位:

东北大学、微软研究院、清华大学

收录会议:

ICLR 2023 Main Conference

论文链接:

https://openreview.net/pdf?id=PQOlkgsBsik

代码链接:

https://github.com/OpenMatch/UniVL-DR




背景介绍
尽管当前主流搜索引擎主要面向文本数据,然而多媒体内容的增长一直是互联网上最显着趋势之一,各种研究表明用户更喜欢搜索结果中出现生动的多模态内容。因而,针对于多模态数据的信息获取需求在用户搜索过程中尤为重要。

▲ 图1. 不同多模态检索框架示意图

为了实现多模态检索过程,当前的多媒体搜索系统通常采用“分而治之”的方法。如图 1(a) 所示,这些方法首先在单个模态中进行搜索,包括文本、图像、视频等 ,然后将各个模态的检索结果融合在一起,例如,在这些单/交叉模态检索器之上构建另一个排序模块来进行模态融合。

显而易见,相关性建模(Relevance Modeling)和检索结果融合(Retrieval Result Fusion)二者的建模过程通常交织在一起,以实现更准确的多模态检索结果。然而,由于模态差距,这类模型只能以分而治之的方式进行流水线建模,这使得融合来自不同模态的检索结果具有挑战性。 

在本文中,我们提出端到端多模态检索模型,通过用户查询对多模态文档进行统一的检索。如图 1(b) 所示,通用多模态检索将查询和多模态文档映射到一个统一的嵌入空间,并通过最近邻搜索检索多模态候选结果。最终,本文将相关性建模(Relevance Modeling)、跨模态匹配(Cross-Modality Matching)和检索结果融合(Retrieval Result Fusion)进行统一的建模。





多模态检索任务介绍


▲ 图2. 不同检索任务示意图


单模态检索(Single Modality Retrieval)。如图 2(a)所示,单模态检索侧重于在一个模态空间内进行相关性检索,包括文本-文本检索和图像-图像检索。文本-文本检索旨在从文本集合中检索出与查询相关的文本文档;而图像-图像检索期望于从图像集合中检索出与给定查询图像匹配度较高的图像。 

跨模态检索(Cross Modality Retrieval)。如图 2(b)所示,该检索场景包含两个子任务:文本-图像检索,图像-文本检索。这两种任务要求检索模型在图像与图像对应的描述文字之间进行跨模态匹配,

例如,在图像-文本检索任务中,对于给定的图像,检索模型需要在给定的图像描述文本集合中检索出与之匹配的描述文本。这种跨模态检索场景中的任务更加侧重于文本与图像之间的跨模态语义信息匹配,不同于信息检索中的相似度搜索,这种跨模态匹配更加注重“浅层”的语义匹配,对于深层的文档理解能力要求不高。 

多模态检索(Multi-Modal Retrieval)。如图 2(c)所示,该检索场景旨在包含多模态文档的数据集合中检索相关文档。在多模态检索场景下,检索模型需要同时处理查询与不同模态文档之间的相似度计算,例如,对于给定的查询,检索模型需要在给定的文档集合中检索出相似文档。

不同于单模态检索和跨模态检索,多模态检索的目的是从多模态文档集合中检索、返回相关文档。根据用户的查询,检索结果可能由文本文档、图像文档或文本文档与图像文档的混合序列组成。多模态检索更加关注查询和文档之间的关联建模,且检索过程中涉及查询与文本文档的单模态匹配、查询与图像文档的跨模态匹配以及不同模态文档与查询的相似度之间的比较,这使得这项任务具有更大的挑战性。




UniVL-DR:基于统一表征空间的多模态稠密向量检索框架

▲ 图3. UniVL-DR模型结构图


在多模态信息检索场景下,本文提出了 Universal Vision-Language Dense Retrieval (UniVL-DR) 模型来建模多模态检索过程。如图 3 所示,对于给定用户查询和多模态文档,UniVL-DR 将用户查询、文本文档和图像文档编码在一个统一的向量表征空间中,并在该表征空间中进行用户查询与相关文档的相关性建模以及多模态文档向量表征建模。 

UniVL-DR 由两个编码器构成:文本编码器和图像编码器。查询、图像文档和文本文档均通过这两个编码器编码得到稠密向量表示。 

查询编码:如公式(1)所示,本文算法直接通过文本编码器对查询进行编码,得到查询的表征向量:



文本文档编码:如公式(2)所示,对于文本文档,本文算法将其经过文本编码器得到文本文档的稠密表征向量:


图像文档编码:与文本文档不同,图像文档可以通过图像特征和图像描述表示,并且图像的文本描述可以帮助模型更好地理解图像文档的语义。因此,如公式(3)所示,本文对图像和图像的文本描述进行编码,得到编码后的向量,再对这些向量进行求和得到第 i 个图像文档的稠密表征向量:


图像文档的稠密表征向量和文本文档的稠密表征向量使用相同的文本编码器进行编码,这种处理方式在文本空间中架起了两种模态文档间的桥梁,为多模态检索建立了一个统一的以语言为中心的稠密向量表征空间。在检索时,由公式(4)所示,本算法通过计算查询与候选文档的余弦相似度得分来评估查询与该文档之间的相似度:


在训练过程中,本文采用模态均衡化的难负例选取策略,有效地构建多模态文档表征空间并进行优化,避免了在多模态数据共同训练过程中对某一模态信息的过拟合。具体来说,由公式(5)所示,对于给定查询及候选文档,本文通过对不同模态的难负例进行采样并最小化对比学习损失来优化表征向量空间。这使得查询表征向量的空间分布更接近相关文档而远离不相关文档。
K1 和 K2 分别代表图像文档负例的数量和文本文档负例的数量,如果训练过程中,K1 与 K2 不相等,那么模型很可能学习到偏差较大的分布空间,例如,若 K1<k2,训练时,查询的表征分布将偏向于文本文档的表征域,以此来获得较低的损失值。这种情况会造成模型训练时对某个模态过拟合,从而导致检索中仅关注某一模态的文档,造成模态< span="">偏差的问题。
为了避免这种模态过拟合的问题,本文使用模态均衡化的难负例选择策略,即训练过程中始终保持 K1=K2=K,从而构建更加均衡、稳定的多模态表征空间。


为解决图像文档与文本文档在表征上的模态屏障,本文提出通过图像的语言化拓展来弥合不同模态文档间表征鸿沟的方法。

▲ 图4. 图像的语言拓展算法示意图

本文借鉴信息检索领域中的文档拓展技术对图像进行语言化拓展,增强图像的语义表示。如图(4)所示,首先对图像进行目标检测,得到图像的区域特征和检测出的区域文本标签集合。本文首先将由图像和目标检测得到的区域标签生成图像描述形式的语言化拓展,输入结构如公式(6)所示:


其次将由图像文档生成与图像对应的查询形式的语言化拓展,输入结构如公式(7)所示:


最后,如公式(8)所示本文将生成的图像语言化拓展与图像原始的文本描述拼接作为图像文档中文本部分的新表示。新的文本表示具有更强的语义信息,可以帮助图像文档更好地适配语言信息的表征空间。




实验结果

实验结果如表 2 所示。UniVL-DR 在性能评估上比所有基线模型提高了 7% 以上,显著的检索性能提升说明了本文算法在构建面向多模态文档的信息检索系统方面的有效性。相比较分而治之的策略,UniVL-DR 甚至超过了 BM25&CLIP-DPR(Oracle Modality)模型,该模型利用了数据集中标注的与用户问题相关的文档模态信息进行模态路由。证明统一化的多模态文档向量建模能够很好地建模多模态检索任务。

▲ 表2. 主实验结果

如表 3 所示,本文展示了模型的消融试验结果。在实验中我们发现针对于多模态检索任务,图像文档的标题信息相比较像素信息更加重要。同时,在图像文档标题信息的基础上加入图像像素信息能够进一步提升检索的效果。

▲ 表3. 消融实验结果

如图 5 所示,在用户问题中,往往会出现与图片所描述内容相关的实体,例如:明尼通卡杜鹃花(Minnetonka Rhododendron flower),然而,现有的图片编码器(例如:CLIP)往往缺少此类的背景知识,因而导致在多模态检索过程中图像文本的像素编码向量的作用不大。此原因导致了在多模态检索过程中图片像素的语义信息对检索精度的提升贡献不大的现象。

▲ 图5. 图片检索样例

进一步我们通过不同负例选取方式训练得到的多模态检索模型的向量空间可视化,如图 6 所示。我们的实验结果发现,通过模态平衡难负例训练的检索模型学习的向量空间更加的均匀。同时,通过对难负例的模态进行平衡可以很好地缓解检索模型对于模态的偏见问题。

 图6. 稠密向量可视化



总结
本文提出了 UniVL-DR,UniVL-DR 构建了统一的多模态向量表征空间,将单模态、跨模态匹配和检索结果融合建模在一起,实现端到端的多模态信息检索。具体来讲,本文的主要贡献有以下两点:1)通过模态均衡的难负例选取策略进行统一多模态表征空间的对比优化。2)利用图像语言化方法弥合了原始数据空间中图像和文本之间的模态差距。实验表明,UniVL-DR 可以通过图像语言化技术弥合模态差距,并通过模态均衡的难负例选取策略避免过度拟合某一种模态的训练监督信号。

更多阅读





#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·
·



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
多模态大模型迸发,创业机会和挑战在哪?丨GAIR 2023ACL 2023|大模型时代,自然语言领域还有什么学术增长点?BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」ACL2023 | 面向信息检索的结构感知语言模型训练方法给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源ACL 2023 |信息减加法:基于特征去噪和主题增强的多模态关系抽取腾讯AI Lab发布多模态指令调优语言模型,支持图像、视频等四种不同模态ICML 2023|CMU大牛全面总结「多模态机器学习」六大挑战:36页长文+120页PPT,全干货!美国的路怒更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」【𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶无痕内裤】49元三条!巨巨巨好穿 !!简直就是辣妹顶配,食品级冰箱收纳盒【一日团】CVPR 2023|无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA俄乌战况11ICLR 2023|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架并非所有向量数据库都生来平等 - 找到属于你的向量数据库我在养花的路上,越走越执着从感知到理解-融合语言模型的多模态大模型研究《心向阳光》&《光明》LVS2023 | 从 AIGC 到多模态媒体大模型从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统2023 樱花之约(四)琵琶湖和夜樱多模态大语言模型综述来啦!一文带你理清多模态关键技术ACL 2023 | 面向信息检索的结构感知语言模型训练方法智源Emu开源!超越DeepMind,刷新8项SOTA,首个「多模态-to-多模态」全能高手上海内推 | 小红书多模态算法组招聘多模态CV/NLP算法实习生MGM、MolGPT、PAR、Uni-Mol、K-Bert、MolCLR…你都掌握了吗?一文总结生物制药必备经典模型(三)破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型中科大&字节提出UniDoc:统一的面向文字场景的多模态大模型中日美将俄的爱恨情仇ICCV 2023 | 通向3D感知大模型的必由之路!UniTR:统一多模态Transformer Encoder!ChatGPT 都推荐的向量数据库,不仅仅是向量索引想不想我以阿里云OpenSearch为例谈向量检索技术选型重磅课程再次升级,一次性搞定大模型多模态AIGC与强化学习 --《2023秋季AIGC大模型与强化学习前沿技术实战》 招生简章𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶内衣裤,软弹有度,上身0束缚~Tour de l’ile de Montréal 2023实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了DreamLLM:多功能多模态大型语言模型,你的DreamLLM~回望广武看北京(赵逍关于《广武门 北京城》的创作谈)俄乌战况14
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。