Redian新闻
>
​EACL 2023 | 图像文本检索:自适应特征聚合与训练目标

​EACL 2023 | 图像文本检索:自适应特征聚合与训练目标

科技

©PaperWeekly 原创 · 作者 | 张梓键
单位 | 同济大学
研究方向 | 自然语言处理

图文匹配(Image-Text Matching)是指通过模型学习图像和文字的特征表征方式,计算得出图片和文字的语义相关性。其中最重要的方法是视觉语义嵌入(Visual-Semantic Embedding, VSE),旨在学习相关视觉和语义实例彼此接近的嵌入空间。

此项技术应用在信息化生活的方方面面,如百度 [1] 推出的图片搜索功能,为跨模态信息检索提供便利;小红书 [2] 中应用此技术优化封面图像,使得笔记的吸引力大大增加;大众点评 [3] 中保证图文的高相关性,帮助消费者遴选高优质信息等等。这些无不为我们的生活带来了诸多便利,因此,本文旨在研究图文匹配中自适应的特征聚合、训练目标方法,从而进一步提升实际应用效果。

视觉语义嵌入(VSE)方法以其高效的检索速度、精准的跨模态检索能力而著称,通常训练过程具有以下步骤:

特征抽取:图像和文本特征首先由各自独立的视觉和文本编码器提取;

特征映射:将特征投影到联合嵌入空间中,使其具备语义可比性;
相似性计算:计算相似性值以度量图像和文本嵌入间的语义关联程度;
优化目标:为优化过程选择合适的训练目标以拟合模型使其具备强大的能力;

其中,特征抽取相似性计算的方式较为固定。前者强依赖于计算机视觉(Computer Vision, CV)和自然语言处理(Natural Language Processing, NLP)领域的进步与发展,而后者则通常采用余弦距离(Cosine Similarity)度量语义相似程度。因此,为了提升 VSE 模型的效果,本文将改进的重点放在了提升特征映射以及优化目标上,为方便后续研究者使用,本文代码已公开。

本文在 VSE 框架的基础上,提出了两个优化方法,自适应特征聚合方法(Adaptive Pooling)和自适应优化目标(Adaptive Objective),因为其自适应性,所以可以“即插即用”的迁移到相似的框架中帮助模型得到的更好的表现能力。


论文标题:
Improving Visual-Semantic Embedding with Adaptive Pooling and Optimization Objective

论文链接:

https://arxiv.org/abs/2210.02206

代码链接:

https://github.com/96-Zachary/vse_2ad




模型

1.1 自适应特征聚合

自适应特征聚合,顾名思义是将特征矩阵抽象成特征向量。常用的方法是池化操作(Pooling),然而一般的池化方法(Mean/Max/K-Max)无法同时适配视觉特征和文本特征,而找到最优的特征组合往往需要大量的时间,且在不同数据分布下这种组合往往是不同的。基于此问题,本文提出了一种自适应的 Pooling 策略,从 token-level 和 Embedding-level 两个维度分别计算,并最终融合在一起。

Token-level Pooling:首先,无论是 Mean—Pooling、Max—Pooling 还是 KMax—Pooling,都可以认为是一种先将值按照特征维度进行排序,随后分配静态的权重来抽取特征向量。以 Max-Pooling 为例,他的权重中最大值对应了 1,其余均为 0。

本文也延续此“排序-权重分配”的策略进行自适应特征聚合,其中将权重的确定过程交给模型自动化学习,使用一层全连接网络。实验发现,仅考虑 Token-level Pooling 得到的权重与 Mean—Pooling/KMax—Pooling 分布很相似,因此,从更多元化和普适的角度出发需要考虑更多维的设计;

Embedding-Level Pooling:按照输入粒度进行 Softmax 的 weight-sum,使得特征矩阵中更加显著的特征值被赋予更多的权重,此过程不涉及参数学习过程;

融合:使用 Balance 模块将上述两个维度的学习结果进行融合,同时使用正则保证图像和文本的抽象特征能映射到相似空间。

1.2 自适应优化目标

自适应优化目标,顾名思义是为模型在不同的训练阶段找到最合适的优化目标。首先我们需要一套评判模型阶段性能力的标准,其次我们需要根据不同的阶段为模型设计不同的优化目标。

表征学习中常常使用 Aligment 和 Uniformity 来评判模型能力,其中,Aligment 用来判断相似样本间的聚合程度,Uniformity 则用来反映不同样本映射到表征空间的分散程度(理想情况下不同样本表征应尽量分散,从而体现其差异化)。通过此两标准,我们可以设计一个范围为 [0,1] 的比率值,其中,值为 1 时模型效果最差,越接近 0 表示模型效果越好。

VSE 模型常构造三元训练目标,原点(anchor)、与之对应的正样本(positive)以及与之对应的负样本(negative)。基于度量模型得到的比率值,我们为模型不同训练阶段选择不同数量的负样本,当模型训练伊始、表现较差时,为模型选择更多的负样本可以帮助模型拟合,快速提升区分样本差异的能力;当模型训练逐渐熟练、表现较好时,为模型选择最难的一个或几个负样本(Hard Negative Samples)则能帮助模型区分细致化差异,提升模型能力。

本文最终的损失函数选择 InfoNCE,因为其具备抽象多个正负样本的能力。由此,模型能在训练的不同阶段选择不同的负样本数(由于按照与 anchor 的相似性降序,难分辨的样本更容易被选到),从而能自适应的选择优化目标,帮助模型习得更好的表征能力。



实验结果

本文在两个公开数据集上进行实验来验证模型的准确性和速度,分别是 MS-COCO 和 Flickr30K(最常用的图文检索数据集)。

实验中,我们对不同的图文编码器进行组合以验证本文所提方法的鲁棒性,前文有提到过 VSE 模型的效果依赖于 CV 和 NLP 领域的发展。文本/图像编码器组合分别是:BiGRU/Faster-RCNN、BiGRU/Vit、BERT/Faster-RCNN、BERT/Vit。评测指标选择 Recall@K,其中 K=1,5,10 以及对以上指标的加和形式的 RSUM。

通过实验结果可以发现,无论在何种图文编码器组合下,VSE 框架下使用本文提出的两个自适应模块后都能进一步提升模型效果,且集成模型的效果能有更进一步的提升。
同时,我们还通过消融实验验证了本文所设计的每个模块(包括两个 level 的自适应特征聚合方法和自适应优化目标)对模型取得更好的效果均有益处。而且,通过对比当前主流的池化方法验证了本文所提自适应特征聚合能够保质高效的表征图文特征。

本文的最后还展示了一些模型图文检索的结果,可以看到即使误检索结果也具备了一定的合理性。左下角中给定的图片及对应的 Top-4 检索句子,从人的角度很难认为是模型错误,这更像是验证集中的一个误标结果。




总结

本文在当前图文表征的 VSE 框架下,改进并提出了自适应特征聚合方法和自适应优化目标。与之前的方法不同,本文所提的两个自适应模块可以即插即用应用到其他相似框架下,且均由模型在训练过程中自动化进行,无需冗杂的调参便可提升模型表现。

本文分别在两个公开数据集(MS-COCO 和 Flickr30K)上验证了效果,并公开了源代码方便后续研究者使用。

参考资料

[1] https://www.baidu.com/
[2] https://www.xiaohongshu.com/
[3] https://www.dianping.com/


关于作者


张梓键

毕业于同济大学。主要研究自然语言处理及其在检索中的应用、跨模态检索等等。


舒畅

毕业于英国布里斯托大学。主要研究自然语言处理、机器视觉、社交媒体网络及多模态检索等等。


陈又新

毕业于清华大学。主要研究自然语言处理、文字识别及多模态检索等等。


刘杰汉

毕业于墨尔本大学。主要研究自然语言处理、社交媒体网络等等。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
DALL-E和Flamingo能相互理解吗?三个预训练SOTA神经网络统一图像和文本国际要闻简报,轻松了解天下事(03ICLR 2023 | UniKGQA: PLM+KG新架构,同时适配检索和推理!微软赢麻了!数十亿文本-图像对训练,多模态Florence开启免费体验,登上Azure“国王”今天到我家讲座|数字图像文件的备份策略和数据恢复AAAI 2023 Oral | 图像质量堪忧干扰视觉识别!达摩院提出RTS:鲁棒性特征建模框架国际社会呼吁中国公布新冠数据华为FreeBuds 5 耳机实物曝光:水滴造型,支持自适应环境降噪Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍CVPR 2023 | 白翔团队提出:将CLIP模型用于场景文本检测Is the US actually losing its trade war against China?太绝了!文献检索如何又快又准,师姐靠这个隐藏技巧5分钟get目标文献……乡子·登京口北固亭有怀NIPS 2022 | 文本图片编辑新范式:单个模型实现多文本引导图像编辑2023 春 祝姐妹们周末快乐!​ICLR 2023 | GReTo:以同异配关系重新审视动态时空图聚合冒充人类作者,ChatGPT等滥用引担忧,一文综述AI生成文本检测方法《降临》作者特德·姜:ChatGPT是网上所有文本的模糊图像中国人民大学经济学院党委书记、院长刘守英:​发挥数据在生产要素组合与升级中的基要作用"𝙇𝙚𝙖𝙙 𝙏𝙝𝙚 𝘾𝙝𝙖𝙧𝙜𝙚"广告#创译挑战7 Papers | AAAI 2023杰出论文奖;AI生成文本检测方法综述中文多模态模型问世!IDPChat生成图像文字,只需5步+单GPUGPT-4论文竟有隐藏线索:GPT-5或完成训练、OpenAI两年内接近AGIEruope 20232022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一ICLR 2023 | 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究WWW 2023 | 如何设置温度系数?用于推荐的自适应调节表征模长的方法美国宾州首府哈里斯堡(Harrisburg),游览市政大厦人社部等六部门《工作场所女职工特殊劳动保护制度(参考文本)》《消除工作场所性骚扰制度(参考文本)》北斗+5G融合与泛在位置服务​ECCV 2022 | 夜间图像增强: 当层分解遇到光效应抑制网络【2023投资风向标】对话启明创投:医疗创新由点向面推进,重点关注跨界融合与效率提升转:2023 回国探亲(5)7 Papers & Radios | 推理速度比Stable Diffusion快2倍;视觉Transformer统一图像文本AAAI 2023 Oral | 回归元学习,基于变分特征聚合的少样本目标检测实现新SOTA​TOIS 2022 | 面向用户和商品双侧流行性偏差的自适应公平推荐方法港中文深圳推出检索新范式:模块化检索,可解释性及泛化性更强第四范式开源强化学习研究通用框架,支持单智能体、多智能体训练,还可训练自然语言任务!训练速度提升17%软硬结合与自我迭代,英伟达如何助力AI医疗进化?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。