Redian新闻
>
ACM MM 2022 | 首个针对跨语言跨模态检索的噪声鲁棒研究工作

ACM MM 2022 | 首个针对跨语言跨模态检索的噪声鲁棒研究工作

公众号新闻


©作者 | 李加贝

研究方向 | 多模态学习



论文标题:

Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning

文章链接:

https://arxiv.org/pdf/2208.12526.pdf

代码链接:

https://github.com/LiJiaBei-7/nrccr


虽然目前传统的跨模态检索工作已取得了巨大的进展,但由于缺少低资源语言的标注数据,这些工作通常关注于高资源语言(比如英语),因此极大地限制了低资源语言在该领域的发展。为了解决这一问题,作者针对跨语言跨模态检索任务(CCR)展开了研究,该任务旨在仅使用人工标注的视觉-源语言(如英语)语料库对模型进行训练,使其可以适用于其他目标语言(非英语)进行评估【如下图所示】。

▲ 传统跨模态检索&跨语言跨模态检索(CCR)

在这篇论文中,作者旨在借助机器翻译来生成伪视觉-目标语言对进行跨语言迁移,来缓解人工标注多语言视觉-语言语料库困难的问题。虽然机器翻译可以快速的处理大量的文本语言转换,但是其准确性并不能得到保证,因此在翻译过程中将会引入大量的噪声,导致翻译的目标语言句子并不能准确的描述其对应的视觉内容【如下图所示】。

▲ 翻译错误的示例图

然而之前的基于机器翻译的 CCR 工作大多忽略了这个问题,它们通常使用大规模的预训练模型在通过机器翻译得到的大规模多语言视觉-语言语料库上进行大规模预训练,并且只关注于视觉-目标语言数据对之间的对齐。然而直接在这种噪声数据对上应用跨模态匹配将会严重影响检索性能,神经网络模型有很强的能力来拟合这种给定的(噪声)数据。为了解决这个问题,作者提出了一个噪声鲁棒学习方法来缓解机器翻译中所引入的噪声问题,该论文是首个关注于 CCR 任务中由机器翻译所引入噪声问题的工作。



方法


▲ 模型框架图


作者首先引入了其基线模型,继而引入噪声鲁棒学习方法。


1.1 基线模型(Basic Model)


视觉编码器:给定一个视频,使用预训练的 2D CNN 来提取视频特征序列,然后输入到 Transformer 块中,来增强帧间交互,最终得到一个视频特征向量。


文本编码器:作者设计了一个双分支编码器,分别又一个源语言分支和一个目标语言分支组成。每个语言分支都包含一个 Transformer block 和一个预训练的 mBERT backbone,将源语言和目标语言分别输入到对应的分支中,得到对应的源语言句子特征和目标语言句子特征。


将以上三个特征分别映射到多语言多模态空间中:


作者使用了传统的跨模态检索任务中常用的 triplet ranking loss 进行约束:


1.2 噪声鲁棒的特征学习(Noise-Robust Representation Learning)


基线模型只是简单的进行了跨语言跨模态对齐,并没有对噪声进行处理,接下来作者提出了多视图自蒸馏来生成 soft pseudo-tagets 以监督目标语言分支的学习。

作者首先借助于 cross-attention 来生成一个相对干净的中间目标语言句子特征,通过将源语言 token 序列作为 query,利用 cross-attenion 固有的性质,对目标语言 token 序列进行过滤。

▲ cross-attention 权重示例图

如图 3 所示,错误的单词(用红色标记)和源语言单词之间的注意权重被分配了低值。其过程表示如下:


1.3 多视角自蒸馏(Multi-view self-distillation)


作者引入了基于相似度视角和基于特征视角的自蒸馏损失。

基于相似度视角的自蒸馏(Similarity-based view):

给定(V, S, T),默认其两两之间互为匹配对,忽视翻译得到的目标语言句子 T 中所包含噪声的事实。对此,作者将 cross-attention 所生成的特征 作为 teacher,使用特征 和视觉特征计算 计算得到 soft pseudo-targets 作为目标语言分支的监督。


▲ soft pseudo-targets示例图



基于特征视角的自蒸馏(Feature-based view):

通过 l1 范式实现特征蒸馏:


1.4 循环语义一致性(Cycle Semantic Consistency)


受无监督机器翻译的启发,作者引入了循环语义一致性模块,提高源语言分支从噪声中提高原始语义信息的能力,增加源语言分支的鲁棒性。


1.5 语言无关特征学习(Language-agnostic Representation Learning):


考虑到特定语言特征缺少跨语言迁移能力,作者通过对抗学习的方式来训练模型学习语言无关特征。构建一个分类器 F 作为判别器来分辨输入特征是源语言还是目标语言,判别器和特征编码器相互博弈:


1.6 训练和测试


最终的目标函数为:


测试时作者采用了目标语言和翻译的源语言(由于测试时只使用目标语言)加权和的方式:




实验


作者在三个跨语言跨模态数据集上进行了实验对比,其中为两个多语言视频文本检索数据集(VATEX 和 MSRVTT-CN),一个多语言图像文本检索(Multi30K);其中 MSRVTT-CN 是作者对 MSRVTT 进行中文扩展得到的多语言数据集。

▲ 在VATEX数据集上进行SOTA对比实验

▲ MSRVTT-CN上性能对比

▲ Multi30K上进行性能对比实验


2.1 鲁棒分析实验


为了进一步证明模型对抗翻译噪声的鲁棒能力,作者通过增加翻译次数以进一步增加训练数据的噪声程度,如图所示,在经过多次翻译后,基线模型的性能明显下降,而本文所提出的模型性能更加的稳定,验证了噪声鲁棒特征学习的有效性。


将目标语言句子根据句子长度进行分组,作者假设越长的句子,翻译越困难,因此包含的噪声可能更多。结果表明,本文所提出的模型和基线模型的性能差距随着句子长度的增加而增加。


2.2 t-SNE可视化实验


作者随机从 VATEX 的中文测试集中随机选择 20 个样本,其中每个样本包含 10 个对应的英语翻译句子和一个对应的视频。如图所示,NRCCR 的类内特征更加的紧凑,表明了模型更好的学习到了跨语言跨模态对齐。


2.3 消融实验


结果表明,使用两个视角,性能得到了提升,表明基于相似度视角和基于特征视角彼此互补。引入循环语义一致性后,实现了额外的性能收益。此外,还表明了语言无关特征学习的重要性。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·
·




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
上海财经大学校长刘元春:中国40万博士生像乞丐一样在研究工作,月收入仅3000元防控“新十条”来了!无症轻症可居家隔离,不再对跨地区流动人员查验健康码WSDM 2023 | 针对长文档场景下的跨语言摘要意大利和丹麦的零散片「多模态处理技术」最新2022研究进展综述COLING'22 Best Paper | 苏大提出:又快又准的端到端跨语义角色标注作为基于词的图解析双一流校长控诉:我国40万博士生像乞丐一样在研究工作....大幅超越DALL·E 2和Imagen,斯坦福发布RA-CM3模型,融合检索与生成【基金研究】基金市场周度观察20221024-20221028上海数字大脑研究院发布国内首个多模态决策大模型DB1,可实现超复杂问题快速决策乌俄战争似将有大突破这款破壁机噪声小,还能一键除菌洗、烘干|种草机ECCV 2022 | 多教师对抗鲁棒性蒸馏方法ACM MM 2022 Oral | PRVR: 新的文本到视频跨模态检索子任务NeurIPS 2022 | 视觉感知质量攻击:NR-IQA模型鲁棒性的试金石身材超“大”只的撸铁辣妹,emmmm….实名羡慕了!北京智源人工智能研究院招聘:算法研究员、算法研究工程师等丹麦现代场地走了走。面向跨模态匹配的噪声关联学习“不仅针对俄罗斯,特别针对德国”EMNLP 2022 | 稠密检索新突破:华为提出掩码自编码预训练模型MMDialog: 微软&北大发布首个百万量级多模态开放域多轮对话数据集对预训练语言模型中跨语言迁移影响因素的分析发布仪式:「六度闻道」会成为企业重要的研究工具|WISE2022新经济之王大会佩妮和沫沫都令人佩服ACM MM 2022最佳论文奖出炉!哈工大聂礼强团队与快手合作斩获龙卷风健康快递 203NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集,深度学习模型推理有了思维链CIKM 2022 | ReTime—基于检索的时间序列预测“不仅针对俄罗斯,特别针对德国”!ACM MM2022|腾讯基于自适应区域选择和通道参考的视频盲水印,高效对抗各类攻击NeurIPS 2022 | 首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准COLING 2022 | 小米AI实验室:更有效的鲁棒性神经机器翻译训练方法终末期心衰:针对病因进行干预能改善患者的预后吗?|CMIT2022ACM MM 2022 Oral | PRVR:全新的文本到视频跨模态检索子任务
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。