Redian新闻
>
EMNLP 2022 | 统一指代性表达的生成和理解

EMNLP 2022 | 统一指代性表达的生成和理解

科技




简介


指代性表达(Reference Expression,RE)是描述真实场景中一个明确的对象,是人类社会中一种重要的认知行为。人们在日常生活中为一个对象构想一个 RE,并根据一个 RE 来识别一个所指对象,它们分别被命名为指代性表达生成和理解。由于其广阔的研究前景和实际应用,这两项任务引起了自然语言处理、计算机视觉和人机交互领域的广泛兴趣。


指代性表达的生成(REG)和理解(REC)就像同一枚硬币的两侧一样相互依赖。例如,在构思明确的描述之前,人们需要根据脑海中的描述来正确定位对象。但是,之前的研究很少关注解决指代性表达生成和理解的统一建模问题,目前也还没有针对指代性表达生成和理解的统一建模的图像文本预训练研究。


北京邮电大学、字节跳动人工智能实验室以及苏州大学的研究者提出了一个统一的 REG 和 REC 模型(UniRef)。它将这两个任务通过精心设计的图像-区域-文本融合层(Image-Region-Text Fusion layer,IRTF)统一起来,图像-区域-文本融合层通过图像互注意力与区域互注意力来融合图像、区域与文本信息。此外,它可以为 REC 任务生成伪区域输入,以便以统一的方式在 REC 和 REG 之间共享相同的表示空间。


本工作的研究员在三个基准数据集 RefCOCO、RefCOCO+ 和 RefCOCOg 上进行了广泛的实验。实验结果表明,所提出的模型在 REG 和 REC 上都优于以前最先进的方法。



论文标题:
Towards Unifying Reference Expression Generation and Comprehension

论文地址:

https://arxiv.org/pdf/2210.13076.pdf



算法介绍


模型由一个视觉编码器、一个语言编码器和一个融合编码器以及两个任务相关的预测头组成。



2.1 融合编码器


融合编码器通过用图像-区域-文本融合层替换最后的 个 vanilla Transformer 解码器层来扩展 Transformer 解码器,这些层旨在弥合指代性表达生成和理解之间的差距。其中图像-区域-文本融合层通过添加图像互注意力和区域互注意力扩展了 vanilla Transformer 编码器层,并将图像信息和区域信息与查询进行融合。给定输入,首先应用自注意力来获得查询,然后依次执行图像互注意力和区域互注意力,最后被馈送到前馈网络以获得输出隐藏状态。


执行指代性表达理解时没有区域输入,为了使指代性表达理解的输入与指代性表达生成相同,区域预测器用于生成区域预测来作为图像互注意力的输入。


2.2 预训练目标


为了学习语言建模和视觉定位的能力,该工作的预训练阶段有两个目标,分别对应于指代性表达生成和理解的视觉条件掩蔽语言建模和文本条件区域预测。


1. 视觉条件掩蔽语言建模(Vision-conditioned Masked Language Modeling,VMLM)。给定一个图像-区域-文本三元组,首先屏蔽文本序列中 25% 的标记。该任务旨在根据可见文本、区域和图像来预测看不见的标记。值得注意的是,视觉条件掩蔽语言建模类似于指代性表达生成,但解码顺序和注意掩码有所不同。


2. 文本条件区域预测(Text-Conditioned Region Prediction,TRP)。给定一个图像-文本对,文本条件区域预测的目标是预测文本描述的区域或对象的边界框。损失是广义交并集和距离的总和。在文本条件区域预测中,每个图像-区域-文本融合层都会产生一个区域预测作为区域互注意力的输入,监督信号来自预测和真实标注之间的图像块级二进制交叉熵。这两个损失一起用于训练文本条件区域预测。




实验结果


该研究工作在三个基准数据集 RefCOCO、RefCOCO+ 和 RefCOCOg 进行了广泛的实验。实验结果表明所提出的模型在指代性表达生成和理解上都优于以前最先进的方法。


▲ 指代性表达生成和理解的结果


▲ 消融实验结果


消融实验结果如上表所示,可以发现,ITRF 可以提升 REG 和 REC 的性能;在第 6 层中使用 IRTF 优于其他同行;VMLM 和 TRP 使预训练受益;域内数据的预训练显着提高了 REC 的性能,但略微损害了 REG 的性能。



上图可视化了 UniRef 如何利用 REG 中的图像和区域信息。在自回归生成过程中对互注意力图进行可视化,包括图像互注意和区域互注意,通过观察案例发现了两个现象:


1)图像互注意可以关注图像中与目标对象无法区分的其他对象,从而帮助模型生成更具区分性的描述。例如,在第一个实例中,羊的耳朵由图像互注意处理,而耳朵不可见的羊由区域互注意处理,导致描述为“耳朵不可见的羊”。


2)通过关注与目标对象相关的对象,模型可以生成具有关系的描述,例如空间关系。在第二个例子中,模型通过它与不在绿框中的鸟之间的空间关系,明确地描述了绿框中的椅子。



上图可视化了 UniRef 在 REC 中学习的能力,并给出了边界框预测的示例。UniRef 能够处理具有各种属性的描述,例如比较关系(a)、属性识别(b、c)、空间关系(j、k)和计数(d-f)。


但是 REC 中仍然存在挑战。通过分析不良案例,可以总结出所提出的模型面临的一些困难:1)短路径。该模型正确地定位了植物(m),但未能定位到花盆(n)。它首先定位墙上的花朵,然后将这面墙视为花盆。说明模型并没有真正理解什么是花盆,而是通过花来学习短路径;2)小物件。可以发现该模型对于小物体识别不是很好(i、r)。



参考文献

[1] Mao, J., Huang, J., Toshev, A., Camburu, O., Yuille, A. L., & Murphy, K. 2016. Generation and comprehension of unambiguous object descriptions. In Proceedings of the IEEE conference on computer vision and pattern recognition.

[2] Yan Zeng, Xinsong Zhang, and Hang Li. 2021. Multi-grained vision language pre-training: Aligning texts with visual concepts. In Proceedings of the International Conference on Machine Learning.

[3] Licheng Yu, Zhe Lin, Xiaohui Shen, Jimei Yang, Xin Lu, Mohit Bansal, and Tamara L. Berg. 2018. Mattnet: Modular attention network for referring expression comprehension. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.

[4] Aishwarya Kamath, Mannat Singh, Yann LeCun, Ishan Misra, Gabriel Synnaeve, and Nicolas Carion. 2021. Mdetr–modulated detection for end-to-end multi-modal understanding. In Proceedings of the IEEE conference on international conference on computer vision.

[5] Jaemin Cho, Jie Lei, Hao Tan, and Mohit Bansal. 2021. Unifying vision-and-language tasks via text generation. 2021. In Proceedings of the International Conference on Machine Learning.



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
EMNLP 2022最佳长论文、最佳短论文等奖项公布!EMNLP 2022 | 稠密检索新突破:华为提出掩码自编码预训练模型EMNLP 2022 | LiteVL:具有增强时空建模的高效视频-语言学习EMNLP 2022奖项揭晓,最佳论文这脑洞绝了!EMNLP'22 | What and how?模型的学习内容和推理方式探究EMNLP 2022 | 知识图谱上的问题生成:用元学习建模不同子图英伟达的元宇宙梦想,不止 Omniverse一文了解复旦大学NLP实验室的14篇EMNLP 2022长文内容大规模预训练、可控文本生成方向,清华大学计算机系NLP实验室招聘博士后(长期有效)[语法] 长难句看不懂之:使役动词和指代问题EMNLP 2022大会正式落幕,最佳长论文、最佳短论文等奖项公布触摸美国 53 夏威夷之旅实为道玉,甘做路石:好老师少有,好校长更稀缺​蒙冤法院院长:从看守所被释放后,才真正认识和理解中国的法律!微信推出自研NLP大规模语言模型WeLM:零/少样本即可完成多种NLP任务,匹敌大其25倍的模型一文看完澜舟科技被EMNLP'22录用的三篇论文“婚姻中,爱和理解哪个重要”The most significant legacy of Queen Elisabeth II《东圣节-幸福夜》记念毛泽东​GENIUS: 根据草稿进行文本生成的预训练模型,可用于多种NLP任务的数据增强如何生成「好」的图?面向图生成的深度生成模型系统综述|TPAMI2022EMNLP'22 Findings | 用于多标签少样本方面类别检测的标签驱动去噪框架EMNLP'22 | 基于结构统一M叉编码树的数学问题求解器吴恩达的2022年终盘点:生成式AI、ViT、大模型EMNLP 2022 | SentiWSP: 基于多层级的情感感知预训练模型北非后花园丨摩洛哥 卡萨布兰卡+马拉喀什+瓦尔扎扎特+撒哈拉沙漠+非斯+舍夫沙万 9天7晚游 CMNCMN9EMNLP 2022 | 主会长文论文分类整理EMNLP 2022 最佳论文揭晓!这脑洞绝了….一文回顾2022年的元宇宙:泡沫过后,失败和理性齐头并进的一年EMNLP 2022 论文预讲会!41场精彩报告抢先看!理解世界、理解投资、理解抄底在夏夜EMNLP 2022 | 北大提出基于中间层特征的在线文本后门防御新SOTAEMNLP 2022 | 基于全局句向量的分布外文本检测EMNLP 2022 | 基于视角转换的反事实数据增强方法
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。