AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpan
论文题目:
https://arxiv.org/abs/2307.14878
https://github.com/THUKElab/MESED
AAAI 2024 Main Technical Track
动机
以扩展语义类 US Cities 为例,给定一组种子实体 {Washington D.C., Chicago, Los Angeles},ESE 尝试检索具有目标语义类的其他实体,如 New York, Houston。任务的目的是让扩展出的 Top K 个实体尽可能准确的属于 US Cities。
具有细粒度语义差异的负实体:与目标类属于同一粗粒度语义类的实体。在扩展语义类 US Cities 时,必然需要考虑到与目标类别具有相同父语义类(US Location)的实体,例如位于美国的 Florida 和 Texas。由于这些实体在文本上下文中具有相似语义,传统的单模态 ESE 方法往往难以在细节上进行区分。
同义实体:实体的多种别名。ESE 模型可以很容易地理解常见别名,但无法理解上下文相关的别名,如缩写和昵称,因为确定它们的含义需要明确的文本提示。例如,SEA 仅在某些上下文中表示 Seattle,这可能导致检索的遗漏。
一词多义实体:一词多义实体可能存在歧义,因为引用多个实体的文本提及共享相同的 token。由于预训练语言模型通过单词共现学习语义,因此包含相同 token 的实体本质上更接近。例如,从 Washington, D.C. 到 Washington State 的相似度大于到 Austin 等许多其他城市的距离,从而导致错误的结果。
长尾实体:出现频率较低且相对不常见的实体,如晦涩的地名。这些实体由于出现次数有限,其在文本中的描述通常较为零散,且文本上下文匮乏,很难获取关于这些实体的详尽信息。由于文本描述的稀缺性,表示长尾实体往往过于稀疏,使得在检索时可能会错过相关的内容。
上述情况促使多模态实体集扩展(MESE)任务的出现。MESE 整合来自多种模式的信息来表示实体并将它们扩展到目标语义类,利用多个信息源来克服单模态方法的局限性。
遗憾的是,尽管存在多种多模态数据类型,但目前还没有基于细粒度语义类结构的多模态数据集可用于评估 MESE 的效果。为弥补这一差距,本文构建一个名为 MESED 的大规模人工标注的 MESE 数据集,其中包含来自维基百科的 14489 个实体和 434675 个图像-句子对。
此外,本文提出多模态基线模型 MultiExpan 并探索多种自我监督的预训练目标,用于多模态实体的表示学习。大量实验验证了 MultiExpan 与单模态/多模态模型相比的有效性。
数据集
MESED 是首个用于 ESE 的多模态数据集,具有大规模和精细的人工校准。它由维基百科收集的 14489 个实体和 434675 个图像-句子对组成,具有三层结构,第一层和第二层分别包含 8 个和 26 个粗粒度语义类,最后一层包含 70 个细粒度语义类。MESED 中的 70 个细粒度语义类平均包含 82 个实体,最少 23 个,最多 362 个。每个细粒度类包含 5 个具有 3 个种子实体的查询和 5 个具有 5 个种子实体的查询。
方法
4.1 任务重述
4.2 多模态实体表征
4.2.1 多模态实体级编码器
4.2.2 四个预训练任务损失函数的设计
掩码实体预测
对比学习
聚类学习
动量蒸馏
4.3 实体扩展
实验
5.1 主实验
多模态方法总体上优于单模态方法,MultiExpan(MEP)仅通过使用掩码实体预测任务就实现卓越的性能。完整的 MultiExpan 方法实现最佳的整体性能。 在多模态模型的结构方面,ALBEF 和 MultiExpan 通过 Transformer 表现出深度模态交互,与 CLIP 通过点积相似性计算的浅模态相比,它更适合 ESE 任务。这些结果表明,深度模态交互和融合是未来可以探索的方向。 在基于视觉的模型方面,BEIT 通过对掩码图像建模进行预训练,擅长利用更细粒度的图像语义,例如对象和背景信息。与通过图像网络数据集中的图像分类学习整体图像语义的 VIT 模型相比,BEIT 在实体理解方面表现出更好的结果。同时,CLIP 的图像编码器由于与文本模态的联系,还捕获了比 VIT 模型更丰富的语义。然而,仅仅依靠图像模态并不足以产生令人满意的结果,文本模态仍然占主导地位。 |Seed|的增加不一定使得整体性能提升。更多的种子实体可以更精确地描述语义类并更安全地检索一些“必须正确”的实体,因此当 较小(=10,20)时 会提高。然而,更多的种子实体意味着更大的语义类搜索空间,需要分析比当前更细致的公共实体属性。这表示ESE模型的语义漂移问题面临着持续挑战,因此当 较大时, 会降低。当然,增加 |Seed| 有助于消除 query 与属于多个类的实体的歧义。例如在语义类 Light Novel 中,一些种子实体也属于 Manga,增加|Seed|在所有指标上平均获得 17.5% 的提升。 GPT-3.5 没有取得令人满意的结果,甚至不如无监督的 CGExpan。通过仔细检查 GPT-3.5 在特定语义类上的表现,发现该模型在处理复杂类时遇到困难(如 108 Martyrs of World War II)。明确指示 GPT-3.5 先推理类名,然后根据它们进行扩展。与 GPT-3.5 相比,这个名为 GPT+Name 的修改表现出实质性的改进。这种方法与针对大型语言模型的新兴思维链推理的想法一致,即逐步思考。这也建议未来的研究探索思维链和 ESE 任务的结合。
5.2 消融实验
在第一行,由于语义类 Double First Class Universities in China 相对简单,仅文本信息就足以准确扩展目标实体 Beijing Jiaotong University。 相比之下,图中第二行的 Video Artists 的概念不能仅通过文本信息来概括。通过以统一的方式展示他们的作品,这些图像为 Artists 的语义类别提供隐含的视觉线索。 相反,对于后两种情况,包含图像并没有产生积极的好处,表明图像利用策略需要进一步改进。 第三行,图像中出现大量的数学符号和几何形状,但目前的 MultiExpan 并没有完全理解和利用它们。这启发通过理解图像中对象的细粒度语义(例如,图像中的文本、区域特征)来探索更好的图像利用方法。 在最后一行,包含图像甚至导致负面影响;将目标实体 Zigong Dinosaur Museum 表示为恐龙骨架导致混淆,模型错误地排除该实体。然而,由于多个语义误导而产生的这个错误显然可以被规避,因为句子中有明确的词表明这个实体是博物馆。这促使未来研究如何利用跨模态交互来排除单模态形式中的嘈杂或误导性信息。
总结
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者