Redian新闻
>
​ICLR 2023 | 基于知识图谱的多模态类比推理

​ICLR 2023 | 基于知识图谱的多模态类比推理

科技


©PaperWeekly 原创 · 作者Nlper



多模态类比推理是一种使用类比和模拟的方法,用于帮助人们理解抽象的概念、解决问题和形成新的知识。在多模态类比推理中,人们通过将一个概念或情境与另一个相似的概念或情境进行比较,来理解和解决问题。这种方法可以帮助人们通过熟悉的概念来理解抽象的概念,并使用自己在这些概念中获得的经验来解决问题。 
多模态类比推理在许多领域,如教育、工程、计算机科学和心理学等,都有广泛的应用。它是一种有效的思维工具,可以帮助人们在理解、解决问题和形成新知识时产生创造性的思维。 
——From ChatGPT



论文标题:

Multimodal Analogical Reasoning over Knowledge Graphs

论文链接:

http://arxiv.org/abs/2210.00312

代码链接:

https://github.com/zjunlp/MKG_Analogy

Huggingface Demo:

https://huggingface.co/spaces/zjunlp/MKG_Analogy




Motivation


类比推理是一种感知和利用两种情况或事件之间的关系相似性的能力,在人类认知中占有重要地位,并且在众多领域例如教育、创造发挥着重要作用。一些学者考虑将类比推理与人工智能进行结合,在计算机视觉和自然语言处理领域都进行了广泛应用。其中,CV 领域将视觉与关系、结构和类比推理相结合,测试模型对于基本图形的的理解和推理能力;NLP 领域通过词语的线性类比来验证模型的文本类比推理能力。

上述任务大多遵循 的形式对深度学习模型的类比推理能力作了初步分析,但都仅限于单模态,没有考虑神经网络是否有能力从不同模态中捕获类比信息。然而,Mayer 认知理论 [1] 指出,人类通常在多模态资源中能表现出更好的类比推理能力,那人工智能模型是否具有这种性质呢?

这篇论文提出了一个基于知识图谱的多模态类比推理任务,任务形式可以形式化为 。本文构建了一个多模态类比推理数据集 MARS 和一个多模态知识图谱数据集 MarKG 作为支撑。

为了评估多模态类比推理过程,本文基于心理学理论的指导,对多模态知识图谱嵌入基线和多模态预训练 Transformer 基线在 MARS 上进行了综合实验。本文进一步提出了一个新型多模态类比推理框架MarT,它可以随时插入任何多模态预训练的 Transformer 模型中,并能产生更好的类比推理性能。



Task Definition


▲ 图1 基于知识图谱的多模态类比推理任务设定示意图


本文提出的多模态类比推理任务如上图所示,类似于没有显示提供关系的链接预测任务,可以被形式化定义为 。其中, 是给定的类比示例, 是问题-答案实体对,类比推理的任务基于背后的知识图谱 G 来预测未知的答案实体。

本文还将任务进一步分为 Single Analogical Reasoning 和 Blended Analogical Reasoning 等两种设定,两种设定的区别在于实体的模态信息不同,Blended 设定下模态信息更为复杂,对推理能力的要求也更高。



Dataset Collection


▲ 图2 数据构建流程示意图

多模态类比推理数据集 MARS 和背后的多模态知识图谱 MarKG 的构建过程如上图所示。首先,从两个文本类比推理数据集 E-KAR 和 BATs 中收集种子实体和种子关系;其次,将这些实体和关系映射到大型知识库 Wikidata 中并进行实体和关系的统一规范化;之后,从 Google 图片引擎以及多模态数据 Laion-5B 中检索实体图片并使用一系列的措施去过滤低质量图片;最后,从中检索高质量的类比数据来构建 MARS 数据集。

▲ 图3 数据统计示意图

数据的统计情况如上表所示,本文所提出的 MARS 数据集不仅包含了图片和文本等多模态的数据,并且在数据规模上也超过了以往的一些数据集。



Method


▲ 图4 方法示意图

本文在一些基线模型上进行了测试,包括三个多模态知识图谱嵌入模型(IKRL, TransAE, RSME)和五个基于 transformer 的多模态预训练模型(VisualBERT, ViLT, ViLBERT, FLAVA 和 MKGformer)。


4.1 多模态知识图谱嵌入模型


对于多模态知识图谱嵌入模型,本文采用 Pipeline 的方式来求解类比推理问题。包括 Abduction - Mapping - Induction 等三个步骤。其中,Abduction 用来预测类比示例 的潜在关系,Mapping 将预测出的潜在关系映射到类比问题实体上,最后,Induction 步骤用来预测最终的类比答案实体。


4.2 多模态预训练模型


本文将每个实体和关系视为特殊 token 添加到预训练模型的词表中,并使用可学习的向量来进行表示。受 [2] [3] 启发,本文设计了类似于掩码语言建模的掩码实体和关系建模任务来学习这些向量,使其包含实体和关系的信息。

如图 4(b) 所示,首先在 MarKG 数据集上预训练多模态 Transformer 模型。MarKG 数据集中包含了实体的文本描述信息、图片信息以及实体之间的关系信息,这里期望模型可以从这些多源信息中学习到实体和关系的表示。为此,本文设计了一个提示模板,以完形填空的形式让模型预测 [MASK] 对应的实体或关系。此外,本文还为模型提供了实体的不同模态信息,包括文本描述和图片等。

在预训练结束后,采用带有显示结构映射的提示学习类比推理技术,来将预训练 Transformer 模型应用到下游数据集 MARS 上。如图 4(c) 所示,输入分为两部分,|| 左边的部分对应于 Pipeline方式中 Abduction 的步骤,|| 右边的部分对应于Induction 步骤,而 Mapping 步骤在模型内部完成。



使用特殊 token [R] 来代表类比示例实体之间的潜在关系,并将输入中包含的实体 用预训练过程中学习到的实体 embedding 进行替代。最终,通过在特殊 token 词表空间中预测 [MASK] 对应的特殊 token 来得到类比答案实体。

4.3 MarT框架


▲ 图5 MarT框架

尽管上述方法可以使得预训练 Transformer 模型可以建模多模态类比推理任务,但只是浅层的考虑了 Abduction 和 Induction 步骤,忽略了类比示例与类比问题-答案对之间的细粒度关联。因此,本文进一步提出了用于 Transformer 模型的 MarT 框架,它包含了自适应类比交互和面向关系的结构映射等两个模块。

1. 自适应类比交互

之前通过设计类比提示模板讲类比示例与类比问题-答案对拼接送入的 Transformer 模型,在 Attention 计算时两部分会进行一定程度交互。然而,类比示例对于类比答案的预测至关重要,但反过来类比问题-答案对对于类比示例的建模可能帮助甚微。此外,不同样例中类比示例提供的帮助不同。因此,本文使用自适应关联门来调节 Attention 计算中两部分的交互程度,将 Attention 计算拆解过程进行了拆解:


其中, 为 intra-analogy attention, 为 inter-analogy attention。这里使用门控 G 来控制 iter-analogy attention 的交互:


2. 面向关系的结构映射

关系映射理论 [4] 指出在类比推理中关系结构的映射要比目标之间的相似性更为重要。例如,电池可以类比为蓄水池是因为它们都存储潜力,而不是它们的形状是圆柱形。受此启发,本文提出了针对类比推理的松弛损失来让模型更加关注关系结构的迁移:


其中, 为类比示例中的特殊 token [R] 在 MLM head 中的隐藏特征, 为余弦相似度计算。



Experiment


5.1 主要结果


如下表所示,MKGE 的方法和 MPT 的方法在 MARS 数据集上取得了可比的性能;在模型中加入类比模块后,性能都有了大幅的提升,具体表现为 MKGE 方法使用 ANALOGY 作为 Backbone 时 Hit 指标和 MRR 指标都有了明显提升,MPT 方法加入了 MarT 框架后提升也十分显著;MarT_MKGformer 表现出了最优越的性能,原因可能是 MKGformer 是针对多模态知识图谱任务设计的,对此类任务更为敏感。

本文提供了一个排行榜:

https://zjunlp.github.io/project/MKG_Analogy/


▲ 表1 MARS实验结果


5.2 消融实验


本文对不同模块进行了消融分析,以验证不同模块的有效性:MarKG 可以为模型提供实体和关系的先验知识;类比模块以及类比示例对于类比答案实体的推理至关重要。

▲ 表2 消融实验结果


5.3 样例分析


样例分析进一步说明原生的模型在多模态类比推理任务中表现是偏弱的,加入类比相关组件可以提高模型性能。

▲ 图6 样例分析示意图


5.4 ChatGPT效果


小编出于好奇在阅读本文的时候拿 ChatGPT 去测试了一下,发现经过指导的大模型具备一定程度的多模态类比推理能力,但当类比的对象比较抽象时也会犯错误。

教 ChatGPT 多模态类比推理任务:


ChatGPT 多模态类比推理的错误:

类比示例是地球对应银河系,正确答案是伦敦对应英国和水对应海洋,ChatGPT 直接回答图片的内容。





Conclusion


在人类智能中,类比是一个很基本的能力,在某种程度上,可以认为是人类智能的源头之一。人们通过将一个概念或情境与另一个相似的概念或情境进行比较,来理解和解决问题。这种方法可以帮助人们通过熟悉的概念来理解抽象的概念,并使用自己在这些概念中获得的经验来解决问题。

本文提出了基于知识图谱的多模态类比推理任务,对此任务进行了形式化的定义并提供了一个多模态类比推理数据集 MARS 和多模态知识图谱数据集 MarKG。在多个知识图谱嵌入模型和预训练 Transformer 模型上的实验表明了这个任务的困难性和可挖掘性。


参考文献

[1] Multimedia learning. In Psychology of learning and motivation, volume 41, pp. 85–139. Elsevier, 2002.

[2] MEM-KGC: Masked Entity Model for Knowledge Graph Completion With Pre-Trained Language Model. IEEE Access 2021.

[3] Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion. SIGIR 2022.

[4] Structure-mapping: A theoretical framework for analogy. Cogn. Sci. 1983



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
简历又落到了前老板的手中,咋回事?美洋插队生活实录(十八)转:2023 回国探亲(5)ICLR 2023 | UniKGQA: PLM+KG新架构,同时适配检索和推理!国际要闻简报,轻松了解天下事(03百亿知识图谱是如何构成的?ICLR 2023 | PatchTST: 基于Transformer的长时间序列预测ICLR 2023 | HomoDistil:蒸馏和剪枝在知识传递上的有机结合CVPR 2023 | 结合Transformer和CNN的多任务多模态图像融合方法「知识图谱嵌入技术」最新研究综述面向关系型数据与知识图谱的数据集成技术综述AAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTA知识图谱相关领域近三年综述文章分类和整理!征稿 | ACM MM 23 Workshop - 基于大语言模型的多模态研究和应用知识图谱赋能时空AI | 3月16日 TF96招聘 | 58同城-NLP-知识图谱算法工程师-社招如果从零构建一个知识图谱?清华朱军团队开源UniDiffuser:首个基于Transformer的多模态扩散大模型!文图互生、改写全拿下!超越CLIP!谷歌大脑多模态学习新作CLIPPO:仅从像素理解图像和语言他一人得皇冠 十四亿人得新冠国际要闻简报,轻松了解天下事(03【首发】布局行业领先的多模态能量平台产品,迈微医疗完成数千万元Pre-A轮融资AAAI 2023 | 如何识别未知标签?多模态知识迁移框架实现新SOTA基于无标注网络驾驶视频,自动驾驶策略预训练新方法 | ICLR 2023可扩展、可解释,新框架从预训练语言模型中高效提取知识图谱复旦大学:2022年城市定制型商业医疗保险(惠民保)知识图谱0Eruope 2023清华朱军团队开源UniDiffuser:首个基于Transformer的多模态扩散大模型MLNLP学术Talk第十九期 | 余海洋、黎槟华@阿里达摩院:基于知识的下一代对话:新任务、新数据、新榜单爸爸发烧和北京医院里的疫情状况ICLR 2023 | 漂移感知动态神经网络:基于贝叶斯理论的时间域泛化框架AAAI 2023 Oral | 如何识别未知标签?多模态知识迁移框架实现新SOTA云讲堂(今晚七点) | 俞声:数据驱动建造世界最大生物医学知识图谱ICLR 2023 | 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究2023 春 祝姐妹们周末快乐!多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构巴黎,巴黎(5)AAAI 2023 | 多模态对话的SPRING来了!无需标注就能做多模态问答预训练清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下日本啊,日本(十)千利休ICLR 2023 | Specformer: 基于Transformer的集合到集合图谱滤波器
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。