EMNLP 2022 | 知识图谱上的问题生成：用元学习建模不同子图

2022-12-12 05:12

©作者 | 社媒派SMP

来源 | 社媒派SMP

研究动机

本文研究知识图谱上的问题生成 (KBQG)，一方面自动生成问题可以促使机器在人机对话中自动发问，另一方面可以丰富知识图谱问答所需的数据集。目前，主流的 KBQG 模型是基于预训练语言模型，主要做法是将一系列事实的三元组和其对应的答案输入到 Sequence-to-Sequence 架构中，从而生成相应的问题。

论文标题：

DSM: Question Generation over Knowledge Base via Modeling Diverse Subgraphs with Meta-learner

论文链接：

https://xiaojingzi.github.io/publications/EMNLP22-Guo-et-al-DSM.pdf

作者单位：

中国人民大学

实际上，关于某个答案的事实三元组可以自然地形成一个子图，如图 1 所示。通过观察，我们发现这些子图的语义是不同的，主要表现在三元组的关系上以及子图的结构模式上，如星状、链状和三角形等。我们观察到，不同语义的子图对应的问题很不一样。现有的方法并没有区分不同子图的语义，而是将所有子图一起训练，学习一个一刀切 (one-size-fits-all) 的模型，这样做无疑会增加模型的学习难度。

解决方案

受人类解决问题的启发，即当他们遇到新问题时，经常参考曾经遇到类似问题的解决办法并进行适当的调整以此来解决新问题。因此，为解决上述问题，我们避免直接在整个训练数据上学习 one-size-fits-all 的模型，而是利用相似子图样本来指导当前子图对应问题的生成。

为了实现这一目标，我们借用元学习来建模不同的任务，同一个任务中子图语义尽可能相似。我们的方法称之为 DSM，主要由两部分构成：检索器和类似 MAML 的元学习器。检索器用于寻找具有相似关系和相似结构的语义相似子图，由此创建特定语义的学习任务，从而使模型能够充分学习每一类子图上的内在问题生成的模式。

基于检索器构造了多个学习任务之后，我们采用类似 MAML 的元学习器来捕获不同学习任务内和跨不同学习任务之间的特定语义知识和语义无关的知识。在构造不同的学习任务时，如何找到相似的子图是关键。虽然经典的图匹配算法可以实现，但是它们只考虑图的结构属性，而不考虑关系的语义信息。

受图神经网络（GNN）的启发，我们用 GNN 表示 embedding 空间中的子图，因为它们可以很容易地编码关系信息和结构信息。然后，我们可以根据图与图的 embedding 表示计算它们之间的余弦相似性，以此来检索语义上相似的子图。由于缺乏监督信息，我们利用了图对比学习。在图对比学习中，我们提出了基于关系路径的相似性，用于构造相似子图作为对比学习的正样本。整个模型的框架图如图 2 所示。