EMNLP 2022 | 知识图谱上的问题生成:用元学习建模不同子图
©作者 | 社媒派SMP
来源 | 社媒派SMP
研究动机
本文研究知识图谱上的问题生成 (KBQG),一方面自动生成问题可以促使机器在人机对话中自动发问,另一方面可以丰富知识图谱问答所需的数据集。目前,主流的 KBQG 模型是基于预训练语言模型,主要做法是将一系列事实的三元组和其对应的答案输入到 Sequence-to-Sequence 架构中,从而生成相应的问题。
论文链接:
作者单位:
实际上,关于某个答案的事实三元组可以自然地形成一个子图,如图 1 所示。通过观察,我们发现这些子图的语义是不同的,主要表现在三元组的关系上以及子图的结构模式上,如星状、链状和三角形等。我们观察到,不同语义的子图对应的问题很不一样。现有的方法并没有区分不同子图的语义,而是将所有子图一起训练,学习一个一刀切 (one-size-fits-all) 的模型,这样做无疑会增加模型的学习难度。
受人类解决问题的启发,即当他们遇到新问题时,经常参考曾经遇到类似问题的解决办法并进行适当的调整以此来解决新问题。因此,为解决上述问题,我们避免直接在整个训练数据上学习 one-size-fits-all 的模型,而是利用相似子图样本来指导当前子图对应问题的生成。
为了实现这一目标,我们借用元学习来建模不同的任务,同一个任务中子图语义尽可能相似。我们的方法称之为 DSM,主要由两部分构成:检索器和类似 MAML 的元学习器。检索器用于寻找具有相似关系和相似结构的语义相似子图,由此创建特定语义的学习任务,从而使模型能够充分学习每一类子图上的内在问题生成的模式。
基于检索器构造了多个学习任务之后,我们采用类似 MAML 的元学习器来捕获不同学习任务内和跨不同学习任务之间的特定语义知识和语义无关的知识。在构造不同的学习任务时,如何找到相似的子图是关键。虽然经典的图匹配算法可以实现,但是它们只考虑图的结构属性,而不考虑关系的语义信息。
受图神经网络(GNN)的启发,我们用 GNN 表示 embedding 空间中的子图,因为它们可以很容易地编码关系信息和结构信息。然后,我们可以根据图与图的 embedding 表示计算它们之间的余弦相似性,以此来检索语义上相似的子图。由于缺乏监督信息,我们利用了图对比学习。在图对比学习中,我们提出了基于关系路径的相似性,用于构造相似子图作为对比学习的正样本。整个模型的框架图如图 2 所示。
1. 相比于其它 KBQG 方法,DSM 能生成更接近标准问题,并且在更加多样化的数据集 WQ 上表现出更优的性能;
本文利用知识图谱子图的多样语义信息来生成问题。相较于统一训练,本文构造特定语义的任务,采用元学习的方法进行学习,从而降低了训练的难度。方法的关键点是提出一个基于图对比学习的检索器去检索语义相关的子图,用于构造特定语义任务。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者