「知识图谱嵌入技术」最新研究综述

2023-01-05 16:01

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | 专知

摘要: 知识图谱(KG)是一种用图模型来描述知识和建模事物之间关联关系的技术. 知识图谱嵌入(KGE)作为一种被广泛采用的知识表示方法, 其主要思想是将知识图谱中的实体和关系嵌入到连续的向量空间中, 用来简化操作, 同时保留KG的固有结构. 可以使得多种下游任务受益, 例如KG补全和关系提取等. 首先对现有的知识图谱嵌入技术进行全面回顾, 不仅包括使用KG中观察到的事实进行嵌入的技术, 还包括添加时间维度的动态KG嵌入方法, 以及融合多源信息的KG嵌入技术. 对相关模型从实体嵌入、关系嵌入、评分函数等方面进行分析、对比与总结. 然后简要介绍KG嵌入技术在下游任务中的典型应用, 包括问答系统、推荐系统和关系提取等. 最后阐述知识图谱嵌入面临的挑战, 对未来的研究方向进行展望.

地址：https://www.jos.org.cn/jos/article/abstract/6429

『引言』

知识图谱(knowledge graph, KG)作为人工智能的一个分支, 引起了学术界和工业界的广泛关注, 其构建与应用也得到了迅速发展. 例如Freebase[1], DBpedia[2], YAGO[3], NELL[4], Wikidata[5]等知识图谱已经被成功创建并应用于许多现实世界应用, 从语义分析[6, 7]、命名实体消歧[8, 9], 到信息提取[10, 11]和问答系统[12, 13]等. 知识图谱是以现实世界的实体为节点, 实体之间的关系为边的有向图. 在这个图中, 每个有向边连同其头实体与尾实体构成了一个三元组, 即(头实体, 关系, 尾实体), 表示头实体与尾实体通过关系进行连接. 尽管知识图谱在表示结构化数据方面非常有效, 但这种三元组的基本符号性质使KG难以操作[14].

为了解决这个问题, 近年来提出了一个新的研究方向, 称为知识图谱嵌入(knowledge graph embedding, KGE)或知识表示学习(knowledge representation learning, KRL), 旨在将KG的组成部分(包括实体和关系)嵌入到连续的向量空间中, 以在简化操作的同时保留KG的固有结构. 与传统的表示方法相比, KGE为KG中的实体和关系提供了更加密集的表示, 降低了其应用中的计算复杂度. 此外, KGE可以通过度量实体和关系低维嵌入的相似性来显式地捕获实体和关系之间的相似性.

尽管研究者已提出多种模型来学习KG中的实体和关系表示, 但是目前大多数可用的技术仍然仅根据知识图谱中观察到的事实来执行嵌入任务. 具体地说, 给定一个KG, 首先在低维向量空间中表示实体和关系, 并为每个三元组定义一个评分函数以衡量其在该空间中的合理性. 然后通过最大化观察到的三元组的总合理性来学习实体和关系的嵌入. 这些学习的嵌入还可以进一步用于实现各种任务, 例如KG补全[15, 16], 关系提取[10, 17], 实体分类[18, 19], 实体解析[18, 20]等. 由于在整个过程中仅要求学习的嵌入在每个单独的事实中兼容, 因此对下游任务可能没有足够的预测性[21, 22]. 近年来, 越来越多的研究者开始进一步考虑利用其他类型的信息, 例如实体类型[23, 24], 文本描述[25-28], 关系路径[29-31], 甚至逻辑规则[32, 33]来学习更多的预测嵌入.

本文第1节介绍相关工作调查与基本符号定义; 第2节对仅使用KG中观察到的事实进行嵌入的技术进行全面回顾, 具体介绍基于距离的模型, 语义匹配模型以及最新的KGE技术; 第3节主要讨论了融合时间信息的动态知识图谱嵌入技术, 详细介绍t-TransE、Know-Evolve、HyTE、TDG2E等代表性的动态KGE方法; 第4节归纳了除KG中观察到的事实以外的结合附加信息的KGE技术, 例如实体类别、文本描述、关系路径等. 第5节介绍KGE技术在下游任务中的典型应用. 第6节对KGE技术面临的挑战与未来研究方向进行讨论. 最后, 第7节对全文工作进行总结.

『相关调查与符号定义』

先前有关知识图谱的调查论文主要集中在统计关系学习(statistical relational learning)[34], knowledge graph refinement[35], 中文知识图谱构建(Chinese knowledge graph construction)[36], KGE[14]或KRL[37]. Liu等人[37]在2016年详细介绍了知识表示学习(KRL)的基本概念和主要方法, 对知识表示学习面临的主要挑战、已有解决方案以及未来研究方向进行了全面总结, 为后续的调查和研究奠定了坚实的基础. 近年来, Lin等人[37]以线性方式提出KRL, 着重于进行定量分析. Wang等人[14]根据评分函数对KRL模型进行分类, 侧重于KRL中使用的信息类型.

我们的调查研究以Wang等人[14]的调查为基础. 与之不同的是, 本文对基于距离的模型与语义匹配模型进行了全新角度的分类, 对主流KGE技术进行了阐述, 同时介绍了动态知识图谱嵌入方法的最新进展, 并分析了相关代表模型. 此外, 本文讨论了结合事实以外的其他信息的嵌入技术, 以及KGE技术的典型应用. 最后, 总结了KGE技术面临的挑战, 并对其未来方向进行展望.

『使用事实进行知识图谱嵌入』

本节对仅使用事实进行知识图谱嵌入的方法采用评分函数进行划分. 评分函数用于衡量事实的合理性, 在基于能量的学习框架中也被称为能量函数. 典型类型的评分函数分为两种: 基于距离的评分函数(如图1(a))与基于相似性的评分函数(如图1(b)).

基于距离的模型

基于距离的模型使用基于距离的评分函数, 即通过计算实体之间的距离来衡量事实的合理性, 在这种情况下, 翻译原理

h+r≈t

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章