EMNLP 2023 | 基于知识图谱嵌入的关系感知集成学习算法
本文介绍《基于知识图谱嵌入的关系感知集成学习算法》(Relation-aware Ensemble Learning for Knowledge Graph Embedding),该论文提出的 RelEns-DSC 方法针对图谱实体间的关系采用分割、搜索和重组策略,显著减小集成权重(即不同模型的贡献比例)的搜索空间。
与现有方法相比,在相同的计算成本下表现出更卓越的性能,并在多个任务上达到最优性能。该论文被 EMNLP 2023 录取,力克蚂蚁金服、斯坦福等研究团队,刷新大规模知识图谱榜单 OGB 记录。
代码链接:
https://github.com/LARS-research/RelEns
ogbl-biokg:
知识图谱是一种用于表示和组织知识的图形数据结构,可以有效连接人类对于真实世界的认知与计算机对于物理世界的建模,其涵盖了从社交和评分网络到生物网络的多个领域。因此,随着机器学习技术的兴起,图学习已经在多种应用中得到广泛应用,包括利用社交图谱来理解人际关系,利用城市图谱进行人流轨迹分析,以及利用医药图谱进行药物互作预测。
如下左图所示,知识图谱用于表征医药网络中不同实体(药物、作用、疾病等)之间的关系,并通过这些关系来预测类似于(药物 A, ?, 疾病 D )的关系。
▲ 图表1. 医药图谱(左)与城市图谱(右)示例
近来,深度学习技术已受到整个社会的广泛关注,其中 GNN(图神经网络)被证明在许多领域中非常有效,并成为图深度学习的主流。目前已有的模型如 GAT、GCN、GraphSage 等,为图学习提供了强大的工具和方法。在这一背景下,关于如何将知识图谱中的信息转化为向量表示(即知识图谱嵌入)并将其与深度学习技术相结合(如下图所示),成为了当前研究中的首要问题。
▲ 图表2. 知识图谱嵌入
尽管如此,由于知识图谱中的关系多种多样且复杂,即使现有模型采用不同的评分函数来建模各种关系属性,单一模型仍然难以全面捕捉图谱中的有效信息。如下图所示,我们可以看到在知识图谱的各种拓扑结构下,并没有一种模型能够取得最佳性能。因此,这促使我们提出了一种基于知识图谱嵌入的关系感知集成学习算法——RelEns。
▲ 图表3. 模型的拓扑推理能力
主要内容
集成学习是一种技术,通过组合和重新加权多个模型的预测,旨在提高机器学习任务的性能。先前的研究已经在知识图谱嵌入领域验证了集成学习的有效性 [1,2]。然而,现有的集成方法仅关注了模型之间的权重分配(我们将其称为 SimpleEns),而未考虑不同模型的关系特性。因此,我们的目标是设计一种能够搜索不同关系的特定集成权重的算法。
知识图谱由(头实体、关系、尾实体)这类三元组组成,而知识图谱嵌入模型的学习目标是将正三元组的排名高于负三元组,以准确识别当前图谱中可能被忽略的正三元组 [3]。因此,给定一个排名函数 ,我们希望尽可能让模型在测试集 中给出最佳的预测分数 ,以将更多的正三元组排名 排得越高(即数字越小)。
为了更直观地理解,我们将倒数排名函数 定义为 1/p。为了更好感知图谱中得每种关系,对于每个知识图谱嵌入模型 以及图谱中的关系集 ,我们赋予每一类关系一个可学习的权重 。如此,只要遍历所有关系类型,我们就可以更“深入”地去了解每一个模型与其评估每种关系的最佳权重,我们称之为 RelEns-Basic,其中目标函数如下:
与 SimpleEns 相比,RelEns-Basic 需要搜索多达 R 倍的参数。此外,对于不可微分的度量标准,如 MRR(平均倒数排名),通常需要使用零阶优化技术,例如随机搜索和贝叶斯优化 [4] 来解决。然而,这些算法通常需要在搜索空间中对候选项进行采样,受到维度诅咒的影响 [5],随着搜索维度的增加,复杂性可能会呈指数级增长。
因此,如何快速有效地搜索更好的结构是搜索算法需要关注的问题。为了降低成本,我们充分考虑了搜索空间的性质,提出了 RelEns-DSC。我们将 NR 参数搜索空间按照关系类型分成了 R 个独立的 N 参数优化搜索空间,并为每个子空间分别分配相应的权重 。这样,我们可以并行计算每种关系的权重,然后将它们合并,如下图所示。
▲ 图表4. RelEns-DSC算法架构图
为了验证 RelEns 的可行性,我们分别在 WN18RR、FB15k-237 和 NELL-995 数据集上进行了测试。如图表 5 所示,在相同计算资源下,RelEns 在这三个数据集上表现出色,不仅在不同的度量指标下超越了基线模型,还超过了通常使用的集成方法 SimpleEns。
相对于 RelEns,SimpleEns 对于模型的集成权重分配更加粗糙。这主要是因为 SimpleEns 仅考虑了模型层面的权重分配,从而在一定程度上忽略了特定关系的重要性,进而对模型性能产生了不利影响。相反,RelEns 关注每种关系的认知,避免了信息的丢失。从实验结果和权重分配情况(见下图)来看,基于关系感知的集成算法更为有效,更全面地捕捉了图谱中的有用信息。
▲ 图表6. 不同关系中模型的集成权重
国际知名的图学习标准 OGB(Open Graph Benchmark)[6] 挑战赛由谷歌、脸书、微软、加州大学洛杉矶分校等多个机构共同发起、支持和参与。该挑战赛提供了一个公平、公开和通用的基准测试套件,被广泛认可为目前图学习领域的代表性基准数据集。
本算法在其中的百科知识图谱 ogbl-wikikg2 和生物医学知识图谱 ogbl-biokg 数据集中取得了第一名的成绩(详见下图),超越了奇虎 360、UCL、蚂蚁集团、Mila 等知名团队,充分证明了其在知识图谱领域表现出的卓越性能和潜力。
▲ 图表7. RelEns在OGB上的实验效果
未来工作
本文证明了基于知识图谱嵌入的关系感知集成学习算法有效解决了知识图谱完成中的实体预测任务中的集成问题。在未来的工作中,我们会进一步讨论其他重要的图学习任务,包括实体或节点分类、关系预测和图分类。另外,将本算法扩展到更多元的应用场景,比如用于优化搜索引擎或应用于推荐系统等等,也是潜在研究方向。
参考文献
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者