Redian新闻
>
EMNLP 2023 | 基于知识图谱嵌入的关系感知集成学习算法

EMNLP 2023 | 基于知识图谱嵌入的关系感知集成学习算法

科技

©PaperWeekly 原创 · 作者 | 黄鉦皓
单位 | 清华大学
研究方向 | 图神经网络


本文介绍《基于知识图谱嵌入的关系感知集成学习算法》(Relation-aware Ensemble Learning for Knowledge Graph Embedding),该论文提出的 RelEns-DSC 方法针对图谱实体间的关系采用分割、搜索和重组策略,显著减小集成权重(即不同模型的贡献比例)的搜索空间。


与现有方法相比,在相同的计算成本下表现出更卓越的性能,并在多个任务上达到最优性能。该论文被 EMNLP 2023 录取,力克蚂蚁金服、斯坦福等研究团队,刷新大规模知识图谱榜单 OGB 记录。

论文链接:
https://arxiv.org/abs/2310.08917

代码链接:

https://github.com/LARS-research/RelEns

OGB榜单:


ogbl-wikikg2:
https://ogb.stanford.edu/docs/leader_linkprop/#ogbl-wikikg2

ogbl-biokg:

https://ogb.stanford.edu/docs/leader_linkprop/#ogbl-biokg



研究背景

知识图谱是一种用于表示和组织知识的图形数据结构,可以有效连接人类对于真实世界的认知与计算机对于物理世界的建模,其涵盖了从社交和评分网络到生物网络的多个领域。因此,随着机器学习技术的兴起,图学习已经在多种应用中得到广泛应用,包括利用社交图谱来理解人际关系,利用城市图谱进行人流轨迹分析,以及利用医药图谱进行药物互作预测。


如下左图所示,知识图谱用于表征医药网络中不同实体(药物、作用、疾病等)之间的关系,并通过这些关系来预测类似于(药物 A, ?, 疾病 D )的关系。

▲ 图表1. 医药图谱(左)与城市图谱(右)示例


近来,深度学习技术已受到整个社会的广泛关注,其中 GNN(图神经网络)被证明在许多领域中非常有效,并成为图深度学习的主流。目前已有的模型如 GAT、GCN、GraphSage 等,为图学习提供了强大的工具和方法。在这一背景下,关于如何将知识图谱中的信息转化为向量表示(即知识图谱嵌入)并将其与深度学习技术相结合(如下图所示),成为了当前研究中的首要问题。

▲ 图表2. 知识图谱嵌入


尽管如此,由于知识图谱中的关系多种多样且复杂,即使现有模型采用不同的评分函数来建模各种关系属性,单一模型仍然难以全面捕捉图谱中的有效信息。如下图所示,我们可以看到在知识图谱的各种拓扑结构下,并没有一种模型能够取得最佳性能。因此,这促使我们提出了一种基于知识图谱嵌入的关系感知集成学习算法——RelEns。

▲ 图表3. 模型的拓扑推理能力



主要内容

集成学习是一种技术,通过组合和重新加权多个模型的预测,旨在提高机器学习任务的性能。先前的研究已经在知识图谱嵌入领域验证了集成学习的有效性 [1,2]。然而,现有的集成方法仅关注了模型之间的权重分配(我们将其称为 SimpleEns),而未考虑不同模型的关系特性。因此,我们的目标是设计一种能够搜索不同关系的特定集成权重的算法。

2.1 关系感知

知识图谱由(头实体、关系、尾实体)这类三元组组成,而知识图谱嵌入模型的学习目标是将正三元组的排名高于负三元组,以准确识别当前图谱中可能被忽略的正三元组 [3]。因此,给定一个排名函数 ,我们希望尽可能让模型在测试集 中给出最佳的预测分数 ,以将更多的正三元组排名 排得越高(即数字越小)。


为了更直观地理解,我们将倒数排名函数 定义为 1/p。为了更好感知图谱中得每种关系,对于每个知识图谱嵌入模型 以及图谱中的关系集 ,我们赋予每一类关系一个可学习的权重 。如此,只要遍历所有关系类型,我们就可以更“深入”地去了解每一个模型与其评估每种关系的最佳权重,我们称之为 RelEns-Basic,其中目标函数如下:

2.2 分割搜索与合并的搜索算法


与 SimpleEns 相比,RelEns-Basic 需要搜索多达 R 倍的参数。此外,对于不可微分的度量标准,如 MRR(平均倒数排名),通常需要使用零阶优化技术,例如随机搜索和贝叶斯优化 [4] 来解决。然而,这些算法通常需要在搜索空间中对候选项进行采样,受到维度诅咒的影响 [5],随着搜索维度的增加,复杂性可能会呈指数级增长。


因此,如何快速有效地搜索更好的结构是搜索算法需要关注的问题。为了降低成本,我们充分考虑了搜索空间的性质,提出了 RelEns-DSC。我们将 NR 参数搜索空间按照关系类型分成了 R 个独立的 N 参数优化搜索空间,并为每个子空间分别分配相应的权重 。这样,我们可以并行计算每种关系的权重,然后将它们合并,如下图所示。

▲ 图表4. RelEns-DSC算法架构图

2.3 实验结果


为了验证 RelEns 的可行性,我们分别在 WN18RR、FB15k-237 和 NELL-995 数据集上进行了测试。如图表 5 所示,在相同计算资源下,RelEns 在这三个数据集上表现出色,不仅在不同的度量指标下超越了基线模型,还超过了通常使用的集成方法 SimpleEns。

▲ 图表5. WN18RR、FB15k-237与NELL-995数据集结果对比

相对于 RelEns,SimpleEns 对于模型的集成权重分配更加粗糙。这主要是因为 SimpleEns 仅考虑了模型层面的权重分配,从而在一定程度上忽略了特定关系的重要性,进而对模型性能产生了不利影响。相反,RelEns 关注每种关系的认知,避免了信息的丢失。从实验结果和权重分配情况(见下图)来看,基于关系感知的集成算法更为有效,更全面地捕捉了图谱中的有用信息。

▲ 图表6. 不同关系中模型的集成权重


国际知名的图学习标准 OGB(Open Graph Benchmark)[6] 挑战赛由谷歌、脸书、微软、加州大学洛杉矶分校等多个机构共同发起、支持和参与。该挑战赛提供了一个公平、公开和通用的基准测试套件,被广泛认可为目前图学习领域的代表性基准数据集。


本算法在其中的百科知识图谱 ogbl-wikikg2 和生物医学知识图谱 ogbl-biokg 数据集中取得了第一名的成绩(详见下图),超越了奇虎 360、UCL、蚂蚁集团、Mila 等知名团队,充分证明了其在知识图谱领域表现出的卓越性能和潜力。

▲ 图表7. RelEns在OGB上的实验效果



未来工作


本文证明了基于知识图谱嵌入的关系感知集成学习算法有效解决了知识图谱完成中的实体预测任务中的集成问题。在未来的工作中,我们会进一步讨论其他重要的图学习任务,包括实体或节点分类、关系预测和图分类。另外,将本算法扩展到更多元的应用场景,比如用于优化搜索引擎或应用于推荐系统等等,也是潜在研究方向。



参考文献

[1] Shaoxiong Ji, Shirui Pan, Erik Cambria, Pekka Marttinen, and S Yu Philip. 2021. A survey on knowledge graphs: Representation, acquisition, and applications. IEEE transactions on neural networks and learning systems, 33(2):494–514.
[2] Zhiqing Sun, Zhi-Hong Deng, Jian-Yun Nie, and Jian Tang. 2019. Rotate: Knowledge graph embedding by relational rotation in complex space. In ICLR.
[3] Quan Wang, Zhendong Mao, Bin Wang, and Li Guo.2017. Knowledge graph embedding: A survey of approaches and applications. TKDE, 29(12):2724– 2743.
[4] James Bergstra, Rémi Bardenet, Yoshua Bengio, and Balázs Kégl. 2011. Algorithms for hyper-parameter optimization. In NIPS, pages 2546–2554.
[5] Mario Köppen. 2000. The curse of dimensionality. In 5th Online World Conference on Soft Computing in Industrial Applications, volume 1, pages 4–8.
[6] Open Graph Bench:https://ogb.stanford.edu/


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
JMT 2023.08.24量子计算对机器学习算法的革命性影响EMNLP2023 | LLMs也许不擅长少样本信息提取,但可以为候选答案重新排序!《断剑刀》第四回 断剑?刀?ICCV 2023 最佳论文候选!北大提出UniDexGrasp++:基于几何感知课程和迭代通用-专家策略学习的灵巧手抓取算法COLING/EMNLP/NAACL/NLPCC群,快来~EMNLP 2023 | MMEdit——如何编辑多模态大语言模型?EMNLP2023 | 计算语言揭秘认知扭曲:SCIR推出C2D2中文数据集​EMNLP 2023 findings | 生成式框架下解决输入扰动槽填充任务ICML 2023 | RACE:使用进化算法大幅提升多智能体强化学习算法学习7年沉淀一套“知识图谱”,他们成为To B企业的最强大脑|投资笔记EMNLP 2023评审内幕公开《带节奏的英语课堂》第三课EMNLP 2023 | 解决LLaMA、BERT等部署难题:首个4-bit浮点量化LLM来了上海内推 | 小红书多模态算法组招聘多模态CV/NLP算法实习生生似蜉蝣EMNLP 2023录用结果公布,高分仍然被拒?评审内幕公开​EMNLP 2023 | Explore-Instruct: 通过LLM的主动探索提高特定领域指令多样性北京内推 | 滴滴出行网约车核心团队招聘机器学习算法实习生玩转围棋、国际象棋、扑克,DeepMind推出通用学习算法SoGFactCHD:探索基于知识图谱的事实冲突幻觉检测新基准EMNLP2023 | LLM作用下的成分句法分析基础研究JMT 2023.08.25NLP年终盘点!2023年顶会论文合集(含ACL、EMNLP、NAACL、AAAI等)JMT 2023.08.26EMNLP 2023 | 阅读顺序很重要:蚂蚁联合复旦提出全新多模态文档信息抽取模型EMNLP 2023 | 用于开放域多跳推理的大语言模型的自我提示思想链学术成果 | EMNLP2023:MMEdit——如何编辑多模态大语言模型?JMT 2023.08.23曼大范教授:基于深度学习算法的有机物类别预测研究|收获一作论文与导师推荐信!2023 环游波罗的海(4)北京内推 | AMD北京算法团队招聘深度学习算法实习生(可远程)EMNLP 2023 Best Paper公布啦!基于知识迁移的跨语言机器阅读理解算法岁月匆匆如流水(1)为什么大多数投行都在用PowerBI、Tableau、知识图谱?到底有多好使?旅美散记(11):割草记EMNLP 2023 | 大模型对话系统的内功与外功EMNLP 2023 | 通过化学知识和自然语言关联以增强生物领域的跨模态学习舒服的关系,是没有期待的关系
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。