SIGIR 2022 | 港大、武大提出KGCL：基于知识图谱对比学习的推荐系统

2022-06-09 14:06

©PaperWeekly 原创 · 作者 | 杨雨豪

单位 | 香港大学

研究方向 | 推荐系统

研究背景

知识图谱（Knowledge Graphs，KGs）通常包含丰富的实体语义关联，在推荐系统中已被广泛地用作提高用户表征学习质量，以及提升推荐精准度的有效额外信息。在这些知识感知的推荐模型中，知识图谱信息通常包含实体和被推荐物品之间的语义关系。然而，这些推荐算法的成功很大程度上依赖于高质量的知识图谱，并且可能因为以下两个问题而无法学习到高质量的用户和商品表征：

i）Entity 的长尾分布导致基于 KG 的物品表征的监督信号变得稀疏；

上图展示了从三个实际应用数据集中收集到的知识图谱实体的分布情况。在图中， Y 轴代表具有相应曝光数量的实体有多少，与 X 轴上的实体曝光数相对应。很明显，大多数 KG 实体都表现出长尾现象。由于知识图谱 embedding 的 Trans 系列算法需要每个实体有充分的基于三元组（h, r, t）的商品连接信息，从而准确地建模语义转换，并且辅助商品的 embedding 学习。因此，KG 的长尾分布问题给准确捕捉物品的关联性带来了挑战。

ii）实际应用中的知识图谱往往是有噪声的，比如知识图谱的链接中也包含了很多物品和 Entity 之间弱关联甚至不太相关的噪音连接信息。

上图中展示了一个新闻推荐任务的例子，新闻的关键实体 Zack Wheeler 是美国职业棒球大联盟中费城人队的一个著名投手。然而，我们可以注意到，Zack Wheeler 与两个同新闻本身语义无关的 "噪音 "实体相连接，即 Smyrna, GA 和 UCL 重建手术。虽然 Zack Wheeler 出生在 Smyrna，而且他之前接受了 UCL 重建手术，但这两个实体与这一体育新闻本身的主题不太相关，从而会造成对该新闻语义学习的偏移。

这样的 KG 稀疏性和噪声问题使得物品之间的实体依赖关系偏离了对其真实特征的反映，这极大地产生了建模上的偏差，阻碍了对用户偏好的准确学习。

论文题目：
Knowledge Graph Contrastive Learning for Recommendation

论文作者：

杨雨豪（香港大学），黄超（香港大学），夏良昊（香港大学），李晨亮（武汉大学）

论文来源：
https://arxiv.org/abs/2205.00976

代码链接：
https://github.com/yuh-yang/KGCL-SIGIR22

模型介绍

针对以上的研究空白，我们提出了一个用于推荐系统的知识图谱对比学习框架（KGCL），以减轻知识感知的推荐建模中的信息噪声。我们提出了一个基于知识图谱图增强的对比学习范式，以抑制信息聚合过程中的 KG 噪音，从而学习物品更稳健的知识感知表征，缓解 KG 的长尾与噪音问题。此外，我们利用来自 KG 增强过程的额外监督信号来指导跨视图的用户-物品图的对比学习，在对比的梯度中给予无偏的用户-物品交互更大的权重，并进一步缓解噪音问题对表征学习的损害。

2.1 关系感知的知识聚合

首先，我们设计了一个关系感知的知识嵌入网络，以在聚合物品知识时反映知识图谱结构上的关系异质性。基于图注意力网络（GAT）及其变种的启发，我们的 KGCL 模型将实体和关系相关的上下文投射到具有参数化关注矩阵的特定表示中。然后，在知识图谱中的物品和其连接的实体之间建立基于注意力的信息聚合机制，用于生成异质关系图上的知识感知的物品表示。具体的知识聚合机制可参考下图。

2.2 基于知识图谱的图增强

在 KGCL 框架中，我们提出生成不同的知识图谱结构视图，以进行知识实体自区分式的对比学习。具体地，我们在输入的知识图谱上采用随机丢弃关系的增强方案来生成两个对比视图。这两个视图的一致性反映了单个物品的知识图谱结构的一致性，以反映物品对知识噪声扰动的鲁棒性。

2.3 基于知识图谱的跨视图对比学习

我们将知识图谱上的图增强与图对比学习范式相结合，以提高知识图谱表示学习和知识聚合生成的物品表示的鲁棒性。同时，为了有效地转移高质量的物品外部知识以帮助用户偏好的学习，我们为用户-物品交互设计了知识指导的对比学习范式。在这样的对比学习中，去噪的物品知识可以被用来指导用户和物品的表示学习，并缓解监督信号的稀疏性。

具体来说，KG 结构一致性得分较高的物品在它的知识图谱中包含较少的噪音，并对用户的真实兴趣建模做出更大的预测贡献。因此，我们在进行用户-物品交互图的对比学习时，在图增强过程使得这些低噪声的物品更有可能地保留下来。

最终，我们为增强后的知识图谱和用户-物品交互图的两个视图分别进行知识聚合和基于图卷积的协同过滤计算，并为每个用户和物品的表示进行对比学习，计算 InfoNCE 损失函数，并与推荐主任务的损失一同进行梯度下降优化。

2.4 知识图谱对比学习对模型梯度的影响

在这一部分，我们从理论角度分析知识指导的对比学习对于用户-物品表征学习梯度的影响，并研究这一学习过程如何从知识图谱上的对比学习上收益。首先，参考相关的工作（SGL，SIGIR21），用户-物品图的对比学习中负样本的梯度可以推导为正比于这一函数值：

其中是正负样本的余弦相似度值。的函数图像在不同温度系数下是：

不难发现，拥有较高值（例如：）的强负样本对于梯度的贡献较高，能够更好地指导对比学习的梯度。我们的 kgcl 模型主要通过以下两个过程来提高对于强负样本的区分能力：

1）. 与噪声或长尾知识实体相连接的物品可以通过知识图谱上的对比学习来增强其表示学习的语义稳定性，能够学习到更准确的值。

2）. 与受知识图谱语义偏差影响更大的物品相关的用户-物品交互将更少地被包含到用户-物品图的对比学习过程中。

对于第一点，可以考虑一组假强负样本，定义为：

其中表示在知识图谱语义偏差引入的情况下模型对于样本相似度的度量，表示的最大值点，这些样本在的距离附近，对于对比学习的梯度有较大的贡献。然而，在知识图谱不存在噪声和长尾问题的情况下，这些样本应该作为非强样本，即：

因此，我们认为知识图谱的噪声和长尾问题会使得模型将一些普通负样本当作强负样本，而将真正的强负样本当作普通负样本对待，导致曲线产生偏移。KGCL 提出的知识图谱上的对比学习可以修正这个问题，使得模型能够通过准确建模样本语义从而更好地区分负样本的强度。

实验结果

3.1 整体模型效果

我们从以下几个 research line 中选取了多样性的对比模型：传统 CF 模型、神经 CF 模型、图 CF 模型、基于 Embedding 的 KG 推荐模型、基于路径的 KG 推荐模型、基于图的混合 KG 推荐模型和自监督的推荐模型。从下表可以发现，KGCL 在三个数据集上相比基线模型均取得了显著更好的性能。

3.2 消融实验

我们分别对 KGCL 架构中的 KG 图增强部分（KGA）和 KG 对比学习部分（KGC）分别进行消融实验，来探究这两个关键部分对于模型性能的影响。从下表可以看出，两个模块对于模型的学习均有明显的促进作用。

3.3 模型在稀疏数据上的优势

KGCL 既引入了外部知识来增强物品的表征学习，又在用户-物品交互图上采用了知识指导的对比学习范式，因此我们期望提出的 KGCL 对于用户-物品交互的稀疏性问题有较好的缓解效应。我们首先将物品按照曝光的稀疏度分成五个组，并在与它们相关的用户交互数据上进行实验。下表的实验结果显示，KGCL 在稀疏的物品组（例如 0-2）上，相比最先进的一些基线模型都有较大的提升。

进一步地，我们为数据集筛选出冷启动用户，这些用户的交互数均小于某个数据集特定的阈值（例如，在Yelp2018 上是 20）。通过对这些冷启动用户生成推荐列表进行实验，我们发现 KGCL 在建模冷启动用户任务上也有明显的提升：

3.4 模型在缓解KG噪音上的优势

为了验证 KG 上对比学习以及知识指导的对比学习针对 KG 的噪声和长尾问题带来的优势，我们首先为 KG 随机加入 10% 的噪声，并比较 KGCL 与最新的 KG 推荐方法在噪声 KG 上的性能：

从上表的实验结果可以发现，KGCL 在面对加入 KG 噪声的场景，只产生了 0.58% 的性能下降，远远好于 MVIN、KGIN 和 KGAT。这说明了 KGCL 的先进性。进一步地，我们筛选出连接到 KG 中长尾实体的物品，并对这些用户-物品交互进行实验。

上图实验结果说明了 KGCL 在抑制 KG 的长尾问题上相比于其它推荐模型的优势。

总结

在这项工作中，我们提出的 KGCL 框架进行了初步尝试以探索通过知识图谱上的对比学习对知识图谱的噪声和长尾分布问题进行抑制。进一步地，通过知识指导的图数据增强，我们得以估计受到 KG 问题影响而产生语义偏移的物品，并将其作为辅助性的自监督信号，使得语义更明确的用户-物品交互得以在对比学习中为梯度产生更大的贡献。我们希望这项工作为 KG 增强的推荐系统开辟了新的探索方向。

参考文献

[1] Jiancan Wu, Xiang Wang, Fuli Feng, Xiangnan He, Liang Chen, et al. 2021. Self-supervised graph learning for recommendation. In SIGIR. 726–735.
[2] Xiangnan He, Kuan Deng, Xiang Wang, Yan Li, Yongdong Zhang, and Meng Wang. 2020. Lightgcn: Simplifying and powering graph convolution network for recommendation. In SIGIR. 639–648.
[3] Hongwei Wang,Fuzheng Zhang,Jialin Wang,Miao Zhao,Wenjie Li,Xing Xie, and Minyi Guo. 2018. Ripplenet: Propagating user preferences on the knowledge graph for recommender systems. In CIKM. 417–426.
[4] Steffen Rendle, Christoph Freudenthaler, Zeno Gantner, and Lars Schmidt-Thieme. 2009. BPR: Bayesian Personalized Ranking from Implicit Feedback. In UAI. 452–461.

更多阅读