CIKM 2023 | 为序列推荐引入自适应以及个性化全局协同信息的通用框架

2023-11-16 06:11

©PaperWeekly 原创 · 作者 | 尹铭佳

单位 | 中国科学技术大学博士生

研究方向 | 数据挖掘，推荐系统

论文标题：

APGL4SR: A Generic Framework with Adaptive and Personalized Global Collaborative Information in Sequential Recommendation

论文作者：

尹铭佳，王皓，徐翔，吴李康，赵思蕊，郭威，刘勇，唐瑞明，连德富，陈恩红

作者单位：

中国科学技术大学，认知智能全国重点实验室

论文链接：

https://dl.acm.org/doi/10.1145/3583780.3614781

代码链接：

https://github.com/Graph-Team/APGL4SR

引言

序列推荐模型因为能高效地建模用户的序列偏好而受到了广泛的关注。而在序列推荐系统之中，除了单个用户自身的交互序列，具有相似物品转换模式（即子序列）的其他用户序列也可以对当前序列的推荐做出贡献，我们将这种信息定义为全局协同信息。最近，许多方法依托图神经网络以及全局物品关联图建模全局协同信息，并且带来了一定的推荐效果提升。

然而，绝大多数工作在建模全局协同信息时忽视了两个重要的因素：

1. 全局图的自适应构建。为捕获全局协同信息，相关工作往往基于预定义规则的方式构建一个固定的全局物品关联图。然而，推荐数据中可能存在噪声，导致所构造的全局图中对不相关物品之间关联程度的错误估计，例如上图中耳机 v2 和衣服 v3 之间的连边。此外，推荐系统中的用户交互数据往往十分稀疏，一些物品之间可能存在数据之中无法体现的隐式关联，例如耳机 v2 和手表 v4 之间直觉上存在较大的关联，但是图中不存在该连边。因此我们希望所构造的全局图能够自适应地缓解噪声边的负面影响以及挖掘物品之间的隐式关联。

2. 全局图的个性化使用。全局协同信息在不同用户上应产生不同的效果，例如，对于像用户这样的电子产品爱好者，在刚点击了一件 T 恤的条件下，可能仍然会坚持点击另一个电子产品。因此，我们希望能为每个用户从全局图中提取出个性化的全局协同信息。

为了充分挖掘全局协作信息并解决上述挑战，我们提出了一种基于物品关联图的框架，名为 Adaptive and Personalized Graph Learning for Sequential Recommendation（APGL4SR），该框架通过自监督学习将自适应和个性化的全局协同信息引入到序列推荐系统中。

首先，我们提出了一种自适应的全局协同图学习器，它能自适应地学习所有物品间改良后的全局图，并通过最大化互信息的方式把全局协同信息融入物品表征之中。我们同时提出了一种基于奇异值分解（SVD）的加速策略，用以降低计算复杂度，从而实现高效的全局协同信息建模。

其次，我们提出了个性化的图提取器，它以相对位置编码的形式从全局协作图中提取物品之间的关联，并利用用户的嵌入对之进行转换。将该相对位置编码注入到 Transformer 编码器中，我们以高兼容度的方式实现了对全局协同信息的个性化利用，为每个用户实现个性化推荐。最后，我们利用多任务学习范式以端到端的方式优化整个框架，从而框架中的各个模块得以相互增强。

前置知识

2.1 问题定义

在序列推荐中，主要任务是根据用户的历史交互记录推断用户的偏好表征，并向他们推荐下一个物品。具体而言，考虑一个序列推荐系统，我们用表示用户集合，用表示物品集合，和分别表示用户和物品的数量。

由于用户的交互记录可以按时间顺序组织，我们可以将用户的交互序列定义为，其中是用户在时间节点与之交互的物品，是序列的长度，最大长度为。随后，我们可以定义序列推荐任务，旨在为每个用户预测下一个时间节点的物品。

2.2 基于规则的全局物品关联图构建

我们希望使用全局物品关联图来捕捉全局协作信息。然而，数据中只存在用户的交互记录，没有可用的全局物品图。因此我们期望使用图结构学习技术来学习一个图，并且该图能自适应地检测出前文中提到的噪声边和潜在的边。然而从零进行图结构学习十分困难，为了稳定以及加速训练过程，构建一个具备相对充分的先验知识的初始图很重要。

考虑到基于固定规则构建的全局图的有效性已经在以往工作中得到验证，我们同样基于固定规则构建了图作为图结构学习的初始图（邻接矩阵为，初始为零矩阵），以下为详细步骤。

考虑一个用户序列，我们对滑动窗口内的每个物品对更新图中对应的边权重，其中是滑动窗口的大小，我们将其固定为 2。以引言示意图内用户的序列为例，对于，我们进行更新，对于，我们进行更新。类似地，我们对每个用户序列重复上述操作，构建得到一个全局物品图，随后按如下方式对邻接矩阵进行归一化：

其中是图中某个节点的度。最后，我们使图对称化，并为每个节点添加一个自环。

方法

3.1 自适应的全局协同图学习器

3.1.1 改良全局图的表征构建

在前面得到的基于规则构建的全局物品图的基础上，我们计划以小幅度扰动的形式来调整该全局图，形式化定义如下：

其中是固定原始图的邻接矩阵，是可学扰动图的稠密邻接矩阵，是扰动的强度，是改良后的图。给定初始物品嵌入，我们可以基于 L 层的图神经网络 LightGCN 生成融入了全局协同信息的物品表征。

3.1.2 基于SVD的加速策略

然而，上述扰动图是一个稠密图，导致计算复杂度与物品数量的平方成正比，在大规模推荐系统中是不可接受的。因此我们提出了一种基于 SVD 的加速方法，加速学习扰动图的过程。具体而言，我们观察到实际物品图的较小奇异值占据了所有奇异值的大部分，因此我们对扰动图做出相同的假设，也便是我们只对一小部分主导奇异值进行建模，从而加速的建模过程。通过这种方式，我们不再构建整个扰动图，而是转而学习其 SVD 分解，可以形式化如下：

其中和都是可学习的参数，是用于控制分解扰动图的秩的超参数。有了的分解形式，我们现在可以将 LightGCN 的消息传递公式重写为：

我们可以通过首先计算，其复杂度为，然后将左乘到结果上，其复杂度也为。如果选择一个较小的，我们可以将时间和空间复杂度从二次降低到线性级别。

3.1.3 全局协同信息编码

以前的方法往往直接将图增强后的物品嵌入输入到后续的序列编码器中，但我们实验中发现这种方法并不有效。因此，我们转而利用自监督学习范式，通过最大化互信息将细化后的全局协同信息融入到物品表示中。考虑到基于原始图或改良图应具有相似的信息，因此我们通过 InfoNCE 损失来最大化原始图和改良图之间的互信息，形式化定义如下：

其中是原始图表征，是改良图表征。

3.2 序列编码器

利用全局信息增强的物品嵌入，我们现在可以将自适应的全局协同信息融入到序列建模过程中。具体来说，我们采用基于 Transformer 的编码器。该编码器接受物品嵌入序列作为输入，由多个多头自注意力（MHSA）层和前馈神经网络（FFN）层组成，形式化定义如下：

3.3 自适应的图抽取器

在前文中介绍的图重点在于编码全局协同信息，反映物品之间的一般关联。但最终，我们的目标是针对每个特定用户建模物品之间的关联性。因此，我们希望从全局图中为用户提取个性化信息。我们实验中发现将个性化图表征与序列表征简单地融合在一起效果不佳，因此我们希望维持所提取信息的两个必要属性：兼容性和个性化。

首先考虑兼容性，由于自注意力机制也可以看作是学习子图内物品对之间的边权重，我们提出用相对位置编码的形式将个性化的全局协作信息注入到序列编码器中，因此自注意力计算公式改写为如下形式：

其中是某个用户，是为该用户生成的相对位置编码矩阵。

然后我们考虑相对位置编码的构建形式以满足个性化需求。为此，我们为每个用户引入个性化嵌入向量。那么给定用户的交互序列，我们可以根据中的交互物品从全局物品图中提取子图，然后我们可以按照如下方式获取用户的个性化相对位置编码：

其中用于将用户嵌入向量投影到一个标量，衡量用户对全局信息的重要性。

3.4 模型优化

我们采用多任务学习范式来同时优化整个框架：

其中是序列推荐损失函数，是互信息最大化损失，是 CL4SRec 方法中引入的序列级别的对比学习任务，该任务通过裁剪、掩码或重排序来进行数据增强，而和是用于分别控制两个自监督学习目标强度的超参数。

实验

4.1 实验设置

数据集：采用之前工作所采用的 Amazon 数据集（选用 Beauty，Sports 和 Toys 三类）以及 yelp 数据集。进行过滤操作以确保每个用户（物品）最少与 5 个物品（用户）之间存在交互记录。
评估方式：采用常用的排序指标 Recall 以及 NDCG，并且基于全部 item 进行评估以避免采样带来的偏差。

4.2 实验结果

从上表中可以发现我们提出的方法在四个数据集之上都取得了最优，这得益于对全局协同信息的自适应构造，以及自适应利用。

4.3 消融实验

上表中（B）移除了全局协同图学习器，（C）移除了个性化图抽取器，（D）将可学的改良图替换为固定的 SVD 分解后的重构图，（E）移除了个性化图抽取器的同时直接将图表征与序列表征通过 MLP 的方式进行融合。

分别对比（A）和（B）以及（A）和（C），可发现本文提出的两个模块都能为推荐效果带来增益。同时，通过比较（A）和（D），我们可以发现在部分数据集中采用固定的 SVD 重构图导致性能严重下降。原因可能是我们的改良图可以进行联合优化，从而获得更适合的图来融合全局协同信息。此外，通过比较（A）和（E），我们可以观察到当我们直接融合图和序列表征会导致性能显著下降，这表明实现全局图的个性化使用时的兼容性也是十分必要的。

4.4 通用性分析

本文提出的两个模块可以被应用于不同的序列编码器之上，由上图可知，本文的两个模块可以为各个编码器都带来显著的性能提升，验证了本文提出的两个模块的通用性。

4.5 避免表征坍塌

InfoNCE 损失被认为能够促进超球面上表征的对齐性和均匀性。其中表征的均匀性倾向于保留最大信息的特征分布，这可以极大地缓解维度坍塌问题，即嵌入向量只有较少维度具有信息量，而不是整个可用的嵌入空间。因此我们希望验证提出的方法在避免物品嵌入的维度坍塌方面的优越性，因此我们按照 DuoRec 的方式通过 SVD 将在 Beauty 数据集上学习到的物品嵌入投影到 2D 空间中，随后进行可视化。

物品嵌入的可视化结果如图所示。从图中，我们可以观察到 SASRec 的物品嵌入在表征空间中聚合在一起，导致表征不够有区分性。通过引入一些自监督学习任务，CL4SRec 的物品嵌入实现了更好的均匀性。令人惊讶的是，尽管 ICLRec 取得了更好的结果，但其均匀性比 CL4SRec 差。我们推测这是因为 CL4SRec 的表示中存在着一部分无意义的均匀性，即一些相关的物品嵌入被过度地推开。相反，我们的方法通过融合自适应的全局协同信息，可以实现更有意义的均匀性，从而缓解维度坍塌问题。

更多阅读