ACM MM 2023 | 清华、华为联合提出MISSRec：兴趣感知的多模态序列推荐预训练

2023-11-04 13:11

©PaperWeekly 原创 · 作者 | 王锦鹏

单位 | 清华大学深圳国际研究生院

研究方向 | 多模态检索、推荐系统

序列推荐是一种主流的推荐范式，目的是从用户的历史行为中推测用户偏好，并为之推荐感兴趣的物品。现有的大部分模型都是基于 ID 和类目等信息做推荐，在可扩展性和迁移性方面存在劣势。近期的一些工作（如 UniSRec [1]、VQ-Rec [2]、RecFormer [3] 等）提出使用文本内容学习通用的物品和序列表征，打开了结合内容分析的序列推荐的新研究点。

虽然文本信息能部分反映物品信息以及用户偏好，但推荐场景的需求经常是多模态的，比如在商品和短视频推荐中，图文信息都会影响用户的行为（如浏览、购买）。多模态信息是否有助于序列推荐？怎么利用多模态信息挖掘个性化偏好？这些目前还都是待探究的问题。

在下面这篇论文中，来自清华和华为的研究者针对这些问题提出了兴趣感知的多模态序列推荐预训练方法，为多模态序列推荐任务提供了一种通用的解决方案。

论文题目：

MISSRec: Pre-training and Transferring Multi-modal Interest-aware Sequence Representation for Recommendation

收录会议：

ACM MM 2023

论文链接：

https://arxiv.org/abs/2308.11175

代码链接：

https://github.com/gimpong/MM23-MISSRec

背景

序列推荐是一个自回归的预测任务：根据用户的历史行为（如浏览）序列，预测用户下一个行为，如可能浏览的物品。典型的序列推荐模型（如 SASRec [4]、BERT4Rec [5] 等）大部分基于 ID 和类目等信息学习物品和用户行为序列的表征，存在以下问题：

1. 少见物品的表征学习欠拟合，具体表现是在长尾物品上推荐效果差；

2. 可扩展性较差，加入新的物品后，存在冷启动问题；

3. 在一个领域上训练完成的模型，难以迁移到其他领域。更普遍地，当 ID 集合完全不相交时，各个领域就形成一座座“数据孤岛”——即便模式相似，知识也难以迁移。

为了解决上述问题，我们的目光不再局限于依据 ID 信息来表征物品和序列，而是从物品多模态内容入手建模个性化。我们的直觉是，用户的决策是一个综合了多模态信息处理的过程。例如，对于商品的图文介绍，贴合需求的标题描述和精美的图片都可能吸引用户的关注。因此，我们认为多模态信息的有助于准确地描述物品和用户偏好，并且该信息基本不受热度（频次）影响。

此外，使用多模态信息的另一优势是跨场景的通用性。只要能获取到物品的描述文本、图片等元数据，我们就可以统一多场景的训练和推荐服务。如图 1 所示，我们期望借鉴 CV 和 NLP 的成功经验，通过预训练技术发掘蕴含在多模态信息中的领域通用的个性化模式，并通过微调实现推荐知识的高效迁移，达到多领域“共同提升”的效果。

▲ 图1：从单领域训练转变为多领域数据联合训练，每个圆圈代表一个推荐领域（或场景）。使用多模态信息，可以将多个推荐领域的数据联合起来预训练，再通过微调模型适配到具体领域，这样做相比单领域训练有 “1+1>2” 的潜力。

对于这样一个目标，我们认为挑战主要有两点，如图 2 所示：1）不同用户对物品的多模态信息关注度不同，比如在商品推荐中，不同用户对文本和图片的关注程度可能不同；2）用户的历史序列可能同时刻画了多种类型的偏好，且不同偏好的占比是不均衡的。比如在购物平台上，食物或日用品的购买次数可能比较多，而笔记本电脑等数码产品则一般相对较少。

▲ 图2：多模态序列推荐的挑战说明。（a）不同用户对不同模态的关注度有差别。（b）在用户的行为序列中可能包含多种偏好，且不同偏好的占比不同。

方法

针对上述挑战，我们提出了一个兴趣感知的多模态序列推荐预训练方法，称为 MISSRec (Multi-modal IntereSt-aware Sequence representation for Recommendation)。

2.1 模型总览

▲ 图3：模型框架图

如图 3 所示，MISSRec 包含了 “ID 无关的多模态预训练”以及“参数高效微调”两个阶段。在模型设计上，我们搭建了一个包含编码器和解码器的 Transformer 模型用于行为序列表征，并设计了多模态适配器、多模态兴趣发现模块等组件辅助建模。

给定一个行为序列，其中每个元素是一个物品。序列表征模型的工作流程是：

从行为序列中提取多模态信息：使用冻结的预训练的 CLIP 提取每个物品的文本和图片特征，并使用 Dropout 处理。分别使用文本和图片的特征适配器，将特征投影到推荐任务的语义空间，并通过相加或者拼接的方式，形成多模态 token 序列；
从行为序列中提取用户的多模态兴趣表征：得到多模态 token 序列后，使用一个多模态兴趣发现模块（Multi-modal Interest Discovery Module），将多模态 token 序列转换为多模态兴趣 token 序列；
编码多模态兴趣的上下文表示：将多模态兴趣 token 序列送入 Transformer 编码器模块，获取多模态兴趣的上下文表示，作为解码模块的 memory（key 和 value）；
兴趣感知的解码：将多模态 token 序列作为解码的 query，送入 Transformer 解码器模块，以序列末尾位置的输出作为整个序列的表征。

2.2 多模态兴趣挖掘

为了分析用户的多模态兴趣偏好，我们在整个物品集合的多模态token空间中进行聚类，选择的聚类算法名为 DPC-KNN [6]。

具体来说，假设整个多模态 token 集合记为。我们首先计算每个 token 的局部密度分数，以第个 token 为例，计算方式如下

其中表示的近邻集合。其次，我们计算每个 token 到密度峰值的最小距离，以第个 token 为例，计算方式如下

上述公式的含义是，如果存在密度分数比自身大的 token 存在，那么返回符合条件的最小距离；否则返回到集合中任一点的最大距离。选择聚类中心的依据是，挑选分数最大的 k 个 token 作为 k 个聚类中心。在 MISSRec 的设定中，聚类中心代表多模态兴趣的原型表征。

确定聚类中心后，我们记录集合中的每个 token 被分配到哪个聚类中心，存储为映射表，代表每个 token 分别反映了用户的何种兴趣。在我们的实现中，多模态兴趣挖掘在每个训练 epoch 的启动前执行一次，即多模态兴趣的原型表征和映射表会在每个 epoch 启动前更新一次。

在序列表征模型的工作流程中，多模态兴趣发现模块负责将多模态 token 序列转化为多模态兴趣 token 序列。转化的方式是收集整个序列的兴趣映射结果并去重，返回原 token 序列包含的兴趣的原型表征，如图 4 所示。去重的目的是消除兴趣比例不均衡的影响。

▲ 图4：多模态兴趣发现模块的工作方式

2.3 自适应的用户-物品多模态匹配

在计算用户-物品的匹配分数时，我们设计了一种自适应的多模态融合机制，以建模不同用户对物品多模态信息的差异化关注。

记是第个用户的序列表征，和分别是第个物品的文本 token 和图片 token。用户个性化的物品表征通过以下方式计算：

其中是一个可学习的控制系数。我们简记和分别为用户和物品单模态的匹配分数。相应地，用户-物品整体的匹配分数计算方式是

注意到，这种自适应的机制等价于提前先计算用户-物品单模态的匹配分数，再进行融合。融合的方式介于取平均（）和取最大（）之间。

2.4 优化目标

预训练的任务包含序列-物品匹配的对比学习、序列表征自监督对比学习、多模态兴趣表征的多样性正则。预训练的损失函数计算如下：

为了提高微调阶段的训练效率，我们去掉了序列的自监督表征训练，损失函数计算如下：

此外，我们仅微调多模态特征适配器，模型的其余部分保持冻结，以达到参数高效性。

实验分析

3.1 数据集

我们选用 Amazon Review 数据集进行实验，在其中选取了 Food、CDs、Kindle、Movies 和 Home 这 5 个领域作为预训练数据集，选取 Scientific、Pantry、Instruments、Arts 和 Office 这 5 个领域作为下游微调数据集。数据集的统计信息见 Table 1。

该数据集在元数据中提供了物品的标题、类目等文本信息，并提供了图片链接。我们根据链接下载了部分图片，其余图片由于链接失效或网络问题未能爬取到。可以观察到图片模态的缺失比较严重，我们选择保留这些缺失模态的物品而不是过滤它们，目的是和现有方法公平对比。

我们使用预训练的 CLIP-ViT-B/32 模型抽取文本特征和图片特征，相关数据我们也已在开源仓库中共享。

3.2 实验结果

我们对比了 MISSRec 和使用多种不同信息的序列推荐基线。如 Table 2 所示，MISSRec 有非常强的竞争力，在大多数领域的大多数指标上超越了现有方法，在剩余部分指标上也达到了和最先进方法相当的水平，证明了多模态信息的有效性以及 MISSRec 的优势。

我们还研究了不同模型在低频物品上的表现。如 Figure 4 所示，横轴表示物品在训练集中的出现频次的区间，灰色直方图表示物品在测试集上的总出现频次（样本数），折线图表示在测试集上的相对的召回性能（以 SASRec为基准）。从图上可以看出 MISSRec 在长尾、冷启动物品上的显著优势，侧面证明了多模态信息在推荐中的价值。

我们还探究了在下游目标领域结合使用 ID 信息的效果，以及预训练的影响。如 Table 4 所示，首先可以观察在下游结合 ID 信息的增益，特别是在物品数量更多的 Office 数据集上。我们认为的原因是，多模态信息反映物品的属性，刻画的是物品间的可迁移的共性（“哪一类”）；而 ID 信息则刻画物品特性（“哪一个”）。随着物品增加，物品间的辨识难度提升，于是在表征中建模特性的需求也相应增加。

此外，预训练在大多数情况下可以提升下游领域的推荐效果，但在某些设定下，MISSRec 的迁移效果仍然不理想，比如在 Office 数据集上不使用 ID 信息进行微调，出现了负向迁移的现象。除了部分原因是参数高效微调的设定限制了领域适应的效果外，还有一部分原因是推荐应用的不同领域间行为模式的差异较大，而 MISSRec 的设计还不足以解决这个问题。这是目前留给我们和社区的一个改进目标。

结论

本文的目标是使用多模态信息改善序列推荐的可扩展性和迁移性。我们提出了兴趣感知的多模态序列推荐预训练方法 MISSRec，为多模态序列推荐任务提供了一种的通用的解决方案。在 MISSRec 中，我们搭建了一个包含编码器和解码器的 Transformer 模型用于行为序列表征，并设计了多模态适配器、多模态兴趣发现模块、自适应的用户-物品匹配等组件或机制辅助建模。通过实验，我们展示了 MISSRec 的优势和不足。相关代码和预处理数据已经开源，便于大家使用。

参考文献

[1] Hou Y, Mu S, Zhao W X, et al. Towards universal sequence representation learning for recommender systems[C]//Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2022: 585-593.

[2] Hou Y, He Z, McAuley J, et al. Learning vector-quantized item representation for transferable sequential recommenders[C]//Proceedings of the ACM Web Conference 2023. 2023: 1162-1171.

[3] Li J, Wang M, Li J, et al. Text Is All You Need: Learning Language Representations for Sequential Recommendation[C]//Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2023: 1258-1267.

[4] Kang W C, McAuley J. Self-attentive sequential recommendation[C]//2018 IEEE international conference on data mining. 2018: 197-206.

[5] Sun F, Liu J, Wu J, et al. BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer[C]//Proceedings of the 28th ACM international conference on information and knowledge management. 2019: 1441-1450.

[6] Du M, Ding S, Jia H. Study on density peaks clustering based on k-nearest neighbors and principal component analysis[J]. Knowledge-Based Systems, 2016, 99: 135-145.

更多阅读