SIGIR 2024 | 共现关系还是细粒度偏好？ID和模态信息解耦的会话推荐

科学

2024-05-06 05:05

©PaperWeekly 原创 · 作者 | 张晓堃

单位 | 大连理工大学·信息检索研究室

研究方向 | 推荐系统

论文题目：
Disentangling ID and Modality Effects for Session-based Recommendation

论文链接：
https://arxiv.org/abs/2404.12969

代码链接：
https://github.com/Zhang-xiaokun/DIMO

研究动机

会话推荐 (Session-based Recommendation) 旨在根据匿名用户在短期内的行为，预测其兴趣偏好，进而为其提供个性化推荐服务。早期大部分工作致力于利用多种神经网络结构来建模商品 ID 的共现关系，并以此给用户提供个性化建议。采用的神经网络结构包括循环神经网络 (RNN)、注意力机制以及图神经网络 (GNN) 等。

最近部分研究则将商品模态信息纳入模型，以增强模型对用户意图的理解，包括商品的描述文本、商品图片、商品类别以及商品价格等。模态信息的引入使得模型能够从多个角度捕捉用户偏好，进而提高了模型的表现，并可以缓解会话推荐系统天然存在的数据稀疏问题。然而，本文研究发现，商品 ID 和模态信息蕴含着完全不同的推荐逻辑，即商品 ID 信息反映商品间的共现关系，而商品模态信息则体现用户的细粒度偏好。

一方面，商品的 ID 仅仅是一个符号标识符，其无法表示具体的商品特征，而只是从统计的角度反映了所有用户-商品交互中的商品共现关系。具体地，如上图左侧所示，ID 的共现模式表明了推荐系统中的一个基本逻辑：如果商品 x1和 x2 经常被一起购买，那么在用户与 x1 交互后，推荐系统则可以根据商品间的共现关系向其推荐 x2。

另一方面，商品的模态信息则体现了用户的细粒度偏好。商品的模态信息，如文本和图片，可以描述商品的具体特征，比如服装的风格和颜色。如上图中右侧所示，在分析用户购买商品的图片后，系统可以推断出这位用户是一个漫威迷。据此，推荐系统可以给这位用户推荐漫威联名款的杯子（即使 T 恤和杯子很少被一起购买）。

显然，这种推荐模式有助于提高推荐系统的表现。这也突显了推荐系统的另一个推荐逻辑：从商品模态信息中可以推断出用户的细粒度偏好，依据这种细粒度的偏好，推荐系统可以向用户推荐具有相似属性的商品。

由此可见，商品的 ID 和模态信息在推荐系统预测用户行为时代表着完全不同的逻辑。然而，现有的方法往往将 ID 和模态信息的嵌入表示不加区分地混合在一起，混淆了这两种截然不同的推荐逻辑。这种操作无法探究用户行为背后的基本原因，导致对应的推荐模型无法准确地对用户行为进行预测，也无法对其产生的推荐结果进行解释说明。因此，本文对 ID 和模态信息进行了解耦，以同时提高推荐系统的准确度和可解释性。

提出模型DIMO

本文提出了 ID 和模态信息解耦的会话推荐模型 DIMO。DIMO 的模型图如上图所示，其在商品和会话层面同时对 ID 和模态信息的不同效应进行了解耦。如图所示，DIMO 主要由以下模块组成：

1. ID 和模态表示学习模块，在商品层面对 ID 和模态信息进行解耦。首先，对于 ID 信息，DIMO 设计了一个共现表示机制，显式地将商品共现关系注入到 ID 表示中。同时，对于模态信息，DIMO 通过自然语言处理和计算机视觉技术将异质的模态信息转换到相同的语义空间，实现了统一的模态表示。

2. 多视角自监督解耦模块，包括代理机制和反事实推断，在缺乏监督信号的情况下在会话层面区分 ID 和模态信息的不同效应。

3. 预测模块，基于解耦的 ID 和模态效应，通过因果推断预测用户未来的行为。

4. 解释生成模块，创建了两个模板，共现模板和特征模板，利用 ID 和模态信息所代表的不同用户行为逻辑，对推荐结果进行了解释说明。

更多模型细节请参考我们的代码及论文原文。

模型表现

DIMO 和所有基线模型在四个真实数据集下的表现如上表所示。由表可知，DIMO 在所有数据集的所有评价指标上均大幅优于所有基线方法，这证明了 DIMO 在会话推荐任务上有效性。我们认为 DIMO 对当前方法的压倒性优势来自于其对 ID 代表的商品共现模式和模态信息体现的用户细粒度偏好进行的解耦操作。由于区分了 ID 和模态信息对建模用户行为的不同逻辑，DIMO 能够确定形成用户行为背后的原因，从而提供准确的个性化建议。

更多实验结果及分析，包括可解释性研究，请参考我们的论文原文。

更多阅读