TKDE 2023 | 超越共现！大连理工提出全新多模态会话推荐系统

科技

2023-10-10 05:10

©PaperWeekly 原创 · 作者 | 张晓堃

单位 | 大连理工大学

研究方向 | 数据挖掘，推荐系统

论文题目：

Beyond Co-occurrence: Multi-modal Session-based Recommendation

论文期刊：

IEEE Transactions on Knowledge and Data Engineering (TKDE)

论文链接：

https://arxiv.org/abs/2309.17037

代码链接：

https://github.com/Zhang-xiaokun/MMSBR

会话推荐

推荐系统是缓解信息爆炸的重要工具，其在现代电子商务网站中起着不可替代的作用。传统的推荐系统通常利用用户长期的历史行为数据来预测用户未来的行为。然而，在大多数情况下，由于隐私政策及用户未登录等原因，我们无法获取用户丰富的历史数据。因此，研究人员提出了会话推荐（session-based recommendation）。会话推荐根据匿名用户有限的交互数据来预测其接下来的行为。因为其巨大的实用价值，会话推荐一经提出就吸引了广泛的关注。

研究动机

现有的会话推荐方法大都依赖于挖掘商品 ID 所展现的商品共现关系来对用户行为进行预测。尽管基于共现的方法取得了一定的进展，但是囿于一个会话内用户的行为十分有限，这种模式极大地限制了相关会话推荐方法的性能。并且，基于共现关系的方法忽略了，真正吸引用户与一件商品产生交互的是网页上展示的有关商品的多模态信息，包括商品的图片（image），描述文本（text）及商品价格（price）。

如上图所示，用户通常在看完商品的图片，读完商品的描述信息，检查完商品的价格之后，才会决定是否购买这件商品。根据这些多模态信息的不同特点，我们可以将其分为两类：描述型信息（descriptive information）及数值型信息（numerical information）。描述型信息包括商品图片（image）和描述文本（text），这些信息可以直观地表达商品的某些特征，如风格，颜色及材质。数值型信息则是指商品的价格，其通过一个数字来传递商品的价值。

大多数情况下，如上图所示，用户只有在对一件商品展示在页面上的所有多模态信息都满意时，才会选择购买这件商品。显然，上述多模态信息共同影响用户的决定。而且，与仅包含共现关系的商品 ID 不同，多模态信息展现了商品的丰富特征，并蕴含了用户的细粒度偏好。例如，漫威迷很有可能购买一件带有钢铁侠标志的 T 恤。

不幸的是，大多数现有的模型仅建模了商品 ID 所呈现的共现关系，而没有考虑图像或者文本这些模态信息，这导致它们无法准确地理解用户意图。因此，为了更加准确地建模用户行为并提供令人满意的个性化推荐服务，我们应该同时考虑展现在页面的商品多模态信息，即描述型信息和数值型信息。

面临挑战

利用多模态信息来提高会话推荐的表现存在以下难点：

1. 描述型信息表示。在推荐场景下，图片和文本具有不同的噪声。通常，商品图像不仅包含待售的商品（如衣服），还包含额外内容（如搭配衣服的裤子）。类似地，商品描述文本通常包括多余的文字，如夸张的陈述以吸引用户的注意力。图像和文本中的噪声增加了提取商品语义的难度，阻碍了对用户偏好的学习。因此，第一个挑战是如何从具有不同噪声的异构描述型信息中捕获商品语义。

2. 描述性信息融合。商品的图片和文本专注于呈现不同的商品属性。具体来说，图片比文本更能直观地描述商品的颜色和样式。而文本则可以清楚地表达商品材质，例如一件衣服的材质是丝绸还是棉花。因此，图片和文本相辅相成，互相补充共同刻画商品特征。所以，第二个挑战是如何融合这些异构的描述型信息以全面刻画用户偏好。

3. 数值型信息建模。一般来说，用户在描述型信息上的喜好是确定性的。例如，喜欢圆领 T 恤的用户不会点击推荐的 V 领 T 恤。但是，数值型的价格信息以概率的方式影响用户行为。更准确地说，只要商品价格在用户可接受的范围内，价格是略低还是略高是无关紧要的。因此，第三个挑战是如何处理数值型信息对用户行为的概率影响模式。

模型MMSBR

为了解决以上问题，我们提出了一个新的模型 MMSBR，其同时建模商品展示在页面上的所有多模态信息，即图片，文本及价格，来提高会话推荐的性能。如上图所示，MMSBR 主要包括三个部分：（1）确定性建模：处理描述型信息以捕获用户确定性的偏好；（2）概率性建模：处理数值信息来建模用户可接受的价格区间；（3）预测模块：根据所有的多模态信息来给用户提供个性化推荐服务。

4.1 确定性建模

4.1.1 伪模态对比学习

我们设计了一个伪模态对比学习技术来对图片和文本中的噪声信息进行过滤。具体来说，对一个商品的图片和文本，我们分别使用 GoogLeNet 和 DALL·E 来获得对应的伪文本和伪图片，然后利用对比学习技术驱使商品的图片与其伪图片接近而远离其他商品的伪图片来过滤图片内的噪声信息。同样地，我们利用对比学习技术驱使商品的文本与其伪文本接近而远离其他商品的伪文本来过滤文本内的噪声信息。（更多技术细节请见我们的论文原文）

4.1.2 层次枢轴transformer

我们设计了一个层次枢纽 transformer 来对异构的描述型信息进行融合。在层次枢纽 transformer 中，我们首先使用多层感知机（MLP）将图片表示和文本表示投影到不同的空间，以表示商品对应模态下的不同特征。然后，我们创建了一个枢纽（pivot）用以在 transformer 中控制多模态信息的融合。

具体来说，我们将图片特征序列与枢纽作为输入特征输入到 transformer 中进行一次信息融合。接着，我们将 transformer 输出的 pivot 和文本特征序列作为输入特征再次输入到 transformer 中进行信息融合。重复以上步骤，枢纽则融合了商品的图片和文本信息，并最终作为商品的描述型信息表示。

4.2 概率性建模

不同于通常的点级（point-wise）表示方法，我们提出使用高斯分布（gaussain distribution）来表示商品的价格信息。在高斯分布表示下，商品的价格由两个独立的向量表示：均值向量和方差向量，这使得我们学习的价格高斯分布表示可以表示价格的区间性质。

在此基础上，我们设计了 Wasserstein 自注意力机制来处理商品的价格序列，以表示用户可接受的价格区间。与常规的自注意力机制依赖点积来计算两个向量间的相似度不同，Wasserstein 自注意力机制采用 Wasserstein 距离来衡量两个商品价格，即高斯分布，之间的距离。最后，我们把经过 Wasserstein 自注意力机制处理的商品价格表示作为用户可接受的价格区间。

4.3 预测模块

在预测模块，我们根据商品的多模态信息及用户确定性的偏好及可接受的价格区间来形成推荐列表。

实验结果

5.1 总体表现

MMSBR 模型的总体表现如上表所示。由表可知，我们提出的模型 MMSBR 在所有数据集及所有评价指标上都取得了最优的结果。这证明了我们模型的有效性。

5.2 冷启动场景下表现

为了验证模型在冷启动场景下的表现，我们在测试集中保留了在训练集中未出现的商品，作为冷启动商品，然后，检查了各个模型在冷启动场景下的性能。如上图所示，我们提出的 MMSBR 在冷启动场景下显著优于基线方法。这表明了 MMSBR 在冷启动场景下的优势，也证明了建模多模态信息是解决冷启动问题的一个有效方法。

结论

现有的会话推荐方法大多集中于挖掘由商品 ID 暴露的有限的商品共现模式，而忽略了真正吸引用户购买商品的是页面上显示的丰富的多模态信息。基于这一动机，我们提出了 MMSBR，其同时对包括描述型信息（图片和文本）和数值型信息（价格）在内的多模态信息进行建模来捕获用户偏好。三个公共数据集上进行的综合实验表明，MMSBR 优于最先进的基线模型。进一步的研究也验证了 MMSBR 在冷启动场景下的有效性。更多的方法细节及实验结果请见我们的论文原文。

更多阅读