港大联合百度 WSDM 2024 | 如何让LLMs助力推荐系统？图数据增强

科技

2023-11-14 04:11

论文链接：

https://arxiv.org/pdf/2311.00423.pdf

代码链接：

https://github.com/HKUDS/LLMRec

导读

1.1 背景

模态内容的推荐系统已经成为人们日常生活中的不可或缺的一部分。举例来说，Netflix 一直以来都善于运用引人注目的标题和海报，以向用户推荐热门电影，而在社交媒体巨头 Twitter (X) 上，用户发布的文本和图片往往能够吸引其他人的点赞和转发，从而将有趣的内容传播开来。

然而，最近几年，个性化推荐系统的构建方法已经不再受限于仅仅依赖用户的历史交互数据。学术界和业界正齐心协力，积极探索新的途径，以提高推荐系统的效力和智能程度。特别值得一提的是，大型语言模型（LLMs）以其卓越的自然语言理解能力令人叹为观止。正因如此，近期，业界和学界都热衷于利用 LLMs 来深入分析数据中的文本内容，以强化和改进推荐系统，使其更好地满足用户的需求和兴趣。这一领域的研究和应用已经成为一个备受关注的热点，引领着推荐系统的未来发展方向。

1.2 动机

(1) 有效用LLMs助力推荐系统

经典的协同过滤（Collaborative Filtering，CF）范式早在上个世纪九十年代初就开始被应用，至今已有二三十年的历史。然而，采用大型语言模型（LLMs）来颠覆这一经典范式，以实现超越传统方法的效果和效率，充满了技术挑战，并且可能在短期内难以实现。

为了充分发挥 LLMs 在增强推荐系统方面的潜力，本研究提出了一种新方法，即通过基础文本数据来增强用户-物品交互图，包括边和节点。这一方法具有三个显著优势，以确保 LLMs 在推荐系统中的有效应用：

1. 本方法不仅秉承传统的协同过滤范式，从而保障了基本的效率和效果；

2. 与此同时，它充分利用了图神经网络（GNNs）作为编码器的强大潜力，为系统性能提供了有效支持；

3. 此外，这项工作基于 LLM 的数据增强方法，直接增强了潜在的监督信号，提升了特征的质量和信息的丰富性，进一步加强了推荐系统的性能。

(2) 应对数据稀疏性和数据质量问题

长期以来，数据稀疏性一直是困扰推荐系统领域的一大挑战。最近，学术界和工业界普遍致力于通过引入辅助模态内容来增强对用户偏好的建模，以应对数据稀疏性的问题。然而，引入辅助知识（side information）到推荐系统中不可避免地伴随着一系列问题，包括噪声的引入、辅助知识的可获得性（例如，因隐私问题导致的用户档案缺失）、辅助知识的完整性和质量等等。这些问题甚至可能对最终的推荐结果产生不利影响。

大型语言模型（LLMs）以其广泛的知识库和卓越的自然语言理解能力为我们提供了有效的途径以应对这一问题。本研究提出了三种简单而高效的数据增强方法，包括：

1）利用 LLMs 基于文本信息增强隐式反馈（即u-i edge）；

2）利用 LLMs 基于历史互动数据和物品属性增强用户画像（user node）；

3）利用 LLMs 基于基本的物品属性增强物品属性（item node）。

这些方法有望显著提高推荐系统的性能，克服了数据稀疏性和辅助知识引入所带来的问题，从而为用户提供更准确和个性化的推荐服务。

概述

2.1 存在的挑战

挑战1：如何让LLMs进行推荐？

首先，我们需要明确的是，LLMs 并没有经过专门的推荐任务或相关数据集的训练，这为其在推荐系统领域的应用带来了一些挑战。其次，LLMs 在处理推荐任务时受到输入 token 长度的限制，这限制了 LLMs 无法像传统的推荐系统一样轻松地进行全项排序或处理包含大量物品的数据集。

为了克服这些问题，本研究提出了一项解决方案。首先，这篇工作借助基础模型（例如 LightGCN）为每位用户提供物品候选项，以弥补 LLMs 在输入长度上的不足。接着，通过让 LLMs 从物品候选项中选择用户喜欢或不喜欢的物品，这篇工作增强了 BPR 训练数据，使 LLMs 能够以更实际和有效的方式参与推荐系统的建模过程。这一方法旨在提高系统性能，同时为 LLMs 在推荐任务中的应用拓宽了道路，从而克服了其在这一领域的限制。

挑战2：如何确保增强的数据的可靠性？

外部知识的引入不可避免地伴随着潜在噪声，这意味着不能百分之百确定增强后的数据一定对最终任务有益。为了应对这个问题，这篇工作专门针对前文提到的增强方法进行去噪处理，即 1）边的增强和 2）、3）节点特征的增强。更具体地说，对于 1）的情况，这篇工作采用了直接删除可能带来影响的部分数据，而对于 2）和 3），这篇工作引入了 MAE，以降低模型对特征的敏感性，增加鲁棒性。

这一系列去噪处理措施的目的在于提高数据质量，确保外部知识的引入不会对最终任务的性能产生不利影响。同时，它们使模型能够更好地适应多样性和复杂性，以确保最终的推荐系统能够在真实场景中表现出色。这些去噪方法有助于平衡外部知识的益处和可能的噪声。

2.2 贡献

总结来说，这篇工作的贡献如下：

LLMRec 模型是首个在推荐系统中利用 LLMs 进行图增强的研究工作。这篇工作通过增强以下内容来实现这一目标：1) 用户-物品交互边、2) 物品节点属性、3) 用户节信息；
这篇工作提出的模型解决了隐式反馈信号的稀缺性问题，使 LLMs 能够直接地进行用户-物品交互范式。此外，对于增强的边 LLMRec 直接刨除了可能存在影响的部分，对于增强的节点信息 LLMRec 引入 MAE 使得模型不敏感于 feature，并拥有较强的鲁棒性；
LLMRec 的方法在真实世界数据集上进行了的评估，展示了其在各个方面超越了最先进的基准方法。实验结果明确表明了 LLMRec 的方法在提高推荐准确性、解决稀疏性问题等方面的卓越性能。此外，LLMRec 进行了深入的分析和消融研究，为 LLMRec 的 LLM 增强数据增强策略的影响提供了深刻的见解，进一步证实了模型的有效性。

方法

在模型框架的具体设计方面，LLMRec 主要关注以下问题：

如何使 LLMs 能够准确预测用户-物品交互边？
如何确保 LLMs 生成有用的辅助信息（side information）？
如何有效地将增强的数据融入到推荐系统的框架中？
如何增强模型的鲁棒性，使其能够处理增强的数据？

3.1 协同过滤框架图数据增强的基本范式

LLMRec 对用户-物品交互图 (graph) 的边 (edge) 和节点特征 (node) 都进行了增强。

普通的推荐系统：

进行了数据增强的推荐系统：

3.2 用LLMs发掘潜在的隐式反馈交互边

LLMRec 采用一种直接增强潜在交互的方法，以有效应对推荐系统中的数据稀疏性问题。具体而言，LLMRec 将 LLMs 引入作为知识感知的样本生成器，用于扩充成对的 BPR 训练数据。这种方法充分发挥了数据集中的文本信息和 LLMs 的优势，以从自然语言的角度更好地建模用户偏好，而不仅仅依赖于基于标识的交互。

在具体操作方面，LLMRec 首先为每位用户构建一个"提示"（prompt），该提示由用户 u 的历史互动以及候选项组成。引入候选项的原因在于 LLMs 无法对所有物品进行排序，因此候选项提供了一种替代性的方法。这些候选项的提供可以通过使用诸如 MMSSL 或 LATTICE 等方法来实现，以确保这些候选项既是数量有限的又是有效的。

这一方法的应用使 LLMRec 能够更全面地发挥 LLMs 的自然语言处理能力，从而能够更好地理解用户的历史互动和候选项，以利用现实知识和语义信息预测用户-物品交互，为用户提供更精准的个性化推荐。这种表示方式带来了一些优势：1）它使推荐系统能够充分利用数据集中的内容；2）它直观地以自然语言的方式建模用户的偏好。

用 LLM 进行隐式反馈的数据增强可以分为以下步骤：

为每位用户 u 生成用于增强 u-i 边的提示；
将这些生成的提示输入到 LLM 中，以为每位用户选择一个正样本和一个负样本，从而创建伪 BPR 训练数据。

取一定数量的生成训练数据并将其与原始训练数据合并；
最终合并后的推荐数据将用于训练推荐系统，以增加有效的监督信号。

除此之外，用 LLM 从语义的角度增强 u-i 交互能够一定程度地缓解增强隐式反馈中“false positive”和“false negative”的问题。具体来说，user 历史交互过的 item 可能不是真的用户偏好，比如新闻推荐系统中被文本标题或者图片误导而进行的 user-item 交互；反之，而未交互过的 item 虽然会被作为负样本，但是其实不一定代表用户不喜欢。而用 LLMs 利用真实已有的信息从自然语言的角度重新选出用户可能偏好或者不偏好的 item 能够一定程度地缓解上述问题。

换句话说，基于 LLMs 的隐式反馈增强能够一定程度地缓解 Bayesian Personalized Ranking (BPR) 优化中的问题。从理论的角度，未交互过的 item 和噪声 item 分别作为负样本和正样本。

然而，他们的优化方向却与式 (3) 中的优化方向是不对应的，这可能导致敏感且次优的结果。基于 LLM 的增强方法利用自然语言空间来辅助 ID 向量空间，以从真实语义的角度反映用户的偏好。借助真实世界的知识，LLMRec 获得高质量的样本，减小了噪声和未现的隐式反馈的影响，提高了准确性，加快了收敛速度。

3.3 用LLMs增强节点的信息

在以往的推荐系统中，使用辅助信息是一种常见方法，通常以物品属性的形式存在。然而，这种方法存在一些问题，例如信息可能不完整、质量较低，或者获取困难。此外，由于隐私问题，用户的个人资料通常无法完全获得。在这方面，LLMs（大型语言模型）具有丰富的知识库和出色的推理能力，因此非常适合用于增强辅助信息。

对于物品来说，辅助信息可以直接通过物品本身原有的辅助信息来进行增强。而对于用户，辅助信息则可以通过用户与物品的历史交互来获取。通过总结用户与已互动物品的特点，可以了解用户喜好的内容、使用的语言、所在国家，甚至可能的年龄段等。这种方式不仅帮助解决了隐私问题，还提供了更全面的用户信息，有助于改进个性化推荐的质量和准确性。

增强用户和物品的辅助信息的过程可以分为以下步骤如下：

为每位用户/物品生成用于数据增强的提示；
使用生成的提示输入 LLM，以为每位用户/物品生成额外的辅助信息；
将生成的辅助信息输入到具备编码能力的语言模型（如：text-embedding-ada-002、Sentence-BERT）进行嵌入编码。

将生成的嵌入向量输入到推荐系统的编码器，以作为用户/物品表征学习的附加特征。

3.4 模型训练与数据增强的去噪

获得了经过增强的数据后，这篇工作将这些数据用于模型的推理和训练。然而，需要注意的是，增强的数据并不一定都是有效的，甚至可能包含噪声，这可能对推荐结果产生不利影响。为了应对这个问题，LLMRec 采用了剪枝和 MAE 两种方法，分别用于去除用户-物品交互边和用户/物品节点特征中的噪声。

隐式反馈的剪枝

隐式反馈去噪的具体过程是将负号之前的 loss value 进行生序排序，取前 top-N。这可以避免不可靠的梯度反馈对优化产生较大影响，从而使优化过程更加稳定和有效:

Feature的MAE

对增强的特征进行 MAE 可以使编码器对特征不那么敏感，从而增强模型对特征中噪声的鲁棒性。这个过程包括两个步骤：1）选择一定数量的特征进行 mask，用 mask token 替代；2）利用回归损失来还原被 mask 的特征。

模型最终的优化目标是将多个损失函数联合进行多目标优化。

多模态与增强的图数据

4.1 制作并公开多模态推荐数据集

该工作制作并公开了 Netflix 和 MovieLens 两个多模态数据集。CLIP-ViT 和 Sentence-BERT 分别是视觉和文本信息的编码器。

Netflix 数据集：Netflix 是使用 Kaggle 网站上发布的原始 Netflix Prize 数据集制作的多模态数据集。数据格式与多模态推荐的最新方法（如 MMSSL、LATTICE、MICRO 等）完全兼容。文本模态是基础的 item 信息；视觉模态的图片则是根据电影的信息从网络爬取的海报。

MovieLens 数据集：MovieLens 数据集是由明尼苏达大学的 GroupLens 发布的。文本信息是基本电影属性，而视觉内容是通过 MovieLens 上的每个电影的 URL 获取的。该工作同样提供了一个经过预处理的 MovieLens 数据集，可直接供 LLMRec、MMSSL、LATTICE 和 MICRO 等 baseline 使用，无需额外的数据预处理，包括 1）原始图像和文本；2）基本用户-项目交互和多模态信息；3）以及 LLM 增强的内容。

文本模态 & 视觉模态如下：

4.2 原始的图数据和增强的图数据

本篇工作增强了 user-item 交互图的 edge 和 node。粗体文本用以标识被的增强数据：E 代表着用户与物品之间增强的交互边。而 U 和 I 分别表示 LLMRec 对 user/item 节点属性进行的增强，这些属性将在 GNNs 消息传递和嵌入的过程中被转化为特征，以加强推荐算法的性能。

实验

5.1 主实验结果

LLMRec 的性能对比主要是基于通用协同过滤（general CF）和多模态推荐方法。更详细地说，可以将其划分为以下子类别：通用协同过滤、带有辅助信息的推荐系统、数据增强推荐系统以及自监督推荐系统。LLMRec 模型通过显式增强用户-物品交互边缘和提高辅助信息的质量，相对于基准模型表现出更优异的性能。

值得一提的是，LLMRec 的模型基于 LATTICE 的编码器，包括 ID 对应编码器和特征编码器。这一改进突显了 LLMRec 框架的有效性。引入辅助信息显著增强了推荐系统的性能。像 MMSSL 和 MICRO 等方法因其有效利用多模态辅助信息和图神经网络而脱颖而出。

相比之下，一些方法依赖于有限的内容，比如仅使用视觉特征的 VBPR，或者像 NGCF 这样的通用协同过滤架构，没有使用辅助信息，导致结果明显降低。这突显了有价值内容的重要性，因为仅仅依赖 ID 对应的记录无法完整捕捉用户-物品关系。

现有方法，例如 LATTICE 和 MICRO，它们也利用辅助信息进行数据增强，与 LLMRec 的 LLMRec 相比，显示出有限的改进。这可以归因于两个主要因素：1）使用同质关系（例如，i-i 或 u-u）增强辅助信息可能引入噪音，从而可能影响用户偏好的准确性；2）这些方法通常不直接增强 u-i 交互数据。MMSSL 和 MICRO 在通过 SSL 信号解决稀疏性方面取得了有希望的结果。

然而，它们未能超越 LLMRec 的性能，可能是因为它们增强的自监督信号可能与建模用户-物品交互的目标任务不太匹配。相比之下，LLMRec 通过直接建立 BPR 三元组明确解决了训练数据的稀缺性。主实验的结果如下：

5.2 消融实验：数据增强&数据去噪

消融实验主要针对数据增强和去噪两个部分。w/o-u-i 在消去 LLM 增强的隐式反馈的情况下，结果显著下降。这表明 LLMRec 通过包含上下文知识增加了潜在的监督信号，从而更好地把握用户的偏好。w/o-u 移除 LLMRec 的用户建模增强器会导致性能下降，这表明 LLMRec 基于 LLM 的用户辅助信息能够有效地通过历史交互和物品端知识总结有用的用户偏好概况。

w/o-u：去除噪声剪枝会导致性能下降。这表明去除嘈杂的隐式反馈信号的过程有帮助。当 LLMRec 移除对用户和物品的增强辅助信息时，会观察到更低的推荐准确度。这一发现表明，基于 LLM 的增强辅助信息为推荐系统提供了宝贵的增强数据，有助于获得高质量和富有信息的表示。

此外，去除噪音修剪会导致性能下降。这表明去除嘈杂的隐式反馈信号的过程有助于防止不当的梯度下降。当同时去除隐式反馈和语义特征的去噪（即，w/o-prune + w/o-MAE）时，性能受到影响。这表明 LLMRec 的去噪数据强化机制，通过整合噪音修剪和语义特征增强，助力了优化过程。

5.3 参数实验：Text Generation&Recommendation

温度参数影响文本的随机性。较高的值（>1.0）增加多样性和创造性，而较低的值（<0.1）导致更加聚焦。LLMRec使用从集合中选取。如表所示，增加起初提高了大多数指标，随后出现下降。Top-p抽样根据由顶部参数确定的阈值选择标记。较低的值优先选择可能的标记，而较高的值则鼓励多样性。LLMRec使用来自集合的值，较小的值往往产生更好的结果。LLMRec使用来限制基于LLM的推荐系统中的物品候选项。