港大&百度提出LLMRec:基于LLM增强的多模态图神经网络推荐
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
AI/CV重磅干货,第一时间送达
扫码加入CVer知识星球,可以最快学习到最新顶会顶刊上的论文idea和CV从入门到精通资料,以及最前沿项目和应用!发论文,强烈推荐!
大家好,我是蘑菇先生。
今天分享一篇来自港大和百度的paper,发表在WSDM2024上,研究基于LLM增强的多模态图神经网络推荐系统。
Author: Wei Wei
Paper: https://llmrec.files.wordpress.com/2023/10/wsdm_2024llmrec.pdf
Code: https://github.com/HKUDS/LLMRec
引入side information能够帮助缓解推荐系统的数据稀疏性问题,目前主流的推荐系统(比如:亚马逊,网飞)都引入模态side information来提升推荐的结果。但是,side information的使用不可避免地会引入一些问题,比如:噪声,低质量。
受启发于LLM的知识储备和自然语言理解能力,用LLM增强side information为上述问题提供了解决方案。为此,本文提出了LLMRec框架,使用LLM增强user-item交互信息和多模态信息,具体的:
i) u-i交互增强:用LLM从用户历史行为中推理用户偏好,来增强u-i交互图结构信息; ii) 文本模态信息增强:用LLM来增强item节点属性、user节点画像信息等文本模态特征。
进一步,为了保证增强数据的可靠性,本文分别针对上述i)和ii)设计了u-i交互剪枝和基于MAE(Masked Autoencoders)的item特征增强方法。
Solution
图神经网络推荐的经典方法包括:GC-MC、NGCF、LightGCN、MMGCN等。本文也是沿着这个经典路线,探讨基于LLM增强的多模态图神经网络推荐系统。几类图推荐系统的问题形式化如下。
图神经网络推荐:基于图拓扑结构学习蕴含在图中的协同信息,得到user\item的表征向量。问题形式化为:
其中,是user\item之间的隐式反馈行为(implicit feedback);图表征的目标是从user-item隐式反馈构造的图网络中,学习到user和item的表征向量来进行链接预测。此时学习到的即为节点的encoder。
基于side information的图神经网络推荐:在上述基础上,融入节点的辅助信息,来同时从节点辅助信息和图拓扑结构中进行图学习。即:
此时,对每个节点,我们要学习每个节点的encoder,即:。
基于数据增强的图神经网络推荐:本文提出了一种图数据增强的LLMRec框架,能够利用LLM来增强图交互结构和图节点信息,则新的问题定义为:
问题和上述类似,增强的地方包括:多模态节点信息增量以及隐式反馈行为增强,这也是LLMs能够发挥作用的地方。最后基于增强后的图,进行链接预测任务,最终学习到每个节点的encoder,即。
先从整体上看下LLMRec框架:
框架解决的问题:解决数据稀疏性、辅助信息异构性/兼容性/噪声问题; LLM的三类增强策略:u-i隐式反馈数据增强、item属性增强、user画像增强; 降噪和鲁棒训练方法:包括u-i剪枝降噪、特征MAE降噪等。
下面会围绕LLM的三类增强策略、降噪和鲁棒训练方法展开介绍。
隐式反馈增强:LLMs as Implicit Feedback Augmentor
用LLM进行隐式反馈的增强的原理是:基于用户历史行为中蕴含的辅助信息,通过LLM强大的知识体系和推理能力,来推荐用户感兴趣的候选集,并从中抽样出user-item pairs对,作为增强的数据。
具体过程:LLMRec首先利用user 的历史交互items及其side information和候选集构建prompt。此处需注意,因为受 ‘max_token_length’的限制,LLM不可能完成所有item的排序和采样。所以需要先基于baseline模型((LATTICE, MMSSL等)构造一个候选集。然后将prompt输入给LLM为该user 从candidates中选出一个正样本和一个负样本作为BPR的一个样本对。最后,将用LLM从自然语言角度选出样本集与原始的BPR训练数据合并,以得到最终的增强的BPR训练数据。形式化的:
是prompt,包括任务描述、用户历史行为、候选集、输出描述等。
具体prompt的设计如下图所示:
这种基于LLM的数据增强有以下优点:
它充分利用了数据集中的side information, 避免只用ID-based交互造成的已有信息的浪费。 它基于语义文本信息进行user-item交互的预测,能够直观地建模用户的交互偏好。 未交互的item不一定是user不喜欢的但常常被当做负样本,已交互的item也有可能是误选。基于LLM的隐式反馈增强是基于真实知识和记录进行样本选取,可以一定程度地修正这些错误。
先抛1个问题:此处使用LLM来增强隐式反馈数据,势必会引入噪声,如何解决这个噪声问题?
Side Information信息增强:LLM-based Side Information Augmentation
用LLM进行side information的增强的过程是:首先,利用数据集中的文本信息和交互记录构建prompt。然后,将prompt输入LLM得到生成的item attribute/user profile。接着,将数据增强得到的item attribute/user profile用有embedding能力的LLM进行编码。
可以看出,此处使用了LLM来做信息的增强,输出的是LLM的表征向量。
最后,将编码得到的增强了的feature用作推荐系统的user和item的feature,如下:
具体而言,LLM输出的表征向量会经过一个线性层映射到和初始表征相同维度的空间上,即: ;再做一个归一化;最后和原始表征加权相加。
同理相同的问题,如何保证增强的特征中没有噪声。
降噪和鲁棒性:Training with Denoised Robustification
具体学习的时候,过程如下:
其中,。B为batchsize,是系数,用于约束增强隐式反馈数据的大小。
回头看前面抛出的问题:使用LLM来增强数据,势必会引入噪声,如何解决这个噪声问题?
为了确保要使用的增强了的数据的可靠性和有效性并避免噪声的影响,该工作包含针对隐式反馈和feature的去噪。
隐式反馈的剪枝
将log sigmoid后的数值进行升序排序,也即将预估置信度较低的样本丢弃,得到可靠性较高的隐式反馈数据。
Feature的MAE
对增强了的feature进行MAE(Masked Autoencoder)能让encoder对feature不那么敏感以增强模型对feature中噪声的鲁棒性。这个过程包含两步,i)mask掉一定数量的feature, 用mask token替代。ii)用回归loss约束还原被mask掉的feature。
最终的损失是和的加权和。
最后,作者还从梯度的角度论证了两类噪声样本的特点:未交互不代表用户不喜欢的样本、交互了但不一定能反应用户偏好的样本(比如误触)。这两类样本优化的时候是往反方向走的。具体的,噪声交互行为通常偏小(false positives,假正例),导致大的梯度值;未交互的样本,通常偏大(false negtives,假负例),也会导致大的梯度值。也即:噪声样本的梯度优化方向相反,但梯度值较大,导致噪声样本的影响较大。这种影响在纯粹基于ID的推荐系统中尤为严重,LLMRec能够利用通用的世界知识,推理用户行为,得到较高质量的样本,减少了噪声影响。
Evaluation
数据集
在Netflix和MovieLens这两个公开数据集上做实验。作者对公开数据集做了完善,并适配了不同的开源多模态模型,如MMSSL、LATTICE、MICRO等。
Netflix:Netflix是使用Kaggle网站上发布的原始Netflix Prize数据集制作的多模态数据集。数据格式与多模态推荐的最新方法(如MMSSL、LATTICE、MICRO等)完全兼容。对于文本模态,基础的信息包括‘title’,‘year’;视觉模态的图片则是根据电影的信息从网络爬取的海报。
其中,文本模态信息:Kaggle网站上描述的有关Netflix的信息,(2)来自原始Netflix Prize数据的文本信息,以及(3)由LLM增强的文本信息。视觉模态信息:通过网络爬虫得到。以下图片展示了通过使用Netflix Prize Data中的项目信息进行网络爬虫获取的海报。
MovieLens:MovieLens数据集是由明尼苏达大学的GroupLens发布的。收集了 'title'、'year' 和 'genre' 作为基本的与项目相关的文本信息,而视觉内容是通过MovieLens上的每个项目的URL获取的。该工作同样提供了一个经过预处理的MovieLens数据集,可直接供LLMRec、MMSSL、LATTICE和MICRO等baseline使用,无需额外的数据预处理,包括: (1)原始图像和文本,(2)基本用户-项目交互和多模态信息 (3)以及LLM增强的内容。
LLM
使用OpenAI的LLM API来做数据增强。具体使用:
gpt-3.5-turbo-0613:用于u-i数据增强、item属性节点增强:directiors\country\language; gpt-3.5-turbo-16k: 用于用户画像增强,age/gender/preferred genre/disliked genre/preferred directors/country/language; text-embedding-ada-002:用于获取文本表征。
开销分别为15.65USD、20.40USD、3.12USD。
最终,增强的数据包括增强的u-i交互边和u/i节点的attributes和feature。针对user增强的信息有“age, gender, liked genre, disliked genre, liked directors, country, and language”; 针对item增强的信息有“director, country, language”。然后,文本形式的信息会被编码成feature供recommender encoder使用。CLIP-ViT和 Sentence-BERT分别是视觉和文本信息的编码器。
对比实验
LLMRec对比的baseline主要general CF和多模态推荐的方法。更细致地可以划分为general CF, 有side information的推荐系统,有数据增强的推荐系统,自监督推荐系统。LLMRec通过显式增强用户-物品交互信息和提升辅助信息的质量,优于基准模型。
消融实验
消融实验主要针对数据增强和去噪两个部分。w/o-u-i在消去LLM增强的隐式反馈的情况下,结果显著下降。这表明LLMRec通过包含上下文知识增加了潜在的监督信号,从而更好地把握用户的偏好。w/o-u移除我们的用户建模增强器会导致性能下降,这表明我们基于LLM的用户辅助信息能够有效地通过历史交互和物品端知识总结有用的用户偏好情况。w/o-u:去除噪声剪枝会导致性能下降。这表明去除噪声隐式反馈信号的过程有帮助。
Conclusion
本文主要研究了基于LLM增强的多模态图神经网络推荐系统,通过推理用户历史偏好和item语义信息来增强u-i交互数据和节点多模态特征,来缓解数据稀疏性、辅助信息低质量等问题。最后通过两种降噪机制来提升模型训练的鲁棒性。整体框架清晰,有一定的普适性。感谢作者的投稿。
后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集 后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
计算机视觉和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-计算机视觉或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
▲扫码加入星球学习
整理不易,请点赞和在看▲点击上方卡片,关注CVer公众号
微信扫码关注该文公众号作者