ACM MM 2023 | 清华、华为联合提出MISSRec:兴趣感知的多模态序列推荐预训练
©PaperWeekly 原创 · 作者 | 王锦鹏
单位 | 清华大学深圳国际研究生院
研究方向 | 多模态检索、推荐系统
序列推荐是一种主流的推荐范式,目的是从用户的历史行为中推测用户偏好,并为之推荐感兴趣的物品。现有的大部分模型都是基于 ID 和类目等信息做推荐,在可扩展性和迁移性方面存在劣势。近期的一些工作(如 UniSRec [1]、VQ-Rec [2]、RecFormer [3] 等)提出使用文本内容学习通用的物品和序列表征,打开了结合内容分析的序列推荐的新研究点。
虽然文本信息能部分反映物品信息以及用户偏好,但推荐场景的需求经常是多模态的,比如在商品和短视频推荐中,图文信息都会影响用户的行为(如浏览、购买)。多模态信息是否有助于序列推荐?怎么利用多模态信息挖掘个性化偏好?这些目前还都是待探究的问题。
论文题目:
MISSRec: Pre-training and Transferring Multi-modal Interest-aware Sequence Representation for Recommendation
ACM MM 2023
https://arxiv.org/abs/2308.11175
https://github.com/gimpong/MM23-MISSRec
3. 在一个领域上训练完成的模型,难以迁移到其他领域。更普遍地,当 ID 集合完全不相交时,各个领域就形成一座座“数据孤岛”——即便模式相似,知识也难以迁移。
为了解决上述问题,我们的目光不再局限于依据 ID 信息来表征物品和序列,而是从物品多模态内容入手建模个性化。我们的直觉是,用户的决策是一个综合了多模态信息处理的过程。例如,对于商品的图文介绍,贴合需求的标题描述和精美的图片都可能吸引用户的关注。因此,我们认为多模态信息的有助于准确地描述物品和用户偏好,并且该信息基本不受热度(频次)影响。
此外,使用多模态信息的另一优势是跨场景的通用性。只要能获取到物品的描述文本、图片等元数据,我们就可以统一多场景的训练和推荐服务。如图 1 所示,我们期望借鉴 CV 和 NLP 的成功经验,通过预训练技术发掘蕴含在多模态信息中的领域通用的个性化模式,并通过微调实现推荐知识的高效迁移,达到多领域“共同提升”的效果。
▲ 图2:多模态序列推荐的挑战说明。(a)不同用户对不同模态的关注度有差别。(b)在用户的行为序列中可能包含多种偏好,且不同偏好的占比不同。
方法
如图 3 所示,MISSRec 包含了 “ID 无关的多模态预训练”以及“参数高效微调”两个阶段。在模型设计上,我们搭建了一个包含编码器和解码器的 Transformer 模型用于行为序列表征,并设计了多模态适配器、多模态兴趣发现模块等组件辅助建模。
从行为序列中提取多模态信息:使用冻结的预训练的 CLIP 提取每个物品的文本和图片特征,并使用 Dropout 处理。分别使用文本和图片的特征适配器,将特征投影到推荐任务的语义空间,并通过相加或者拼接的方式,形成多模态 token 序列; 从行为序列中提取用户的多模态兴趣表征:得到多模态 token 序列后,使用一个多模态兴趣发现模块(Multi-modal Interest Discovery Module),将多模态 token 序列转换为多模态兴趣 token 序列; 编码多模态兴趣的上下文表示:将多模态兴趣 token 序列送入 Transformer 编码器模块,获取多模态兴趣的上下文表示,作为解码模块的 memory(key 和 value); 兴趣感知的解码:将多模态 token 序列作为解码的 query,送入 Transformer 解码器模块,以序列末尾位置的输出作为整个序列的表征。
2.2 多模态兴趣挖掘
为了分析用户的多模态兴趣偏好,我们在整个物品集合的多模态token空间中进行聚类,选择的聚类算法名为 DPC-KNN [6]。
2.3 自适应的用户-物品多模态匹配
在计算用户-物品的匹配分数时,我们设计了一种自适应的多模态融合机制,以建模不同用户对物品多模态信息的差异化关注。
预训练的任务包含序列-物品匹配的对比学习、序列表征自监督对比学习、多模态兴趣表征的多样性正则。预训练的损失函数计算如下:
为了提高微调阶段的训练效率,我们去掉了序列的自监督表征训练,损失函数计算如下:
实验分析
我们选用 Amazon Review 数据集进行实验,在其中选取了 Food、CDs、Kindle、Movies 和 Home 这 5 个领域作为预训练数据集,选取 Scientific、Pantry、Instruments、Arts 和 Office 这 5 个领域作为下游微调数据集。数据集的统计信息见 Table 1。
该数据集在元数据中提供了物品的标题、类目等文本信息,并提供了图片链接。我们根据链接下载了部分图片,其余图片由于链接失效或网络问题未能爬取到。可以观察到图片模态的缺失比较严重,我们选择保留这些缺失模态的物品而不是过滤它们,目的是和现有方法公平对比。
3.2 实验结果
我们对比了 MISSRec 和使用多种不同信息的序列推荐基线。如 Table 2 所示,MISSRec 有非常强的竞争力,在大多数领域的大多数指标上超越了现有方法,在剩余部分指标上也达到了和最先进方法相当的水平,证明了多模态信息的有效性以及 MISSRec 的优势。
我们还探究了在下游目标领域结合使用 ID 信息的效果,以及预训练的影响。如 Table 4 所示,首先可以观察在下游结合 ID 信息的增益,特别是在物品数量更多的 Office 数据集上。我们认为的原因是,多模态信息反映物品的属性,刻画的是物品间的可迁移的共性(“哪一类”);而 ID 信息则刻画物品特性(“哪一个”)。随着物品增加,物品间的辨识难度提升,于是在表征中建模特性的需求也相应增加。
结论
参考文献
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者