Redian新闻
>
ACM MM 2023 | 清华、华为联合提出MISSRec:兴趣感知的多模态序列推荐预训练

ACM MM 2023 | 清华、华为联合提出MISSRec:兴趣感知的多模态序列推荐预训练

科技

©PaperWeekly 原创 · 作者 | 王锦鹏

单位 | 清华大学深圳国际研究生院

研究方向 | 多模态检索、推荐系统


序列推荐是一种主流的推荐范式,目的是从用户的历史行为中推测用户偏好,并为之推荐感兴趣的物品。现有的大部分模型都是基于 ID 和类目等信息做推荐,在可扩展性和迁移性方面存在劣势。近期的一些工作(如 UniSRec [1]、VQ-Rec [2]、RecFormer [3] 等)提出使用文本内容学习通用的物品和序列表征,打开了结合内容分析的序列推荐的新研究点。

虽然文本信息能部分反映物品信息以及用户偏好,但推荐场景的需求经常是多模态的,比如在商品和短视频推荐中,图文信息都会影响用户的行为(如浏览、购买)。多模态信息是否有助于序列推荐?怎么利用多模态信息挖掘个性化偏好?这些目前还都是待探究的问题。

在下面这篇论文中,来自清华和华为的研究者针对这些问题提出了兴趣感知的多模态序列推荐预训练方法,为多模态序列推荐任务提供了一种通用的解决方案。

论文题目:

MISSRec: Pre-training and Transferring Multi-modal Interest-aware Sequence Representation for Recommendation

收录会议:

ACM MM 2023

论文链接:

https://arxiv.org/abs/2308.11175

代码链接:

https://github.com/gimpong/MM23-MISSRec



背景
序列推荐是一个自回归的预测任务:根据用户的历史行为(如浏览)序列,预测用户下一个行为,如可能浏览的物品。典型的序列推荐模型(如 SASRec [4]、BERT4Rec [5] 等)大部分基于 ID 和类目等信息学习物品和用户行为序列的表征,存在以下问题:
1. 少见物品的表征学习欠拟合,具体表现是在长尾物品上推荐效果差;
2. 可扩展性较差,加入新的物品后,存在冷启动问题;

3. 在一个领域上训练完成的模型,难以迁移到其他领域。更普遍地,当 ID 集合完全不相交时,各个领域就形成一座座“数据孤岛”——即便模式相似,知识也难以迁移。

为了解决上述问题,我们的目光不再局限于依据 ID 信息来表征物品和序列,而是从物品多模态内容入手建模个性化。我们的直觉是,用户的决策是一个综合了多模态信息处理的过程。例如,对于商品的图文介绍,贴合需求的标题描述和精美的图片都可能吸引用户的关注。因此,我们认为多模态信息的有助于准确地描述物品和用户偏好,并且该信息基本不受热度(频次)影响。

此外,使用多模态信息的另一优势是跨场景的通用性。只要能获取到物品的描述文本、图片等元数据,我们就可以统一多场景的训练和推荐服务。如图 1 所示,我们期望借鉴 CV 和 NLP 的成功经验,通过预训练技术发掘蕴含在多模态信息中的领域通用的个性化模式,并通过微调实现推荐知识的高效迁移,达到多领域“共同提升”的效果。

▲ 图1:从单领域训练转变为多领域数据联合训练,每个圆圈代表一个推荐领域(或场景)。使用多模态信息,可以将多个推荐领域的数据联合起来预训练,再通过微调模型适配到具体领域,这样做相比单领域训练有 “1+1>2” 的潜力。
对于这样一个目标,我们认为挑战主要有两点,如图 2 所示:1)不同用户对物品的多模态信息关注度不同,比如在商品推荐中,不同用户对文本和图片的关注程度可能不同;2)用户的历史序列可能同时刻画了多种类型的偏好,且不同偏好的占比是不均衡的。比如在购物平台上,食物或日用品的购买次数可能比较多,而笔记本电脑等数码产品则一般相对较少。

▲ 图2:多模态序列推荐的挑战说明。(a)不同用户对不同模态的关注度有差别。(b)在用户的行为序列中可能包含多种偏好,且不同偏好的占比不同。



方法

针对上述挑战,我们提出了一个兴趣感知的多模态序列推荐预训练方法,称为 MISSRec (Multi-modal IntereSt-aware Sequence representation for Recommendation)。
2.1 模型总览

▲ 图3:模型框架图

如图 3 所示,MISSRec 包含了 “ID 无关的多模态预训练”以及“参数高效微调”两个阶段。在模型设计上,我们搭建了一个包含编码器和解码器的 Transformer 模型用于行为序列表征,并设计了多模态适配器、多模态兴趣发现模块等组件辅助建模。

给定一个行为序列,其中每个元素是一个物品。序列表征模型的工作流程是:
  • 从行为序列中提取多模态信息:使用冻结的预训练的 CLIP 提取每个物品的文本和图片特征,并使用 Dropout 处理。分别使用文本和图片的特征适配器,将特征投影到推荐任务的语义空间,并通过相加或者拼接的方式,形成多模态 token 序列;
  • 从行为序列中提取用户的多模态兴趣表征:得到多模态 token 序列后,使用一个多模态兴趣发现模块(Multi-modal Interest Discovery Module),将多模态 token 序列转换为多模态兴趣 token 序列;
  • 编码多模态兴趣的上下文表示:将多模态兴趣 token 序列送入 Transformer 编码器模块,获取多模态兴趣的上下文表示,作为解码模块的 memory(key  和 value);
  • 兴趣感知的解码:将多模态 token 序列作为解码的 query,送入 Transformer 解码器模块,以序列末尾位置的输出作为整个序列的表征。

2.2 多模态兴趣挖掘

为了分析用户的多模态兴趣偏好,我们在整个物品集合的多模态token空间中进行聚类,选择的聚类算法名为 DPC-KNN [6]

具体来说,假设整个多模态 token 集合记 我们首先计算每个 token 的局部密度分数,以第 个 token 为例,计算方式如下

其中 表示 近邻集合。其次,我们计算每个 token 到密度峰值的最小距离,以第 个 token 为例,计算方式如下
上述公式的含义是,如果存在密度分数比自身大的 token 存在,那么返回符合条件的最小距离;否则返回到集合中任一点的最大距离。选择聚类中心的依据是,挑选分数 最大的 k 个 token 作为 k 个聚类中心。在 MISSRec 的设定中,聚类中心代表多模态兴趣的原型表征。
确定聚类中心后,我们记录集合 中的每个 token 被分配到哪个聚类中心,存储为映射表,代表每个 token 分别反映了用户的何种兴趣。在我们的实现中,多模态兴趣挖掘在每个训练 epoch 的启动前执行一次,即多模态兴趣的原型表征和映射表会在每个 epoch 启动前更新一次。
在序列表征模型的工作流程中,多模态兴趣发现模块负责将多模态 token 序列转化为多模态兴趣 token 序列。转化的方式是收集整个序列的兴趣映射结果并去重,返回原 token 序列包含的兴趣的原型表征,如图 4 所示。去重的目的是消除兴趣比例不均衡的影响。
▲ 图4:多模态兴趣发现模块的工作方式

2.3 自适应的用户-物品多模态匹配

在计算用户-物品的匹配分数时,我们设计了一种自适应的多模态融合机制,以建模不同用户对物品多模态信息的差异化关注。

是第 个用户的序列表征, 分别是第 个物品的文本 token 和图片 token。用户个性化的物品表征通过以下方式计算:

其中 是一个可学习的控制系数。我们简记 分别为用户和物品单模态的匹配分数。相应地,用户-物品整体的匹配分数计算方式是

注意到,这种自适应的机制等价于提前先计算用户-物品单模态的匹配分数,再进行融合。融合的方式介于取平均()和取最大()之间。
2.4 优化目标

预训练的任务包含序列-物品匹配的对比学习、序列表征自监督对比学习、多模态兴趣表征的多样性正则。预训练的损失函数计算如下:

为了提高微调阶段的训练效率,我们去掉了序列的自监督表征训练,损失函数计算如下:

此外,我们仅微调多模态特征适配器,模型的其余部分保持冻结,以达到参数高效性。


实验分析

3.1 数据集

我们选用 Amazon Review 数据集进行实验,在其中选取了 Food、CDs、Kindle、Movies 和 Home 这 5 个领域作为预训练数据集,选取 Scientific、Pantry、Instruments、Arts 和 Office 这 5 个领域作为下游微调数据集。数据集的统计信息见 Table 1。

该数据集在元数据中提供了物品的标题、类目等文本信息,并提供了图片链接。我们根据链接下载了部分图片,其余图片由于链接失效或网络问题未能爬取到。可以观察到图片模态的缺失比较严重,我们选择保留这些缺失模态的物品而不是过滤它们,目的是和现有方法公平对比。

我们使用预训练的 CLIP-ViT-B/32 模型抽取文本特征和图片特征,相关数据我们也已在开源仓库中共享。

3.2 实验结果

我们对比了 MISSRec 和使用多种不同信息的序列推荐基线。如 Table 2 所示,MISSRec 有非常强的竞争力,在大多数领域的大多数指标上超越了现有方法,在剩余部分指标上也达到了和最先进方法相当的水平,证明了多模态信息的有效性以及 MISSRec 的优势。

我们还研究了不同模型在低频物品上的表现。如 Figure 4 所示,横轴表示物品在训练集中的出现频次的区间,灰色直方图表示物品在测试集上的总出现频次(样本数),折线图表示在测试集上的相对的召回性能(以 SASRec为基准)。从图上可以看出 MISSRec 在长尾、冷启动物品上的显著优势,侧面证明了多模态信息在推荐中的价值。

我们还探究了在下游目标领域结合使用 ID 信息的效果,以及预训练的影响。如 Table 4 所示,首先可以观察在下游结合 ID 信息的增益,特别是在物品数量更多的 Office 数据集上。我们认为的原因是,多模态信息反映物品的属性,刻画的是物品间的可迁移的共性(“哪一类”);而 ID 信息则刻画物品特性(“哪一个”)。随着物品增加,物品间的辨识难度提升,于是在表征中建模特性的需求也相应增加。

此外,预训练在大多数情况下可以提升下游领域的推荐效果,但在某些设定下,MISSRec 的迁移效果仍然不理想,比如在 Office 数据集上不使用 ID 信息进行微调,出现了负向迁移的现象。除了部分原因是参数高效微调的设定限制了领域适应的效果外,还有一部分原因是推荐应用的不同领域间行为模式的差异较大,而 MISSRec 的设计还不足以解决这个问题。这是目前留给我们和社区的一个改进目标。


结论

本文的目标是使用多模态信息改善序列推荐的可扩展性和迁移性。我们提出了兴趣感知的多模态序列推荐预训练方法 MISSRec,为多模态序列推荐任务提供了一种的通用的解决方案。在 MISSRec 中,我们搭建了一个包含编码器和解码器的 Transformer 模型用于行为序列表征,并设计了多模态适配器、多模态兴趣发现模块、自适应的用户-物品匹配等组件或机制辅助建模。通过实验,我们展示了 MISSRec 的优势和不足。相关代码和预处理数据已经开源,便于大家使用。


参考文献

[1] Hou Y, Mu S, Zhao W X, et al. Towards universal sequence representation learning for recommender systems[C]//Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2022: 585-593.
[2] Hou Y, He Z, McAuley J, et al. Learning vector-quantized item representation for transferable sequential recommenders[C]//Proceedings of the ACM Web Conference 2023. 2023: 1162-1171.
[3] Li J, Wang M, Li J, et al. Text Is All You Need: Learning Language Representations for Sequential Recommendation[C]//Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2023: 1258-1267.
[4] Kang W C, McAuley J. Self-attentive sequential recommendation[C]//2018 IEEE international conference on data mining. 2018: 197-206.
[5] Sun F, Liu J, Wu J, et al. BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer[C]//Proceedings of the 28th ACM international conference on information and knowledge management. 2019: 1441-1450.
[6] Du M, Ding S, Jia H. Study on density peaks clustering based on k-nearest neighbors and principal component analysis[J]. Knowledge-Based Systems, 2016, 99: 135-145.


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
直上云霄《湖天一览楼》1部5章(1)承天寺小模型如何进行上下文学习?字节跳动 & 华东师大联合提出自进化文本识别器EMNLP 2023 | 阅读顺序很重要:蚂蚁联合复旦提出全新多模态文档信息抽取模型新年重磅!易方达、富国、华泰柏瑞、嘉实、银华、华宝、大成、工银瑞信、平安、摩根等10家基金拔头筹JMT 2023.08.20把ChatGPT塞进副驾驶!清华、中科院、MIT联合提出Co-Pilot人机交互框架:完美把控乘客意图工业异常检测大模型来了!哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型JMT 2023.08.23JMT 2023.08.21ICCV 2023 | 通向3D感知大模型的必由之路!UniTR:统一多模态Transformer Encoder!上海内推 | 小红书多模态算法组招聘多模态CV/NLP算法实习生NeurIPS 2023 | 中科院&旷视提出DropPos:全新的自监督视觉预训练代理任务NeurIPS 2023 | 旷视张祥雨等人提出RevColV2:当解耦学习遇见自监督训练!视觉预训练新思路US News 2023ICCV 2023 | 清华、ETH提出Retinexformer,刷新十三大暗光增强榜低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型2023世界VR产业大会 | 华为联合伙伴召开生态论坛,开启数智新未来改进分子表征学习,清华团队提出知识引导的图 Transformer 预训练框架告别夏天 - 再登Sarrail Ridge无需额外知识或训练!中科大等提出OPERA:缓解多模态大模型幻觉问题的基于注意力惩罚与回退策略的解码方法武大&港大提出FreeReg:预训练扩散大模型取得点云-图像配准SoTA!多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟​CIKM 2023 | 为序列推荐引入自适应以及个性化全局协同信息的通用框架《编织梦幻的人·达利篇之三》SSLRec:统一的自监督推荐算法库NeurIPS 2023 | MSRA、清华、复旦等联合提出AR-Diffusion:基于自回归扩散的文本生成预训练机器阅读理解模型:对齐生成式预训练与判别式下游场景港大&百度提出LLMRec:基于LLM增强的多模态图神经网络推荐Nat. Commun. | 高歌课题组提出跨平台、多模态空间组学比对与整合方法一船静谧的秋天把ChatGPT塞进副驾驶!清华、中科院、MIT联合提出Co-Pilot人机交互框架NeurIPS 2023 | RevCol V2: 当解耦学习遇上自监督训练,视觉预训练的思路NeurIPS 2023 | 跨模态提示:微调大型预训练模型适应音视频下游任务CNN能搞多模态了!UniRepLKNet:大核CNN一统多种模态,图像/视频/点云/时序/音频均达SOTA水平!俄乌战况12NeurIPS 2023 | 北大&华为提出:多模态基础大模型的高效微调微软提出KOSMOS-2.5,能阅读「文本密集图像」的多模态大语言模型小模型也能进行上下文学习!字节&华东师大联合提出自进化文本识别器TKDE 2023 | 超越共现!大连理工提出全新多模态会话推荐系统
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。