基于自监督学习的多模态推荐算法

2022-11-16 01:11

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | 新智元

来源 | 机器学习与推荐算法

学习多媒体内容的特征表示对多媒体推荐至关重要。目前的表示学习方法大致分为两类：利用历史交互信息来创建用户和物品的ID嵌入，以及将多模态数据作为物品的辅助信息来丰富其ID嵌入。每个用户与物品的交互都提供了监督信号，以优化传统监督学习范式下的表示学习。由于忽视了隐藏在数据中的多模态模式（比如，用户以前看过的短视频中的视频、声音、文本特征，以及它们的行为特征），这些方法不足以创建强大的表征并获得满意的推荐精度。

为了捕捉数据本身的多模态模式，本文在监督学习的范式基础之上，将自监督学习（SSL）的想法纳入到多媒体推荐中。具体来说，SSL包括两个部分：(1）多模态内容的数据增强；（2）对比学习，将一个项目的视图与其他项目的视图区分开来，以提炼出额外的监督信号。显然，SSL使本文能够探索和展示各种模式之间的基本关系，从而产生强大的表征。本文提出了自监督学习指导的多媒体推荐通用框架（SLMRec）。通过在三个真实世界的数据集上进行广泛的实验，表明SLMRec比几个最先进的基线方法如LightGCN、MMGCN取得了明显的改进。

论文：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9811387

代码：https://github.com/zltao/SLMRec/

本文的主要贡献如下：

本文设计了一个通用的自监督多媒体推荐框架SLMRec。它将SSL纳入基于图神经网络的推荐模型，以便从物品的各种模式中发现潜在的关联，并学习强大的特征表示。
本文从两个角度来利用多模态信息的挖掘，并相应地提出了三个辅助任务，即特征dropout，特征masking和特征粗细粒度特征学习。
本文在三个数据集上进行了大量的实验，验证了SLMRec的合理性和有效性。

下图为本文所提出的主要框架，其提出了一个多任务学习框架，其中SSL任务补充了多媒体推荐中主要的监督学习任务。

特别的，本文选择了一个基于图神经网络的推荐模型来服务于主要的监督学习任务（L_main)。针对于SSL任务（L_ssl)，设计了三种数据增强算子:特征Dropout(FD)、特征masking(FM)以及特征细粒度空间和粗粒度空间(FAC)。

为了鼓励模型学习多模态模式，而不是从单模态特征中寻求偏好得分的捷径，提取的单模态特征在融合前应该服从一致性假设。如果假设的多模态特征只代表强调的单模态特征，那么其不能发掘表征中的深层信息，即过拟合和噪声敏感性。本文将所提出的方法大致分为模态无关（即FD和FM）和模态特定的方法（即FAC）。前者鼓励可见特征预测破碎的特征，从而最大限度地提高互信息。后者更注重模态本身的特征，构建精细和粗略的空间来调整每两个模态的特征以增强一致性，从而更好地融合特征。

通过用SLMRec来表示这个自监督学习指导的多媒体推荐框架。其在三个数据集上进行了实验，结果表明SLMRec比LightGCN和MMGCN等先进的基线有很大的改进。

对于论文中的细节和实验效果，可移步原论文。

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章