Redian新闻
>
​WWW 2023 | 无图协同过滤

​WWW 2023 | 无图协同过滤

科技



©PaperWeekly 原创 · 作者 | 夏良昊
单位 | 香港大学

研究方向 | 推荐系统


论文题目:

Graph-less Collaborative Filtering

收录会议:

WWW 2023

论文链接:

https://arxiv.org/abs/2303.08537

代码链接:

https://github.com/HKUDS/SimRec

港大数据智能实验室

https://sites.google.com/view/chaoh




研究背景

图神经网络(GNN)方法通过迭代的信息传播机制,能够准确地捕捉图数据的拓扑结构,得到较好的低维图表征。受到这一启发,近年来出现了多种基于图神经网络的协同过滤(CF)方法,通过对用户、商品交互图的准确表征学习,取得了较好的个性化推荐效果。尽管现有方法已经取得了很大的成功,我们认为基于 GNN 的协同过滤方法在根本上存在两个重要的缺陷:

  • 过平滑和噪音问题GNN 固有的高阶信息传播机制,可能对节点表征进行过度的平滑,使其过于相似而丧失节点本身的独有特征。同时,推荐系统中观测到的用户、商品交互中,不可避免地含有噪音信息,如用户误点、流行度 bias。GNN 迭代的信息传播机制,会同时将噪音信息进行传播,从而阻碍对真正交互信息的有效学习。

  • 模型可扩展性问题为了捕捉多跳的交互关系,GNN 模型需要进行迭代的信息传播,从而将每个节点的表征传递至多跳外的其他节点。这一过程使得 GNN 模型在推理阶段,需要进行重复多次的全局信息传播,导致了其相对 MLP 等简单模型更大的开销,使其难以应用到大规模数据上。

为了解决以上 GNN-based CF 模型中的问题,我们需要应对以下挑战:

  • 在用户、商品交互建模中,如何以一种高效的方式将全局、高阶的协同信号进行保留。

  • 在捕捉高阶协同关系的同时,如何使模型能够对抗过平滑和噪音问题。

如下图所示,我们展示了本文所提出的 SimRec 模型在上述问题上的表现。

具体来说,图(a)显示,SimRec 能够在保持极低的推理时间前提下,达到甚至更好的模型预测效果;图(b)显示,面对两个有着不同交互兴趣、但又被噪音边所连接的用户来说,SimRec 中基于多层感知机(MLP)的学生模型,相对于 GNN 模型,能够显著识别出这种噪音连接关系,降低两个用户的表征相似性;图(c)显示,由于更好的对抗过平滑能力,SimRec 模型能够学习分布更广、更均匀的低维节点表征。

知识蒸馏(KD)能够将大模型学得的知识有效提炼、蒸馏到小模型中,从而在保持较好预测能力的情况下提升模型性能,在 CV、NLP、图学习等多个领域中取得了较好的效果。传统的知识蒸馏方法,通过对齐大模型和小模型的预测结果,赋予小模型和大模型相近的建模能力。
然而,由于协同过滤数据中显著的数据稀疏和数据噪声问题,GNN-based 大模型中的过平滑和噪声信号无法在蒸馏过程中进行过滤,会导致得到的小模型仍然容易受到这一问题的困扰。但是,最近在对比学习方向上的推进,使我们能够使用对比学习方法产生更多的监督信号,不仅能在蒸馏的过程中得到更好的抗平滑蒸馏效果,也能在传统蒸馏方法的基础上进一步提升蒸馏效率。
在本工作中,我们提出了一种无图(graph-less)的协同过滤框架 SimRec,能够在不使用复杂的图结构信息的情况下,同时提高推荐模型的效果和效率。具体来说,我们设计了一种包含两种对齐方法的知识蒸馏框架,从基于 GNN 的教师模型蒸馏知识到高效的 MLP 学生模型中。在我们的蒸馏方法设计中,不仅对教师模型的预测结果,也对它的隐藏层表征进行蒸馏。
此外,为了增强蒸馏方法的抗噪声、抗过平滑能力,我们设计了一种采用对比学习正则的自适应蒸馏方法,以在蒸馏的过程中削弱 GNN 教师模型收到噪声和过平滑的影响。

总的来说,本文主要做出了以下贡献:

  • 我们提出了一种对比知识蒸馏方法,将基于 GNN 的 CF 模型压缩为一个简单的 MLP 推荐模型,同时提升模型的效果和效率。

  • 我们从两个方面进行了理论分析:i)本文的蒸馏方法能够进行自适应的高阶平滑;ii)本文方法能够显著扩充自监督信号。

  • 我们在公开数据集上进行了全面的实验,验证了本文所提出的 SimRec 方法能够显著提升 CF 任务的有效性。



模型介绍

本章介绍所提出的 SimRec 方法,主要包括基于 GNN 多教师模型、基于 MLP 的学生模型,从 prediction-level 和 embedding-level 两种角度进行的知识蒸馏,以及自适应的对比学习正则约束。模型框架如下图所示。

2.1 通用协同过滤架构

协同过滤方法根据历史观测的用户、商品交互记录,对用户、商品进行表征学习,再根据学得的表征进行用户便好预测。基于不同模型架构的协同过滤方法,一般都可以表述为下面的两个阶段,即 emebdding 表征学习阶段,和 prediction 根据表征进行预测的阶段。

基于 MLP 的协同过滤方法,使用简单的 MLP 网络对用户初始 embedding 进行深度特征提取,并使用内积度量 embedding 之间的相关性,从而实现对用户、商品关系的预测。这种方法的目标在于提取 embedding 中的深层特征,在 embedding 阶段不利用交互数据,因此具有较高的效率,不易于受到过平滑和噪音数据的影响。
而基于 GNN 的协同过滤方法,在 embedding 阶段使用 GNN 进行特征提取,在预测阶段通常仍使用简单的内积度量。由于对高阶交互关系的有效利用,GNN-based CF 通常具有更高的准确性,但也使其在预测阶段效率降低,且易于受到噪音和过平滑关系数据的影响。

基于上述两种模型优劣的讨论,本文提出使用 GNN 模型作为教师模型,使用 MLP 模型作为学生模型,以求同时保持两者的优势,摒弃两者的劣势,得到准确且高效的 CF 模型。

2.2 对比知识蒸馏

为了蒸馏 GNN 模型中的知识到学生模型,SimRec 采用了预测结果蒸馏(Prediction-Level Distillation)和表征蒸馏(Embedding-Level Distillation)两种知识蒸馏方式。
首先,参考基于 KL 散度的传统知识蒸馏方法,SimRec 对教师模型和学生模型的预测结果进行对齐。受到推荐系统研究中排序损失函数 BPR 的启发,SimRec 通过排序任务来对齐两个模型的预测结果。
具体来说,我们随机采样一些用户、商品三元组,每个三元组包括一个用户和两个商品,SimRec 的教师模型和学生模型,会分别预测三元组中用户对两件商品的偏好分数差值。预测结果蒸馏采用二分类交叉熵损失函数,来拉近两个模型预测分数的差距。
值得注意的是,与普通的知识蒸馏方法不同,SimRec 的预测结果蒸馏针对 CF 场景的特点,进行了独特的暗知识挖掘。具体来说,普通的 KD 方法一般针对多分类问题,在知识蒸馏过程中,不仅学习哪个类别分数最高,也会学习所有类别之间的分数高低关系,来扩充蒸馏的训练样本,使学生模型能够从教师模型中学习得到隐含的暗知识。
然而,简单将 CF 任务视为多分类问题是有问题的,CF 场景中有数量庞大的商品作为类别,使得蒸馏时教师模型给出的软标签,数值很容易接近 0,导致难以排序。为了解决这一问题,我们的预测结果蒸馏采用了成对排序任务,通过更丰富的训练样本对来充分挖掘教师模型中的暗知识。

在预测结果蒸馏之外,SimRec 进一步进行了表征蒸馏,以对齐教师和学生模型的隐含表征。我们采用对比学习方法,拉近两个模型对同一个用户、商品节点给出的表征,推远不同节点的表征。在这一过程中,教师模型的表征不进行更新。为了进一步强调 GNN 模型的高阶特性,我们仅利用 GNN 模型的高阶表征。通过这一方法,不仅进一步对齐了两个模型,也带来了更高的蒸馏效率。

2.3 自适应对比正则

为了防止 GNN 模型中的过平滑和噪音信号,通过知识蒸馏对学生模型产生负面影响,SimRec 受到对比学习损失启发,通过全局性地推开任意两点的表征,对学生模型的表征学习进行正则。为了更好地区分过平滑信号和正常的平滑信号,SimRec 计算蒸馏任务的梯度与主任务梯度之间的相似性,根据这一相似性对对比正则进行自适应的权重调整。




实验结果

我们在 Gowalla、Yelp、Amazon 三个数据集上进行了对比实验,数据集统计信息如下

在实验中,SimRec 取得了稳定优于基线方法的模型效果,并通过 t-test 验证了效果提升的显著性。同时我们观测到,非 GNN 的基线方法,如 NCF、AutoR,只能取得较差的模型效果,但 SimRec 优越的预测性能同样是通过简单的 MLP 网络得到,这充分验证了使用蒸馏方法对简单 MLP 方法进行监督所能带来的巨大提升。

我们进行了详尽的消融实验,从以下结果可以看出,SimRec 的各个模块,包括两种蒸馏方法和自适应的对比正则,不仅可以带来最终模型效果的提升,还能够带来更快的模型优化速度。

此外,通过在大规模数据集上的实验,我们验证了 SimRec 模型在大规模数据集上,不仅仍然能够取得较好的效果,也能通过免除对大规模图结构数据的处理、采样,达到显著更高的模型效率。




总结

本文提出了一种对比知识蒸馏方法,能够自适应地从 GNN 教师模型中迁移知识到简单的多层感知机模型,显著提升了推荐模型的鲁棒性和效率。自适应的对比正则损失能够约束知识蒸馏,得到具备更好抗过平滑和噪声能力的用户、商品表征。通过全面的实验,我们验证了 SimRec 模型在效果和效率上的优越性。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
苹果WWDC 2023定档 将在6月6日至10日举办​WWW 2023 | 自监督多模态推荐系统发现肺部占位,心情如同过山车BB鸭 | 小米去年总收入2800亿元;马斯克给员工200亿股票奖励;比亚迪宋新款曝光;苹果WWDC 2023定档6月5日品味布隆过滤器的设计之美真正厉害的人,都是“过滤型”人格时光无法过滤背靠阿里,未来科技城房价如同过山车国际要闻简报,轻松了解天下事(03WWW 2023 | 如何设置温度系数?用于推荐的自适应调节表征模长的方法No. 122 上海老风味之五十七 腌笃鲜(视频)闽南【浥饭/油饭】Eik P'ng转:2023 回国探亲(5)钢琴协奏曲最美乐章(更新中)每天学一句英语台词|​Wait a secondWWW 2023 | 一键追更互联网技术国际顶会的最新科研进展!每天学一句英语台词|​Whatever谁说站在光里的才算英雄——CMP过滤给家里的水龙头装上它~不耗电6重过滤,随时用水都很安心!Deepin V23上线新功能:实现与 Windows 系统跨端协同2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一每天学一句英语台词|​What's the problem?​WWW 2023 | 元数据对科学文献分类的影响:一项跨领域跨模型的研究每天学一句英语台词|​What's the point?《粤港澳大湾区协同创新发展报告(2022)》发布|战略性新兴产业创新优势渐显,广州汽车制造业创新能力持续增强苹果或将在6月5日举行 WWDC 2023 主题演讲35岁被大厂“过滤”,并非无解炸裂!最新CVPR2023、ICML2023、AAAI2023、ACL2023论文+Code大合集!WWW 2023|快手:通过强化学习提升用户留存2023 春 祝姐妹们周末快乐!聚焦2023云边协同大会 | 构建云边端一体分布式云,助力行业数字化转型升级加强校企合作 深化投教协同 广发基金举办2023年度“一司一省一高校”首场活动小花猫,愣头愣脑本周六,快手&高瓴人工智能学院启动WWW23论文分享会,探讨推荐搜索领域热点(30个现场名额)Eruope 2023不泡豆、免过滤、自清洗,豆浆/米糊/果汁/咖啡样样行!这豆浆机定要拥有!情人节 狗屁通​WSDM 2023 | S2GAE: 简单而有效的自监督图自动编码器框架每天学一句英语台词|​What are you doing here?每天学一句英语台词|​What's so funny?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。