Redian新闻
>
TKDE 2023 | 超越共现!大连理工提出全新多模态会话推荐系统

TKDE 2023 | 超越共现!大连理工提出全新多模态会话推荐系统

科技

©PaperWeekly 原创 · 作者 | 张晓堃

单位 | 大连理工大学

研究方向 | 数据挖掘,推荐系统


论文题目:

Beyond Co-occurrence: Multi-modal Session-based Recommendation

论文期刊:

IEEE Transactions on Knowledge and Data Engineering (TKDE)

论文链接:

https://arxiv.org/abs/2309.17037

代码链接:

https://github.com/Zhang-xiaokun/MMSBR




会话推荐
推荐系统是缓解信息爆炸的重要工具,其在现代电子商务网站中起着不可替代的作用。传统的推荐系统通常利用用户长期的历史行为数据来预测用户未来的行为。然而,在大多数情况下,由于隐私政策及用户未登录等原因,我们无法获取用户丰富的历史数据。因此,研究人员提出了会话推荐(session-based recommendation)。会话推荐根据匿名用户有限的交互数据来预测其接下来的行为。因为其巨大的实用价值,会话推荐一经提出就吸引了广泛的关注。



研究动机

现有的会话推荐方法大都依赖于挖掘商品 ID 所展现的商品共现关系来对用户行为进行预测。尽管基于共现的方法取得了一定的进展,但是囿于一个会话内用户的行为十分有限,这种模式极大地限制了相关会话推荐方法的性能。并且,基于共现关系的方法忽略了,真正吸引用户与一件商品产生交互的是网页上展示的有关商品的多模态信息,包括商品的图片(image),描述文本(text)及商品价格(price)。

如上图所示,用户通常在看完商品的图片,读完商品的描述信息,检查完商品的价格之后,才会决定是否购买这件商品。根据这些多模态信息的不同特点,我们可以将其分为两类:描述型信息(descriptive information)及数值型信息(numerical information)。描述型信息包括商品图片(image)和描述文本(text),这些信息可以直观地表达商品的某些特征,如风格,颜色及材质。数值型信息则是指商品的价格,其通过一个数字来传递商品的价值。

大多数情况下,如上图所示,用户只有在对一件商品展示在页面上的所有多模态信息都满意时,才会选择购买这件商品。显然,上述多模态信息共同影响用户的决定。而且,与仅包含共现关系的商品 ID 不同,多模态信息展现了商品的丰富特征,并蕴含了用户的细粒度偏好。例如,漫威迷很有可能购买一件带有钢铁侠标志的 T 恤。

不幸的是,大多数现有的模型仅建模了商品 ID 所呈现的共现关系,而没有考虑图像或者文本这些模态信息,这导致它们无法准确地理解用户意图。因此,为了更加准确地建模用户行为并提供令人满意的个性化推荐服务,我们应该同时考虑展现在页面的商品多模态信息,即描述型信息和数值型信息。



面临挑战

利用多模态信息来提高会话推荐的表现存在以下难点:

1. 描述型信息表示。在推荐场景下,图片和文本具有不同的噪声。通常,商品图像不仅包含待售的商品(如衣服),还包含额外内容(如搭配衣服的裤子)。类似地,商品描述文本通常包括多余的文字,如夸张的陈述以吸引用户的注意力。图像和文本中的噪声增加了提取商品语义的难度,阻碍了对用户偏好的学习。因此,第一个挑战是如何从具有不同噪声的异构描述型信息中捕获商品语义。

2. 描述性信息融合。商品的图片和文本专注于呈现不同的商品属性。具体来说,图片比文本更能直观地描述商品的颜色和样式。而文本则可以清楚地表达商品材质,例如一件衣服的材质是丝绸还是棉花。因此,图片和文本相辅相成,互相补充共同刻画商品特征。所以,第二个挑战是如何融合这些异构的描述型信息以全面刻画用户偏好。

3. 数值型信息建模。一般来说,用户在描述型信息上的喜好是确定性的。例如,喜欢圆领 T 恤的用户不会点击推荐的 V 领 T 恤。但是,数值型的价格信息以概率的方式影响用户行为。更准确地说,只要商品价格在用户可接受的范围内,价格是略低还是略高是无关紧要的。因此,第三个挑战是如何处理数值型信息对用户行为的概率影响模式。



模型MMSBR

为了解决以上问题,我们提出了一个新的模型 MMSBR,其同时建模商品展示在页面上的所有多模态信息,即图片,文本及价格,来提高会话推荐的性能。如上图所示,MMSBR 主要包括三个部分:(1)确定性建模:处理描述型信息以捕获用户确定性的偏好;(2)概率性建模:处理数值信息来建模用户可接受的价格区间;(3)预测模块:根据所有的多模态信息来给用户提供个性化推荐服务。

4.1 确定性建模

4.1.1 伪模态对比学习
我们设计了一个伪模态对比学习技术来对图片和文本中的噪声信息进行过滤。具体来说,对一个商品的图片和文本,我们分别使用 GoogLeNet 和 DALL·E 来获得对应的伪文本和伪图片,然后利用对比学习技术驱使商品的图片与其伪图片接近而远离其他商品的伪图片来过滤图片内的噪声信息。同样地,我们利用对比学习技术驱使商品的文本与其伪文本接近而远离其他商品的伪文本来过滤文本内的噪声信息。(更多技术细节请见我们的论文原文)
4.1.2 层次枢轴transformer

我们设计了一个层次枢纽 transformer 来对异构的描述型信息进行融合。在层次枢纽 transformer 中,我们首先使用多层感知机(MLP)将图片表示和文本表示投影到不同的空间,以表示商品对应模态下的不同特征。然后,我们创建了一个枢纽(pivot)用以在 transformer 中控制多模态信息的融合。

具体来说,我们将图片特征序列与枢纽作为输入特征输入到 transformer 中进行一次信息融合。接着,我们将 transformer 输出的 pivot 和文本特征序列作为输入特征再次输入到 transformer 中进行信息融合。重复以上步骤,枢纽则融合了商品的图片和文本信息,并最终作为商品的描述型信息表示。
4.2 概率性建模

不同于通常的点级(point-wise)表示方法,我们提出使用高斯分布(gaussain distribution)来表示商品的价格信息。在高斯分布表示下,商品的价格由两个独立的向量表示:均值向量和方差向量,这使得我们学习的价格高斯分布表示可以表示价格的区间性质。

在此基础上,我们设计了 Wasserstein 自注意力机制来处理商品的价格序列,以表示用户可接受的价格区间。与常规的自注意力机制依赖点积来计算两个向量间的相似度不同,Wasserstein 自注意力机制采用 Wasserstein 距离来衡量两个商品价格,即高斯分布,之间的距离。最后,我们把经过 Wasserstein 自注意力机制处理的商品价格表示作为用户可接受的价格区间。
4.3 预测模块
在预测模块,我们根据商品的多模态信息及用户确定性的偏好及可接受的价格区间来形成推荐列表。



实验结果

5.1 总体表现

MMSBR 模型的总体表现如上表所示。由表可知,我们提出的模型 MMSBR 在所有数据集及所有评价指标上都取得了最优的结果。这证明了我们模型的有效性。

5.2 冷启动场景下表现

为了验证模型在冷启动场景下的表现,我们在测试集中保留了在训练集中未出现的商品,作为冷启动商品,然后,检查了各个模型在冷启动场景下的性能。如上图所示,我们提出的 MMSBR 在冷启动场景下显著优于基线方法。这表明了 MMSBR 在冷启动场景下的优势,也证明了建模多模态信息是解决冷启动问题的一个有效方法。



结论

现有的会话推荐方法大多集中于挖掘由商品 ID 暴露的有限的商品共现模式,而忽略了真正吸引用户购买商品的是页面上显示的丰富的多模态信息。基于这一动机,我们提出了 MMSBR,其同时对包括描述型信息(图片和文本)和数值型信息(价格)在内的多模态信息进行建模来捕获用户偏好。三个公共数据集上进行的综合实验表明,MMSBR 优于最先进的基线模型。进一步的研究也验证了 MMSBR 在冷启动场景下的有效性。更多的方法细节及实验结果请见我们的论文原文。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
后门准确率降至3%,主任务性能几乎不变!华工JHU提出全新「联邦学习后门攻击识别」解决方案|ICCV2023Agent4Rec来了!大模型智能体构成推荐系统模拟器,模拟真实用户交互行为刷新多个SOTA!Meta重磅新作AnyMAL:多模态版Llama2来了!又鸟马户米田共这些玩意儿太低级了吧RecSys 2023最佳短文奖:推荐系统中的可解释用户留存优化框架​NeurIPS 2023 | PropCare: 面向因果关系推荐系统的倾向性估计方法AI搞定谷歌验证码,最新多模态大模型比GPT-4V空间理解更准确 | 苹果AI/ML团队NeurIPS 2023 | 北大&华为提出:多模态基础大模型的高效微调ICCV 2023 | 刷新多项记录!武大&快手提出DVIS:解耦视频实例分割框架港大联合百度 WSDM 2024 | 如何让LLMs助力推荐系统?图数据增强燃情岁月1989(19)上海内推 | 小红书多模态算法组招聘多模态CV/NLP算法实习生【2023 坛庆】 ⑤⑥ 花妖的鸳鸯枕灵犀港大&百度提出LLMRec:基于LLM增强的多模态图神经网络推荐NeurIPS 2023 | 浙大等提出C-MCR:连接多模态对比表征,无需配对数据就能学习!【2023 坛庆】山之茶【2023 坛庆】 ※ 烟雨行舟 ※ 夜垂云流缓 清梦醉阑珊EMNLP 2023 | 阅读顺序很重要:蚂蚁联合复旦提出全新多模态文档信息抽取模型ACM MM 2023 | 清华、华为联合提出MISSRec:兴趣感知的多模态序列推荐预训练北大&腾讯打造多模态15边形战士!语言作“纽带”,拳打脚踢各模态,超越ImagebindNeurIPS 2023 | 无需配对数据就能学习!浙大等提出连接多模态对比表征C-MCRCNN能搞多模态了!UniRepLKNet:大核CNN一统多种模态,图像/视频/点云/时序/音频均达SOTA水平!古斯塔夫·克林姆特(Gustav Klimt)的金色实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了港大开源推荐系统新范式RLMRec!大模型加持,准确提炼用户/商品文本画像《野有蔓草》&《不可说》NTU-TOM教授:AI算法在餐饮推荐系统中的应用与优化|收获一作论文与导师推荐信!破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR|NeurIPS 2023用语言对齐多模态信息,北大腾讯等提出LanguageBind,刷新多个榜单超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%Facebook推荐系统研究新进展:结合多模态信息与排名式学习的搜索EBR系统[9月26日]科学历史上的今天——金·赫尔尼(Jean Amédée Hoerni)【2023 坛庆】贴首今天吹的笛子IDC&Infobip英富必:2023会话式商务-重塑客户体验白皮书【2023 坛庆】《菊花台》新多模态大模型霸榜!支持图文混合输入,不懂知识还能现学
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。