Redian新闻
>
AAAI 2023 | 均匀序列更好:时间间隔感知的序列推荐数据增强方法

AAAI 2023 | 均匀序列更好:时间间隔感知的序列推荐数据增强方法

公众号新闻


©作者 | 党翌洲

单位 | 东北大学

研究方向 | 推荐系统



论文标题:
Uniform Sequence Better: Time Interval Aware Data Augmentation for Sequential Recommendation

论文来源:

AAAI 2023

作者单位:

东北大学软件学院 阿里巴巴

论文链接:

https://arxiv.org/abs/2212.08262

代码链接:

https://github.com/kinggugu/ticoserec



内容简介


序列推荐已经成为一项重要的推荐任务,根据用户的历史交互序列预测下一个时间点用户访问的项目。作者发现序列中两个项目交互的时间间隔并没有得到广泛的关注,特别是考虑到兴趣偏移时。


图 1 是从真实数据集中抽取的一个例子。两个用户拥有相同长度的交互序列,但他们交互间隔的分布却相差很多。用户 1 的时间间隔分布相对用户 2 更为均匀。用户 1 购买的大多数产品都属于皮肤/面部护理类别,而用户 2 购买的产品类别却随着时间发生了较大的改变(从发胶到睫毛膏,从睫毛膏到保湿霜)。


直观地认为,由于用户 1 的序列比其他用户分布更均匀,因此模型可以更好地学习用户偏好。作者将用户 1 这种序列称为“均匀序列”,用户 2 称为“非均匀序列”。



在本文中,作者进行了实证研究来进一步验证这一猜想。实验结果表明,均匀序列比非均匀序列可以显著提高模型性能,然而,真实数据集中序列在时间间隔上不能均匀分布是一个很普遍的现象。


基于实证研究的结果,作者提出了五个时间间隔感知的数据增强算子(Ti-Crop, Ti-Reorder, Ti-Mask, TiSubstitute, Ti-Insert)来将非均匀序列转换为均匀序列。此外,作者应用对比学习来确保增强序列与原始序列保持较高的相似性。作者在一个最先进推荐模型 CoSeRec 上实现了作者的方法,并提出了 TiCoSeRec。


本文的主要贡献有:


1. 作者进行了实证研究来验证均匀序列比非均匀序列更有利于模型性能提升。据作者所知,这是第一个对序列推荐时间间隔分布的研究。


2. 作者提出了 5 个数据增强算子,将非均匀序列转换为均匀序列,此外,作者还设计了一种控制策略来处理短序列的数据增强。


3. 作者在 4 个真实数据集上进行了广泛的实验,并证明了与其他 11 个竞争模型相比,作者的方法 TiCoSeRec 可以实现显著的性能提高。




实证研究



本文所有的实验均在表 1 中展示的四个数据集上进行。在本文中,作者用序列时间间隔的标准差来判定序列是否均匀。如果一个序列的时间间隔的标准差较小,那么它为均匀序列,如果时间间隔的标准差较大,那么它为非均匀序列。作者计算了数据集中所有序列时间间隔的标准差。作者通过设置不同的标准差阈值来分析数据集中均匀(非均匀)序列的数量,结果如图 2 所示。



横轴表示门槛值。这里门槛值是数据集中所有序列标准差的均值的比率(例如 0.5 表示门槛为标准差均值 × 0.5)。序列的标准差小于门槛值即为均匀序列,大于门槛值即为非均匀序列。纵轴表示此时均匀序列的百分比。总的来说非均匀序列占据了总体数据的很大一部分(40-50%)。


之后,作者对每个数据集的所有序列按时间间隔的标准差由小到大进行排名。采取了三种不同的划分方式。U 为均匀子集,N 为非均匀子集。三种策略分别是:


1. 按用户划分(S):排名前 50% 用户一个子集(S:U),后 50% 一个子集(S:N)。两个子集用户数相同,但交互数不同。


2. 按交互数量划分(I):排名前 50% 的交互一个子集(I:U),后 50% 一个子集(I:U)。两个子集交互数相同,用户数不同。


3. 从数据集中随机抽取 50% 的序列(Random)。


之后对比四个模型在不同子集上的表现。结果如表 2 所示。可以看出模型在均匀子集上的表现普遍好于非均匀子集。且随机子集的结果在均匀子集与非均匀子集中间,即非均匀<随机<均匀。





方法介绍


作者将序列排序的前 σ 比率标记为均匀的序列,其余标记为非均匀的序列,需要增强以提高更好的性能。假设作者总共有 m 个项目序列,那么就有 m(1−σ)的项目序列作为非均匀序列。图 3 对比了作者时间间隔感知的算子与传统算子的不同之处。图中也对比了操作前后序列时间间隔的标准差。标准差减少,说明序列均匀程度提高。



Ti-Insert:给定序列长度 N 和插入率 β,那么插入项目的数量就是 k=Nβ。传统的 Insert 算子会随机选择 k 个位置插入物品。Ti-Insert 会对序列中所有的时间间隔从大到小进行排序,并选择排序中 Top-k 个时间间隔进行插入。通过向较大的时间间隔插入物品,可以使用户的兴趣过渡更为平滑。


Ti-Crop:给定序列长度 N 和裁切率 η,那么裁切得到的子序列长度 c=Nη。传统的 Crop 算子会随机选择一个位置裁切得到子序列。Ti-Crop 会计算所有可能的子序列的时间间隔的标准差,并从中选出标准差最小的子序列。


Ti-Mask:给定序列长度 N 和遮盖率 µ,那么遮盖项目的数量就是 k=Nµ。传统的 Mask 算子会随机选择 k 个位置进行遮盖。Ti-Mask 会对序列中所有的时间间隔从小到大进行排序,并选择排序中 Top-k 个时间间隔进行遮盖。如果遮盖掉大时间间隔周围物品,会使原本的间隔进一步扩大,从而使得序列更为不均匀。Ti-Mask 对小时间间隔周围物品进行遮盖,使序列在整体上更为均匀。


Ti-Substitute:Ti-Substitute与Ti-Mask 类似,只不过 Ti-Substitute 是用相似项目替代原始项目。在图 3(e) 中,传统的 Substitute 很有可能对关键项目(如项目 v6 和 v7)进行替换,导致模型不能很好地捕获用户偏好的变化。相比之下,Ti-Substitute 专注于时间间隔较小的项目,新序列更容易保持与原始序列相似的偏好模式。简单来说,该算子将通过对原始序列施加最小的变化(通过替换)来获得新的序列。


Ti-Reorder:与 Ti-Crop 相似,Ti-Reorder 会对选择出的标准差小的子序列。新生成的序列与原始序列长度相同,只不过对部分项目进行了 shuffle。传统的 Reorder 在选择 shuffle 位置时是随机的,这可能会破坏原始序列的偏好模式。由于 Ti-Crop 会选择标准差最小的子序列,因此在数据重新排序后,它有较高的机会保持相似的偏好模式。例如,作者在图 3(f) 中得到了一个新的类别模式是 B→B→B→C,它与原来的类别模式相似。


因为短序列对于裁切和遮盖更为敏感,所以参考 CoSeRec,作者对不同长度的序列应用不同的数据增强算子,如公式 5 所示。N 为序列长度,K 为区分长短序列的阈值。Su 为算子集。每次数据增强时会从算子集中随机抽取两个进行数据增强,生成两个增强序列用于对比学习。




实验分析


4.1 整体表现


作者继续在实证研究的四个数据集上进行实验。对比的模型主要分为三个类别,包括非序列模型、序列模型和包含数据增强方法的序列模型。表 3 显示了不同方法在推荐任务上的性能。最好的结果用粗体表示,第二好的结果用斜体表示,Improve 表示相对于最佳基线的改进百分比。


可以观察到,作者提出的 TiCoSeRec 方法在所有数据集上始终表现最好,相对改进百分比范围从 5% 到 18%。与 CoSeRec 相比,这些改进可能更显著,因为作者在进行数据增强时考虑到了时间间隔的影响。作者的数据增强不仅可以将非均匀序列转化为均匀序列,而且还可以保证新生成的序列与原始序列具有很高的相似性。



4.2 消融实验



在消融实验中,作者对每个算子对模型表现的贡献进行了研究 (a)(b)。具体来说,作者每次都用相应的原始数据增强算子(例如 TR→R)替换对应的时间间隔感知算子,并将其他算子保持不变。当将作者所提出的数据增强算子被替换为原始算子时,推荐精度将会下降,这表明了作者所提出的算子的有效性。在所有的变体中,TS→S 的性能最差,而 TR→R 的表现最好。换句话说,TS 算子对推荐性能的影响最大,而 TR 算子的影响最小。



作者也研究了参数 σ 的影响 (c),该参数控制被视为均匀序列的比率,这个参数越小(即数据集中被视为均匀序列的数量越少,非均匀序列越多),需要增强序列就越多。四个数据集的结果遵循相似的趋势。也就是说,随着 σ 的提高,性能逐渐提高,然后在设置为 0.2 或 0.3 时达到最大值。一般来说,σ=0.2 的性能最好。


换句话说,最好将排名前 20% 的序列看作是均匀的,而其余的则需要进行增强,以获得更好的准确性。进一步增加 σ 的值不会在更大程度上提高性能。总之,一个正确的参数 σ 的设置对于推荐是很重要的。




结论


本文探讨了时间间隔对序列推荐的影响。作者的核心思想是均匀序列对于模型学习和预测用户偏好更具价值,这一假设在实证研究中得到验证。之后,作者提出了五种时间间隔感知的数据增强算子来增强序列。作者在四个公开数据集上的实验验证了作者提出的算子的有效性。


据作者所知,这是第一个研究序列推荐中数据时间间隔分布的工作。作者希望这项工作可以为序列推荐任务中的时间序列建模提供一个新的视角。对于未来的工作,作者打算进一步考虑项目类别的因素来进行数据增强,以及如何将时间间隔和项目类别结合起来以获得更好的性能。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AAAI 2023 | 基于视觉感知的常识知识获取如果您有长期服药,考虑做一个这个卡片带在身上疏狂一醉(组诗)EMNLP 2022 | 基于视角转换的反事实数据增强方法欢乐春节:iSING!SUZHOU“唐诗的回响”新春音乐会将在美首演——开启2023中国传统新年庆祝活动的序幕CIKM 2022最佳论文提名:证据感知的文档级关系抽取方法一文盘点图数据增广 (Graph Data Augmentation) 近期进展告诉Stable Diffusion 2.0你不想要什么,生成效果更好:Negative Prompt显奇效ICLR 2023 | 清华大学龙明盛组提出通用时间序列神经网络骨干—TimesNet“阳康”后,还要接种疫苗吗?全球权威机构推荐接种,最短间隔28天2023 春 祝姐妹们周末快乐!转:2023 回国探亲(5)ICLR 2023 | PatchTST: 基于Transformer的长时间序列预测转发提醒!复方感冒药、中成药换服,建议间隔时间为→习近平:强国必先强农,农强方能国强家长凭什么要给孩子们安排前程?顶配12GB+1TB组合,三星Galaxy S23系列更多信息曝光NeurIPS 2022 | 序列(推荐)模型分布外泛化:因果视角与求解加拿大入境限制系列更新【1.1更新:1月5日开始从中国赴加需要提供起飞前2天内检测报告】涉及疫苗组合、时间间隔、接种禁忌等内容,加强老年人疫苗接种工作方案来了GENIUS:一个基于“草稿”进行文本生成、数据增强的“小天才”模型性价比超高的孩视宝台灯,大面积光照,柔和均匀无频闪,学习读书用眼更健康舒服,远离近视!NeurIPS 2022 | 如何度量知识蒸馏中不同数据增强方法的好坏?一种统计学视角美国包邮:北美热销厨具!中国包邮:时装鞋帽装饰品、美容美发品、健康养生品!@完美时尚省钱购物城 中美精品推荐@1/23/23ICLR 2023 | 漂移感知动态神经网络:基于贝叶斯理论的时间域泛化框架​GENIUS: 根据草稿进行文本生成的预训练模型,可用于多种NLP任务的数据增强上海交通大学感知科学与工程学院医学多模态感知研究所招聘博士后Eruope 2023ECCV 2022 | 用于对抗攻击的频域模型增强方法美国入境档案--童第周、刘道元、江季平ACM TOIS | 基于对偶视图的序列推荐方法使用时间序列数据,用开源工具助力你的边缘项目 | Linux 中国希腊圣岛-4:穿行在五彩斑斓的小街深巷在伊朗,一群没有道德良知的人在教育有道德良知的人如何拥有均匀的肤色想要肤色均匀,不暗沉,超简单的办法是它(不是医美机会分层并不均匀!你的投资只是填补大佬的口袋?一文说透底层逻辑潮流 | Sillage羽绒服系列、HUMAN MADE新年系列推出
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。