RecSys 2023最佳短文奖：推荐系统中的可解释用户留存优化框架

2023-12-06 06:12

©作者 | 丁蕊、谢若冰

单位 | 东北大学、腾讯微信看一看

全球推荐系统领域顶级会议ACM RecSys于9月18-22日在新加坡举行。东北大学与腾讯微信看一看团队针对推荐系统中用户留存优化的最新研究论文“Interpretable User Retention Modeling in Recommendation” 获得大会最佳短文奖（Best Short Paper Award）。该论文由入选2022犀牛鸟精英人才计划的丁蕊同学在学界导师杨晓春教授和微信看一看谢若冰高级研究员的联合培养下主要完成。

本文将重点介绍获奖论文的内容，该成果对推荐系统中用户留存原理进行了初步探索，尝试设计一种全新的范式来探索用户留存背后的原因与机理，并针对离线/线上结果进行了深度分析，对于探究影响用户留存的因子，提升推荐系统中用户留存率具有积极作用，在提升用户长期满意度扩充用户群体方面具有广泛的应用潜力。

论文标题：

Interpretable User Retention Modeling in Recommendation

论文作者：

丁蕊，谢若冰，郝晓波，杨晓春，葛凯凯，张旭，周杰，林乐宇

论文链接：

https://dl.acm.org/doi/abs/10.1145/3604915.3608818

代码链接：

https://github.com/dinry/IURO

背景介绍

信息爆炸的时代，推荐系统的作用日益显现。现存的大多数智能推荐模型都主要关注用户的即时反馈（如点击，曝光，时长等），因为这些高质量的用户行为能够真实地反应用户的兴趣，更重要的是这些行为在真实推荐系统中是丰富且容易建模的。

然而，最近的一些研究工作指出仅仅优化这些即时反馈（如 CTR 预估等）并不能充分提升用户的长期/真实满意度。在真实推荐系统中，用户留存率（user retention rate）常常被认为是一个关键的能够刻画用户长期满意度的指标，它表示了今天访问推荐系统的所有用户在一段时间内（如次日）会返回系统的比例。

通常情况下，用户留存率的增加不仅暗示着推荐精度的提升，更代表了系统忠实用户群体的扩大，所以用户留存的优化十分重要。尽管非常少的先驱工作已经开始探索推荐系统中的用户留存优化问题，但他们关注点集中于用户留存率的提升，而较少深入探究“用户留存的真正原因是什么”。

事实上，“用户留存原因（用户为什么返回推荐系统）”或者说“用户点击/浏览的哪些物品决定了他未来的留存”是非常重要的。这些因素能够在黑盒数据和指标之外提供高可解释性，使推荐系统为用户提供更高质量的服务，从而提升用户的长期满意度，这些因素的挖掘将促进推荐生态系统的重构和持续优化。但“用户留存的真正原因是什么”仍然是推荐系统研究的“塔尖难题”。

本文针对这一问题，提出了一个离线的留存预测任务，并首次尝试将多示例学习机制（Multi-instance Learning）与对比学习（Contrastive Learning）相结合来探索“对用户留存具有高影响的历史行为究竟有哪些（我们仿照“Aha moment”，定义“给用户惊喜从而使得用户留存”的物品为“Aha items”）。

为了使这些 Aha items 的可解释性更加充分，本文进一步引入了原理学习机制（Rationale Learning），它成功地将用户未来点击物品的特性引入以指导留存原理的学习，兼顾准确性和可解释性。

在线 A/B 测试实验显示，该方法能够在一定程度上提升用户的留存率。我们还进行了一系列可解释的用户留存分析。本工作提出并初步探索了可解释用户留存预估这个推荐系统的“塔尖难题”，尝试从一个不同的角度理解推荐机制和用户真实需求，希望能够抛砖引玉，为未来用户留存优化的研究工作提供一些方向与思考。

主要问题

现存的留存优化工作非常稀缺，仅有的几个工作大多关注留存精度，而没有深入探究用户留存的原因，这主要是因为可解释的留存优化是推荐系统研究的“塔尖难题”。用户留存优化主要存在以下三点挑战：

1. 用户留存预估需要判断一位用户第二天是否会返回系统。推荐系统中留存优化任务的离线训练（判断是否第二天留存）与线上服务（推荐有助于用户留存的物品）存在显著的差异，没有显示的留存信号来建模留存原因。推荐系统中留存优化任务的线上服务致力于为用户推荐更有可能导致其留存的物品，因此需要的是“用户-物品”对形式的留存分数，并依据其（结合其它得分）对物品进行排序择优为用户进行推荐。

然而，留存的离线训练任务能得到的唯一监督信号是用户在未来的一段时间是否留存，为“用户历史交互-留存”对的形式，并没有显示的信息暗示该用户的各个历史行为对他/她留存的影响分别是多少。离线训练与在线服务任务之间的巨大差异给留存优化任务带来了巨大的挑战。

2. 与推荐系统关注的其他指标相比（如点击），用户留存原因是极其复杂且高自由度的。与用户点击相比，用户留存原因更加复杂随机，它可能受推荐系统服务质量的影响，如推荐对用户留存具有正向作用的物品，也可能受到许多不可预测因素的影响，比如社会热点事件、用户的心情、用户工作的繁忙程度、是否是节假日等。用户留存难以归因的特点给用户留存任务的建模与优化带来了巨大的挑战。

3. 用户留存任务中，与留存相关的监督信号是极其稀疏的。毕竟，一个用户一天内可以有很多点击，可以很好的训练点击预测模型，但一个用户一天只有一个留存信号（来/不来），导致留存预测存在不精准的风险。

核心贡献

本文对推荐系统中用户留存原因和可解释性进行了一系列初步的探索，并提出了一个新颖的可解释的用户留存优化框架来捕获影响用户留存的关键信息，希望通过这些发现为推荐生态系统的重构和深度优化提供指导。

本文提出了一个离线留存预测任务，尝试直接抓取与用户留存相关的监督信号来解决留存优化任务中离线训练和线上服务之间的巨大差异。同时本文还设计了一个新颖的可解释的留存优化框架（结合 rationale 和 contrastive multi-instance learning）来捕获决定用户留存的少量但关键的历史交互行为（Aha items）。这些 Aha items 对用户留存预测和原理理解具有积极的作用。

3. 本文进行了充分的离线和线上实验分析，在微信看一看推荐系统上验证了方法对于用户留存的提升效果。另外，本文还进行了一些用户调研与负反馈量化分析，初步揭示了用户留存背后的机理。这些分析将会为未来的用户留存研究提供基于真实系统的思考。

研究方案

模型框架

本文提出了一个离线留存预测任务来指甲抓取与留存相关的监督信号，试图寻找影响用户留存的“Aha items”，探索用户留存的机理和原因。图（a）是本文提出的留存优化框架（Interpretable User retention-oriented optimization, IURO）。

在离线训练阶段，IURO 被用来预测用户在未来的几天是否会返回系统。对比多示例学习机制（Contrastive Multi-instance Learning，CMIL）通过多示例学习机制（Multi-instance Learning）来模拟用户留存的可解释性，它首先通过留存模型（UI scorer）为用户的每一个历史行为生成留存分数（UI retention score），然后通过 attention 机制聚合这些UI retention score，从而找到对用户留存影响最大的历史行为。

对比学习机制（Contrastive Learning）被用来加大不同物品之间的留存分数差异，因为我们参照 Aha 心理学认为决定用户再次返回的物品是稀少且珍贵的（Aha items）。

除此之外，原理多示例学习机制（Rationale Multi-instance Learning，RMIL）将用户未来的点击引入来辅助我们探索对用户留存具有积极作用的历史行为。通过对其 CMIL 和 RMIL 的分布，IURO 可以为用户生成可解释的 Aha items，他们对用户留存具有积极作用。在线上服务阶段，UI scorer 模块生成的“用户-物品”留存分（UI retention score）与在线 CTR 结合服务线上用户，成功的解决了离线训练和线上服务之间的巨大差异。

对比多示例学习机制（Contrastive Multi-instance Learning）

对比多示例学习机制（Contrastive Multi-instance Learning，CMIL）被用来挖掘影响用户留存的行为，它的机构如图（b）。

在离线训练阶段，CMIL 首先将用户的静态特征（包括用户的属性和用户的长期行为）和短期行为输入 UI scorer 并生成 UI retention scorer，UI scorer 的设计如下：

是 UI scorer 输出的 UI retention score，代表物品和用户之间的留存分数，是用户的属性特征，是用户的长期行为，是物品的特征向量（离线训练阶段是用户的短期行为，在线服务阶段是候选物品集合），是三层神经网络（激活函数为 ReLu）。然后 CMIL 用多示例注意力机制 (Multi-instance attention) 聚合所有的 UI retention score 来预测用户未来几天的留存。

是用户的短期行为举止序列，是特征向量的维度。为了降低用户留存的随机性，用户未来三天的累积特征 (未来三天的总点击数量，未来三天的总曝光数量) 被作为监督信号来精确的量化用户留存：

和分别代表用户 u 未来三天的点击数量和曝光数量，a 和 b 是超参数。综上，多示例学习机制（Multi-instance Learning）的目标函数为

是用户 u 的真正留存，是 MIL 的输出。尽管多示例学习机制能够很好的拟合离线留存预测任务，但其 UI retention scorer 可能是不精确的。因此引入对比学习机制进一步探究导致用户留存的稀少且珍贵的物品（Aha items）：

和分别是遮掩 MIL 学习中的得到的 attention 较低和较高的 item 后再次输入到 MIL 中得到的预测结果，是 margin loss 的超参数。

原理多示例学习机制（Rationale Multi-instance Learning）

尽管对比多示例学习机制（CMIL）能够很好地拟合离线训练的目标挖掘到稀少且珍贵的 Aha items，但我们通过实验发现 UI scorer 的优化方向和置信度是不可靠的，这主要是因为离线训练和在线服务之间缺少有效的指导。不稳定的 UI scorer 不仅不会提升留存，还有可能损害线上服务的 CTR 预测。

基于此，我们认为未来视角总是现阶段举止的有效指导，这些信息的引入有助于 Aha items 的进一步学习。因此，原理多示例学习机制（Rationale Multi-instance Learning）被提出：未来的点击被引入（作为外部知识）指导 Aha items 的学习。被 RMIL 指导的 CMIL 能够更合理的优化留存分布，生成稳定的 UI retention scores 来协助线上服务提升留存。CMIL 和 RMIL 通过 Jensen-Shannon 散度联合训练：

本文提出的留存优化任务的全局目标函数为：

其中和为超参数。

实验分析

离线评估

本文提出的离线留存预测任务分别在 ZhihuRec（开源数据集）和微信看一看数据集上进行验证，预测任务的目标为用户未来三天的留存。实验中的模型设置如下：

1. Base MLP：我们将用户静态特征和历史行为同时输入进一个由三层神将网络构建的留存预测模型得到的留存离线预测精度，需要注意的是这种方法不能用在线上服务环节，因为线上服务需要的是用户和每一个物品之间的留存分以便为用户推荐高留存物品，而不是由用户自身特征决定的未来留存分。

2. IURO(AVG)：我们假设用户所有历史行为对其留存与否的影响是均质的。

3. IURO (MIL)：我们在 IURO (AVG) 的基础上引入 Multi-instance attention 机制探究不同历史行为对用户留存的影响。

4. IURO (MIL+MSS)：我们在 IURO (MIL) 的基础上考虑未来三天累积特征（未来三天的点击数量与曝光数量）对离线留存预测任务的影响。

5. IURO (CMIL+MSS)：我们在 IURO (MIL+MSS) 的基础上引入对比学习机制来进一步加大不同 item 对留存影响的 gap，因为我们始终认为影响用户并最终导致其留存的 item 一定是稀少且珍贵的“Aha items”。

6. IURO (RCMIL+MSS)：我们在 IURO (CMIL+MSS) 的基础上引入原理多示例学习机制（RMIL）来指导 UI scorer 的优化方向以便获得更加稳健的 UI retention score。

实验结果如上表所示，离线实验分析表明：

1. 不同历史行为对用户留存的影响不是均质的，多示例学习机制（Multi-instance Learning）相比 IURO(AVG)，能够更好的挖掘对留存具有高影响的 items 从而预测留存任务；

2. 累积特征作为留存监督信号能够提升离线留存预测任务的精度；

3. 对比学习机制的引入能够加大 items 之间的 gap，便于找到稀少且珍贵的 Aha items；

4. 原理多示例学习机制能够有效地指导 UI scorer 的学习，从而提供稳健的 UI retention score。

在线评估

我们在微信看一看推荐平台上进行了 A/B test 分析（实验结果如表 3），实验组将本文提出的 UI scorer 与当前线上模型结合，为推荐平台提供线上服务（增加对留存的考虑），对照组为线上模型。实验结果显示本文提出的 UI scorer （通过 IURO 离线训练得到）与线上模型结合可以有效地提高用户留存率，证明了本文设计的 UI scorer 以及挖掘的“Aha items”对于提升在线用户留存具有积极作用。

此外，本文也进行了一系列细粒度的线上量化分析，以便验证 IURO 的部署对于不同用户群体以及线上系统其它指标的影响，详细的分析可参考原文。

模型分析

本文在此部分详细分析了累积特征和对比学习机制对 IURO 产生的影响；并对部分 Aha items 进行了可视化的统计分析。

1. 未来点击和曝光数量等累积特征作为留存监督信号对 IURO 产生的影响（见图（a）和（b））。实验显示这些监督信号对于留存优化任务是有积极作用的。

2. 对比多示例学习策略对留存产生的有影响（见图（c）和（d））。实验结果显示，对比学习机制的引入对离线留存预测任务具有积极作用，侧面验证本文的假设：影响用户最终留存的 Aha item 是稀少且作用明显的。

3. 用户留存类别可视化分析（如图 3）。我们对物品进行了细致分类并进行了留存分析，挖掘在我们线上系统中对用户留存影响较高和较低的不同文章类型（我们很惊奇地发现，一些传统观念中高流行的物品类型和导致用户留存的物品类型存在较大差异）。

用户留存正/负向理由深入调研分析

本文还基于多种正向/负向用户显式反馈信息，对用户留存原因进行了更具洞察力的分析。基于我们线上系统的分析结果如下：

1. 用户留存正向理由的定性分析：

积极的、有营养的、有趣的、放松的和缓解压力的物品是最能吸引用户留存的；
负面内容，如血腥恐怖、广告和负面新闻对用户留存率有很大影响，这类文章的推荐需要更加精细；
页面布局对用户留存率也有很大影响。

2. 用户显式负反馈的定量分析（如下表）：

用户负面情绪最高时，提供的负反馈理由往往是“不感兴趣”而不是具体的理由，这类负反馈可以被视作一种用户将不再使用系统的危险信号；
“低质量内容”和“广告推广”是影响用户留存率的代表性负面因素，用户对此类标题党反感度最高，可以作为重点优化对象；
“缺乏多样性”和“夸大标题”的问题也会损害用户留存率；
“反复推荐”和“不喜欢作者/内容”是负反馈理由中最为正向的理由（选择此反馈的用户拥有较高的留存）。我们猜测这些信息其实暗示了用户希望推荐系统进一步优化推荐结果，对推荐系统整体是比较满意的，只是对当前结果不认同。

这些细粒度的用户留存理由分析有助于指导我们设计更好的模型，并更及时地从用户反馈中进行调整，提升用户体验。

总结

本文对推荐系统中用户留存原因进行了初步的探索，设计了一个新颖的可解释的留存优化框架尝试抓取其中关于用户留存的可解释因素来提升在线推荐系统的用户留存率。

本文同时提供了一些与用户留存优化相关的思考，以便促进未来可解释用户留存优化任务的进一步研究。

存在局限&未来研究

本文设计了一个简单的可解释用户留存优化框架，是对可解释用户留存建模这个极具挑战性的任务的一次尝试与探索，在深度可解释、用户长短期满意度结合等方面仍然面临诸多挑战。但它的价值在于：

1. 鲜明地指出了推荐系统中留存优化任务面临的棘手挑战；

2. 尝试从强化学习以外的视角出发，使用一种全新的范式来优化用户留存任务，更加专注于挖掘留存背后的原理与机制，探索“影响用户留存的原因究竟是什么”。我们相信与留存精度相比，用户留存背后的原因与机制也十分重要，这些因素将对推荐生态系统的设计起到颠覆性的作用。

3. 本文很多针对用户留存的基于线上系统的分析和结论，对未来的用户留存研究能够起到很好的启发。

本文仍然存在一些限制：

1. 尽管本文设计的模型能够缓解留存优化任务中离线训练和线上服务之间的 gap，但 UI scorer 依旧存在很大的优化空间，精准的 UI scorer 建模及训练机制有助于进一步探索留存原因，并对线上服务的效果产生积极影响。

2. 原理多示例机制学习（RMIL）部分对 UI scorer 给予的指导依旧存在很大的优化空间，可以基于真实系统的实际情况进行规则的增删，值得进一步去探索。

3. 留存优化任务可以与点击预测等传统任务联合训练，更好地融合用户长短期满意度建模。

微信看一看团队

微信看一看团队，致力于看一看（Top Stories）业务的研发，聚焦内容价值，深耕用户个体、群体和圈层的挖掘，最早实现了社交推荐和机器推荐相融合的内容类推荐产品。目前主要业务应用为微信发现-看一看产品，依托于微信丰富的社交关系及内容生态（订阅号、视频号等），为用户提供有价值的个性化内容服务。团队近三年在KDD、SIGIR、WWW、ACL、NeurIPS等顶会上发表论文50余篇。

更多阅读