论文精读 | 生成式搜索与推荐综述

公众号新闻

2024-05-11 16:05

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | 智荐阁

导读

本文是对于“生成式搜索与推荐综述”的介绍：

Title: A Survey of Generative Search and Recommendation in the Era of Large Language Models

Link: https://arxiv.org/abs/2404.16924

伴随着互联网的发展，信息爆炸的时代来临。搜索与推荐是两种重要的方式将相关信息从海量的互联网中准确地传递给用户，是互联网建设的基础设施并且在人们日常生活与工作中扮演着重要的角色。

恰如一枚硬币的正反两面，搜索与推荐作为信息检索领域的重要领域，经历着同步的技术范式转变。搜索是根据用户给定的查询语句与关键词，检索出相关的网页，文档，博客，答案给用户；而推荐则根据用户画像与其历史记录，将商品，视频，新闻等物品，推荐给用户。两者可以抽象为同一个本质问题，怎样精确的匹配两个实体 (搜索：查询与文档；推荐：用户与物品)。

在本文，我们将聚焦于在搜索与推荐在过去的几十年里，如何解决从海量信息中匹配的本质问题。我们将简单回顾过去的范式，并着重介绍在大语言模型时代带来的生成式搜索（检索）与推荐的进展。

I. 搜索与推荐的范式发展

伴随着泛人工智能领域整体的发展，我们将基于学习的搜索与推荐算法归纳为下面三种范式：

机器学习范式
查询、文档、用户、物品的特征主要基于规则与统计，通过一定量的数据来学习匹配方程从而计算两者之间的相似度。
深度学习范式
借助强大的神经网络结构 (CNN, RNN, GNN, Transformer)，来自动提取特征和学习匹配方程。
生成学习范式
随着生成式模型特别是大语言模型的发展，生成式学习范式致力于直接生成一个现有的文档或物品（存在于文档或物品集合中）来满足用户的信息需求。

前两种主要是判别式学习的思路，将要匹配的实体映射到一定的向量空间中，来计算其相似度；生成学习范式则是将文档或物品记忆到模型参数中（某种意义上），根据用户的需求（查询或者历史记录），直接生成已有的文档或物品。

II. 生成式搜索与推荐概览

在本部分，我们将为生成式搜索与推荐抽象出一个共性的方法框架如下：

Query/User Formulation:
将query和user转化为大语言模型的文本输入。对于推荐来说尤为重要。
Document/Item Identifiers:
直接生成一个完整的文档或者物品是非常难以做到的。因此在具体实践中，往往要需要 identifiers（标识符，也就是简短并具有代表性的字符串）来代替文档或物品。生成出标识符，即代表着检索或者推荐标识符对应的文档或者物品。此部分是生成式检索与推荐的核心，不同种类的标识符具有不同的特性，优点，与缺点，并对整体的训练与推理步骤产生影响。
Training:
当模型的输入(Query/User Formulation)与输出(Document/Item Identifiers)确定好之后，以何种方式进行训练才能更好地完成搜索与推荐的目标。我们主要归纳为生成式训练与判别式训练。
Inference:
当生成式模型训练完毕，如何完成传统的搜索与推荐任务，即如何从数目庞大的集合中，召回一定数量的文档或物品。主要涉及自由生成，受限制生成，以及beam search等技术。

下面我们将分别对生成式搜索与推荐的工作进行整理与介绍。

III. 生成式搜索

我们将生成式搜索的工作归纳到上面总结的框架的各个阶段。其中涉及到的具体方法请参看原论文“A Survey of Generative Search and Recommendation in the Era of Large Language Models”。

1. Query Formulation:

大部分的生成式搜索工作不需要对query做过多处理，只有某些特定的检索任务，比如多跳问答和对话式搜索，需要对query进行一些拼接等操作。

2. Document Identifiers:

目前已经开发的document identifiers可以归纳为上图类别。我们从语义性，区分性，文档更新，所需训练，以及适用的检索场景，来总结不同的document identifier的特性。

3. Training

作为生成式模型，最自然与简单的方式是进行生成式训练，即预测下一个token。但是，最新的一些工作表明，判别式训练比如一些排序学习（rank loss), 可以进一步增强生成式搜索模型的能力。

4. Inference

首先要说明的是，搜索往往需要返回一定数量的文档给用户，因此生成式搜索往往通过beam search来实现这一需求。

其次有以下两种模式来进行生成：

自由生成即直接使用训练好的模型来完成搜索，但预测的identifiers可能不存在也就是不属于、对应到任何一个文档。

受限制生成是生成式搜索通用的技术，来限制生成模型必然预测已经存在的identifiers。这一过程往往通过特殊的数据结构，Trie或者FM-index来实现。

5. Conclusion

方法总结：我们总结了主要的生成式搜索方法在上图中。总结的维度包括使用的identifiers，生成式模型，受限制生成，以及数据集。值得一提的是，受限于生成式范式本身的缺点，初始的生成式搜索方法往往在规模较小的数据集的子集(例如NQ320k) 进行测试；随着技术的发展，越来越多的方法在原先的大数据集(MSMARCO, NQ)上取得进展。

时间线总结：我们按照时间线总结了主要生成式搜索的发展，主要衡量identifier和training两个维度。

IV. 生成式推荐

1. User Formulation:

推荐区别于搜索的很大的不同点，在于没有用户明确需求的文本查询。User formulation是生成式推荐中至关重要的一步来总结用户的个性与需求，同时将其表达为文本序列。现有的方法主要包括了下面几个侧面：

任务描述:
描述具体的推荐任务，比如next-item recommendation或者是CTR等。
用户历史交互:
用户历史的物品交互记录。这一部分同时涉及到如何在语言模型中表示一个物品。
用户画像:
用户的描述，个人信息，关键词等。
环境信息:
用户当前所处的位置以及其他的可利用的环境信息等
额外的知识。
比如一些知识图谱或者是用户物品的图结构信息等。

2. Item Identifiers:

Item identifiers可以归纳为上图类别, 同时标明不同identifier的特点包括语义性，区分性，文档更新，所需训练。

3. Training

目前的生成式推荐方法绝大部分只涉及到生成式训练来训练语言模型作为推荐器。判别式训练是否能帮助生成式推荐系统很可能马上会出现相关研究。

4. Inference

与生成式搜索类似，生成式推荐也依赖beam search来返回一定数量的商品给用户，也同样涉及到自由生成与受限制生成两种方式。

5. Conclusion

方法总结：我们总结了主要的生成式推荐方法在上图中。总结的维度包括使用的identifiers，user formulation, 生成式模型，受限制生成，数据集, 以及推荐场景。

时间线总结：我们按照时间线总结了主要生成式推荐的发展，主要衡量identifier这一维度。

V. 讨论与分析

生成式搜索与推荐的不同特性

在上面的章节中，我们主要探讨了生成式搜索与推荐的共性，下面我们来讨论他们的特性。

输入长度不同：

如上图（a) 所示，生成式搜索一般以用户的查询为输入，往往是一句话或者是一些关键词，比较简短；而推荐经过user formulation环节后，往往会产生一个超长的用户序列，甚至超过了语言模型允许的上限。这将会给生成式推荐带来独特的挑战，包括如何高效的训练与推理，保证长序列预测的性能等。
交互密度不同：
如上图（b) 所示，搜索与推荐中文档与物品的交互密度有着明显的差异。对应到生成式范式中，由于物品的交互密度高，就会有对应的训练数据，从而容易被大语言模型记忆；而文档的交互密度低，大部分文档甚至不会出现在训练数据中，给生成式搜索带来了独特的挑战。一方面，具有语义的identifier可以缓解相关问题；另一方面，也可以通过pseudo-query的方式来增广训练数据。
“语义”含义不同：
在生成式搜索中，文档与查询的语义相似度与想要的匹配度高度相关，因此document identifier尽可能的代表文档的内容即可；但是在生成式推荐中，item 本身的内容并不是至关重要，其交互带来的协同语义反而是推荐里更关注的信息。这就导致item identifier需要同时考虑item本身的内容信息与协同信息来实现比较好的效果。

开放式问题

尽管生成式搜索与推荐已经取得了一定的进展，但是还有下面的问题需要进一步关注与解决。

文档与物品更新：
如果将生成式范式看作一种记忆机制，那么文档与物品的更新是一个挑战。日常生活中的搜索与推荐每天是大量更新的，但当生成式模型记忆了一定量文档与物品后，怎样记忆特定的新的文档与物品或者遗忘某些特定的旧文档与物品目前还难以实现。这方面与模型编辑，知识编辑，记忆机制等方面的研究息息相关。
多模态与跨模态：
多模态与跨模态的搜索与推荐也一直是信息检索领域的研究重点，生成式范式可以依赖多模态的语言模型来实现多模态与跨模态的生成式搜索与推荐。目前已经可以看到一些初步的工作。
In-context learning：
大语言模型的一项关键能力是in-context learning，可以在不用训练的情况下来学习新任务。但是现在的生成式搜索与推荐还严重依赖参数训练来将语言模型适配到搜索与推荐任务上。
大规模召回：
生成式范式依赖beam search来给出一定数量的文档或者物品。然后，其效率会随着返回数目的增加而急剧下降，使得生成式范式难以实现大规模的召回。如何实现大规模的召回仍然是生成式范式无解的难题。

下一代信息获取范式展望：内容生成

现有的生成式搜索与推荐的范式，仍然是完成传统的目标，即检索或者推荐一个现有的文档或者物品给用户。随着生成式模型的发展，直接生成相应的内容来满足用户的信息需求变为了可能。

相应的对比包括：搜索引擎与大语言模型，图像搜索与图像生成，商品推荐与商品生成。

内容生成可以通过整合内部知识来生成原先不存在的内容，存在着更好的满足用户信息需求的可能性，同时也面临着幻觉等问题。

总结

本文一体两面的回顾了搜索与推荐的范式变迁，并深度介绍了生成式搜索与推荐的发展。本文聚焦于领域的核心问题，为生成式搜索与推荐归纳出一个统一的框架，并将现有的工作整理到这一框架的各个阶段。同时，本文也深度探讨了生成式搜索与推荐发展的不同挑战，探讨该领域的开放式问题，以及展望下一代信息获取范式。

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章