Redian新闻
>
论文精读 | 生成式搜索与推荐综述

论文精读 | 生成式搜索与推荐综述

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | 智荐阁

导读

本文是对于“生成式搜索与推荐综述”的介绍:

Title: A Survey of Generative Search and Recommendation in the Era of Large Language Models 

Link: https://arxiv.org/abs/2404.16924

伴随着互联网的发展,信息爆炸的时代来临。搜索与推荐是两种重要的方式将相关信息从海量的互联网中准确地传递给用户,是互联网建设的基础设施并且在人们日常生活与工作中扮演着重要的角色。

恰如一枚硬币的正反两面,搜索与推荐作为信息检索领域的重要领域,经历着同步的技术范式转变。搜索是根据用户给定的查询语句与关键词,检索出相关的网页,文档,博客,答案给用户;而推荐则根据用户画像与其历史记录,将商品,视频,新闻等物品,推荐给用户。两者可以抽象为同一个本质问题,怎样精确的匹配两个实体 (搜索:查询与文档;推荐:用户与物品)。

在本文,我们将聚焦于在搜索与推荐在过去的几十年里,如何解决从海量信息中匹配的本质问题。我们将简单回顾过去的范式,并着重介绍在大语言模型时代带来的生成式搜索(检索)与推荐的进展。

I. 搜索与推荐的范式发展

伴随着泛人工智能领域整体的发展,我们将基于学习的搜索与推荐算法归纳为下面三种范式:

  1. 机器学习范式

    查询、文档、用户、物品的特征主要基于规则与统计,通过一定量的数据来学习匹配方程从而计算两者之间的相似度。

  2. 深度学习范式

    借助强大的神经网络结构 (CNN, RNN, GNN, Transformer),来自动提取特征和学习匹配方程。

  3. 生成学习范式

    随着生成式模型特别是大语言模型的发展,生成式学习范式致力于直接生成一个现有的文档或物品(存在于文档或物品集合中)来满足用户的信息需求。

前两种主要是判别式学习的思路,将要匹配的实体映射到一定的向量空间中,来计算其相似度;生成学习范式则是将文档或物品记忆到模型参数中(某种意义上),根据用户的需求(查询或者历史记录),直接生成已有的文档或物品。

II. 生成式搜索与推荐概览

在本部分,我们将为生成式搜索与推荐抽象出一个共性的方法框架如下:

  1. Query/User Formulation:

    将query和user转化为大语言模型的文本输入。对于推荐来说尤为重要。

  2. Document/Item Identifiers:

    直接生成一个完整的文档或者物品是非常难以做到的。因此在具体实践中,往往要需要 identifiers(标识符,也就是简短并具有代表性的字符串)来代替文档或物品。生成出标识符,即代表着检索或者推荐标识符对应的文档或者物品。此部分是生成式检索与推荐的核心,不同种类的标识符具有不同的特性,优点,与缺点,并对整体的训练与推理步骤产生影响。

  3. Training:

    当模型的输入(Query/User Formulation)与输出(Document/Item Identifiers)确定好之后,以何种方式进行训练才能更好地完成搜索与推荐的目标。我们主要归纳为生成式训练与判别式训练。

  4. Inference:

    当生成式模型训练完毕,如何完成传统的搜索与推荐任务,即如何从数目庞大的集合中,召回一定数量的文档或物品。主要涉及自由生成,受限制生成,以及beam search等技术。

下面我们将分别对生成式搜索与推荐的工作进行整理与介绍。

III. 生成式搜索

我们将生成式搜索的工作归纳到上面总结的框架的各个阶段。其中涉及到的具体方法请参看原论文“A Survey of Generative Search and Recommendation in the Era of Large Language Models”。

1. Query Formulation:

大部分的生成式搜索工作不需要对query做过多处理,只有某些特定的检索任务,比如多跳问答和对话式搜索,需要对query进行一些拼接等操作。

2. Document Identifiers:

目前已经开发的document identifiers可以归纳为上图类别。我们从语义性,区分性,文档更新,所需训练,以及适用的检索场景,来总结不同的document identifier的特性。

3. Training

作为生成式模型,最自然与简单的方式是进行生成式训练,即预测下一个token。但是,最新的一些工作表明,判别式训练比如一些排序学习(rank loss), 可以进一步增强生成式搜索模型的能力。

4. Inference

首先要说明的是,搜索往往需要返回一定数量的文档给用户,因此生成式搜索往往通过beam search来实现这一需求。

其次有以下两种模式来进行生成:

自由生成即直接使用训练好的模型来完成搜索,但预测的identifiers可能不存在也就是不属于、对应到任何一个文档。

受限制生成是生成式搜索通用的技术,来限制生成模型必然预测已经存在的identifiers。这一过程往往通过特殊的数据结构,Trie或者FM-index来实现。

5. Conclusion

方法总结:我们总结了主要的生成式搜索方法在上图中。总结的维度包括使用的identifiers,生成式模型,受限制生成,以及数据集。值得一提的是,受限于生成式范式本身的缺点,初始的生成式搜索方法往往在规模较小的数据集的子集(例如NQ320k) 进行测试;随着技术的发展,越来越多的方法在原先的大数据集(MSMARCO, NQ)上取得进展。


时间线总结:我们按照时间线总结了主要生成式搜索的发展,主要衡量identifier和training两个维度。

IV. 生成式推荐

1. User Formulation:

推荐区别于搜索的很大的不同点,在于没有用户明确需求的文本查询。User formulation是生成式推荐中至关重要的一步来总结用户的个性与需求,同时将其表达为文本序列。现有的方法主要包括了下面几个侧面:

  1. 任务描述:

    描述具体的推荐任务,比如next-item recommendation或者是CTR等。

  2. 用户历史交互:

    用户历史的物品交互记录。这一部分同时涉及到如何在语言模型中表示一个物品。

  3. 用户画像:

    用户的描述,个人信息,关键词等。

  4. 环境信息:

    用户当前所处的位置以及其他的可利用的环境信息等

  5. 额外的知识。

    比如一些知识图谱或者是用户物品的图结构信息等。

2. Item Identifiers:

Item identifiers可以归纳为上图类别, 同时标明不同identifier的特点包括语义性,区分性,文档更新,所需训练。

3. Training

目前的生成式推荐方法绝大部分只涉及到生成式训练来训练语言模型作为推荐器。判别式训练是否能帮助生成式推荐系统很可能马上会出现相关研究。

4. Inference

与生成式搜索类似,生成式推荐也依赖beam search来返回一定数量的商品给用户,也同样涉及到自由生成与受限制生成两种方式。

5. Conclusion

方法总结 :我们总结了主要的生成式推荐方法在上图中。总结的维度包括使用的identifiers,user formulation, 生成式模型,受限制生成,数据集, 以及推荐场景。


时间线总结:我们按照时间线总结了主要生成式推荐的发展,主要衡量identifier这一维度。

V. 讨论与分析

生成式搜索与推荐的不同特性

在上面的章节中,我们主要探讨了生成式搜索与推荐的共性,下面我们来讨论他们的特性。

输入长度不同:

  1. 如上图(a) 所示,生成式搜索一般以用户的查询为输入,往往是一句话或者是一些关键词,比较简短;而推荐经过user formulation环节后,往往会产生一个超长的用户序列,甚至超过了语言模型允许的上限。这将会给生成式推荐带来独特的挑战,包括如何高效的训练与推理,保证长序列预测的性能等。

  2. 交互密度不同:

    如上图(b) 所示,搜索与推荐中文档与物品的交互密度有着明显的差异。对应到生成式范式中,由于物品的交互密度高,就会有对应的训练数据,从而容易被大语言模型记忆;而文档的交互密度低,大部分文档甚至不会出现在训练数据中,给生成式搜索带来了独特的挑战。一方面,具有语义的identifier可以缓解相关问题;另一方面,也可以通过pseudo-query的方式来增广训练数据。

  3. “语义”含义不同:

    在生成式搜索中,文档与查询的语义相似度与想要的匹配度高度相关,因此document identifier尽可能的代表文档的内容即可;但是在生成式推荐中,item 本身的内容并不是至关重要,其交互带来的协同语义反而是推荐里更关注的信息。这就导致item identifier需要同时考虑item本身的内容信息与协同信息来实现比较好的效果。

开放式问题

尽管生成式搜索与推荐已经取得了一定的进展,但是还有下面的问题需要进一步关注与解决。

  1. 文档与物品更新:

    如果将生成式范式看作一种记忆机制,那么文档与物品的更新是一个挑战。日常生活中的搜索与推荐每天是大量更新的,但当生成式模型记忆了一定量文档与物品后,怎样记忆特定的新的文档与物品或者遗忘某些特定的旧文档与物品目前还难以实现。这方面与模型编辑,知识编辑,记忆机制等方面的研究息息相关。

  2. 多模态与跨模态:

    多模态与跨模态的搜索与推荐也一直是信息检索领域的研究重点,生成式范式可以依赖多模态的语言模型来实现多模态与跨模态的生成式搜索与推荐。目前已经可以看到一些初步的工作。

  3. In-context learning:

    大语言模型的一项关键能力是in-context learning,可以在不用训练的情况下来学习新任务。但是现在的生成式搜索与推荐还严重依赖参数训练来将语言模型适配到搜索与推荐任务上。

  4. 大规模召回:

    生成式范式依赖beam search来给出一定数量的文档或者物品。然后,其效率会随着返回数目的增加而急剧下降,使得生成式范式难以实现大规模的召回。如何实现大规模的召回仍然是生成式范式无解的难题。

下一代信息获取范式展望:内容生成

现有的生成式搜索与推荐的范式,仍然是完成传统的目标,即检索或者推荐一个现有的文档或者物品给用户。随着生成式模型的发展,直接生成相应的内容来满足用户的信息需求变为了可能。

相应的对比包括:搜索引擎与大语言模型,图像搜索与图像生成,商品推荐与商品生成。

内容生成可以通过整合内部知识来生成原先不存在的内容,存在着更好的满足用户信息需求的可能性,同时也面临着幻觉等问题。

总结

本文一体两面的回顾了搜索与推荐的范式变迁,并深度介绍了生成式搜索与推荐的发展。本文聚焦于领域的核心问题,为生成式搜索与推荐归纳出一个统一的框架,并将现有的工作整理到这一框架的各个阶段。同时,本文也深度探讨了生成式搜索与推荐发展的不同挑战,探讨该领域的开放式问题,以及展望下一代信息获取范式。


技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
京东商家智能助手:Multi-Agents 在电商垂域的探索与创新重塑AIoT价值捕获,从亚洲走向全球,见证DePIN应用链TLAY的探索与实践CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务【0元包邮到家】《CFA中文精读!赠送300+题目》彻底根除“论文工厂”的方法,只会是“更简单的论文发表方式”;文献计量分析,让医生彻底解脱开发论文的桎梏!“一夫一妻”还是乱交?这种细胞彻底改变了行为;这种抑制脂肪生成的新型细胞,为肥胖治疗带来新思路|本周论文推荐Suno v3音乐生成模型发布,几秒钟生成完整歌曲;富士通用生成式AI加速药物研发丨AIGC日报知名学者与顶级投资人领衔!视频、3D、音乐生成玩家都来了,中国生成式AI大会嘉宾阵容更新,4月开启!老师综述是很难投稿吗?为啥网上一直有人说做科研就别碰综述,因为投不出去,是真的吗?为华语电影生态定格“她”的一帧丨年度观察与推介长篇奇幻浪漫小说《双灵星》第九章:师傅的相好【五一福利】《CFA一级中文精读免费送!赠送300+题目》一文精通GO的并发与并行ICML 2024 | 面向第三代推荐系统:Meta提出首个生成式推荐系统模型[NEU/NEC/Ruggles]热门学区房高级公寓简介与推荐!李彦宏:百度搜索11%结果由AI生成,搜索最可能成AI时代「杀手级App」;雷军亲自驾驶18日直播公开亮相 ......追踪川普,八千里路云和月1小时无痛写论文,巧用AI替自己打工,一键生成论文,开题报告和文献综述的秘诀!川普赢了,拜登笑了语文精读这么重要,为什么适合精读的书却没几本?FIRST青年电影展 · FIRST FRAME丨年度观察与推介研一医学生被综述逼疯了?网友:用AI工具,10分钟拿下高分综述……我在西双版纳过泼水节丨英文精读丨传统文化丨文娱旅游阿尔特曼称GPT-5提升超想象;库克在中国首谈生成式AI;字节推出视频生成新模型丨AIGC大事日报@所有生成式 AI 使用者,快来参与有奖调研!| Q推荐中东见闻4 多哈传统集市一瞥知乎AI革命:智能搜索与实时问答的融合哭了!综述写的太烂被导师骂了一个小时,这份综述教程简直是“雪中送炭”……(免费学)早鸟报|遥望科技布局出海业务;三只羊网络首部短剧已开拍;Adobe探索与OpenAI合作...10秒整理搜索结果,脑图表格一键生成,网友:搜索终于有了该有的样子中篇小说:连长(03),首发李彦宏:开源模型会越来越落后;Adobe探索与OpenAI合作,增加人工智能视频工具丨AIGC日报Cell Symposia功能性RNA 摘要征集 I 陈雪梅、何川等重磅嘉宾论文精选应对算力焦虑的Chiplet芯片架构探索与多物理场仿真|智猩猩Chiplet技术公开课第9期预告从 CLM 启航:中国大模型的探索与未来
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。