Redian新闻
>
华为查询建议新范式MMQS入选WWW 2024,解锁基于人类反馈的多模态查询建议

华为查询建议新范式MMQS入选WWW 2024,解锁基于人类反馈的多模态查询建议

公众号新闻
机器之心专栏
机器之心编辑部


在信息时代,搜索引擎成为人们检索信息不可或缺的工具。然而传统的基于关键词的搜索方法要求用户准确表达搜索需求,因此有一定挑战。为了改善用户体验,查询建议系统崭露头角。这些系统通过分析用户当前的查询输入,生成相关的建议,减轻用户的搜索负担。文本查询建议(TQS)和视觉查询建议(VQS)是两种已经深入研究的查询建议系统。TQS 根据用户当前的查询生成一系列关键词,辅助用户更清晰地表达搜索意图。而 VQS 通过将视觉示例与建议一起呈现,提高了用户理解上下文的能力。


然而这些系统的局限在于主要依赖用户的文本输入,而图像中蕴含丰富信息。在某些情况下,用户可能更愿意通过拍摄照片进行搜索,而不是通过文字表述清楚。例如,假设用户在骑自行车时自行车出了故障。在这种情况下,用户直觉的搜索方式可能是迅速拍摄一张自行车的照片以查询解决方案,而不是依赖 TQS 或 VQS 用文本描述当前的问题。如果用户在搜索框中键入 “自行车”,提供的建议可能是 “自行车扑克”、“自行车店” 和 “自行车泵”,这些都与用户意图不相关。


此外,为了进一步提升查询建议的质量,系统不仅应该提供修理自行车的指导,还应该提供其他有用信息,比如附近的自行车修理点以及自行车频繁故障的可能原因。这些多样的选择允许用户有效地探索他们可能需要的信息。


为了解决这个问题,华为中央软件院新加坡搜索技术团队在该文中提出了一个新的多模态查询范式 MMQS,允许用户通过图像,获得多模态的查询建议,提高了搜索的灵活性和准确性。目前该工作已被互联网领域顶会 WWW 2024 接收。



论文链接:https://arxiv.org/abs/2402.04867




多模态查询建议 MMQS


在这项工作中,作者以用户查询图像为输入,并生成查询建议以响应用户的搜索意图。鉴于查询建议旨在帮助用户启动搜索引擎,MMQS 的设计聚焦于两个关键特性。


  • 意向性:MMQS 的主要目标是有效捕捉用户的搜索意图,推断出难以用言语表达的隐含信息需求。

  • 多样性:MMQS 生成涵盖查询图像不同方面的查询建议,从而扩展搜索空间。


挑战与创新点剖析


MMQS 问题的构建引入了一系列需要创新解决方案的挑战。其中的挑战问题包括:


1. 数据收集:整合包含文本和视觉信息的多模态数据带来了独特的数据准备挑战,这涉及生成图像 - 建议对,这在许多公开可用的图像 - 文本数据集(例如,COCO Captions 或 Flickr30k Entities)中并不常见。此外,标注用户意图可能是耗时的,缺乏清晰的指导方针。为了确保 MMQS 的成功,对于数据收集、自动配对和可靠注释的有效策略变得至关重要。


2. 意向性和多样性的捕捉:从查询图像中推断用户意图并生成多样化的建议是一项复杂的任务。这需要理解视觉上下文和图像与文本建议之间的关联。在生成的建议中同时实现意向性和多样性需要精心设计的技术,以与用户意图对齐并避免冗余。


针对以上问题作者提出了以下创新方案:


GPT 协助下的自动化数据采集:作者利用当前 GPT 语言生成的能力,自动化收集图像 - 建议对和基于潜在点击的用户意图注释。采用基于阈值的机制,有选择地涉及对置信度较低建议的手动工作,确保在数据标注过程中在自动化和人工输入之间取得平衡。



作者通过参数实验发现,当阈值设为 0.6 时基本能产生和人类标注数据接近的优化效果,但是极大缓解了标注工作量大约 46.9%


基于多智能体人类反馈的强化学习框架 RL4Sugg:框架内包括两个智能体协同工作:Agent-I 负责意向性,Agent-D 负责多样性。Agent-I 首先生成一组有意向的候选建议,包括专为此任务定制的 RewardNet 和 PolicyNet。RewardNet 利用多任务学习对图像 - 建议对进行对齐,并为这些对分配奖励。然后,通过人类反馈的强化学习(RLHF)对 PolicyNet 进行训练,以增强建议的意向性。Agent-D 从候选池中选择多样性建议,旨在与 Agent-I 协作,确保在端到端训练中明确优化意向性和多样性。


为什么要使用多智能体?作者在 MMQS 任务中给出了讨论为什么要同时使用 Agent-I 和 Agent-D,而不是修改 Agent-I 来处理意向性和多样性两个方面 — 在解决该研究中 MMQS 任务时需要满足两个重要的特性:意向性和多样性。特别是这两个特性呈现出一些正交关系(依据消去实验结果),同时将它们融入统一的 Agent 框架中面临挑战。



通过在表格中的实证研究结果,当专门训练 Agent-I 执行这个任务时,观察到该 Agent 倾向于生成高度有意向性但重复的建议。因此,这种方法允许 Agent 通过利用重复的捷径从 RewardNet 获得高分,导致多样性显著下降。为了克服这个局限,使用两个独立的 Agent 来处理这两个不同的特性。具体而言,Agent-I 负责优化意向性,而 Agent-D 致力于增强多样性。这种战略性的分工使得能够通过应用多智能体强化学习明确优化 MMQS 任务中的意向性和多样性,确保对该任务的更全面的解决方案。


RL4Sugg 支撑应用场景:作者在两种搜索引擎场景中探索了 RL4Sugg 的能力:(1)生成型和(2)检索型。


在(1)中,RL4Sugg 可以利用其语言生成能力,从 LLMs 中生成自然的查询建议,以响应用户在不同领域的图像查询。


在(2)中,RL4Sugg 专注于为具有较窄焦点的特定领域提供查询建议,如电子商务购物网站,其中查询建议仅限于它们的商品,并可以提前准备。它利用 PolicyNet 的两塔结构来表示图像和语言的能力。查询建议以向量表示存储在数据库中,而基于向量的检索,如 HNSW,增强了搜索效率。在推理过程中,RL4Sugg 提取用户的图像表示,并检索具有高相似性的查询建议。值得注意的是,这种方法提供了多种优势,包括高效的查询响应,通过预计算和存储查询建议在数据库中,可以提前保证这些建议的质量。


RL4Sugg 解决冷启动问题:由于 RL4Sugg 依赖于注释者的反馈来理解搜索的意向性,当学到的知识对在线用户查询不足时,RL4Sugg 可能会面临潜在的冷启动问题,即在推荐建议时缺乏足够的学到的知识。为了解决这个问题,作者采用在线学习的方法,通过不断对两个 Agent 的优化方程进行微调,利用新记录的查询图像和用户点击的建议,确保模型的策略保持最新以适应在线使用。在实验中作者验证了这种方法,结果显示用户体验提高了 8.3%,表明这一策略在实际应用中产生了积极的影响。


实验结果


生成 & 检索任务有效性测试:作者进行实验证明了在生成和检索任务方面模型的有效性。该模型在 Business 数据集上进行微调(文中报告了具体参数),并在 ImageNet 上进行了直接测试以验证其可迁移性。对于生成任务,作者在 Business 和 ImageNet 数据集上查询了 300 张图像,RL4Sugg 在 DCG 方面优于所有基线模型,表现出很强的可迁移性。最佳基线模型 Flamingo 的 DCG 为 0.73(比 RL4Sugg 低 18%)。所有模型在多样性方面表现相似,除了 BLIP-2 偶尔生成同义的查询建议,以及 LLaVA 倾向于生成较长的建议。由于查询建议基于包含必要实体和常见语法结构的查询图像,所有模型的总体多样性值并不很高。对于检索任务,RL4Sugg 在两个数据集上的 PNR 和 Recall 均优于其他两个基线模型。


Case study:作者在公开数据中展示了 RL4Sugg 图像到建议生成的零样本能力。其中选择与 Flamingo 进行比较,因为它在基线中表现最佳。可观察到查询建议涵盖了查询图像的各种意图。


在样例图中,潜在的意图可能涉及清理或整理脏冰箱的任务。值得注意的是,可观察到 RL4Sugg 在 RLHF 训练后有效地捕捉到了这一直观意图。此外,RL4Sugg 可以准确地捕捉到一个高意图的查询,如 “破碎的 iPhone 手机”。


团队介绍


该工作由华为新加坡中央软件院团队独立完成,团队以深耕 AI 基础软件作为目标,聚焦大模型基础软件技术创新研究,包括多智能体、多模态提示及检索增强生成(RAG)等前沿基础技术研究和能力构建,致力于构建基于强大算力和大模型的应用技术,以推动 AI 基础软件的发展。





© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度WWW 2024 | 港理工等联合提出线性时间图神经网络,适用于大规模推荐系统零一万物 API 上线,用户反馈多模态中文图表体验超过 GPT-4V清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力看视频、画CAD、运动想像识别!75B的多模态工业大模型太能干了马斯卡傻眼,2w二手特斯拉被甩卖,2024年继续!二手车买卖,好去处,美国同城分类信息网www.us58.com上线了两首《万家灯火》【美坛综艺秀假日篇】Best wishes for 2024!最强开源多模态生成模型MM-Interleaved:首创特征同步器2023虽然过的不尽人意但是也要总结一下!比肩GPT-4,商汤日日新大幅升级4.0,多模态能力领先一步AI早知道|ChatGPT模型大更新;阿里云发布多模态大模型;百度推多模态模型UNIMO-GWWW 2024 | 阿里等提出GraphTranslator,将图模型对齐大语言模型New Year's fireworks 2024 LIVE: NYC's Times Square ball dropAI早知道|Apple 发布 MM1多模态大语言模型;xAI 是市场上薪酬最高的人工智能公司零一万物Yi-VL多模态大模型开源,MMMU、CMMMU两大权威榜单领先CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型关于朱令铊中毒的一点讨论杭州/北京内推 | 阿里达摩院多模态团队招聘多模态方向全职研究员/实习生WWW 2024 | 通用可识别、可解释认知诊断框架:开创全新学习者能力建模范式上海交大新框架解锁CLIP长文本能力,多模态生成细节拿捏,图像检索能力显著提升智谱 AI 推出新一代基座大模型 GLM-4,能力逼近 GPT-4,配备多模态、长文本和智能体Runner’s Tradition——2024 Opening​AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpanLAMM:多模态指令微调数据集、框架、评测基准Strong start 2024今日Arxiv最热NLP大模型论文:Meta自我奖励模型超越人类反馈限制,刷新AlpacaEval 2.0排行榜国内多所高校共建开源社区LAMM,加入多模态语言模型大家庭的时候到了爆火的多模态微信交流群成立!嫉妒的心灵不美丽首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024Cell Metabol | 科学家提出人类1型糖尿病发生的新范式2024 rav4 油车 le四驱程柯团队开发基于外泌体的吸入式mRNA疗法,用于肺癌治疗并促进全身免疫,防止癌症复发《再见,布里诺斯艾利斯》最强开源多模态生成模型MM-Interleaved:首创特征同步器,刷新多项SOTA小模型性能直逼GPT-4?北航等提出基于强弱模型协同的ICL增强新范式首创pix2emb范式!NUS清华联合发布NExT-Chat:对话/检测/分割全能多模态大模型腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法速查!CFA协会:24年CFA考试报名状态查询!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。