Redian新闻
>
如何更好的使用 LLMs:Self-RAG

如何更好的使用 LLMs:Self-RAG

科技

本文内容来自:

论文:《Self-RAG: Learning to Retrieve, Generate and Critique through Self-Reflections》 https://arxiv.org/pdf/2310.11511.pdf

Twitter:https://twitter.com/cwolferesearch/status/1719054078544601096

论文描述的方法比较繁杂且富有技巧,但是思想比较赞同,由于模型能力的限制,不同的问题需要不同的 Prompt 解决,但 Prompt 又无法预先设置,就需要有一个独立的分析模块。

其实在实际的应用中,不仅仅是需要判断是否检索,例如:

  1. 做数学题的时候,我们给一些例子
  2. 物理题的时候,抽象一下原理
  3. 等等

正文
检索增强生成(RAG)是提高语言模型(LLMs)质量和真实性的流行工具。自我RAG通过教导LLM反思和决定RAG的哪些组成部分实际上有助于回答提示,使RAG更加智能化。
简而言之:RAG非常有效,但它是一种固定的方法。无论是否相关(或根本不需要检索),K个段落总是被检索并放置在LLM的上下文中。Self-RAG通过教导LLM反思RAG过程并决定改进了这种方法。
1. 是否需要检索
2. 如果检索到的内容确实相关
3. 无论其产出是否高质量和真实
自我评估引导下,LLM的输出质量得到了提高,幻觉现象也减少了。
反思token。为了让一个LLM进行反思,Self-RAG引入了两个特殊的“反思”token——retrieval和critique token。retrieval token用于确定是否需要检索,而critique token用于衡量模型输出的质量。有趣的是,这些仅仅是LLM词汇表中的特殊Token。因此,它们可以在训练期间学习,并在推理过程中像任何其他(文本)token一样使用——通过下一个token预测。
使用Self-RAG进行推理。要理解Self-RAG,我们需要看一下它如何使用LLM生成文本。这个推理过程有点复杂,但它遵循以下基本步骤:
1. 输出一个检索令牌以确定是否需要检索。
2. 如果不需要检索,LLM会生成一个回复,并使用批评令牌对回复进行批评。
3. 如果需要检索,检索模块会为LLM获取前K个文本段落。
算法如下:

LLM使用批判性标记来确定每个段落是否与提示相关。
对于每个段落,LLM会生成一个回应,并使用批评标记来确定回应是否准确和有用。
所有回复都会根据事实性、质量和相关性进行排名。
详细的过程:

Self-RAG训练。为了训练一个Self-RAG模型,论文作者首先在一个由GPT-4生成的合成数据集上训练一个Critic模型,该模型展示了如何将反思标记插入LLM的正常回复中。然后,使用这个Critic模型以离线方式为Self-RAG生成训练数据,通过向LLM的回复中添加Critic标记。接下来,可以使用一个类似LLaMA的模型作为起点,对这些数据进行端到端的训练,通过下一个标记的预测来学习必要的retrieve和critic技巧。

实证结果。使用Self-RAG来训练/微调LLaMA-7B和13B模型。得到的模型表现相当不错,实际上超过了几个强大的检索增强基准模型,如Toolformer、LLaMA-2和Alpaca-7B/13B。

关于实用性的说明。Self-RAG解决了RAG的一个重要限制。即使这些段落可能与提示无关,RAG始终会为LLM的上下文检索一定数量的段落。然而,Self-RAG引入了许多不实用的推理过程的复杂性——它需要LLM进行大量额外的前向传递!因此,Self-RAG可能对应用程序没有用处,但希望会有更实用/高效的变体出现。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
面试技巧|如何回答Where do you see yourself in 5 years?如何提升LLMs:CCoT儿童急性中耳炎抗生素的使用时机,看这一篇就够了!Cell|双管齐下靶向SWI/SNF和EP400可有效抑制癌细胞生长,有望开发出更好的癌症疗法旅美散记(02):火车上巧遇美国中学生全球美元体系以及它的使用方法0.2美元微调就能让ChatGPT彻底破防!普林斯顿、斯坦福发布LLM风险预警:普通用户微调也影响LLM安全性Docker的使用案例以及未来发展、Docker Hub 服务、环境安全、容器部署安全港大联合百度 WSDM 2024 | 如何让LLMs助力推荐系统?图数据增强DreamLLM:多功能多模态大型语言模型,你的DreamLLM~BELLE-7B-1M逆袭ChatGLM?10B量级开源中文对话LLM,谁成常识问答任务的黑马?OpenAI的动荡如何影响银行业对生成式人工智能的使用台湾李宏毅:如何让LLMs更好评估文本质量?rag bone黑五extra 25%off来了,他家Nina系列的牛仔裤很好穿宇宙尽头是「计算」!AI大佬Wolfram最新演讲:LLM自主在计算空间探索,奇点降临就是现在麻州黄金地段,自住投资两相宜--本周房源精选--Lynnfield/Melrose/Belmont港大&百度提出LLMRec:基于LLM增强的多模态图神经网络推荐Eye on China Market, Top Pharma Firms Showcase Rare Disease Care6.7k Star量的vLLM出论文了,让每个人都能轻松快速低成本地部署LLM服务Continuous Batching:解锁LLM潜力!让LLM推断速度飙升23倍,降低延迟!维也纳和布拉迪斯拉瓦掠影如何使用LLMs:Chain of Verification (CoVe)如何更好地继续预训练(Continue PreTraining)200刀Samsung C24FG70FQE 24" Full HD 1ms 144Hz Curved Quantum Dot Rag Bone 有额外75折,黑色牛仔裤很好看,价格也很好在机场乾坤挪移推高“一片云”-金盆洗手的论语(小说)(8)麻州黄金地段,自住投资两相宜--本周房源精选--Lynnfield/Belmont/Melrose200刀Samsung Odyssey G32A 27" FHD 165Hz FreeSync 1ms Gaming Monit‘Lying Flat’ Wolf Fed Well by Tourists, But Concerns Raised如何更好地虚度时光? | 社长日签麻州黄金地段,自住投资两相宜--本周房源精选--Melrose/Lynnfield/BelmontCMS:如何将18家独立律所,打造成欧洲最大品牌?彰武路今昔小花猫,装模作样陈丹琦新作:一个LLM的评估基准LLMBarHelp yourself!案件查询方法总结!犹豫不决,Self Portrait 和 Sandro 这几件留吗?面试技巧|如何回答Tell me about yourself?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。