Redian新闻
>
今日arXiv最热NLP大模型论文:大模型RAG新宠!浙江大学发布自反馈检索增强方法

今日arXiv最热NLP大模型论文:大模型RAG新宠!浙江大学发布自反馈检索增强方法

科技

夕小瑶科技说 原创
作者 | 芒果

引言:探索知识检索增强新篇章

在人工智能领域,大语言模型(LLMs)凭借其在多种任务上的卓越表现而备受瞩目。然而,这些模型在知识存储和更新方面仍面临挑战,尤其是在处理开放领域问题时。传统的知识检索增强(RAG)方法通过整合外部知识来解决这一问题,但如果检索到的文本不相关,可能会削弱模型的性能。为了克服这些限制,本研究提出了一种新的框架——检索增强迭代自反馈(RA-ISF),通过迭代处理问题,结合自知识模块、文本相关性模块和问题分解模块,以提高模型的问题解决能力。

论文标题
RA-ISF: Learning to Answer and Understand from Retrieval Augmentation via Iterative Self-Feedback

论文链接:
https://arxiv.org/pdf/2403.06840.pdf

RA-ISF框架介绍

1. RA-ISF三个子模块功能

  • 自知识模块(Mknow):判断当前问题是否可以仅凭模型自身的知识解答。
  • 文本相关性模块(Mrel):评估检索到的每个段落与问题的相关性,并将相关段落整合到提示中用于预测。
  • 问题分解模块(Mdecom):当所有段落都与问题无关时,将问题分解为子问题,并重复上述步骤处理这些子问题。

2. RA-ISF工作流程

RA-ISF首先使用自知识模块判断当前问题是否能够依靠模型自身的知识解答。如果不能,则使用检索策略,文本相关性模块将评估每个检索段落与问题的相关性。相关段落将被整合到提示中并用于预测。当所有段落都与问题无关时,问题分解模块将问题分解为子问题,并重复之前的步骤处理这些子问题。最终,模型将综合子问题的答案来回应原始问题。通过这种迭代自反馈方法,RA-ISF更有效地释放了模型的潜力,并更好地将外部知识与模型的固有知识结合起来。

训练过程与数据收集

1. 数据收集方法

数据收集是构建RA-ISF模型的关键步骤。首先,需要构建一个由大语言模型(LLMs)生成的数据集。根据不同的训练目标,收集相应的问题集,并将它们逐一输入到LLM模型中。通过提供特定指令执行相应任务,并利用少量提示和上下文学习,使模型能够生成与每个问题相对应的答案集。

研究者收集了多种类型的监督训练数据,并通过上述过程将它们组合成模型的训练数据,最终形成了训练数据集。

2. 子模块训练过程

RA-ISF框架包含三个预训练模型:Mknow、Mrel和Mdecom,分别负责内部知识评估、外部知识检索和问题分解功能。以Mknow模型的训练为例,研究者首先使用预训练的语言模型初始化Msub,并使用标准的条件语言建模目标进行训练,以最大化分类的有效性。这里,研究者使用交叉熵损失来表示这一目标,并且使用Llama 2-7B模型作为初始模型。

实验设计与评估

1. 评估数据集

为了全面评估不同特征的数据集的性能,研究者使用以下五个代表性数据集进行评估:Natural Question (NQ)、TriviaQA、StrategyQA、HotpotQA和2WikiMQA。

2. 选择模型与检索器

框架中的模型分为两类:用于预测的LLM和三个用于评估问题特征的中间步骤模型。对于LLM,研究者实验了不同大小的开源Llama2以及通过OpenAI API的GPT-3.5。对于三个子模型,采用Llama2-7b作为它们的预训练模型。

3. 基线方法比较

为了进行全面的评估和比较,研究者使用相同的数据集、检索器和语料库,将该研究的方法与以下基线方法进行比较:直接提示、Vanilla LM、Least-to-most、IRCoT、RAG、SKR、REPLUG、Iter-RetGen和Self-RAG。

实验结果分析

1. RA-ISF在各数据集上的表现

研究者提出的RA-ISF在GPT3.5上的所有五个数据集上均优于其他方法。平均而言,RA-ISF与不使用检索的基线相比,性能提升了+8.7。与使用检索的基线相比,RA-ISF超越了所有现有方法,与最优方法相比平均性能提升了+7.4。此外,与同样使用迭代检索的Iter-RetGen相比,RA-ISF在HotpotQA上显示出+2.0的改进。

2. 对比基线方法的性能提升

RA-ISF还有效地减轻了与RAG相关的幻觉问题。例如,在TriviaQA和StrategyQA数据集中,直接RAG导致性能下降,可能是由于不相关检索内容的负面影响。在研究框架中,三个子模块帮助模型减少幻觉并增强知识表征。与GPT-3.5 + RAG相比,GPT-3.5 + RA-ISF在StrategyQA上实现了+11.2的性能提升。在TriviaQA上也观察到类似的性能提升。

消融研究与迭代阈值分析

1. 子模块消融研究结果

在RA-ISF框架中,通过消融研究来评估三个子模块——自知识模块(Self-Knowledge Module)、段落相关性模块(Passage Relevance Module)和问题分解模块(Question Decomposition Module)——对整体性能的贡献。消融实验的结果表明,移除任何一个子模块都会导致性能下降,这强调了每个组件在框架中的重要性。例如,没有自知识模块的变体通过分解无关文本来提高结果,而没有段落相关性模块的变体则在自知识判断后直接分解问题,没有涉及段落相关性模块。最后,如果没有问题分解模块,当没有找到相关段落时,答案将被标记为“未知”,并且不会进行迭代。这意味着RA-ISF的迭代次数设置为0。

2. 迭代阈值对性能的影响

RA-ISF通过设置问题分解的迭代阈值Dth来限制问题分解的迭代次数。研究者在不同的Dth值上进行实验,发现随着Dth值的增加,模型在回答问题的准确性也随之提高。这表明,更多的迭代有助于提高模型解决问题的性能。然而,当迭代次数过多时,可能会导致模型无法找到解决问题的相关段落或知识,这表明模型无法解决问题实际上是由于缺乏知识而不是理解不足。

小型子模型的选择与评估

1. 不同大小子模型的性能比较

研究者选择了Llama27B模型作为训练三个子模型的预训练模型,并探讨了使用更小型模型作为中间组件的有效性。研究者选择了T5780M模型进行训练,并将其与Llama27B进行了比较,结果表明,使用T5780M模型时,GPT3.5的准确性只比使用Llama27B模型低一到两个百分点。这表明,在训练RA-ISF的三个子模型时,即使使用较小的模型作为预训练模型,也能展现出良好的性能。

2. 小型子模型的有效性分析

尽管小型子模型在性能上略逊于更大的模型,但它们在成本和资源限制的情况下仍然是有效的选择。例如,当RA-ISF方法在小型T5780M模型上进行训练时,使用该模型回答问题的准确性仅略低于Llama27B,这表明在训练RA-ISF的三个子模型时,如果存在约束或成本限制,使用像T5780M这样的小型模型作为预训练模型仍然可以展现出卓越的性能。

人工与模型评估的可靠性分析

1. 人工评估方法与结果

本研究邀请了具有本科或研究生学位的50名人类评注员来评估模型生成的答案的准确性。评注员通过问卷调查的形式对模型的结果进行了评估,他们对生成结果与问题的相关性以及分解的正确性给出了意见。人类评注员和GPT-4的评估结果显示,这三个模型在各自的任务中展现出高度的可靠性,准确率超过85%。特别是,自知识模块Mknow在识别自身知识方面的准确率达到了97%,而问题分解模块Mdecom的准确率略低,因为问题分解任务属于生成任务范畴,可能存在多种可行的分解方案。

2. 模型评估的一致性检验

在RA-ISF框架中,三个子模块的结果表明它们在可靠性方面表现良好。例如,自知识模块Mknow在判断问题是否可以使用模型自身的知识库解决时与GPT-4的一致性达到了97%。段落相关性模块Mrel在判断给定问题和相关段落是否确实相关时的判断与GPT-4保持一致,被认为是正确的。问题分解模块Mdecom则在LLM和评注员都认为每个子问题与原始问题在语义上保持一致时,被认为是有效的。

研究结论与未来展望

1. RA-ISF的优势与局限性

RA-ISF框架通过迭代式自反馈方法,有效地提升了检索增强型生成模型在开放域问答任务中的表现。它通过自知识模块、段落相关性模块和问题分解模块的迭代处理,减少了不相关文本的干扰,提高了模型对外部知识的整合能力,从而在多个大型语言模型上取得了优异的性能。

然而,RA-ISF也存在一定局限性。首先,迭代式问题解决可能导致问题的过度分支,特别是在连续探索问题及其子问题而未找到解决方案或相关段落时,这种方法可能变得低效。其次,问题的不同表述可能会影响问题分解模块的有效性,导致迭代次数和结果之间的微小差异。

2. 未来展望

未来的研究可以着重于进一步缓解大型语言模型中的幻觉问题,并提高框架的效率。此外,RA-ISF主要依赖于开放域问答数据集,未在特定领域如数学推理、符号推理或医学和法律等专业领域进行测试。未来的研究可以探索RA-ISF在这些数据集上的表现。研究团队还计划研究如何更有效地使用检索增强技术,并简化其复杂性。


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
今日arXiv最热NLP大模型论文:GPT-4理解武林外传中的含蓄表述,达人类水平今日arXiv最热NLP大模型论文:超越GPT-4,清华发布网页导航智能体AutoWebGLM今日Arxiv最热NLP大模型论文:复旦大学最新研究,如何让大模型说出“我不知道”?《早晨的故乡》&《橱窗》今日arXiv最热NLP大模型论文:微软:用大模型分析用户满意度,让智能系统更善解人意今日arXiv最热NLP大模型论文:一文读懂大模型的prompt技术今日arXiv最热NLP大模型论文:CMU最新综述:工具使用,大模型的神兵利器今日arXiv最热NLP大模型论文:IBM研究院提出Genie方法,自动生成高质量数据集今日arXiv最热NLP大模型论文:浙江大学:蒸一蒸,多Agent变成单一模型,效果更好今日arXiv最热NLP大模型论文:韩国团队提出ResearchAgent系统,模仿人类产出论文idea今日arXiv最热NLP大模型论文:微软提出SliceGPT,删除25%模型参数,性能几乎无损今日arXiv最热NLP大模型论文:揭露大语言模型短板,北京大学提出事件推理测试基准今日arXiv最热NLP大模型论文:清华大学:大语言模型的常见词僻意理解能力竟不如中学生今日arXiv最热CV大模型论文:国产开源视觉大模型InternVL 1.5发布,赶超GPT-4V水准今日arXiv最热NLP大模型论文:引入噪声,可提升RAG检索效果超30%??今日arXiv最热NLP大模型论文:北京大学警惕ChatGPT等大模型遏制人类的创新能力今日arXiv最热NLP大模型论文:微软发布可视思维链VoT,提高大模型空间想象力今日arXiv最热NLP大模型论文:伯克利&DeepMind联合研究,RaLMSpec让检索增强LLM速度提升2-7倍!今日arXiv最热NLP大模型论文:对指令太敏感?山东大学提出一致性对齐法,治好大模型敏感体质!今日arXiv最热NLP大模型论文:Github万星!北航发布零代码大模型微调平台LlamaFactory我的健康厨房 - 我是如何控制和管理血糖的今日Arxiv最热NLP大模型论文:Meta自我奖励模型超越人类反馈限制,刷新AlpacaEval 2.0排行榜今日arXiv最热大模型论文:大模型也来看球,还能判断是否犯规今日arXiv最热NLP大模型论文:像人一样浏览网页执行任务,腾讯AI lab发布多模态端到端Agent今日arXiv最热NLP大模型论文:又到美国大选年,南加大教你如何用ChatGPT影响竞选今日arXiv最热NLP大模型论文:NAACL24实锤语言学对大模型“负优化”,抽象语义表示+思维链有损表现今日arXiv最热NLP大模型论文:COLING2024发布数据集揭示从莎士比亚时期开始的性别偏见今日arXiv最热NLP大模型论文:天津大学发布大模型数学能力细粒度评价基准FineMath今日arXiv最热NLP大模型论文:斯坦福发布法律指令数据集LawInstruct,统一17个辖区24种语言今日arXiv最热大模型论文:浙江大学:如何减轻视觉大模型中的幻觉问题一家之煮:当Pecan决定分手时劳伦斯:久别重逢刘苏里今日arXiv最热NLP大模型论文:华东师大发布对话级大模型幻觉评价基准DiaHalu纽约琐事(二)事事难料今日arXiv最热NLP大模型论文:面向不确定性感知的Language Agent
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。