Redian新闻
>
消灭「幻觉」!谷歌全新ASPIRE方法让LLM给自己打分,效果碾压10x体量模型

消灭「幻觉」!谷歌全新ASPIRE方法让LLM给自己打分,效果碾压10x体量模型

公众号新闻



  新智元报道  

编辑:润
【新智元导读】谷歌和威斯康星麦迪逊大学的研究人员推出了一个让LLM给自己输出打分的选择性预测系统,通过软提示微调和自评估学习,取得了比10倍规模大的模型还要好的成绩,为开发下一代可靠的LLM提供了一个非常好的方向。

大模型的「幻觉」问题马上要有解了?

威斯康星麦迪逊大学和谷歌的研究人员最近开发了一个名为ASPIRE的系统,可以让大模型对自己的输出给出评分。

如果用户看到模型的生成的结果评分不高,就能意识到这个回复可能是幻觉。

如果系统可以进一步筛选评分的结果进行输出,比如如果评分过低,大模型就可能生成「我没法回答这个问」,从而有望最大限度的改善幻觉问题。

论文地址:https://aclanthology.org/2023.findings-emnlp.345.pdf

ASPIRE能让LLM输出答案以及答案的置信度得分。

研究人员的实验结果表明,ASPIRE在各种QA数据集(例如 CoQA 基准)上显著优于传统的选择性预测方法。

让LLM不仅要回答问题,还要评估这些答案 。

选择性预测的基准测试上,研究人员通过ASPIRE系统取得了超过10倍规模的模型的成绩。

就像让学生在课本后面验证他们自己的答案,虽然听起来有点不靠谱,但是细细一想,每个人在做出一道题目之后,确实会对答案的满意程度会有一个评分。

这就是ASPIRE的本质,它涉及三个阶段:

(1) 针对特定任务的调优,

(2) 答案采样,

(3) 自我评估学习。

在研究人员看来,ASPIRE不仅仅是另一个框架,它代表着一个全面提升LLM可靠性,降低幻觉的美好未来。

如果LLM可以成为决策过程中值得信赖的合作伙伴。

只要通过不断优化选择性预测的能力,人类距离充分发挥大模型的潜力就又近了一步。

研究人员希望能凭借ASPIRE,开启下一代LLM的进化,从而能创建更可靠和更具有自我意识的人工智能。

ASPIRE 的机制

针对特定任务的微调

ASPIRE执行特定于任务的微调以训练适应性参数,同时冻结LLM。
给定生成任务的训练数据集,它会微调预训练的LLM以提高其预测性能。
为此,可以采用参数高效的微调技术(例如,软提示词微调和LoRA)来微调任务上的预训练LLM,因为它们可以有效地通过少量目标获得强泛化任务数据。
具体来说,LLM参数(θ)被冻结,并添加自适应参数进行微调。
仅更新 θ (p) 以最小化标准 LLM 训练损失(例如交叉熵)。
这种微调可以提高选择性预测性能,因为它不仅提高了预测精度,而且还提高了正确输出序列的可能性。

答案采样

在针对特定任务进行调优后,ASPIRE使用LLM和学习到的为每个训练问题生成不同的答案,并创建用于自评估学习的数据集。
研究人员的目标是生成具有高可能性的输出序列。他们使用波束搜索(Beam Search)作为解码算法来生成高似然输出序列,并使用Rouge-L度量来确定生成的输出序列是否正确。

自评估学习

在对每个查询的高似然输出进行采样后,ASPIRE添加自适应参数,并且仅微调来学习自评估。
由于输出序列的生成仅取决于 θ 和,因此冻结 θ 和学习到的可以避免在学习自评估时改变LLM的预测行为-评估。
研究人员优化了,使得改编后的LLM可以自己区分正确和错误的答案。
在这个框架中,可以使用任何参数有效的微调方法来训练
在这项工作中,研究人员使用软提示微调,这是一种简单而有效的机制,用于学习「软提示」来调节冻结的语言模型,从而比传统的离散文本提示更有效地执行特定的下游任务。
这种方法背后的核心在于认识到,如果能够开发出有效激发自我评价的提示,那么应该可以通过结合有针对性的训练目标的软提示微调来发现这些提示。
在训练后,研究人员通过波束搜索解码获得查询的预测(beam search decoding)。
然后,研究人员定义一个选择分数,将生成答案的可能性与学习到的自我评估分数(即,预测对于查询正确的可能性)结合起来,以做出选择性预测。
结果
为了证明ASPIRE的效果,研究人员使用各种开放式预训练Transformer (OPT)模型在三个问答数据集(CoQA、TriviaQA和SQuAD)上对其进行评估。
通过使用软提示调整训练研究人员观察到LLM的准确性大幅提高。
例如,与使用CoQA和SQuAD数据集的较大预训练OPT-30B模型相比,采用ASPIRE的OPT-2.7B模型表现出更好的性能。
这些结果表明,通过适当的调整,较小的LLM在某些情况下可能有能力匹配或可能超过较大模型的准确性。
当深入研究固定模型预测的选择分数计算时,ASPIRE获得了比所有数据集的基线方法更高的AUROC分数(随机选择的正确输出序列比随机选择的不正确输出序列具有更高选择分数的概率)。
例如,在CoQA基准上,与基线相比,ASPIRE将AUROC从51.3%提高到80.3%。
TriviaQA数据集评估中出现了一个有趣的模式。
虽然预训练的OPT-30B模型表现出更高的基线精度,但当应用传统的自我评估方法(Self-eval和P(True))时,其选择性预测的性能并没有显著提高。
相比之下,小得多的OPT-2.7B模型在使用ASPIRE进行增强后,在这方面表现优于其他模型。
这种差异体现了一个重要的问题:利用传统自我评估技术的较大LLM在选择性预测方面可能不如较小的ASPIRE增强模型有效。
研究人员与ASPIRE的实验之旅强调了LLM格局的关键转变:语言模型的容量并不是其性能的全部和最终目的。
相反,可以通过策略调整来大幅提高模型的有效性,即使在较小的模型中也可以进行更精确、更自信的预测。
因此,ASPIRE证明了LLM的潜力,它可以明智地确定自己答案的确定性,并在选择性预测任务中显著地超越地超越其他10倍体量的模型。
参考资料:
https://blog.research.google/2024/01/introducing-aspire-for-selective.html



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
GPT-4准确率最高飙升64%!斯坦福OpenAI重磅研究:全新Meta-Prompting方法让LLM当老板有感有三美国博士小哥打败女友的AI男友!7页论文让LLM降智,训出「负分男友」成功挽回华威Derek教授1v1科研-基于多维统计变量模型的未来全球气候变化预测|收获一作论文与导师推荐信!《爱就一个字》谷歌发布West-of-N,利用合成数据,显著提升LLM奖励模型质量 | 今日Arxiv最热大模型论文LLM准确率飙升27%!谷歌DeepMind提出全新「后退一步」提示技术通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5纯文本模型训出「视觉」表征!MIT最新研究:语言模型用代码就能作画提示词专场:从调整提示改善与LLMs的沟通,到利用LLMs优化提示效果大庆观感大模型也能切片,微软SliceGPT让LLAMA-2计算效率大增被 Sora 抢了风头的谷歌“杀”回来了!谷歌的一群“书呆子”卷出了最强开放模型 GemmaUCLA华人提出全新自我对弈机制!LLM自己训自己,效果碾压GPT-4专家指导CVPR最佳论文颁给自动驾驶大模型!LLM能突破行业技术“天花板”吗?今日arXiv最热NLP大模型论文:伯克利&DeepMind联合研究,RaLMSpec让检索增强LLM速度提升2-7倍!AI造成幻觉?剑桥辞典2023年度字选出:意指「幻觉」LLM排行榜更新!谷歌Bard超过GPT-4,中国玩家未进前十从错误中学习!腾讯AI Lab提出诱导大模型自身幻觉来消除幻觉无题被Sora抢了风头的谷歌“杀”回来了!谷歌的一群“书呆子”卷出了最强开放模型Gemma大模型自我奖励:Meta让Llama2自己给自己微调,性能超越了GPT-4陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好今日arXiv最热NLP大模型论文:IBM研究院提出Genie方法,自动生成高质量数据集维基百科+大模型打败幻觉!斯坦福WikiChat性能碾压GPT-4,准确率高达97.3%Nature|LLM正在重塑教育,所有学生都需要学习AI,RAG是解决幻觉的关键谷歌Gemini刚发就惹质疑:测试标准有失偏颇,效果视频疑似剪辑GPT-4V惨败!CV大神谢赛宁新作:V*重磅「视觉搜索」算法让LLM理解力逼近人类比OpenAI官方提示词指南更全,这26条黄金准则让LLM性能飙升50%以上数学问题难解?新研究提出MathScale方法,让AI更懂数学推理大模型幻觉问题无解?理论证明校准的LM必然会出现幻觉夜观哈尔滨大秧歌国产大模型黑马诞生,千亿级拿下双榜第一!知识正确性能力突出,大幅降低LLM幻觉问题一个提示,让Llama 2准确率飙至80.3%?Meta提出全新注意力机制S2A,大幅降低模型幻觉突发!谷歌深夜掀桌子,发最强大模型Gemini,跑分碾压GPT-4【附60页技术报告】
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。