Redian新闻
>
长文本信息准确率超过ChatGPT,Meta提出降低大模型幻觉新方法

长文本信息准确率超过ChatGPT,Meta提出降低大模型幻觉新方法

公众号新闻
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

大模型的幻觉问题,又有新的解决方法了!

Meta AI实验室提出了一种“分而治之”的解决方案。

有了这个方案,Llama-65B输出的信息准确率提升了一倍,甚至超过了ChatGPT

所谓大模型幻觉,就是输出一些看似合理但完全不对的内容。

Meta此次提出的“验证链”(CoVe),是与“思维链”(CoT)相似的一种链式方法

区别在于,“step-by-step”的思维链更关注逻辑推理,而验证链更注重事实信息

有网友看了之后发现,这个验证链很像是自己用ChatGPT写代码时的一种科学方法:

那么“验证链”究竟是个什么方法,“验证”的又是什么呢?

拆解答案,分而治之

验证链的核心思想,是把要验证的一大段内容,拆解成一个个小的问题,具体流程是这样的:

首先,模型会根据用户提出的问题照常生成回复。

接着,根据生成的回复内容,针对其中的各项信息,生成一系列的验证问题。

然后让模型自行回答其所提出的这些问题,并根据结果对初始答案进行调整,得到最终结果。

举个简单的例子,假如想询问模型19世纪美墨战争的主要原因是什么。

模型回答了事件发生的时间,以及在这之前都发生了什么事。

之后针对这一系列事件,逐一询问它们是什么时候发生的。

于是,模型发现自己提到的一项内容时间相差太远,调整后给出了最终的答案。

其中,问题的生成和验证是最关键的一环,对此,研究人员一共提出了四种具体的方式:

  • Joint,即将生成问题和回答的指令写入同一段提示词

  • 2-Step,即先让模型生成提问,然后开启新的对话(一次性)回答提出的问题

  • Factored,在2-Step的基础上,对提出的每一个问题分别开启新对话

  • Factor+Revise,在Factored的基础之上加入一致性检验,让模型重点关注前后不一致的内容

这四种模式越来越细化,准确率也是越来越高。

从红色开始,四种颜色依次代表无CoVe、Joint、Factored和Factor+Revise

那么为什么拆分提问就能提高模型的准确性呢?

首先是因为拆解后的问题比整体任务更容易,论述题变成了问答甚至选择、判断题,问题简单了,准确率也就提升了

此外,把问题分解可以让模型真正重新思考,而不是反复地重复错误答案

那么,验证链方式的效果究竟如何呢?

信息准确率超过ChatGPT

为了探究这一问题,研究人员用Llama进行了测试,测试任务一共有三项。

首先是信息列举,比如列举出出生于某地、从事某行业的名人。

这项任务中,研究人员一共测试了两个数据集——简单一些的Wikidata和从难一些的Wiki-Category list(从维基百科中提取)。

结果发现,65B参数的Llama,在two-step模式的验证链加持下,简单问题的准确度从0.17提升到了0.36,增加了一倍还多,复杂问题准确度也接近翻番。

接下来是“闭域问答”题,研究人员从MultiSpanQA数据集中抽取多个不连续信息进行挖空提问。

比如“谁在哪一年创建了世界上第一家出版社”(答案是Johannes Gutenberg, 1450)。

结果,Cove也为Llama带来了20%左右的准确度提升。

第三项任务是“长段文本传记生成”,问题就是“Tell me a bio of (人名)”,使用FactScore数据集进行评价。

结果在Factor+Reviese模式下,准确率不仅比无验证链模式大幅提高,还超过了ChatGPT

对这项研究感兴趣的朋友,可以到论文中了解更多细节。

论文地址:
https://arxiv.org/abs/2309.11495

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名  

最具影响力的年度智能商业峰会MEET 2024智能未来大会已启动!点此了解详情


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
大模型幻觉排行榜GPT-4夺冠,英伟达科学家强力打假!Meta版ChatGPT一作发长文鸣冤让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%ChatGPT代码生成飙升10%!北大华人一作:细化prompt,大幅改进大模型代码能力微软开源的大模型太强了,数学推理超ChatGPT,论文、模型权重全部公开大模型搞“人肉搜索”,准确率高达95.8%!研究作者:已提醒OpenAI谷歌Meta击败整个羊驼家族,Meta AI自对齐新方法只需极少人工标注数据谷歌让大模型更具“心智”,GPT-4任务准确率大增《等到草原花满地》&《心许百年》DeepMind让大模型学会归纳和演绎,GPT-4准确率提升13.7%ICCV 2023 | 中科大&微软提出AFFNet:轻量级视觉新主干日本租客提出降租该怎么办呢?OpenAI祭出绘画神器,Midjourney一夜下台!DALL·E 3联手ChatGPT,无需prompt一笔成神OpenAI回应ChatGPT服务故障;新研究以99%准确率识别ChatGPT生成化学论文;三星发布自研大模型丨AIGC日报科研上新 | 第2期:可驱动3D肖像生成;阅读文本密集图像的大模型;文本控制音色;基于大模型的推荐智能体金融文本情感分析,有了ChatGPT,还需要其他模型吗?GPT-4 MATH准确率最高涨至84.3%!港中文、清华等七所顶尖高校提出全新CSV方法数学能力超过ChatGPT!上海交大计算大模型登开源榜首为防大模型作恶,斯坦福新方法让模型「遗忘」有害任务信息,模型学会「自毁」了34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%4k窗口长度就能读长文,陈丹琦高徒联手Meta推出大模型记忆力增强新方法AI海洋中的海妖之歌:腾讯AI Lab大模型幻觉问题综述英伟达推出大模型加速包;Meta将训练对标GPT-4的大模型;ChatGPT等成费水大户丨AIGC大事日报俄罗斯科技巨头Yandex创建大模型YandexGPT,声称性能优于ChatGPT我们的一年(写在行前)GPT-4完成正确率仅6%!北大等提出首个「多轮、多模态」PPT任务完成基准PPTC多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟给大模型生成文本发身份证:针对大模型生成文本的可编码水印技术5122 血壮山河之武汉会战 富金山战役 10第七章 科学的兴起 (2)放手ICCV 2023 | 新注意力!清华黄高团队提出FLatten Transformer视觉新主干幻觉降低30%!首个多模态大模型幻觉修正工作Woodpecker比GPT-4还强,20亿参数模型做算术题,准确率几乎100%Meta再放「长文本」杀器Llama 2-Long:70B尺寸登顶最强「32k上下文」模型,超越ChatGPTChatGPT测试上传文件功能;百川推出192K长文本大模型;通义千问App安卓版上线丨AIGC大事日报
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。