Redian新闻
>
大模型幻觉排行榜GPT-4夺冠,英伟达科学家强力打假!Meta版ChatGPT一作发长文鸣冤

大模型幻觉排行榜GPT-4夺冠,英伟达科学家强力打假!Meta版ChatGPT一作发长文鸣冤

公众号新闻



  新智元报道  

编辑:编辑部
【新智元导读】Meta Galatica的一周年忌日快到了,LeCun和一作心里都很痛。比ChatGPT早诞生两周,却因幻觉被喷下架——ChatGPT的荣光,原本可能是属于Galactica的……同时,全网热转的大模型幻觉排行榜,也被专家打假了。

大模型的幻觉问题,是业内老生常谈的话题了。
最近,一个名为Vectara的机构,在GitHub推出了一个大模型幻觉排行榜。
结果显示,在总结短文档方面,GPT-4的表现最为优异,而Google Palm的两款模型直接垫底!
其中GPT-4的准确率为97.0%,幻觉率为3.0%,回答率为100.0%。而垫底的Palm Chat 2的准确率为72.8%,幻觉率高达27.2%,回答率为88.8%。

项目地址:https://github.com/vectara/hallucination-leaderboard
这个榜单一出来,立马开始在网上疯转,不过,它也引发了许多业内人士的质疑。
英伟达高级科学家Jim Fan表示,这个榜单在很多方面都存在问题——
首先,它只评估了摘要与原文的事实一致性,却没有评估摘要本身的质量。其次,它也没有解释用于评估幻觉的LLM,具体性能到底如何。
而LeCun这边,除了转发了Jim Fan的这条推文外,还有更多的「冤屈」要控诉。
一年前的这个时候,Meta的科研模型Galactica才上线三天,就因为幻觉问题被喷下架。之后没过几天,ChatGPT全球爆火,LeCun对此愤愤不平了一整年。
与此同时,沉默一年后,Galactica论文的一作Ross Taylor值此之际也被炸了出来,写下大段的总结倾诉委屈,表示自己心里真的很痛!

Galactica被贪婪的推特暴徒谋杀了!

Galactica之殇:一作泣血控诉


再过两天,就是Galactica的一周年忌日了。
Sharon Goldman在外媒Venturebeat上发表了一篇文章《Meta从Galactica那里学到了什么?这个比ChatGPT早两周诞生的模型,为什么注定要失败》。
LeCun面色凝重地转发了这篇文章,打出了下面几行字,字字泣血——
Galactica是Meta为科学家做出的模型,在ChatGPT前几周发布,但3天后就被下线。它被贪婪的推特暴徒谋杀了。
暴徒们声称,这种「大模型幻觉」会将摧毁科学出版系统。结果,一个对科学家非常有用的工具,被他们屠杀了。
打着人工智能伦理的幌子,误导性的尖酸刻薄可能会适得其反。
LeCun如此沉痛,相爱相杀的老冤家马库斯却跳出来倒油了——
一年前,Meta不负责任推出Galactica,并未做红队工作。科学界介入,并指出了缺陷。
现在,Meta的LeCun居然用「谋杀」来形容他的团队忽略的红队工作。这令人瞠目结舌。
Galactica一作也趁势被炸出,表示这个故事,自己已经在心底埋藏一年了……
Taylor说,Galactica是一个基于科学文献和科研范式训练的基础模型。当时在同领域中,它的性能很好,优于PaLM和Chinchilla,计算量分别减少了10倍和2倍。
Galactica的团队只有8人,比其他的LLM团队少了一个数量级。在发布Galactica时,团队过度紧张,以至于失去了态势感知能力,发布的demo是没有经过检查的基本模型。
一年前发布demo时,团队希望能了解人们利用LLM进行科学查询的分布情况,这对指令调整和RLHF很有用。当时他们有一个善意的假设——开源所有模型,并且在demo中包含了对幻觉的免责声明,这样人们就可以畅想,Galactica可以用来干什么。
结果,一切都失控了。
他们想给大家一个免费的工具,但记者们却在科学文献之外的领域使用Galactica,大肆宣传模型幻觉的荒谬和危害。
团队犯的另一个错误是,让人们误以为网站就是产品。其实团队只是把愿景放在网站上,放出了一个基本模型demo,Galactica绝不是一个产品。
现在它已经在HuggingFace上存在一年了,也并没有造成任何损害。显然,反Galactica的舆论很愚蠢。
尽管如此,Taylor表示即使再来一次,自己还是会做出同样的选择。即使后悔,也好过什么都不做。但是,心里真的很痛!
有网友表示,你不用这么抱歉,Galactica显然是被网暴了。仔细想想,其实ChatGPT和Galactica一样愚蠢。网友们对Galactica散布的恐惧,显然过度了。
LeCun转发了一作写下的故事,并表示——
开源界的口头禅,是「早点发布,经常发布」。但如果涉及AI,就得加上「没错,但要准备好忽略推特暴徒对它厄运的荒谬预言」。

「网红」LLM幻觉评测方法

说起来,这个「网红」大模型幻觉评测,是怎么做出来的呢?

文章地址:https://vectara.com/cut-the-bull-detecting-hallucinations-in-large-language-models/
为了评估大模型的幻觉,Vectara对摘要模型的事实一致性进行了研究。
具体来说,这一领域研究的是,训练模型检测抽象摘要(即原始资料的转述)中事实不一致之处的方法。
目前,用于评估事实一致性的数据集主要有两个——SummaC和TRUE。
基于此,Vectara微调了一个小规模语言模型(1.84 亿个参数),将其作为一个二元分类器,用于将摘要分类为与源文件事实一致(或不一致)。
然后,Vectara对照着两个SummaC模型、TrueTeacher模型和AlignScore模型,对自己的「幻觉评估模型」进行了评估。
TRUE数据集指标是在11个TRUE数据集中的9个数据集上计算得出的。TRUE摘要数据集是TrueTeacher论文中选择的其中5个数据集的子集。
对于SummaC基准分数,这里使用了SummaC数据集的测试分集,并根据在SummaC验证数据集上调整每个数据集的阈值自行计算了平衡准确率。
因为无法在该数据集上重现AlignScore作者声称的分数,所以这里下载了他们的模型,并使用sci-kit learn平衡准确率指标和sci-kit-learn AUC分数指标自行计算了所有模型的分数。
为了根据幻觉发生率对LLM进行比较,研究人员从「cnn_dailymail」语料库中选取了约一千份不同长度的文档(包括一组新闻文章),然后要求被测试的LLM在不偏离源材料(即不附加额外信息)的情况下提供这些文档的摘要。
利用这些摘要和幻觉评估模型,最终为每个模型计算了幻觉得分,从而构建了这个LLM排行榜。
在生成摘要时使用的提示是:
You are a chat bot answering questions using data. You must stick to the answers provided solely by the text in the passage provided. You are asked the question ‘Provide a concise summary of the following passage, covering the core pieces of information described.’ <PASSAGE>’
你是一个使用数据回答问题的聊天机器人。你必须严格按照所提供段落中的文字回答问题。你要回答的问题是「对以下段落进行简明总结,涵盖所述的核心信息。<PASSAGE>」
这里<PASSAGE>表示需要生成摘要的文章。
需要注意的是,虽然Vectara提供的模型准确度很高,但它仍然只是一个模型,并不能100%准确地对幻觉进行分类。
在上面的表格中,「准确率」指的是被正确归纳的文档比例(无事实错误或者添加),「幻觉率」为100-准确率,而「回答率」则是LLM归纳的文档比例。
因为有时模型会基于自身的规则拒绝提供答复。为了确保比较的公平性,最终的准确率数字只针对每个模型都提供了摘要的文档进行计算。
从数据中,Vectara得出了一个有趣的结论:答题率较低的模型似乎幻觉率相对较高。——也许,正确拒绝内容的能力似乎与正确提供摘要的能力相关,因为实际上,测试中并没有提供不恰当的内容。
另外一个现象是,PaLM模型在回复的长度上有很大的不同,PaLM-Chat(chat-bison-001)非常啰嗦,经常会添加很多源文件中没有的额外信息。
相比之下,PaLM基础模型(text-bison-001)则非常简洁,而且它的幻觉率比PaLM-Chat低得多。
对此,Vectara给出了几个具体的例子来说明这两种PaLM模型的区别。
这里为了便于说明,选择一些较小的文档,不过数据集中的大多数源文本都要长得多。
原文段落
The plants were found during the search of a warehouse near Ashbourne on Saturday morning. Police said they were in 「an elaborate grow house.」 A man in his late 40s was arrested at the scene.
这些植物是周六早上在Ashbourne附近的一个仓库搜索时发现的。警方说,他们住在「一个精心设计的种植屋」里。一名40多岁的男子在现场被捕。
PaLM生成的摘要
Police have arrested a man in his late 40s after cannabis plants worth an estimated £100,000 were found in a warehouse near Ashbourne.
警方逮捕了一名40多岁的男子,此前在Ashbourne附近的一个仓库中发现了价值约10万英镑大麻
我们可以看到PaLM推断这篇文章是关于种植大麻的,甚至还估计了它的价格,而这两者都不在源文本中。
原文段落
Veeru Devgan is an Indian stunt and action choreographer and film director in Bollywood.
Veeru Devgan是宝莱坞的印度特技和动作编舞家,同时也是电影导演。
PaLM Chat生成的摘要
Veeru Devgan is an Indian stunt and action choreographer and film director in Bollywood. He is the father of actor Ajay Devgn and director Anil Devgan. He has worked in over 100 films, including some of the biggest blockbusters of Indian cinema. He is known for his innovative and exciting action sequences, which have helped to make him one of the most sought-after action choreographers in the industry. He is also a successful film director, having directed several hit films, including 「Phool Aur Kaante」 and 「Zakhm」.
Veeru Devgan是宝莱坞的印度特技和动作编舞家以及电影导演。他是演员Ajay Devgn和导演Anil Devgan的父亲。他曾参与过100多部电影,其中包括印度电影界的一些大片。他以创新和激动人心的动作场面而闻名,这使他成为业内最受欢迎的动作编舞家之一。他也是一位成功的电影导演,曾执导过多部热门电影,包括《Phool Aur Kaante》和《Zakhm》。
Vectara认为,PaLM-Chat在原始文本中添加了大量的额外细节,尽管事先已经告诉它要严格遵照源文本。
而且,添加的文本内容还包含一些幻觉,例如,Devgan并不是《Zakhm》的导演,以及Veeru Devgan是Anil Devgan的兄弟,不是他的父亲。
此外,这些模型也会翻转一些关系,例如在一篇关于拳击手Manny Pacquiao的文章中,源文本指出Mark Wahlberg是他的粉丝之一,而LLM则表示Manny是Wahlberg的粉丝。
大佬表示怀疑

对于这个在网上疯传的LLM幻觉基准,英伟达高级研究科学家Jim Fan表示「很不严谨」,他评论道:
最近,一个LLM幻觉基准在网上疯传,人们根据一张表格截图就妄下结论。
但这项评估在很多方面都存在问题。事实上,一个微不足道的基准就能使幻觉达到0%。
比如,这项研究只评估了摘要与原文的「事实一致性」,而没有评估摘要本身的质量。但是,一个简单复制文章中几句话的模型,就能达到100%的事实一致性,完全没有幻觉。
这类似于众所周知的「有用性与安全性 」的权衡。一个100%安全的模型会对所有请求回复「抱歉,我帮不上忙」。但这毫无意义。
另外,这项评估依赖于另一个LLM「法官」,来判断幻觉是否发生,但作者并没有详细说明:(1)法官LLM如何进行提示;(2)对于细节的错误,它是如何捕捉和判定的。
它只是吐出一个「对或错」的二元答案吗?还是进行更细致的推理,说明哪个事实是幻觉,然后解释原因,说明规则?
它和人类的对齐程度如何,什么时候是不对齐的?「幻觉」又是如何定义的?
例如,假设模型注入了一些无关但真实的事实。文章只提到「巴黎」,但模型却说「巴黎,法国的首都」。这算不算幻觉?
事实上,这项研究甚至可能会惩罚那些总结得更好的模型,因为它们往往会进行更多的转述和提炼。差劲的LLM只会简单地抄袭,按这个标准却更容易得分。
这不禁让人想起MIT那篇被撤回的论文,他们使用GPT-4为自己对数学问题的回答打分,然后得出了「GPT-4与MIT本科生不相上下」这种吸引眼球的结论。
在下结论之前,请务必阅读评估协议。这一点对于LLM任务和其他任何ML系统,都是普遍适用的。

应对手段:检索增强生成(RAG)


所以,大模型的幻觉,到底该怎么破?
目前的主流方法是,通过「检索增强生成」(RAG)给LLM外挂一个知识库。
RAG的使用,直接改变了LLM解答问题的范式——从之前的「闭卷」变成了「开卷」。
具体来说,在闭卷答题系统(如ChatGPT)中,LLM只能使用自己通过预训练获得的知识生成答案。在这种情况下,LLM本身便是知识源。
在RAG系统中,LLM的角色从知识源转变为了信息的检索员。也就是说,LLM会先在知识库中对原始问题进行查询,在进一步的解析和总结之后,以简明扼要的语言给出答案。
由于LLM提供的答案是基于检索系统中提供的信息,因此这种方法可以很大程度上改善LLM的幻觉问题。
时间回到ChatGPT等大语言模型刚刚发布的时候,人们曾因为他们「胡说八道」的特性而感到有趣。
今天,LLM展现出来的非凡能力使得他们有机会深入各行各业以及人们的生活,我们开始逐渐依赖他们的「准确性」。
如今的我们,又将如何看待和处理LLM的「幻觉」问题呢?
对于大模型产生幻觉的说法,人工智能教父Hinton曾表示:
「这就是人类记忆的样子。在我看来,编造和说实话之间没有界限。说实话只是正确地编造。从这个角度来看,ChatGPT的编造能力是一个缺陷,但也是其类人智能的标志。」
参考资料:
https://venturebeat.com/ai/what-meta-learned-from-galactica-the-doomed-model-launched-two-weeks-before-chatgpt/
https://vectara.com/cut-the-bull-detecting-hallucinations-in-large-language-models/
https://github.com/vectara/hallucination-leaderboard
https://twitter.com/DrJimFan/status/1724464105371939301
https://twitter.com/ylecun/status/1724448825509851332
https://twitter.com/rosstaylor90/status/1724547381092573352




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
从错误中学习!腾讯AI Lab提出诱导大模型自身幻觉来消除幻觉小扎深夜炸场,世界首款MR头显暴打Vision Pro!Meta版ChatGPT搬进「元宇宙」,网红神器眼镜高能现身ChatGPT生成虚假数据集以支持科学假设;英伟达助基因泰克用生成式AI加速药物研发丨AIGC日报一个提示,让Llama 2准确率飙至80.3%?Meta提出全新注意力机制S2A,大幅降低模型幻觉大模型幻觉问题无解?理论证明校准的LM必然会出现幻觉长文本信息准确率超过ChatGPT,Meta提出降低大模型幻觉新方法马斯克爆料OpenAI前员工举报信,指出Altman和Greg七宗罪,ChatGPT一度宕机西贡姑娘(上)讯飞高管解读财报:星火大模型将实现对标ChatGPT 不受英伟达影响ChatGPT测试上传文件功能;百川推出192K长文本大模型;通义千问App安卓版上线丨AIGC大事日报笑谈邂逅(44)熊总是一位性情中人无痛缓解多模态大模型幻觉!基于注意力惩罚与回退机制的解码方法「OPERA」全球王妃败家排行榜出炉,摩纳哥王妃再次夺冠,凯特居然输给了她!OpenAI祭出绘画神器,Midjourney一夜下台!DALL·E 3联手ChatGPT,无需prompt一笔成神步韵遍野君《一身秋》专攻芯片设计,英伟达推出定制版大语言模型ChipNeMo!Meta版ChatGPT来了:Llama 2加持,接入必应搜索,小扎现场演示多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟AI视觉字谜爆火!梦露转180°秒变爱因斯坦,英伟达高级AI科学家:近期最酷的扩散模型|亮马桥小纪严选GENOME RES | 北大本科生一作发表论文:基于机器学习的单细胞年龄预测方法维基百科+大模型打败幻觉!斯坦福WikiChat性能碾压GPT-4,准确率高达97.3%AI早知道|自定义ChatGPT商店下周上线;腾讯推出语音识别大模型;美图大模型上线幻觉降低30%!首个多模态大模型幻觉修正工作WoodpeckerChatGPT代码生成飙升10%!北大华人一作:细化prompt,大幅改进大模型代码能力当着黄仁勋的面,微软一口气发布两款自研芯片,英伟达止步十连涨;滴滴杀入大模型,聚焦ToB商旅;零一万物回应架构争议丨AI周报清华系大模型新秀获20亿投资;AI教父加入初创公司;套壳ChatGPT不是长久之计;百图生科拿下10亿美元大模型订单【回国记录】一次特别的遇见· 花妖ChatGPT一周年,Altman霸气重返OpenAI!自曝回归内幕Ilya去向待定Meta再放「长文本」杀器Llama 2-Long:70B尺寸登顶最强「32k上下文」模型,超越ChatGPTOpenAI回应ChatGPT服务故障;新研究以99%准确率识别ChatGPT生成化学论文;三星发布自研大模型丨AIGC日报聊聊美国汽车工会(UAW)罢工「Meta版ChatGPT」背后的技术:想让基础LLM更好地处理长上下文,只需持续预训练4k窗口长度就能读长文,陈丹琦高徒联手Meta推出大模型记忆力增强新方法无需额外知识或训练!中科大等提出OPERA:缓解多模态大模型幻觉问题的基于注意力惩罚与回退策略的解码方法Cell Metabolism | 中国科学技术大学熊伟等团队合作发现暴饮暴食的潜在原因
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。