大模型幻觉排行榜GPT-4夺冠,英伟达科学家强力打假!Meta版ChatGPT一作发长文鸣冤
新智元报道
新智元报道
【新智元导读】Meta Galatica的一周年忌日快到了,LeCun和一作心里都很痛。比ChatGPT早诞生两周,却因幻觉被喷下架——ChatGPT的荣光,原本可能是属于Galactica的……同时,全网热转的大模型幻觉排行榜,也被专家打假了。
Galactica之殇:一作泣血控诉
Galactica是Meta为科学家做出的模型,在ChatGPT前几周发布,但3天后就被下线。它被贪婪的推特暴徒谋杀了。 暴徒们声称,这种「大模型幻觉」会将摧毁科学出版系统。结果,一个对科学家非常有用的工具,被他们屠杀了。 打着人工智能伦理的幌子,误导性的尖酸刻薄可能会适得其反。
一年前,Meta不负责任推出Galactica,并未做红队工作。科学界介入,并指出了缺陷。 现在,Meta的LeCun居然用「谋杀」来形容他的团队忽略的红队工作。这令人瞠目结舌。
「网红」LLM幻觉评测方法
You are a chat bot answering questions using data. You must stick to the answers provided solely by the text in the passage provided. You are asked the question ‘Provide a concise summary of the following passage, covering the core pieces of information described.’ <PASSAGE>’
你是一个使用数据回答问题的聊天机器人。你必须严格按照所提供段落中的文字回答问题。你要回答的问题是「对以下段落进行简明总结,涵盖所述的核心信息。<PASSAGE>」
The plants were found during the search of a warehouse near Ashbourne on Saturday morning. Police said they were in 「an elaborate grow house.」 A man in his late 40s was arrested at the scene.
这些植物是周六早上在Ashbourne附近的一个仓库搜索时发现的。警方说,他们住在「一个精心设计的种植屋」里。一名40多岁的男子在现场被捕。
Police have arrested a man in his late 40s after cannabis plants worth an estimated £100,000 were found in a warehouse near Ashbourne.
警方逮捕了一名40多岁的男子,此前在Ashbourne附近的一个仓库中发现了价值约10万英镑的大麻。
Veeru Devgan is an Indian stunt and action choreographer and film director in Bollywood.
Veeru Devgan是宝莱坞的印度特技和动作编舞家,同时也是电影导演。
Veeru Devgan is an Indian stunt and action choreographer and film director in Bollywood. He is the father of actor Ajay Devgn and director Anil Devgan. He has worked in over 100 films, including some of the biggest blockbusters of Indian cinema. He is known for his innovative and exciting action sequences, which have helped to make him one of the most sought-after action choreographers in the industry. He is also a successful film director, having directed several hit films, including 「Phool Aur Kaante」 and 「Zakhm」.
Veeru Devgan是宝莱坞的印度特技和动作编舞家以及电影导演。他是演员Ajay Devgn和导演Anil Devgan的父亲。他曾参与过100多部电影,其中包括印度电影界的一些大片。他以创新和激动人心的动作场面而闻名,这使他成为业内最受欢迎的动作编舞家之一。他也是一位成功的电影导演,曾执导过多部热门电影,包括《Phool Aur Kaante》和《Zakhm》。
最近,一个LLM幻觉基准在网上疯传,人们根据一张表格截图就妄下结论。 但这项评估在很多方面都存在问题。事实上,一个微不足道的基准就能使幻觉达到0%。 比如,这项研究只评估了摘要与原文的「事实一致性」,而没有评估摘要本身的质量。但是,一个简单复制文章中几句话的模型,就能达到100%的事实一致性,完全没有幻觉。 这类似于众所周知的「有用性与安全性 」的权衡。一个100%安全的模型会对所有请求回复「抱歉,我帮不上忙」。但这毫无意义。 另外,这项评估依赖于另一个LLM「法官」,来判断幻觉是否发生,但作者并没有详细说明:(1)法官LLM如何进行提示;(2)对于细节的错误,它是如何捕捉和判定的。 它只是吐出一个「对或错」的二元答案吗?还是进行更细致的推理,说明哪个事实是幻觉,然后解释原因,说明规则? 它和人类的对齐程度如何,什么时候是不对齐的?「幻觉」又是如何定义的? 例如,假设模型注入了一些无关但真实的事实。文章只提到「巴黎」,但模型却说「巴黎,法国的首都」。这算不算幻觉? 事实上,这项研究甚至可能会惩罚那些总结得更好的模型,因为它们往往会进行更多的转述和提炼。差劲的LLM只会简单地抄袭,按这个标准却更容易得分。 这不禁让人想起MIT那篇被撤回的论文,他们使用GPT-4为自己对数学问题的回答打分,然后得出了「GPT-4与MIT本科生不相上下」这种吸引眼球的结论。 在下结论之前,请务必阅读评估协议。这一点对于LLM任务和其他任何ML系统,都是普遍适用的。
应对手段:检索增强生成(RAG)
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章