Redian新闻
>
UC伯克利LLM排行榜首次重磅更新!GPT-4稳居榜首,全新330亿参数「小羊驼」位列开源第一

UC伯克利LLM排行榜首次重磅更新!GPT-4稳居榜首,全新330亿参数「小羊驼」位列开源第一

科技



  新智元报道  

编辑:好困 Aeneas
【新智元导读】备受关注的UC伯克利LLM排位赛又更新了!GPT-4依然岿然不动稳居榜首,GPT-3.5紧随其后,团队自家新发布的330亿参数Vicuna则冲至第五,代表了一众开源模型的最好成绩。

就在刚刚,UC伯克利主导的「LLM排位赛」迎来了首次重磅更新!
这次,团队不仅在排行榜中加入了更多模型(目前已达到28个),而且还增加了2个全新的评价标准。


与此同时,团队还发布了更新的Vicuna-v1.3系列模型,参数量为70亿、130亿和330亿,且权重已公开。

项目地址:https://github.com/lm-sys/FastChat/tree/main#vicuna-weights
在全新的评价系统下,GPT-4依然稳居第一,而GPT-3.5则成功夺回了第二的宝座。
Anthropic的两款Claude模型紧随其后,排在了第三和第四的位置上。
UC伯克利最新发布的330亿参数Vicuna进军第五,小幅领先微软华人团队开源的300亿参数WizardLM模型。

增强版LLM排行榜
不难看出,GPT-3.5、Claude-v1和Claude-instant-v1这三个模型之间实际难分伯仲。不仅在MT-bench得分上咬得很紧,而且在诸如Elo和MMLU得分上还有后者还有反超。
和这些专有模型相比,开源模型们则有着明显的差距,即便是作为开源第一的Vicuna-33B也是如此。
当然,事情总有例外。比如谷歌的PaLM2,就落后于一众开源模型。

全新评价机制:MT-bench

虽然,现在已经有了不少用来评估大语言模型(LLM)性能的基准测试,比如MMLU、HellaSwag和HumanEval等。
但是,在评估LLM的人类偏好时,这些基准测试存在着明显的不足。
举个例子,传统的基准测试通常是在封闭式问题(例如,多项选择题)上对LLM进行测试,并提供一些简洁的输出作为评价。

用户与LLaMA-13B和Vicuna-13B之间的多轮对话,开始是MMLU基准中的问题和后续指令,然后将GPT-4与上下文一起呈现,比较谁的答案更好
显然,大部分人在实践中并不是这么用聊天机器人的……
为了填补这一空白,来自UC伯克利的团队在这次排行榜更新中,除了Chatbot Arena Elo系统之外,还增加了一个新的基准测试:MT-bench。
MT-Bench可以作为对聊天机器人竞技场的质量控制补充。

论文地址:https://arxiv.org/pdf/2306.05685.pdf
目前,竞技场的具体评价机制如下:
1. Chatbot Arena Elo,基于Chatbot Arena收到的42,000个匿名投票,并使用Elo评级系统进行评分。
2. MT-Bench得分,基于一个具有挑战性的多轮基准测试和GPT-4评分,其方法在「Judging LLM-as-a-judge」论文中提出,并已经过验证。
3. MMLU,一项广泛采用的基准测试。
为什么选择MT-Bench?

具体来说,MT-Bench是一个经过精心设计的基准测试,包含80个高质量的多轮问题。
这些问题可以评估模型在多轮对话中的对话流程和指令遵循能力,其中包含了常见的使用情景,以及富有挑战性的指令。
通过对过去2个月运营聊天机器人竞技场以及对收集的一部分用户数据的分析,团队确定了8个主要的类别:写作、角色扮演、提取、推理、数学、编程、知识I(科学技术工程数学)和知识II(人文社科)。
其中,每个类别有10个多轮问题,总共160个问题。

MT-Bench中的问题示例

用LLM评判LLM

那么问题来了,我们应该如何对聊天机器人的答案进行评分呢?
尽管在针对LLM的评估中,人类的偏好可以说是「黄金标准」,但收集人类偏好的这一过程,却非常耗时,而且成本极高。
相比之下,UC伯克利主导的团队在一开始便探索出了一种基于GPT-4的自动化评估管线。而这种方法也随后在几个工作中,得到了广泛的采用。
此外,团队还在最新的论文「Judging LLM-as-a-judge」中进行了一项系统研究——揭示了LLM评判者的可靠性问题。
结果显示,像GPT-4这样强大的LLM评判者,可以与专家组和众包组的人类裁判的偏好非常好地对齐,一致性均超过了80%。
这种一致性水平,已经可以和两个人类评判者之间的一致性相媲美。
而基于GPT-4的单个答案评分,也可以有效地对模型进行排名,并与人类偏好很好地匹配。
因此,如果使用得当,LLM评判者完全可以作为人类偏好的可扩展、可解释的近似值。
不过,当LLM作为评判者时,依然会存在一些潜在限制:
1. 位置偏差,即LLM评判者可能偏向于在成对比较中选择第一个答案。
2. 冗长偏差,即LLM评判者可能偏向于更长的回答,而不考虑其质量。
3. 自我增强偏差,即LLM评判者可能偏向于自己的回答。
4. 推理能力有限,即LLM评判者在给数学和推理问题打分时,会存在一些缺陷。

不同LLM评判者的立场偏见
其中,所谓的「一致性」是指评判者在LLM顺序交换时,给出一致性结果的案例百分比
对于这些限制,团队探讨了如何利用少样本评判、思维链评判、基于参考的评判和微调评判来进行缓解。

结果分析

MT-Bench有效地区分了LLM之间的性能差异

在这次的「排位赛」中,团队针对28个模型进行了全面评估。
结果显示,不同能力的LLM之间存在明显的区别,而它们的得分与Chatbot Arena Elo评分呈高度的相关性。
特别是MT-Bench的引入,非常鲜明地显示出:GPT-4与GPT-3.5/Claude之间,以及开源和专有模型之间,有着明显的性能差距。
为了更深入地了解LLM之间的差距,团队选择了几个有代表性的LLM,并分析了它们在每个类别下的表现。
结果显示,与GPT-3.5/Claude相比,GPT-4在编码和推理方面表现出更高的性能,而Vicuna-13B在几个特定的类别中(包括提取、编码和数学)明显落后。
这表明,开源模型仍有很大的改进空间。

比较6个模型的8种能力:写作、角色扮演、推理、数学、编码、信息提取、自然科学、人文科学

多轮对话能力的评估

团队接下来分析了所选模型在多轮对话中的得分。
开源模型在第一轮和第二轮之间的性能显著下降(如Vicuna-7B,WizardLM-13B),而强大的专有模型却始终保持着一致性。
另外,基于LLaMA的模型和更宽松的模型之间(如MPT-7B、Falcon-40B和调整后的Open-LLaMA),也存在明显的性能差距。

模型在第一轮和第二轮对话中的MT-bench得分,满分为10分

LLM评判者的可解释性

用LLM进行评判的另一个优势在于,它们能够提供可解释的评估结果。
下图展示了GPT-4对一个MT-bench问题的判断,其中包括了来自alpaca-13b和gpt-3.5-turbo的回答。
可以看到,对于自己给出的判断,GPT-4提供了详细全面、逻辑清晰的反馈。
而UC伯克利的研究也认为,这种评价有利于指导人类做出更明智的决策。

MT-bench在评估LLM的人类偏好方面提供了更多的可解释性
总之,MT-Bench可以有效地区分不同的聊天机器人。
不过在使用时,仍然应该谨慎。因为它还是有出错的可能,尤其是在数学/推理问题打分时。

下一步计划


发布对话数据

团队计划发布Chatbot Arena的对话数据,以供更广泛的研究社区使用,敬请期待。

MT-bench-1K

目前,团队正在积极扩展问题集,将Chatbot Arena的高质量提示集成进来,并利用LLM自动生成新的问题,进而建立更丰富的MT-Bench-1K数据集。
参考资料:
https://lmsys.org/blog/2023-06-22-leaderboard/





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
GPT-4参数最新爆料!1.76万亿参数,8个2200亿MoE模型,PyTorch创始人深信不疑ChatGPT上下文碾压64K开源模型!UC伯克利:开源模型能力严重「虚标」|最新硬核评测曝光训练14分钟,超越Alpaca!华人团队发布「飞天羊驼」,基于LLM的数据过滤新范式UC伯克利发布大语言模型排行榜!Vicuna夺冠,清华ChatGLM进前5空巢日记摘要2005国内开源第一!百川开源大模型Baichuan-13B评测揭晓|SuperCLUE九剑一魂 - 第24回 汉胡同源 九剑一魂(二)移民生活(五)650亿参数大模型预训练方案开源可商用!LLaMA训练加速38%,来自明星开源项目小羊驼背后的英雄,伯克利开源LLM推理与服务库:GPU减半、吞吐数十倍猛增UC伯克利教授惊人预测:2030年GPT可执行人类180万年工作,一天学2500年知识《国画牡丹》&《问风》斯坦福最新LLM排行榜发布!自家Alpaca垫底,华人团队WizardLM开源第一,GPT-4、Claude稳居前二重训「羊驼」大模型并彻底开放商用,UC伯克利博士生:Meta不愿做就自己做「羊驼」们走到哪一步了?研究表明:最好的能达到GPT-4性能的68%大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿?CMU副教授测评了7个类ChatGPT大模型GPT-4最强平替更新!UC伯克利发布Vicuna v1.5,支持4K和16K上下文,刷新SOTA,LeCun转赞用GPT-4实现可控文本图像生成,UC伯克利&微软提出新框架Control-GPT谷歌没开源的PaLM,网友给开源了!千亿参数微缩版:最大只有10亿,8k上下文54百亿参数大模型进化树重磅更新!85页盘点LLM发展史,附最详细prompt技巧​华盛顿大学提出全新量化和微调方法,在DB-GPT上享受33B参数的LLM做了抖音最新受害者最新!2023软科世界大学学术排名出炉!哈佛仍旧稳居榜首!PromptAppGPT重磅更新!AI助手0门槛开发+运行:几十行代码即可实现AutoGPT清华第二代60亿参数ChatGLM2开源!中文榜居首,碾压GPT-4,推理提速42%重磅!2024QS世界大学排名发布,麻省理工学院连续12年蝉联榜首,加州伯克利杀入前10!斯坦福发布LLM排行榜AlpacaEval,微软WizardLM登顶开源模型第一用语言建模世界:UC伯克利多模态世界模型利用语言预测未来谷歌PaLM 2弱爆:LLM大排名屈居第六,准中文倒数第二|UC伯克利排行榜新鲜榜出炉恐怖!UC伯克利学生被持枪劫持!性侵、吸毒犯罪频发引关注最新QS世界大学排名公布,UC伯克利跻身TOP 10ChatGPT凌晨重磅更新!GPT-3.5/4双升级:上下文飙升4倍,用API自己造插件他发明苹果电脑,冒充美国国务卿,出演生活大爆炸…昨天,72岁的他二度受邀在UC伯克利发表毕业演讲!(附视频&演讲稿)GPT-4耗尽全宇宙数据!OpenAI接连吃官司,竟因数据太缺了,UC伯克利教授发出警告OpenAI对ChatGPT进行更新;百川智能正式推出70亿参数开源中英文大模型|AIGC周观察第六期
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。