Redian新闻
>
谷歌PaLM 2弱爆:LLM大排名屈居第六,准中文倒数第二|UC伯克利排行榜新鲜榜出炉

谷歌PaLM 2弱爆:LLM大排名屈居第六,准中文倒数第二|UC伯克利排行榜新鲜榜出炉

公众号新闻



  新智元报道  

编辑:桃子 好困
【新智元导读】这次「LLM排位赛」,谷歌PaLM 2也被拉上溜了溜。然而,实测表现却让人大跌眼镜。

由UC伯克利主导的「LLM排位赛」又双叒更新了!
这次,最新榜单又迎来新的玩家,PaLM 2(也是就Bard)、Claude-instant-v1,MosaicML MPT-7B,以及Vicuna-7B。
值得一提的是,即便是平价版的Claude模型,Elo得分也赶超了ChatGPT。
但有一位选手的表现,却出乎意料得拉跨——谷歌PaLM 2屈居第六,排在了Vicunna-13B之后。

4月24日-5月22日数据

PaLM 2(Bard)排位大比拼

谷歌PaLM 2发布以来,根据论文的测试,其部分性能已经超过了GPT-4。
而它的具体表现如何?
来自LMSYS Org的研究人员通过Google Cloud Vertex AI的API接口,将PaLM 2添加到Chatbot Arena,并以代码名为chat-bison@001进行聊天调优。
在过去的两周,PaLM 2已经与16个聊天机器人,进行了大约1800次的匿名比拼,目前排名第六。
从排行榜中可以看出,PaLM 2的排名高于所有其他开源聊天机器人,除了Vicuna-13B。

Vicuna-13B的ELO评分,比PaLM 2高出12分(Vicuna 1054 vs. PaLM 2 1042)。就ELO等级而言,这几乎是个平局。
另外,研究者从PaLM 2的竞技场数据中注意到了以下有趣的结果。
PaLM 2与前4名玩家对战表现较好, 即GPT-4,Claude-v1,ChatGPT,Claude-moment-v1。而且,它与Vicuna的比赛中也赢了53%的比赛。
然而,PaLM 2与较弱的模型对弈时,表现较差。
在PaLM 2参加的所有比赛中,有21.6%的比赛输给了GPT-4、Claude-v1、GPT-3.5-turbo、Claude-instant-v1其中之一。
作为参考,GPT-3.5-turbo只有12.8%的比赛输给了这些聊天机器人。

三大缺陷

简而言之,研究人员发现,与评估过的其他模型相比,Google Cloud Vertex API现有的PaLM 2存在以下缺陷:
- PaLM 2受到更严格的监管,影响了它回答一些问题的能力
- 多语言能力有限
- 推理能力不如人意
更严格的监管
与用户的对话中,PaLM 2遇到不确定或不愿回答的问题时,与其他模型相比,更有可能放弃回答。
粗略估计,在所有的配对战中,PaLM 2因为拒绝回答问题而输掉了20.9%比赛。尤其是,有30.8%比赛输给了不是Top 4的模型。
这也能够解释,为什么PaLM 2经常输给排行榜上较弱的聊天机器人。
同时,也反映出聊天机器人竞技场方法论的一个缺陷,因为随意用户更有可能因为微妙的不准确回答,而惩罚弃权行为。
下面,研究者提供几个失败的案例,说明PaLM 2如何输给弱聊天机器人。
另外,研究者注意到,有时很难明确规定LLM监管的边界。在提供的PaLM 2版本中,看到了一些不受欢迎的趋势:
- PaLM 2拒绝许多角色扮演问题,即使用户要求它模拟Linux终端或编程语言解释器。
- 有时PaLM 2拒绝回答简单且无争议的事实问题。
下面列举了几个PaLM 2拒绝回答问题的例子:
「人类真的登月了吗?」
「为什么天空是蓝的?」
多语言能力有限
PaLM 2倾向于不回答非英语问题,包括用汉语、西班牙语和希伯来语等流行语言编写的问题。
研究者称,无法使用当前的PaLM 2版本重现「PaLM 2技术报告」中演示的几个多语言示例。
此外,UC伯克利研究人员还分别计算了仅考虑英语和非英语对话时所有模型的Elo评分。
结果证实,在非英语排行榜上,PaLM 2排名第16。
推理能力很弱
研究人员称,并没有发现PaLM 2有着强大的推理能力。
一方面,它似乎可以检测问题是否是「纯文本」的,并且倾向于拒绝回答不是纯文本的问题,例如编程语言、调试和代码解释中的问题。
另一方面,与其他聊天机器人相比,PaLM 2在一些入门级推理任务上表现不佳。
连1+2是不是等于3这么简单问题,竟答错了...
删除非英语和拒绝对话后的Elo评分
研究人员删除所有非英语对话和PaLM 2没有提供答案的所有对话,并使用过滤后的数据计算每个模型重新排位之后——
PaLM 2跃升至第五名,不过还是没有超越ChatGPT。
而这个排名也代表了PaLM 2在竞技场中的假设上限。

参数更小的模型竞争力强

研究者观察到几个参数较小的模型,包括vicuna-7B和mpt-7b-chat,在排行榜上排名还相对靠前。
与巨量参数大型模型相比,这些较小的模型同样表现良好。
由此,研究人员推测,高质量的预训练,以及微调数据集比模型规模更重要。
然而,较大的模型在更复杂的推理任务,或回答更细微的问题时仍有可能表现得更好。
因此,在预训练和微调阶段管理高质量的数据集,似乎是缩小模型规模的同时,保持模型高质量的关键方法。

Claude-v1与Claude-instant-v1

另外,Claude-instant-v1是针对低延迟、高吞吐量用例进行优化的版本。
在排位赛中,Claude-instant-v1的水平实际上非常接近GPT-3.5-turbo(1153 vs.1143)。
可以看到,Claude和Claude-instant之间的评分差距似乎小于GPT-4和GPT-3.5-turbo之间的差距。

局限性

聊天机器人排位赛主要是对基于LLM(Large Language Model)的聊天机器人进行「真实环境」的基准测试。
这意味着,用户提供的投票数据和在投票过程中生成的提示-回答,反映的就是聊天机器人在正常的人机交互中的表现。
这可能与LLM研究文献中的很多基准测试结果不符,后者倾向于描述如zero-shot、复杂推理等长尾能力。
因此,目前的排位赛在反映聊天机器人之间的长尾能力差异方面存在限制。

作者介绍


本次评测主要由LMSYS Org的Hao Zhang,Lianmin Zheng,Wei-Lin Chiang,Ying Sheng和Ion Stoica完成。
参考资料:
https://lmsys.org/blog/2023-05-25-leaderboard/




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
北美薯条排行榜出炉,第一名是…重训「羊驼」大模型并彻底开放商用,UC伯克利博士生:Meta不愿做就自己做泰酷辣!北美最好吃的薯条排行榜出炉!排在第一的果然是它......ChatGPT上下文碾压64K开源模型!UC伯克利:开源模型能力严重「虚标」|最新硬核评测曝光UC伯克利发布大语言模型排行榜!Vicuna夺冠,清华ChatGLM进前5北美薯条排行榜出炉,你pick哪款?成本不到100美元!UC伯克利再开源类ChatGPT模型「考拉」:数据量大没有用,高质量才是王道LLM底座模型:LLaMA、Palm、GLM、BLOOM、GPT结构对比2023年世界大学排名公布,麦大排名全加第二,蒙大排名全加第五!霜叶飘飘GPT-4耗尽全宇宙数据!OpenAI接连吃官司,竟因数据太缺了,UC伯克利教授发出警告温村人最喜爱这食品!外卖订购排行榜出炉,排榜首食品想不到惊人:最脏蔬果排行榜出炉,连续8年第一都是它!这15种最干净用GPT-4实现可控文本图像生成,UC伯克利&微软提出新框架Control-GPT这些地区房价翻一番!墨尔本哪些地区房价涨幅最快?最新排行榜出炉!《我的父亲是流亡学生》: 18. 面粉袋做汗衫"专业买手"最爱排行榜出炉!绩优权益类是心头好,ETF争宠劲头不减美国「教育最强州」排行榜出炉!麻省仅第三,加州居然落选Top 10....ChatGPT平替「小羊驼」Mac可跑!2行代码单GPU,UC伯克利再发70亿参数开源模型日月辉映 - 同听萨顶顶的《左手指月》和 Nightwish的《Sleeping Sun 》2023 最新互联网公司时长排行榜出炉全球最富城市排行榜出炉!美中澳包揽前三最新QS世界大学排名公布,UC伯克利跻身TOP 10三星半导体,不想屈居第二2023各州税收负担排行榜出炉!你所在州排第几?悉尼租金涨幅排行榜出炉!最高飙升62.8%,四大华人区上榜单个GPU就能跑!UC伯克利领头,130亿参数「小羊驼」权重公布他发明苹果电脑,冒充美国国务卿,出演生活大爆炸…昨天,72岁的他二度受邀在UC伯克利发表毕业演讲!(附视频&演讲稿)路易斯临床医学又大火了!高考后热度第一!2023年医学专业排行榜出炉!收入排名榜出炉!UC伯克利LLM排行榜首次重磅更新!GPT-4稳居榜首,全新330亿参数「小羊驼」位列开源第一【富有】全球十大最富裕城市排行榜出炉 中美各占三席大悉尼房价涨幅排行榜出炉,最高达105%!买了房如同中彩票一行字实现3D换脸!UC伯克利提出「Chat-NeRF」,说句话完成大片级渲染中国社会之于皇帝的虐待,即三宫六苑侍候,让天子下班后成为裸奔的公家人。——— 《世说新语》边抄边议
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。