Redian新闻
>
LLM排行榜更新!谷歌Bard超过GPT-4,中国玩家未进前十

LLM排行榜更新!谷歌Bard超过GPT-4,中国玩家未进前十

科技
夕小瑶科技说 原创
作者 | 王二狗

大家好我是二狗。

今天谷歌Bard的排名在Imsys的LLMs 排位赛上超过了GPT-4,直接跃居第二名(但没有超过OpenAI最新的 GPT-4 Turbo模型):

遇到这好事,谷歌首席科学家 Jeff Dean 当然是第一时间前来“炫耀”,并给自家的 Gemini Pro模型带货。

排行榜介绍

这个LLMs 排行榜(Chatbot Arena基准平台)是由 UC伯克利研究人员主导的LMSYS (Large Model Systems Organization)组织发起的。通过在LLMs 间进行随机匿名的 1V1 battle 方式,并基于 Elo 评级系统得出排名。

如下图所示,你可以随便问一个问题,左侧是模型A的回答,右侧是模型B的回答。然后你可以给这两个模型的回答打分,一共有四个选项「A更好;B更好;A和B一样好;A和B一样差」,如果一轮聊天判断不出来,你可以继续聊天,直到选出你认为更好的,但如果在聊天过程中暴露了大模型的身份,则投票将不被计算在内。

下图显示了模型A在对战模型B时获胜几率(不包含平局 )的比例分布图:

下图显示了每种模型组合的battle次数(无平局))

下图显示了单个模型相对于所有其他模型的平均胜率:

OpenAI霸榜,中国玩家未进前十

下图是该榜单目前排名的 Top 10,可以看出GPT-系列模型还是占据绝对优势的(前四名中占据了其三),而 Anthropic旗下的 Claude 系列模型则是在前十中占据了三席。号称是欧洲版OpenAI的 Mistral公司,这次也有两个模型进入前十。

另外请看上图最右侧一列,排名 Top 10的模型中,有9家都是闭源的私有模型,这说明开源模型还是有一段路要走。

遗憾的是中国玩家的大语言模型没有进入前十。

其中排名最高的是李开复创业公司零一万物旗下的 Yi-34B-Chat模型,位居13名。

其次是阿里旗下的 通义千问 Qwen-14B-chat模型,排名36:

再之后是清华教授唐杰创业公司智谱AI旗下的ChatGLM系列模型:

需要说明三点:

1、有很多中国大厂研发的模型可能没有参与到该榜单排名;

2、该榜单是面向全球公众的,所以选择用英文来聊天的用户要远比中文多,这可能对中国玩家研发的大语言模型不利;

3、该榜单仅仅统计了20w用户的随机提问和聊天,代表了用户和LLMs聊天的真实评价,但由于用户的提问和专业程度参差不齐,所以评价具有一定的主观性。

最后我们说回谷歌,在裁员和科学家离职创业的内忧外患之际(详情请移步谷歌危机大爆发!科学家纷纷离职创业、员工裁员不断...),谷歌24年究竟能不能完成“帝国反击战”呢?

让我们拭目以待吧!

参考资料

 [1]https://twitter.com/lmsysorg/status/1750921228012122526
 [2]https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ChatGPT登陆Vision Pro;谷歌Bard被曝更名Gemini;传苹果计划收购Brighter AI丨AIGC大事日报ChatGPT惊艳更新!一个@让三百万GPTs为你打工6058 血壮山河之随枣会战 第三章 12最新!2024年加拿大大学录取分+最难进8大专业排行榜:第一名很意外!马拉松式39小时谈判!欧盟AI监管达成“里程碑协议”,直指ChatGPT和谷歌Bard2023 LLM技术报告—— LLM的工具和平台全球最热情旅游目的地出炉!美国仅一地进前十泰國水燈節全球最热情旅游目的地出炉!美国仅一地进前十……实测这个火到宕机的 AI 应用,它凭什么在 App Store 免费版挤进前十超过微信智谱 AI 推出新一代基座大模型 GLM-4,能力逼近 GPT-4,配备多模态、长文本和智能体AI早知道|ChatGPT灰度测试多GPTs协同;新Bard逆袭GPT-4;百川智能发布Baichuan3个人感慨之三十六 乌纱帽突发!谷歌发布史上最强大模型Gemini,赶超GPT-4|亮马桥小纪严选谷歌再雪前耻,新Bard逆袭GPT-4冲上LLM排行榜第二!Jeff Dean高呼我们回来了突发!谷歌深夜掀桌子,发最强大模型Gemini,跑分碾压GPT-4【附60页技术报告】11年“AI老兵”破局AMA:破解谷歌BERT大模型,吃AI红利拿offer,真香!全美入学率最高的大学TOP30汇总!八大藤校全部挤进前十...超越GPT-4!谷歌DeepMind重磅发布Gemini,史上最强最通用大模型!个人感慨之三十七 反人类历史全球生活花费排名出炉!新加坡&纽约并列第一,英国无城市进前十提示词专场:从调整提示改善与LLMs的沟通,到利用LLMs优化提示效果个人感慨之三十五 经济状况重磅更新!谷歌Chrome加持AI,重量级功能×3,Windows、Mac均可用LLM准确率飙升27%!谷歌DeepMind提出全新「后退一步」提示技术爆火!谷歌、微软全All in的Prompt学习陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好苹果iOS 18将搭载生成式AI;谷歌Bard最新排名超GPT-4;百川发超千亿参数大模型Baichuan 3丨AIGC大事日报消灭「幻觉」!谷歌全新ASPIRE方法让LLM给自己打分,效果碾压10x体量模型头像|𝐒𝐡𝐚𝐫𝐞·招桃花头像赚足海外玩家眼泪后,这支爆款能感动中国玩家吗?全球最宜居城市排行榜 ,加国三城进入前十!温哥华在列!hé bàng?hé bèng?UC伯克利「LLM排位赛」结果出炉!Claude 3追平GPT-4并列第一大的要来了:谷歌Bard被曝将更名为Gemini,Ultra 1.0更强但收费、安卓App也会来
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。