Redian新闻
>
黑马!大模型竞技场榜单更新,国产玩家首次进入全球总榜前10

黑马!大模型竞技场榜单更新,国产玩家首次进入全球总榜前10

公众号新闻
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

龙争虎斗的大模型竞技场,今天突然更新:

国内大模型公司零一万物旗下的Yi-Large千亿参数闭源大模型,跃升总榜第七,也成为榜上国产大模型第一

可以看到,它的成绩几乎与GPT-4-0125-preview持平。

同时,国内清华系大模型公司智谱华章的GLM-4-0116也杀进总榜,位居第15位。

这个结果来自累积超1170万全球用户的真实盲测投票数。

而且大模型竞技场最近修改了规则,只要大模型亮明身份后就不能再继续投票,杜绝了刷分的可能性。

再来看Yi-Large排名之前的前6名中,有4个模型来自GPT,另外有1个谷歌的Gemini,1个Anthropic的Claude。

零一万物创始人兼CEO李开复博士为此表示,LMSYS提供了一个第三方的、公正的平台,其他竞争对手也都非常认可。

而零一万物的团队规模、参数规模、GPU算力都比排名更靠前的模型“小”。

零一万物的GPU可能只有Google、Microsoft的5%,但团队一直在探索,能不能训练跟大厂一样好的模型。
我们的特点就是以千亿模型杀入了万亿模型的范围。如果我们有10倍的GPU,我们的万亿模型应该完全可能达到第一名。

Yi-Large成排名飞升黑马

大模型竞技场官推还给出了Yi-Large的更多成绩:

中文类别中,Yi-Large和GLM-4两个国产大模型的表现不俗。

其中,Yi-Large成绩尤为突出,与GPT-4o并列总榜第一。

模型强度的置信区间,则如下图所示:

值得注意的是,为了提高大模型竞技场查询的整体质量,LMSYS还实施了重复数据删除机制,并出具了去除冗余查询后的榜单。

这个新机制旨在消除过度冗余的用户提示——如过度重复的“你好”——这类冗余提示可能会影响排行榜的准确性。

LMSYS公开表示,去除冗余查询后的榜单将在后续成为默认总榜。

目前,在去除冗余查询后的总榜中,Yi-Large的Elo得分更进一步,与Claude 3 Opus、GPT-4-0125-preview并列第四。

解释一下,Elo评分系统基于统计学原理设定,是当前国际公认的竞技水平评估标准。在这个评分系统里,每个参赛者都有基准评分,然后根据每场比赛调整评分。一旦低分选手击败高分选手,那么低分选手就会获得较多的分数,反之则较少。

LMSYS引入Elo评分系统,是为了保证大模型竞技场在最大程度上保证排名的客观公正。

而在分类别的排行榜中,Yi-Large同样表现亮眼。

编程能力、长提问及最新推出的 “艰难提示词” 的三个评测是LMSYS所给出的针对性榜单。这三个榜单以专业性与高难度著称,可称为当下大模型最烧脑的公开盲测。

编程能力(Coding)排行榜上,Yi-Large 的Elo分数超过Anthropic当家旗舰模型Claude 3 Opus,仅低于GPT-4o,与GPT-4-Turbo、GPT-4并列第二。

长提问(Longer Query)榜单上,Yi-Large同样位列全球第二,与GPT-4-Turbo、GPT-4、Claude 3 Opus并列。

艰难提示词(Hard Prompts)则是LMSYS响应社区要求,在今天的排行榜刷新中新增的类别。

这个类别的提示词来自大模型竞技场用户提交的prompts,它们经过专门设计,更加复杂、要求更高且更加严格。

LMSYS增加这一类别榜单的原因,是官方认为这类提示能够测试最新语言模型面临挑战性任务时的性能。

这个榜单上,Yi-Large处理艰难提示的能力与GPT-4-Turbo、GPT-4、Claude 3 Opus并列第二。

这次表现亮眼的Yi-Large,是一周前零一万物刚对外发布的闭源模型

当时官方给出的评测结果中,推理方面,Yi-Large在HumanEval和MATH都位列第一,超越GPT-4、Claude3 Sonnet、Gemini 1.5 Pro以及LLaMA3-70B-Instruct(都是时下大模型领域的佼佼者)

据了解,Yi-Large的下一步是采用MoE架构的Yi-XLarge,目前已经启动训练。

大模型竞技场

大模型竞技场(Chatbot Arena),似乎已经成为现在头部大模型的兵家必争之地。

此前,国外如谷歌Bard、OpenAI的神秘大模型gpt2-chatbot(不是GPT-2)、Mistral AI的Mistral Large等模型都在上面冲锋陷阵。

国内诸多玩家也都陆陆续续把自家孩子放进去考验真功夫。

大神卡帕西去年就夸过大模型竞技场很Awesome:

GPT-4o发布后,OpenAI的CEO奥特曼也转帖引用大模型竞技场盲测擂台的测试结果,直呼鹅妹子嘤。

发布它的开放研究组织LMSYS Org(Large Model Systems Organization)发布,由加州大学伯克利分校的学生和教师、加州大学圣地亚哥分校、卡耐基梅隆大学合作创立。

虽然背后团队主要来自高校,但LMSYS的研究项目却相对更贴近产业。

他们不仅自己开发大语言模型,还向业内输出多种数据集(其推出的MT-Bench已是指令遵循方向的权威评测集)、评估工具,此外还开发分布式系统以加速大模型训练和推理,提供线上live大模型打擂台测试所需的算力。

在形式上,大模型竞技场借鉴了搜索引擎时代的横向对比评测思路

它首先将所有上传评测的参赛模型随机两两配对,以匿名模型的形式呈现在用户面前。

在不知道模型型号名称的前提下,用户输入自己的提示词,模型A、模型B两侧分别生成两PK模型的真实结果,然后由用户在结果下方做出投票四选一:

A模型较佳/B模型较佳/两者平手/两者都不好。

提交投票后,可进行下一轮PK。

目前,大模型竞技场的评测过程涵盖了从用户直接参与投票、盲测、大规模投票和动态更新评分机制等多个方面,尽可能保证结果的客观和专业。

官方公开数据显示,本次更新的大模型竞技场,共有44款模型参赛。

既有开源高手,如Llama3-70B;也有全球各家大厂、创业公司的闭源模型。

最后,奉上一张胜率热图,它涵盖了目前大模型竞技场上的所有大模型:

快来看看你pick的大模型胜率如何吧(手动狗头)

大模型竞技场盲测平台:
https://arena.lmsys.org/
大模型竞技场评测排行(滚动更新):
https://chat.lmsys.org/?leaderboard

— 联系作者 —

量子位年度AI主题策划正在征集中!

欢迎投稿专题 一千零一个AI应365行AI落地方案

或与我们分享你在寻找的AI产品,或发现的AI新动向


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
国产AI搜索的黑马!没有广告,免费使用,科研狗:学术搜索太香了再回首 (二十五)国家最高科学技术奖获得者薛其坤:披荆斩棘叱咤量子竞技场元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入地平线交表,智驾量产玩家的黄金时代国产黑马大模型盲测竞技场挺进全球前十!中文榜和GPT-4o并列第一Claude 3反超GPT-4竞技场登顶!小杯Haiku成开发者新宠:性价比无敌祈雨奥运遗产的中法对话:从竞技场到可持续发展|财经看奥运首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次编码数学击败GPT4-Turbo!DeepSeek-Coder-v2登顶竞技场最强开源编码模型大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事芝加哥上榜!全球最繁忙十大机场榜单出炉国产AI应用再现黑马!千万人在用的秘密我参透了..工作人员回应特斯拉首次进入政府采购目录:属于国产/苹果或正在开发带屏 HomePod/李彦宏:AI 不会替代人的工作AIGC大模型第一股,成「五一档」超强黑马!交易量股价双创新高3D生成竞技场来了!比拼360°环绕视频,最强模型由你pick中国高速动车组首次进入欧洲;SpaceX“星舰”第四次试飞成功丨科技早新闻大模型盲测竞技场放榜!国产黑马冲进世界七强,中文并列第一开源模型打败GPT-4!LLM竞技场最新战报,Cohere Command R+上线超ChatGPT-4o,国产大模型竟然更懂翻译,8款大模型深度测评|AI 横评扎克伯格出手狙击OpenAI,大模型竞赛再升级WizardLM新作!ArenaLearning: 通过模拟LLM竞技场来构建大规模数据飞轮此心安处是吾乡国家安全部:太空不是相互博弈的竞技场人工几十万,AI几十块!国产玩家证明了AIGC视频商业化威力国产模型人均「第一」太假?字节扣子模型广场竞技,全民投票!怿星科技CEO潘凯:汽车软件研发工具链 国产玩家迎「历史性机会」众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸全球最繁忙十大机场榜单出炉 美国占一半大模型到底哪家强?达摩院推出“全自动竞技场Auto Arena”评测框架全球最繁忙十大机场榜单出炉,美国占一半!个人感慨之121 世道太黑暗今日arXiv最热大模型论文:大模型都能怎么用?中南大学最新综述:大模型时代的自然语言处理《来到遥远的地方》&《三春序》
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。