Redian新闻
>
中国大模型头名易主:全球盲测榜单上,Yi-Large与GPT-4o中文并列第一

中国大模型头名易主:全球盲测榜单上,Yi-Large与GPT-4o中文并列第一

公众号新闻
机器之心发布
机器之心编辑部

上周,一个名为 “im-also-a-good-gpt2-chatbot” 的神秘模型突然现身大模型竞技场 Chatbot Arena,排名直接超过 GPT-4-Turbo、Gemini 1 .5 Pro、Claude 3 0pus、Llama-3-70b 等各家国际大厂的当家基座模型。随后 OpenAI 揭开 “im-also-a-good-gpt2-chatbot” 神秘面纱 —— 正是 GPT-4o 的测试版本,OpenAI CEO Sam Altman 也在 Gpt-4o 发布后亲自转帖引用 LMSYS arena 盲测擂台的测试结果。

由开放研究组织 LMSYS Org (Large Model Systems Organization)发布的 Chatbot Arena 已经成为 OpenAI、Anthropic、Google、Meta 等国际大厂 “龙争虎斗” 的当红擂台,以最开放与科学的评测方法,在大模型进入第二年之际开放群众投票。

时隔一周,在最新更新的排名中,类 “im-also-a-good-gpt2-chatbot” 的黑马故事再次上演,这次排名飞速上涨的模型正是由中国大模型公司零一万物提交的 “Yi-Large” 千亿参数闭源大模型。

在 LMSYS 盲测竞技场最新排名中,零一万物的最新千亿参数模型 Yi-Large 总榜排名世界模型第 7,中国大模型中第一,已经超过 Llama-3-70B、Claude 3 Sonnet;其中文分榜更是与 GPT4o 并列世界第一

零一万物也由此成为了总榜上唯一一个自家模型进入排名前十的中国大模型企业。在总榜上,GPT 系列占了前 10 的 4 个,以机构排序,零一万物 01.AI 仅次于 OpenAI, Google, Anthropic 之后,以开放金标准正式进击国际顶级大模型企业阵营。 

美国时间 2024 年 5 月 20 日刚刷新的 LMSYS Chatboat Arena 盲测结果,来自至今积累超过 1170 万的全球用户真实投票数:

值得一提的是,为了提高 Chatbot Arena 查询的整体质量,LMSYS 还实施了重复数据删除机制,并出具了去除冗余查询后的榜单。这个新机制旨在消除过度冗余的用户提示,如过度重复的 “你好”。这类冗余提示可能会影响排行榜的准确性。LMSYS 公开表示,去除冗余查询后的榜单将在后续成为默认榜单。

在去除冗余查询后的总榜中, Yi-Large 的 Elo 得分更进一步,与 Claude 3 Opus、GPT-4-0125-preview 并列第四

LMSYS 中文榜
GPT-4o 和 Yi-Large  并列第一

值得国人关注的是,国内大模型厂商中,智谱 GLM4、阿里 Qwen Max、Qwen 1.5、零一万物 Yi-Large、Yi-34B-chat 此次都有参与盲测,在总榜之外,LMSYS 的语言类别上新增了英语、中文、法文三种语言评测,开始注重全球大模型的多样性。

Yi-Large 的中文语言分榜上拔得头筹,与 OpenAI 官宣才一周的地表最强 GPT4o 并列第一,Qwen-Max 和 GLM-4 在中文榜上也都表现不凡。

“最烧脑” 公开评测
Yi-Large 位居全球第二

在分类别的排行榜中,Yi-Large 同样表现亮眼。编程能力、长提问及最新推出的 “艰难提示词” 的三个评测是 LMSYS 所给出的针对性榜单,以专业性与高难度著称,可称作大模型 “最烧脑” 的公开盲测。

在编程能力(Coding)排行榜上,Yi-Large 的 Elo 分数超过 Anthropic 当家旗舰模型 Claude 3 Opus,仅低于 GPT-4o,与 GPT-4-Turbo、GPT-4 并列第二。

长提问(Longer Query)榜单上,Yi-Large 同样位列全球第二,与 GPT-4-Turbo、GPT-4、Claude 3 Opus 并列。

艰难提示词(Hard Prompts)则是 LMSYS 为了响应社区要求,于此次新增的排行榜类别。这一类别包含来自 Arena 的用户提交的提示,这些提示则经过专门设计,更加复杂、要求更高且更加严格。LMSYS 认为,这类提示能够测试最新语言模型面临挑战性任务时的性能。

在这一榜单上,Yi-Large 处理艰难提示的能力也得到印证,与 GPT-4-Turbo、GPT-4、Claude 3 Opus 并列第二。

LMSYS Chatbot Arena
后 benchmark 时代的风向标

如何为大模型给出客观公正的评测一直是业内广泛关注的话题。为了在固定题库中取得一份亮眼的评测分数,业内出现了各式各样的 “刷榜” 方法:将各种各样的评测基准训练集直接混入模型训练集中、用未对齐的模型跟已经对齐的模型做对比等等,对尝试了解大模型真实能力的人,的确呈现 “众说纷纭” 的现场,更让大模型的投资人摸不着北。

在经过 2023 年一系列错综复杂、乱象丛生的大模型评测浪潮之后,业界对于评测集的专业性和客观性给予了更高的重视。而 LMSYS Org 发布的 Chatbot Arena 凭借其新颖的 “竞技场” 形式、测试团队的严谨性,成为目前全球业界公认的基准标杆,连 OpenAI 在 GPT-4o 正式发布前,都在 LMSYS 上匿名预发布和预测试。

在海外大厂高管中,不只 Sam Altman,Google DeepMind 首席科学家 Jeff Dean 也曾引用 LMSYS Chatbot Arena 的排名数据,来佐证 Bard 产品的性能。

OpenAI 创始团队成员 Andrej Karpathy 甚至公开表示,Chatbot Arena is “awesome”。

自身的旗舰模型发布后第一时间提交给 LMSYS,这一行为本身就展现了海外头部大厂对于 Chatbot Arena 的极大尊重。这份尊重既来自于 LMSYS 作为研究组织的权威背书,也来自于其新颖的排名机制。

公开资料显示,LMSYS Org 是一个开放的研究组织,由加州大学伯克利分校的学生和教师、加州大学圣地亚哥分校、卡耐基梅隆大学合作创立。虽然主要人员出自高校,但 LMSYS 的研究项目却十分贴近产业,他们不仅自己开发大语言模型,还向业内输出多种数据集(其推出的 MT-Bench 已是指令遵循方向的权威评测集)、评估工具,此外还开发分布式系统以加速大模型训练和推理,提供线上 live 大模型打擂台测试所需的算力。

在形式上,Chatbot Arena 借鉴了搜索引擎时代的横向对比评测思路。它首先将所有上传评测的 “参赛” 模型随机两两配对,以匿名模型的形式呈现在用户面前。随后号召真实用户输入自己的提示词,在不知道模型型号名称的前提下,由真实用户对两个模型产品的作答给出评价,在盲测平台 https://arena.lmsys.org/ 上,大模型们两两相比,用户自主输入对大模型的提问,模型 A、模型 B 两侧分别生成两 PK 模型的真实结果,用户在结果下方做出投票四选一:A 模型较佳、B 模型较佳,两者平手,或是两者都不好。提交后,可进行下一轮 PK。

通过众筹真实用户来进行线上实时盲测和匿名投票,Chatbot Arena 一方面减少偏见的影响,另一方面也最大概率避免基于测试集进行刷榜的可能性,以此增加最终成绩的客观性。在经过清洗和匿名化处理后,Chatbot Arena 还会公开所有用户投票数据。得益于 “真实用户盲测投票” 这一机制,Chatbot Arena 被称为大模型业内最有用户体感的奥林匹克。

在收集真实用户投票数据之后,LMSYS Chatbot Arena 还使用 Elo 评分系统来量化模型的表现,进一步优化评分机制,力求公平反应参与者的实力。

Elo 评分系统,是一项基于统计学原理的权威性评价体系,由匈牙利裔美国物理学家 Arpad Elo 博士创立,旨在量化和评估各类对弈活动的竞技水平。作为当前国际公认的竞技水平评估标准,Elo 等级分制度在国际象棋、围棋、足球、篮球、电子竞技等运动中都发挥着至关重要的作用。

更通俗地来讲,在 Elo 评分系统中,每个参与者都会获得基准评分。每场比赛结束后,参与者的评分会基于比赛结果进行调整。系统会根据参与者评分来计算其赢得比赛的概率,一旦低分选手击败高分选手,那么低分选手就会获得较多的分数,反之则较少。通过引入 Elo 评分系统,LMSYS Chatbot Arena 在最大程度上保证了排名的客观公正。

Chatbot Arena 的评测过程涵盖了从用户直接参与投票到盲测,再到大规模的投票和动态更新的评分机制等多个方面,这些因素共同作用,确保了评测的客观性、权威性和专业性。毫无疑问,这样的评测方式能够更准确地反映出大模型在实际应用中的表现,为行业提供了一个可靠的参考标准。

Yi-Large 以小搏大紧追国际第一阵营
登顶国内大模型盲测 

此次 Chatbot Arena 共有 44 款模型参赛,既包含了顶尖开源模型 Llama3-70B,也包含了各家大厂的闭源模型。

以最新公布的 Elo 评分来看,GPT-4o 以 1287 分高居榜首,GPT-4-Turbo、Gemini 1 5 Pro、Claude 3 0pus、Yi-Large 等模型则以 1240 左右的评分位居第二梯队;其后的 Bard (Gemini Pro)、Llama-3-70b-Instruct、Claude 3 sonnet 的成绩则断崖式下滑至 1200 分左右。

值得一提的是,排名前 6 的模型分别归属于海外巨头 OpenAI、Google、Anthropic,零一万物位列全球第四机构,且 GPT-4、Gemini 1.5 Pro 等模型均为万亿级别超大参数规模的旗舰模型,其他模型也都在大几千亿参数级别。Yi-Large “以小搏大” 以仅仅千亿参数量级紧追其后, 5 月 13 日一经发布便冲上世界排名第七大模型,与海外大厂的旗舰模型处于同一梯队。在 LMSYS Chatbot Arena 截至 5 月 21 日的总榜上,阿里巴巴的 Qwen-Max 大模型 Elo 分数为 1186,排名第 12;智谱 AI 的 GLM-4 大模型 Elo 分数为 1175,排名第 15。

在当前大模型步入商业应用的浪潮中,模型的实际性能亟需通过具体应用场景的严格考验,以证明其真正的价值和潜力。过去那种仅要求表面光鲜的 “作秀式” 评测方式已不再具有实际意义。为了促进整个大模型行业的健康发展,整个行业必须追求一种更为客观、公正且权威的评估体系。

在这样的背景下,一个如 Chatbot Arena 这样能够提供真实用户反馈、采用盲测机制以避免操纵结果、并且能够持续更新评分体系的评测平台,显得尤为重要。它不仅能够为模型提供公正的评估,还能够通过大规模的用户参与,确保评测结果的真实性和权威性。

无论是出于自身模型能力迭代的考虑,还是立足于长期口碑的视角,大模型厂商应当积极参与到像 Chatbot Arena 这样的权威评测平台中,通过实际的用户反馈和专业的评测机制来证明其产品的竞争力。

这不仅有助于提升厂商自身的品牌形象和市场地位,也有助于推动整个行业的健康发展,促进技术创新和产品优化。相反,那些选择作秀式的评测方式,忽视真实应用效果的厂商,模型能力与市场需求之间的鸿沟会越发明显,最终将难以在激烈的市场竞争中立足。

  • LMSYS Chatbot Arena 盲测竞技场公开投票地址:https://arena.lmsys.org/ 
  • LMSYS Chatbot Leaderboard 评测排行(滚动更新):https://chat.lmsys.org/?leaderboard

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五《来到遥远的地方》&《三春序》新的多模态盲测榜单来了,一眼望过去全是国产模型 | AI鲜测OpenAI掌门人最新专访:GPT-4o让我爱不释手 下代大模型可能不叫GPT-537、长篇家庭伦理小说《嫁接 下》第十三章 问题男生(1)国产黑马大模型盲测竞技场挺进全球前十!中文榜和GPT-4o并列第一GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4英国最权威大学排名出炉:剑桥连续2年榜首,LSE前三/华威兰卡并列第10!重磅!中国大模型头名易主!GPT-4o和Yi-Large并列第一!用GPT-4纠错GPT-4!OpenAI推出CriticGPT模型;谷歌Gemma 2发布,与第一代相比性能更高丨AIGC日报“GPT-5”发布时间曝光!GPT-3是幼儿,GPT-4像高中生,新一代大模型将达博士水平OpenAI爆炸更新:GPT-4免费了!新模型GPT-4o发布,视觉、语音能力大幅增强,速度起飞,API打骨折零一万物发布千亿参数模型 Yi-Large,李开复:中国大模型赶上美国,立志比肩 GPT-5GPT-4o仅排第二!北大港大等6所高校联手,发布权威多模态大模型榜单!ChatGPT 之父最新专访:发现 GPT-4o 惊喜用途,下一代模型可能不是 GPT-5大模型高考成绩公布,理科最多上「二本」/传娃哈哈总经理宗馥莉请辞/OpenAI 推出 GPT-4o mini 新模型【快讯】Apple与GPT合作丨抖音新晋巨星特朗普中文得分世界第一,多项盲测并肩 GPT4o,这个国产大模型怎么就成了 AI 界的黑马?超ChatGPT-4o,国产大模型竟然更懂翻译,8款大模型深度测评|AI 横评OpenAI一夜干翻语音助手!GPT-4o模型强到恐怖,ChatGPT学会看屏幕,现实版Her来了昇腾社区回应网传华为发布会大模型生成图片系人工操控;Sam Altman:新款语音模型GPT-4o尚未发货丨AIGC日报UC伯克利「LLM排位赛」结果出炉!Claude 3追平GPT-4并列第一最强中文大模型又易主了!击败GPT-4 Turbo,首款AI助手发布国产黑马与GPT-4o称霸中文榜首!Yi-Large勇夺国内LLM盲测桂冠,冲进世界第七小红书迎来新社区内容负责人;文心一言数学能力与Claude-3并列第一;买“加速包”可优先购票?12306回应:无效……这份关于工作环境的榜单上,澳洲果然排名垫底了…个人感慨之121 世道太黑暗熵泱——第五十章10家国产大模型、GPT-4o共同挑战新鲜高考作文,还自我打分,谁是第一?咦?我从GPT-4o mini身上看到了两家中国大模型厂商的影子这个榜单上,悉尼竟排全球第二!墨尔本也“榜上有名”!但或许是澳人最不愿意见到的一个榜…宇宙人(1489期)聂海胜出席中国航天大会;文心一言数学能力与Claude-3并列第一;英伟达黄仁勋称人形机器人未来将成主流大模型盲测竞技场放榜!国产黑马冲进世界七强,中文并列第一此心安处是吾乡OpenAI发布新旗舰模型GPT-4o;字节跳动正式发布豆包大模型|AIGC周观察第四十三期
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。