大模型到底哪家强？达摩院推出“全自动竞技场Auto Arena”评测框架

2024-06-10 14:06

【🚀达摩院重磅推出】全球首创的全自动大模型竞技场🌟Auto Arena of LLMs🌟来袭！突破传统，首次实现无需人工标注的评测革命。通过大模型出题、大模型辩论、大模型委员会裁定，该方法无需任何人工，却可以达成目前和人类评测结果一致度最高的结果。通过评测发现，国产大模型（minimax，商汤日日新，千问等）表现强劲，在中英文评测中均展现出与 GPT-4 旗鼓相当的实力！🔥日后，该榜单将实时更新迭代，为大模型的能力评估提供最真实、最及时的评测。

论文链接：

https://arxiv.org/abs/2405.20267

论文作者：

赵若辰，张雯轩，谢耀赓，赵德丽，邴立东

项目网站：

https://auto-arena.github.io/

Leaderboard链接：

https://huggingface.co/spaces/Auto-Arena/Leaderboard

导言

自从 ChatGPT 走红以来，大语言模型（LLMs）时代已经全面来临。如今，几乎每天都有各种科技公司和实验室宣发自己的新模型、新版本。面对如此快的更新换代速度，用户和从业者逐渐难以判断：究竟这些新模型和原本的模型性能孰优孰劣？如果它们进步了，又有多少进步？…… 口说无凭，目前的 NLP 学界迫切需要一种可信赖、自动化的评估方法，来保证我们能够跟上快速的模型更迭步伐。

当前基于固定评测集的自动化 LLM 评估方法被不断刷榜，其可信赖程度大打折扣。一方面，研究者发现传统的评估数据集（比如 Open LLM 排行榜）已经开始遇到越来越严重的数据污染问题，即模型可能在训练期间已经接触过测试集中的某些部分。此外，新提出的一些让大模型做评审的方法（例如 AlpacaEval，MT-Bench）很可能会遭受单一模型偏见，例如有的专家评审模型可能会更青睐某种模式的回答或者更长的回答，等等。

相比于这些榜单来说，人类评估还是目前最主流、最受信任的方法。其中，来自伯克利大学的研究者组建的 Chatbot Arena（https://chat.lmsys.org/?leaderboard）是一个收集匿名投票来评估 LLM 性能的众包投票平台，目前受到学界的广泛信任。然而，这种手工投票需要人类志愿者大量的时间和精力。

这种平台上目前也几乎不包括国内主流的模型，比如百度文心一言，商汤日日新等。最近，来自司南开源评测体系的国内大语言模型竞技场 Compass Arena 试图复现 Chatbot Arena 这一平台，但他们的“自选对战”模式，为利益相关方潜在的刷榜行为开了后门。

全自动大模型竞技场框架（Auto Arena of LLMs）

为了提供自动化、可靠且类似人类的大模型评测方法，阿里巴巴达摩院提出了“全自动大模型竞技场”这一评估框架，它通过大模型智能体来模仿和自动化整个评估过程。采用两个待评测模型，就某个问题直接对战 PK 的方式，PK 过程中对对手的弱点进行攻击。PK 之后，由评审委员会进行讨论并投票裁定胜负。具体地，如图 1 所示，该框架主要包括三个阶段：

阶段一：考官出题

在第一阶段，目前表现最优的大模型扮演“考官”，生成模仿真实生活中用户请求的种子问题。问题涵盖 8 个类别：写作、角色扮演、提取、推理、数学、编程、STEM 知识和人文/社会科学知识。动态的问题生成可以有效防止数据污染问题。我们使用的考官模型是 GPT-4。

阶段二：模型对战

在对战阶段，两个大模型候选人围绕种子问题进行辩论，批评对手的弱点，并针对对手的弱点，提出更深层次的诘问，迫使对手进一步暴露弱点。在这个辩论过程中，真实的模型能力被揭示出来并被推向极限。

就像在真实的辩论赛中需要计时发言一样，为了保证公平，我们限制大模型输出一个给定字数的回答，多余的字数会被删除。这一设计也可以减轻 LLM-as-a-judge 中的长度偏见（例如大模型评委总是会偏好更长的答案）。

阶段三：评委打分

由当前排名最佳的 5 个大模型组成一个评审委员会，对对战结果进行评定。每个评委先阅读对战历史，再详细说明其评估理由，并给出其对胜负的裁定。

然后，评审委员会进行一轮评审交流，单个评委可以借鉴其他评委的评估，来对自身评估进行反思和修正。最后由多数票决定胜出的候选大模型。大模型委员会和评委交流环节，引入了多元观点并减少了单一模型偏见。对于最终得分的计算，我们采用“elo rating”（埃洛等级分系统）方法，这是一种目前对博弈水平评估公认的权威方法。

▲ 图1. 全自动大模型竞技场（Auto-LLM-Arena）的整体流程

实验结果

3.1 主结果：中国大模型MinMax、GLM、Qwen表现亮眼

为了证明我们方法的有效性，我们在 17 个模型中进行了英文的瑞士式锦标赛。其中，每对选手会围绕 40 个辩题进行 PK。我们从 Chatbot Arena 前 30 名列表的每个模型家族中选出了最佳和最新的模型，并且添加了目前最流行的中文大模型，包括文心一言，商汤日日新，智谱 GLM 等。最终得出的排名如下：

▲ 表1. 全自动大模型竞技场（Auto Arena of LLMs）得出的榜单排名。其中标记符号的为开源模型。

从这个榜单中，我们可以看到，榜首依旧由 GPT-4 和新推出的 GPT-4o 模型牢牢占据，表现最好的开源模型则是 Meta 新推出的 Llama-3-70B。

国内厂商开发的模型也取得了亮眼的表现。阿里云千问 Qwen1.5-72B 型拿下了开源模型总榜单第三名、中国厂商第一名的成绩。minimax-abab6.5 和 GLM-4 则在闭源模型中大有不俗的表现，能够与国际顶尖水平相媲美。

那么，我们怎么判断这个榜单的可信度呢？

3.2 准确重建人类偏好

▲ 表2. 不同评估方法与Chatbot Arena得分的相关性

我们将 Chatbot Arena（表中用“Arena”指代）排名视为人类偏好的可信指标，并且计算不同评估方法和 Chatbot Arena 达成的斯皮尔曼相关系数（spearman correlation）。如上表所示，我们的方法与人类的相关性最高。在同时存在于 Chatbot Arena 的 13 个模型上，该方法以 92.3% 的准确率复现了它们的排名。

3.3 大模型对战有助于评估与人类偏好的一致性

▲ 表3. 在较小的 7 个模型集合上，有大模型对战和没有大模型对战的相关性

“大模型对战”是 Auto Arena 框架中的一个重要设计。我们认为，随着对战过程的深入，大模型会显示出更大的性能差异，评委就更容易判断赢家。因此，我们在一组 7 个模型的集合上进行了消融研究，以观察没有对战辩论时的评估质量。这 7 个模型是 Chatbot Arena 上每个大模型公司中最具代表性和最新的模型。如表 3 所示，如果没有“大模型对战”这一关键设计，相关性将降至 50.0%。这一观察支持了我们的假设。

3.4 评审辩论有助于提高达到人类水平的一致性

▲ 图2. 评委会交流前，Cohen's Kappa一致性的热图

▲ 图3. 评委会交流后，Cohen's Kappa一致性的热图

在评审之间进行一轮交流显著提高了一致性。图 2 和图 3 显示了评审之间 Cohen's kappa 一致性的热图。我们观察到，在彼此交流之前，评审之间存在显著分歧，尤其是在强评审（如 GPT-4）和弱评审（如 Llama 2）之间。经过一轮交流后，随着评审被更有说服力的论据所说服，一致性显著提高。讨论后的平均 Cohen's kappa 从原本的 0.12 增长到 0.38。

▲ 表3. 两个评委打分一致的概率

表 3 显示了两个评审之间达成一致的平均概率。我们可以看到，经过评审讨论环节后，委员会的一致性从 48% 提升至 68%，可以达到人类评注者之间一致性的水平（67%），这个数据验证了评估结果的普遍可信度。

3.5 中文评测：千问和日日新成为最强的开闭源中文大模型

由于 Auto Arena 框架是全自动的，它可以轻松扩展到评估大模型在其他领域和语言上的能力。作为范例，我们在声称中文能力优秀或大家普遍认为中文能力较好的 11 个模型中进行了类似的中文锦标赛，问题数量依旧是 40 题。唯一的不同就是，现在大模型的指令（prompt）都被翻译成了中文。随着中文指令的输入，“考官”模型就会自动的生成中文问题，并且采用中文进行辩论。类似地，如果要将该框架拓展到不同的领域，只需要更改问题生成提示中的“领域”即可。

中文锦标赛的排行榜如下所示：

▲ 表4. 用全自动大模型竞技场（Auto Arena）得出的中文榜单。其中标记符号的为开源模型。

从中文结果中，我们观察到中文辩论导致与英文排行榜明显不同的结果。值得关注的是，在纯中文能力上，商汤推出的日日新 5 居于第二（而其在英文榜单中则排在第十名）。阿里云千问 Qwen1.5-72B 中文能力总榜排名第四，开源模型中排名第一，ELO 分数大幅度领先其他中文大模型。

中文对话仅仅构成了 Chatbot Arena 所有收集的对话的 10.36%，且该榜单上的中文模型较少。在被包含的 7 个模型上，我们的排行榜能够以 92.86% 的相关性恢复它们的中文 ELO 分数，并且以 90.5% 的准确率复现其排名。

案例分析（附示例）

除了定量分析之外，模型之间的对战过程也揭示了一些有趣的观察结果。除了下面展示的案例，完整的辩论和评委历史可以在我们的演示网站上找到：

https://huggingface.co/spaces/Auto-LLM-Arena/Leaderboard

4.1 大模型在对战中展示了竞争行为

▲ 图4. 大模型在对战中展示出明显的竞争行为

图 4 展示了大模型 A（Yi-34B-chat）和大模型 B（Claude-3-Haiku）之间围绕鸡兔同笼问题的一段辩论，A 首先给出了计算错误的答案。为了攻击 A，B 随即提出：“如果你的答案是正确的，那么一共有多少只脚？”这个问题就像老师教学生一样，循循善诱，在引导对手说出一个自相矛盾的答案，让他的弱点暴露出来。果不其然，A 进行计算后回答，一共有 114 只脚，这一回答与题干里所标注的“94 只脚”形成了矛盾关系。

由此例子可以看出，大模型在对战中还是很会抓对方的弱点、互相竞争的。

4.2 大模型在对战中展示了学习行为

▲ 图5. 大模型在对战中展示出学习行为

图 5 展示了大模型 A（商汤日日新 5）和大模型 B（千问 1.5-72B）关于一个数学问题的一段辩论。A 首先回答了这个求半径的问题，但是在回答的过程中不仅计算错误（把 216 算成了 214.68），而且还提前将一个计算步骤四舍五入了。B 虽然没有成功指出计算错误的问题，但是指出了过早四舍五入这一做法可能会影响最后的计算精度，并且给出了使用 python 进行求解的方法。面对批评，A 展现出了虚心的态度，承认了自己的问题，并且还主动询问 B 能否分享具体的步骤和工具。

这一有趣的观察表明，即使在竞争性很强的环境中，大模型也展现出了持久的学习能力，能够从辩论过程中学到对手的优点，改进自己的缺点。