斯坦福发布LLM排行榜AlpacaEval，微软WizardLM登顶开源模型第一

2023-06-14 13:06

最近，来自斯坦福大学的研究人员发布了全新的大语言模型排行榜 AlpacaEval，它是一种基于 LLM 的全自动评估基准，且更加快速、廉价和可靠。

排行榜链接：

https://tatsu-lab.github.io/alpaca_eval/

Github链接：

https://github.com/tatsu-lab/alpaca_eval

AlpacaEval 基于 AlpacaFarm 数据集来测试模型遵循一般用户指令的能力。具体地，研究人员以 GPT-4 或 Claude 为自动评估器，以 GPT-3.5（Davinci-003）为基准，将目标模型与 GPT-3.5 的回复进行比较，计算获胜率。

虽然仅基于 GPT-4 进行自动评估，但与基于 1.8 万条真实人类标注排序结果之间高达 0.94 的皮尔逊相关系数，证明了 AlpacaEval 榜单排名的高可靠性。

而相对于人工标注，全自动化的 AlpacaEval 仅需花费约 1/22 的经济成本和 1/25 的时间成本。

目前，AlpacaEval 团队已开源所有模型评估代码和分析数据，以及支持未来新模型榜单更新的测试工具。开源社区技术人员也可以基于该工具和自有 API_KEY 评测目标模型，并将经过验证的测试细节与结果贡献到榜单。

榜单详情

AlpacaEval 分为以 GPT-4 和 Claude 为元标注器的两个子榜单。

首先，在 GPT-4 评估榜单中，GPT-4 以高达 95.28% 的分数断崖式稳居榜首，紧随其后的毫无悬念是 Claude 与 ChatGPT。

而在所有开源模型中，微软研究人员提出的 WizardLM 以仅 130 亿的参数版本排名第一，击败了 650 亿参数量的 Guanaco。

同时，伯克利大学发布的 Vicuna 13B 依然稳健，排名第三，胜率紧追 Guanaco 65B。

而最近大火的 Falcon Instruct 40B 表现不佳，仅位居 12 名，略高于 Alpaca Farm 7B。

在 Claude 评估榜单中，GPT-4 拔得头筹，但与 Claude 的差距缩小到仅 1.2 分。

而 WizardLM 13B 依然稳居开源模型榜首，仅落后 ChatGPT 1.6 分。同时 Vicuna 13B 以 0.6 分的微弱优势反超了 Guanaco 65B。

关于WizadLM与Evol-Instruct

做为 AlpacaEval 上表现最好的开源模型，我们详细阅读了 WizardLM 相关论文，并希望揭示其强大能力的来源。

WizardLM 的核心算法是指一种称为 Evol-Instruct 的指令进化论。与手动创建、收集、筛选高质量指令数据的巨大耗费不同，Evol-Instruct 是一种使用 LLM 而非人类创建大量不同复杂度级别的指令数据的高效途径。

Evol-Instruct 算法从一个简单的初始指令开始，然后随机选择深度进化或广度进化，前者将简单指令升级为更复杂的指令，而后者则在相关话题下创建新指令（以增加多样性）。以上两种进化操作是通过若干特定的 Prompt 提示 LLM 来实现。研究人员采用指令过滤器来筛选出失败的指令，这被称为淘汰进化。

同时，我们发现了 4 个重要的实验现象：

1）人类评估结果证明，由 Evol-Instruct 进化生成的机器指令质量整体优于人类指令（ShareGPT）。

2）高难度指令的处理能力：人类评估者认为此时 WizardLM 的响应比 ChatGPT 更受欢迎。

3）代码生成与补全能力：在 HumanEval 评估中，WizardLM-30B 同时击败了code-cushman-001 与目前最强代码开源模型 StarCoder 。这证明了 Llama 系列预训练模型的代码能力并不差，在高效的对齐算法加持下，依然可以获得优异的表现。

4）WizardLM-13B 同时在 AlpacaEval 与 Evol-Instruct 测试集的 GPT-4 评估中，获得了高度一致的 ChatGPT 能力占比（前者为 87% ChatGPT，后者为 89% ChatGPT）。

而最新发布的 WizardLM-30B，在 Evol-Instruct 测试集上取得了 97.8% 的 ChatGPT 分数占比，因此未来 30B 版本 WizardLM 在 AlpacaEval 排行榜表现如何，是一件值得期待的事情。

AlpacaEval技术细节

3.1 如何使用AlpacaEval评估模型

AlpacaEval 支持两种模式的模型评估方式：

alpaca_eval：直接根据目标模型输出的响应来评估模型。
alpaca_eval evaluate_from_model：根据 HuggingFace 已注册模型或这 API 提供商来端到端评测模型。

评测过程分为以下 3 步：

1）选择一个评估集，并计算指定为 model_outputs 的输出。默认情况下，我们使用来自 AlpacaEval 的 805 个示例。

import datasets

eval_set = datasets.load_dataset("tatsu-lab/alpaca_eval", "alpaca_eval")["eval"]

for example in eval_set:

# generate here is a placeholder for your models generations

example["output"] = generate(example["instruction"])