Redian新闻
>
斯坦福发布LLM排行榜AlpacaEval,微软WizardLM登顶开源模型第一

斯坦福发布LLM排行榜AlpacaEval,微软WizardLM登顶开源模型第一

科技


最近,来自斯坦福大学的研究人员发布了全新的大语言模型排行榜 AlpacaEval,它是一种基于 LLM 的全自动评估基准,且更加快速、廉价和可靠。

排行榜链接:
https://tatsu-lab.github.io/alpaca_eval/

Github链接:

https://github.com/tatsu-lab/alpaca_eval


AlpacaEval 基于 AlpacaFarm 数据集来测试模型遵循一般用户指令的能力。具体地,研究人员以 GPT-4 或 Claude 为自动评估器,以 GPT-3.5(Davinci-003)为基准,将目标模型与 GPT-3.5 的回复进行比较,计算获胜率。


虽然仅基于 GPT-4 进行自动评估,但与基于 1.8 万条真实人类标注排序结果之间高达 0.94 的皮尔逊相关系数,证明了 AlpacaEval 榜单排名的高可靠性。

而相对于人工标注,全自动化的 AlpacaEval 仅需花费约 1/22 的经济成本1/25 的时间成本


目前,AlpacaEval 团队已开源所有模型评估代码和分析数据,以及支持未来新模型榜单更新的测试工具。开源社区技术人员也可以基于该工具和自有 API_KEY 评测目标模型,并将经过验证的测试细节与结果贡献到榜单。




榜单详情


AlpacaEval 分为以 GPT-4 和 Claude 为元标注器的两个子榜单。


首先,在 GPT-4 评估榜单中,GPT-4 以高达 95.28% 的分数断崖式稳居榜首,紧随其后的毫无悬念是 Claude 与 ChatGPT。


而在所有开源模型中,微软研究人员提出的 WizardLM 以仅 130 亿的参数版本排名第一,击败了 650 亿参数量的 Guanaco。


同时,伯克利大学发布的 Vicuna 13B 依然稳健,排名第三,胜率紧追 Guanaco 65B。


而最近大火的 Falcon Instruct 40B 表现不佳,仅位居 12 名,略高于 Alpaca Farm 7B。

Claude 评估榜单中,GPT-4 拔得头筹,但与 Claude 的差距缩小到仅 1.2 分。


而 WizardLM 13B 依然稳居开源模型榜首,仅落后 ChatGPT 1.6 分。同时 Vicuna 13B 以 0.6 分的微弱优势反超了 Guanaco 65B。




关于WizadLM与Evol-Instruct


做为 AlpacaEval 上表现最好的开源模型,我们详细阅读了 WizardLM 相关论文,并希望揭示其强大能力的来源。


WizardLM 的核心算法是指一种称为 Evol-Instruct 的指令进化论。与手动创建、收集、筛选高质量指令数据的巨大耗费不同,Evol-Instruct 是一种使用 LLM 而非人类创建大量不同复杂度级别的指令数据的高效途径。

Evol-Instruct 算法从一个简单的初始指令开始, 然后随机选择深度进化广度进化,前者将简单指令升级为更复杂的指令,而后者则在相关话题下创建新指令(以增加多样性)。以上两种进化操作是通过若干特定的 Prompt 提示 LLM 来实现。研究人员采用指令过滤器来筛选出失败的指令,这被称为淘汰进化


同时,我们发现了 4 个重要的实验现象:


1)人类评估结果证明,由 Evol-Instruct 进化生成的机器指令质量整体优于人类指令(ShareGPT)。


2)高难度指令的处理能力:人类评估者认为此时 WizardLM 的响应比 ChatGPT 更受欢迎。


3)代码生成与补全能力:在 HumanEval 评估中,WizardLM-30B 同时击败了code-cushman-001 与目前最强代码开源模型 StarCoder 。这证明了 Llama 系列预训练模型的代码能力并不差,在高效的对齐算法加持下,依然可以获得优异的表现。

4)WizardLM-13B 同时在 AlpacaEval 与 Evol-Instruct 测试集的 GPT-4 评估中,获得了高度一致的 ChatGPT 能力占比(前者为 87% ChatGPT,后者为 89% ChatGPT)。


而最新发布的 WizardLM-30B,在 Evol-Instruct 测试集上取得了 97.8% 的 ChatGPT 分数占比,因此未来 30B 版本 WizardLM 在 AlpacaEval 排行榜表现如何,是一件值得期待的事情。




AlpacaEval技术细节


3.1 如何使用AlpacaEval评估模型


AlpacaEval 支持两种模式的模型评估方式:


  • alpaca_eval:直接根据目标模型输出的响应来评估模型。
  • alpaca_eval evaluate_from_model:根据 HuggingFace 已注册模型或这 API 提供商来端到端评测模型。


评测过程分为以下 3 步:


1)选择一个评估集,并计算指定为 model_outputs 的输出。默认情况下,我们使用来自 AlpacaEval 的 805 个示例。


import datasets

eval_set = datasets.load_dataset("tatsu-lab/alpaca_eval""alpaca_eval")["eval"]

for example in eval_set:

# generate here is a placeholder for your models generations

example["output"] = generate(example["instruction"])

2)计算 golden 输出 reference_outputs。默认情况下,在 AlpacaEval 上使用 text-davinci-003 的输出。


3)通过 annotators_config 选择指定的自动标注器,它将根据 model_outputs 和 reference_outputs 计算胜率。这里建议使用 alpaca_eval_gpt4 或 claude。根据不同的标注器,使用者还需要在环境配置中设定 API_KEY。


3.2 不同标注方式的效果与成本


在 AlpacaEval set 上,通过与 2.5K 条人工标注结果对比,研究人员评估了不同的自动标注器的性能。对比结果显示,AlpacaEval 采用的 GPT-4 评测方式取得了最高的人类一致性,以及较低的误差,并仅需约 1/20 的人类标注成本。

3.3 不同基准评估数据集的质量


研究人员还试图从统计的角度来回答一个关键问题:什么评估数据可以最好地区分模型。因此他们在 AlpacaEval 的所有子集上检验这一点,下图显示了 AlpacaEval 每个子集的 80 个实例上每对模型的配对 t 检验的 p 值。

例如,我们看到 Self-Instruct 数据集产生的统计能力最小,这表明可以从评估集中删除该数据集。



参考文献

1. AlpacaEval: https://tatsu-lab.github.io/alpaca_eval/
2. AlpacaFarm: https://crfm.stanford.edu/2023/05/22/alpaca-farm.html
3. GPT-4: https://openai.com/gpt-4
4. Claude: https://www.anthropic.com/index/introducing-claude
5. ChatGPT: https://openai.com/blog/chatgpt
6. WizardLM: https://github.com/nlpxucan/WizardLM
7. Guanaco: https://github.com/artidoro/qlora
8. Vicuna: https://lmsys.org/blog/2023-03-30-vicuna/
9. Falcon: https://huggingface.co/tiiuae/falcon-40b-instruct



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
iPhone 16 Pro Max或采用潜望超长焦组合/Meta发布Llama 2/诺兰不会再拍超英电影击败ChatGPT?OpenChat霸榜斯坦福AlpacaEval开源榜首,性能高达105.7%𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶内衣裤,软弹有度,上身0束缚~大模型第一波减员UC伯克利LLM排行榜首次重磅更新!GPT-4稳居榜首,全新330亿参数「小羊驼」位列开源第一不对齐,反而性能爆表?130亿模型碾压650亿,Hugging Face大模型排行榜发布莫斯科之夜东半球最强法务部出手,开源模拟器Dolphin被Steam下架LLM底座模型:LLaMA、Palm、GLM、BLOOM、GPT结构对比The Valley of Light 2007 // Hallmark Hall of Fame Christian movi第一个超越ChatGPT的开源模型来了?网友并不买账4/15/2023 5K Race斯坦福最新LLM排行榜发布!自家Alpaca垫底,华人团队WizardLM开源第一,GPT-4、Claude稳居前二对Hugging Face开源模型精准投毒!LLM切脑后变身PoisonGPT,用虚假事实洗脑60亿人对标Llama 2,OpenAI开源模型G3PO已在路上KW曾多次不避忌讳力挺过伟人但关键时刻却犯了糊涂没有抵制ztUC伯克利发布大语言模型排行榜!Vicuna夺冠,清华ChatGLM进前5微软也搞起了开源小模型!利用OpenAI的ChatGPT和GPT-4 训练,实力碾压当前最强开源模型哥大教授“卧底”哈佛、剑桥、斯坦福发现:成功的孩子都有这个特质....Stability AI火速发布Llama 2微调模型FreeWilly,性能媲美ChatGPT!网友惊呼游戏规则已改变ChatGPT上下文碾压64K开源模型!UC伯克利:开源模型能力严重「虚标」|最新硬核评测曝光斯坦福三申三录,哥大连中三元,哈耶普斯麻申四录四,斯坦福、MIT、CIT、CMU等九大理工强校理工专业大满贯,是怎么做到的?总分第一,算法模型第一,行业覆盖第一!国际权威测评文心大模型3.5一举得魁,独占鳌头Cortana再见!微软Win11普通用户已无法使用该应用超越所有开源模型,击败 Claude、Bard,专门用于编程任务的大模型来了【𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶无痕内裤】49元三条!巨巨巨好穿 !!简直就是辣妹顶配,食品级冰箱收纳盒【一日团】击败Llama 2,抗衡GPT-3.5,Stability AI新模型登顶开源大模型排行榜Llama-2首个全方位评测,国内外开源模型大比拼愿每一位同胞都有草莓吃业绩与流言齐飞,前“公募一哥”登顶百亿私募业绩排行榜首位垂直领域大模型的一些思考及开源模型汇总谷歌PaLM 2弱爆:LLM大排名屈居第六,准中文倒数第二|UC伯克利排行榜新鲜榜出炉开源模拟器Dolphin放弃上架Steam四年了,基础开源模型没有真正进步,指令调优大模型评估惊人发现[模型] 1米之模型第二弹(巨型原子机械哥斯拉王)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。