Redian新闻
>
彻底反转:号称「碾压」LLaMA的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码

彻底反转:号称「碾压」LLaMA的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码

公众号新闻

机器之心报道

机器之心编辑部

LLaMA v.s. Falcon = 63.64 v.s. 49.08。评估结果表明,LLaMA 并未被「碾压」。


作为开源模型界的扛把子,LLaMA 一直备受瞩目。


这是一组由 Meta 开源的大型语言模型,共有 7B、13B、33B、65B 四种版本。其中,LLaMA-13B 在大多数数据集上超过了 GPT-3(175B),LLaMA-65B 达到了和 Chinchilla-70B、PaLM-540B 相当的水平。


自 2 月份发布以来,开源社区一直在 LLaMA 的基础上进行二创,先后推出了 Alpaca、Vicuna 等多个「羊驼」大模型,生物学羊驼属的英文单词都快被用光了。


不过,也有人对 LLaMA 发起了挑战。5 月底,阿联酋阿布扎比的技术创新研究所(TII)开源了一个 400 亿参数的因果解码器模型「Falcon-40B」,该模型在 RefinedWeb 的 1 万亿个 token 上进行了训练,并使用精选数据集增强。刚一发布,「Falcon-40B」就冲上了 Huggingface 的 OpenLLM 排行榜首位,「碾压」了参数规模 1.5 倍的「LLaMA-65B」,也优于 MPT、RedPajama 和 StableLM 等开源大模型。



后来,Falcon-40B Instruct 版本占据了排行榜首位,Falcon-40B 则退到了第三,而 LLaMA-65B 已经掉到了第六位。


不过,仔细看过数据之后,围观者产生了疑问:为什么在 HuggingFace 的 Open LLM 排行榜上,LLaMA-65B 的 MMLU 这项分数是 48.8,明显低于官方数据 63.4?


HuggingFace 的 Open LLM 排行榜。地址:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard


LLaMA 论文中的 MMLU 数据。MMLU 是 Massive Multitask Language Understanding 的缩写,是一个基准数据集,旨在通过仅在零样本和少样本设置下评估模型来衡量预训练期间获取的知识。它由一系列学术科目中类似考试的问题组成,用于测试模型对于世界理解的能力。


还有人表示,在测 Falcon-40B 时,他们也复现不了排行榜上的分数。



面对这样的争议,Karpathy 等大牛选择了谨慎观望。



爱丁堡大学博士生符尧等则选择自己测一遍。


简而言之,他们在 Chain-of-thought Hub 上重新写了开源的 LLaMA eval 代码,然后在同样的设定下,用官方 prompt,fp16,HF 默认代码,公平比较了 Falcon 和 LLaMA 在 MMLU 上的表现。


「没有花哨的 prompt 工程和解码,一切都是在默认设置下进行的。」符尧在推文中写道。


6 月 8 日,他们公布了第一批结果:LLaMA 65B 的 MMLU 得分为 61.4,比较接近官方数字(63.4),明显高于其 Open LLM Leaderboard 分数 48.8,且远高于 Falcon-40B 的 Leaderboard 分数 52.7。



初步来看,「你大爷还是你大爷」。不过,这还不是 LLaMA 65B 的真实实力。在 6 月 10 日凌晨公布的第二波结果中,符尧解释说,他们在第一波测评中发现了一个「long prompt」引起的 bug,这个 bug 导致 LLaMA 在高中欧洲历史和高中美国历史上得到 0 分。在修复了这个 bug 后,LLaMA 得分变成了 63.64,与论文中报道的数字基本相同。



公平起见,使用相同的脚本,他们也测出了 Falcon-40B 的得分:49.08,低于 Leaderboard 分数 52.7,只比 LLaMA 13B 好一点。





由此,这次所谓的「碾压」事件彻底反转。


符尧团队的这一尝试也吸引了 HuggingFace 研究科学家 Nathan Lambert 的注意,后者决定重写 Open LLM Leaderboard 的代码。




不过,符尧专门指出,他们不打算在 LLaMA 和 Falcon 之间挑起战争:「两者都是伟大的开源模型,并为该领域做出了重大贡献!Falcon 还具有更简单的许可证优势,这也赋予了它强大的潜力!」


为了方便大家检查代码和开源结果,符尧公布了相关地址:https://github.com/FranxYao/chain-of-thought-hub/tree/main/MMLU   


如果在检查后有新的发现,欢迎在评论区留言。


参考链接:https://twitter.com/Francis_YAO_/status/1667245675447468034

https://www.zhihu.com/question/605021170/answer/3060877755


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AI重写排序算法,速度快70%:DeepMind AlphaDev革新计算基础,每天调用万亿次的库更新了空船硬核观察 #993 Hugging Face 发布免费的代码生成 AI对标ChatGPT!Hugging Face推出开源聊天机器人HuggingChat不对齐,反而性能爆表?130亿模型碾压650亿,Hugging Face大模型排行榜发布春季这些火爆UGG必穿! UGG毛绒拖鞋低至6折!对标ChatGPT,Hugging Face推出开源聊天机器人HuggingChat第三届 冇(Mǎo)国际青年影像周 开始征片啦!一场 AI 引发的开源革命迫在眉睫?Hugging Face 更改文本推理软件许可证,不再“开源”复旦MOSS大模型开源了!Github和Hugging Face同时上线ChatGPT的替代品来了!HuggingChat号称媲美GPT-3.5,要拆掉OpenAI的围墙Huggingface榜首开源模型惹争议:魔改Apache协议,达到一定门槛要收钱对Hugging Face开源模型精准投毒!LLM切脑后变身PoisonGPT,用虚假事实洗脑60亿人让ChatGPT调用10万+开源AI模型!HuggingFace新功能爆火:大模型可随取随用多模态AI工具老黄深夜炸场,AIGC进入iPhone时刻!Hugging Face接入最强超算,神秘显卡胜过A100外甥女跟老舅叫板,不服赢家通吃,AMD要拉上Hugging Face对抗英伟达了努比亚Z50S Pro样张公布:号称“超越1英寸的拍照效果”从夫妻四不讲说起【𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶无痕内裤】49元三条!巨巨巨好穿 !!简直就是辣妹顶配,食品级冰箱收纳盒【一日团】AlphaDev革新计算基础!DeepMind用AI重写排序算法,速度快70%有人问我:美国有什么好?7 Papers | DeepMind用AI重写排序算法;将33B大模型塞进单个消费级GPU红杉等一线资本云集,Hugging Face是怎么成为AI创造力中心的?JARVIS项目原作解读:连接ChatGPT和HuggingFace解决AI问题比HuggingFace快24倍!伯克利神级LLM推理系统开源,碾压SOTA,让GPU砍半碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace 为它吵了起来给爆火的Llama 2划重点,Huggingface机器学习科学家写了篇分析文章碾压LLaMA,「猎鹰」彻底开源!400亿参数,万亿token训练,霸榜Hugging Face支持80+编程语言、集成VSCode,HuggingFace代码大模型来了支持80+编程语言!集成VSCode,HuggingFace代码大模型来了《大爱如歌》&《如梦令》Hugging Face:在人工智能的大航海时代悄悄地造一艘方舟|全球独角兽Musical to Honor Shanghai’s History of Welcoming Jewish Refugees为了中国市场,Hugging Face 甚至玩上了小红书回国之旅,摄像头,投诉电话与点评
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。