Redian新闻
>
击败Llama 2,抗衡GPT-3.5,Stability AI新模型登顶开源大模型排行榜

击败Llama 2,抗衡GPT-3.5,Stability AI新模型登顶开源大模型排行榜

公众号新闻

机器之心报道

编辑:张倩

一眨眼,开源大模型又进步了。谷歌、OpenAI真的没有护城河?


「我就午休了 30 分钟,我们的领域又变了?」在看到最新的开源大模型排行榜后,一位 AI 领域的创业者发出了灵魂追问。


排行榜链接:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

上图红框中的「新秀」是来自 Stability AI 和 CarperAI lab 的两个大模型:FreeWilly 1 和 FreeWilly 2。刚刚,它们超越了 Meta 三天前发布的 Llama-2-70b-hf,成功登顶 HuggingFace 的 Open LLM 排行榜榜首。

更引人注目的是,FreeWilly 2 在很多基准上还击败了 ChatGPT(GPT-3.5),成为首个真正可以和 GPT-3.5 相抗衡的开源大模型,这是 Llama 2 都没有做到的事情。


FreeWilly 1 基于原始的 LLaMA 65B 基础模型构建,并且在标准 Alpaca 格式下,使用新的合成数据集进行了仔细的有监督微调(SFT)。FreeWilly2 则基于最新的 LLaMA 2 70B 基础模型构建。

从 Stability AI 发布的博客中,我们可以看到这两个新模型的一些细节:

数据来源

FreeWilly 模型的训练方法直接受到了微软在其论文《Orca: Progressive Learning from Complex Explanation Traces of GPT-4》中首创的方法的启发。虽然 FreeWilly 的数据生成过程与之相似,但二者在数据来源方面存在差异。

FreeWilly 的数据集包含了 60 万个数据点(大约是原始 Orca 论文使用的数据集大小的 10%),它是通过以下由 Enrico Shippole 创建的高质量指令数据集来启发语言模型生成的:

  • COT Submix Original
  • NIV2 Submix Original
  • FLAN 2021 Submix Original
  • T0 Submix Original

采用这种方法,研究者使用了一个较简单的 LLM 模型生成了 50 万个示例,并使用一个更复杂的 LLM 模型生成了额外的 10 万个示例。为了确保公平比较,他们仔细筛选了这些数据集,并删除了来源于评估基准测试的示例。尽管训练样本数量仅为原始 Orca 论文的 1/10(相比原始论文大大降低了训练模型的成本和碳排放),但由此产生的 FreeWilly 模型在各种基准测试中表现出色,验证了他们采用合成数据集的方法的有效性。

性能数据

为了对这些模型进行内部评估,研究者使用了 EleutherAI 的 lm-eval-harness 基准,并加入了 AGIEval。

其中,lm-eval-harness 基准由 EleutherAI 非盈利人工智能研究实验室创建,前面提到的 HuggingFace Open LLM 排行榜背后运行的就是该基准,它会在 Hugging Face 计算集群的空闲周期中运行评估,并将结果存储在数据集中,然后在在线排行榜空间上显示。

AGIEval 则由微软创建,专门用于评估基础模型在「以人为本」(human-centric)的标准化考试中的表现,比如数学竞赛、律师资格考试。

在许多方面,两个 FreeWilly 模型表现都非常出色,包括复杂的推理、理解语言的微妙之处,以及回答涉及专业领域(如法律和数学问题)的复杂问题。

两个模型在 lm-eval-harness 基准上的评估结果如下(这些 FreeWilly 测试结果是由 Stability AI 研究人员来评估的):


二者在 AGIEval 基准上的表现如下(全部是 0-shot):


此外,他们还在 GPT4ALL 基准上对两个模型进行了测试(全部是 0-shot):


总体来看,这两个模型的性能表现都非常优秀,进一步缩小了与 ChatGPT 等顶级 AI 大模型的差距。想要获取模型的同学可以点击以下链接。

FreeWilly 1:https://huggingface.co/stabilityai/FreeWilly1-Delta-SafeTensor
FreeWilly 2:https://huggingface.co/stabilityai/FreeWilly2

从各方反应来看,FreeWilly 模型的出现给大家带来了一点小小的震撼,因为它们来得实在是太快了,毕竟 Llama 2 才刚刚推出 3 天,排行榜位置都没坐热。有位研究者表示,他最近刚做了眼科手术,一个星期没看新闻,但感觉自己已经昏迷了一年。所以,这是一段「不能眨眼」的时期。


不过,需要注意的是,虽然两个模型都是开放获取的,但和 Llama 2 不同,它们是以非商业许可的形式发布的,仅可用于研究目的。


然而,这样的做法引起了网友质疑。


对此,Stability AI的研究者回复说,这种情况(仅用于研究目的)只是暂时的,未来,FreeWilly 有望像 Llama 2 一样允许商用。


此外,也有人对测试采用的基准产生了质疑:


这也是当前一个比较棘手的问题。此前,Falcon 模型在 HuggingFace 排行榜上碾压 Llama 的事件备受争议,后来,该事件彻底反转,事实证明 Llama 并未被 Falcon 碾压,HuggingFace 也为此重写了排行榜代码。在大模型层出不穷的今天,如何有效地评估这些模型依然是一个值得讨论的问题。因此,对于这些登顶排行榜的模型,我们有必要保持更加谨慎的态度,等待更多的评测结果出炉。

参考链接:https://stability.ai/blog/freewilly-large-instruction-fine-tuned-models?utm_source=twitter&utm_medium=website&utm_campaign=announcement


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
超越 GPT-4 的国产开源大模型来了!被疯狂转发的几件事。。。天工大模型登顶多模态榜单!解决幻觉、跨语言两大难题昊字现在在姓名中很流行2023回国 同学聚会(图)号称史上最强、击败LLaMA的大模型开源了,却因为许可证被骂国内开源第一!百川开源大模型Baichuan-13B评测揭晓|SuperCLUE最新大模型排名!中文大模型评测基准SuperCLUE发布6月榜单击败LLaMA?史上最强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞开源大模型FLM-101B:训练成本最低的超100B参数大模型GPT-4,Llama2,ChatGLM2,PaLM2共聚一堂 | LLM Day @KDD 2023微软也搞起了开源小模型!利用OpenAI的ChatGPT和GPT-4 训练,实力碾压当前最强开源模型爱是做出来的钮祜禄·Meta:发布最强开源新模型Llama 2,拉拢微软做盟友|最前线百川开源最强中英文百亿参数模型!超越LLaMA,中国开源大模型开启商用新纪元不对齐,反而性能爆表?130亿模型碾压650亿,Hugging Face大模型排行榜发布数学能力超ChatGPT,70B开源大模型火了:用AI微调AI,微软全华班出品斯坦福最新LLM排行榜发布!自家Alpaca垫底,华人团队WizardLM开源第一,GPT-4、Claude稳居前二1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-4你好,我是筚(bì)篥( lì)!32卡176%训练加速,开源大模型训练框架Megatron-LLaMA来了超越 GPT-4!加州大学伯克利分校与微软研究院合作开源大型语言模型 Gorilla5076 血壮山河之武汉会战 黄广战役 8UC伯克利LLM排行榜首次重磅更新!GPT-4稳居榜首,全新330亿参数「小羊驼」位列开源第一1800亿参数,性能碾压Llama 2,世界最强开源大模型Falcon 180B发布开源大模型重击OpenAI!小扎放出LLaMA2炸裂科技圈,联手微软高通冲击市场格局金砖国家翻倍扩容,足以抗衡G7集团的庞大组织已经成型一次通过率73%,开源代码大模型WizardCoder超越最新GPT-4以外所有闭/开源模型开源大模型新SOTA!支持免费商用,比LLaMA65B小但更强,基于1万亿token碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace 为它吵了起来波士顿大学「鸭嘴兽-70B」登顶Hugging Face大模型排行榜!高效数据集+独特LoRA微调是关键改写游戏规则!Meta开源大语言模型Llama 2,可免费商用;微软Copilot定价每月每用户30美元 | 环球科学要闻全面超越LLaMA2,月下载量超三百万,国产开源大模型如何成为新晋顶流?斯坦福发布LLM排行榜AlpacaEval,微软WizardLM登顶开源模型第一美丽的清晨,美好的一天小心A型血的人!四大血型排行榜:B型血平均年龄77岁,第一名令人意外...
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。