Redian新闻
>
超越所有开源模型,击败 Claude、Bard,专门用于编程任务的大模型来了

超越所有开源模型,击败 Claude、Bard,专门用于编程任务的大模型来了

公众号新闻
机器之心报道

编辑:陈萍

源 LLM 的性能越来越好了。

最近一段时间,随着大语言模型(LLM)的不断发布,LLM 排位赛也变得火热起来,研究者们试图在新的 LLM 评测系统中不断刷新自家模型的分数。

在这当中,斯坦福发布的全新大语言模型排行榜 AlpacaEval 比较出圈,它是一种基于 LLM 的全自动评估基准,且更加快速和可靠。很多著名的模型如 GPT-4、ChatGPT 等都在其上刷榜单。

前段时间,来自微软的华人团队发布的 WizardLM(是一个经过微调的 7B LLaMA 模型)在一众模型中获得第四名的好成绩,排在其前面的分别是 GPT-4、Claude 以及 ChatGPT,可见,WizardLM 成绩还是很能打的。

近日,WizardLM 团队又发布了新的 WizardCoder-15B 大模型。至于原因,该研究表示生成代码类的大型语言模型(Code LLM)如 StarCoder,已经在代码相关任务中取得了卓越的性能。然而,大多数现有的模型仅仅是在大量的原始代码数据上进行预训练,而没有进行指令微调。因而该研究提出了 WizardCoder,它通过将 Evol-Instruct(该方法生成具有不同难度级别的指令)方法应用于代码领域,为 Code LLM 提供复杂的指令微调。

在 HumanEval、HumanEval+、MBPP 以及 DS1000 四个代码生成基准测试中,WizardCoder 在很大程度上超过了所有其他开源 Code LLM。此外,WizardCoder 在 HumanEval 和 HumanEval + 上的表现甚至超过了最大的闭源 LLM,如 Anthropic 的 Claude 和谷歌的 Bard。


  • 论文地址:https://arxiv.org/pdf/2306.08568.pdf
  • 代码地址:https://github.com/nlpxucan/WizardLM

在方法上,该研究表示受到 WizardLM 提出的 Evol-Instruct 方法的启发,除此以外,该研究还尝试将代码指令变得更加复杂,以提高代码预训练大模型的微调效果。

在代码生成领域,统一的代码 prompt 模板如下:


本文使用的五种类型如下:


该研究采用以下过程来训练 WizardCoder。最初,他们使用 StarCoder 15B 作为基础,并使用代码指令 - 跟随(code instruction-following)训练集对其进行微调,该训练集通过 Evol-Instruct 进化而来。微调 prompt 格式概述如下:


WizardCoder 性能如何?

与闭源模型的比较。用于代码生成的 SOTA LLM,如 GPT4、Claude 和 Bard,主要是闭源的。然而获得这些模型 API 的访问权限难度很大。该研究采用另一种方法,从 LLM-Humaneval-Benchmarks 中检索 HumanEval 和 HumanEval + 的分数。如下图 1 所示,WizardCoder 位列第三,超过了 Claude-Plus(59.8 vs 53.0)和 Bard(59.8 vs 44.5)。

值得注意的是,与这些模型相比,WizardCoder 模型大小要小得多。此外,WizardCoder 比其他经过指令微调的开源 LLM 表现出更显著的优势。


与开源模型的比较。表 1 在 HumanEval 和 MBPP 基准上对 WizardCoder 与其他开源模型进行了全面的比较。表 1 结果表明,WizardCoder 比所有开源模型都具有显著的性能优势。


总结而言,从图 1 和表 1 的实验结果中,可以得出以下结论:

  • WizardCoder 的性能优于最大的闭源 LLM,包括 Claude、Bard、PaLM、PaLM-2 和 LaMDA,尽管它要小得多。
  • WizardCoder 比所有的开源 Code LLM 都要好,包括 StarCoder、CodeGen、CodeGee 以及 CodeT5+。
  • WizardCoder 显著优于所有具有指令微调的开源 Code LLM,包括 InstructCodeT5+, StarCoder-GPTeacher 和 Instruct-Codegen-16B。

下图为不同模型在 DS-1000 基准上的结果:



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
微软也搞起了开源小模型!利用OpenAI的ChatGPT和GPT-4 训练,实力碾压当前最强开源模型比AlphaFold2快一个数量级!蛋白质通用大模型来了,13个任务取得SOTA丨百图生科&清华精选Quant岗位 | Apple、ByteDance、Googlel等公司持续热招!首个开源中文金融大模型来了!解释授信额度、计算收益率、决策参考样样通,来自度小满|附下载超越 GPT-4 的国产开源大模型来了!被疯狂转发的几件事。。。百川开源最强中英文百亿参数模型!超越LLaMA,中国开源大模型开启商用新纪元精选MLE岗位 | Apple、ByteDance、Googlel等公司持续热招!文革记忆 -- 活学活用忆苦饭普华永道投资10亿美元建AI智能模型,用于税务、审计和咨询服务的自动化主体结构封顶!海南商业航天发射场明年上半年拟执行重大工程任务我与【夕阳红】的故事乌克兰总统昨夜专门用“中文”发了条推特ChatGPT上下文碾压64K开源模型!UC伯克利:开源模型能力严重「虚标」|最新硬核评测曝光上下文1.6万token的编程大模型来了!与Stable Diffusion出自同门,一次吃5个Python文件不费劲ACL2023 | 中科院 针对NL2Code任务,调研了27个大模型,并指出5个重要挑战国产乾元2大模型来了:可编程金融文生图,120亿参数,超对称联手复旦出品关于枪的回忆ICLR 2023杰出论文奖得主分享:用于密集预测任务的通用小样本学习器第一个超越ChatGPT的开源模型来了?网友并不买账又一国产大模型来了,超对称联合复旦大学发布 120 亿参数语言模型 BBT-2, 已开源支持80+编程语言!集成VSCode,HuggingFace代码大模型来了支持80+编程语言、集成VSCode,HuggingFace代码大模型来了对话潞晨科技尤洋:AI 大模型没有知识产权,只有开源才能走得更远丨AGI 十人谈四年了,基础开源模型没有真正进步,指令调优大模型评估惊人发现精选SDE岗位 | Tesla、ByteDance、Bill.com公司岗位发布!首个大规模使用工具的大模型来了:伯克利发布Gorilla精选SDE岗位 |Apple、Binance、Samsara等公司持续热招!号称史上最强、击败LLaMA的大模型开源了,却因为许可证被骂垂直领域大模型的一些思考及开源模型汇总20号,龚俊颇特直播Cut+总结清华ACL 2023最新长文 | WebCPM:首个联网支持中文问答开源模型斯坦福发布LLM排行榜AlpacaEval,微软WizardLM登顶开源模型第一精选SDE岗位 | Google、ByteDance、Microsoft等公司持续热招!清华ACL2023 | WebCPM:首个联网支持中文问答开源模型看美国县级初中数学竞赛
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。