Redian新闻
>
一次通过率73%,开源代码大模型WizardCoder超越最新GPT-4以外所有闭/开源模型

一次通过率73%,开源代码大模型WizardCoder超越最新GPT-4以外所有闭/开源模型

公众号新闻

机器之心报道

编辑:杜伟、梓文

在开源这件事上,Meta 不愧是业界良心。


这几天,代码大模型领域又热闹了起来!


先是 Meta 开源代码专用大模型 Code Llama,且免费商用。效果也非常好,Code Llama 在 HumanEval 和 MBPP 代码数据集上的一次生成通过率(pass@1)轻松超越 GPT-3.5,其中「Unnatural」版本的 pass@1 逼近了原始 GPT-4(OpenAI 在今年 3 月 GPT-4 技术报告中的数据)。


Code Llama 发布仅一天,来自 Phind 组织的研究人员用微调的 Code Llama-34B 在 HumanEval 评估中击败了 GPT-4。他们的两个模型 Phind-CodeLlama-34B-v1 以及 Phind-CodeLlama-34B-Python-v1 在 HumanEval 分别实现 67.6% 和 69.5% 的 pass@1,显然都超越了原始 GPT-4 的 67%。


不过,仅仅又过了一天,Phind 微调版 Code Llama 又迎来了一个强劲的对手。这次是 WizardLM 团队的编程专用大模型 WizardCoder。


该团队推出了基于 Code Llama 的最新版本模型 WizardCoder 34B,它利用 Evol-Instruct 进行微调而成


结果显示,它在 HumanEval 上的 pass@1 达到了惊人的 73.2%,超越了原始 GPT-4、ChatGPT-3.5 以及 Claude 2、Bard。此外,WizardCoder 13B 和 7B 版本也将很快到来。


  • GitHub 地址:https://github.com/nlpxucan/WizardLM/tree/main/WizardCoder

  • Huggingface:https://huggingface.co/WizardLM/WizardCoder-Python-34B-V1.0


此次具体版本是 WizardCoder-Python-34B-V1.0,下图是与主流闭源和开源模型的 HumanEval pass@1 比较。除了最新 API 的 GPT-4(该团队测试后得到的结果是 82.0%),该模型超越了所有闭源和开源模型,包括最新 API 的 ChatGPT(72.5%)和原始 GPT-4(67%)。


因此,WizardCoder-Python-34B-V1.0 成为了最新的 SOTA 开源代码大模型。


WizardLM 团队还表示,WizardCoder-Python-34B-V1.0 的性能百分之百是可以复现的。


想要体验 WizardCoder-Python-34B-V1.0 的小伙伴可以尝试以下 demo。


demo 地址:http://47.103.63.15:50085/


有人表示,在试了 demo 后发现,提供准确代码之前似乎有 COT(思维链)在起作用,这非常棒。


还有人表示,WizardCoder-Python-34B-V1.0 要比 GPT-4 犯的错更少。


不过运行 WizardCoder-Python-34B-V1.0 需要 32GB 以上的 mac。


WizardLM 团队会带来更多惊喜


WizardCoder 在成为代码家族一员已经不是新鲜事,但是 WizardLM 团队每次都会给大家带来不一样的惊喜。


斯坦福发布的大语言模型排行榜 AlpacaEval 是一种基于 LLM 的全自动评估基准,且更加快速和可靠。很多著名的模型如 GPT-4、ChatGPT 等都在其上刷榜单。在这其中,WizardLM 13B V1.2 依旧在第六位。


WizardLM 是由 Can Xu 等人在 2023 年 4 月提出的一个能够根据复杂指令生成文本的大型语言模型。它使用了一个名为 Evol-Instruct 的算法来生成和改写指令数据,从而提高了指令的复杂度和多样性。 WizardLM 共有三个版本:7B、13B 和 30B。


WizardLM 推出的指令微调代码大模型 ——WizardCoder,更是打破了闭源模型的垄断地位,在 HumanEval 和 HumanEval + 上优于 Anthropic 的 Claude 和 Google 的 Bard。


更值得一提的是,WizardCoder 还大幅度地提升了开源模型的 SOTA 水平,创造了惊人的进步,提高了 22.3% 的性能,成为了开源领域的新晋「领头羊」。


以下为 WizardLM 团队在 GitHub 上发布的诸多模型,这些模型是该团队不断创新、改进的足迹。


WizardLM 团队在 WizardLM 与 WizardCoder 之后,还在今年八月中旬公布了 WizardMath。该团队还发推文表示,自己一直在致力于解决各个学科复杂的问题。


那么未来 WizardLM 团队还会带给我们怎样的惊喜,让我们拭目以待。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
5102 血壮山河之武汉会战 浴血田家镇 10UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源英伟达推出大模型加速包;Meta将训练对标GPT-4的大模型;ChatGPT等成费水大户丨AIGC大事日报开源打败闭源?Meta即将推出开源代码生成平台Code Llama,剑指OpenAI Codex开源打败闭源?Meta 即将推出开源代码生成平台 Code Llama,剑指 OpenAI Codex阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报人手一个编程助手!北大最强代码大模型CodeShell-7B开源,性能霸榜,IDE插件全开源Erklärung zur Zusammenarbeit对Hugging Face开源模型精准投毒!LLM切脑后变身PoisonGPT,用虚假事实洗脑60亿人北大开源代码大模型CodeShell,提供了配套的IDE插件仅 8670 行代码,Linux 内核第一版 (v0.01) 开源代码解读OpenAI将获投10亿美元;微软大模型WizardMath开源;类脑认知智能引擎“智脉”开源ChatGPT最强竞品Claude2来了:代码、GRE成绩超越GPT-4,免费可用讯飞星火:整体超越ChatGPT,医疗超越GPT4!一手实测在此GPT-4写代码不如ChatGPT,误用率高达62%!加州大学两位华人开源代码可靠性基准RobustAPI参数量仅为1/700,性能超越GPT-3.5!CMU+清华开源Prompt2Model框架那是一条神奇的天路 冷明选择GPT-3.5、还是微调Llama 2等开源模型?综合比较后答案有了HashiCorp CEO 预测,除非开源模型发展,否则硅谷将没有开源公司 | Linux 中国《永远的阿诗玛》&《心有独钟》后院日记(一)ChatGPT 最强竞品 Claude2 来了:代码、GRE 成绩超越 GPT-4,免费可用仅8670行代码,Linux内核第一版 (v0.01) 开源代码解读第一个超越ChatGPT的开源模型来了?网友并不买账开源大模型将“杀死”闭源模型?独家采访WizardLM团队,详解WizardCoder/Math超越GPT4/ChatGPT的RLEIF算法ChatGPT上下文碾压64K开源模型!UC伯克利:开源模型能力严重「虚标」|最新硬核评测曝光0代码训练GPT-5?MIT微软证实GPT-4涌现自我纠错能力,智能体循环根据反馈让代码迭代!垂直领域大模型的一些思考及开源模型汇总Linux 内核第一版 (v0.01) 开源代码解读,仅 8670 行代码!完胜GPT-4,秒杀闭源模型!Code Llama神秘版本曝光对标GPT-4代码解释器!港中大让模型写代码解决数学难题,得分超越GPT-42023回国 在上海吃的最浪费的一顿酒席(多图)aiXcoder上新了!聚焦企业适配的代码大模型来了[9月26日]科学历史上的今天——金·赫尔尼(Jean Amédée Hoerni)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。