Redian新闻
>
发布一天,Code Llama代码能力突飞猛进,微调版HumanEval得分超GPT-4

发布一天,Code Llama代码能力突飞猛进,微调版HumanEval得分超GPT-4

科技
机器之心报道
编辑:陈萍
昨天的我:在代码生成方面开源 LLM 将在几个月内击败 GPT-4 。现在的我:实际上是今天。


昨天,Meta 开源专攻代码生成的基础模型 Code Llama,可免费用于研究以及商用目的。
Code Llama 系列模型有三个参数版本,参数量分别为 7B、13B 和 34B。并且支持多种编程语言,包括 Python、C++、Java、PHP、Typescript (Javascript)、C# 和 Bash。
Meta 提供的 Code Llama 版本包括:
  • Code Llama,基础代码模型;

  • Code Llama-Python,Python 微调版;

  • Code Llama-Instruct,自然语言指令微调版。


就其效果来说,Code Llama 的不同版本在 HumanEval 和 MBPP 数据集上的一次生成通过率(pass@1)都超越 GPT-3.5。
此外,Code Llama 的「Unnatural」34B 版本在 HumanEval 数据集上的 pass@1 接近了 GPT-4(62.2% vs 67.0%)。不过 Meta 没有发布这个版本,但通过一小部分高质量编码数据的训练实现了明显的效果改进。

图源:https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/

一天刚过,就有研究者向 GPT-4 发起了挑战。他们来自 Phind(一个组织,旨在构造一款为开发人员而生的AI 搜索引擎),该研究用微调的 Code Llama-34B 在 HumanEval 评估中击败了 GPT-4
Phind 联合创始人 Michael Royzen 表示:「这只是一个早期实验,旨在重现(并超越)Meta 论文中的「Unnatural Code Llama」结果。将来,我们将拥有不同 CodeLlama 模型的专家组合,我认为这些模型在现实世界的工作流程中将具有竞争力。」

两个模型均已开源:

研究者在 Huggingface 上发布了这两个模型,大家可以前去查看。
  • Phind-CodeLlama-34B-v1:https://huggingface.co/Phind/Phind-CodeLlama-34B-v1
  • Phind-CodeLlama-34B-Python-v1:https://huggingface.co/Phind/Phind-CodeLlama-34B-Python-v1


接下来我们看看这项研究是如何实现的。
微调 Code Llama-34B 击败 GPT-4
我们先看结果。这项研究用 Phind 内部数据集对 Code Llama-34B 和 Code Llama-34B-Python 进行了微调,分别得到两个模型 Phind-CodeLlama-34B-v1 以及 Phind-CodeLlama-34B-Python-v1。
新得到的两个模型在 HumanEval 上分别实现了 67.6% 和 69.5% pass@1。
作为比较,CodeLlama-34B pass@1 为 48.8%;CodeLlama-34B-Python pass@1 为 53.7%。
而 GPT-4 在 HumanEval 上 pass@1 为 67%(OpenAI 在今年 3 月份发布的「GPT-4 Technical Report」中公布的数据)。

图源:https://ai.meta.com/blog/code-llama-large-language-model-coding/


图源:https://cdn.openai.com/papers/gpt-4.pdf

谈到微调,自然少不了数据集,该研究在包含约 8 万个高质量编程问题和解决方案的专有数据集上对 Code Llama-34B 和 Code Llama-34B-Python 进行了微调。
该数据集没有采用代码补全示例,而是采用指令 - 答案对,这与 HumanEval 数据结构不同。之后该研究对 Phind 模型进行了两个 epoch 的训练,总共有约 16 万个示例。研究者表示,训练中没有使用 LoRA 技术,而是采用了本地微调。
此外,该研究还采用了 DeepSpeed ZeRO 3 和 Flash Attention 2 技术,他们在 32 个 A100-80GB GPU 上、耗时三个小时,训练完这些模型,序列长度为 4096 个 token。
此外,该研究还将 OpenAI 的去污染(decontamination)方法应用于数据集,使模型结果更加有效。
众所周知,即便是非常强大的 GPT-4,也会面临数据污染的困境,通俗一点的讲就是训练好的模型可能已经接受评估数据的训练。
这个问题对 LLM 非常棘手,举例来说,在评估一个模型性能的过程中,为了进行科学可信的评估,研究者必须检查用于评估的问题是否在模型的训练数据中。如果是的话,模型就可以记住这些问题,在评估模型时,显然会在这些特定问题上表现更好。
这就像一个人在考试之前就已经知道了考试问题。
为了解决这个问题,OpenAI 在公开的 GPT-4 技术文档《 GPT-4 Technical Report 》中披露了有关 GPT-4 是如何评估数据污染的。他们公开了量化和评估这种数据污染的策略。
具体而言,OpenAI 使用子串匹配来测量评估数据集和预训练数据之间的交叉污染。评估和训练数据都是通过删除所有空格和符号,只保留字符(包括数字)来处理的。
对于每个评估示例,OpenAI 随机选择三个 50 个字符的子字符串(如果少于 50 个字符,则使用整个示例)。如果三个采样的评估子字符串中的任何一个是处理后的训练样例的子字符串,则确定匹配。
这将产生一个受污染示例的列表,OpenAI 丢弃这些并重新运行以获得未受污染的分数。但这种过滤方法有一些局限性,子串匹配可能导致假阴性(如果评估和训练数据之间有微小差异)以及假阳性。因而,OpenAI 只使用评估示例中的部分信息,只利用问题、上下文或等效数据,而忽略答案、回应或等效数据。在某些情况下,多项选择选项也被排除在外。这些排除可能导致假阳性增加。 
关于这部分内容,感兴趣的读者可以参考论文了解更多。
论文地址:https://cdn.openai.com/papers/gpt-4.pdf
不过,Phind 在对标 GPT-4 时使用的 HumanEval 分数存在一些争议。有人说,GPT-4 的最新测评分数已经达到了 85%。但 Phind 回复说,得出这个分数的相关研究并没有进行污染方面的研究,无法确定 GPT-4 在接受新一轮测试时是否看到过 HumanEval 的测试数据。再考虑到最近一些有关「GPT-4 变笨」的研究,所以用原始技术报告中的数据更为稳妥。

不过,考虑到大模型评测的复杂性,这些测评结果能否反映模型的真实能力依然是一个有争议的问题。大家可以下载模型后自行体验。

参考链接:

https://benjaminmarie.com/the-decontaminated-evaluation-of-gpt-4/

https://www.phind.com/blog/code-llama-beats-gpt4



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
数学能力超ChatGPT,70B开源大模型火了:用AI微调AI,微软全华班出品【2023 Bellevue Neighborhood Walks】邻居们,一起和市执行长在Bellevue的街上走一走给予老父临终关怀离家出走的男人们和他们的女人Google 下一款 ChatGPT 竞品曝光:投入或超GPT-4,AlphaGo 成秘密武器机器人研究迎来ImageNet时刻:一个数据集,让DeepMind具身智能大模型突飞猛进台湾剧《造浪者》江淮汽车进击智能化:业绩高歌猛进,业务四处开花0代码训练GPT-5?MIT微软证实GPT-4涌现自我纠错能力,智能体循环根据反馈让代码迭代!研究实锤GPT-4真变笨了:3个月内数学能力雪崩式下降,代码能力也变差0.2美元微调就能让ChatGPT彻底破防!普林斯顿、斯坦福发布LLM风险预警:普通用户微调也影响LLM安全性当 GPT 遇到低代码:低代码平台 AIGC 开发落地实战 | ArchSummit 热门演讲实录讯飞星火V2.0突破代码能力,一个指令生成贪吃蛇游戏,10分钟开发“凌空手写”GPT-4写代码不如ChatGPT,误用率高达62%!加州大学两位华人开源代码可靠性基准RobustAPI第四章 三民主义救中国 (1)雨夜賞燈記ChatGPT代码解释器与Jupyter Notebook合体,编码能力更强了𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶内衣裤,软弹有度,上身0束缚~code review 和同事吵架,老板说我态度有问题看完这三部记录片,孩子的成绩突飞猛进微软发布 166 页 GPT-4V 测评报告,ChatGPT 的高阶用法都在这|Hunt Good 周报对标GPT-4代码解释器!港中大让模型写代码解决数学难题,得分超越GPT-4斯坦福NLP提出EFT:如何不实际微调而“假装”微调了LLM?大模型写代码能力突飞猛进,北大团队提出结构化思维链SCoT股市高歌猛进,经济学家能否继续“看衰”美国经济开源打败闭源?Meta 即将推出开源代码生成平台 Code Llama,剑指 OpenAI Codex逼近GPT-4,AI编程要革命!Meta开源史上最强代码工具Code LlamaErklärung zur Zusammenarbeit[9月26日]科学历史上的今天——金·赫尔尼(Jean Amédée Hoerni)只有GPT-4可以自我改进,GPT-3.5都不行,MIT&微软代码生成实验新发现GPT-5 秘密训练曝光!ChatGPT 将再次迎来重磅升级?|Hunt Good 周报Stability AI火速发布Llama 2微调模型FreeWilly,性能媲美ChatGPT!网友惊呼游戏规则已改变「苹果 GPT」首次曝光/百度称文心大模型3.5能力已超GPT-3.5/《奥本海默》确定引进开源打败闭源?Meta即将推出开源代码生成平台Code Llama,剑指OpenAI Codex1300亿参数,国内首个数学大模型MathGPT上线!多项基准赶超GPT-4Llama2 7B中文魔改PK:「雅意」百万指令集微调 VS「伶荔」扩词+增量预训练+指令微调
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。