Redian新闻
>
支持80+编程语言!集成VSCode,HuggingFace代码大模型来了

支持80+编程语言!集成VSCode,HuggingFace代码大模型来了

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Transformer】微信技术交流群

转载自:机器心 | 编辑:杜伟、马梓文

程序员们又有了一款 AI 代码生成工具。


随着近年来大模型的火热,出现了很多效果惊艳的语言大模型、视觉大模型和多模态大模型。与此同时,大模型范畴还在不断向更多垂直领域拓展,代码就是一个重要方向。


2022 年 9 月,HuggingFace 与 ServiceNow Research 联合发起了一个全新的代码大模型项目 BigCode,旨在围绕 AI 代码生成工具建立一个开放社区并开发大语言模型代码。


昨日 BigCoder 宣布推出 155 亿参数开源代码大模型 StarCoder 和 StarCoderBase,它们具有 8k token 的上下文,在 80 多种编程语言的数据上进行训练。StarCoder 在 HumanEval 基准测试中的一次通过率达到了 40.8%,可以充当技术助手。相关论文的作者有 68 位。


  • 试用地址:https://t.co/4XJ0tn4K1m

  • 论文地址:https://drive.google.com/file/d/1cN-b9GnWtHzQRoE7M7gAEyivY0kl4BYs/view


StarCoder 不仅可以用来聊天,还能帮助用户集成最新 VSCode 插件进行编码。你还能检查当前代码是否在预训练数据集中(按下 CTRL+ESC 即可)。


StarCoder 在 JupyterNotebooks 上训练,并且使用推特用户 @JiaLi52524397 提供的 Jupyter 插件,它可以利用以前的代码、markdown 单元格和输出来预测下一个单元格。


英伟达人工智能科学家 Jim Fan 对此表示,「编码的 LLaMA 时刻来了!开源 LLM 社区正以超人的速度前进。」


代码大模型 StarCoder 和 StarCoderBase


整体而言,StarCoder 和 StarCoderBase 是在 GitHub 的许可数据上训练的大型代码语言模型(Code LLMs),数据源包括 80 多种编程语言、Git commits、GitHub issues 和 Jupyter notebooks。


与 LLaMA 类似,项目团队首先使用来自 The Stack(具有检查工具和 opt-out 流程的许可 GitHub 库集合)上的 1 万亿个 token 训练了 StarCoderBase。然后在 350 亿个 Python token 上对 StarCoderBase 进行微调,形成了一个新模型 StarCoder。


下表 1 和 2 分别为 StarCoder 的训练数据。


研究发现,StarCoderBase 在流行编程基准上优于现有开源代码 LLM,并媲美或超越了一些封闭模型,如 OpenAI 最初的 Codex 模型。


StarCoder 模型上下文长度超过 8000 个 token,可以比其他任何开放 LLM 处理更多的输入,从而实现大量有趣的应用。例如,通过向 StarCoder 模型提示一系列的对话,可以使它们充当技术助手。此外 StarCoder 模型还可以用来自动完成代码,通过指令对代码进行修改,并以自然语言解释一个代码片段。


下表 11 为 StarCoder 的模型架构。


基准评估


项目团队全面评估了 StarCoder、几个类似的模型以及各种基准,其中包括流行的 Python 基准 HumanEval(用来测试模型是否可以根据签名和文件串补全函数)。


结果发现,StarCoder 和 StarCoderBase 的表现都超过了一些最大的模型,包括了 PaLM、LaMDA 和 LLaMA。这两个模型的表现也超过了 CodeGen-16B-Mono 和 OpenAI 的 code-cushman-001(12B)模型。


项目团队还发现了模型的一个失败用例即产生代码,这可能是因为这种类型的代码通常是练习的一部分。为了让模型生成实际的解决方案,项目团队选择添加了一个 prompt ,创建了 StarCoder-Prompted 模型,使得 HumanEval 的通过率从 34% 大幅提高到 40% 以上。


StarCoder 的一个有趣的方面是支持多语言。项目团队在 MultiPL-E 上对它进行了评估,并观察到 StarCoder 在许多语言上的表现都有过之而无不及。


另外在一个名为 DS-1000 的数据科学基准上,StarCoder 模型明显击败了绝大多数其他开放模型。



更多技术及评估细节请参阅原论文。


参考链接:https://twitter.com/BigCodeProject/status/1654174941976068119

点击进入—>【Transformer】微信技术交流群


最新CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群

CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
JARVIS项目原作解读:连接ChatGPT和HuggingFace解决AI问题常识和生活中的经济学碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace 为它吵了起来复旦MOSS大模型开源了!Github和Hugging Face同时上线阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl微档--师昌绪美国入境档案直连Colab,支持20种编程语言:谷歌版ChatGPT代码水平反杀了?百度推出AI编程助手 "Comate":覆盖30多种编程语言集成GPT-4的编程神器来了,GitHub发布Copilot X:编程30年,突然就不需要手敲代码了?!超越所有开源模型,击败 Claude、Bard,专门用于编程任务的大模型来了日本女性的不婚(二)它就是比尔盖茨和 Linux 之父同时推崇的编程语言!ChatGPT自己会选模型了!微软亚研院+浙大爆火新论文,HuggingGPT项目已开源比Python快35000倍!LLVM&Swift之父宣布全新编程语言Mojo:编程被颠覆了硬核观察 #993 Hugging Face 发布免费的代码生成 AI40岁蒋欣同框41岁孙俪,差一岁像隔辈!一个风姿卓越一个老气横秋炫到爆炸!HuggingGPT在线演示惊艳亮相,网友亲测图像生成绝了HuggingChat叫板ChatGPT!300亿参数大模型免费用,网友:真香让ChatGPT调用10万+开源AI模型!HuggingFace新功能爆火:大模型可随取随用多模态AI工具彻底反转:号称「碾压」LLaMA的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPTHuggingface榜首开源模型惹争议:魔改Apache协议,达到一定门槛要收钱对标ChatGPT,Hugging Face推出开源聊天机器人HuggingChat对标ChatGPT!Hugging Face推出开源聊天机器人HuggingChat今晚截团!全球超过3200万孩子都在玩的编程游戏,用“闯关”教真实的编程语言ChatGPT自己会选模型了!浙大和微软提出:HuggingGPT用ChatGPT「指挥」数百个模型,HuggingGPT让专业模型干专业事支持80+编程语言、集成VSCode,HuggingFace代码大模型来了又一国产大模型来了,超对称联合复旦大学发布 120 亿参数语言模型 BBT-2, 已开源百度智能云推出代码助手 Comate,覆盖 30 种编程语言,正式开放邀测美国入境档案--吴大昌比HuggingFace快24倍!伯克利神级LLM推理系统开源,碾压SOTA,让GPU砍半多编程语言代码生成神器 CodeGeeX,编码效率提升十倍!不对齐,反而性能爆表?130亿模型碾压650亿,Hugging Face大模型排行榜发布全球超过3200万孩子都在玩的编程游戏,用“闯关”教真实的编程语言
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。