Redian新闻
>
Stability AI发布全新代码模型Stable Code 3B!媲美70亿Code Llama,没GPU也能跑

Stability AI发布全新代码模型Stable Code 3B!媲美70亿Code Llama,没GPU也能跑

公众号新闻



  新智元报道  

编辑:润 alan
【新智元导读】今天,Stability AI发布了Stable Code 3B,在图片生成之外的战场上,Stability也开始发力了

今天,Stability AI发布了自家在2024年的第一个模型——Stable Code 3B。

顾名思义,Stable Code 3B专注于代码能力,实际的表现也是非常亮眼。

在仅仅3B参数的规模之下,达到了比肩Code Llama 7B的效果。

相较于Code Llama 7B,Stable Code 3B的体积减少了60%,但在多种编程语言上保持了相当的水准,在Python和C++的代码补全中甚至反超了Code Llama 7B。

另外,由于模型仅有3B大小,Stable Code 3B可以在MacBook Air等普通笔记本电脑上实时运行,甚至没有独立GPU也可以!

有网友将Stable Code 3B称为Copilot的离线替代品,并希望能在VS Code上使用它。

4个小时后,有网友发推表示自己在VS Code上更新了LLama Coder插件,可以支持最新的Stable Code 3B模型。

「它非常好!它很小,这意味着它可以在任何硬件上运行,并且运行速度非常快。」

插件地址:https://t.co/Mn7onaDpge

虽然模型名义上叫做Stable Code 3B,但其实是一个2.7B 参数的纯解码器语言模型。

除了模型比较轻量之外,Stable Code 3B还支持高达100K的上下文大小,可以更方便、更精确地辅助编码。

另外,模型参考了2023年StackOverflow开发者调查中,最受欢迎的18种编程语言,针对这18种语言进行了训练,提供了同等规模模型中最优秀的性能。

  • C
  • CPP
  • Java
  • JavaScript
  • CSS
  • Go
  • HTML
  • Ruby
  • Rust
  • Markdown
  • Shell
  • Php
  • Sql
  • R
  • Typescript
  • Python
  • Jupyter-Clean
  • RestructuredText
在与同量级的竞品模型的比较中,Stable Code 3B也几乎拿到了最好的成绩。
目前,Stable Code 3B已经加入了Stability AI的会员大礼包中,只要不涉及商用,用户都可以免费使用。

Stable Code 3B

Stability AI从2023年底开始推出更小尺寸、但功能强大的模型,包括StableLM Zephyr 3B等用于文本生成的模型。

Stable Code 3B的前代是Stability AI在8月份发布的Stable Code Alpha 3B。
Stable Code Alpha 3B使用来自BigCode的堆栈数据集(v1.2)来训练基础模型,并使用Python、Go、Java、Javascript、C、Markdown和C++等流行语言进一步训练(共560B代码token)。
建立基础模型后,开发人员针对特定用例对指令模型进行了调整,使用大约120000个Alpaca格式的代码指令/响应来训练模型,以提升解决复杂编程任务的能力。
上图展示了Stable Code Alpha利用Pytorch库完成一个相对复杂的python文件,灰色部分为Stable Code的预测。

参数细节:100K上下文,支持FIM

Stable Code 3B 在256个英伟达A100 40GB GPU(AWS P4d实例)的集群上进行训练,
使用ZeRO-1的数据并行和张量并行,并依赖FlashAttention以及FlashAttention-2的SwiGLU和Rotary Embedding内核。
模型的训练流程由类似于Code Llama的多阶段过程。
第一步,以使用自然语言数据预训练的StableLM-3B-4e1t为基础(使用4万亿个token训练),对多个代码和代码相关数据集进行无监督微调,包括 CommitPack、GitHub Issues、StarCoder和其他数学数据集。
模型在上述数据集上使用bfloat16进行了精确预训练,并使用AdamW进行了优化。
第二步,使用16384个token的更长序列进一步微调模型,同时与Code Llama类似,使用一种称为旋转位置嵌入(RoPE)的技术进行优化,使上下文大小扩展到了100k个token。
另外,新的Stable Code 3B模型还支持Flash Attention 2。
作为改进版本,Stable Code 3B不仅可以建议新的代码行,还可以填补现有代码中较大的缺失部分——称为中间填充功能(FIM)。
Stable Code 3B的模型架构如下表所示:
旋转位置嵌入应用于前25%的head embedding,以提高模型的吞吐量;
使用GPTNeoX Tokenizer的修改版本——NeoX,并添加特殊token来训练中间填充功能,比如<FIM_PREFIX>、<FIM_SUFFIX>和其他特殊token。
在使用BigCode的评估工具测试的多种编程语言的MultiPL-E指标上,Stable Code 3B展示了最先进的性能。
上表中,Stable Code 3B与同等规模的编码模型进行比较,在全部的六种编程语言中,都处于领先。
而相比于体积大2倍多的Code Llama 7B,Stable Code 3B也拿到了3项胜利。
Stability表示将发布一份完整的技术报告,包含更多细节和消融实验等。

代码生成之战

目前,AI代码生成工具的市场竞争非常激烈,70亿参数的来自Meta的Code Llama 7B被广大开发者所使用。
而在30亿参数这个量级,StarCoder LLM(由 IBM、HuggingFace和ServiceNow共同开发的开源项目)广受欢迎。
从测试成绩上来看,Stability AI的这个模型要优于StarCoder,不知道Stable Code 3B会给Stability和市场带来怎样的变化。
参考资料:
https://stability.ai/news/stable-code-2024-llm-code-completion-release
https://huggingface.co/stabilityai/stable-code-3b



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
潮流 | Loewe 发布秋冬男装系列;《沙丘 2 》发布全新预告特辑LeCun转发!大连理工卢湖川、贾旭团队提出可插入图像/视频/3D生成的StableIdentityAI早知道|Stability AI推出最小模型;国内首个视频大模型通过备案;内蒙古首个AI大模型工业互联网平台发布ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3【开眼】安省华人晒监狱生活:牢房内部震惊网友!媲美五星级酒店+包食宿苹果大模型最大动作:开源M芯专用ML框架,能跑70亿大模型硅谷恐慌:Open AI发布全新视频模型Sora!现实,不存在了美中关系谈不上对等Stability AI发布Stable Code 3B模型,没有GPU也能本地运行Stability AI开年首个大模型:专写代码,支持18种编程语言,上下文100K,苹果笔记本离线就能跑重磅!被开除的6000亿CEO,杀回来了哀国之诗的比较112页报告深挖GPT-4V!UCLA等发布全新「多模态数学推理」基准MathVista厉害国有资本, 才能任性LLM会写代码≠推理+规划!AAAI主席揭秘:代码数据质量太高|LeCun力赞将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B炸裂 ¦ 加拿大华人囚犯晒监狱生活:牢房内部震惊网友!媲美五星级酒店+包食宿!39 项 Linux 基准测试:英伟达数据中心 CPU Grace 媲美 Threadripper 7000突发!惨遭开除的6000亿CEO,刚刚再就业ICLR 2024 | 媲美DALLE-3!基座模型LaVIT刷榜多模态理解与生成任务AMD推出锐龙8040系列APU,采用Zen4 CPU+RDNA3 GPUAutoDev Coder 6.7B 代码微调模型(v1 试验版)AI早知道|阿里推新项目MotionShop;Stability AI发布代码模型;Win11新增AI生成图像功能没有GPU也能搞的方向!快消外企社招 | Lagardère拉格代尔,世界三大旅行零售商之一,百年外企,平均月薪17.2k,0经验可投,留学生有优势炸裂!华人晒监狱生活:牢房内部震惊网友!媲美酒店+包食宿!纪念净空老法师【Allston全新别墅式公寓 4b3b】【室内烘洗,人均只要$1550!!】联合语言和视觉的力量,复旦团队发布全新多专家融合视觉-语言大模型相聚多伦多(二十四) 美丽中国年System76 升级 Serval WS Linux 移动工作站:最高 i9-14900HX CPU+RTX 4070 GPU清华系2B模型杀出,性能吊打LLaMA-13B,170万tokens仅需1块钱!System76 升级 Serval WS Linux 移动工作站,最高 i9-14900HX CPU+RTX 4070 GPU720亿参数大模型都拿来开源了!通义千问开源全家桶,最小18亿模型端侧都能跑AI也造代码屎山!研究发现GitHub Copilot代码可维护性差,偏爱“无脑重写”而非重构复用已有代码
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。