Redian新闻
>
Stability AI发布Stable Code 3B模型,没有GPU也能本地运行

Stability AI发布Stable Code 3B模型,没有GPU也能本地运行

公众号新闻
机器之心报道
编辑:陈萍、小舟
Stable Code 3B 的性能优于类似大小的代码模型,并且与 CodeLLaMA 7B 的性能相当,尽管其大小只有 CodeLLaMA 7B 的 40%。


在文生图领域大火的 Stability AI,今天宣布了其 2024 年的第一个新 AI 模型:Stable Code 3B。顾名思义,Stable Code 3B 是一个拥有 30 亿参数的模型,专注于辅助代码任务。 


无需专用 GPU 即可在笔记本电脑上本地运行,同时仍可提供与 Meta 的 CodeLLaMA 7B 等大型模型具有竞争力的性能。



2023 年底,Stability AI 便开始推动更小、更紧凑、更强大模型的发展,比如用于文本生成的 StableLM Zephyr 3B 模型。


随着 2024 年的到来,Stability AI 开年便马不停蹄的发布 2024 年第一个大型语言模型 Stable Code 3B,其实这个模型早在去年八月就发布了预览版 Stable Code Alpha 3B,此后 Stability AI 一直在稳步改进该技术。新版的 Stable Code 3B 专为代码补全而设计,具有多种附加功能。


与 CodeLLaMA 7b 相比,Stable Code 3B 大小缩小了 60%,但在编程任务上达到了与前者相媲美的性能。



Stable Code 3B 在 MultiPL-E 基准上实现了 SOTA 性能(与类似大小的模型相比),例如 Stable Code 3B 在 Python、C++、JavaScript、Java、PHP 和 Rust 编程语言上的性能优于 StarCoder。



研究介绍


Stable Code 3B 基于 Stable LM 3B 训练而成,而 Stable LM 3B 训练 token 数达到 4 万亿,更进一步的,Stable Code 使用了软件工程中特定的数据(包括代码)进行训练。

Stable Code 3B 提供了更多的特性,即使跨多种语言也表现良好,还兼具其他优势,比如支持 FIM(Fill in the Middle ,一种新的训练技巧)功能,还能扩展上下文大小。基础 Stable Code 在多达 16,384 个 token 序列上进行训练,遵循与 CodeLlama 类似的方法,即采用旋转嵌入(Rotary Embeddings),这种方法可以选择性的允许修改多达 1,000,000 个旋转基(rotary base),进一步将模型的上下文长度扩展到 100k 个 token。


在模型架构方面,Stable Code 3B 模型是一个纯解码器的 transformer,类似于 LLaMA 架构,并进行了以下修改:



  • 位置嵌入:旋转位置嵌入应用于头嵌入维度的前 25%,以提高吞吐量;

  • Tokenizer:使用 GPTNeoX Tokenizer.NeoX 的修改版本,添加特殊 token 来训练 FIM 功能,例如 < FIM_PREFIX>、<FIM_SUFFIX > 等。


训练


训练数据集


Stable Code 3B 的训练数据集由 HuggingFace Hub 上提供的开源大规模数据集过滤混合组成,包括 Falcon RefinedWeb、CommitPackFT、Github Issues、StarCoder,并进一步用数学领域的数据补充训练。


训练基础设施


  • 硬件:Stable Code 3B 在 Stability AI 集群上使用 256 个 NVIDIA A100 40GB GPU 进行训练。

  • 软件:Stable Code 3B 采用 gpt-neox 的分支,使用 ZeRO-1 在 2D 并行性(数据和张量并行)下进行训练,并依赖 flash-attention、SwiGLU、FlashAttention-2 的旋转嵌入内核。


最后,我们看一下 Stable Code 3B 的性能表现:




关于 Stable Code 3B 更详细的技术报告会在之后发布,大家可以期待一下。


参考链接:https://stability.ai/news/stable-code-2024-llm-code-completion-release?continueFlag=ff896a31a2a10ab7986ed14bb65d25ea




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
超级好用的Python模块——glob模块Stability AI发布全新代码模型Stable Code 3B!媲美70亿Code Llama,没GPU也能跑新MacBook Air或明年春季推出/Google发布Gemini大模型,多领域超越GPT-4/微软Copilot重磅升级AutoDev Coder 6.7B 代码微调模型(v1 试验版)AI换脸,没有GPU一样能行,今晚搞定!|直播预告国产CPU里程碑!龙芯最强处理器、自研GPGPU来了,披露Tock“三剑客”讯飞星火V3.5整体接近GPT-4 Turbo!首个13B开源大模型发布,深度适配国产算力清华系2B模型杀出,性能吊打LLaMA-13B,170万tokens仅需1块钱!Has the ‘Double Eleven’ Shopping Festival Lost its Luster?AMD推出锐龙8040系列APU,采用Zen4 CPU+RDNA3 GPU没有GPU也能搞的方向!新的AI模型,将GPU用量降低100倍一份遗书,四个人背诵转达单GPU运行数千大模型!UC伯克利提出全新微调方法S-LoRA国产「GPTs」上线!全面对标 OpenAI 的智谱发布大模型,性能逼近 GPT-4消息称三星 Galaxy Book 4 系列笔记本 12 月 15 日发布,有望支持本地运行高斯 AI 大模型System76 升级 Serval WS Linux 移动工作站:最高 i9-14900HX CPU+RTX 4070 GPU颠覆认知,听书名就想读到底的书!如果没有海洋,没有地球,没有太阳~直逼GPT-4开源模型大泄漏,AI社区炸锅!Mistral CEO自曝是旧模型,OpenAI再败一局?AI早知道|Stability AI推出最小模型;国内首个视频大模型通过备案;内蒙古首个AI大模型工业互联网平台发布快消外企社招 | Lagardère拉格代尔,世界三大旅行零售商之一,百年外企,平均月薪17.2k,0经验可投,留学生有优势AI早知道|ChatGPT模型大更新;阿里云发布多模态大模型;百度推多模态模型UNIMO-G超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能《幸福永相随》&《数羊》参数量13B模型全方位碾压GPT-4?这背后有什么猫腻三种8卡GPU评测Llama2:解密大模型训练、微调和推理运行时的性能问题【买房】Watertown沃特敦 | 多家庭别墅 | 3b3b | 1,634 sqft | 标价97.5W红色日记 学农基地 4.21-30浙大发布Agent学习框架,13B 模型达到 ChatGPT 水平!LeCun转发!大连理工卢湖川、贾旭团队提出可插入图像/视频/3D生成的StableIdentity【周末综艺会10期】— 面食City Slickers: How Shanghai Is Outfoxing Its Raccoon Dog Problem将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B相聚多伦多(二十四) 美丽中国年ConvNet与Transformer谁更强?Meta评测4个领先视觉模型,LeCun转赞
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。