Redian新闻
>
Stable家族上新!全新编码工具StableCode,16000上下文,5个Python文件同编辑

Stable家族上新!全新编码工具StableCode,16000上下文,5个Python文件同编辑

公众号新闻



yu  新智元报道  

编辑:桃子
【新智元导读】「Stable」家族又上新了!全新编码工具StableCode,最大支持16000上下文。

继文生图Stable Diffusion、SDXL1.0、语言模型StableLM之后,独角兽Stability AI又放大招了。

刚刚,Stability AI宣布推出,首个用于编码的生成式AI产品——StableCode。

StableCode提供了三种不同模型:通用基本模型、指令模型,已经支持多达16,000个token的长上下文窗口模型。

目前,它能够支持Python、Go、Java、JavaScript、C、markdown和C++编程语言的开发。

建在BigCode之上


具体来讲,StableCode通过使用3种不同的模型,来帮助程序员们编码,从而提高效率。

我们都知道,训练任何大模型都依赖于数据,对于StableCode,这些数据来自BigCode项目。

其实,使用BigCode作为LLM生成AI代码工具的基础并不是一个新想法。

5月,HuggingFace和ServiceNow早就推出了向公众开放的StarCoder LLM,它就是基于BigCode打造的。

基础模型首先在BigCode的堆栈数据集(v1.2)中的各种编程语言上进行训练。

Stability AI的首席研究科学家Nathan Cooper在采访中表示,StableCode的训练涉及对BigCode数据的重要过滤和清理。

然后,再使用Python、Go、Java、Javascript、C、markdown和C++等流行语言上进行进一步训练。

总的来说,Stability AI在HPC集群中560亿的token上训练了模型。

基础模型训练完成后,指令模型针对特定用例进行调整,以帮助解决复杂的编程任务。

大约120,000个以Alpaca格式的代码指令/响应对在基础模型上进行了训练。

使用StableCode Instruct生成对给定指令的响应代码

16000上下文,5个Python文件同编辑


StableCode 是那些希望学习更多编码知识的人的理想构件,而更长上下文窗口模型则是确保为开发者提供单行和多行自动完成建议的完美助手。

该模型可同时处理更多代码(比之前发布的上下文窗口为16,000个token的开放模型多2-4 倍)。

这样,开发者们可以同时查看或编辑相当于5个平均大小的Python文件。

Cooper解释说,更长的上下文可以使用更专业和复杂的代码生成提示。这也意味着开发者们可以让StableCode查看包含多个文件的中型代码库,以帮助理解和生成新代码。

StableCode使用Pytorch深度学习库完成一个相对复杂的python文件(灰色文本显示StableCode的预测)

与所有现代生成AI模型一样,StableCode也是基于Transformer架构。

StableCode没有使用ALiBi方法来定位Transformer模型中的输出,而是使用了一种称为旋转位置嵌入(RoPE)的方法。

Cooper说,Transformer模型中的ALiBi方法倾向于更重视当前token,而不是过去的token。

在Stability AI看来,这不是代码的理想方法,因为与自然语言不同,代码没有一个带有开头、中间和结尾的固定叙述结构。

代码函数可以为应用程序流程中的任何点定义。

那么,StableCode与其他模型相比,效果如何?

Stability AI将其与有相似的参数和训练的token数量的模型进行了比较。其中,使用流行的HumanEval基准,采用标准的pass@1和pass@10指标。

StableCode的基准分数

与类似大小(3B)模型的比较

30亿参数StableCode


StableCode-Instruct-Alpha-3B是一个30亿参数的纯解码器指调优的代码模型,预先在不同的编程语言集上进行了训练。

用法

该模型旨在按照指令生成代码。用于训练模型的数据集以Alpaca格式化。使用以下代码片段开始使用 StableCode-Instruct-Alpha-3B 生成代码:

from transformers import AutoModelForCausalLM, AutoTokenizertokenizer = AutoTokenizer.from_pretrained("stabilityai/stablecode-instruct-alpha-3b")model = AutoModelForCausalLM.from_pretrained(  "stabilityai/stablecode-instruct-alpha-3b",  trust_remote_code=True,  torch_dtype="auto",)model.cuda()inputs = tokenizer("###Instruction\nGenerate a python function to find number of CPU cores###Response\n", return_tensors="pt").to("cuda")tokens = model.generate(  **inputs,  max_new_tokens=48,  temperature=0.2,  do_sample=True,)print(tokenizer.decode(tokens[0], skip_special_tokens=True))

模型详情

- 开发者:Stability AI

- 模型类型:StableCode-Instruct-Alpha-3B 模型是基于Transformer解码器架构的自回归语言模型。

模型架构

训练

StableCode-Instruct-Alpha-3B是带有代码指令数据集的StableCode-Completion-Alpha-3B上的指令微调版本。


参考资料:

https://stability.ai/blog/stablecode-llm-generative-ai-coding



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
国产130亿参数大模型免费商用!性能超Llama2-13B,支持8k上下文,哈工大已用上Python 命令补全工具 argcomplete构建大模型生态基础设施,你选 Python + Docker 还是 Rust + WebAssembly?| QConnǚ hóng?nǚ gōng狐狸精和伪善女Swift之父再创新编程语言,不会取代Python,该担心的是C++!Python那些优质可视化工具!5090 血壮山河之武汉会战 黄广战役 22比 GitHub Copilot 更强大?Meta 开源 AI 编码工具,能跨多语言补全和调试代码LPython:最新的高性能Python实现、速度极快且支持多后端将上下文长度扩展到256k,无限上下文版本的LongLLaMA来了?下载量超300w的ChatGLM-6B再升级:8-32k上下文,推理提速42%比 Python 快 3.5 万倍的 Mojo 融资七亿,LLVM之父:不会威胁到 Python,该恐惧的应该是 C++一些 Python 代码加速工具!比Python快68000倍!Mojo正式发布,网友:Python生态系统最重要的升级来了详解Python文件: .py、.ipynb、.pyi、.pyc、​.pyd !VS Code内置JS减小20%;Python团队官宣下线GIL;Chrome替代品1.0发布;Twitter改名X | 周热点从挖呀挖的大妈被抓谈私人权利免费试听|全面掌握Python, SQL等数据分析语言、工具和拓展包,高效斩获心仪offer!无限量访问GPT-4!ChatGPT企业版来了,可扩展32k上下文,代码解释器随便用Python 吞噬世界,GPT 吞噬 Python!ChatGPT 上线最强应用:分析数据、生成代码都精通比Python快3.5万倍的Mojo融资7亿,LLVM之父:不会威胁到Python,该恐惧的应该是C++数据分析|全面掌握Python, SQL等数据分析语言、工具和拓展包,高效斩获心仪offer!上下文1.6万token的编程大模型来了!与Stable Diffusion出自同门,一次吃5个Python文件不费劲紫花遍地毳球枝如何管理有近 3 万个文件的超大型 Python 代码仓?OpenAI重磅更新,又变强了!API有了恐怖的函数调用能力,能处理更长上下文,价格还又降了75%!Python 吞噬世界,GPT 吞噬 Python!ChatGPT 上线最强应用Excel最新版官方支持Python,打工人的工具又强化了Python吞噬世界,GPT吞噬Python!ChatGPT 上线最强应用:分析数据、生成代码都精通给AI生成图像「加水印」,谷歌发布识别工具SynthID逼近GPT-4,AI编程要革命!Meta开源史上最强代码工具Code LlamaLPython:最新的高性能 Python 实现、速度极快且支持多后端GPT-4最强平替更新!UC伯克利发布Vicuna v1.5,支持4K和16K上下文,刷新SOTA,LeCun转赞《听海》&《你就不要想起我》
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。