Redian新闻
>
上下文1.6万token的编程大模型来了!与Stable Diffusion出自同门,一次吃5个Python文件不费劲

上下文1.6万token的编程大模型来了!与Stable Diffusion出自同门,一次吃5个Python文件不费劲

公众号新闻
西风 发自 凹非寺
量子位 | 公众号 QbitAI

一个Stable Diffusion还不够!Stability AI再放杀手锏,进击代码生成领域:

推出了一款自称具有革命性的编码工具StableCode

敲重点的是,StableCode不仅支持Python、Go、Java、JavaScript、C、Markdown、C++等多种编程语言。

还直接把上下文长度拉到16000个token

好家伙,网友直呼疯批:

这波还直接戳中网友痛点:

我们真的很需要一个能够将整个代码库塞进上下文的工具。

上下文窗口16000token

官网显示,StableCode模型具有30亿参数,将提供基础模型、指令模型、长上下文窗口模型三种不同的模型,帮助开发人员编码。

StableCode在HPC(高性能计算)集群上,使用5600亿代码token的编程语言数据集starcoder-data对基础模型进行了训练。

StarCoder是HuggingFace和ServiceNow合作成立的开放科学合作组织BigCode于五月份开源的针对代码的大模型。

Stability AI首席研究科学家Nathan Cooper对VentureBeat表示:

我们非常喜欢BigCode,因为他们在数据治理、模型治理和模型训练方面做了惊人的工作,我们用了他们的数据集,并对其进行了额外的过滤和清理,同时也用在了构建长上下文窗口的模型,在我们的集群上进行了训练。

对于复杂的编程任务,StableCode则针对特定用例进行了指令调优。

在基础模型的基础上,用约120000个Alpaca格式的“代码指令-回答”对训练了指令模型。

StableCode指令生成对给定指令响应的代码。

此外,为了满足用户对上下文窗口长度的需求,StableCode的长上下文窗口模型直接将上下文窗口拉长至16000个token,是此前开源模型的2-4倍

与类似大小的模型(3B)进行的 HumanEval 基准比较。

不仅为用户提供了可单行、多行自动完成建议的工具,还允许用户同时查看编辑相当于五个中等大小的Python文件,允许更专业复杂的代码生成prompt。

下面是一个StableCode利用Pytorch深度学习库完成一个相对复杂的Python文件展示(灰色文本显示了StableCode的预测)。

使用了RoPE的方法

此外,StableCode也是用到了Transformer架构,不同于StarCoder用ALiBi(线性偏差的注意力)的方法定位模型输出,StableCode则是使用了RoPE(旋转位置嵌入)的方法。

Cooper表示:

在Transformer模型中,ALiBi方法倾向于更加重视当前的token,而不是过去的token。这对于代码生成来说不是一个理想的方法,因为代码没有固定的叙述结构,没有明确的开始、中间和结束。代码的功能可以在应用流程的任何点被定义。所以我们使用RoPE,它没有这种偏见。

StableCode目前还处于早期阶段,初始发布的目标是观察开发者如何接受和使用这个模型。

我们将与社区进行互动合作,看看他们会提出哪些有趣的方向,并针对开发者领域进行生成式探索 。

研究主管Christian Laforte也浅聊了StableCode的目标:

与Stable Diffusion帮助世界上任何人成为艺术家类似,我们希望StableCode模型能让任何有好点子但却遇到问题的人,能够编写一个解决问题的程序。

看到Stability AI再放大招的这波操作,有网友在去测试Github Copilot的路上来了个掉头:

还有网友希望“预定”下一次动作:

真的很想看Stability AI在文本转语音方面,做些类似谷歌SoundStorm(声音风暴)的事啊。

此外,StableCode目前已经开源啦!

参考链接:
[1]https://venturebeat.com/programming-development/stability-ai-launches-stablecode-an-llm-for-code-generation/
[2]https://twitter.com/StabilityAI/status/1688931312122675200

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「广告营销」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
将上下文长度扩展到256k,无限上下文版本的LongLLaMA来了?纯Python实现!更纯粹、更高压缩率的Tokenizer比Python快68000倍!Mojo正式发布,网友:Python生态系统最重要的升级来了Python 吞噬世界,GPT 吞噬 Python!ChatGPT 上线最强应用nǚ hóng?nǚ gōng华为最新大模型来了!盘古3.0问世,千亿参数规模3万亿tokens,放话「不作诗只做事」贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增 | GitHub热榜十分钟读懂Diffusion:图解Diffusion扩散模型详解Python文件: .py、.ipynb、.pyi、.pyc、​.pyd !次韵外派故事 (35)萍水相逢在南洋LPython:最新的高性能 Python 实现、速度极快且支持多后端超越所有开源模型,击败 Claude、Bard,专门用于编程任务的大模型来了Python 吞噬世界,GPT 吞噬 Python!ChatGPT 上线最强应用:分析数据、生成代码都精通树莓派上运行 Stable Diffusion,260MB 的 RAM「hold」住 10 亿参数大模型Stable家族上新!全新编码工具StableCode,16000上下文,5个Python文件同编辑ChatGPT与Stable Diffusion的来龙去脉,我们何去何从文生图模型又“卷”起来了!比 Stable Diffusion 中文理解能力更强、更懂国人的文生图模型是如何构建的?400万token,大模型推理飙升22倍!清华校友爆火一作,GitHub狂揽1.8k星iPhone两秒出图,目前已知的最快移动端Stable Diffusion模型来了LPython:最新的高性能Python实现、速度极快且支持多后端迅速登顶 HackerNews!这款深圳团队开发的编程语言月兔(Moonbit)将重塑 WebAssembly 的未来生态?比 Python 快 3.5 万倍的 Mojo 融资七亿,LLVM之父:不会威胁到 Python,该恐惧的应该是 C++Python吞噬世界,GPT吞噬Python!ChatGPT 上线最强应用:分析数据、生成代码都精通击败Stable Diffusion XL,商汤绘画大模型出手即大作,论文公开、免费试玩专访梅涛:多名科大校友支持创业,年底前做出超越Stable Diffusion的底层视觉模型五十二 保旗棉《思乡情》&《千樱雪》最强LLaMA突然来袭!只改一个超参数,实现上下文3.2万token,多个任务打败ChatGPT、Claude 2比Python快3.5万倍的Mojo融资7亿,LLVM之父:不会威胁到Python,该恐惧的应该是C++最多400万token上下文、推理提速22倍,StreamingLLM火了,已获GitHub 2.5K星五十一 治沙多送一节竞赛课!未来领域教育编程夏令营开课啦,这个暑期让孩子成为Python大神!硬核观察 #1071 研究发现更大的上下文对大语言模型来说意义不大构建大模型生态基础设施,你选 Python + Docker 还是 Rust + WebAssembly?| QCon
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。