Redian新闻
>
清华系「自然语言编程神器」上新!支持100+种编程语言,效率upup

清华系「自然语言编程神器」上新!支持100+种编程语言,效率upup

公众号新闻
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

清华和智谱AI联合打造的多语言代码生成模型CodeGeeX,更新了!

它支持的编程语言种类从原来的20种增加到100多种

通过IDE中的插件,可以轻松实现「无缝自然语言编程」。

由于使用了新版基础模型,CodeGeeX2的功能更加强大。

据了解,这次的新版本,精度和速度分别是原来的两倍和三倍,内存消耗却只有1/5。

代码生成、解释、翻译、纠错和编程问答等工作,效率都比以前有显著提高。

作为「课代表」,我们把CodeGeeX的更新概括成了下面这几个方面:

  • 代码能力更强了

  • 模型特性得到了优化

  • AI编程助手功能更全面了

  • 用户协议更加开放

插件版本也将全面更新

模型用起来太繁琐?没关系,除了模型本身的更新,CodeGeeX的插件版本很快也将全面升级至新版。

新插件同样支持超过100种编程语言,说不定比我们知道的还要多。

这之中除了Python、Java等我们耳熟能详的语言之外,还包括Swift、Kotlin等移动端新兴势力。

甚至像Rust这种系统级的编程语言,也在CodeGeeX2的能力范围之内。

比如下面这张动图就展示了CodeGeeX2生成Kotlin代码的场景。

代码生成的速度简直比人类输入指令的速度还快。

而且从中我们可以看到,CodeGeeX2添加注释或debug都能一键完成。

不仅是设计算法,实用程序的编写也是小菜一碟。

补全个vue.js代码,搭建出网页,效率杠杠的!

除了这些代码相关的任务,CodeGeeX2还有很多其他应用场景。

比如查询SQL数据库。

只要打开问答模式,用自然语言描述想要查询的内容,CodeGeeX2就能自动生成SQL查询语句。

模型变强之后,会不会收费呢?不必担心,新版CodeGeeX插件将继续对个人用户免费开放

而6B参数的CodeGeeX2,也已经进行了开源,相关代码可以到GitHub仓库中查看。

GitHub Copilot的模型也不是对手

OpenAI的HumanEval评测标准可以很好地评价生成代码的表现。

这个名字很容易理解:模型生成的代码质量如何将由人类来评价。

在HumanEval评测中,6B参数的CodeGeeX2的得分比15B参数的StarCoder模型还要高,可谓是四两拨千斤。

而GitHub Copilot中曾使用的Code-Cushman-001模型同样不是CodeGeeX2的对手。

不过,CodeGeeX毕竟是一个多语言模型,而HumanEval却只支持Python。

所以,为了更加准确地测试CodeGeeX的表现,智谱团队在其基础上增加了Go、C++、Java和JS四种语言的测试数据,得到了HumanEval-X数据集。

结果显示,在多语言方面,新版CodeGeeX2的表现和在Python中一样优异。

相较于第一代,CodeGeeX2的Pass@1指标在各个语言上的平均表现提升了107%

其中,Rust语言的性能提升显著,提升了321%;C++和JS语言上的表现也提升了70%以上。

而在代码翻译方面,CodeGeeX2的表现同样碾压对手。

「不看广告看疗效」,CodeGeeX不仅测试结果优异,用户的认可度也是很高的。

在「CodeGeeX是否提高了编程效率」这一问题中,有83.4%的用户给出了正面的答案

除了调查结果,用户们也在「用脚投票」。

自第一个版本发布以来,CodeGeeX的下载量已达12万次,平均每天生成近千万行代码。

这是个什么概念呢?如果只看代码行数,相当于不到一周的时间就写出一套Windows XP。

说了这么多,CodeGeeX又该如何体验呢?

快速体验

第一种方式就是IDE中的插件,VScode和JetBrains系列IDE的插件仓库中均有收录。

除了使用IDE中的插件之外,CodeGeeX也可以在Transformer中快速调用。

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("THUDM/codegeex2-6b", trust_remote_code=True)
model = AutoModel.from_pretrained("THUDM/codegeex2-6b", trust_remote_code=True, device='cuda')
model = model.eval()

# remember adding a language tag for better performance
prompt = "# language: python\n# write a bubble sort function\n"
inputs = tokenizer.encode(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(inputs, max_length=256, top_k=1)
response = tokenizer.decode(outputs[0])

>>> print(response)
# language: python
# write a bubble sort function

没有支持的IDE,Transformer又觉得麻烦,但还是想体验怎么办?

没关系,这里还有个还有在线版DEMO。

传送门:https://codegeex.cn/zh-CN/playground

赶快来感受一下「无缝自然语言编程」吧!

论文地址:
https://arxiv.org/abs/2303.17568
Github项目页:
https://github.com/THUDM/CodeGeeX2
Hugging Face项目页:
https://huggingface.co/THUDM/codegeex2-6b

「AIGC算力全景与趋势报告 · 量子位智库」下载

AIGC时代,算力成为「硬通货」。当前大模型的发展对算力产生新的需求,算力行业迎来变革机会。机遇当前,量子位智库发布《AIGC算力全景与趋势报告》,扫描下方二维码即可查看完整报告。

8月9日,我们将在北京举办「量子位AIGC行业沙龙——AIGC时代的算力基石」,欢迎感兴趣的企业联系~

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
245页Go语言编程指南,基本涵盖所有核心知识点!谷歌重磅发布多平台应用开发神器:背靠 AI 编程神器 Codey,支持 React、Vue 等框架,还能补全、解释代码MIT华人博士生将ChatGPT搬进Jupyter,自然语言编程一站式搞定支持全栈编程语言、随取随用、一键部署,谷歌推出浏览器AI开发环境IDXDPU与智能网卡技术公开课上新!三位技术大牛主讲开源DPU、内生安全智能网卡与DPU云化裸金属北京内推 | 微软亚洲研究院自然语言计算组招聘NLP方向研究实习生太平洋吹来微微的风多编程语言代码生成神器 CodeGeeX,编码效率提升十倍!百度推出AI编程助手 "Comate":覆盖30多种编程语言2023年需求最大的8种编程语言:PHP强劲,C/C++需求放缓Nat Med丨斯坦福团队利用twitter资源,开发出“病理图像文本对应”的自然语言-图像预训练模型正在诞生的五种编程语言百度智能云推出代码助手 Comate,覆盖 30 种编程语言,正式开放邀测又一个中文编程语言发布:青语言中文编程语言——青语言开源发布真实的编程语言,游戏式学习体验,风靡全球的少儿编程游戏,暑期开团!珠海诞生的GPGPU新势力!清华系芯片老兵创业,首款芯片已量产趣图:四种编程语言的学习曲线无题《心如故》&《金风玉露》春夏轮迴太急匆 渔歌子用了 ChatGPT 刚更新的「神器」,我的打工效率提升了 200%大模型加持的机器人有多强,MIT CSAIL&IAIFI用自然语言指导机器人抓取物体冠情重创难收口,采桑子对话蓝湖任洋辉:从GUI到LUI,自然语言交互将重塑软件华为在手机上,率先实现本地端自然语言搜图功能OPRO:利用LLM作为优化器,解决一系列用自然语言描述的任务MIT推出拾物机器人「最强辅助」,少量训练样本即可实现自然语言控制ACL 2023|大模型时代,自然语言领域还有什么学术增长点?ACL 2023 | GLUE-X:基于分布外泛化的自然语言理解模型测试集Mojo 编程语言开放下载,声称比 Python 快 68000 倍Swift之父再创新编程语言,不会取代Python,该担心的是C++!2023 年需求最大的 8 种编程语言:PHP 强劲,C/C++ 需求放缓学习生成式大语言模型,东北大学自然语言处理实验室有一堂课首个通用语音翻译系统!Meta重磅开源SeamlessM4T:支持100种语言多模态翻译,附47万小时训练数据
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。