清华CodeGeeX项目原作解读：大规模多语言代码生成模型

2022-11-04 05:11

近年来，大规模预训练模型在各个领域取得飞速进步，不仅是文本、图像领域，用于代码领域也可以取得惊人的效果。OpenAI 的 Codex 模型首次展示了代码预训练模型的强大能力，并以此为基础开发了 Copilot 插件。然而，闭源、收费等特性使 Copilot 饱受研究者和程序员们的争议。

为了让更多研究者能参与到这一领域的探索、让广大程序员能够免费体验到自动代码生成带来的便利，清华大学知识工程实验室团队主导研发了 CodeGeeX，一个具有 130 亿参数的多编程语言代码生成预训练模型，采用华为 MindSpore 框架实现，在鹏城实验室 “鹏城云脑 II“平台上使用 1536 个昇腾 910 AI 处理器，在 20 多种语言的语料库上历时两个月训练得到。CodeGeeX 支持十多种主流编程语言的生成及翻译，在新的多语言基准 HumanEval-X 取得超过所有开源模型的效果。此外，团队和智谱 AI 合作，基于 CodeGeeX 开发了免费的 VS Code 插件，同时正在开发其他平台插件，帮助广大程序员提高开发效率。CodeGeeX 开源开放，所有代码和模型权重均已开源，并同时支持昇腾和英伟达平台。

机器之心最新一期线上分享邀请到了清华大学知识工程实验室研究助理郑勤锴，介绍 CodeGeeX 的技术原理、实现过程、评估指标，以及插件的使用教程等。

分享主题：CodeGeeX:大规模多语言代码生成模型

分享嘉宾：郑勤锴，清华大学知识工程实验室研究助理，本科及硕士毕业于上海交通大学，并取得巴黎高等电信学校工程师学位，研究领域是基于预训练模型的代码生成。

分享摘要：CodeGeeX 是一个具有 130 亿参数的多语言代码生成预训练模型，由清华大学知识工程实验室团队研发，支持十多种主流编程语言的生成及翻译，并开发了免费的 VS Code 插件，帮助广大程序员提高开发效率。本次报告将介绍 CodeGeeX 的技术原理、实现过程、评估指标，以及插件的使用教程等。

相关链接：

1）SOTA！模型平台项目主页链接：

https://sota.jiqizhixin.com/project/codegeex

2）GitHub 链接：

https://github.com/THUDM/CodeGeeX

3）技术博客：

https://models.aminer.cn/codegeex/blog/index_zh.html

4）主页（含在线DEMO）：

https://models.aminer.cn/codegeex/zh-CN/

5）免费的 VS Code 插件：

https://marketplace.visualstudio.com/items?itemName=aminer.codegeex

加群看直播