Redian新闻
>
AutoDev Coder 6.7B 代码微调模型(v1 试验版)

AutoDev Coder 6.7B 代码微调模型(v1 试验版)

科技

太长不读性:

适用于 AutoDev 的编码大模型 AutoDev Coder 6.7B 第一个勉强可用的版本出来的。

  • HuggingFace 首页:https://huggingface.co/unit-mesh (暂时没有资质提供模型,🐶🐶)。

  • 数据集下载地址:https://huggingface.co/datasets/unit-mesh/autodev-datasets

PS:AutoDev 1.5.1 的指令经过一些细微的调整,所以模型在 1.5.1 上的体验会比 1.5.0 略微好一点。而由于 AutoDev 1.5.1 在 JetBrains 市场等待审批,而老外们正在休完假。

除此,在有了更好的算力支持,经过更好的补全测试之后,我们也会将原来的 Inlay 补全模式加回来。

AutoDev Coder 6.7B v1 试验版

当前版本基于 LLaMA 架构下的 DeepSeek Coder 6.7b instruct 模型微调的。

注意事项:作为试验版,主要是为了磨合模型、数据工具与 IDE 插件,以达成更好的协调。因此,在生成质量还需要进一步提高,blabla 。

AutoDev Coder 64k 数据集

如下是 AutoDev Coder v1 64k 的指令组成:

文件名选取的指令数
java_oss.jsonl4000
python_oss.jsonl4000
codebugfixcleaned_5K.json4000
codeGPTCNcleaned_20K.json15000
codesummarizationCNcleaned10K.json8000
codegenerationCNcleaned5K.json4000
summary.jsonl25000

其中的 summary.jsonl 是由我们开源的代码微调数据框架 UnitGen 生成(https://github.com/unit-mesh/unit-gen)。

我们挑选了几十个开源软件 Java 和 Kotlin 语言,根据 AutoDev 插件的指令生成,主要分为三类:

  • 补全(行内、行间、块间)

  • 文档生成

  • 注释生成

详细说明可以见 UnitGen (由 UnitEval 拆分出来)项目和文档:https://github.com/unit-mesh/unit-gen。

UnitGen 架构如下:

基于真国产、真自研的 Chapi 语法分析工具提供底层支持。

FAQ:AutoDev Coder 模型评估

暂时还在设计中。由于我们需要结合 AutoDev 指令与不同的语言如 Java、 Kotlin 、TypeScript 等语言,而非各种开源模型中喜欢用的 Python 体系,所以需要重新思考怎么设计。

我们前期采用 OSS Instruct 等指令集作为自然语言生成代码的补充,后来发现有一半的指令(~50,000 )与 Python 相关,后来从中刷选出 Java 大概在 ~5,000 左右。在 AutoDev 中采用结果并不是很好。

FAQ:AutoDev 指令

AutoDev 采用的是相关上下文策略,所以在指令上与其它工具有所差异。详细见:https://github.com/unit-mesh/auto-dev

Demo 示例

其它

有问题请在 GitHub 上讨论,微调公众号不好用~,见谅。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%Stability AI发布全新代码模型Stable Code 3B!媲美70亿Code Llama,没GPU也能跑快消外企社招 | Lagardère拉格代尔,世界三大旅行零售商之一,百年外企,平均月薪17.2k,0经验可投,留学生有优势不到1000行代码,PyTorch团队让Llama 7B提速10倍ChatGPT代码生成飙升10%!北大华人一作:细化prompt,大幅改进大模型代码能力双林奇案录第三部之昭雪嘉州: 第二十八节(结尾)Hugging Face宣布最受欢迎的AI机构;零一万物上线Yi-34B-Chat微调模型及量化版丨AIGC日报微软仅凭「提示工程」让GPT-4成医学专家!超过一众高度微调模型,专业测试准确率首次超90%OpenAI调查ChatGPT错误率升高问题;零一万物上线Yi微调模型;Adobe收购印度AI视频创企丨AIGC大事日报开源模型新纪录:超越Mixtral 8x7B Instruct的模型来了祖传“屎山代码”终于有解了,GitHub Copilot Chat 下个月全面上线,聊聊天就能看懂代码、捉Bug!10、长篇民国小说《永泰里》 第二章 各安天命(4)CodeFuseEval - 代码类大模型多任务评估基准清华系又造大模型标杆!2B规模干翻Mistral-7B,超低成本为AI Agent护航GPT又迎重磅升级!万物皆可大模型(赠大模型系列课程+书籍)AI也造代码屎山!研究发现GitHub Copilot代码可维护性差,偏爱“无脑重写”而非重构复用已有代码判处监禁2个月,立即执行谁是BeijingGirl1的大爱豆?2B小钢炮碾压Mistral-7B,旗舰级端侧模型炸场开年黑马!1080Ti可训,170万tokens成本仅1元2B参数性能超Mistral-7B:面壁智能多模态端侧模型开源2024年风险投资(VC)市场七大预测《歌德堡变奏曲1441》V15只要$499!果然,Costco的黑五,不花钱是不可能的..AI早知道|科大讯飞星火认知大模型 V3.5发布;Midjourney V6动漫微调模型上线超精美!解决问题的100个思维模型(原创)AI早知道|抖音即创平台上线;零一万物发布并开源Yi微调模型;亚马逊宣布推出全新一代语音基础模型驱动的ASR系统将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍杀疯了的开源专家模型 Mixtral 8x7B 论文公开啦!Hyena成下一代Transformer?StripedHyena-7B开源:最高128k输入,训练速度提升50%一文读懂创新疫苗临床试验关键|RSV、诺如疫苗的临床试验难在哪?手把手教你,从零开始实现一个稀疏混合专家架构语言模型(MoE)华威Derek教授1v1科研-基于多维统计变量模型的未来全球气候变化预测|收获一作论文与导师推荐信!7B开源数学模型干翻千亿GPT-4,中国团队出品超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。