国内首个开源千亿参数MoE大模型来了!性能超Grok-1,单张GPU可跑
智东西4月2日报道,今天,全球移动互联网公司APUS与大模型创企新旦智能宣布,联手开源国内首个千亿参数的MoE(混合专家模型)APUS-xDAN大模型4.0,这也是国内首个可以在消费级显卡上运行的千亿MoE中英文大模型。
APUS-xDAN-4.0(MoE)参数规模为1360亿,可在消费级显卡4090上运行,据APUS实测,其综合性能超过GPT-3.5,达到GPT-4的90%。
项目地址:
https://github.com/shootime2021/APUS-xDAN-4.0-moe?tab=readme-ov-file
APUS-xDAN-4.0(MoE)在GitHub的页面显示了基准测评结果,其与Mixtral-8x7B(MoE)、Llama2-70B、Grok-1(MoE)进行了对比。
其中衡量模型语言理解、知识和推理能力的基准测试MMLU中,APUS-xDAN-4.0(MoE)排名第一,超过了Grok-1(MoE)。
其中,Mixtral-8x7B(MoE)由大模型创企Mistral AI于去年年底发布,并在多项基准测试中性能都基本达到GPT-3.5;Llama2-70B是去年7月Meta开源的Llama 2大模型系列中,参数规模最大的版本;Grok-1(MoE)为马斯克旗下AI创企xAI本月初开源的大模型,参数规模为3140亿参数,是目前开源大模型中参数规模之最。
具体来说,APUS-xDAN 大模型4.0(MoE)采用GPT-4类似的MoE架构,特点是多专家模型组合,同时激活使用只有2个子模块,实际运行效率对比传统Dense同尺寸模型效率提升200%,推理成本下降400%。在实际部署中,研究人员通过进一步高精度微调量化技术,使得模型尺寸缩小500%。
APUS-xDAN-4.0(MOE)模型的架构特点为,主要由32个相同的MoE Transformer块组成,与普通Transformer块相比,MoE Transformer块的FFN层被MoE FFN层替换。
张量经过门层计算每个专家模型的分数,根据专家分数从8个专家模型中选择Top-K专家。张量通过Top-K专家的输出进行聚合,从而得到MoE FFN层的最终输出。
每个专家由3个线性层(Linear Layers)组成。APUS-xDAN-4.0的所有Norm Layer都是用RMSNorm,与开源大模型Llama的方式一致。
在注意力层中,APUS-xDAN-4.0(MoE)中的QKV矩阵的Q矩阵形状为(4096,4096),K和V矩阵形状为(4096,1024)。
▲APUS-xDAN-4.0(MoE)模型架构图
APUS-xDAN-4.0(MoE)背后的两家公司均来自国内,且APUS于今年3月投资了新旦智能。
▲MT-Bench排名
据了解,新旦智能的创始团队汇集了清华、伯克利等顶尖学府以及腾讯、Meta等头部科技玩家的员工,包括全球开源AI社区知名开发者、腾讯云架构师等。
与此同时,这也是APUS在开源大模型领域的最新进展。今年2月初,APUS与深圳大学国家工程实验室联合开源了APUS大模型3.0伶荔。
2024年中国生成式AI大会预告
微信扫码关注该文公众号作者