性能对标Llama 3，算力消耗仅1/19！源2.0-M32大幅提升模算效率

2024-05-28 12:05

模更强，算更优！集成32个专家、模算效率大幅提升，浪潮信息让大模型应用火力全开。

作者 | 程茜

编辑 | 漠影

智东西5月28日报道，今天，浪潮信息发布基于MoE的源2.0-M32开源大模型，全面开源且支持免费可商用，全系列模型参数和代码均可免费下载使用。

源2.0-M32采用基于注意力机制的门控网络技术，包含32个专家模块，参数量为400亿，模型运行时激活参数为37亿。同时，该模型在模型性能全面对标700亿参数规模Llama 3的同时，训练、微调、推理过程中的算力开销显著低于业界的头部开源模型Llama3-70B，源2.0-M32单Token下训练和推理所需的算力资源仅为Llama3-70B的1/19。

在模型推理运行阶段，源2.0-M32处理每Token所需算力为7.4GFLOPs，Llama3-70B所需算力为140GFLOPs。

在模型微调训练阶段，对1万条平均长度为1024 Token的样本进行全量微调，M32消耗算力为0.0026PD（PetaFLOPs/s-day），Llama3-70B为0.05PD。

可以看出，源2.0-M32正在提升模型性能与降低算力消耗上齐头并进，成为浪潮信息服务于终端客户的新解法。

当下Scaling Law成为通往通用人工智能的一条重要路径，但对于大模型落地的终端玩家而言，背后居高不下的算力开销是一大痛点。这一背景下，从2021年发布源1.0大模型至今，浪潮信息通过算法架构创新，已经为企业找到了一条更为经济、高效的大模型落地普惠之路。

源2.0-M32发布当天，智东西等媒体与浪潮信息人工智能首席科学家吴韶华、浪潮信息人工智能与高性能应用软件部AI软件架构师Allen Wang进行了深入交流，从当下大模型产业发展的企业痛点出发，找到浪潮信息当前的技术创新路径，了解到其一以贯之坚持全面开放开源在当下的重要性。

论文地址：

https://github.com/IEIT-Yuan/Yuan2.0-M32/blob/main/docs/Paper.pdf

代码开源链接：

https://github.com/IEIT-Yuan/Yuan2.0-M32

模型下载链接：

https://huggingface.co/IEITYuan/Yuan2-M32-hf

https://modelscope.cn/models/YuanLLM/Yuan2-M32-hf/summary

01.

37亿激活参数性能对标Llama 3

所耗算力仅为Llama 3的1/19

在源2.0系列大模型的基础上，浪潮信息通过算法结构创新，使得源2.0-M32在业界主流评测中性能可以全面对标700亿参数的Llama 3大模型。

在性能方面，M32在数学竞赛、基础数学、代码生成、综合知识能力、科学推理方面与Llama-3-70B不相上下。

另一方面，企业在落地大模型应用方面，关键衡量标准就是算力消耗，源2.0-M32的表现已经远超Llama3-70B。吴韶华提到，将平均精度和算力进行关联，就可以衡量模型在单位Token上面的能力。模型算力效率越高，就意味着企业单位算力投入时获得的精度回报越高。

其中，源2.0-M32每Token算力下的平均精度是10.7，Llama-3-70B的为0.57；单位Token下源2.0-M32的算力需求仅为Llama-3-70B的1/19，单Token算力下平均精度为18.8倍。简单来说就是，源2.0-M32与Llama-3-70B的模型性能相近，但企业可以用更少的算力投入使得模型实现更高的精度。

这背后的技术要点，就是算法结构、数据获取、算力方面的创新。

在算法层面，浪潮信息创新提出了新型的算法结构：基于注意力机制的门控网络（Attention Router），可以使得MoE模型中专家协同处理数据的能力提升。

MoE中专家间有天然的协同性，其过程是将Token与每个专家的特征向量进行点积，从而找到点积结果最大的几位专家，由多个专家协同参与计算。但实际过程中，由于传统门控网络忽视了专家间的协同关系，无法准确、全面地根据输入样本与专家间的关联性进行选择，导致模型精度表现不佳。

浪潮信息为每个专家提供了三个特征向量来构建专家之间的关系，然后将其引入到传统调度策略中，MoE模型在最终选择专家模型时，就会同时考虑绝对点积数值以及专家间的协同性，找到自身属性更为相似、关联度更高的专家。

吴韶华称，这种思路可以和MoE模型的技术路径互为补充，在网络结构方面提升模型的精度。

此外，源2.0-M32沿用了浪潮信息此前在源2.0系列中采用的新型注意力算法结构局部注意力过滤增强机制（LFA，Localized Filtering-based Attention），帮助大模型同时掌握输入内容的全局性和局部性关系，从而更准确的对自然语言的关联语义进行理解。

在数据层面，相比于源2.0系列，源2.0-M32的训练Token数量从300B提升至2000B，这部分提升主要来自代码数据、互联网语料、专业领域数据以及合成数据。M32的训练数据中代码数据占比达到47.5%，包含619类代码以及1800亿Token的中文代码数据，以及增加了超过1000万条的合成数据。吴韶华透露，大幅提升代码训练数据的原因是，代码数据中包含推理以及逻辑，可以助力大模型完成推理等。

在算力方面，源2.0-M32沿用流水并行的方法，综合运用流水线并行+数据并行的策略，显著降低了大模型对芯片间P2P带宽的需求，为硬件差异较大训练环境提供了一种高性能的训练方法。针对MoE模型的稀疏专家计算，采用合并矩阵乘法的方法，大幅提升模算效率。

02.

大模型应用即将铺开

MoE兼顾成本降低与模型性能提升

当下，大模型的发展进入应用阶段，各类创新的应用实践进入各行各业，并在具体的业务场景生根发芽。

但企业想要用好、用上大模型并不容易，一方面要追求大模型精度高才能真正在业务流程中发挥作用，另一方面也关注大模型的落地成本低才能有大规模应用的可能，这也是当下制约企业进行大模型应用开发、普及的两大难题。

从模型精度方面来看，其智能水平仍在不断突破极限，大模型到底能有多聪明、为企业的业务带来多大助力在目前仍然是一个未知数，但当下大模型能力已经呈现出诸多可用性。

更为关键的是落地成本问题。以当下开源大模型的代表Llama-3-70B为例，其平均精度已经达到79.25，在数学、代码等方面的表现均名列前茅，足以满足当下企业真实业务场景的需求。然而在算力开销方面，其模型算力效率仅为0.57，这意味着有大量的算力被浪费。在算力资源需求量居高不下的背景，经根据测算，训练一个5000亿参数规模的Dense模型，企业的基础算力设施投入约10亿美元，无故障运行21个月，电费约5.3亿元，其背后的算力开销非一般企业可以承载。

因此，提升模型算力效率，兼顾更低的算力消耗与更高的模型能力是当下大模型普惠的关键。

对于当前国内大模型玩家更是如此，从2022年底ChatGPT问世AI时代迎来新发展纪元至今，国内底层大模型技术的发展一直落后于国外，但应用场景多元、丰富正是国内AI产业的独特优势，为大模型落地应用提供了土壤。吴韶华谈道，应用是中国未来的大模型发展方向，大模型将成为赋能企业生产力工具的重要支撑。

在这一过程中，企业需要不断微调大模型以与自己的业务场景相适配，且需要持续运行大模型以真正实现业务场景的重塑。因此，微调、运行大模型的效率和成本直接决定了大模型的应用水平和普惠程度。

MoE模型的技术路线被更多大模型玩家选择。吴韶华称，固定每个Token算力不变的情况下，可以获得更大参数量的模型，这也是业界出现大量MoE模型的原因。

对于浪潮信息而言，也同样如此。

源2.0-M32是浪潮信息在大模型领域持续耕耘的最新成果，也是他们关注于企业级应用落地的探索思考。基于MoE模型与算法结构创新，在持续提升模型能力的同时，降低算力消耗。

03.

全面开源开放

浪潮信息筑起全套开发体系底座

作为较早开始布局大模型算法开发的厂商，浪潮信息通过算法架构的创新，探索并实现大模型更高效的智能涌现，在切实解决企业痛点方面已经有所成效。

浪潮信息早在2021年就率先发布参数规模达2457亿的源1.0模型，训练算力效率为44.8%，远超GPT-3 21.3%的训练算力效率。浪潮信息也基于自身的大模型系统调优经验，成功帮助客户将千亿参数规模的自然语言AI单体大模型的训练算力效率提升达到53.5%。

去年11月，源2.0模型系列发布，浪潮信息继续在算法结构、数据获取、训练方法进行了创新升级，进一步提升了大模型能力，同时采用非均匀流水并行方法，显著降低了大模型对芯片间P2P带宽的需求，满足不同企业的多元化训练环境。

如今，源2.0-M32再次下探企业大模型落地的门槛，将企业最关注的模型性能与推理成本顾虑一网打尽。

可以看出，从源1.0、源2.0到源2.0-M32，浪潮信息始终坚持全面开源开放，一直朝着为企业找到更为经济、高效的解决方案而努力。

一脉相承的是，浪潮信息已经将这些模型及工具链全面集成，打造了面向企业开发部署生成式AI应用的端到端开发平台“元脑企智”EPAI（Enterprise Platform of AI），逐渐将企业在大模型浪潮下的“后顾之忧”一个个消灭掉。

EPAI作为企业AI大模型落地应用的高效、易用、安全的端到端开发平台，提供了数据准备、模型训练、知识检索、应用框架等系列工具，支持企业调度多元算力和多模算法，大幅加速其高效开发部署生成式AI应用、打造智能生产力。

从全面开源大模型到构建开发生态，开源开放可以说是浪潮信息的底色，吴韶华谈道，开源一方面可以让浪潮信息看到更多开发者的需求，进而转化成其模型能力提升的支撑，同时，更多开发者的参与可以形成催化效应，实现生态建设的正向迭代，浪潮信息一直在开源中受益，后续也将坚定开源战略。

大模型深入千行百业的趋势已经势不可挡，浪潮信息作为算力提供方与企业的联系更为紧密，且在自身的业务积累与B端客户的交流中深刻感知到了大模型落地的痛点，在开源开放生态战略与技术创新的指引下，成为大模型普惠的重要见证者与引领者。

04.

结语：浪潮信息的开源生态+1

AI赋能千行百业更进一步

在大模型发展的浪潮中，浪潮信息扮演着尤为关键的角色，既包括底层算力提供者，还是基础大模型的重要玩家。这两大角色成为连接大模型与终端企业的重要支撑，在为企业提供所需算力的同时，将完整的工具链进一步释放给企业，今天源2.0-M32的发布也使得其模型布局更加完整。

对于不同的企业而言，其对于大模型的需求不尽相同，不论是模型性能还是已具备的算力基础设施的硬件、软件能力，因此，大模型单纯提高自身的性能能力无法充分加速大模型的落地应用，在算力供应紧缺的当下，企业对模型微调、运行背后的成本与模型性能的关注度几乎持平。

在这背后，浪潮信息从大模型的底层架构创新，真正为企业构建起了高效可用的技术平台，并通过开源开放的生态建设加速AI赋能千行百业。

（本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。）

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章