一文读懂多家厂商的大模型训练、推理、部署策略

公众号新闻

2024-05-12 11:05

4 月 20 日，第 102 期源创会在武汉成功举办。

本期邀请来自武汉人工智能研究院、华为、MindSpore、京东云、Gitee AI 的人工智能专家，围绕【大模型竞技与性能优化】主题发表演讲。

接下来就一起看看本期活动的精彩瞬间吧！

大合影 get ✅

披萨和礼物不能少！

接下来进入主题演讲回顾环节。可扫描下方二维码、关注 “OSC 开源社区” 视频号，进入 “直播回放” 页面查看完整视频回顾：

刘昊：大模型分析与趋势展望

武汉人工智能研究院创投转化部总监刘昊带来了《大模型分析与趋势展望》主题分享。刘昊所在的武汉人工智能研究院早在 2020 年便开始研究大模型技术，2021 年 7 月发布全球对外发布了全球第一个千亿参数、覆盖图像、文本、语音的三模态大模型。

刘昊指出，在早前的人工智能技术研究中，存在三大问题，一是泛化能力很差，只能解决相似问题；二是模型能力单一，不能解决富文本，或者需要集成多个模型；三是过去一段时间，对数据标注的需求量有点过大了。而大模型恰好可以从这三个方面去解决问题，尤其是在 ChatGPT 出现之后。ChatGPT 的成功代表了人工智能很多的下游任务或是下游模型，可以进入流水线式的生，打开了一个人工智能产品化的时代，让技术人员可以去专注于做底座模型，页让更多人可以参与到人工智能行业中。

此外，大模型催发了存储、算力、运力等多个环节的拉动，通过大模型把很多上下游的产业串到了一起。

从技术上来说，国内外许多大模型本质上还是沿用之前的 MoE 架构，但大模型做了一次很好的工程化和产品化改造。在模型参数超过 660 亿之后，人工智能中的不可解释性变强，包括能力涌现看起来也是不可解释的。刘昊认为，OpenAI 用了什么方式使得 ChatGPT 的效果这么好，目前还是一个黑盒，但已为知识统一表征和推理、世界认知和建模等问题探索出了一条道路。

大模型既改变了研究模式，也改变了服务与开发模式。比如很多公司开始退订大模型的显卡，停止大模型的开发。最终行业内可能仅存几家大模型工作做底座大模型，而更多的则是行业专业。这也意味着大模型已经进入到了工业化生产的阶段，大模型之上将会形成很多的工具。

目前，紫东太初 2.0 已经升级为全模态大模型，加入三位点云等信息模态。同时，武汉人工智能研究院也建设了全栈国产化人工智能开放服务平台，把大模型当作底座，部署一站式平台，采用算力 + 平台的新模式，一方面用底座微调数据，一方面可以把平台和算力无缝结合。目前已在全国落地多个 AICC，完成全栈国产化适配，利用高性能普惠算力，深入融合行业场景，加速大模型应用赋能千行百业。

最后，刘昊也给出了他对大模型发展趋势的 4 大判断：

趋势一：信息技术应用和创新生态发生巨变，如通过不断喂养数据完成各种智能活动，应用开发进入自然语言编程模式等；
趋势二：重塑再造决策智能的范式，如人机对齐辅助决策；
趋势三：向小型化和领域化方向发展，在通用认知 AI 基础上迈向专业人工智能；
趋势四：奔向更加通用的人工智能，如大模型与人形机器人交互。

扫码观看《大模型分析与趋势展望》演讲回放 ⬇️

李树桥：大模型优化技术在昇腾上的应用与落地

华为软件工程师李树桥带来《大模型优化技术在昇腾上的应用与落地》主题演讲，从三方面介绍了昇腾在大模型算力方面的特性，包括开源加速库昇腾原生支持、昇腾自研大模型优化技术、以及基于云原生的生产落地。

首先对于各种开源库的支持，涵盖第三方模型、第三方 AI 框架、第三方加速库、第三方推理服务四大方面。比如对于 Pytorch & Torch NPU 的支持，Pytorch 是一款 AI 框架，可分为两大整体，上层是 Pytorch 部分，下层是 Torch NPU。在上层，昇腾通过注册方式，将原生算子和自定义算子注册到 PyTorch，使得 PyTorch 可以在昇腾中有运行，对于下层的 Torch NPU，通过开源贡献，优化 checkpoint、FSDP、Dataloader 等模块的多设备支持能力，实现原生支持 NPU。

此外，昇腾也支持了 onnxRuntime 通用模型框架。包括 Pytorch、TensorFlow、MindSpore 等在内的不同框架可以保存成 onnx 的格式，onnxRuntime 可以去运行调用统一格式。昇腾的原生支持已经支持了 onnxRuntime 库，使得在对接多框架以及易用性上有很大的便利。

模型压缩方面，DeepSpeed 可对大模型进行压缩，让其可以更好地部署运行，目前也实现了昇腾的原生支持。

对于提供图像处理，机器学习，视频分析等功能的计算机视觉库 OpenCV。昇腾实现后端支持，提供昇腾 NPU 数据结构 AscendMat 和 18 个高频接口，并且多数算子性能提升 30%。

代码迁移方面。基于 Pytorch 和 TorchNPU，实现了 OpenCLIP 对昇腾的原生支持。可以实现 3 行代码将模型迁移至昇腾设备。

其次在昇腾自研大模型优化技术方面。昇腾自研 AscendSpeed 大模型加速库。大模型训练是一种非常复杂的过程，涉及到许多技术和挑战，其中大模型训练需要大量的显存资源是一个难题，对计算卡提出了不小的挑战。为了在单个计算卡显存资源不足时，可以通过多张计算卡进行计算，业界出现了类似 Megatron、DeepSpeed 等第三方大模型加速库，对模型、输入数据等进行切分并分配到不同的计算卡上，最后在通过集合通信对结果进行汇总。昇腾提供 AscendSpeed 加速库，使能客户大模型业务快速迁移至昇腾设备，并且支持昇腾专有算法，确保开箱可用。

昇腾还提供了一套比较完善的工具链 AIT（Ascend Inference Tools），做为统一推理工具链入口，提供客户一体化开发工具，支持一站式调试调优。

最后，在基于云原生的生产落地方面。K8S volcano 调度器支持昇腾设备的亲和性调度。此外 Kubernetes 昇腾设备插件 Kubernetes Device Plugin 可以将其发现的设备个数上报到 Kubernetes 系统中，当设备处于不健康状态时，上报到 Kubernetes 系统中并删除，设备故障后会自动拉起新容器，挂载健康设备，并重建训练任务。当下，Vicuna 昇腾原生支持的 Space 后端已经使用了 Kubernetes Device Plugin。

扫码观看《大模型优化技术在昇腾上的应用与落地》演讲回放 ⬇️

袁黎江：智启未来 —— 言犀大模型平台

京东云产品总监袁黎江发表了《智启未来 —— 言犀大模型平台》主题演讲。袁黎江介绍，大模型企业级落地有 5 大挑战：实时性、可解释性、安全可控、复杂决策、专业性，而落地的关键是在不确定和动态变化的环境中如何实时作出正确决策并执行。

袁黎江介绍，大模型落地的方式主要有 2 种，一种是 Copilot 的模式，交互关系以人为主导，AI 只是作为一个助手，在某些场景中由 AI 来完成工作，如比如文字内容生成、加工，文生图等。实际上对于企业而言，需要尽可能释放人力。另一种是 Agent 模式，则更适合企业中的复杂场景，这种模式下人类站在更高维的角度，作为人工智能的 “导师” 或 “教练” 角色，设定目标并监督结果，由大模型去发挥推理能力，调用合适的工具和借口，最后给到相应的结果反馈。

大模型在企业中落地所依赖的主要技术也发生了变化，最初的 Pre-train 成本最高、投入巨大；之后 SFT 模式成本降低但是落地效果欠佳；基于向量数据库的检索增强 RAG 模式，效果提升但仅能局限在知识问答场景中；最终，精通技术团队更加关注 Agent 模式，可以实现多场景支持。

在京东金融业务中，单纯靠大模型 SFT 或者 LoRA 难以提升大模型解决实际问题的能力，而是基于 Agent 技术实现机器使用工具解决业务问题。具体而言是通过 Agent 的方式去理解用户目标，拆解每一步子任务，在每一步子任务里选择合适的工具，这些工具是京东原有业务的一些接口，最后再结合大模型能力给出反馈。这样对于一些用户复杂问题的回答则会更精准。

目前，京东言犀大模型全平台已经构建了多层产品矩阵。最底层为资源支持，包括计算资源、存储资源、高速网络和资源调度。在模型资源层，提供了模型管理训练、数据集加工、模型评测部署等能力。模型资源层之上为智能体构建，关注各类工具的集成。最上层则是应用服务层，适配多个企业场景。

京东言犀大模型全平台具备 6 大功能：资源调度协同，可实现计算资源的高效管理和调度，确保大模型开发及应用的性能优化和成本控制；数据管理，针对大模型训练提供管理，支撑预训练、微调、强化学习、评测等高效开展；模型训练，通过大模型进行训练和微调让企业拥有定制化模型，提高准确性和相关性；智能体构建，助力企业创建和部署智能体 Agent，与企业现有 IT 系统结合执行复杂任务；安全合规，确保所有大模型应用都符合安全标准和法律法规要求；智能应用市场，提供一系列预构建的大模型应用，企业可以直接部署或给予插件体系快速接入。

扫码观看《智启未来 —— 言犀大模型平台》演讲回放 ⬇️

林家桢：大模型 Serverless 推理系统

当下，一些模型方或是平台方会为个人用户提供一些免费的算力用于使用大模型技术，Gitee.AI 作为大模型聚合平台也在为个人用户提供免费算力。Gitee AI 专家顾问、清华大学高性能计算所林家桢带来《大模型 Serverless 推理系统》主题演讲。

林家桢指出，Gitee.AI 目前聚合了 2000 多个模型，但免费的算力资源有限，因此就需要更加高效地将这些免费算力按需分配给开发者使用，这在当下是一个非常有挑战性的问题。比如以往使用容器技术做外部开发时，单个容器的换入换出以及唤醒都非常迅速，但是这在大模型时代变难了，模型的唤醒和休眠导致容器的换入换出管理难以同以往的场景一样高效。

而 Serverless AI 具备 4 大优势，包括部署简单、开箱即用，降低算力使用成本，覆盖主流模型，支持多种算力硬件。目前的模型引擎或者说购买、使用算力的方式存在一个问题，即用户程序、模型、推理的芯片全都绑在一个容器上，占住硬件芯片，使用算力服务。而 Serverless 推理引擎整合优化算力资源，通过多个层级的解聚合，降低应用、模型、算力三者间的耦合性，按需分配算力，提高资源利用率。

Serverless 系统架构分为三层，最底层为编译器层，将在容器中加载模型改为 rpc 调用到远端服务的模式，接口没有改变，但是换成了后端的推理，以实现模型和芯片的解聚合。rpc 给到上一层的推理引擎，推理引擎是实际上发生计算的集群，这个层级则做了数据和算力解聚合。比如假设一个十张卡满足 3000 个模型的调度请求的任务场景，这时没办法在一张卡上固定加载某个大模型，便需要根据请求临时动态高效加载想要的模型，因此把计算的芯片和模型权重做解聚合，模型放在 TanserGraph 上，这是一个异构的内存系统，可支撑实现算力芯片和模型解聚合。在最上层，Serverless 层，则进行应用和推理解聚合。

Serverless 系统架构的核心能力是异构互联内存，解决模型权重问题。数据中心整机架构存在一些局限性，如资源利用率低、硬件扩展性受限等，解聚合技术可以将整机架构中各部件物理分离，使用一定互联链接各部件的控制界面（Control Plane）与数据界面（Data Plane），实现各类资源按需分配、扩容。此外，内存解聚合在云场景下也具备应用优势，包括提高云环境资源利用率和便于满足日益增长的内存资源需求。

但现有分层内存系统不适应解聚合架构下的高硬件弹性，系统扩展性也受限，并且由于系统内部结构限制，现有内存管理接口能力受限。异构互联内存则可以通过硬件访问统计、可编程策略、页迁移三个环节解决这些问题。以 CPU 为例，对于基于 PEBs 的访问统计上，支持硬件采集运行程序的访存情况，记录指令、TID、目的地址等，然后按需加载模型权重。

此外，Serverless 系统架构也具备了其他多种能力，如基于 MLIR 的多层次神经网络编译优化技术，基于用户态隔离技术的轻量化系统服务机制。Serverless 推理引擎基于两大核心知识产权技术构建，除此之外也整合了目前各类主流的推理系统优化技术。

目前，Llama 3 已经上线 Gitee AI。复制下方链接至浏览器，进入平台即可体验（邀请码：llama3）：

https://ai.gitee.com/hf-models/shenzhi-wang/Llama3-8B-Chinese-Chat

扫码观看《大模型 Serverless 推理系统》演讲回放⬇️

陈子恒：昇思 MindSpore 大模型关键技术与规划

MindSpore Research Engineer 陈子恒带来《昇思 MindSpore 大模型关键技术与规划》主题演讲。陈子恒介绍，在行业中，MindSpore 介于底层芯片硬件与上层行业应用之间。MindSpore 在大模型技术方面，首先做的是基础层，覆盖了多个底层大模型，在上层则是与行业伙伴构建行业模型。此外，MindSpore 也兼容了国内外多款主流的开源大模型。针对所有大模型，MindSpore 通过 MindFormers、MindPET、MindRLHF 三个基础套件，统一大模型开发、微调和部署等全流程，实现开箱即用。

针对大模型训练。MindSpore 采用的是基于计算图的编译器来实现并行策略。输入一张计算图，MindSpore 的图编译过程会将图按照并行策略进行切分，并在其中自动插入数据的重排算子，来保障多机的并行计算逻辑与单机一致。通过这种方式，MindSpore 实现了多个层次的优化，包括顶层的自动策略生成，多维度的混合并行，以及在运行时支持多维存储和异构的优化。

从去年开始，MindSpore 团队也一直在做大模型的并行训练。通常情况下，典型的大模型训练会混合使用 5 种并行策略，包括数据并行、优化器并行、模型并行、流水并行、重计算。MindSpore 团队分析了典型模型在这些并行模式下的耗时情况，发现这里的主要开销在三个方面，包括算子级模型并行的开销、pipeline 并行产生的 bubble、数据并行的拖尾时间。并且当集群规模不断增大，到万卡集群的时候，这些开销的问题会更明显，例如由于 global batchsize 的受限，pipeline 的 bubble 问题会更严重，并且由于通信域增大，通信性能会劣化，数据并行的拖尾占比会升高。

对于这些问题，陈子恒也介绍了一些解决方法，比如多副本并行模式隐藏模型通信，将数据一分为二，每个数据可以独立的进行计算和通信，而多份数据之间的计算和通信就可以相互隐藏了，以此优化算子级模型并行。对于 PipeLine 并行优化，通过 PipeLine Interleave 把 Bubble 降低到 10% 以。

此外针对 MoE 训练时会遇到冷热专家的问题，对于专家热迁移，降低 AlltoAll 通信量，提升 MoE 模型训练性能。除了高性能训练，大模型还有一个问题是怎么做策略并行，MindSpore 采取的是自动并行，大模型并行策略调优时间月级可以降为小时级。

部署方面，MindSpore 相当于是 severless 的后端，需要解决的是效能问题。MindSpore 通过分布式并行推理、K-V Cache、动态 seq、continue batch、高性能推理融合算子，构建低时延、高吞吐、支持长序列大模型统一推理框架。训推一体架构，使得训练到推理无缝衔接。

接下来，MindSpore 在大模型训练方面的规划涵盖万卡大集群训练性能优化、稠密大模型性能优化、稀疏 MoE 大模型性能优化等方面，在大模型推理方面计划更加深入研究大模型训推一体架构、稠密大模型推理加速、稀疏大模型推理加速等。

扫码观看《昇思 MindSpore 大模型关键技术与规划》演讲回放 ⬇️

本期活动回顾就到这里啦~

103 期源创会火热报名中！

【大模型技术在终端】・深圳站

详情访问下方链接，或点击“阅读原文”
https://www.oschina.net/event/2332004

END