如何驯服AI大模型“能耗巨兽”

2023-11-28 04:11

来源：恩智浦官网

AIGC及其背后的大模型，是不折不扣的“能耗巨兽”。在部署大模型的过程中，AI工作负载带来的功耗和成本挑战，已然成为产业链的“阿喀琉斯之踵”。近期，蚂蚁集团联合多所高校发布的《围绕绿色计算发展机遇的一项调查》(以下简称“调查”)指出，绿色措施、节能人工智能、节能计算系统和可持续发展的人工智能用是构建绿色计算的四个关键，强调了人工智能的节能降耗对于计算产业的意义。与此同时，恩智浦、英特尔、英伟达等半导体企业也在积极应对大模型带来的能耗挑战，从架构创新、软硬件协同方案、网络平台等多个层面，为大模型部署提质降耗。

为“大脑”分担任务半导体厂商的架构创新方法论

大模型作为近年来最重要的新兴计算场景，对芯片的算力和内存需求都提出了极大挑战。北京大学集成电路学院研究员贾天宇向《中国电子报》记者表示，在传统摩尔定律难以为继的背景下，半导体企业需要通过利用架构设计、制造工艺、先进封装等多个层级协同的设计手段来满足大模型的计算需求。例如，通过采用异构计算、存算一体、三维堆叠等先进计算理念降低芯片的能耗，提高单一芯片的性能和能效。此外，针对大模型的大算力需求，芯片的可扩展性也变得尤为重要。重视多芯片的系统级扩展和互联技术，也成为半导体企业技术研发中不可忽视的重要内容。

“在控制大模型带来的能耗和成本方面，半导体企业可以通过优化计算架构、提升能效等措施，降低大模型的能耗和成本。但针对大规模的大模型训练，需要与软件生态、数据中心建设等多环节配合，共同为企业和开发者提供更具成本效益的解决方案。”贾天宇说。

如贾天宇所说，架构创新素来被视为实现芯片技术突破的发动机。在采访中，多家半导体企业负责人都向记者阐述了基于架构创新和优化为大模型增效降耗的思路。

长期以来，人工智能及其热门应用常常被喻为“大脑”，比如自动驾驶被喻为“车轮上的大脑”。但是，人脑并不是仅仅依靠大脑工作，脑干、小脑也承担了许多任务，比如控制心跳和体温，保持身体的稳定性、协调性等。如果大脑进行所有的决策和控制，人体就很难负担大脑需要的能量。

比照包含大脑、小脑、脑干的人脑系统，恩智浦半导体执行副总裁兼首席技术官Lars Reger为记者描述了一种更加高效节能的计算体系：以AI算力芯片为“大脑”，进行高效能的计算和加速；以网关处理器为“小脑”，实现不同功能区的互联和集成，以及异构网络中的数据处理；以MCU、感知芯片、联网芯片作为“脑干”，实现感知和实时任务处理。

“有的车厂CEO告诉我们，由于能耗的问题，他们不得不降低汽车的续航，这主要是因为现有的技术架构不够高效。所以在开发系统时，我们要确保在正常运行的情况下，不需要时刻激活大脑的功能，只要小脑就可以了。比如我们在开车的时候，更多是基于平时的规则和训练下意识地驾驶，只有遇到挑战的时候才需要用到大脑。”Lars Reger向《中国电子报》记者表示。

据悉，恩智浦已经将这套计算理念集成到了智能驾驶的技术架构中，架构中“小脑”和“脑干”部分由恩智浦的技术来保障的。S32G作为网关处理器，扮演小脑的角色；S32K等用于车身各部分控制的MCU、S32R等传感芯片、S32Z等域控制和区域控制芯片以及以太网连接产品，共同构成“脑干”，以应对能耗对续航的局限和挑战。此外，《中国电子报》记者获悉，恩智浦即将推出最新的5纳米级旗舰产品，能够把数据从车辆传输到控制单元。

跟着最新算法走随时提供软硬件协同方案

随着业界对大模型的研发和部署逐步深入，新的压缩、调优方式层出不穷，从算法和框架层面实现对大模型的提效降耗。但算法、框架的更新，需要半导体厂商及时跟上，提供相应的软硬件协同方案，才能实现新算法、新框架的部署。

比如，大模型的调优方式，正在从完全微调走向更加简捷、低功耗的微调方式。蚂蚁集团联合多所高校发布的《围绕绿色计算发展机遇的一项调查》提到，传统的调优方式会微调所有模型参数，使通用大型语言模型适应特定的目标任务，这一过程称为完全微调。然而，当大模型的参数规模从百万、千万向数亿乃至万亿规模发展，完全微调会带来更长的程序代码运行时间和高昂的存储成本。为了解决这个问题，更加简捷的微调方法已成为大模型的研究热点。比如PEFT（高效参数微调）仅更新模型参数的子集或附加的模块，使大模型适配下游任务，以降低微调所需的计算和存储资源；基于提示的微调则训练大模型根据特定提示或指令生成响应，引导大模型做出更理想的决策和行动。由于无需添加更多的训练数据，基于提示的微调能节省大量的时间和成本，以实现更加绿色的计算。

围绕基于提示的微调等最新微调方式，英特尔基于AI加速引擎和配套的软件工具，进一步减少了微调所需的工作量。第四代英特尔至强可扩展处理器中内置了矩阵乘法加速器AMX，能够更快速地处理 BFloat16(BF16)或INT8数据类型的矩阵乘加运算，从而提升模型训练和推理的性能。尤其对于ChatGLM-6B等在开源微调代码中支持CPU 自动混合精度的大模型，开发者在启动微调时加入CPU自动混合精度的使能参数，就可以直接利用矩阵乘法加速器提升大模型的微调计算速度。

英特尔院士、大数据技术全球CTO戴金权向《中国电子报》记者表示，解题大模型功耗和成本压力的关键，是根据不同大模型的最新技术需求，提供软硬件协同的支撑方案。

“我们可以通过提供跨平台的XPU架构和开放的AI软件架构及优化，为预训练、微调、推理等不同的AI和大模型应用，提供高效的开发部署平台。”戴金权告诉记者。据他介绍，英特尔在硬件架构方面，正在基于Gaudi AI加速器，数据中心Max GPU，内置AMX加速的第四代至强处理器，以及边缘和客户端处理器为用户提供XPU异构计算支持。在软件架构层面，英特尔和社区在PyTorch、DeepSpeed、HuggingFace Transformers等开源项目开展合作，加入了在Intel XPU平台上的众多优化。同时，英特尔的开源软件工具IPEX、BigDL、INC、OpenVINO等，对大模型提供专门的支持和加速。

加速与降耗并行打造更加节能的基础设施

数据中心是AIGC和大模型主要的基础设施之一，也是节能技术的重点发力领域。随着全球的热点IT应用地区都在强调绿色数据中心，如何在降低能耗的同时释放更高效能，成为英伟达、AMD等数据中心芯片供应商的必答题。

围绕数据中心的减碳需求，AMD宣布了到2025年为人工智能训练和高性能计算应用程序带来30倍能效提升的目标。据AMD测算，30倍的能效提升将在2025年节省数十亿千瓦时的电力，使系统在五年内完成单次计算所需的电力减少97%。这一方面需要核心制程的提升，另一方面需要架构的改进和技术的创新来提高算力。比如基于一颗第三代AMD EPYC服务器处理器和四个AMD Instinct MI250x GPU的加速节点，AMD实现了在2020年的基准水平之上提高6.79倍能效。

英伟达也将加速计算作为减少功耗的主要策略。加速库是英伟达加速计算的核心，目前英伟达面向计算机视觉、数据处理、机器学习和 AI 等领域布局了300 个加速库和400 个 AI 模型。

除了提升计算单元的能效，计算单元构成的AI集群，也对数据中心的整体功耗有着重要影响。在计算单元互联以构建AI集群，以及集群、设备互联构建AI计算网络的过程中，会产生大量网络数据。若采用传统的以太网架构，会导致数据流的拥塞和延迟，使系统无法有效利用GPU，从而提升了大模型训练的时间和成本。

在网络平台层面，英伟达推出专门面向AI负载的以太网架构Spectrum-X。该架构基于内置Spectrum-4 AISC芯片的交换机与Blue-Field DPU，提升AI集群的资源利用和数据传输效率。在对GPT-3的训练中，NVIDIA Spectrum-X 网络平台相比传统以太网网络架构，实现了的 1.7 倍的加速效果。尤其针对数据中心常用的功率封顶措施，Spectrum-4 ASIC能够简化网络设计，提高了每瓦的性能，帮助数据中心控制网络功率预算。

从计算架构的革新，软硬件方案的更新，到基础设施算力和互联方式的迭代，半导体厂商正在从多个维度缓解大模型带来的能耗压力。而大模型的到来，也在倒逼算力系统的创新，为基础软硬件的各个节点带来新的市场机会。

延伸阅读：

微缩工艺加码、先进封装助力，芯片制造圈奋力应对算力挑战

从“轮子上的机器人”到“人形机器人”，车企跨界胜算几何？

作者丨张心怡

编辑丨赵晨

美编丨马利亚

监制丨连晓东

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章