大模型落地：GPU向上，NPU向下

2023-06-02 02:06

自从ChatGPT问世以来，大模型取得了迅猛的发展。不仅是在ChatGPT本身这一自然语言处理领域取得了重要进展，而且在视频领域也有令人瞩目的大模型，比如DINOv2，它可以对视频图像进行语义理解。此外，SAM是一种能够对场景进行细粒度分割的模型。这些进展显示出我们正处于一个新的范式拐点，即大模型无处不在。

与此同时，主流的大模型架构——Transformer架构，也在ChatGPT的成功应用后引起越来越多的关注。许多研究和应用领域开始将传统的卷积神经网络（CNN）转向Transformer架构。

在大模型的落地应用方面，目前主要集中在云侧，依赖GPU提供算力，所带来的影响和冲击波巨大。想象一下，如果大模型能够在边缘侧和终端侧进行部署，那将推动智能应用的大力普及和发展，为用户和企业带来更多的便利和价值。想象一下，每个人在打开手机或终端时，就能轻松获取医生、律师、厨师等专业知识，这将是可能的。

长远来看，实现在边缘侧和终端侧部署大模型也将是未来的发展方向。然而，要在端侧和边缘侧高效地部署Transformer，我们需要思考使用何种技术和资源。是否继续依赖GPU？或者采用其他更适合边缘侧和终端侧的解决方案。

Transformer架构：大模型的最佳选择

任何一个数字系统或者是复杂的场景都可以分为信息系统、模型系统和行动系统这三大部分：信息系统是整个系统的基础，它负责从外部或内部收集信息，并将其传递给其他组件进行处理或决策；模型系统是在信息系统的基础上构建的，它使用收集到的信息，并运用算法、机器学习或其他技术来进行分析、预测或决策；行动系统接收来自信息系统和模型系统的输出，并根据其进行实际的操作、决策或执行。

模型系统成为现代技术和商业应用的重要组成部分，模型系统带来的好处有哪些？一个非常直观的具象例子，陆奇博士在近日《新范式新时代新机会》主题分享中谈到，在互联网不发达的时候，买一张地图需要3美元，信息获取的成本相当高，现在，我们只需要打开导航就可以轻松获取所需要的信息。这就是信息系统所带来的变化。在模型系统这里，ChatGPT也是起到类似的作用。诸如ChatGPT这样的大模型应用，某种程度上就是相当于封装了各行各业的知识或具体任务的方法。大模型的诞生将大幅降低我们获取知识的成本。

所有这些大模型本质上都是经过预训练的模型，而且大都是基于Transformer架构。Transformer和CNN都是深度学习中常用的神经网络架构。与CNN不同，Transformer模型引入了自注意力机制（self-attention mechanism），使得模型能够在处理序列数据时捕捉到更长距离的依赖关系，从而更好地建模语义信息。需要指明的是，尽管Transformer在计算机视觉领域取得了一些成功，但CNN仍然在许多领域中表现出色，尤其是在处理具有空间局部性和平移不变性的图像数据时。因此，目前CNN仍然是许多计算机视觉任务的首选模型。

Transformer架构最初被广泛应用于自然语言处理领域，尤其是在机器翻译任务中取得了重大突破。随着Transformer的成功，人们开始投入更多的资源将其应用于计算机视觉（CV）领域。研究者们发现，在一些计算机视觉任务中，如图像分类、目标检测和图像生成等，使用Transformer模型可以取得与或甚至超过传统的CNN模型相媲美的性能。此外，由于Transformer模型的并行计算能力和扩展性较好，它还被应用于处理高分辨率图像和视频等大规模数据的任务中。

要想在边缘侧和终端侧实现大模型应用，也势必将要部署Transformer。不同于云端，在边缘侧和端侧部署Transformer模型面临的最大挑战之一是功耗。功耗的问题需要从两方面来解决：一方面是从算法侧入手，需要在算法侧通过剪枝、量化和低比特等技术进一步优化和压缩大模型，以减少其计算和存储需求，从而降低功耗。另外一个在硬件层面，考虑到GPU的成本和功耗，行业需要寻找更高效的硬件加速器和低功耗的芯片设计，提供高效的计算能力。

AX650N成为端侧、边缘侧Transformer最佳落地平台

2023年3月，爱芯元智推出了第三代高算力、高能效比的SoC芯片——AX650N，依托其在高性能、高精度、易部署、低功耗等方面的优异表现，AX650N受到越来越多有大模型部署需求用户的青睐，并且成为业内首屈一指的Transformer端侧、边缘侧落地平台。

为什么说AX650N是业内最佳Transformer落地平台呢？目前行业一般采用SwinT网络作为衡量Transformer的一个基本指标。在爱芯元智AX650N上跑SwinT网络，可以达到361FPS的高性能、80.45%的高精度、199 FPS/W的低功耗以及原版模型且PTQ量化的极易部署能力，这四大能力都让AX650N在Transformer的落地中具有领先的优势地位。

首先，361帧的高性能可以媲美英伟达自动驾驶领域的AGX平台（大约跑400帧以内），而且在成本方面具有很大的优势；其次，每瓦199帧体现了低功耗，相比NVIDIA的AGX整体的TDP大概是15到60瓦；最后，对客户来说，易部署也是其很大的卖点，GitHub上的原版模型可以AX650N上运行，不需要对模型做修改，不需要QAT重新训练，而且可以达到80.45%的高分类正确率，这高于市面上的平均水平。

AX650N不仅仅可以运行SwinT网络，AX650N还已适配包括ViT/DeiT、Swin/SwinV2、DETR在内的Transformer模型。AX650N运行DINOv2大模型能达到30帧以上运行结果，这也使得用户在下游进行检测、分类、分割等操作更加方便。

在模型压缩方面，前文中我们提到了一些在算法层面的压缩方法，如剪枝、稀疏等，爱芯元智联合创始人、副总裁刘建伟指出，低比特也是压缩模型的一个方法，而且是对硬件最友好（便宜）的方式。在这方面，AX650N支持低比特混合精度，如INT4。这样的好处在于，一般大模型的参数是比较大的，如果能采用INT4，可以极大地减少内存和带宽占用率，有效控制端侧边缘侧部署的成本。

“为什么我们会对Transformer支持比较好，简单概括就是我们有一个全面优化的设计，还有一个高性能的多核架构。我们的NPU在设计初期采用了异构多核的结构，其中包含一个具有一定可编程性的核，这为Transformer网络的使用提供了灵活性。同时，在设计过程中我们也考虑到了某些网络对数据需求量较大的情况，并在架构上进行了一些预留。这样的设计使得我们的Transformer在运行时表现得相对较快。

最终从客户的体验来看，客户能够体会到我们平台是比较好用、易用，好用是性能比较高，它能够实时跑更多的应用，对场景的适应性比较强；易用是他上手速度比较快，客户最终接触到的是一个软件界面，只需将他们的模型以标准的ONNX格式导入我们的软件，就可以做一些编译的操作，量产周期也能缩短。”爱芯元智相关负责人指出。“有客户反馈，拿到我们的开发板和文档，基本上一个小时就能够完成demo的复现以及他们自己的私有网络在板子上运行。”

为了能够便于对Transformer感兴趣的同学、工程师以及开发人员能够开发深度研究，探索更丰富的产品应用。爱芯元智正在开发基于AX650N的爱芯派Pro开发板。

综上，无论是从性能还是部署这两方面来看，爱芯元智的AX650N平台正在成为业内首屈一指的Transformer端侧、边缘侧落地平台。

端侧和边缘侧AI应用迈上一个新台阶

在端侧和边缘侧加速AI应用一直以来都备受关注。特别是在一些标准化的应用领域，如人物识别、车辆识别和车牌识别等，目前已经取得了显著的成果，因为这些需求非常迫切。然而，在更通用的场景中，智能技术的效果并不是特别出色。换句话说，在这些场景中，要想实现良好的效果，通常需要进行更加针对性的投入。然而，由于客户可能不愿为此支付过高的成本，这导致了在更通用的应用场合中，智能技术的落地进展并不顺利。

但现在，随着在大型预训练模型的崛起中，我们看到了边缘场景中AI智能成本降低的希望。这些模型可能不再需要对每个细分场景进行全面定制，而是通过将预训练的大型模型应用于特定场景，便能取得出色的效果。“虽然大家已经看到了这些模型能够解决一些长尾问题，但要在实际场景中完全实现落地，我认为还需要一些时间。不过未来在AI端侧和边缘侧，我们可以预见AI应用将迈上一个新台阶。”爱芯元智相关负责人表示。

ChatGPT爆火之后，国内关于大模型应用的开发如火如荼，不夸张地说已经进入“百模大战”。一旦这些模型开始商业化，成本效益必然成为一个关键诉求。刘建伟表示：“最初提到的训练模型可能都是基于GPU，但在实际落地时，为了降低成本，则采用更高能效比的解决方案。这样才能最终实现对用户来说获取大模型知识接近于免费或者成本很低，而整体运营成本则集中在提供大模型的一方。这也是大模型提供方必然对成本向下诉求的原因。因此，随着时间的推移，我们将努力不懈地在基础路线上改进，并提供更高效的部署平台。”

对此，爱芯元智创始人、CEO仇肖莘女士指出，爱芯元智将在成为人工智能算力平台型公司的道路上继续探索，加速基于Transformer的大模型在端侧、边缘侧落地的节奏，“爱芯元智将继续努力打造基于芯片+软件的端侧、边缘侧人工智能算力平台，让智能落实到生活的真实场景，最终实现普惠AI造就美好生活的企业愿景”。

写在最后

在这个即将到来的大模型时代，“GPU向上”意味着GPU更加适用于云侧等高性能计算场景，“NPU向下”代表NPU使用趋势是向更低功耗、边缘设备上的应用方向发展。GPU与NPU将是大模型应用落地的双重引擎。

在国内众多基于Transformer架构的大模型即将呱呱坠地的时间节点下，爱芯元智为部署Transformer提供了AX650N这样一个优秀的平台。借助AX650N平台，研究人员、开发者和企业将能够更加充分地挖掘和发展大型模型的潜力，更加迅速地将基于Transformer的大型模型应用到实际场景中。

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3420期内容，欢迎关注。