AI芯片，全面对比！

2023-10-19 01:10

摘要

人工智能（AI）方法在科学应用中变得至关重要，有助于加速科学发现。大语言模型（LLM）由于其跨领域的卓越泛化能力，被认为是解决一些具有挑战性的问题的很有前景的方法。模型的有效性和应用程序的准确性取决于它们在底层硬件设备上的有效执行。专门的人工智能加速器硬件系统可用于加速人工智能相关应用。然而，这些人工智能加速器在大语言模型上的性能比较此前尚未被研究过。在本文中，我们系统地研究了多个人工智能加速器和GPU上的LLM，并评估了它们在这些模型中的性能特征。我们用（i）使用Transformer block的微基准、（ii）GPT-2模型和（iii）LLM驱动的科学用例GenSLM来评估这些系统。文章展示了我们对模型性能的发现和分析，以更好地理解人工智能加速器的内在能力。此外，我们的分析也考虑了关键因素，如序列长度、缩放行为、稀疏性和对梯度累积步骤的敏感性。

I.介绍

将人工智能（AI）用于科学已经引起了科研机构和超级计算设备越来越多的兴趣，目的是通过涉及AI的新方法加速科学发现。这种协同作用增加了人们对采用新型人工智能驱动技术的兴趣，以帮助开发复杂科学问题的解决方案，如蛋白质结构预测、宇宙学参数预测、中微子粒子检测、医学药物设计、基因组模型和天气预报模型等。最常用的人工智能技术包括进化神经网络、递归神经网络、图神经网络和大语言模型（LLM），这些技术以其独特的结构特征，能够有效帮助科学家进行研究。近年来，人工智能中的自然语言处理领域经历了巨大的增长，这极大促进了LLM的发展，使其能够用于各种任务，如问答、文本摘要和语言翻译。这些模型在科学的AI应用中将变得越来越重要。

LLM，如Generative Pre-trained Transformers（GPT）GPT-3、LLaMA、LLaMA 2和Bloom，其复杂性以及模型输出结果质量都有了巨大的提高。这种增长的部分原因是基于Transformer的模型的迅速发展，它既是传统应用程序的事实架构，也是科学用例的有力工具。从加速药物发现到理解基因序列，基于Transformer的架构已经部署在许多应用上。例如，GenSLM提供了一个基于LLM的基础模型来预测Sars-CoV2变异毒株。它的优势在于它能够为设计有效的抗病毒药物提供信息。GenSLM模型是在超过1.1亿个原始核苷酸序列的广泛数据集上训练的，模型规模在2500万至250亿个可训练参数之间。然而，训练具有大模型参数和较长序列长度的GPT变体LLM需要专门的计算资源和软件堆栈，从中实现技术创新和优化。

为了满足这些需求，出现了基于非传统架构（如数据流）设计的人工智能加速器。这些加速器是定制的，以其强大的硬件计算引擎和新颖的软件优化有效支持人工智能工作负载。它们被证明可以有效地训练多种人工智能模型，其中特别关注LLM的训练。凭借其独特的系统特性，这些人工智能加速器能够应对LLM带来的挑战。这些加速器除了提供一套预先训练的GPT模型外，还能够运行一些最大规模的GPT模型。这些模型展示了人工智能加速器的多功能性和可扩展性。随着LLM的规模和复杂性的增加，创新的训练技术变得至关重要，以进一步增强具有数十亿参数的LLM的训练。

在不同的硬件平台上评估LLM对于理解传统和非传统体系结构的能力和局限性至关重要。先前的工作已经在超级计算机上研究了LLM，并使用传统的深度学习基准来提供对其能力的详细评估与分析。然而，之前的研究尚未对各种人工智能加速器进行全面评估，尤其是LLM。本文旨在通过对多个人工智能加速器上的大语言模型进行详细的性能评估来解决这一差距，这是我们所知的第一个此类基准研究。本文的主要贡献是：

对最先进的人工智能加速器上的LLM进行了系统评估。
专注于Transformer block微基准，它是基于GPT的模型中的核心组件。
对GPT-2 XL 1.5B参数模型进行全面评估，以深入了解所有系统的模型性能。
科学应用的移植和评估：GenSLM，基因测序的基础模型。
研究序列长度、稀疏性和梯度累积步骤对模型吞吐量的影响。

我们在第二节中概述了LLM和各种人工智能加速器，然后在第三节中介绍了评估模型的细节，即Transformer block微基准、GPT-2XL和GenSLM应用。我们在第四节中描述了LLM在不同人工智能加速器上的实现。我们在第五节中展示了实验结果，然后在第六节中给出了结论。

II.大语言模型和人工智能加速器综述

大语言模型是一种使用深度学习算法处理和生成自然语言文本的人工智能系统。近年来，由于这些模型能够执行广泛的语言相关任务，如机器翻译、文本摘要和问答，因此它们越来越受欢迎。深度学习技术的进步推动了大语言模型的发展，特别是在Transformer模型领域。这些模型使用自注意力机制来处理文本输入，使它们能够捕捉语言数据中的复杂模式和关系。他们还使用无监督学习技术在大型数据集上进行预训练，如掩蔽语言建模和上下文预测，这有助于他们学习广泛的语言特征和结构。对特定任务进行微调可以进一步提高它们的性能和适应性。

最著名的LLM之一是GPT（Generative Pretrained Transformer）系列，它由OpenAI开发，用于回答问题、翻译语言和生成文本。这些任务是通过在未标记文本的不同数据语料库上生成语言模型的预训练来实现的，然后对特定任务进行有区别的微调。微调过程中的任务感知输入转换有助于在对模型架构进行最小更改的情况下实现有效转移。由于神经元结构的差异，GPT模型可以大致分为GPT、GPT-2、GPT-3和最近的GPT-4。

由基于GPU的系统和新型非传统人工智能硬件（如数据流架构）组成的人工智能加速器已被证明可以提高各种人工智能模型的效率。下面我们将介绍本研究中使用的加速器，配置列于表I中。

表一：评估的人工智能加速器的特性

Nvidia A100：A100 GPU由6912个CUDA内核和432个Tensor内核组成，用于加速并行工作负载。在单个DGX节点上，有4个A100 GPU，与NVLink互连。我们使用微软Megatron-DepSpeed框架的分叉实现进行评估。在这样做的过程中，我们可以充分利用DeepSpeed的各种优化和方便的功能，如ZeRO卸载和自动度量跟踪（带有通信+FLOP分析）。所有实验都是在Argonne Leadership Computing Facility（ALCF）的Polaris超级计算机上进行的，每个节点有4个A100 GPU和40 GB内存。

Cerebras CS-2：Cerebras CS 2是一款晶圆级深度学习加速器，包括85万个处理内核，每个内核提供48KB的专用SRAM内存，芯片总容量为40GB，并相互连接以优化带宽和延迟。该系统已扩展到通过SwarmX结构和MemoryX存储子系统互连的两个CS-2 waferscale引擎节点，以启用大型模型。晶圆级集群支持重量流执行模式，其中每个模型层逐个加载。该功能允许用户运行大语言模型，其中每一层的权重都适合内存，但不适合整个模型。该软件平台集成了流行的机器学习框架，如PyTorch。对于单个Cerebras CS-2，支持的最大模型是GPT-3（175B参数模型），CS-2可以支持高达58k的序列长度。

SambaNova SN30：SambaNova DataScale系统使用第二代可重构数据流单元（RDU）处理器来实现最佳的数据流处理和加速。每个RDU具有1280个模式计算单元（PCU）和1TB的片外存储器。该系统由八个节点组成，每个节点有八个互连的RDU，以实现模型和数据的并行性。SambaFlow，其软件堆栈，从PyTorch机器学习框架中提取、优化数据流图并将其映射到RDU。SN30可以在4个RDU上训练多达176B参数的模型。

Graphcore Bow Pod64：Graphcore22 PB级的Bow Pod 64系统是Graphcore的最新一代加速器。它是一个单机架系统，由64个带有自定义互连的Bow级IPU组成。Graphcore软件堆栈包括Poplar SDK，并支持TensorFlow和PyTorch。Bow系统目前支持具有256个IPU的GPT-3 175B参数模型。

Habana Gaudi2：Habana Godi2处理器具有两个矩阵乘法引擎（MME）、24个完全可编程的VLIW SIMD张量处理器内核，将24个100 GbE端口的聚合以太网RDMA（RoCE）集成到每个处理器芯片中，以有效扩展训练。Gaudi系统由一个HLS-2服务器和八个Gaudi HL-225H卡组成。软件堆栈包括SynapseAI堆栈，并支持TensorFlow和PyTorch。它支持现有的深度学习优化库DeepSpeed和定制库Optimum Habana，后者是Transformer库和Habana的Gaudi处理器（HPU）之间的接口。在Gaudi系统上，目前验证的最大模型是在384张Gaudi 2卡上运行的GPT-3（175B参数模型）。

AMD MI250：AMD MI250 GPU基于CDNA2架构，由分布在208个计算单元上的13312个流处理器组成，并配有128 GB专用HBM2e内存，内存带宽为3.276 TB/s。它能够实现FP16的362.1 TFlops和FP32的45.3 TFlops的峰值性能。每个GPU使用PCIe Gen4连接到主机，并使用InfiniBand进行节点间通信。AMD ROCm开放软件平台支持常见的DL堆栈，包括Tensorflow和PyTorch，以及rocBLAS、rocSPARSE、rocFFT和RCCL（ROCm集体通信库）等库。

III. 评估

在这项工作中，我们主要关注评估（i）Transformer基准，（ii）GPT 2-XL模型，以及（iii）科学应用GenSLM（这是一种基因组测序的基础模型）。

（1） Transformer微基准：要评估AI加速器上Transformer基准的性能，必须考虑几个关键因素。首先，重要的是选择适当的微型基准，以反映所使用的Transformer模型的工作量。一旦选择了合适的微基准，就有必要收集性能指标，例如吞吐量，这可以通过测量每秒处理以完成一定数量迭代的输入数量来完成。此外，监控硬件资源（如内存和计算单元）的利用率也很重要。最后，建议将传统NVIDIA GPU的性能与其他AI加速器进行比较，以更全面地了解它们的优缺点。通过仔细评估这些因素，可以有效预测AI加速器上Transformer模型的性能。

Transformer block（图1）是基于Transformer模型的一个广泛认可和建立的微观基准。由于几个原因，Transformer block是微型基准的理想选择。首先，它是自然语言处理任务（如语言建模和文本生成）中广泛使用的构建块，使其成为许多LLM应用程序的相关基准。其次，与较大的Transformer模型相比，Transformer block相对简单且尺寸较小，这使得运行和评估更容易。这也允许在评估新硬件架构时进行更快的实验。最后，Transformer block包括Transformer模型的许多关键组件，包括自注意层和前馈层，使其成为Transformer模型的合适代表。总的来说，Transformer block是一个公认且广泛接受的微型基准，是评估LLM模型性能的绝佳选择。

图1：GPT transformer block

Transformer block由一个多头自注意层和一个前馈神经网络层组成。Transformer block的输入是一个令牌序列。在这项工作中，我们评估的输入序列的长度为1024。为了计算Transformer block的FLOP，我们需要考虑每层所需的操作次数。自注意层需要O(n2d)FLOP，其中n是序列长度，d是隐藏维度。前馈神经网络层需要O(ndk)FLOP，其中k是隐藏层的大小。因此，Transformer block的FLOP的总数为O(n2d+ndk)。

（2） GPT-2XL：在这项研究中，我们使用GPT-2XL 1.5B参数模型进行预训练实验，以分析加速器在运行大语言模型时的性能。尽管如第二节所述，被评估的系统可以单独支持更大的模型和不同的配置，但我们选择GPT-2 XL是因为它可以及时在每个系统上轻松实现，以便进行公平的比较。此外，GPT-2大小的模型的内存和计算需求与每个系统上的最小计算单元节点非常匹配；因此，这里获得的测试结论可以扩展，以帮助推动选择加速器的决策，这些加速器可以为任何给定的基于Transformer的大模型架构产生最佳性能。本次评估中使用的数据集是开放式Web文本（OWT），它是WebText语料库的开源版本。它由8013769个文档中的38 GB文本数据组成，这些文本数据是从Reddit上共享的URL中提取的内容，至少有三次投票支持。对于这个模型，我们测量了每个系统上器件规模的模型吞吐量。此外，我们还评估了序列长度、梯度累积（GAS）和稀疏性对模型性能的影响。

（3） GenSLM（科学用例）：除了上面描述的基准之外，我们还对评估这些模型在现实世界用例中的表现。GenSLM是一个基因组的基础模型，可以推广到其他模型。该模型的目标是识别和分类不同的病毒变异毒株，然后可以将其扩展到基因或蛋白质合成。它采用基于GPT的具有不同参数的大语言模型（25M-25B）和1.2B的原始核苷酸数据集，旨在获得更大的序列长度，以帮助更好地捕捉上下文，并可推广用于学习进化。图2显示了GenSLM模型的概述，该模型以SARS-CoV-2基因组（在密码子水平编码的核苷酸序列，其中每三个核苷酸代表一个密码子）为输入，将其输入到一系列转换层。中间层学习单个密码子的语义嵌入，可以将其映射到29个单独的病毒编码的蛋白质序列。在本研究中，我们重点评估了Nvidia A100、SambaNova SN30上具有13B参数的GenSLM GPT模型和Cerebras CS-2上的25B GPT3-XL模型。

图2：用于严重急性呼吸系统综合征冠状病毒2型进化预测建模的GenSLM模型概述

度量：评估大语言模型的性能超出了传统的度量，包括计算效率和硬件利用率的考虑。随着这些模型的规模和复杂性的增长，评估它们有效处理和生成文本的能力至关重要，尤其是考虑到训练和推理所需的计算资源。吞吐量是衡量大型语言模型处理给定数量输入数据的速率的关键性能指标。它通常以每秒处理的令牌或语句来量化。更高的吞吐量值表示更好的效率和有效处理大规模语言处理任务的能力。在这项工作中，我们以每秒令牌数的形式展示了评估系统的吞吐量。

硬件利用率是评估大语言模型的另一个重要指标，因为它评估了在模型训练和推理过程中计算资源的有效利用率。它涉及多种设计选择，如模型并行性、内存管理和高效的数据处理技术。分析模型以提取评估系统的硬件利用率的工作正在进行中，并将包含在报告的最终版本中。

IV. AI加速器的实现

由于不同的软件堆栈和规模，评估模型在每个系统上的实现方式各不相同。在这里，我们描述了三种情况下每个系统的实现细节：Transformer微基准测试、GPT-2XL预训练和GenSLM科学应用。

A. Transformer微基准

Transformer微基准的评估涉及一个细致的实施过程，旨在评估该内核在不同AI加速器上的计算效率和性能特征。Transformer微基准是为了模拟Transformer模型中的内核操作而设计的，广泛用于各种自然语言处理任务。Transformer微基准使用标准化GPT-2XL模型中的一层，输入序列为1024，确保不同平台之间的结果一致且可比较。实现是使用相同的深度学习框架PyTorch进行的，PyTorch针对每个平台的独特功能进行定制。工作负载用于利用并行性和特定于硬件的优化，并实现最佳吞吐量和计算速度。我们会仔细注意批量大小等因素，以避免瓶颈并充分利用可用的硬件资源。

对于不同的配置，我们使用8、16、32和64的批量大小。收集性能指标，如TFLOPS，以量化每个硬件平台在处理Transformer模型所需的苛刻计算方面的能力。该评估为处理基于Transformer的工作负载时不同硬件的优势和劣势提供了有价值的见解。

B. GPT-2 XLA预训练

作为GPT-2 XL研究的一部分，我们在OWT数据集上预训练模型，其中对给定序列长度的原始数据进行预处理和标记。下面描述每个系统的标记化和模型实现的细节。

Nvidia A100：我们在不同的节点计数上运行了具有不同微块大小、序列长度和张量平行度的模型，最多可达64个A100 GPU。这些都是用Megatron-DeepSpeed实现的，使用的是fp16精度的ZeRO Stage 1。在这些实验中，启用了flash-attn，这可以缓解内存压力，通常可以提高吞吐量。实验使用了2k的序列长度。使用Nvidia的NeMo生成人工智能框架进行的实验是未来计划工作的一部分。

Cerebras CS-2：在Cerebra CS-2系统上，我们在单个CS-2引擎上运行在PyTorch框架中实现的GPT-2 XL模型，序列长度为1024和2048，批量大小为112。该实现使用了一个基于字节对编码（BPE）的自定义GPT-2标记器，vocab大小为50257。使用1（默认值）和2的混合精度和精度选择级别来训练模型。它使用了一个AdamW优化器，其权重衰减率为0.011。该模型使用密集和稀疏配置进行训练。在稀疏性方法中，基于所提供的程度来稀疏密集层的所有权重。我们运行了具有各种稀疏性值的GPT-3 6.7B和GPT-3 30B模型。这里，稀疏度值为0.3意味着修剪了30%的权重。第V节将讨论稀疏性对模型吞吐量和损失的影响。

SambaNova SN30：我们评估了SambaNovas下一代SN30上OWT数据集的预训练性能，它的每个节点有8个RDU，每个RDU有8个Tile。我们使用了适用于4个Tile或半个RDU的GPT-1.5B模型的SN参考实现。该实现基于PyTorch的SambaFlow框架，使用混合精度（16位乘法器和32位累加器）。它使用基于BPE的GPT-2标记器，vocab大小为50260。我们使用数据并行性来跨多个Tile和节点进行扩展。我们最多可扩展8个节点（对应于128个数据并行运行实例），每个实例的微批大小为16。

Graphcore Bow Pod64：在Bow Pod 64上，我们利用64个IPU来训练评估的模型。在PyTorch框架中实现的GPT-2 XL 1.5B模型可以跨4个IPU进行模型划分。作为数据预处理的一部分，该实现使用Nvidia的Megatron库来生成具有BPE标记器和50272的vocb大小的训练样本。Poplar SDK使用多指令多数据（MIMD）方式的映射来利用IPU并行进行计算和通信。我们在FP16中使用了1的局部批量大小，并结合了128和1024的大梯度累积步长值。这样大的值有助于最小化通信开销，因为它模拟了更大的全局批量大小。特别是对于较小的GAS值，我们使用了1、2、4和16的复制因子来实现更好的扩展。

Habana Gaudi2：我们在PyTorch中运行了GPT-2 XL模型，每个HPU设备的序列长度为1024，本地批量大小为32。在Habana Gaudi2上对GPT-2 XL模型进行的训练代表了软件和硬件功能的强大组合。训练中使用的数据格式为BF16。训练样本是使用BPE标记器生成的。

AMD MI250：在AMD MI250系统上，我们评估了GPT-2的性能，其中在多达8个GPU的OWT数据集上训练的绝对位置中，使用因果语言建模（CLM）目标进行嵌入。我们使用了基于字节对编码的GPT-2标记器，并使用了Hugging Face中的PyTorch 2.0参考设计来实现这一点。针对1024的序列长度、每个GPU 16和32的批处理大小以及1和4的GAS值来评估性能。

C. GenSLM

我们在Nvidia A100、SambaNova SN30和Cerebras CS-2上实现了GenSLM科学应用程序。在三个系统上，均使用PyTorch框架实现该模型。它使用基因组序列数据集，并使用密码子级标记器将其标记化，该标记器将基因组拆分为3个核酸块。由于GenSLM应用程序包含多种模型，它们的模型参数数量从25M到25B不等，因此我们在本实验中使用了两种不同的模型参数大小。

GenSLM的SN30实现基于GPT-2 13B参数模型，该模型使用1024的上下文长度、44层、64个注意力头、4992的嵌入大小和71的词汇表大小。该批量大小为32的GPT-2 13B参数模型可以映射在4个Tile内或相当于半个RDU内。Cerebras上使用的模型是GPT-3 XL，这是一个1.5B参数的模型，有24个隐藏层和16个注意力头。该模型使用70的词汇大小和2048的嵌入大小。该模型针对序列长度为10240且局部大小为27的基因组序列进行训练。其他模型参数类似于上面列出的GPT-2XL实现细节。GPT3-XL模型在两个CS-2上进行了缩放，以提供54的全局批量大小。在Nvidia A100上，我们使用了一个相同的GPT-2 13B模型，该模型由40层隐藏维度和40个注意力头组成。

V. 结论

在本节中，我们介绍了三个评估案例的实验结果。我们从第V-A节中以三个精度评估的Transformer微基准开始。接下来，我们介绍了GPT-2 XL 1.5B参数模型的结果，重点是第V-B1节中的可扩展性、第V-B3节中的GAS研究、第V-B2节中的序列长度分析和第V-B4节中的稀疏性研究。最后，我们详细介绍了GenSLM模型在三个系统上的实验结果，这些系统具有三种尺寸的模型：SectionV-C中的1.5B、13B和25B个参数。

A.Transformer微基准

在单个NVIDIA A100 GPU、SambaNova SN30 RDU、Graphcore Bow IPU、Habana Gaudi2和AMD MI250上的Transformer微基准评估结果如图3和图4所示，显示了FP32、FP16和BF16三种精度的前向和后向通道的吞吐量。与A100的2039 GB/s相比，Mi250具有更高的内存带宽（3276.8 GB/s），更高的带宽能够用于提高单精度的性能。但是MI250的总效率低于A100。

图3：Transformer微基准在不同精度的正向通道中的吞吐量评估

图4：Transformer微基准在不同精度的后向通道中的吞吐量评估

据观察，NVIDIA A100 GPU得益于其先进的张量内核和并行处理能力，展示了基线吞吐量。FP16和BF16精度的吞吐量比FP32高约4倍。A100的单精度理论性能是半精度理论性能的两倍。由于使用半精度减少了内存访问，可能会带来额外的性能改进。SambaNova SN30具有可重新配置的数据流架构，在BF16精度方面表现出令人印象深刻的性能，展示了其使用半精度格式处理复杂Transformer工作负载的潜力。由于RDU上的管道化/融合执行，与任何管道一样，自然会有一个预热和冷却阶段。一批中的更多样本会具有更长的稳态行为和更高的有效吞吐量。由IPU提供动力的Graphcore Bow IPU在FP32和FP16精度方面表现出色，突出了其适用于NLP任务。同时，Habana Gaudi2在所有三种格式中都表现出强大的性能，强调了其在高效执行各种Transformer计算方面的能力。在后向通道中，我们认为这是由于硬件利用率更高，从而带来更高的吞吐量。AMD MI250利用其专用张量处理内核阵列，在后向传输中表现出显著的加速和一致的吞吐量。

B.GPT-2 XL

对于该模型，我们将设备数量的不同配置的预训练吞吐量作为缩放研究。稍后我们将讨论序列长度和梯度累积步骤对模型吞吐量的敏感性。

1）缩放研究：这部分，我们展示了在不同系统上缩放GPT-2XL模型的发现。由于资源的可用性，缩放研究中使用的设备数量因系统而异。我们使用了64个Nvidia A100 GPU、2个CS-2引擎、64个SambaNova SN30 RDU、64个Graphcore Bow IPU、4个AMD MI250 GPU和64个Habana Gaudi2 HPU。图5显示了设备数量的增加，对模型吞吐量（以log为单位）的影响。需要注意的是，每个系统上使用的精度是不同的，并且每个系统上的批量大小都针对该配置进行了调整。

图5:GPT2-XL缩放研究显示，序列长度为1K的加速器数量增加对吞吐量（以log为单位）的影响。

表II列出了每个评估系统上设备数量对加速以及缩放效率的影响。这项研究的一个引人注目的观察结果表明，在16个SN30 RDU、2个CS-2和16个IPU上训练的模型优于在64个A100上的运行。此外，Gaudi 2具有104%的最高缩放效率，这是由于Synapse软件堆栈的优化，这些优化有助于最大限度地减少跨多个HPU划分模型和数据的开销。紧随其后的是Bow Pod64，其缩放效率达到100%。超线性缩放是通过使用复制张量分片来实现的——随着缩放的增加，DRAM I/O上的重量加载压力降低，IPU链接被用来交换重量张量的分片。此外，Bow IPU有900 MB的SRAM，目前它不使用DRAM来运行，因此，由于SRAM大小的限制，我们无法将其安装到单个IPU中。我们使用4个IPU，并行运行管道，模型层分布在IPU上。Cerebras CS-2的缩放效率为95.7%，这证明了具有专用节点的权重流技术的效率，MemoryX用于保存所有模型权重，SwarmX用于将这些权重流式传输到计算引擎。值得注意的是，SN30和MI250的缩放效率约为80%，高于75.8%的A100。

表II：GPT-2 XL模型的缩放行为研究

结果表明，随着模型在越来越多的设备上运行，所有评估的加速器都表现出了更高的吞吐量。尽管计算成本很高，但使用更多的设备可以更好地训练具有大量参数的模型。随着模型大小按万亿参数的顺序扩大，在不断增加的设备数量上运行它们可能是不可行的，从而强调了实施新方法的必要性，以在给定计算预算的情况下优化训练模型的时间。

2）序列长度的影响：近期的研究强调了在大语言模型任务中缩放序列长度（缩放到1B以上的令牌）的必要性。在GenSLM科学应用中，大的上下文长度在合成基因组数据方面极其重要。因此，我们研究了GPT-2模型的序列长度缩放的影响，并在Nvidia A100、SambaNova SN30和Cerebras CS-2上给出了结果，并由于支持有限或正在进行的工作而排除了其他结果。在本研究中，我们在A100和Cerebras系统上使用了GPT-2XL 1.5B参数模型，Cerebras CS-2和SambaNova SN30都使用了GPT2-13B参数模型。正如我们从表III中看到的，Nvidia A100至少需要4个设备来适应较小序列长度的数据集。另一方面，SambaNova SN30和Cerebras CS-2由于其大的本地内存和计算架构，可以在单个计算设备上适应具有较长序列长度的模型。SambaNova SN30可以适应13B参数模型，序列长度从1K到64K不等，所有这些都在一个RDU上。我们在数据并行模式下在一个节点上运行该模型的8个实例，并给出了结果。我们可以预见，随着序列长度的增加，吞吐量会下降。此外，从32k的序列长度来看，该实现使用分段softmax实现。对于GPT-2XL模型的CS-2系统，当序列长度从1K增加到8K时，我们可以看到序列长度影响吞吐量的趋势。

表III：序列长度对模型吞吐量的影响

3）梯度积累积的影响：大语言模型，尤其是那些具有数十亿参数的模型，在训练过程中会消耗大量内存。梯度累积允许在更新模型的权重之前在多个小批量上累积梯度。与处理每个单独的小批量后更新模型相比，这减少了内存需求。当使用内存容量有限的硬件时，这一点尤为重要。在本研究中，我们研究了增加GAS值对模型性能的影响。

图6：GAS值对模型吞吐量的影响

图6（a）显示了A100和MI250 GPU上模型吞吐量对GAS值的敏感性。在这项研究中，我们测试了GAS值为1和4的性能，同时我们将批量大小和序列长度分别保持为16和1024。我们观察到，随着设备数量的增加，在GAS值饱和之前，较大的GAS值的吞吐量有所提高。我们看到，当微批量大小为1、张量平行度为1的GPT-2XL模型上的GAS值从1增加到4时，64个A100 GPU的模型吞吐量增加了1.74倍。

对于MI250 GPU，4个GPU的模型吞吐量增加了1.2倍。性能的提高可以通过处理GAS值增加的更多样本的能力来解释。此外，对于A100 GPU，当我们将本地批量大小为32的GAS值从1增加到32时，我们观察到模型吞吐量增加了1.74倍，从而证实了在相对较低的批量大小下，GAS值更容易增大。关于A100和MI250的本地批量大小和GAS值之间的权衡的详细研究正在进行中。图6（b）显示了SambaNova SN30系统上GAS值为1、4、8和16的每秒采样吞吐量。我们观察到，当与较小的本地批量相结合时，随着GAS值的增加，吞吐量增益是显著的。相反，增加GAS值对吞吐量的影响较小或没有影响，吞吐量在较大的本地批量时饱和。这一观察结果可归因于这样一个事实，即在较大的批量下，与通过减少优化步骤数量节省的时间相比，在反向通过计算的情况下加载梯度的额外任务非常耗时。

图6（c）显示了Graphcore POD16上模型吞吐量对GAS值的敏感性。在本研究中，我们考虑了复制因子为4的情况，即表明模型的单个实例（在4个IPU上分片）被复制4次，以跨越整个POD16系统。结果可以扩展到POD64的整个构架。正如我们所看到的，Graphcore可以支持从16到2048的非常大的GAS值。这是通过处理多个批次并将梯度聚合到累加器张量中而不增加内存使用量来实现的。SambaNova SN30在技术上也可以支持非常大的GAS值，尽管它对模型吞吐量的影响尚待研究。Cerebras梯度累积步骤（GAS）由Cerebras软件堆栈自动确定，以在给定所需全局批量大小和CS-2s数量的情况下驱动最佳吞吐量。鉴于用户调整该参数的功能有限，我们在本研究中排除了CS-2。

4）权重稀疏性对模型吞吐量的敏感性：稀疏性对于训练大语言模型很重要，这主要是由于几个因素，例如通过只存储非零参数提高了内存效率，由于减少了每个优化步骤中更新的参数数量而提高了训练速度，以及有效的可扩展性。它还有助于更快的推理，因为计算仅限于非零权重。在此，我们对模型稀疏性对Cerebras CS-2吞吐量的敏感性进行了研究。稀疏度反映了为加速训练而修剪的权重的百分比。从图7中可以观察到，模型吞吐量从密集模型（s=0）增加到高度稀疏模型（s=0.9）的变化。对于GPT-2XL模型，与完全密集模型（s=0）相比，我们观察到在具有极端稀疏性（s=0.90）的情况下吞吐量加速了1.8倍到2倍。此外，稀疏度对较大模型的吞吐量提高有更高的影响。对于GPT-3 6.7B，在单个CS-2上的密集模型上，0.9的稀疏度产生2.1倍，而对于GPT--3 30B，在单个CS-2上的密集模型上，0.9的稀疏度获得3.79倍。进一步扩展，与单个CS-2相比，8和16 各CS-2上的6.7B型号的加速系数分别提高了7.75倍和15.49倍。该实验表明，模型稀疏性可以显著提高吞吐量，并有可能帮助在相对较少的设备上运行更大的模型。

图7：不同稀疏度水平（0、0.6、0.8和0.9）对CS-2上模型吞吐量的影响

此外，图8显示了在3B令牌上训练的GPT-3模型的损失曲线，强调了与密集模型相比，稀疏性s=0.9的模型精度损失了15%。在预训练期间，训练损失与稀疏性值成正比。然而，模型的密集微调可以恢复这样的差距，正如Cerebras过去在稀疏预训练和密集微调框架上的工作所证明的那样。1.3B GPT-3XL模型以75%的稀疏性进行预训练，在减少2.5倍预训练FLOP的同时，下游任务精度没有显著损失。我们目前正在探索用于CS-2上的大型LLM模型的稀疏预训练密集微调技术。

利用开发的技术和Nvidia A100评估稀疏性对SambaNova SN30训练的影响的研究正在进行中，并将包含在论文的最终版本中。由于稀疏性在其他系统上的支持有限或没有，他们被排除在本研究之外。

C.GenSLM

表IV显示了GenSLM模型在Nvidia A100、SambaNova SN30和Cerebras CS-2之间的吞吐量，以每秒令牌数为单位进行测量。我们给出了三种模型大小的吞吐量：A100和CS-2具有1.5B参数模型，A100、SN30和CS-2带有13B参数模型以及CS-2带有25B参数模型。在A100、SN30和CS-2的情况下，所有实现都使用GPT-2 13B参数模型，并且用1024的序列长度进行训练。A100和SN30都使用32的微批量大小，但由于SN30可以在4个Tile上适应32微批量大小的13B模型，因此它可以在8个设备上并行容纳该模型的16个实例。对于表III中使用的相同型号，SN30和A100使用不同的批大小。

表IV:GenSLM模型性能评估

我们的观察结果表明，当我们考虑相同数量的计算单元或设备时，SN30的吞吐量比相同数量的A100显著提高了5.7倍。我们还发现，与8个A100相比，同一型号的一个Cerebras CS-2表现出了19倍的巨大加速。

当我们进一步比较在Nvidia A100和Cerebras CS-2上训练的1.5B参数GenSLM模型的性能时，出现了一个有趣的趋势。CS-2能够处理比A100 GPU上运行的序列长度长十倍的序列长度，同时比A100实现了显著的2倍加速改进。

这一严格的评估强调了这些加速器在解决大规模现实世界科学应用方面的重大贡献。它们在加速大规模科学应用领域的准确性方面发挥着关键作用。

D. 观察结果

这项对最关键的人工智能工作负载之一的全面基准评估得出了几个值得注意的观察结果。下面，我们将介绍一些有趣且有价值的见解。

•在单个设备中容纳相当大的模型的能力取决于可用的计算资源和内存容量。即使使用了强大的计算引擎，采用旨在最大限度地减少内存消耗的创新技术，特别是权重和激活等参数，也是至关重要的。
促进开源模型的执行和简化Hugging Face模型的扩展对于利用这些人工智能加速器进行大量新兴的人工智能科学应用非常重要。
实现人工智能加速器之间的公平比较是一个显著的挑战。差异源于局部/微批量大小、GAS值、模型副本数量和相关因素的变化。必须制定有利于公平比较的方法。
值得注意的是，GAS值的增加并不总是转化为超过某个阈值的性能改进。这种方法结合了对微批量大小的明智选择，可以在更大的批量大小下运行。
支持较长的序列长度对于捕获上下文、处理长期依赖关系以及在各种任务中表现出色非常重要。
随着即将推出的具有数万亿参数的模型以及满足更长序列长度的要求，硬件和软件设计必须进行定制，以最大限度地提高计算能力，同时最大限度地减少内存使用。

VI.结论

在本文中，我们对非传统硬件上的生成人工智能模型进行了广泛而全面的评估，重点是GPT模型、Transformer block的深入分析和科学应用（GenSLM）。此外，我们探索了GPT-2模型的缩放行为，以深入了解其性能特征。我们的一个重要观察结果是硬件固有的内存限制，这限制了可以安装在单个设备上的模型大小的可行性。它还需要分布式实现，例如数据并行，并增加设备数量。随着设备数量的增加，也观察到接近线性的缩放。此外，采用优化，如权重稀疏性，有助于有效减少分布式实现中的通信开销。

我们计划继续进行这项评估，重点关注更长的序列长度，并为新兴的科学应用生成具有代表性的人工智能基准模型。我们还希望将这项全面的基准研究扩展到更大的模型，如175B参数模型，以及具有不同架构的生成模型，如Llama。据观察，为了促进更大模型的有效训练，例如用于科学应用的人工智能中的万亿参数，利用非传统人工智能硬件将是至关重要的。优化除模型吞吐量之外的其他指标，如训练中的功耗和I/O，特别是在增加计算和利用更大数据集的情况下，也是至关重要的。

本文作者

Murali Emani、Sam Foreman、Varuni Sastry、Zhen Xie、Siddhisanket Raskar、William Arnold、Rajeev Thakur、Venkatram Vishwanath、Michael E. Papka

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3558期内容，欢迎关注。