如何跨越英伟达的CUDA护城河?
来源:内容由半导体行业观察(ID:icbank)编译自HPCwire,谢谢。
在讨论 GenAI 时,“GPU”这个术语几乎总是出现在对话中,并且话题常常转向性能和访问。有趣的是,“GPU”一词被认为是指“Nvidia”产品。(顺便说一句,GenAI 中使用的流行 Nvidia 硬件从技术上来说并不是图形处理单元。我更喜欢 SIMD 单元。)
GenAI 和 GPU 与 Nvidia 的合作绝非偶然。Nvidia 始终认识到需要工具和应用程序来帮助扩大其市场。他们为 Nvidia 硬件获取软件工具(例如 CUDA)和优化库(例如 cuDNN)设置了非常低的障碍。确实,Nvidia 被称为硬件公司,但正如 Nvidia 应用深度学习研究副总裁 Bryan Catanzaro 所言,“很多人不知道这一点,但 Nvidia 的软件工程师比硬件工程师还多。”
因此,英伟达围绕其硬件构建了强大的软件“护城河”。虽然 CUDA 不是开源的,但它是免费提供的,并且处于 Nvidia 的严格控制之下。虽然这种情况使 Nvidia 受益(理应如此。他们在 CUDA 上投入了时间和金钱),但也给那些希望通过替代硬件抢占 HPC 和 GenAI 市场的公司和用户带来了困难。
建立在城堡基础上
为 GenAI 开发的基础模型数量持续增长。其中许多是“开源”的,因为它们可以自由使用和共享。(例如, Meta 的Llama 基础模型)此外,它们需要大量资源(人员和机器)来创建,并且主要限于超大规模(AWS、Microsoft Azure、Google Cloud、Meta Platforms 和 Apple) )拥有大量可用的 GPU,除了超大规模之外,其他公司也投资了硬件(即购买大量 GPU)来创建自己的基础模型。
从研究的角度来看,这些模型很有趣,可以用于各种任务;然而,对更多 GenAI 计算资源的预期使用和需求是两倍;
微调(Fine-tuning)——将特定领域的数据添加到基础模型中,使其适合您的用例。
推理(Inference)——模型经过微调后,在使用时将需要资源(即提出问题)。
这些任务不仅限于超大规模企业,还需要加速计算,即 GPU。显而易见的解决方案是购买更多“不可用”的 Nvidia GPU,而 AMD 已经准备好等待,因为需求已远远超过供应。公平地说,英特尔和其他一些公司也准备好进入这个市场。关键是,随着微调和推理变得更加普遍,GenAI 将继续挤压 GPU 的可用性,并且任何 GPU(或加速器)都比没有 GPU 好。
放弃 Nvidia 硬件表明其他供应商的 GPU 和加速器必须支持 CUDA 才能运行许多模型和工具。AMD 通过HIP CUDA 转换工具使这成为可能;然而,最好的结果似乎往往是使用 Nvidia 城堡周围的本机工具。
PyTorch Drawbridge
在 HPC 领域,支持 CUDA 的应用程序统治着 GPU 加速的世界。使用 GPU 和 CUDA 时,移植代码通常可以实现 5-6 倍的加速。(注意:并非所有代码都能实现这种加速,有些代码可能无法使用 GPU 硬件。)但是,在 GenAI 中,情况却截然不同。
最初,TensorFlow 是使用 GPU 创建 AI 应用程序的首选工具。它既可以与 CPU 配合使用,也可以通过 GPU 的 CUDA 进行加速。这种情况正在迅速改变。
PyTorch 是 TensorFlow 的替代品,它是一个开源机器学习库,用于开发和训练基于神经网络的深度学习模型。Facebook 的人工智能研究小组主要开发它。
AssemblyAI的开发者教育者 Ryan O'Connor在最近的一篇博客文章中指出,流行的网站HuggingFace(允许用户下载经过训练和调整的最先进模型并将其合并到应用程序管道中,只需几行代码)的92% 可用模型是 PyTorch 独有的。
此外,如图一所示,机器学习论文的比较显示出转向 PyTorch 和远离 TensorFlow 的显著趋势。
图一:从 2017 年底开始,随着时间的推移,使用 PyTorch、TensorFlow 或其他框架的论文百分比,数据按季度汇总
当然,PyTorch 的底层是对 CUDA 的调用,但这不是必需的,因为 PyTorch 将用户与底层 GPU 架构隔离开来。还有一个使用 AMD ROCm的PyTorch版本,这是一个用于 AMD GPU 编程的开源软件堆栈。跨越 AMD GPU 的 CUDA 护城河可能就像使用 PyTorch 一样简单。
推理本能
在 HPC 和 GenAI 中,带有共享内存 H100 GPU 的 Nvidia 72 核基于 ARM 的Grace-Hopper 超级芯片(以及 144 核 Grace-Grace 版本)备受期待。迄今为止,Nvidia 发布的所有基准测试都表明,其性能比通过 PCIe 总线连接和访问 GPU 的传统服务器要好得多。Grace-Hopper 代表了 HPC 和 GenAI 的优化硬件。它还有望在微调和推理方面得到广泛应用。预计需求将会很高。
AMD从2006年开始就有共享内存的CPU-GPU设计(AMD于2006年收购了显卡公司ATI)。从“Fusion”品牌开始,许多 AMD x86_64 处理器现在都实现为组合 CPU/GPU,称为加速处理单元 ( APU )。
AMD 即将推出的 Instinct MI300A 处理器 (APU) 将为 Grace-Hopper 超级芯片带来竞争。它还将为劳伦斯利弗莫尔国家实验室即将推出的 El Capitan提供动力。集成的 MI300A 将提供多达 24 个 Zen4 核心,结合 CDNA 3 GPU 架构和高达 192 GB 的 HBM3 内存,为所有 CPU 和 GPU 核心提供统一的访问内存。芯片级缓存一致性内存减少了 CPU 和 GPU 之间的数据移动,消除了 PCIe 总线瓶颈并提高了性能和能效。
AMD 正在为即将到来的推理市场准备 Instinct MI300A。正如 AMD 首席执行官苏姿丰 (Lisa Su) 在雅虎财经最近发表的一篇文章中所说。“实际上,由于我们在架构中做出的一些选择,我们认为我们将成为推理解决方案的行业领导者。”
对于 AMD 和许多其他硬件供应商来说,PyTorch 已经在基础模型周围的 CUDA 护城河上放下了吊桥。AMD 已经准备好 Instinct MI3000A 战车。GenAI 市场的硬件之战将通过性能、便携性和可用性来获胜。人工智能时代还很年轻。
点击“阅读原文”,可参考英文原文。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3546期内容,欢迎关注。
推荐阅读
★ “瓜分CPU”
半导体行业观察
『半导体第一垂直媒体』
实时 专业 原创 深度
识别二维码,回复下方关键词,阅读更多
晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装
回复 投稿,看《如何成为“半导体行业观察”的一员 》
回复 搜索,还能轻松找到其他你感兴趣的文章!
微信扫码关注该文公众号作者