全球最大芯片缔造者，艰难替代英伟达

2023-07-21 01:07

来源：内容来自半导体行业观察（ID：icbank）综合，谢谢。

据路透社报道，Cerebras Systems 周四表示，已签署一项价值约 1 亿美元的协议，为阿拉伯联合酋长国科技集团 G42 提供三台人工智能 (AI) 超级计算机中的第一台。

此次交易达成之际，世界各地的云计算提供商正在寻找 Nvidia 公司芯片的替代品。Nvidia 公司是人工智能计算市场的领导者，由于 ChatGPT 和其他服务的迅速普及，其产品供不应求。Cerebras 是几家寻求挑战 Nvidia 的初创公司之一。

总部位于硅谷的 Cerebras 表示，G42 已同意购买三套其所谓的 Condor Galaxy 系统，所有这些系统都将在美国建造，以加快部署速度。第一个将于今年上线，另外两个将于 2024 年初上线。

总部位于阿布扎比的 G42 是一家科技集团，拥有 9 家运营公司，其中包括数据中心和云服务业务，该公司表示计划使用 Cerebras 系统向医疗保健和能源公司出售人工智能计算服务。G42 已从美国科技投资公司 Silver Lake 筹集了 8 亿美元，该公司得到了阿联酋主权财富基金 Mudabala 的支持。

G42 Cloud 首席执行官 Talal AlKaissi 告诉路透社，“Cerebras 拥有他们所谓的‘白手套’服务，让我们可以轻松”在其机器上构建人工智能系统。

“我们希望将一些过剩产能与 Cerebras 批发给来自世界各地的开源人工智能社区的客户，特别是在美国的生态系统中。”

Cerebras 首席执行官安德鲁·费尔德曼 (Andrew Feldman) 表示，完成周四宣布的三个系统中第一个系统的合同价值约 1 亿美元。

“我们想说的是，这份价值 1 亿美元的合同将带领我们完成秃鹰银河 1 号项目……这就是整个单元、构建模块。”

G42 Cloud 的 AlKaissi 拒绝就交易条款发表评论。

Cerebras 对大型人工智能芯片有宏伟计划

炒作人工智能芯片是一回事，但证明其在商业市场上的可用性是一个更大的挑战。 

一些仍在证明其芯片可行性的人工智能芯片公司正在建立自己的人工智能计算基础设施，以教育客户并证明其芯片的可行性。Cerebras Systems 则缔造了世界上最大的芯片，他们目前正在建立人工智能数据中心，将其实验性人工智能巨型处理器从实验室提供给商业客户

Cerebras 去年因其硬件协助 Covid-19 研究而获得了令人垂涎的戈登贝尔奖，该公司的硬件在学术界和国家实验室中享有盛誉，但商业扩张将使其硬件与基于英伟达 GPU 构建的计算基础设施展开竞争。主要云提供商包括谷歌、亚马逊、微软和甲骨文。 

这家只有几百名员工的公司正在寻求中东云提供商 G42（一家人工智能和云计算公司）的帮助，以创建人工智能基础设施。两家公司正在合作，到今年年底在美国本土建立三个商业人工智能数据中心。 

Group 42 在审查了 Cerebras 的初创公司后才从该公司购买了人工智能系统。 

“我们在构建和管理大型超级计算机方面拥有丰富的经验。我们拥有实施大规模生成式人工智能模型的经验。我们在操作清理和管理庞大数据集方面拥有深厚的专业知识，”Cerebras 首席执行官安德鲁·费尔德曼 (Andrew Feldman) 告诉 HPCwire。

但 Cerebras 在为其系统吸引商业客户方面面临着艰巨的道路。它很难取代英伟达，因为英伟达在人工智能市场的软件和硬件领域占据主导地位。包括微软和 Facebook 在内的大型商业企业都将人工智能的未来押在了 Nvidia 的 GPU 上。

Nvidia 还拥有自己的 GPU 数据中心，称为 Launchpad，开发人员可以在这里制作人工智能应用程序的原型。英特尔还利用自己的人工智能芯片建立了云服务，供开发人员和客户进行原型设计和运行应用程序。英特尔的开发云最近添加了数据中心 GPU Max 1100，供开发人员测试人工智能应用程序。 

Cerebras 和 G42 建造的三个数据中心将提供 12 exaflops FP-16 性能的聚合 AI 计算能力。Cerebras 在 Condor Galaxy 品牌下创建了三个新系统，每个系统都将提供 4 exaflops 的性能。

第一个系统名为 Condor Galaxy-1 (CG-1)，已部署在加州数据中心，将拥有 5400 万个核心。该公司将在明年增加更多的数据中心。

Feldman 表示，“到 2024 年底，它将扩展到……9 台 exaflops 机器，总共 36 exaflops”。

CG-1 AI 巨型集群汇集了 64 个 CS-2 系统，这是在 Cerebras 的 AI 芯片上运行的现有服务器产品。CS-2 已在美国能源部阿贡国家实验室和匹兹堡超级计算中心使用。

G42 被认为是中东云和人工智能领域的重量级企业，它将向想要训练大型语言模型的公司出售计算能力。G42 的目标客户是医疗保健、金融服务和制造等垂直行业的商业客户。

去年年底，OpenAI 的LLM ChatGPT 证明了大模型的前景，该项目在几个月内就获得了 1 亿用户。从那时起，谷歌、微软和其他公司都争先恐后地在搜索和生产力应用程序中实现自己的大语言模型。

大公司正在构建自己的模型，但由于 Nvidia GPU 短缺，计算能力稀缺。这为 Cerebras 这样的公司创造了机会，其人工智能芯片已被商业组织研究人员撰写的许多学术论文使用和引用。

“我们支持多达 6000 亿个参数，可扩展至 100 万亿个参数，”Feldman 说。谷歌和微软尚未报告LLM中支持其搜索和生产力应用程序的参数数量。

G42 得到穆巴达拉的支持，穆巴达拉由阿联酋政府资助。穆巴达拉在 2019 年大规模抛售之前还拥有 AMD 的股权。费尔德曼在他的服务器初创公司 SeaMicro 于 2014 年被该芯片制造商吸收后，曾受雇于 AMD。

考虑到半导体和人工智能在贸易和政策中的重要性，阿联酋政府与 Cerebras-G42 伙伴关系的潜在联系会带来阴谋论，但费尔德曼表示，没有任何担忧。

“我们构建了最快的人工智能处理器，我们构建了最快的人工智能系统。当然，我们与[美国]商务部和监管机构合作。我们正在与他们合作。我们了解规则是什么，”费尔德曼说。

Cerebras 的 CG-1 执行模型依赖于一种称为“权重流”的技术，该技术将内存、计算和网络分解为单独的集群。AI计算主要取决于模型的大小，系统拥有内存和计算技术可以分别扩展。所有数据处理均在 Cerebras 的主 AI 芯片 WSE-2 上完成，该芯片拥有 850,000 个内核、2.6 万亿个晶体管、40GB SRAM 内存和每秒 20 PB 的带宽。

Feldman 表示，解耦使得 CG-1 系统能够随着更多系统的添加而以线性方式扩展。线性扩展是可能的，因为内存和计算元件独立运行，这与 GPU 的大型部署不同，在 GPU 中，每个芯片都有自己的内存和缓存。称为 MemoryX 的系统级技术单独存储模型参数，并将其传送到计算核心。

“你有数千个小型 GPU，每个 GPU 都有不同的参数块。因此，您已经获取了 1000 亿个参数，您必须跟踪它们的位置。我们有一个集中的参数存储，”费尔德曼说。

一种名为 SwarmX 的类似技术在集群级别协调计算和内存管理 - 它从 MemoryX 获取参数并通过互连结构将其广播到多个 CS-2，互连结构是芯片中的多个 100GbE 通道。

Cerebras 的 AI 芯片与 GPU 一样，具有许多可加速传统科学计算的理想属性。G42 客户使用 Cerebras 系统进行传统 HPC 存在风险，这可能会扰乱该初创公司对人工智能市场的关注。

但费尔德曼坚称该芯片是为人工智能计算而设计的，而不是传统的高性能计算。

“我们为人工智能打造了这台机器。我们不支持 64 位双精度。我们确实做了一些 HPC 工作……而这正是人工智能和 HPC 的交叉点。”Feldman 说道。

在美国，能源部的国家能源技术实验室正在使用 Cerebras 系统来实施脱碳计划，但该芯片为他们提供了在其计算堆栈中测试人工智能的借口。

“我们与他们进行了一些合作，他们正在对计算流体动力学进行大型模拟。但我认为我们确实做到了这一点，并针对人工智能进行了优化，”费尔德曼说。

Cerebras 还发布了许多开源大语言模型，试图为其芯片构建底层软件基础设施。Nvidia 还拥有强大的软件实力，许多 AI 代码库都转向其专有的 CUDA 软件堆栈，该堆栈可以利用仅在 A100 和 H100 GPU 中提供的功能。 

在硬件方面，Cerebras 还面临来自 AMD（最近推出了用于 AI 的 MI300X GPU）和英特尔（拥有名为 Gaudi 的 AI 加速器）的挑战。这些芯片都没有获得大量的商业销售。

👇👇 点击文末【阅读原文】，可查看原文链接！

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3468期内容，欢迎关注。