Open AI有意自研AI芯片？

2023-10-07 01:10

来源：内容由半导体行业观察（ID：icbank）编译自nextplatform，谢谢。

很难找到比 Nvidia 数据中心业务增长更快的业务，但有一个竞争者：OpenAI。

当然，Open AI 是 GPT 生成式 AI 模型和聊天机器人界面的创造者，该模型和聊天机器人界面今年风靡全球。它也是一家在 GenAI 商业化方面具有一定先发优势的公司，这在一定程度上要归功于其与微软 130 亿美元的巨额合作关系。

考虑到 OpenAI 在客户和收入方面的快速增长，训练和运行不断扩大的人工智能模型所需的基础设施成本令人痛心，因此有传言称 OpenAI 正在寻求自研芯片方面合作也就不足为奇了。

据路透社报道，OpenAI有意设计自己的 AI 芯片并付诸生产，然后将其转化为自主开发的系统，从而减少对基于 Nvidia GPU 系统的依赖——无论是从微软 Azure 云租用 Nvidia A100 和 H100 GPU 容量，还是必须构建或购买基于 Nvidia 的 GPU 系统这些 GPU 并将它们放置在托管服务器上，或者（但愿不会）放置在自己的数据中心中。

考虑到云构建商对 GPU 容量收取的溢价，像 OpenAI 这样的公司肯定会寻找更便宜的替代方案，而且它们在启动阶段肯定还不够大，无法跻身微软、谷歌、亚马逊网络服务、Meta越来越多地优先获得其服务所需的任何东西。GPU 实例的利润是惊人的，而且这还是在 GPU 系统组件的高昂成本之后实现的。

为了证明这一点，我们最近在 Amazon Web Services 上对基于 Nvidia A100 和 H100 GPU 的 P4 和 P5 实例的数字进行了分解以及它们的前身，显示 AWS 对 A100 和 H100 三年预留实例的运营利润率接近 70%。如果实例保留的时间较短，或者根据需求或现货定价购买，那么AWS的营业收入会更高。

当然，云定价和 GPU 系统的配置存在一些差异，但原理是相同的。如今，出售 GPU 容量比向生活在看不到绿洲、也无法挖掘的沙漠中的人们出售水更容易。

没有人愿意支付云溢价，甚至如果不需要的话，甚至没人愿意支付芯片制造商和系统构建商的溢价，但任何想要设计定制芯片和围绕它的系统的人都必须具有一定的规模，以保证如此沉重的成本。对工程师以及制造和装配能力的投资。看起来 OpenAI 正走在这条轨道上，除了与微软的交易之外，它还将自己 49% 的股份出售给了这家软件和云巨头，以换取使用 OpenAI 模型的独家许可，并拥有本质上是往返微软，支付 OpenAI 训练其模型所需的 Azure 云上的 GPU 容量费用。

路透社的另一篇报道爆料了 OpenAI 正在考虑打造自己的人工智能芯片或收购一家已经拥有人工智能芯片的初创公司，据《财富》杂志报道，OpenAI 去年的销售额为 2800 万美元。该公司为非上市公司，亏损 5.4 亿美元。现在你知道 OpenAI 必须讨好微软的原因之一了，这可以说是将人工智能嵌入到许多系统软件和应用程序中的最佳方式。今年早些时候，OpenAI 告诉人们它今年的销售额可能会达到 2 亿美元，但在 8 月份它表示，展望 12 个月，其模型和聊天机器人服务的销售收入将突破 10 亿美元。如果这是真的，那么就没有理由相信 OpenAI 不会获得巨额利润，特别是如果微软付费使用 Azure，这意味着净成本为零。

假设 OpenAI 今年可能有 5 亿美元的资金可供使用，如果其增长放缓至三倍且成本不会失控，那么明年可能会增加三倍。如果是这种情况，这对 Sam Altman & Co 来说是件好事，因为我们认为 OpenAI 联合创始人和所有者不希望他们在公司中的股份现在低于 51%，因为这将失去对公司的控制权。OpenAI 可能有足够的资金来生产人工智能芯片，而无需寻求更多投资者。

因此，OpenAI 正在寻找削减成本的方法也就不足为奇了。考虑到 Nvidia 对 GPU 收取的溢价以及云对租用 GPU 系统容量的收取的溢价，如果 OpenAI 不考虑为其 AI 模型设计计算和互连芯片的选择，那么它就是一个傻瓜。以前这样做是愚蠢的，但现在显然是开始走这条路的时候了。

今年早些时候，我们从The Information中听到的传闻是，微软有自己的 AI 芯片项目，代号为“Athena”，于 2019 年启动，显然一些测试芯片已经提供给微软和 OpenAI 的研究人员使用。（重要的是要记住，这些是独立的公司。）虽然微软主导了各种芯片的开发，重要的是其 Xbox 游戏机中的定制 CPU-GPU 复合体，但开发如此大而复杂的芯片的成本仍然越来越高。制造工艺节点和风险在于，任何延误（而且总会有延误）都可能使微软在竞争中落后。

谷歌率先推出了自主研发的张量处理单元（TPU），该单元是与 Broadcom 合作设计和制造的。AWS 紧随其后，推出了 Trainium 和 Inferentia 芯片，这些芯片由其 Annapurna Labs 部门负责，并由台湾积体电路制造有限公司（Taiwan Semiconductor Manufacturing Co.）制造，该公司也是谷歌 TPU 的代工厂。芯片制造商 Marvell 帮助 Groq 推出了 GroqChip 和互连产品。Meta Platforms 正在开发用于 AI 推理的自研 MTIA 芯片，并且还在开发用于 AI 训练的变体。AI训练芯片领域还包括Cerebras Systems、SambaNova Systems、Graphcore、Tenstorrent等公司的设备。

这些 AI 初创公司的估值可能太高（数十亿美元），OpenAI 无法收购它们，但 Tenstorrent 的独特之处在于，该公司完全愿意将其 IP 授权给任何想要构建自己的 AI 加速器或RISC-V CPU的人。鉴于 GPT 模型在人工智能领域的重要性，我们认为任何人工智能初创公司都会做类似的 IP 许可协议，成为 OpenAI 的首选平台，如果 OpenAI 找到合适的平台，它几乎肯定有能力转向本土硬件。微软Azure的价格有点高。

让我们算一笔账。如今，使用 Nvidia H100 GPU 购买一个具有约 20 exaflops FP16 oomph 性能的世界级 AI 训练集群（不包括对相乘矩阵的稀疏性支持）的成本超过 10 亿美元。租用云中的容量三年会使成本增加 2.5 倍。这就是全部，包括集群节点的网络、计算和本地存储，但不包括任何外部、高容量和高性能文件系统存储。开发一款范围相当有限的新芯片的成本在 2000 万到 5000 万美元之间。但我们可以说，它的意义远不止于此。但除了构建一个人工智能系统之外，还有很多事情要做，而不是设计一个矩阵引擎并将其交给台积电。

云构建者购买基于 Hopper H100 的 8 个 GPU 节点及其分配的 InfiniBand 网络部分（NIC、电缆和交换机）可能要花费近 300,000 美元。假设 NVSwitch 跨节点互连。（这比单件购买要便宜得多。）您可以拥有一个仅包含两个或四个 GPU 的较小节点，并在这些 GPU 之间使用直接 NVLink 端口，但您的共享内存域较小。这样做的优点是更便宜，但共享内存的大小较小，会影响模型训练的性能和规模。

同一个 8 GPU 节点的按需租金为 260 万美元，在 AWS 上的三年内预留费用为 110 万美元，在 Microsoft Azure 和 Google Cloud 上的租金也可能相同。因此，如果 OpenAI 能够以低于 500,000 美元的价格构建其系统——所有成本全部投入——它将削减一半以上的 IT 费用，同时掌控自己的命运。将 IT 费用削减一半，模型规模增加了一倍。将其削减四分之三即可使其翻两番。这对于模型尺寸每两到三个月翻一番的市场来说非常重要。

重要的是要记住，如果人工智能芯片设计或制造出现问题，OpenAI 也可能遭受自己的命运，到那时，OpenAI 将转移到 Nvidia 的 GPU 访问线的后面，而且肯定会走得更远。与微软也是如此。

所以有一点需要考虑。这就是为什么所有的云和大多数超大规模企业都会购买 Nvidia GPU 并设计和构建自己的加速器和系统。因为他们也不能措手不及。

参考链接

https://www.nextplatform.com/2023/10/06/openai-to-join-the-custom-ai-chip-club/

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3547期内容，欢迎关注。