Meta加速抛弃英伟达？今年将部署自研推理芯片，训练芯片也在路上

2024-02-02 01:02

👆如果您希望可以时常见面，欢迎标星🌟收藏哦~

来源：内容来自半导体行业观察（ID：icbank）综合，谢谢。

据路透社报道，Facebook 所有者 Meta Platforms计划今年在其数据中心部署新版本的定制芯片，旨在支持其人工智能（AI）的发展。

该芯片是 Meta 去年宣布的第二代内部芯片产品线，可能有助于减少 Meta 对 Nvidia 的依赖，这些芯片在市场上占据主导地位，并在竞相推出人工智能产品的过程中控制与运行人工智能工作负载相关的螺旋式成本。

这家全球最大的社交媒体公司一直在努力提高其计算能力，以支持其在 Facebook、Instagram 和 WhatsApp 应用程序以及雷朋智能眼镜等硬件设备中推出的高耗电生成式人工智能产品，并花费数十亿美元积累了强大的计算能力。专用芯片并重新配置数据中心以适应它们。

SemiAnalysis 的创始人迪伦·帕特尔 (Dylan Patel) 表示，按照 Meta 的运营规模，成功部署自己的芯片可能会节省每年数亿美元的能源成本和数十亿美元的芯片采购成本。

运行人工智能应用程序所需的芯片、基础设施和能源已成为科技公司投资的巨大陷阱，在某种程度上抵消了围绕该技术的兴奋所带来的收益。Meta 发言人证实了计划于 2024 年将更新后的芯片投入生产，并表示该芯片将与该公司数十万个现成的图形处理单元 (GPU) 协同工作，GPU 是人工智能的首选芯片。

该发言人在一份声明中表示：“我们认为我们内部开发的加速器与商用 GPU 具有高度互补性，可以在Meta特定工作负载上提供性能和效率的最佳组合。”

作为该计划的一部分，部署自己的芯片对于 Meta 的内部 AI 芯片项目来说是一个积极的转变，此前高管们于 2022 年决定终止该芯片的第一次迭代。

相反，该公司选择购买价值数十亿美元的 Nvidia GPU，该 GPU 几乎垄断了称为训练的人工智能过程，该过程涉及将大量数据集输入模型以教它们如何执行任务。

这款新芯片在内部被称为“Artemis”，就像它的前身一样，只能执行称为推理的过程，在该过程中，模型被要求使用其算法做出排名判断并生成对用户提示的响应。

路透社去年报道称，Meta 还在开发一款更雄心勃勃的芯片，该芯片与 GPU 一样，能够执行训练和推理。

这家总部位于加利福尼亚州门洛帕克的公司去年分享了有关其第一代Meta训练和推理加速器 (MTIA) 计划的详细信息。该公告将该版本的芯片描述为一个学习机会。

帕特尔表示，尽管存在这些早期的失误，推理芯片在处理 Meta 的推荐模型方面可能比耗能的 Nvidia 处理器更有效。

他说：“有大量的金钱和精力可以节省下来。”

Meta将其人工智能未来交到 600000 个 GPU 手中

在不到两分钟的时间里，Meta 的首席执行官马克·扎克伯格就列出了公司的人工智能计划，其中包括建立一个相当于 60 万个 Nvidia GPU 的人工智能系统的计划。

扎克伯格在发布的视频中表示：“我正在将 Meta 的人工智能研究工作更加紧密地结合在一起，以支持我们构建通用智能、负责任地开源并使其对我们日常生活中的每个人都可用且有用的长期目标。”

扎克伯格的公告是 Meta 人工智能计划的更新路线图，该计划是围绕即将推出的 Llama3 构建的，目前正在接受训练。它将继承去年的 Llama2 模型权重和分词器，去年的 Llama2 模型权重和分词器取得了重大成功，在 Huggingface 上的总下载量略低于 200 万次。开源开发人员还发布了数千个 Llama2 分支。

Llama3 将与 Google 最近发布的 Gemini 模型以及 OpenAI 的 GPT-4 和即将推出的 GPT-5 模型竞争。OpenAI 首席执行官 Sam Altman 尚未谈论 GPT-5，但暗示通过支持更多数据源，处理文本、语音和图像会容易得多。

“我们正在建设大量基础设施，以在今年年底前支持这一目标。如果算上其他 GPU，我们将拥有大约 350,000 个 Nvidia H100 或大约 600,000 个 H100 等效计算，”扎克伯格说。

这意味着 Meta 的 GPU 总数将超过大约 70 个国家的人口数量。Meta 还将使用 AMD 的 MI300X GPU。事实上，Meta 在创纪录的时间内部署了配备 MI300X GPU 的服务器。

“[MI300X] 利用 OCP 模块、标准和平台，这帮助我们以创纪录的速度采用它。事实上，MI300X 是 Meta 历史上最快的部署解决方案之一。”Meta 高级工程总监 Ajit Mathews 在去年 AMD 活动的舞台上说道。

Nvidia 将于明年开始发售 H200 GPU，以取代其 H100 GPU。有迹象表明，Nvidia 将在增加 H200 出货量的同时，扩大需求量很大的 H100 GPU 出货量。

公司等待多个季度才能收到 Nvidia GPU，而 Meta 的 350,000 个 GPU 是一个巨大的订单。但英伟达正在缓慢履行出货量，优先考虑较大的客户，但也满足由比特币转型的人工智能数据中心公司下的较小订单。

Meta 还正在重建其数据中心，以专注于 GPU 计算。Meta 正在构建拥有数千个加速器的大型集群。核心网络以网格形式组织，加速器之间的带宽为每秒 1 TB。该公司在全球拥有 21 个数据中心，最近一个数据中心位于伊利诺伊州迪卡尔布，采用可再生能源。

但要实现扎克伯格的最终目标，还需要更多的 GPU：构建通用人工智能，它更像是人脑的数字版本。

“很明显，下一代服务需要构建全面的通用智能、构建最好的人工智能助手、为企业创造者的人工智能，以及更多需要在人工智能各个领域取得进步的领域，从推理到规划到编码到记忆和其他认知能力， ”扎克伯格说道。

扎克伯格解释了虚拟宇宙战略如何与其人工智能计划联系在一起。人类的感官输入——图像、声音、语音——都将被输入多模式人工智能，输出将在眼镜和耳机等元宇宙设备上。目前，人工智能模型以聊天机器人、文本到图像生成器等形式分离，但最终，这些模型都将合并，以符合人类处理信息方式的方式呈现信息。

扎克伯格说：“人们还需要新的人工智能设备，这将人工智能和元宇宙结合在一起，因为随着时间的推移，我认为我们很多人会在一天中频繁地与人工智能交谈。”

雷朋的 Meta 智能眼镜就是一个例子，它采用高通芯片构建。MoorInsights Strategy 分析师 Anshel Sag 在上个月发布的产品评论中表示，凭借该产品，Meta现在在日常功能方面成为了智能眼镜的旗帜” 。

“这些眼镜是让人工智能看到你所看到的、听到你所听到的的理想外形。所以它总是可以提供帮助，”扎克伯格说。

扎克伯格暗示，Llama3 很可能是 Meta 的第一个支持多媒体和语音输入的多模式模型。Llama 2 完全是一个聊天机器人，它提供提示，用户可以在其中提出问题并编写故事。

Meta 对 Llama 3 具有分发优势。开源性质意味着任何人都可以托管该模型，而 Llama 2 由 Google、AWS 和 Microsoft 提供云服务。Meta 从未发布过自己的 Llama2 聊天机器人托管服务，用户可以通过 HuggingChat 等服务或将其下载到个人电脑来使用它。

扎克伯格表示：“这项技术非常重要，机会也非常多，我们应该开源并负责任地尽可能广泛地使用它，以便每个人都能受益。”

扎克伯格也逐渐成为开源人工智能的代言人，他间接批评了 OpenAI 和谷歌的人工智能闭源方法。OpenAI 和谷歌利用公共研究和开源开发人员来制定他们的人工智能战略，但通过闭源来从人工智能中获利。

OpenAI 和 Google 的 Transformer 模型只能通过其网站获得（微软除外，该公司已在 OpenAI 的 GPT 模型上构建了其 AI 战略）。

Meta“拥有像 Pytorch 这样每个人都使用的通用软件平台。它使整个领域加速发展，因为有很多人在研究它。”首席人工智能科学家 Yann LeCun 在上周达沃斯世界经济论坛的一次讨论中说道。

Meta 在其人工智能技术中优先考虑安全和责任，这些技术已经在 Llama2 中得到体现。该公司已经处理了许多政治争议，可能希望避免任何公众或政治的强烈反对。Llama2 采用监督学习技术来衡量结果，这是从较新的 Transformer 模型转向无监督模型的变化。

扎克伯格没有透露该公司何时发布 Llama 3。但该公司去年发布了 Llama 1 和 2，发布时间相隔十个月。

Meta，在自研什么芯片？

Meta 刚刚发布了一系列与其内部 AI 基础设施和芯片相关的公告。其中一些主题包括迁移到具有更多液体冷却、更高功率和设施级别变化的数据中心。在硅方面，有趣的是，Meta 正在采取M与谷歌完全相同的策略。

Meta 只是在谈论他们已经拥有的旧芯片，就像新的东西已经准备就绪一样。例如,他们在去年使用 16,000 个 Nvidia A100 构建的研究集群上发布了整个博客，只是在他们已经开始使用 H100 构建更大的集群之后。正如我们过去报道的一样，H100 集群的基础设施设置非常奇怪。.

本问将涵盖 Meta 自 2021 年以来拥有的旧芯片以及 Meta 目前正在开发的新芯片。我们将讨论架构、路线图、各种设计合作伙伴和未来的抱负。

Meta可扩展视频处理器 (MSVP)

Meta 展示了他们自 2021 年以来一直在部署的视频编码 ASIC。视频编码 ASIC 对公司来说是非常重要的基础设施。例如，这是亚马逊不得不通过 Twitch 提供比谷歌的 YouTube 差得多的直播服务的主要原因。

谷歌是第一个设计视频编码芯片的公司，代号为 Argos，我们在多年前就介绍过了Google的布局。大规模部署的谷歌 Argos VPU 完成了超过 1000 万个英特尔 CPU 的 VP9 编码工作.，这为谷歌节省了数十亿美元的成本。我们 We have 还介绍了 NetInt 的 VCU，这是一家拥有类似视频编码 ASIC 的初创公司，他们设计的产品正在出售给字节跳动、百度、腾讯和阿里巴巴等公司。

Meta 有大量视频上传到 Instagram 和 Facebook，因此该产品对于降低成本至关重要。此外，第二M代ndMeta 的可扩展视频处理器使他们能够如此普遍地在卷轴中部署 AV1。注意 Meta今天只公开了第一代。

Meta 声称该芯片是内部开发的，但事实并非如此。宣布的 MSVP 和即将推出的下一代版本都是与 Broadcom 共同设计的。Google 的前两代视频编码 ASIC 也是与 Broadcom 共同设计的。

每个 MSVP ASIC 芯片都拥有 4K 的最大转码能力，在最高质量设置下以 15fps 的速度运行，配置为一个输入流到五个输出流。它能够在标准质量配置下以 60fps 的速度扩展到 4K。Meta 声称性能随着分辨率的增加而统一。所有这些都是通过 PCIe 模块大约 10W 的功率使用来实现的。H.264 性能提升 9 倍，VP9 性能提升 50 倍。

该芯片采用 M.2 22110 格式，支持 4 条 PCIe Gen 4 通道，即 8GB/s。展示的主板中还有 2 个 4GB 的 Micron LPDDR5，总共 8GB，内存带宽为 88GB/s。封装约为 24mm x 19mm，芯片尺寸约为 112mm^2

Meta训练和推理加速器 (MTIA)

人工智能是Meta 数据中心中最重要、成本最高的工作负载。Meta 至少从 2019 年就开始开发他们的 AI 芯片。第一代刚刚发布，虽然处理器类别被命名为 Meta Training 和 Inference Accelerator，但需要明确的是，第一代仅可用于推理。

Meta 的主要工作负载是当今的推理DLRM inference，因此，他们尝试构建他们的芯片，尤其是针对该工作负载。提醒一下，DLRM 模型仍然是最大的大规模 AI 工作负载。这些 DLRM 是百度、Meta、字节跳动、Netflix 和谷歌等公司的支柱。它是广告、搜索排名、社交媒体订阅等方面年收入超过一万亿美元的引擎。

虽然生成式人工智能很快就会在硬件需求方面超过它，但这种转变还没有完全发生。

DLRM 模型正在持续增长，这导致 Meta 的基础架构发生重大变化。有一段时间，他们大量使用英特尔的 NNP-I 推理加速器，但很快就让位给了 GPU。在某些方面，第一代 MTIA 可以被认为是第二代 NNP-I，因为系统架构（不是 uarch）非常相似。

Meta 多年前就推出了他们的半定制 AI 加速器项目，他们的目标非常明确。更好的 DLRM 模型和易用性的推理成本更低。他们的第一代可以被认为是一种软件工具，用于开发利用 PyTorch 2.0 的急切模式和全图模式与 LLVM 编译器的能力。他们正在致力于实施 Dynamo、Inductor 和 Triton。

我们的数据显示，Meta 是今年 Nvidia H100 GPU 的最大个人买家。这不是巧合。Meta 需要 GPU 来进行训练和推理，而在大多数情况下，H100 是满足这种需求的最具成本效益的方式。

Meta 分享了他们各种生产推荐模型的概况。这些模型具有不同的大小和复杂性。Meta 还分享了各种硬件在这些工作负载中的性能。

虽然 Meta 没有分享他们比较的 GPU，但我们四处询问，似乎是旧的 Ampere GPU，而不是新的 Hopper 和 Lovelace GPU。虽然这看起来不公平，但请记住 Meta 的第一代stMTIA 也是一款较旧的芯片。一旦您叠加了新的 Nvidia 芯片的额外性能，第一代 MTIA 在每瓦性能方面失去了大部分工作负载。

话虽如此，第一代 MTIA 只是一个开始。

Meta 在 2021 年获得了视频中的芯片。MTIA 在台积电的 7nm 晶圆厂制造，并由 Amkor 封装。芯片标记表明这发生在 2021 年 8 月 23 日至8 月 29日。

该芯片具有 102.4 TOPS 的 INT8 和 51.2 TFLOPS 的 FP16 以及 25W TDP。共有 128 MB SRAM，运行速度为 800GB/s。该 SRAM 位于内存控制器旁边，可以充当直接寻址为可寻址内存的内存端缓存。在以 176GB/s 运行的 256 位总线上还有高达 128GB 的 LPDDR5-5500。值得注意的是，Meta 使用了能够达到 6400 MT 的 LPDDR5，但以降频运行。还有 8 个 PCIe 4.0 通道。