谷歌发布新的TPU芯片，HBM容量提高三倍

2023-12-07 01:12

来源：内容由半导体行业观察（ID：icbank）编译自谷歌，谢谢。

谷歌今天发布博客表示，生成式人工智能 (gen AI) 模型正在迅速发展，提供无与伦比的复杂性和功能。这一进步使各行业的企业和开发人员能够解决复杂的问题并释放新的机遇。然而，新一代人工智能模型的增长——过去五年参数每年增加十倍——带来了对训练、调整和推理的更高要求。当今的大型模型具有数千亿甚至数万亿的参数，即使在最专业的系统上，也需要大量的训练期，有时甚至长达数月。此外，高效的人工智能工作负载管理需要一个由优化的计算、存储、网络、软件和开发框架组成的连贯集成的人工智能堆栈。

今天，为了应对这些挑战，我们很高兴地宣布 Cloud TPU v5p，这是我们迄今为止最强大、可扩展且灵活的人工智能加速器。长期以来，TPU 一直是训练和服务 AI 支持的产品（例如 YouTube、Gmail、Google 地图、Google Play 和 Android）的基础。事实上，Google今天宣布的最强大、最通用的人工智能模型 Gemini是使用 TPU 进行训练和服务的。

此外，我们还宣布推出来自 Google Cloud 的 AI 超级计算机，这是一种突破性的超级计算机架构，采用性能优化的硬件、开放软件、领先的机器学习框架和灵活的消费模型的集成系统。传统方法通常通过零散的组件级增强来解决要求苛刻的人工智能工作负载，这可能会导致效率低下和瓶颈。相比之下，人工智能超级计算机采用系统级协同设计来提高人工智能训练、调整和服务的效率和生产力。

Cloud TPU v5p 是我们迄今为止最强大且可扩展的 TPU 加速器

今年早些时候，我们宣布全面推出 Cloud TPU v5e。与上一代 TPU v4 1相比，性价比提高了 2.3 倍，是我们迄今为止最具成本效益的TPU。相比之下，Cloud TPU v5p 是我们迄今为止最强大的TPU。每个 TPU v5p Pod在我们最高带宽的芯片间互连 (ICI)上由 8,960 个芯片组成，采用 3D 环面拓扑，每芯片速率为 4,800 Gbps 。与 TPU v4 相比，TPU v5p 的FLOPS 提高了 2 倍以上，高带宽内存 (HBM) 提高了 3 倍以上。

TPU v5p 专为性能、灵活性和规模而设计，训练大型 LLM 模型的速度比上一代 TPU v4 快 2.8 倍。此外，借助第二代SparseCores，TPU v5p训练嵌入密集模型的速度比 TPU v4 2快 1.9 倍。

除了性能改进之外，TPU v5p 在每个 pod 的总可用 FLOP 方面的可扩展性也比 TPU v4 高 4 倍。与 TPU v4 相比，每秒浮点运算次数 (FLOPS) 加倍，并且单个 Pod 中的芯片数量加倍，可显着提高训练速度的相对性能。

谷歌人工智能超级计算机大规模提供峰值性能和效率

实现规模和速度是必要的，但不足以满足现代 AI/ML 应用程序和服务的需求。硬件和软件组件必须组合成一个集成的、易于使用、安全且可靠的计算系统。在谷歌，我们针对这个问题进行了数十年的研究和开发，最终开发出了人工智能超级计算机，这是一个经过优化的技术系统，可以协同工作以支持现代人工智能工作负载。

性能优化的硬件：AI 超级计算机具有基于超大规模数据中心基础设施构建的性能优化的计算、存储和网络，利用高密度占地面积、液体冷却和我们的Jupiter 数据中心网络技术。所有这一切都基于以效率为核心的技术；利用清洁能源和对水资源管理的坚定承诺，正在帮助我们迈向无碳的未来。

开放软件：人工智能超计算机使开发人员能够通过使用开放软件来访问我们性能优化的硬件，从而在性能优化的人工智能硬件之上调整、管理和动态编排人工智能训练和推理工作负载。

对流行的 ML 框架（例如 JAX、TensorFlow 和 PyTorch）的广泛支持开箱即用。JAX 和 PyTorch 均由OpenXLA编译器提供支持，用于构建复杂的 LLM。XLA 作为基础骨干，支持创建复杂的多层模型（使用 PyTorch/XLA 在云 TPU 上进行 Llama 2 训练和推理）。它优化了各种硬件平台上的分布式架构，确保针对不同的 AI 使用案例进行易于使用且高效的模型开发（AssemblyAI 利用 JAX/XLA 和 Cloud TPU 进行大规模 AI 语音）。

开放且独特的多片训练和多主机推理软件分别使扩展、训练和服务工作负载变得顺利和简单。开发人员可以扩展到数万个芯片来支持要求苛刻的人工智能工作负载。

与Google Kubernetes Engine (GKE)和Google Compute Engine深度集成，提供高效的资源管理、一致的操作环境、自动扩展、节点池自动配置、自动检查点、自动恢复和及时的故障恢复。

灵活消费：AI超算提供多种灵活动态的消费选择。例如 Committed Use Discounts (CUD)、按需定价和现货定价等经典选项外，AI Hypercomputer 还通过Dynamic Workload Scheduler 提供针对 AI 工作负载量身定制的消费模型。Dynamic Workload Scheduler 引入了两种模型：Flex Start 模式，可实现更高的资源可用性和优化的经济性；Calendar 模式，针对作业启动时间具有更高可预测性的工作负载。

原文链接

https://cloud.google.com/blog/products/ai-machine-learning/introducing-cloud-tpu-v5p-and-ai-hypercomputer

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3607期内容，欢迎关注。