谷歌发布了第六代TPU芯片

2024-05-15 01:05

👆如果您希望可以时常见面，欢迎标星🌟收藏哦~

来源：内容来自半导体行业观察（ID：icbank）综合，谢谢。

谷歌云今天宣布即将推出迄今为止最强大、最节能的张量处理单元 Trillium TPU。

谷歌的 TPU 与 Nvidia 公司的图形处理单元类似，后者已成为运行生成人工智能工作负载的最受欢迎的硬件。谷歌希望通过 Trillium 为企业提供 Nvidia GPU 的替代品。

Trillium今天在Google I/O 2024上推出，是该公司的第六代 TPU。它旨在为最苛刻的生成式人工智能模型和工作负载提供支持，提供比现有 TPU 显着增强的计算、内存和网络功能。

谷歌云机器学习、系统和云 AI 副总裁兼总经理 Amin Vadhat 表示，与谷歌宣布的目前最强大的芯片TPU v5e相比，Trillium TPU 的峰值计算性能提高了 4.7 倍。Cloud Next 去年八月。为了实现更高的性能，Google 投入了大量精力来扩展执行计算的矩阵乘法单元或 MXU 的大小，并提高了其整体时钟速度。

此外，Trillium GPU 的高带宽内存容量和带宽是原来的两倍，而芯片间互连带宽也增加了一倍。Amin 表示，这些增强功能将显着缩短大型语言模型的训练时间和服务延迟。

另一项新的创新是第三代SparseCore，它是一个专业加速器，用于处理先进的基于人工智能的排名和推荐系统中的超大嵌入。借此，Trillium TPU 将能够训练下一代基础人工智能模型，并以更低的延迟和成本为它们提供服务。Amin 表示，与此同时，它们的能效提升高达 67%，这意味着比 TPU v5e 更低的运行成本和更小的碳足迹。

谷歌表示，Trillium 将于今年晚些时候推出，能够在单个高带宽、低延迟 Pod 中扩展到超过 256 个 TPU。通过利用 Google 在 Pod 级可扩展性、多切片技术和Titanium 智能处理单元方面的进步，用户将能够链接数百个 Trillium TPU 的单独 Pod，以构建 PB 级超级计算机和数据中心网络。

Google Cloud 的一些客户已经制定了使用 Trillium TPU 的计划。例如，谷歌DeepMind将使用新芯片来训练和服务下一代谷歌Gemini模型，并且比以前更快、更高效、延迟更低。此外，一家名为Deep Genomics Inc. 的公司正计划使用 Trillium TPU 来推进人工智能药物发现。

Deep Genomics 创始人兼首席信息官 Brendan Frey 表示：“我们的使命是创建和应用先进的人工智能模型，以突破 RNA 治疗领域的可能性界限。”他希望 Trillium TPU 能够改善其人工智能的训练和运行基础模型100倍。“先进的人工智能模型突破了 RNA 治疗领域的可能性界限。”

Trillium TPU 还将与Google Cloud 的 AI 超级计算机项目集成，该项目是一个超级计算机平台，旨在运行尖端的 AI 工作负载。AI超级计算机将最先进的TPU和GPU与开源软件框架和灵活的消费模型集成在一起，以支持极其强大的新型AI工作负载的开发。

当 Trillium 推出时，它将作为另一个硬件选项添加到 AI 超级计算机中，与谷歌的 TPU v5p 和 Nvidia 的 H100 GPU 一起。该公司还计划将 Nvidia 的新型 Blackwell GPU 与 AI 超级计算机集成，但尚未透露具体时间，因此尚不清楚 Trillium TPU 是否会首先推出。

谷歌推出第六代 Google Cloud TPU Trillium

生成式人工智能正在改变我们与技术互动的方式，同时为业务影响带来巨大的效率机会。但这些进步需要更大的计算、内存和通信来训练和微调最有能力的模型，并以交互方式为全球用户群提供服务。十多年来，谷歌一直在开发定制的人工智能专用硬件、张量处理单元（TPU），以推动规模和效率的前沿发展。

该硬件支持我们今天在 Google I/O 上宣布的多项创新，包括Gemini 1.5 Flash、Imagen 3和Gemma 2等新型号；所有这些模型都经过 TPU 训练并提供服务。为了提供下一代前沿模型并让您也能做到这一点，我们很高兴推出第六代 TPU Trillium，它是迄今为止性能最强、能效最高的 TPU。

与 TPU v5e 相比，Trillium TPU 的每芯片峰值计算性能提高了 4.7 倍，令人印象深刻。我们将高带宽内存 (HBM) 容量和带宽增加了一倍，并将 TPU v5e 的芯片间互连 (ICI) 带宽增加了一倍。此外，Trillium还配备了第三代SparseCore，这是一种专用加速器，用于处理高级排名和推荐工作负载中常见的超大嵌入。Trillium TPU 可以更快地训练下一波基础模型，并以更少的延迟和更低的成本为这些模型提供服务。至关重要的是，我们的第六代 TPU 也是最具可持续性的：Trillium TPU 的能效比 TPU v5e 高出 67% 以上。

Trillium 可以在单个高带宽、低延迟 Pod 中扩展到多达 256 个 TPU。除了这种 Pod 级可扩展性之外，借助多切片技术和Titanium 智能处理单元 (IPU )，Trillium TPU 还可以扩展到数百个 Pod，从而连接建筑物级超级计算机中的数万个芯片，这些芯片通过每秒数 PB 的速度互连数据中心网络。

十多年前，谷歌认识到需要首款用于机器学习的芯片。2013 年，我们开始开发世界上第一个专用人工智能加速器 TPU v1，随后于 2017 年推出了第一个云 TPU。如果没有 TPU，Google 的许多最受欢迎的服务（例如实时语音搜索、照片对象识别、交互式语言翻译以及 Gemini、Imagen 和 Gemma 等最先进的基础模型都是不可能的。事实上，TPU 的规模和效率为 Google Research 的Transformers基础工作奠定了基础，而 Transformers 是现代生成人工智能的算法基础。

TPU 是专为神经网络而设计的，我们始终致力于改善 AI 工作负载的训练和服务时间。与 TPU v5e 相比，Trillium每芯片的峰值计算量提高了 4.7 倍。为了达到这种性能水平，我们扩大了矩阵乘法单元 (MXU)的大小并提高了时钟速度。此外，SparseCores 通过战略性地卸载来自 TensorCores 的随机和细粒度访问来加速嵌入繁重的工作负载。

HBM 容量和带宽加倍使 Trillium 能够处理具有更多权重和更大键值缓存的更大模型。下一代 HBM 可实现更高的内存带宽、更高的能效以及灵活的通道架构，以提高内存吞吐量。这可以缩短大型模型的训练时间和服务延迟。这是模型权重和键值缓存的两倍，访问速度更快，计算能力更强，可加速 ML 工作负载。ICI 带宽加倍使训练和推理作业能够扩展到数万个芯片，这得益于定制光学 ICI 互连与 Pod 中 256 个芯片的战略组合以及Google Jupiter Networking（将可扩展性扩展到集群中的数百个 Pod）。

Trillium TPU 将为下一波人工智能模型和代理提供动力，我们期待帮助我们的客户获得这些先进的功能。例如，自动驾驶汽车公司Nuro致力于通过机器人技术通过使用 Cloud TPU 训练模型来创造更美好的日常生活；Deep Genomics正在利用人工智能为药物发现的未来提供动力，并期待他们的下一个由 Trillium 提供支持的基础模型将如何改变患者的生活；谷歌云年度人工智能合作伙伴德勤将提供 Trillium，通过生成式人工智能实现业务转型。对 Trillium TPU 上长上下文、多模式模型的训练和服务的支持也将使Google DeepMind能够比以往更快、更高效、延迟更低地训练和服务未来几代 Gemini 模型。

Trillium TPU 是 Google Cloud人工智能超级计算机的一部分，这是一种专为尖端人工智能工作负载而设计的突破性超级计算架构。它集成了性能优化的基础设施（包括 Trillium TPU）、开源软件框架和灵活的消费模型。我们对 JAX、PyTorch/XLA 和 Keras 3 等开源库的承诺为开发人员提供支持。对 JAX 和 XLA 的支持意味着为任何上一代 TPU 编写的声明性模型描述直接映射到 Trillium TPU 的新硬件和网络功能。我们还与 Hugging Face 在 Optimum-TPU 上合作，以简化模型训练和服务。

“我们与 Google Cloud 的合作使 Hugging Face 用户可以更轻松地在 Google Cloud 的 AI 基础设施（包括 TPU）上微调和运行开放模型。我们很高兴能够通过即将推出的第六代Trillium TPU进一步加速开源 AI ，并且我们预计开放模型将继续提供最佳性能，因为与上一代相比，每个芯片的性能提高了 4.7 倍。我们将通过我们新的 Optimum-TPU 库，让所有 AI 构建者轻松获得 Trillium 的性能！” - Hugging Face 产品主管 Jeff Boudier说。

自 2017 年以来，Sada 每年都荣获年度合作伙伴奖，并提供 Google 云服务以实现最大影响。

作为值得骄傲的 Google Cloud 首要合作伙伴，SADA 与全球知名的 AI 先驱有着 20 年的悠久历史。我们正在为数千名不同的客户快速集成人工智能。凭借我们丰富的经验和人工智能超计算机架构，我们迫不及待地想帮助我们的客户利用 Trillium 释放生成人工智能模型的下一个前沿领域的价值。- Miles Ward，Sada 首席技术官说

AI 超级计算机还提供 AI/ML 工作负载所需的灵活消费模型。动态工作负载调度程序 (DWS) 让访问 AI/ML 资源变得更加容易，并帮助客户优化支出。Flex 启动模式可以通过同时调度所需的所有加速器来改善突发工作负载（例如训练、微调或批处理作业）的体验，无论您的入口点是什么：Vertex AI Training、Google Kubernetes Engine (GKE) 或 Google Cloud Compute引擎。

Lightricks 很高兴能够通过 AI 超级计算机的性能提升和效率提升来重新获得价值。

“自 Cloud TPU v4 以来，我们一直在将 TPU 用于文本到图像和文本到视频模型。凭借 TPU v5p 和 AI 超级计算机的效率，我们的训练速度实现了 2.5 倍的惊人提升！第六代 Trillium TPU 令人难以置信，与上一代相比，每芯片的计算性能提高了 4.7 倍，HBM 容量和带宽提高了 2 倍。当我们扩展文本到视频模型时，这对我们来说来得正是时候。我们还期待使用 Dynamic Workload Scheduler 的弹性启动模式来管理我们的批量推理作业并管理我们未来的 TPU 预留。” - Lightricks 核心生成人工智能研究团队负责人Yoav HaCohen 博士说。

Google Cloud TPU 是人工智能加速领域的前沿技术，经过定制设计和优化，可为大规模人工智能模型提供支持。TPU 独家通过 Google Cloud 提供，为训练和服务 AI 解决方案提供无与伦比的性能和成本效益。无论是复杂的大型语言模型还是图像生成的创造性潜力，TPU 都有助于开发人员和研究人员突破人工智能世界的可能界限。

参考链接

https://siliconangle.com/2024/05/14/google-cloud-unveils-trillium-tpu-powerful-ai-processor-far/

https://cloud.google.com/blog/products/compute/introducing-trillium-6th-gen-tpus/

点这里👆加关注，锁定更多原创内容

END

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。