Redian新闻
>
谷歌发布新的TPU芯片,HBM容量提高三倍

谷歌发布新的TPU芯片,HBM容量提高三倍

公众号新闻
来源:内容由半导体行业观察(ID:icbank)编译自谷歌,谢谢。

谷歌今天发布博客表示,生成式人工智能 (gen AI) 模型正在迅速发展,提供无与伦比的复杂性和功能。这一进步使各行业的企业和开发人员能够解决复杂的问题并释放新的机遇。然而,新一代人工智能模型的增长——过去五年参数每年增加十倍——带来了对训练、调整和推理的更高要求。当今的大型模型具有数千亿甚至数万亿的参数,即使在最专业的系统上,也需要大量的训练期,有时甚至长达数月。此外,高效的人工智能工作负载管理需要一个由优化的计算、存储、网络、软件和开发框架组成的连贯集成的人工智能堆栈。


今天,为了应对这些挑战,我们很高兴地宣布 Cloud TPU v5p,这是我们迄今为止最强大、可扩展且灵活的人工智能加速器。长期以来,TPU 一直是训练和服务 AI 支持的产品(例如 YouTube、Gmail、Google 地图、Google Play 和 Android)的基础。事实上,Google今天宣布的最强大、最通用的人工智能模型 Gemini是使用 TPU 进行训练和服务的。


此外,我们还宣布推出来自 Google Cloud 的 AI 超级计算机,这是一种突破性的超级计算机架构,采用性能优化的硬件、开放软件、领先的机器学习框架和灵活的消费模型的集成系统。传统方法通常通过零散的组件级增强来解决要求苛刻的人工智能工作负载,这可能会导致效率低下和瓶颈。相比之下,人工智能超级计算机采用系统级协同设计来提高人工智能训练、调整和服务的效率和生产力。


Cloud TPU v5p 是我们迄今为止最强大且可扩展的 TPU 加速器


今年早些时候,我们宣布全面推出 Cloud TPU v5e。与上一代 TPU v4 1相比,性价比提高了 2.3 倍,是我们迄今为止最具成本效益的TPU。相比之下,Cloud TPU v5p 是我们迄今为止最强大的TPU。每个 TPU v5p Pod在我们最高带宽的芯片间互连 (ICI)上由 8,960 个芯片组成,采用 3D 环面拓扑,每芯片速率为 4,800 Gbps 。与 TPU v4 相比,TPU v5p 的FLOPS 提高了 2 倍以上,高带宽内存 (HBM) 提高了 3 倍以上。


TPU v5p 专为性能、灵活性和规模而设计,训练大型 LLM 模型的速度比上一代 TPU v4 快 2.8 倍。此外,借助第二代SparseCores,TPU v5p训练嵌入密集模型的速度比 TPU v4 2快 1.9 倍。



除了性能改进之外,TPU v5p 在每个 pod 的总可用 FLOP 方面的可扩展性也比 TPU v4 高 4 倍。与 TPU v4 相比,每秒浮点运算次数 (FLOPS) 加倍,并且单个 Pod 中的芯片数量加倍,可显着提高训练速度的相对性能。



谷歌人工智能超级计算机大规模提供峰值性能和效率


实现规模和速度是必要的,但不足以满足现代 AI/ML 应用程序和服务的需求。硬件和软件组件必须组合成一个集成的、易于使用、安全且可靠的计算系统。在谷歌,我们针对这个问题进行了数十年的研究和开发,最终开发出了人工智能超级计算机,这是一个经过优化的技术系统,可以协同工作以支持现代人工智能工作负载。



性能优化的硬件:AI 超级计算机具有基于超大规模数据中心基础设施构建的性能优化的计算、存储和网络,利用高密度占地面积、液体冷却和我们的Jupiter 数据中心网络技术。所有这一切都基于以效率为核心的技术;利用清洁能源和对水资源管理的坚定承诺,正在帮助我们迈向无碳的未来。


开放软件:人工智能超计算机使开发人员能够通过使用开放软件来访问我们性能优化的硬件,从而在性能优化的人工智能硬件之上调整、管理和动态编排人工智能训练和推理工作负载。


对流行的 ML 框架(例如 JAX、TensorFlow 和 PyTorch)的广泛支持开箱即用。JAX 和 PyTorch 均由OpenXLA编译器提供支持,用于构建复杂的 LLM。XLA 作为基础骨干,支持创建复杂的多层模型(使用 PyTorch/XLA 在云 TPU 上进行 Llama 2 训练和推理)。它优化了各种硬件平台上的分布式架构,确保针对不同的 AI 使用案例进行易于使用且高效的模型开发(AssemblyAI 利用 JAX/XLA 和 Cloud TPU 进行大规模 AI 语音)。


开放且独特的多片训练和多主机推理软件分别使扩展、训练和服务工作负载变得顺利和简单。开发人员可以扩展到数万个芯片来支持要求苛刻的人工智能工作负载。


与Google Kubernetes Engine (GKE)和Google Compute Engine深度集成,提供高效的资源管理、一致的操作环境、自动扩展、节点池自动配置、自动检查点、自动恢复和及时的故障恢复。


灵活消费:AI超算提供多种灵活动态的消费选择。例如 Committed Use Discounts (CUD)、按需定价和现货定价等经典选项外,AI Hypercomputer 还通过Dynamic Workload Scheduler 提供针对 AI 工作负载量身定制的消费模型。Dynamic Workload Scheduler 引入了两种模型:Flex Start 模式,可实现更高的资源可用性和优化的经济性;Calendar 模式,针对作业启动时间具有更高可预测性的工作负载。


原文链接

https://cloud.google.com/blog/products/ai-machine-learning/introducing-cloud-tpu-v5p-and-ai-hypercomputer


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第3607期内容,欢迎关注。

推荐阅读


GPU,巨变前夜

芯片,全面复苏?

先进封装大战,升级!


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码,回复下方关键词,阅读更多

晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装

回复 投稿,看《如何成为“半导体行业观察”的一员 》

回复 搜索,还能轻松找到其他你感兴趣的文章!

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
谷歌发布Prompt Expansion框架,让文生图更轻松!谷歌发布AI视频生成模型;传微软组建新GenAI团队;蚂蚁成立AI创新部门丨AIGC大事日报谷歌发布 Gemini:我们还是一家强大的公司国内首次应用!效率提高三倍以上谷歌芯片的里程碑:OpenAI的竞争对手部署了谷歌自研TPU今天巴伐利亚州议会选举加州纽约庇护批准率较德州佛州高三倍突发!美国限制向中国出口Nvidia H800等先进AI芯片,壁仞科技、摩尔线程等中国GPU芯片企业被列入实体名单反击美国之战!七部门:加快突破GPU芯片等技术,建设超大规模智算中心!于向真:湖南之行再读席慕容的诗「云途半导体」再获数亿元人民币融资,加速车规级MCU芯片国产化进程|36氪独家从AI服务器谈HBM、HBM2、HBM3、HBM3e技术火了半年整天吊打别人的GPT-4,今天碰到个头铁的被吊打, 谷歌发布史上最强大模型Gemini谷歌发布West-of-N,利用合成数据,显著提升LLM奖励模型质量 | 今日Arxiv最热大模型论文小说:兰欣与乌茶 34英伟达股价又创下历史新高!扎克伯格宣布购买35万GPU芯片,芯片的巨大潜力增长谷歌被指控 TPU芯片盗用他人专利!最高或赔偿50亿美元谷歌发布视频生成大语言模型 VideoPoet震惊!!!谷歌发布最强多模态大模型Gemini“自己人” 买房泡汤了!(今日世界日报)HBM市场将狂飙52%,芯片大厂创纪录三星发布HBM3E 内存:36GB 堆栈,速度为9.8 Gbps在这两州申请移民庇护,获批率比德州高三倍英特尔CEO:不惧怕英伟达或高通 PC CPU芯片碾压GPT-4?谷歌发布最强AI模型,解读来了美光研发路线图曝光,HBM4E、CXL 2.0、DDR5在列!比英伟达H100快90%!最强大模型AI芯片来了,首搭141GB HBM3e突发!DPU芯片企业遭证监会通报:涉嫌重大财务造假1/10体量达到SOTA!谷歌发布5B参数视觉语言模型PaLI-3,更小更快却更强谷歌发布Gemini,负责人:原生多模态大模型是AI「新品种」,正探索与机器人结合我国自主研发的新一代通用处理器在京发布;谷歌发布首个AI Core应用更新;亚马逊推出AI聊天机器人丨AIGC日报2万人打出9.5高分,HBO纪录片天花板,一口气狂刷6集!突发!谷歌发布史上最强大模型Gemini,赶超GPT-4|亮马桥小纪严选SpaceX将于1月31日向国际空间站发射天鹅号货运飞船;七部门:加快突破GPU芯片等技术,建设超大规模智算中心丨智能制造日报
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。