国内外GPU现状:海外龙头领跑,国产差距明显
本文内容来源:AI算力行业深度:AI模型乘风起,GPU掌舵算力大时代,上篇内容参考“GPU竞争壁垒:微架构和平台生态”。
1、英伟达
英伟达(NVIDIA)加速计算的先驱者,创立于 1993 年,公司于 1999 年发明的GPU 推动了 PC 游戏市场的增长,重新定义了现代计算机显卡,并对并行计算进行了革新。目前,英伟达的产品应用领域包括数据中心和云计算、游戏和创作、高性能计算、自动驾驶汽车、计算机开发和边缘计算等,已逐渐转型为计算机平台公司。长久以来,英伟达是加速计算的先驱者。
英伟达 GeForce RTX™ 40 系列 GPU 为游戏玩家和创作者提供了高性能游戏体验。这一系列 GPU 由更高效的 NVIDIA Ada Lovelace 架构提供动力支持,可在性能和 AI 驱动图形领域实现质的飞跃。得益于光线追踪和更高的 FPS 游戏分辨率,玩家和创作者能够以更低的延迟体验栩栩如生的虚拟世界,探索革新的创作方式和远胜以往的工作流程加速技术。
NVIDIA A100 Tensor Core GPU 可针对 AI、数据分析和 HPC 应用场景,在不同规模下实现出色的加速,有效助力更高性能的弹性数据中心。A100 采用NVIDIA Ampere 架构,是 NVIDIA 数据中心平台的引擎,其性能比上一代产品提升高达 20 倍,并可划分为七个 GPU 实例,以根据变化的需求进行动态调整。A100 提供超快速的显存带宽(每秒超过 2 万亿字节 [TB/s]),可处理超大型模型和数据集。
NVIDIA H100 Tensor Core GPU 作为 A100 的迭代产品,可进一步在每个工作负载中实现出色性能、可扩展性和安全性。H100 使用 NVIDIA® NVLink® Switch系统,可连接多达 256 个 H100 来加速百亿亿级 (Exascale) 工作负载,另外可通过专用的 Transformer 引擎来处理万亿参数语言模型。与 A100 相比,H100 的综合技术创新可以将大型语言模型的速度提高 30 倍,从而提供业界领先的对话式AI。
2、AMD
AMD(超微半导体公司),自 1969 年创立以来,专注于处理器及相关技术设计研发。AMD 2009 年将自有晶圆厂拆分为现今的格芯后,从 IDM 厂商转型为Fabless 公司,目前 AMD 主要产品为 CPU(包括嵌入式平台)、GPU、主板芯片以及 2022 年收购赛灵思而扩充的 FPGA 业务。AMD 是目前除了英特尔以外,最大的 x86 架构处理器供应商,自 2006 年收购 ATI 后,成为同时拥有 CPU和 GPU 技术的半导体公司。
AMD 最新于 2022 年推出 AMD Radeon RX 7000 系列显卡,采用 AMD 最新RDNA 3 计算单元,具有光线追踪和人工智能加速功能。7900 系列创新性地采用了小芯片技术的游戏 GPU,其 AMD Radiance Display 引擎和 DisplayPortTM2.1 的强强联合可以带来 12 位 HDR 和 REC2020 色彩空间的完全覆盖,最高可达8K 165Hz。
AMD 于 2016 年推出 Instinct 计算加速器,旨在加速深度学习、人工神经网络和高性能计算 GPGPU 的应用。AMD Instinct 系列加速器采用创新性的 AMDCDNA 架构、AMD Infinity Fabric 技术以及先进的封装技术。对于高性能计算工作负载,AMD Instinct MI250X 的 GPU 双精度 (FP64)结合全新 FP64 Matrix Core技术更可实现最高达 95.7 TFLOPs 峰值理论性能。
3、高通
高通(Qualcomm)创立于 1985 年,是全球领先的无线科技创新公司。高通变革了世界连接、计算和沟通的方式,高通的基础科技赋能整体移动生态系统,开启了移动互联时代。2009 年,高通收购了 AMD 的移动 GPU Imageon 系列,开始发展移动端自研 GPU 业务。
高通 Adreno GPU(原 Imageon)为采用骁龙处理器的移动终端提供游戏机品质的 3D 图形处理能力,为游戏、用户界面和高性能计算任务提供更快的图形处理。作为骁龙异构计算的关键组件,Adreno GPU 为无缝配合骁龙 CPU 和 DSP而设计,可以帮助支持处理密集型 GPGPU 计算任务。2022 年底,高通已发布全新 4nm 级 GPU Adreno 740。
4、Imagination
Imagination 成立于 1985 年,移动端 GPU 设计领域的领军企业。Imagination 业务主要包括设计 PowerVR 移动图形处理器,网络路由器(基于 MIPS CPU)和其他纯消费电子部门。此外还提供无线电基带处理、网络、数字信号处理器、视频和音频硬件、IP 语音软件、云计算以及芯片和系统设计服务。
2020 年 10 月,Imagination 发布 IMG B 系列高性能 GPU IP。此款多核架构 GPUIP 包括 BXE、BXM、BXT、BXS 4 个系列, 分别代表入门级、中端、高端以及汽车安全。其中 BXT 主要应用于移动设备、数据中心,浮点算力 6TFlops,每秒可处理 1920 亿像素,AI 算力达 24Tops。
5、ARM
ARM(安谋控股公司),成立于 1990 年,是全球龙头半导体 IP 供应商。公司主要产品有 CPU、GPU 和 NPU 等处理器 IP。目前,总共有超过 100 家公司与ARM 公司签订了技术使用许可协议,其中包括 Intel、IBM、LG、NEC、SONY等。
ARM 最新 GPU 产品 Mali-G7 系列中 Immortails-G715 GPU 采用 10 个及以上内核,支持硬件级光线追踪技术。Mali-G715 旨在通过一系列新的图形功能和升级(包括可变速率着色)来满足高端移动市场的需求,适用于移动设备上的复杂AAA 游戏。
国产GPU 持续发力,对标行业龙头缩小差距。GPU 有两条主要的发展路线:分别为传统的 2D/3D 图形渲染 GPU 和专注高性能计算的 GP GPU,近年来,国产GPU 厂商在图形渲染 GPU 和高性能计算 GPGPU 领域上均推出了较为成熟的产品,在性能上不断追赶行业主流产品,在特定领域达到业界一流水平。生态方面国产厂商大多兼容英伟达 CUDA,融入大生态进而实现客户端导入。
寒武纪自 2016 年成立以来一直专注于人工智能芯片产品研发与技术创新,致力于打造人工智能领域的核心处理器芯片。公司主要提供云端智能芯片及加速卡、训练整机、边缘智能芯片及加速卡、终端智能处理器 IP 及配套基础软件开发平台,产品广泛应用于消费电子、数据中心、云计算等诸多场景。
2022 年 3 月 21 日,公司正式发布新款训练加速卡 MLU370-X8,搭载双芯片四芯粒思元 370,集成寒武纪 MLU-Link™多芯互联技术,在业界广泛应用于YOLOv3、Transformer 等训练任务中。
MLU 370-S4、MLU370-X4 和 MLU370-X 均基于思元 370 智能芯片的技术,通过 Chiplet 技术灵活组合产品的特性,可满足更多市场需求。
或者获取全店资料打包,后续免费获取全店所有新增和更新。
申明:感谢原创作者的辛勤付出。本号转载的文章均会在文中注明,若遇到版权问题请联系我们处理。
推荐阅读
更多架构相关技术知识总结请参考“架构师全店铺技术资料打包”相关电子书(37本技术资料打包汇总详情可通过“阅读原文”获取)。
全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”,后续可享全店内容更新“免费”赠阅,价格仅收198元(原总价350元)。
温馨提示:
扫描二维码关注公众号,点击阅读原文链接获取“架构师技术全店资料打包汇总(全)”电子书资料详情。
微信扫码关注该文公众号作者