Redian新闻
>
GPU竞争壁垒:微架构和平台生态

GPU竞争壁垒:微架构和平台生态

公众号新闻

Global Market Insights 数据,全GPU 市场预计将以 CAGR 25.9%持续增长,至 2030 年达到 4000 亿美元规模。其中 AI 领域大语言模型的持续推出以及参数量的不断增长有望驱动模型训练端、推理端 GPU 需求快速增长。

内容来源:AI算力行业深度:AI模型乘风起,GPU掌舵算力大时代

近年来,国产 GPU 商在图形渲染 GPU 和高性能计算 GPGPU 领域上均推出了较为成熟的产品,在性能上不断追赶行业主流产品,在特定领域达到业界一流水平。生态方面国产厂商大多兼容英伟达 CUDA,融入大生态进而实现客户端不断导入。在高端GPU 芯片进口受限的背景下,国产 GPU 厂商预计将乘政策东风,抓住国产替代契机快速成长。


GPU(图形处理器)最初是为了解决 CPU 在图形处理领域性能不足的问题而诞生。CPU 作为核心控制计算单元,高速缓冲存储器(Cache)、控制单元(Control)在 CPU 硬件架构设计中所占比例较大,主要为实现低延迟和处理单位内核性能要求较高的工作而存在,而计算单元(ALU)所占比例较小,这使得 CPU 的大规模并行计算表现不佳。GPU 架构内主要为计算单元,采用极简的流水线进行设计,适合处理高度线程化、相对简单的并行计算,在图像渲染等涉及大量重复运算的领域拥有更强运算能力。

GPGPU脱胎于GPU,通用性提升


CPU+GPU 异构计算解决多元化计算需求


大语言模型开启 AI 元年


常见的AI 加速芯片主要为GPUFPGA ASIC


大语言模型有望拉动 GPU 需求增量


GPU 的微架构是用以实现指令执行的硬件电路结构设计

Nvidia 第一个实现统一着色器模型的 Tesla 微架构为例,从顶层 Host Interface 接受来自 CPU 的数据,藉由 Vertex(顶点)、Pixel(片元)、Compute(计算着色器)分发给各 TPCTexture Processing Clusters 纹理处理集群)进行处理。


流处理器、特殊函数计算单元构成计算核心

在单个 TPC 中主要的运算结构为SMStreaming Multiprocessor 流式多处理器),其内在蕴含 I Cache(指令缓存)、C Cache(常量缓存)以及核心的计算单元 SPStreaming Processor 流处理器)和 SFUSpecial Function Unit 特殊函数计算单元),外加 Texture Unit(纹理单元)。


解耦计算单元,拥抱通用计算

由于图形渲染流管线相对固定,Nvidia Tesla构中将部分重要环节剥离并实现可编程,解耦出 SM 计算单元用于通用计算,即可实现根据具体任务需要分配相应线程实现通用计算处理。


计算核心、纹理单元增加, GPC 功能更加完整,Nvidia Fermi 架构奠定完整GPU 计算架构基础。


Tesla 之后,Nvidia 第一个完整的 GPU 计算架构 Fermi通过制程微缩增加更多计算核心、纹理单元,并且通过增加 PolyMorph Engine(多形体引擎)和 Raster Engine(光栅引擎)使得原来 TPC 升级成为拥有更加完整功能的 GPCGraphics Processing Clusters 图形处理器集群)。Fermi 架构共包含 4 GPC16 SM512 CUDA Core

英伟达GPU从最初 Fermi 架构到最新的 Ampere 架构和 Hopper



每一阶段都在性能和能效比方面得到提升,引入了新技术,如 CUDAGPUBoostRT 核心和 Tensor 核心等,在图形渲染、科学计算和深度学习等领域发挥重要作用。最新一代 Hopper 架构在 2022 3 月推出,旨在加速 AI 模型训练,使用 Hopper Tensor Core 进行 FP8 FP16 的混合精度计算,以大幅加速Transformer 模型的 AI 计算。与上一代相比,Hopper 还将 TF32FP64FP16 INT8 精度的每秒浮点运算(FLOPS)提高了 3 倍。


AMD 作为全球第二大GPU厂商,亦通过持续的架构演进保持其市场领先地


2010年以来,AMD 相继推出:GCN 架构、RDNA 架构、RDNA 2 构、RDNA 3 架构、CDNA 架构和 CDNA 2 架构。最新一代面向高性能计算和人工智能 CDNA 2 架构于架构采用增强型 Matrix Core 技术,支持更广泛的数据型和应用,针对高性能计算工作负载带来全速率双精度和全新 FP64 矩阵运算。基于 CDNA2 架构的 AMD Instinct MI250X GPU FP64 双精度运算算力最高可达 95.7 TFLOPs


下载链接:
AI算力行业深度:AI模型乘风起,GPU掌舵算力大时代
AI大语言模型的原理、演进及算力测算
功率半导体:能源变革大时代,功率器件大市场
半导体专题研究:存储当前趋势分析,AI时代揭开新序章
人工智能之火点燃算力需求,AI服务器市场拆解
人工智能:史上最伟大的科技革命
AI大模型在自动驾驶中应用(2023)
GPT-5后NLP大模型逐步走向收敛,ASIC将大有可为
《70+篇半导体行业“研究框架”合集》
《42份智能网卡和DPU合集》
227份重磅ChatGPT专业报告
GPT4专题:构建模型理解能力,商业落地未来可期
华为昇腾服务器研究框架(2023)
《华为鲲鹏产业链深度研究合集》

推荐阅读:
高性能计算技术、方案和行业全解(第二版)
InfiniBand架构和技术实战总结(第二版)
RDMA原理分析、对比和技术实现解析


或者获取全店资料打包,后续免费获取全店所有新增和更新。

全店铺技术资料打包(全)



申明:感谢原创作者的辛勤付出。本号转载的文章均会在文中注明,若遇到版权问题请联系我们处理。


推荐阅读

更多架构相关技术知识总结请参考“架构师全店铺技术资料打包”相关电子书(37本技术资料打包汇总详情可通过“阅读原文”获取)。

全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”,后续可享全店内容更新“免费”赠阅,价格仅收198元(原总价350元)。


温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CPU处理器架构、微架构及授权模式ChatGPT已能操控机器人,工程师连代码都不用写,网友:微软在搞天网?开始赚钱模式:微软ChatGPT版新必应加广告了GPGPU流式多处理器架构及原理GPU平台生态,英伟达CUDA和AMD ROCm对比分析怎么开始学佛(十六)放弃幻想巨头ChatGPT大战陷败局,竟因嫌GPU太贵!Meta用CPU跑AI,点错科技树淘天集团首战618,一场平台生态的“再创业”GPT-3计划开源!Sam Altman自曝急缺GPU,GPT-4多模态能力明年开放首次:微软用GPT-4做大模型指令微调,新任务零样本性能再提升传TikTok将推在线零售店 与亚马逊、Shein和Temu竞争大模型玩家抢购算力,国产GPU还差了一个软件生态|Chat AIGPU微架构及生态研究框架(2023)CPU技术微架构、性能指标、场景、生态链及竞争格局(2023)智源黄铁军:大模型智能涌现令人兴奋,没有绝对壁垒,成败关键在生态GPT-3 计划开源!Sam Altman 自曝急缺 GPU,GPT-4 多模态能力明年开放龙头企业强强联手,手机GPU市场竞争升级硅谷恐慌:微软承认GPT4极度危险,但“已无法停止”...梦想开花InfoQ 2023 年趋势报告:事件驱动架构、深度学习和人工智能、云原生架构和容器化技术Arm新一代架构发布:CPU能效提升40%,GPU性能提升15%【经济】抵御通胀的真正堡垒:LEP储户空前增加!有一种“毁容”叫陈好,当初的女神“万人迷”,如今形象宛如大妈AMD带领GPU进入Chiplet时代,RDNA 3架构深入解读舞台生图被牛蛙小腿意外抢镜!?怎么镜头一转她就秒了内娱半数腿精...未央播报 | 网信办拟出台生成式人工智能服务管理办法 阿里巴巴所有产品将接入“通义千问”大模型“必须有人讨论和平,因为美欧不谈和平”ChatGPT带火AI芯片,赚翻了的英伟达发布新核弹:ChatGPT专用GPU,让推理提速10倍!从「平台」跨向「生态」,汽车业的竞争变天了张韶涵是吃高光长大的吗?41岁舞台生图全脸透亮得像玻璃珠!输入“总线”画的是“公共汽车”,文心一言作画靠国外平台生成?百度回应:不信谣不传谣美业研究院:微生态护肤市场消费洞察42+7,凑个七七四十九天李时珍没上大学读博也能成名医DPU与智能网卡技术公开课上新!三位技术大牛主讲开源DPU、内生安全智能网卡与DPU云化裸金属
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。