Redian新闻
>
AI芯片第二极:xPU性能、技术架构分析

AI芯片第二极:xPU性能、技术架构分析

公众号新闻
从广义上讲,能运行AI 算法的芯片都叫AI 芯片。CPUGPUFPGANPUASIC 都能执行AI 算法,但在执行效率层面上有巨大的差异。CPU 可以快速执行复杂的数学计算,但同时执行多项任务时,CPU 性能开始下降,目前行业内基本确认CPU 不适用于AI 计算。
内容来源“算力大时代,AI算力产业链全景梳理(2023)”,上篇参考“AI芯片第一极:GPU性能、技术全面分析”。
CPU+xPU 的异构方案成为大算力场景标配,GPU为应用最广泛的 AI 芯片。目前业内广泛认同的AI 芯片类型包括GPUFPGANPU 等。
由于CPU 负责对计算机的硬件资源进行控制调配,也要负责操作系统的运行,在现代计算系统中仍是不可或缺的。GPUFPGA 等芯片都是作为 CPU 的加速器而存在,因此目前主流的AI计算系统均为CPU+xPU 的异构并行。CPU+GPU 是目前最流行的异构计算系统,在HPC、图形图像处理以及AI 训练/推理等场景为主流选择。IDC 数据显示,2021 年中国 AI 芯片市场中,GPU 市占率为 89%

NPU 在人工智能算法上具有较高的运行效率。为了适应某个特定领域中的常见的应用和算法而设计,通常称之为“特定域架构(Domain Specific ArchitectureDSA)”芯片,NPU(神经网络处理器)属于其中一种,常被设计用于神经网络运算的加速。以华为手机 SoC 麒麟 970 为例,NPU 对图像识别神经网络的运算起到了显著加速效果,使其图像识别速度明显优于同代竞品的表现。

目前已量产的 NPU 或搭载 NPU 模块的芯片众多,其他知名的芯片包括谷歌 TPU、华为昇腾、特斯拉 FSD特斯拉 Dojo 等。各家厂商在计算核心的设计上有其差异,例如谷歌 TPU 的脉动阵列,华为昇腾的达芬奇架构。

以谷歌 TPU 及计算核心结构脉动阵列为例,对比其相较于 CPUGPU 的区别:

CPU GPU 均具有通用性,但以频繁的内存访问导致资源消耗为代价。CPU 和 GPU 都是通用处理器,可以支持数百万种不同的应用程序和软件。对于 ALU 中的每一次计算,CPUGPU 都需要访问寄存器或缓存来读取和存储中间计算结果。由于数据存取的速度往往大大低于数据处理的速度,频繁的内存访问,限制了总吞吐量并消耗大量能源。

谷歌TPU 并非通用处理器,而是将其设计为专门用于神经网络工作负载的矩阵处理器。TPU 不能运行文字处理器、控制火箭引擎或执行银行交易,但它们可以处理神经网络的大量乘法和加法,速度极快,同时消耗更少的能量,占用更小的物理空间。

TPU 内部设计了由乘法器和加法器构成的脉动阵列。在计算时,TPU 将内存中的参数加载到乘法器和加法器矩阵中,每次乘法执行时,结果将传递给下一个乘法器,同时进行求和。所以输出将是数据和参数之间所有乘法结果的总和。在整个海量计算和数据传递过程中,完全不需要访问内存。

这就是为什么TPU 可以在神经网络计算上以低得多的功耗和更小的占用空间实现高计算吞吐量。

脉动阵列本质上是在硬件层面多次重用输入数据,在消耗较小的内存带宽的情况下实现较高的运算吞吐率。

脉动阵列结构简单,实现成本低,但它灵活性较差,只适合特定运算。然而,AI 神经网络需要大量卷积运算,卷积运算又通过矩阵乘加实现,正是脉动阵列所适合的特定运算类型。

脉动阵列理论最早在1982 年提出,自谷歌2017 年首次将其应用于 AI 芯片TPU 中,这项沉寂多年的技术重回大众视野,多家公司也加入了脉动阵列行列,在自家加速硬件中集成了脉动阵列单元。

NPU 已经在 AI 运算加速领域获得了广泛应用。在数据中心获得大规模应用的 NPU 案例即 TPU,已被谷歌用于构建数据中心的超级计算机,执行特定神经网络的训练任务。在用户端,手机、汽车、智能安防摄像头等设备开始搭载AI 计算功能,通常是利用训练好的神经网络模型执行图像处理等工作,此时NPU 通用性差的劣势被缩小,高算力、高能耗比的优势被放大,因而得到了广泛的应用。在终端设备中,NPU 常以模块的形式包含在 SoC 内部,对 AI 运算进行加速,例如特斯拉自动驾驶芯片 FSD 均包含 NPU

模型训练需要规模化的算力芯片部署于智能服务器,CPU 不可或缺,但性能提升遭遇瓶颈,CPU+xPU 异构方案成为大算力场景标配。其中 GPU 并行计算优势明显,CPU+GPU 成为目前最流行的异构计算系统,而NPU 在特定场景下的性能、效率优势明显,推理端应用潜力巨大,随着大模型多模态发展,硬件需求有望从GPU 扩展至周边编解码硬件。

AI 加速芯片市场上,英伟达凭借其硬件产品性能的先进性和生态构建的完善性处于市场领导地位,在训练、推理端均占据领先地位。根据 Liftr Insights 数据,2022 年数据中心AI 加速市场中,英伟达份额达82%

下载链接
算力大时代,AI算力产业链全景梳理(2023)
基于鲲鹏处理器的国产高性能计算集群实践
AI算力行业深度:GPU全球格局分析(2023)
人工智能行业报告:AI2.0、AI大模型、算力、AI赋能(2023)
《华为产业链深度系列研究合集(2023)》
通用CPU性能基准测试研究综述(2023)
2023全球半导体与集成电路产业发展研究专题报告
中国智能汽车车载芯片发展研究报告
《海光CPU+DCU技术研究报告合集(上)》 
《海光CPU+DCU技术研究报告合集(下)》 

龙芯CPU技术研究报告合集


转载申明:转载本号文章请注明作者来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。

推荐阅读

更多架构相关技术知识总结请参考“架构师技术全店资料打包汇总(全)(39本全)”相关电子书已经更新至39本,持续更新中。
1、下单“架构师技术全店资料打包汇总(全)”,包含服务器基础知识全解(终极版)pdf及ppt版本,价格仅收239元(原总价399元)。

2、随着电子书数量增加及内容更新,价格会随之增加,所以现在下单最划算,购买后续可享全店内容更新“免费”赠阅。


温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
鲲云科技创始人兼CEO牛昕宇:可重构数据流技术引领AI芯片架构变革| 2023全球AI芯片峰会演讲预告上海/深圳内推 | 微信技术架构部招聘机器学习/NLP算法工程师(可实习)2022-2023年技术圈发生了什么?这21份报告不能错过,涵盖开发者、开源、技术和行业发展!对话火山引擎马茜——如何更好平衡“性能、成本、画质”这三角的关系?“超级增程”、技术出海,零跑重回赛道方鹏教授解读!刑事辩护办案细节、技能、方法全解阿里云倚天实例技术公开课上线,两节课直播讲解倚天实例技术架构、应用实践与软件迁移面向未来的开源OLAP技术架构探讨以及选型实践苹果首发3nm芯片,GPU性能暴涨苹果A17pro单核比肩英特尔旗舰CPU!和AMD性能相差不到10%,网友:性能快接近M1了人性“AI芯片第一股”暴跌超16%AI芯片第一极:GPU性能、技术全面分析烟火气(3)ZT:如果我抑郁了,请这样陪伴我雷军公布澎湃OS 完整系统架构;传苹果 2027 年发布折叠屏产品;英伟达开发 Arm 架构 PC 芯片 | 极客早知道硅基负极材料现状、技术、产业链盘点骁龙8 Gen 3处理器发布:CPU性能提升30%、GPU提升25%回国见闻 - 北京网约车ICCV 2023 | 动态蛇形卷积(Dynamic Snake Convolution)用于管状结构分割武田斥资40亿美元购买的TYK2药物临床结果积极:关节炎症状改善20%以上,正计划启动3期试验有你的笔记本吗?笔记本CPU性能释放天梯图 2023-0903GPU微架构、性能指标、场景、生态链及竞争格局(2023)热点探测技术架构设计与实践下乡时差点学会了抽烟大利空!“AI芯片第一股”创投股东集体清仓,套现逾40亿树莓派5来了!438元起售,CPU性能提高2-3倍美无限期许可韩向中供应芯片,诺贝尔经济学奖揭晓,自动驾驶试验公路统一技术架构将执行,滴滴重提增长计划,这就是今天的其他大新闻!进迭时空CPU设计总监费晓龙:高性能RISC-V核X100的架构设计与虚拟化实现|公开课预告「专题速递」数据驱动赋能、赛事直播优化、RTC技术、低延时传输引擎、多媒体处理框架、GPU加速通用CPU性能基准测试研究综述(2023)看待外交问题要不得“二极管思维”[电脑] 当 ROG 遇上 XPG——ROG Z790 HERO+XPG ROG 认证内存+太阳神装机展示又一部“安卓之王”来了!外观、性能、续航全方位越级...游戏体验更好USB 启动盘制作工具 Rufus 4.3 版发布:添加 expert 功能、改进 Slax Linux 支持
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。