AI 算力芯片主要包括 GPU、FPGA,以及以 VPU、TPU 为代表的 ASIC 芯片。其中以 GPU 用量最大,据 IDC 数据,预计到 2025 年 GPU 仍将占据 AI 芯片 8 成市场份额。然而,相较传统图形 GPU,通用型算力 GPU 在芯片架构上缩减了图形图像显示、渲染等功能实现,具有更优的计算能效比,因而被广泛应用于人工智能模型训练、推理领域。AI算力研究:英伟达B200再创算力奇迹,液冷、光模块持续革新
1、中国电信业人工智能行业应用发展图谱(2024)
2、中国汽车业人工智能行业应用发展图谱(2024)网络大模型十大问题白皮书(2024)
AI 芯片可以分为云端 AI 芯片 、边缘和终端 AI 芯片;根据其在实践中的目标,可分为训练( training )芯片和推理( inference )芯片。云端主要部署高算力的 AI 训练芯片和推理芯片,承担训练和推理任务,具体有智能数据分析、模型训练任务和部分对传输带宽要求比高的推理任务;边缘和终端主要部署推理芯片,承担推理任务,需要独立完成数据收集、环境感知、人机交互及部分推理决策控制任务。评价 AI 芯片的指标主要包括算力、功耗、面积、精度、可扩展性等,其中算力、功耗、面积(PPA)是评价 AI 芯片性能的核心指标:(1)算力:衡量 AI 芯片算力大小的常用单位为 TOPS 或者 TFLOS,两者分别代表芯片每秒能进行多少万亿次定点运算和浮点运算,运算数据的类型通常有整型 8 比特(INT8)、单精度 32 比特(FP32)等。AI 芯片的算力越高,代表它的运算速度越快、性能越强。(2)功耗:功耗即芯片运行所需的功率,除了功耗本身,性能功耗比是综合衡量芯片算力和功耗的关键指标,它代表每瓦功耗对应输出算力的大小。(3)面积:芯片的面积是成本的决定性因素之一,通常来讲相同工艺制程之下,芯片面积越小良率越高,则芯片成本越低。此外,单位芯片面积能提供的算力大小亦是衡量 AI 芯片成本的关键指标之一。英伟达的 GPGPU 是全球应用最为广泛的 AI 芯片,决定其性能的硬件参数主要包括:微架构、制程、CUDA 核数、Tensor 核数、频率、显存容量、显存带宽等。其中,微架构即 GPU 的硬件电路设计构造的方式,不同的微架构决定了 GPU的不同性能,作为英伟达 GPU 的典型代表,V100、A100、H100 GPU 分别采用Volta、Ampere、Hopper 架构;CUDA 核是 GPU 内部主要的计算单元;Tensor核是进行张量核加速、卷积和递归神经网络加速的计算单元;显存容量和带宽是决定 GPU 与存储器数据交互速度的重要指标。全球 AI 芯片市场被英伟达垄断,然而国产 AI 算力芯片正起星星之火。目前,国内已涌现出了如寒武纪、海光信息等优质的 AI 算力芯片上市公司,非上市 AI 算力芯片公司如沐曦、天数智芯、壁仞科技等亦在产品端有持续突破。寒武纪 AI 芯片思元 290 面向云端训练,思元 370 面向云端训推一体,两款芯片均采用 7nm 制程工艺。此外,思元 370 是寒武纪首款采用 chiplet 技术的 AI 芯片,最大算力高达 256TOPS;训练侧新品思元 590 在研发中。寒武纪云端产品已打入阿里云等头部互联网客户,并与头部银行等金融领域客户进行了深度技术交流,同时亦得到了头部服务器厂商的认可。展望2023 年,随着 ChatGPT 为代表的 AI 大模型不断涌现,AI 算力需求有望加速增长,从而驱动 AI 算力芯片需求增长。寒武纪作为国内领先的 AI 芯片公司,产品研发、市场拓展、客户导入均有较强先发优势,有望深度受益 AI 发展的浪潮与 AI 算力芯片国产化趋势,在 23 年取得快速成长。海光信息拥有成功研发 x86 处理器或 ARM 处理器的经验。海光信息的 DCU 芯片深算一号采用 7nm 工艺,兼容“类 CUDA”环境,软硬件生态丰富,已于 2021年实现规模化出货,未来将广泛应用于大数据处理、人工智能、商业计算等领域。沐曦集成电路首款异构 GPU 产品 MXN100 采用 7nm 制程,已于 2022 年 8 月回片点亮,主要应用于推理侧;应用于 AI 训练及通用计算的产品 MXC500 已于 2022 年 12 月交付流片,公司计划 2024 年全面量产。天数智芯的 Big Island 云端 GPGPU 是一款具有自主知识产权、自研 IP 架构的 7nm 通用云端训练芯片,这款芯片达到 295TOPSINT8 算力。壁仞科技发布首款 GPGPU 芯片BR100,BR100 芯片采用 chiplet 技术,其 16 位浮点算力达到 1000T 以上、8 位定点算力达到 2000T 以上。公司最新发布的第二代推理产品云燧 i20 是面向数据中心应用的第二代人工智能推理加速卡,采用 12nm 工艺,通过架构升级大大提高了单位面积的晶体管效率,算力可媲美 7nm GPU,达到 256TOPS。昆仑芯新品 AI 芯片 R200 于 2022智算峰会上正式发布,基于新一代昆仑芯自研架构 XPU-R,通用性和性能显著提升,采用 7nm 先进工艺,算力可达 256TOPS。配合百度飞桨平台,获得更友好开发的环境。平头哥有两条研发主线,一是利用 ARM 的 IP 为阿里云数据中心研发芯片,在云端提供普惠算力,即倚天系列和含光系列;另一边集中在 RISC-V 处理器架构的研发,如玄铁系列,主要应用是在 AIoT 领域。公司技术团队由原中天微、高通、AMD、华为海思等拥有丰富研发经验的人员构成。平头哥于 2019 年 9 月发布首颗数据中心芯片含光 800,采用 12nm 工艺,性能峰值算力达 820 TOPS。9、昇腾计算产业链
华为主打 AI 芯片产品有昇腾310 和910B。310 偏推理,当前主打产品为 910B,拥有FP32 和 FP16 两种精度算力,可以满足大模型训练需求。910B 单卡和单台服务器性能对标 A800/A100。
昇腾计算产业是基于昇腾 AI 芯片和基础软件构建的全栈 AI 计算基础设施、行业应用及服务,能为客户提供 AI 全家桶服务。主要包括昇腾 AI 芯片、系列硬件、CANN、AI 计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链。
根据电子发烧友统计,在国产 AI 算力芯片中,寒武纪推出的云端训练侧产品思元 290达到 512TOPS INT8 算力,训推一体产品思元 370 达到 256TOPS INT8 算力;海光信息 DCU 产品深算一号部分参数对标英伟达 A100。国内非上市公司中,天数智芯的训练侧产品 BI 达到 295TOPS INT8 算力;沐曦的推理侧产品MXN100 已于 2022 年 8 月回片点亮。互联网巨头亦强势入局 AI 芯片,腾讯领投的燧原科技推出推理侧产品云燧 i20,INT8 算力达 256TOPS;百度孵化的昆仑芯推出训推一体 AI 芯片 R200,INT8 算力达 256TOPS;背靠阿里的平头哥亦早在 2019 年就推出推理侧 AI 芯片含光 800。相关阅读:
大模型场景下智算平台的设计与优化实践
国产AI算力:万卡集群,多芯混合
新硬件驱动分布式事务处理系统
从技术路径,纵观国产大模型逆袭之路
2023年服务器计算机CPU行业报告
SiFive P870高性能CPU,探讨RISC-V的未来
CPU超频和倍频技术
CPU技术路线、分类及全球市场竞争现状
CPU处理器散热技术
CPU性能基准测试研究综述(2023)
CPU处理器主要技术指标
CPU处理器的基本结构
鲲鹏CPU系列技术产业介绍
英伟达CPU ,吊打Intel和AMD?
Intel下一代数据中心CPU:Chiplet设计,性能240%提升
Intel揭示2023~2025服务器CPU路线图
NVIDIA最强CPU芯片架构
俄罗斯自研CPU大战华为&英特尔:一项测试领先鲲鹏
兆芯CPU+GPU技术路线
数据中心CPU芯片,ARM可堪重负?
CPU生态、价值与机遇研究
ARM Neoverse系列服务器CPU介绍
全球CPU市场格局(2022)
CPU处理器未来技术演进方向
信创从芯开始,CPU实现国产有多难?
CPU行业专题:国产替代空间及格局
CPU技术路线、分类及全球市场竞争状态
倪光南:RISC-V已成中国CPU领域最受欢迎的架构
CPU渲染和GPU渲染优劣分析
CPU研究框架:CPU国产替代空间广阔
中流击水:六大国产CPU厂商分析(2022)
免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。更多架构相关技术知识总结请参考“架构师全店铺技术资料打包(全)”相关电子书(41本技术资料打包汇总详情可通过“阅读原文”获取)。温馨提示:
扫描二维码关注公众号,点击阅读原文链接获取“架构师技术全店资料打包汇总(全)”电子书资料详情。