内容来源“2023年中国云生态蓝皮书”。随着人工智能、云服务等新兴需求的迅猛增长,算力正在从满足多任务的通用芯片,向单一任务的多种专用芯片发展,传统以 CPU 为核心的计算架构,已经不能满足新兴业务需求,异构计算成为重要趋势。
近年来,在云计算蓬勃发展的同时,异构计算市场也乘风得到了长足的发展。对芯片设计企业而言,过去进入服务器计算芯片市场只有通过有竞争力的 X86 CPU,而现在 GPU、FPGA、AI 芯片各类架构 CPU 等多种计算芯片均在服务器中得到广泛应用,为国产 CPU 及 AI 芯片公司,以及基于国产芯片的智能计算产业链提供了良好的发展机会。CPU 是中央处理器作为计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元。FPGA是基于通用逻辑电路阵列的集成电路芯片,其最大的特点是芯片的具体功能在制造完成以后由用户配置决定。GPU/GPGPU 是并行计算的主力算力引擎。随着业务越来越复杂,数据流量呈现指数级增长,全部业务和数据靠 CPU 处理,性价比极低。AI 加速芯片为专门针对 AI 深度学习,结合标量计算、矢量计算和张量计算真的专用架构应运而生,针对 AI 推理应用,实际算力利用率可超过 90%。DPU 作为数据处理器,其核心是通过协处理器协助主控 CPU 处理网络负载,编程网络接口功能。支持数据中心底层存储、安全、服务质量管理等基础设施层服务,提升整个计算系统的效率、降低整体系统的总体拥有成本。目前,我国服务器计算芯片主要从英特尔、AMD 超威半导体、英伟达等企业进口,未来计算芯片国产化市场空间大,进口替代空间广阔。本文主要关注计算芯片,包括 CPU、GPU/GPGPU、FPGA、AI 加速芯片等和以 DPU 为代表的网络通信芯片。1、CPU
CPU 中央处理器作为计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元。CPU 是整个 IT 生态的定义者,无论是服务器端的 X86 还是移动端的 ARM(安谋),都各自构建了稳固的生态系统,不仅形成技术生态圈,还形成闭合价值链。市场空间
数据中心应用 CPU 价格高,利润最为丰富,根据不同配置,CPU 占据服务器总成本约 1/3 到 1/2。预计到 2025 年,随着中国数据中心的不断扩容和升级,以及云计算、大数据、人工智能等应用的快速发展,中国数据中心应用 CPU 市场规模有望继续增长。根据中金证券研究数据,2021 年中国服务器 CPU 市场规模 60 亿美元,预计 2024 年达到 92 亿美元,3 年年均复合增长率 15%。发展趋势
国产 CPU 各个技术赛道全方面布局。X86、ARM、RISC-V(Reduced Instruction Set Computer-V,第五代精简指令集计算机 )是 CPU 三大技术架构。服务器市场上 X86 处理器市占率超过 90%,占据绝对主导地位。CPU 产业链巨头大多集中在海外,位居产业链各个环节核心,对全球 CPU 行业影响力较大。在设计环节,英特尔和 AMD 几乎垄断通用型CPU 市场。借助台积电先进制程,AMD 服务器 CPU 霄龙强势崛起,根据 IDC 数据 2021 年第四季度,AMD 数据中心 CPU 市场占有率自 2016 年之后首超 10%。为应对新的挑战,英特尔 2021 年底历史第一次宣布开放 X86 指令集给第三方公司。ARM开放指令集以及在移动端构建的良好生态,数据中心巨大市场以及丰厚利润吸引各家巨头入局开发ARM 架构服务器 CPU,其市场占有率稳步提升。除美满、富士通、英伟达、海思等传统芯片巨头之外,亚马逊、谷歌、阿里等手握资金、技术以及应用场景的新型互联网公司也加入这一战局,给市场带来变数。ARM 架构服务器 CPU 性能不断提升、生态不断完善,与 X86 架构正面竞争,蚕食之势不容小觑。RISC-V 作为后起之秀发展迅速,英特尔在 2021 年提出 20 亿美元收购专注于高性能计算的 RISC-V 初创公司 SiFIVE。RISC-V 是开源指令集,开放程度比 ARM 更好,支持指令集扩展。RISC-V 开放的定位是国产芯片实现全产业链自主可控的重要基础,截至 2022 年末,我国大约有 50 款不同型号的国产 RISC-V 芯片量产,应用场景集中在 MCU、电源管理、无线连接、存储控制、物联网等中低端场景。而目前已有多家创新企业计划在 2023 年发布对标 64 核高性能的服务器级处理器,应用领域也有望从专业应用场景逐步拓展到通用计算场景。在信创市场驱动下,国产 CPU 各个技术赛道全方面布局,不同于以往的国产化替代,信创更强调生态构建。从 IT 基础设施到应用软件,再到 IT 安全,2022 年信创产业规模达到 9220.2 亿元,近五年复合增长率 35.7%,预计 2025 年突破 2 万亿,国产 CPU 在信创领域存在巨大的市场发展机会。同时,中国 CPU另外一个特点就是各个技术赛道全方面布局,中国全自主架构唯一代表有龙芯 LoongArch 架构,X86架构有海光、兆芯,ARM 架构有飞腾、海思,RISC-V 架构有阿里等。2、GPU/GPGPU
传统 CPU 为核心的计算架构中所有数据和指令都由 CPU 来处理。然而 CPU 的架构不适合处理高并行度数据计算业务,更适合进行逻辑运算和整个计算机的管理。随着业务越来越复杂,数据流量呈现指数级增长,全部业务和数据靠 CPU 处理,性价比极低。因此出现了各种协处理器 XPU,专门帮助 CPU 处理各种特定应用场景业务。最早出现的就是计算机 3D 图形渲染专用加速芯片,特点是大量的并行小核,需要在 CPU 调度下工作。1999 年英伟达发布第一款 GPU 产品 NV10,在市场上第一次推出 GPU 概念。随后英伟达把GPU应用推广到GPGPU和CUDA编程框架推广,GPU 成为并行计算的主力算力引擎。2012 年的 ImageNet 比赛,取得突破的 AlexNet 的发明人亚历克斯使用了英伟达的 GPU,证明了 GPU 非常适合用于多并行计算的神经网络,从此 GPU 成为深度学习标配,引爆市场。市场空间
目前中国深度学习加速服务器 90%还是采用 GPU/GPGPU,根据中金证券测算,2021 年中国 2022 年中国服务器应用 GPU/GPGPU 市场规模达到 32 亿美元,预计 2024 年市场规模达到 54 亿美元。发展趋势
GPT 应用激发算力需求,国产 GPU 加速补位,仍面临巨大算力缺口。GPU 采用最先进的逻辑工艺,不考虑巨大的生态建设费用,单芯片研发成本 10 亿人民币起步,过去鲜有资本和创业团队涉足。然而,英伟达、AMD 高端 GPGPU 产品受美国政府禁令的影响已经预示了国产GPGPU 供应链安全问题的严重性,中国政府及资本市场也对于国内 GPU 企业予以高度重视,国产 GPU厂商存在替代补位的机会,GPU 初创公司不断涌现,融资金额屡创新高,估值动辄超百亿。英伟达、AMD 高管为主的创业团队,超一线 VC 机构重金支持,成为国产 GPU 初创公司范式。另一方面,今年爆火的 ChatGPT 和 GPT-4 等新一代 AI 应用的商用化,对芯片算力的技术要求将大幅提高,并有望创造出可观 AI 芯片增量市场空间。3、FPGA
FPGA 是基于通用逻辑电路阵列的集成电路芯片,和 ASIC芯片不同,其最大的特点是芯片的具体功能在制造完成以后由用户配置决定。用户可通过配套的 FPGA 专用 EDA 软件实现具体功能,首先由专用 EDA 软件接受用硬件语言描述的用户电路,其次编译生成二进制位流数据,最后将位流下载到芯片中实现用户所需特定功能的集成电路芯片。每颗 FPGA 芯片均可以进行多次不同功能配置,从而实现不同的功能。服务器和存储器作为数据中心的通用基础设备,为了应对复杂多变的应用情景,需要 FPGA 芯片实现逻辑控制、数据转换、功能扩展、系统升级等功能。在数据中心运算处理领域,相比 CPU,FPGA 芯片由于其无指令、无需共享内存的体系结构,能够同时提供强大的计算能力和足够的灵活性;相比 GPU,FPGA 芯片在数据中心具有低延迟及高吞吐的优势;相比 ASIC,FPGA 芯片在性能、灵活性、同构性、成本和功耗等五个方面达到出色平衡。市场空间
FPGA 芯片具有灵活性高、应用开发成本低、上市时间短等优势。数据中心是 FPGA 芯片的新兴应用市场之一,根据 Frost&sullivan 数据,2020 年应用于该领域的 FPGA 芯片中国销售额将达到 16.1 亿元,占中国 FPGA 芯片市场份额的 10.7%,预计 2024 年将达到 30 亿元,2021 年至 2024 年年均复合增长率将达到16.6%。发展趋势
FPGA 芯片在数据中心领域主要用于硬件加速,数据中心使用 FPGA 芯片代替传统的 CPU 方案后,处理其自定义算法时可实现显著的加速效果。因此从 2016 年开始,微软 Azure、亚马逊 AWS、阿里云的服务器上都开始部署 FPGA 加速器用于运算加速。在云计算大面积应用的背景下,未来数据中心对芯片性能的要求将进一步提升,更多数据中心将采纳 FPGA 芯片方案,这将进一步提高 FPGA 芯片在数据中心芯片中的价值占比。FPGA 芯片向高集成化的现场可编程系统级芯片发展。英特尔 2015 年收购 Altera 阿尔特拉,AMD 2022年完成收购 Xilinx 赛灵思,CPU 和 FPGA 融合成为趋势。国际主流 FPGA 芯片公司逐渐形成了在 FPGA 芯片中加入处理器的技术路线,并产生了可编程系统级芯片这一新产物。和传统 FPGA 芯片不同,现场可编程系统级芯片的特点是单芯片高度集成电子信息设备所需的 CPU、FPGA、存储接口、I/O外设接口甚至人工智能专用引擎等所有模块,单颗芯片可完成应用情景的所有功能需求。4、AI 加速芯片
深度学习涉及少量标量计算、大量的矢量计算和张量计算。GPU 是标量计算核,在处理深度学习数据时,需要消耗大量资源把矢量和张量计算转变为标量计算,因此 GPU 实际算力利用率最高只能达到 40%。固定算法的 ASIC 芯片利用率最高,但是不适合业务复杂、算法在一直更新的云计算应用,而更适合边缘端应用。因此专门针对深度学习应用,结合标量计算、矢量计算和张量计算的 DSA(Domain Specific Architectures,特定领域专用架构)架构应运而生,针对 AI 推理应用,实际算力利用率可超过 90%,并且其芯片提供最基本的深度学习算子,保证芯片在深度学习应用的通用性和扩展性,从而实现数据中心降本增效。2019 年英特尔 20 亿美元收购了以色列初创公司 Habana Lab,证明了 DSA 架构在商业和技术上的成功。国内希姆计算、瀚博、燧原等初创公司都采用 DSA 架构技术路线,并开始商业落地。市场空间
根据中金证券测算,2021 年中国云计算应用 AI 加速芯片市场规模约 5 亿美元,预计 2024 年市场规模将达到 14 亿美元,三年年均复合增长率达到 47%。发展趋势
面向场景专用的云端 AI 芯片进一步加速渗透。互联网公司成为 AI 加速芯片主力。互联网公司直接面向终端提供服务,既拥有丰富的业务场景,又具备技术和资金实力,于是开始绕过英特尔、英伟达等传统芯片供应商下场自研芯片或者投资芯片初创公司,满足自身需求。比如谷歌 TPU,百度昆仑芯片,亚马逊,字节跳动等,都在结合自身应用场景自研AI 加速芯片。场景专用的云端 AI 推理加速芯片,有望依靠性价比取胜。互联网公司推理应用场景主要是内容推荐和内容审核,内容和用户都已经完成向量化,对芯片实时性要求高,对芯片生态和通用性要求低。并且推理芯片的需求量和增速远高于训练芯片,根据 Facebook 给出的预测,今后推理芯片和训练芯片的需求量是 9:1。专门针对 AI 云端推理计算的 AI 推理加速芯片,实际任务负载达到 90%以上,实现相同工艺节点 GPU 的 2 倍以上性价比。5、DPU
数据中心规模越来越大,任务越来越复杂,根据亚马逊统计仅处理网络通信就需消耗 CPU 30%的算力,亚马逊称之为“datacenter tax(数据中心税)”。DPU 是以数据为中心构造的专用处理器,支持数据中心底层存储、安全、服务质量管理等基础设施层服务。DPU 要解决的核心问题是基础设施的 “降本增效”,即将“CPU 处理效率低下、GPU 处理不了”的负载卸载到专用 DPU,提升整个计算系统的效率、降低整体系统的总体拥有成本(TCO)。市场空间
根据头豹研究院测算,2022 年中国 DPU 市场规模约 11 亿美元,预计到 2025 年市场规模将达到 37 亿美元。发展趋势
存在广阔的应用前景和巨大的市场空间。DPU 存在广阔的应用前景和巨大的市场空间。国际巨头近年来也先后布局 DPU 产品,英伟达于 2021 年发布新一代 DPU BlueField 3,英特尔发布基础设施处理器 IPU,AMD 收购 DPU 厂商 Pensando。同时,DPU 作为专门负责数据中心底层网络通信的算力芯片,是一个新兴赛道,国内外发展差距小,竞争格局还较为分散,没有像 CPU 和 GPU 那样的明确巨头。因此,各大国内芯片厂商正在积极通过中国在云计算领域积累的市场规模、增速、特别是用户数量的优势来推动国内 DPU 的开放生态建设。DPU 作为新兴赛道,最大的挑战是行业标准化。由于数据中心本身的复杂性,各大厂商一方面采用现成商业软件来构建系统,追求低成本,一方面又设法分层服务化(IaaS、PaaS、SaaS),打造面向不用类型客户的标准化产品。除此之外的所有技术实现几乎都是“八仙过海,各显神通”,例如各大公有云厂商、电信运营商等都有比较完整,同时比较封闭的底层架构和应用生态。上层负载不同,必然对底层架构有各异的需求,这也许是目前 DPU 标准化面临的最大的挑战。转载申明:转载本号文章请注明作者和来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。推荐阅读
2、随着电子书数量增加及内容更新,价格会随之增加,所以现在下单最划算,购买后续可享全店内容更新“免费”赠阅。
温馨提示:
扫描二维码关注公众号,点击阅读原文链接获取“架构师技术全店资料打包汇总(全)”电子书资料详情。