CPU是底层硬件基础设施中的核心,当前主流芯片架构为 ARM 和 X86,均为国外主导,芯片国产化率较低。国家启动发展国产 CPU 的泰山计划,863 计划也提出自主研发 CPU。2006 年核高基专项启动,国产 CPU领域迎来新一轮的国家支持,鲲鹏、飞腾、龙芯、兆芯、海光、申威等一批优质国产 CPU 厂商快速崛起。
1、国内CPU厂商概述
海光信息和兆芯采用 x86 架构 IP 内核授权模式,可基于公版 CPU 核进行优化或修改,优点是性能起点高、生态壁垒低,缺点是需要支付授权费、自主创新程度较低。海光最新一代 CPU 已接近国际同类高端产品水平,并兼容x86 指令集。鲲鹏和天津飞腾采用 ARM 指令集架构授权,可自行设计 CPU 内核和 SOC,也可扩充指令集,自主化程度相对较高。华为鲲鹏 920 处理器是业内首款 7nm 数据中心 ARM 处理器,非 X86 架构芯片中鲲鹏 920 芯片在算力维度方面优势领先,且发展至今已经达到可以与 X86 芯片相匹配的性能。龙芯中科采用自研的 LoongArch 指令集,拥有较强的自主性和可靠性,其秉承独立自主和开放合作的运营模式,从指令集/IP 核授权、到芯片级/主板级开发以及系统内核应用等方面对生态伙伴进行全方位的开放支持。
申威采用自研的申威 64 位指令集,重点应用于特种领域,努力实现在国防和网络安全领域芯片的自主可控。随着其产品技术的日益成熟,其生态也不断趋于完善。海思、飞腾均已经获得 ARMv8 永久授权,尽管 ARM 此前表态 ARMv9 架构不受美国出口管理条例约束,华为海思等国内CPU产商依然可获授权,但是ARMv9不再提供永久授权,采用 ARM 架构仍有长期隐患。
RISC-V 因其相对精简的指令集架构(ISA)以及开源宽松的 BSD 协议近年来发展较快,国内阿里平头哥、国芯科技等企业推出了该架构相关产品。MIPS 和 ALPHA 指令架构相对小众,对应国产 CPU 的代表性企业分别是龙芯和申威。
2、鲲鹏920处理器
鲲鹏920处理器。该芯片支持 ARMv8.2 指令集,是行业内首款 7nm数据中心 ARM 处理器,专为大数据处理以及分布式存储等应用而设计。鲲鹏 920 采用多发射、乱序执行、优化分支预测等多种手段提升单核性能。鲲鹏920 拥有 64 个内核,集成 8 通道 DDR4,可以提供多个接口,主频可达 2.6GHz,总内存带宽最高可达 1.5Tb/s,支持 PCIe 4.0 及 CCIX 接口,总带宽 640Gbps。华为 Cache一致性总线(HCCS)的 480Gbps 片间互联支持最多四颗鲲鹏 920 互联和最高 256 个物理核的 NUMA 架构,保证了鲲鹏 920 超强算力的高效输出。此外,在 Memory 子系统上也进行了大量的优化,采用当前典型的 3 级 Cache 的架构,对 Cache 大小以及延时进行了优化设计。
鲲鹏 920 不同核心下与竞品芯片的对比,其在 48 核的时候,整数打平 intel 至强 8180,功耗低 20%。而 64 核心的鲲鹏 920,则比过 intel至强 8180 33%左右。其中至强 8180 是 intel 用于服务器的旗舰芯片,采用 28 核心,2.5GHz 频率,广泛应用于 X86 服务器中。
3、飞腾处理器
飞腾对高性能服务器 CPU、高效能桌面 CPU、高端嵌入式 CPU 三条产业线进行了全面的品牌升级。高性能服务器CPU产品线统一以飞腾腾云S系列进行命名,高性能桌面 CPU 产品线以飞腾腾锐 D 系列进行命名,高端嵌入式 CPU 产品线统一以飞腾腾珑 E 系列进行命名,提供定制化、契合各行各业嵌入式应用的解决方案。
PKS 体系最早由飞腾 CPU(Phytium)和麒麟操作系统(Kylin)的“PK 体系”发展而来。依托飞腾全新的硬件级安全机制,以相关可信技术为支撑,PK 体系融合“S-Security”的立体防护安全链,升级为 PKS体系,并全球首创将“可信计算 3.0”技术融入到 CPU、操作系统和存储控制器中,实现底层构架的本质安全,并成为国内首个计算机软硬件基础体系标准。
4、海光处理器
海光信息与 AMD 公司合作密切,授权海光微电子 x86 指令集和Zen 架构,AMD 获得 2.93 亿美元的授权费。海光集成电路购买海光微电子的 IP 授权,以此为基础开发 CPU。海光集成电路与海光微电子的股权结构保证了公司在规避了英特尔的 x86 授权限制的同时,又使得海光 x86 CPU 成为内资公司开发的产品,满足了国家产业政策和创新的需求。
基于 AMD Zen1 架构,产品性能起点较高。选取 Intel 在 2020 年(与海光7285 同期)发布的 6 款至强铂金系列产品(能够反映 Intel 2020 年发布的主流 CPU产品的性能)与海光 7285 进行性能对比可以发现,在典型场景下,公司最新一代 CPU相关产品均已接近国际同类高端产品水平。
5、兆芯“开先、开胜”处理器
兆芯自主研发的通用处理器产品涵盖“开先”、“开胜”两大系列,具备良好的操作系统和软硬件兼容性,生态体系成熟,支持构建台式机、笔记本、一体机、云终端等多种类型的桌面整机以及服务器、存储等产品。此外,在嵌入式领域,也已经有不同规格基于兆芯通用处理器的工业主板、模块化电脑、工业整机、Box PC、工业级服务器、网络安全平台等产品陆续推出。
开先 KX-6000/开胜 KH-30000 系列处理器是业内第一款完整集成 CPU、GPU、芯片组的SoC 单芯片国产通用处理器,这为整机系统的开发提供了较大的便利条件,同时也更利于控制成本。通过 KX-6000 系列处理器横向对比,8 核心的 KX-U6780A 产品性能与第七代的 4 核心英特尔 i5 整体水平仍存在差距,尤其是单核性能不足 7 代 i5 一半,但整数性能方面对英特尔 i5 实现了反超。
6、龙芯LoongISA 指令系统
龙芯中科采用自主LoongISA 指令系统,兼容 MIPS 指令,所有 IP 模块皆为自主设计,拥有片内安全机制,可信性高。龙芯处理器以 32 位核 64 位单核及多核 CPU/SOC 为主,主要面向高端嵌入式、个人电脑、服务器和高性能机等应用。2002 年 8 月诞生的“龙芯一号”是我国首枚拥有自主知识产权的通用高性能微处理芯片。龙芯 1 号系列为低功耗、低成本的专用嵌入式 SoC 或MCU 处理器;龙芯 2 号系列为低功耗通用处理器,采用单芯片 SoC 设计,应用场景面向工业控制与终端等领域;龙芯 3 号系列为高性能通用处理器,通常集成 4 个及以上 64 位高性能处理器核,与桥片配套使用,应用场景面向桌面和服务器等信息化领域,对标 Intel的酷睿/至强系列。
LoongArch 具有较强的扩展性和自主性。LoongArch 包括基础架构部分和向量指令、虚拟化、二进制翻译等扩展部分近 2000 条指令,具有较好的扩展性。自主性方面,LoongArch 指令系统从整个架构的顶层规划,到各部分的功能定义,再到每条指令的编码、名称、含义,都进行了自主设计,具有充分的自主可靠性。
基于自主指令系统(LoongArch)的 3A5000/3B5000 是龙芯当前重点发展产品。龙芯3A5000/3B5000 是面向个人计算机、服务器等信息化领域的通用处理器,基于龙芯自主指令系统(LoongArch)的 LA464 微结构,并进一步提升频率,降低功耗,优化性能。
从 3A5000 在 SPEC CPU 2006 BASE 性能测试中的表现来看,龙芯 3A5000 单核定点为25.1 分,单核浮点为 26 分。相比 intel i5 9500 六核 14nm 的确有不小的差距,但单核定点与国产 ARM V8 四核 7nm 处理器不相上下,单核浮点略优于国产 ARM V8 四核 7nm 处理器。龙芯 3A5000 对比国产 ARM V8 八核 14nm 处理器的单核定点则高出近 10 分,单核浮点则高出近一倍。多线程测试中,intel i5 9500 六核 14nm 处理器依然表现最佳,而龙芯 3A5000 的多核定点与多核浮点均高于国产 ARM V8 四核 7nm处理器,由于国产 ARM V8 八核 14nm 处理器核心数量上具有一定的优势,因此定点和浮点的分数要高于龙芯 3A5000 和国产 ARM V8 四核 7nm 处理器。
7、申威Alpha 指令处理器
申威处理器以 Alpha 指令集为基础进行拓展,高度自主可控。Alpha 指令集由美国 DEC公司研制,主要用于 64 位的 RISC 微处理器。江南计算所基于原来的 Alpha 指令集,开发出了更多的自主知识产权的指令集,并研制了申威指令系统,推出了申威处理器。申威处理器是在国家"核高基"重大专项支持下,由上海高性能集成电路中心研制的全国产处理器。首颗申威处理器代号“SW-1”,于 2006 年研制成功,“SW-1”基于 DEC公司 Alpha 架构,130nm 制程,主频为 900MHz。
申威在研发出第一代基于 Alpha 指令集的 CPU 后,将指令集替换为自研的自主可控申威 64 位指令集,完全区别于原有 Alpha 指令集。申威处理器专注于高性能计算,尤其是在服务器领域,浮点运算算力与同期外国处理器相当。申威 SW26010 是中国首个采用国产自研架构且性能强大的计算机芯片。
申威 26010 处理器的峰值性能大于每秒 12.5 万万亿次浮点运算结果,峰值速度、持续性能、性能功耗比排在世界前列。2016 年,搭载了 40960 颗申威 SW26010 并运行国产操作系统神威睿思的神威太湖之光获得全球超级计算机第一名,神威太湖之光峰值计算速度达每秒 12.54 亿亿次,是全球首台峰值计算速度超过十亿亿次的超级计算机,持续性能为每秒 9.3 亿亿次,软件硬件并行,均为申威自主设计。
申威 8A 芯片采用最新的第四代申威处理器核心(简称 Core4)。Core4 核心继续采用超标量流水线结构,支持乱序发射、乱序执行、推测执行,并首次采用 SMT 技术,支持每个核心同时运行两个线程。申威 831 相比上一代 4 核 CPU 申威 421 在功耗相当的前提下,性能提升 2 倍以上,下一代产品申威 4E 相比申威 831 性能再提升 50%以上,与 Intel 中端桌面处理器相当;申威下一代服务器产品威鑫 8A 与 Intel 中端服务器处理器相当。开放架构HPC技术与生态白皮书
信创产业链全梳理(2022)
推荐阅读:
高性能计算技术、方案和行业全解(第二版)
InfiniBand架构和技术实战总结(第二版)
RDMA原理分析、对比和技术实现解析
或者获取全店资料打包,后续免费获取全店所有新增和更新。
全店铺技术资料打包(全)
申明:感谢原创作者的辛勤付出。本号转载的文章均会在文中注明,若遇到版权问题请联系我们处理。
推荐阅读
更多架构相关技术知识总结请参考“架构师全店铺技术资料打包”相关电子书(37本技术资料打包汇总详情可通过“阅读原文”获取)。
全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”,后续可享全店内容更新“免费”赠阅,价格仅收198元(原总价350元)。
温馨提示:
扫描二维码关注公众号,点击阅读原文链接获取“架构师技术全店资料打包汇总(全)”电子书资料详情。