芯片厂商突围异构计算
以数据中心、云计算和人工智能为代表的高性能计算类应用的发展,驱动算力需求不断攀升,但目前单一计算类型和架构的处理器已经无法处理更复杂、更多样的数据。如何在增强数据中心算力和性能的同时,具备应对多类型任务的处理能力,成为全球性的技术难题。在计算领域龙头芯片企业的不断探索和研究中,异构计算成为公认的算力突破“抓手”。
芯片巨头纷纷发力异构计算
异构计算可以提高算力和性能,降低功耗和成本,又具备多类型任务的处理能力,业内广泛认为是未来高性能计算领域的市场主导。英伟达、英特尔、AMD作为行业领头羊,近两年在异构计算方面的新产品层出不穷。
英特尔在最近的投资者会议中提出了一款将x86和Xe GPU 整合到一个Xeon插槽中的新架构Falcon Shores。英特尔中国研究院院长宋继强向《中国电子报》记者介绍到,将x86的主芯片和GPU的性能整合在一起,这是一个创新。在性能上,Falcon Shores将提供超过5倍的每瓦性能、计算密度以及内存容量和带宽。
英伟达在今年的GTC2022上,宣布推出首款面向AI基础设施和高性能计算的基于Arm Neoverse的数据中心专属CPU——Grace CPU 超级芯片。该芯片专为AI、HPC、云计算和超大规模应用而设计,由两个CPU芯片组成,两者通过NVLink-C2C进行互连。根据NVIDIA实验室使用同类编译器估算,这一结果较当前的DGX A100要高1.5倍以上。
AMD完成对赛灵思的合并后,将其CPU与赛灵思的FPGA结合为CPU+FPGA的异构模式。借助赛灵思在5G、通信、自动驾驶和行业领域的资源,AMD能够将高性能计算能力带入更多领域。AMD全球高级副总裁、大中华区总裁潘晓明曾在2021世界半导体大会上表示:“今天和未来的工作负载需要强大的计算能力,异构计算是未来的关键。AMD未来在计算、图形和解决方案的三个方面聚焦高性能计算,在持续发展的行业中保持高性能计算领导力。”
异构计算瓶颈待突破
异构的优势显而易见,与此同时暴露出的技术难题也越来越多。一是,异构计算产品需要面对不同的系统架构、指令集和编程模型,需要降低多样计算带给软件开发者的难度;二是,异构计算芯片产品除了在芯片设计层面实现突破之外,还需要解决其在芯片制造、制程和封装过程中不同结构之间的适配和升级;三是,异构计算要实现性能的多样性合一,使其同时满足人工智能训练、推理、图像视频处理等各种不同的需求。
燧原科技创始人兼CEO赵立东在接受《中国电子报》记者采访时表示,从产业规范与标准层面看,异构计算是指在完成一个计算任务时,采用一种以上的硬件计算单元、互联协议、差异化架构、软件接口等,由于不同的硬件设备、协议、应用二进制接口(ABI)、软件应用层接口(API)等都存在着巨大的差异,如何构建一个高效、系统化的协调统一的异构计算系统,就成为异构计算最为关键的技术问题。
宋继强同样表示,异构计算在技术方面、互连方面和软件方面都面临瓶颈,仍然没有达到要求。一是技术设计流程的协同问题。要保证与其他不同厂商的芯粒一起互联互通、协同工作时,电和传输通路不出现问题。二是需要统一各厂商芯粒之间的互连标准。未来全球各大芯片制造商、科技巨头的芯粒可能会集成在一个芯片上,目前它们之间的互连标准并不统一,各个厂商之间并没有做好互联互通的准备。最近英特尔携手业界部分企业,推出了UCIe标准,未来可以把不同厂商的芯粒连到一起,形成一个符合要求的、大的、封装级的集成芯片。三是软件层面要过关。不同厂商的计算芯片之间要做出最好的I/O、内存的通道。
东数西算带来新风口
当下正值我国“东数西算”工程建设稳步推进之际。这一宏观战略,对数据中心、计算、存储、数据通信、光传输等产品有较高建设需求,从而带动了我国计算领域的整体发展,形成了诸多新风口,其中数据中心的建设是底层基础中最重要的一环。
宋继强表示,“东数西算”是个非常棒的工程。首先,它非常精准地看到了未来在数字化转型之后,所需要的大量算力,而算力本身又分成很多种,并不是建一个大的计算中心就能解决所有问题。所以要先将算力网搭建起来,按照数据的产生和算力的使用情况,形成一个比较完美的布局。
宋继强明确指出,异构是“东数西算”的底层支撑。“东数西算”所需的大型计算中心内部,CPU、GPU、FPGA、DPU、专用加速器等,对处理不同种类的工作数据各有优势与劣势,也有运营成本高低之分,所以未来一定要综合部署,多种架构可能都需要涵盖,而且要有机联合起来。
赵立东认为,异构计算对于“东数西算”来说是刚需。从半导体集成电路发展特性来讲,它是“赢家通吃”的——不管是从内部的产品业务布局还是外部的生态与商业布局出发,单个数据中心或智算中心项目在落地时,会考虑异构计算的复杂性及发展不完备性所带来的巨大的额外部署成本,在一定程度上会偏好选择以单一厂商为核心的现成产品组合,尽量避免技术适配投入。而置身于“东数西算”政策背景下,最终要实现的是全国算力中心的大一统,从而尽可能地优化利用资源,在多个数据中心或智算中心进行互联互通的场景下,异构计算的复杂性会是前所未有的。因此,在异构算力溯源、调度与管理平台的建设上,需要尽早布局与投入。
算力网络的构建不只依赖于异构计算,通用计算也将为“东数西算”提供更多助力。近两年,国内涌现出一批通用计算芯片初创企业,以FPGA和ASIC类型芯片作为切入点,或者购买国外公司的IP授权开发通用GPU芯片,其中也有少数企业自主研发通用GPU核心IP,实现了国内通用计算的突破。
天数智芯副总裁郭为向《中国电子报》记者表示,通用计算所构建的算力平台通常并行处理能力特别强,计算能效比高,并且有很大的存储带宽,能够释放非常可观的算力。
郭为提出要强化顶层谋划,将算力网络上升为国家战略,从全局层面整体谋划其战略定位、发展目标,加快构建新型算力网络格局。此外,还应成立国家重点实验室,打造重大原创技术的策源地。优化异构计算产业布局,发挥龙头领军企业的“链长”作用,协同上下游企业,制定产业链供应链图谱及协同发展计划,推动异构计算产业链本土化、供应链多元化,确保异构计算产业安全稳定。
延伸阅读:
作者丨许子皓
编辑丨连晓东
美编丨马利亚
微信扫码关注该文公众号作者