第三代通用计算,大算力芯片”弯道超车“的历史时机
关于“弯道超车”,行业内很多人士对此嗤之以鼻,他们认为:做事情要脚踏实地,持之以恒,才有可能超越。
但这两者并不矛盾:
在已有的不断发展的领域,我们需要“数十年如一日”不断的努力,才有可能逐渐追赶上世界先进水平,才有可能从追赶到齐头并进甚至超越;比如航天科技领域。 但在一些行业变革期,我们需要尽早布局,大干快上,从而形成领先优势;比如从燃油车向电动车发展的历史发展机遇。
今天这篇文章,我们探讨一下,在大算力芯片领域“弯道超车”的机会。
推荐一场会议。9月14-15日,2023全球AI芯片峰会将在深圳湾万丽酒店举行。其中,「AI芯片架构创新专场」邀请到来自AMD、后摩智能、安谋、奎芯、鲲云、珠海芯动力、芯至科技、每刻深思的8位大咖,解读存算一体、可重构、数据流、感算共融等创新架构设计,欢迎报名参会。
01.
关于计算架构阶段的划分
1、关于计算架构阶段的划分:
图灵奖获得者John Hennessy总结了计算机体系结构的四个时代和即将兴起的第五个时代:
第一代,晶体管时代,指令集架构出现之前,计算机架构各不相同; 第二代,小规模和中等规模集成电路时代,出现支持指令集架构的CPU处理器; 第三代,大规模和超大规模集成电路时代,指令级并行以及CISC和RISC混战; 第四代,超大规模集成电路的多核处理器并行时代; 第五代,从2016年超大规模的领域专用处理器(DSA)时代。
上面计算机体系结构的时代划分,是站在单处理器引擎视角进行的。我们参考上述五个时代的划分,并且站在多处理器引擎计算架构从简单到复杂的发展视角,重新进行了如下的发展阶段划分:
第一阶段,单CPU的串行计算; 第二阶段,多CPU的同构并行计算; 第三阶段,CPU+GPU的异构并行计算; 第四阶段,CPU+DSA的异构并行计算; 第五阶段,(还在萌芽期的)多种异构融合的超异构并行计算。
如果我们为计算架构再加一个约束——通用,则计算架构可以划分为三个阶段:
第一阶段,CPU同构计算(单核CPU阶段可以合并进CPU同构计算); 第二阶段,基于GPU的同构计算(DSA是一种偏定制的架构,单个DSA的异构不属于通用计算范畴); 第三阶段,基于CPU+GPU+DSAs的超异构计算。
“二八定律”无处不在:随着系统的扩大,会逐渐沉淀许多共性的计算任务。我们定性的分析一下,依据二八定律:
在CPU同构计算阶段,100%工作由CPU完成; 但在GPU异构阶段,80%工作由GPU完成,CPU只完成剩余的20%的工作; 而在超异构计算阶段,则80%的工作由各类更高效的DSA完成,GPU只完成剩余20%工作的80%,即16%的工作,剩余的4%交给CPU。
1、CPU性能瓶颈,异构计算成为主流
2012-2018年共6年时间里,人们对于AI算力的需求增长了超过30万倍;随着BERT、GPT等大模型的发展,算力需求每2个月就翻一倍。 随着大模型的发展,对算力的需求水涨船高,要想实现L5级别的自动驾驶算力,则需要上万TOPS。与此同时,随着自动驾驶进入L5阶段,对娱乐的需求必然猛增。多域融合的智能汽车综合算力需求预计会超过两万TOPS。 Intel前SVP拉加·库德里表示,要想实现元宇宙级别的用户体验,需要当前的算力提升1000倍。
2、异构计算的问题
GPU灵活性较好,但性能效率不够极致;并且性能也逐渐接近瓶颈。 DSA性能好;但灵活性差,难以适应算法的多变;架构碎片化;落地困难。 FPGA功耗和成本高,定制开发,落地案例少,通常用于原型验证。 ASIC功能完全固定,无法适应灵活多变的复杂计算场景。
加速处理器只考虑本领域问题,难以考虑全局协同; 各领域加速器之间交互困难; 中心单元的性能瓶颈问题; 物理空间有限,无法容纳多个物理的异构加速卡。
3、多种异构的融合:超异构
1、系统越来越大,对通用灵活性的要求远高于对性能的要求
2、集群计算,对芯片的弹性可扩展能力提出了更高的要求
3、芯片研发成本越来越高,需要芯片的大规模落地,来摊薄研发成本
28nm节点开发芯片只需要5130万美元; 16nm节点则需要1亿美元; 7nm节点需要2.97亿美元; 到了5nm节点,费用高达5.42亿美元; 3nm节点的研发费用,预计将接近10亿美元。
终端场景,(大)芯片的销售量至少需要达到数千万级才能有效摊薄一次性的研发成本; 在数据中心场景,则需要50万甚至100万以上的销售量,才能有效摊薄研发成本。
1、超异构计算的关键,在于各类加速处理器的高效交互
2、目前,多个独立芯片组成超异构计算,还比较难
基础设施层。随着系统越来越复杂,在系统中,有很多非常确定性的任务,比如虚拟化、网络、存储等,这些可以称为基础设施型任务。这类任务因为其确定性的特点,特别适合DSA/ASIC级别的加速处理器处理。 另一个极端,即不太好加速的应用部分。在硬件平台上到底会运行什么样的应用,通常是不可预知的,或者说应用是非常不确定的。因此,针对应用,最好是用CPU(+协处理器)平台。CPU平台还有另外一个价值,兜底,凡是无法加速或者不存在合适加速处理器的工作任务都可以放在CPU平台处理。 处于两个极端之间的部分任务,则通常是性能敏感的应用任务,比如AI训练、视频图形处理、语音处理等。这类任务具有一定的确定性,但通常还是需要平台的一些弹性的能力,其性能/灵活性特征处于前面两个极端的中间。因此比较适合GPU、FPGA这样的处理器平台。
3、在单芯片层次,实现相对简单的超异构计算,是可行的路径
更高集成度,代表着更高的性能,以及更低的成本; 内部交互更高效,代表着没有各类性能瓶颈约束,可以实现更高的性能。
1、硬件层次的多异构集成,不是难度
2、挑战在于,软件层次,如何把多个系统整合到一个宏系统
3、更大的挑战在于,如何让超异构更好驾驭
复杂大系统分解成简单小系统,实现芯片内部的分布式计算,每个内部子节点的复杂度较低,更加可控一些。 依据系统的性能/灵活性特征进行分层。不同层次,采用不同的处理策略。 开放:让处理器架构和生态收敛,防止碎片化。同时,行业内也能相互分工协作,而不是一家公司面对所有问题。 软硬件深度融合,让硬件具有更多软件的能力。
2023全球AI芯片峰会预告
9月14-15日,2023全球AI芯片峰会(GACS 2023)将登陆深圳。清华大学教授、中国半导体行业协会副理事长、IEEE Fellow魏少军,上海交通大学计算机科学与工程系教授梁晓峣,NVIDIA 解决方案与架构技术总监张瑞华,AMD人工智能事业部高级总监王宏强,亿铸科技创始人、董事长兼CEO熊大鹏,后摩智能联合创始人、研发副总裁陈亮等30+位嘉宾已确认参会和演讲。欢迎报名。
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章