大模型的参数规模,像GPT-3目前是1750亿,未来可能将会迎来几倍、几十倍、上百倍的增长。这样的增长带来的好处是,大模型的容量、智能等各方面将会超过人的大脑。但与此同时,大模型时代也对我们提出了很多挑战跟需求。第一,算力如何提升。目前来说,人们针对大模型的芯片制造工艺或是其他各方面投入基本都已经到了极限。第二,大模型对计算能耗的需求非常大。AMD CEO苏姿丰说过,如果没有新的技术出现,按照目前的计算效率,12年以后,也就是2035年,每一台Zetta级别的超级计算机所需要的能耗将会相当于半个核电站。从算力的角度来说,支撑底层算力的摩尔定律现在几近终结。但是我们的模型越来越大,算法越来越复杂,对算力的要求也越来越高,这将是一个很大的挑战。AI芯片,或者说大算力AI芯片,将来的路该怎么走?除了算力以外还有一个更大的问题——数据搬运能力的剪刀差越来越大。基于摩尔定律,算力每年大概以60%-70%的速率提升。但是对于数据搬运,无论是从外部的存储器搬运到芯片内部,还是芯片内部的数据总线,其物理线速度的提升基本是每年10%以内。这就导致计算能力与数据搬运之间的鸿沟,大概以每年50%的速率扩大。在过去十年,单位计算力所需要和所能获取的数据搬运带宽,差距扩大了3倍。对大模型来说,其实问题的根源就在于,怎么把数据不被堵塞地从外部搬到内部。下图这个模型,我已经在很多地方讲过。这里的F值,指的是数据访存在整个计算周期里的占比。在过去存算分离的冯·诺伊曼架构下,做AI芯片或是跟AI芯片相关的应用时,F值就已经达到80%-90%。这意味着大量的能耗是卡在数据搬运访存上的,造成了性能瓶颈。在大模型的时代背景下,F值更是能达到95%。这意味着如果数据搬运的速度不提升,即使我们将来用更好的工艺去获取更高的算力,对实际性能提升的百分比其实非常有限,可能只有10%-20%。这也是为什么到今天,更多的公司开始把注意力集中在解决数据搬运的问题上,比方说大量地采用HBM、 3D RAM封装技术等等。这些解决方案会带来更好的片间互连、板间互连,能够比较有效地去解决数据搬运问题,从而非常有效地提升实际性能。 02.数据搬运的根本解决方案在于存算一体
在强AI的大模型时代,一定范围内,大模型会替代传统的小模型。由于大模型突出的泛化性,将会低成本地催生新的AI应用场景,并且在各个垂直领域能够快速地落地和推广。另外,我们认为大模型将来有可能会以IAAS(Intelligence As A Service,智能即服务)的产品形式赋能各个行业。此外,极高的AI研发投入带来的副作用,是“通用智能寡头”的格局。但出于大模型的泛化性,在具体的垂直行业、垂直领域反而有利于通用人工智能落地。将来在各个领域,我们认为会出现“百花齐放”的格局。总的来说,AI应用已经进入到了新的2.0时代。目前最突出的问题,就是大模型导致的巨量数据搬运问题,这个问题的根源来自于存储墙。现在性能最好的H100芯片,如果用在参数总量为350Gbyte的GPT-3模型上做推理计算,数据搬运每秒只能搬6次左右。这就意味着用H100,1秒大概只能算6个或10个Token。但从计算能力上来说,这样的数据搬运其实只占用H100计算能力中很少的百分比,大部分算力是空余的。如果把这个存储墙问题解决,H100的实际效能可能至少提升10倍以上。我们认为在大模型时代,AI大算力芯片的竞争核心会逐步转向破除“存储墙”。这部分谁解决得好,谁就会在未来AI芯片竞争格局里占优势,Amdahl Law阿姆达尔定律早已揭示了这点。在大模型时代,数据搬运已经占据整个计算周期90%以上。这意味着算力本身对于实际算力来说,重要性反而不是那么高,更重要的是解决数据的搬运。由此出发,我们认为存算一体超异构的AI芯片架构,天然地适合AI的并行计算。换句话说,存算一体是为AI大模型而生的计算架构,它的核心就是解决存储墙,从而解决能耗跟实际算力瓶颈的问题。今天就介绍这些,谢谢大家!以上是熊大鹏演讲内容的完整整理。