Redian新闻
>
亿铸科技熊大鹏:大模型时代,AI大算力芯片急需破除“存储墙”丨GACS 2023

亿铸科技熊大鹏:大模型时代,AI大算力芯片急需破除“存储墙”丨GACS 2023

公众号新闻

存算一体超异构,实现更大的AI算力和更高的能效比。
编辑 |  GACS
9月14日~15日,2023全球AI芯片峰会(GACS 2023)在深圳南山圆满举行。在首日开幕式上,亿铸科技创始人、董事长兼CEO熊大鹏分享了题为《存算一体超异构AI大算力芯片破局大模型时代“芯”挑战》的主题演讲。
熊大鹏提出,大模型时代下的“芯”挑战,比起算力如何增长,更大的问题在于数据搬运能力的剪刀差越来越大。数据显示,计算能力与数据搬运之间的鸿沟,大概以每年50%的速率扩大。大模型出现后,数据访存在整个计算周期里的占比,达到了95%以上甚至更高。
亿铸科技认为,随着AI应用进入到2.0时代,要解决AI计算芯片面临的诸多挑战,关键在于回归阿姆达尔定律并成功破除“存储墙”。据悉,亿铸科技原型技术验证(POC)芯片已回片,并成功点亮。该POC是首颗基于ReRAM的面向数据中心、云计算、自动驾驶等场景的存算一体矩阵POC,能效比超过预期表现,进一步验证了公司的技术实力和市场潜力。
以下为熊大鹏的演讲实录:
大家好!我去年也参加了AI芯片峰会,但今年情况不一样,因为今年大模型的火爆给人工智能芯片等各方面都带来了巨大的变化。下面我将介绍亿铸科技存算一体超异构AI大算力芯片怎么去应对大模型时代的“芯”挑战。

01.
数据搬运,大模型时代的“芯”挑战


大模型的参数规模,像GPT-3目前是1750亿,未来可能将会迎来几倍、几十倍、上百倍的增长。这样的增长带来的好处是,大模型的容量、智能等各方面将会超过人的大脑。
但与此同时,大模型时代也对我们提出了很多挑战跟需求。第一,算力如何提升。目前来说,人们针对大模型的芯片制造工艺或是其他各方面投入基本都已经到了极限。第二,大模型对计算能耗的需求非常大。AMD CEO苏姿丰说过,如果没有新的技术出现,按照目前的计算效率,12年以后,也就是2035年,每一台Zetta级别的超级计算机所需要的能耗将会相当于半个核电站
从算力的角度来说,支撑底层算力的摩尔定律现在几近终结。但是我们的模型越来越大,算法越来越复杂,对算力的要求也越来越高,这将是一个很大的挑战。AI芯片,或者说大算力AI芯片,将来的路该怎么走?
除了算力以外还有一个更大的问题——数据搬运能力的剪刀差越来越大。

基于摩尔定律,算力每年大概以60%-70%的速率提升。但是对于数据搬运,无论是从外部的存储器搬运到芯片内部,还是芯片内部的数据总线,其物理线速度的提升基本是每年10%以内。这就导致计算能力与数据搬运之间的鸿沟,大概以每年50%的速率扩大。
在过去十年,单位计算力所需要和所能获取的数据搬运带宽,差距扩大了3倍。对大模型来说,其实问题的根源就在于,怎么把数据不被堵塞地从外部搬到内部。
下图这个模型,我已经在很多地方讲过。这里的F值,指的是数据访存在整个计算周期里的占比

在过去存算分离的冯·诺伊曼架构下,做AI芯片或是跟AI芯片相关的应用时,F值就已经达到80%-90%。这意味着大量的能耗是卡在数据搬运访存上的,造成了性能瓶颈。在大模型的时代背景下,F值更是能达到95%
这意味着如果数据搬运的速度不提升,即使我们将来用更好的工艺去获取更高的算力,对实际性能提升的百分比其实非常有限,可能只有10%-20%。这也是为什么到今天,更多的公司开始把注意力集中在解决数据搬运的问题上,比方说大量地采用HBM、 3D RAM封装技术等等。这些解决方案会带来更好的片间互连、板间互连,能够比较有效地去解决数据搬运问题,从而非常有效地提升实际性能。

02.
数据搬运的根本解决方案
在于存算一体


这些传统的解决方案的确有效。我们看F值就知道,如果把数据搬运效率提升1倍,不需要用5纳米、3纳米、1纳米工艺,实际计算性能也能提升1倍。
但是要真正解决这个问题,我们认为根本的解决方案是存算一体。存算一体相当于在存储单元的基础上,把计算的部分加上去,模型的参数搬运环节基本上就免掉了
比方说1750亿参数的GPT-3模型,每一次推理计算的时候都要把350Gbyte的数据搬到芯片上,才能做一次推理、算一次Token。如果是训练,这个数据量会更大。但如果这个数据不需要搬运,就意味着数据搬运的瓶颈根本不存在,计算的效率会高很多。
存算一体的技术现在也慢慢被大厂所接受,比如AMD已经宣布他们将会以存算一体作为核心,结合异构的方式,实现既兼顾通用性,又能够有非常强的计算能力的芯片。
还例如特斯拉,最近宣布其基于近存储计算的超级计算机Dojo1已经准备好了,业界对此评价非常高。摩根士丹利说,光是芯片就有可能给特斯拉带来5000亿美元市值的增量。
三星也宣布将基于DRAM做存算一体,他们认为在不久的将来,存储器在AI服务器中的重要性将超过英伟达GPU的重要性。三星预计到2028年发布以存储器为中心的超级计算机。言下之意就是要做基于存算一体的超级计算机。
亿铸科技近期成功点亮大模型时代存算一体AI大算力原型技术验证芯片(POC)。该POC芯片基于成熟工艺制程,在100W以内,单卡算力可以突破P级,也就是1000T。另外,该POC芯片的能效比已经远超英伟达5纳米工艺制程的H100系列4T/W左右的能效比
面对ChatGPT等大模型带来的AI算力挑战,亿铸科技在年初提出“存算一体超异构”,以存算一体(CIM)AI加速计算单元为核心,以统一ISA指令集和架构将不同的计算单元进行异构集成和系统优化,既能实现更大的AI算力以及更高的能效比,还可以提供更好的可编程性和更为通用的应用生态。

通过前面讲到的CMOS工艺、新型存储器、存算一体的架构、Chiplet、先进封装,我们能够将芯片有效算力做到更大,参数能放置更多,支持更大规模的模型,能效比更高,软件的兼容性和可编程性更好。另外很关键的一点,就是芯片的发展空间非常大。目前该POC芯片采用了传统工艺制程,未来,不管是容量还是性能,比较保守地说,至少拥有几倍或者十倍以上的成长空间,这是可以预期的。


03.
AI应用进入2.0时代,存算一体成为AI大模型算力发展“灵丹妙药”


在强AI的大模型时代,一定范围内,大模型会替代传统的小模型。由于大模型突出的泛化性,将会低成本地催生新的AI应用场景,并且在各个垂直领域能够快速地落地和推广。另外,我们认为大模型将来有可能会以IAAS(Intelligence As A Service,智能即服务)的产品形式赋能各个行业
此外,极高的AI研发投入带来的副作用,是“通用智能寡头”的格局。但出于大模型的泛化性,在具体的垂直行业、垂直领域反而有利于通用人工智能落地。将来在各个领域,我们认为会出现“百花齐放”的格局。
总的来说,AI应用已经进入到了新的2.0时代。目前最突出的问题,就是大模型导致的巨量数据搬运问题,这个问题的根源来自于存储墙。
现在性能最好的H100芯片,如果用在参数总量为350Gbyte的GPT-3模型上做推理计算,数据搬运每秒只能搬6次左右。这就意味着用H100,1秒大概只能算6个或10个Token。
但从计算能力上来说,这样的数据搬运其实只占用H100计算能力中很少的百分比,大部分算力是空余的。如果把这个存储墙问题解决,H100的实际效能可能至少提升10倍以上。
我们认为在大模型时代,AI大算力芯片的竞争核心会逐步转向破除“存储墙”。这部分谁解决得好,谁就会在未来AI芯片竞争格局里占优势,Amdahl Law阿姆达尔定律早已揭示了这点。
在大模型时代,数据搬运已经占据整个计算周期90%以上。这意味着算力本身对于实际算力来说,重要性反而不是那么高,更重要的是解决数据的搬运。
由此出发,我们认为存算一体超异构的AI芯片架构,天然地适合AI的并行计算。换句话说,存算一体是为AI大模型而生的计算架构,它的核心就是解决存储墙,从而解决能耗跟实际算力瓶颈的问题。今天就介绍这些,谢谢大家!
以上是熊大鹏演讲内容的完整整理。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
昆仑万维方汉:大模型时代,超级 APP 不会是神话观点 | 杨东:大模型时代更需加强企业用户信息保护面向大模型的高能效并行存算大算力芯片 | 迈特芯创始人兼CEO黄瀚韬演讲预告QCon北京2023 参会见闻:大模型时代的技术人成长芯至科技尹文:拆解架构创新四大路径,打造10倍性价比大模型推理芯片丨GACS 2023AMD王宏强:700亿参数大模型单个GPU部署,做好AI软件和生态实现“开箱即用”丨GACS 2023云天励飞李爱军:揭秘大模型时代,边缘计算芯片进化论丨GACS 2023上海交大梁晓峣:疯狂的大模型时代,开源GPGPU平台为国产AI芯片企业谋出路丨GACS 2023文勇刚:大模型时代,我们需要怎样的数据中心?丨GAIR 20235144 血壮山河之武汉会战 崩溃 4大算力与高能效AI芯片发起冲锋!2023全球AI芯片峰会第二日干货总结魏晋名士有道好,只泡自己喝的茶,不煲心灵鸡汤。市场分析:分布式存储、软件定义存储、超融合存储(2023)原粒半导体原钢:大模型加速奔向边缘端,AI Chiplet成部署新选择丨GACS 20232023/08最新民调,台湾人对于独立还是统一是怎么看的?红色日记 10.11-20国产大算力GPU如何解决大模型落地挑战 | 壁仞科技系统架构副总裁丁云帆演讲预告如何快速实现大模型落地?5小时get大模型时代实战密码!迈特芯黄瀚韬:自研立方脉动架构,已开发三款X-Edge芯片并实现大模型高效能并行存算丨GACS 2023汤道生的下一场战事:大模型时代的产业「智能化」升级战怎么打?2023 US Open 美国网球公开赛也求建议,我上周将前公司401K roll over 到了Fidelity,大概200K左右,准备买大盘股指数,该如何操作才好?知存科技詹慕航:AI算力提升数百倍、功耗降低数十倍!加速存内计算芯片端到边应用丨GACS 2023Resolution in 2023中科加禾崔慧敏:AI芯片+编译器才是王道!性能提升2~3倍,将推出大模型推理引擎丨GACS 2023大模型需要什么样的智算中心?7位大咖谈AIGC时代算力挑战与风口丨GACS 2023肇观电子冯歆鹏:五大技术让机器人看懂世界,AI视觉芯片实现颠覆式创新丨GACS 2023北极雄芯马恺声:全国产Chiplet封装链路跑通,Chiplet架构正在重塑大算力芯片丨GACS 2023NVIDIA高通英特尔AMD齐聚,近30家AI芯片与算力企业交锋,大模型时代首场AI芯片盛会9月开幕奎芯科技王晓阳:大模型游戏规则下,内存互联+Chiplet新方案推动国产化丨GACS 2023张含望:大模型的研究离不开因果关系(Causality)丨GAIR 2023AI的大模型时代 ≠ 只有大模型的AI时代阿里云林伟:关于大模型时代 AI 工程建设的思考丨GAIR 2023解读命运的密码燧原科技张亚林:大模型带来计算范式变革,形成“大树型”生态格局丨GACS 2023麦当劳的老夫老妻US News 2023曹晟:大模型时代,跨境电商如何用AI提高广告转化?丨GAIR 2023第三代通用计算,大算力芯片”弯道超车“的历史时机路特斯机器人CEO李博:大模型时代的智能驾驶生产力工厂
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。