存算一体是更接近于人脑的计算架构。11月28-29日,36氪WISE2023 商业之王大会在北京国际会议中心盛大举办。本届大会以“太阳照常升起 The Sun Always Rises”为主题,横跨一个主会场与六大垂直领域专场。主会场聚焦“未来3650天”、“在产业洪流中”、“进击中的万联网”、“AI与商业增量”、“全球品牌看中国”、“科技至上 共鉴创新”六大篇章重点议程,邀请全领域商业大咖展开为期两天的顶级商业对话,向现在提问,给未来答案。后摩智能联合创始人项之初发表了主题为《存算一体,面向未来十年的算力引擎》的演讲。后摩智能是一家初创AI芯片创业公司。项之初认为,当下以ChatGPT为代表的生成式AI正发展如火如荼,但同时背后海量级的数据处理也对计算资源、计算成本带来相当大挑战。“按照现在生成式AI的快速发展,2027年预计英伟达大概需要提供150万台服务器,每年消耗的电量,我们大概算了一下,接近一个瑞典或荷兰、阿根廷体量的国家一年耗电量。当AGI初步实现的阶段,大概需要43个美国全年的耗电量,这是地球无法承受的耗电量。”而存算一体芯片,可以从架构层面颠覆存储与计算分离的传统范式。在芯片架构底层,将存储和计算融合,不仅可以大幅度提升单位时间的计算密度,效率大大提升,同时功耗更低、成本更低,相较于应用单一的传统架构方案,供应链风险也更低。以下为项之初演讲正文:大家好,我是后摩智能联合创始人项之初,下面我给大家带来《存算一体,面向未来十年的算力引擎》的主题演讲。后摩智能是做一个算力芯片的初创公司,成立也快三年了。我们一直强调一个概念,最原始的算力就是我们的大脑。远古时候大脑不够用的时候,人类会用结绳石头去扩充算力。再后面,东方就进入了算盘时代,但一直停留在算盘,后来发明了各种各样算盘。西方从1946年第一台计算机出现,就进入了一个算力爆炸的时代。第一台计算机可能只有5000次的计算量,当时重达30吨、占地170平、功耗150千瓦,但它是手工计算20万倍的计算效率,也从此让西方走上了超速发展的道路。个人计算机以及手机的出现,包括ChatGPT,算力其实一直在重塑着人类社会的生产力。最近OpenAI代表的AI的应用,已经在飞速发展。回顾算法模型的演进历史,2012年深度学习的出现是一个转折点,AI进入了神经网络深度学习的阶段。2017年出现的transformer,当时谷歌的一篇论文《Attention Is All You Need》,让神经网络进入了自注意力阶段,transformer 为基础的大模型开始蓬勃发展。一年前,ChatGPT用两个月时间达到1亿的用户量,远远超过之前其他的APP收获上亿级用户所需要的时间。未来算法到底会怎么演进,其实我回答不了这个问题。是不是transformer就真的统一了所有的大模型计算方式?但至少模型对算力的需求快速增长是确定的。OpenAI预测未来3.5个月算力需求就会翻一番,这是前ChatGPT时代做的预测。再到后面是不是会有更大的算力需求?这些大的模型或者说大参数量的计算,成本是非常高的。首先训练的成本,GPT3.0基本上一次训练成本140万美元,更大的模型的话,训练成本会介于200万-1200万美元之间。除了训练成本,推理成本也很大。如果把大模型部署到google search里面,对英伟达A100的需求量将突破400万片,每年电费运营成本就有84亿美元。这是二级市场研究对英伟达服务器的需求量做的预估。按照现在生成式AI的快速发展,2027年预计英伟达大概需要提供150万台服务器,每年消耗的电量,我们大概算了一下,接近一个瑞典或荷兰、阿根廷体量的国家一年耗电量。当AGI初步实现的阶段,大概需要43个美国全年的耗电量,这是地球无法承受的耗电量。记得2016年AlphaGo和李世石的围棋大战,当时虽然AlphaGo以4:1赢了李世石,大家都只看到了输赢的结果,但如果分析后面的代价,AlphaGo那盘棋的电费差不多2万元人民币,李世石的大脑运转只是两碗米饭的消耗,所以他们计算效率不在一个维度上。人是远比计算机要高效的,问题是,我们是否可以做出一个类似人脑的芯片来提供底层的算力呢?其实存算一体就是一个接近于人脑的计算架构。因为人脑其实是存储和计算是不分开的,我们的神经元细胞不会说这里是计算,那边是存储,每一个神经元细胞既是存储,也是计算。我们大概有这么100万亿个左右的一个连接,所以形成了一个非常高效而且很智能的大脑。计算机从第一台架构发明,到现在英伟达每一代芯片迭代,比如说H100到A100就是不断增加了带宽,存储的容量能够大幅提升。第二是功耗强的问题,芯片大概有80%-90%的功耗其实是浪费在数据的存储和计算之间的搬运,而不是在计算中使用到这些功耗。而存算一体的概念,就是在底层把存储和计算作一个融合。我们把存储的电路打开,然后把计算的电路加入进来。它其实是一个治标治本的方式,去面对今天爆炸或者说很变态的一个数据量发展需求,它会更高效、更接近于人脑的计算方式。总结的话,存算一体芯片一是上限高,第二就是底线稳。上限高就是计算性能好,功耗更低成本也更好。就是原理上,数据不用反复搬运以后,计算密度得到了提升。所以在单位计算面积,反而可以比原来的传统架构更小。第二个是底线会更稳,在今天国际大环境下,高制程芯片流片可能受到限制。而存算一体用28纳米制程可以做出传统架构7纳米的效果,这是供应链的一个重要保障。国内外有很多创业体已经开始了一个存算一体产业化的探索,好的技术一定不会只有一个公司在做。特斯拉的Dojo计算机因为没有历史包袱,所以重新设计了一个适合数据爆炸时代的芯片架构,没有用原来传统的GPU的个架构,计算的效率也很高。摩根斯坦利最近给Dojo的资产估值5000亿美元。后摩智能今年5月份发布了第一颗芯片产品叫后摩鸿途®H30,这是一颗256 tops物理算力的芯片,只有35瓦功耗,而且只用了12纳米工艺。相比于当前国际友商的畅销产品,我们的制程还落后了一代,等于我们是在落后一代情况下,做到了跟国际友商比2-3倍提升的性能,并且功耗只有它的1/2。如果不做一个底层的架构的创新,是不可能有这样的实际测试结果的。我们的第二代芯片现在也已经在做性能提升了,我们做了一个新架构的尝试,是比较大胆的。但我们在实际的落地过程中是非常谨慎的。每一代产品都会先做一个测试验证片,然后再做一个产品片。比如我们今年5月份发布的后摩鸿途®H30,是我们在2022年就做了的验证样片。关于第二代架构,我们其实今年也做了一个7纳米的车规级验证样片,专为transformer等车端大模型做了优化设计,并且已经通过了一个量产测试,良率、性能以及功耗的表现都有超出预期。相较于市面上全球主流的存算一体产品,在存算模块我们有了五倍以上的能效提升。我们非常期待明年推出的时候会收获很好的反响。至于后摩智能的商业落地情况,第一代芯片我们瞄准最主要是智能驾驶,我们一直相信大模型的应用,需要更多算力,而且是计算效率更好的芯片。我们同时要瞄准了边缘端的市场,尤其是大模型出现以后,很多的解决方案商觉得,原来一些碎片细分市场会应付不过来,基于tranformer的更通用的边缘端芯片,会加速AI落地速度。回顾一下,从第一代很计算机一瓦一兆的能效比,到2000年PC端计算机大概是一瓦一千兆,中间是一千倍的提升,现在我们手机时代处于一瓦一T的时代,又是一千倍的提升。可以再想象一下,万物智能的时代,我们需要怎样的芯片,需要怎样的算力,地球才能承受那么多的计算。人脑已经是很高效的计算,1瓦100000T的能效,也是后摩追求的梦想,存算一体可以做到1瓦1000T的效果,比如说最底层存算单元,第一代就可以接近1瓦100T的量级。前段时间跟一些投资人沟通的时候,一些投资人会觉得云端数据中心的芯片对功耗不敏感。但大家是用静态的眼光看待问题,如果说看见通用人工智能出现,未来初代AGI是什么样子之后,会发现一定是巨量芯片需求和巨大的电耗,而不是今天理解的数据中心和服务器的概念。未来的AGI不是一个机器,而是一种新的生物,需要巨量芯片处理器,功耗会非常敏感的,它能替代大部分人的脑力劳动,但需要几十个美国的电量,是地球无法承受的结果。后摩智能希望在这样一个发展过程中,作为一个创新架构的芯片公司贡献自己的力量,谢谢大家!