后摩智能项之初：未来十年，如何应对生成式AI的爆炸计算需求？｜WISE2023商业之王大会

2023-12-01 09:12

存算一体是更接近于人脑的计算架构。

11月28-29日，36氪WISE2023 商业之王大会在北京国际会议中心盛大举办。本届大会以“太阳照常升起 The Sun Always Rises”为主题，横跨一个主会场与六大垂直领域专场。主会场聚焦“未来3650天”、“在产业洪流中”、“进击中的万联网”、“AI与商业增量”、“全球品牌看中国”、“科技至上共鉴创新”六大篇章重点议程，邀请全领域商业大咖展开为期两天的顶级商业对话，向现在提问，给未来答案。

后摩智能联合创始人项之初发表了主题为《存算一体，面向未来十年的算力引擎》的演讲。后摩智能是一家初创AI芯片创业公司。项之初认为，当下以ChatGPT为代表的生成式AI正发展如火如荼，但同时背后海量级的数据处理也对计算资源、计算成本带来相当大挑战。

“按照现在生成式AI的快速发展，2027年预计英伟达大概需要提供150万台服务器，每年消耗的电量，我们大概算了一下，接近一个瑞典或荷兰、阿根廷体量的国家一年耗电量。当AGI初步实现的阶段，大概需要43个美国全年的耗电量，这是地球无法承受的耗电量。”

而存算一体芯片，可以从架构层面颠覆存储与计算分离的传统范式。在芯片架构底层，将存储和计算融合，不仅可以大幅度提升单位时间的计算密度，效率大大提升，同时功耗更低、成本更低，相较于应用单一的传统架构方案，供应链风险也更低。

以下为项之初演讲正文：

大家好，我是后摩智能联合创始人项之初，下面我给大家带来《存算一体，面向未来十年的算力引擎》的主题演讲。

后摩智能是做一个算力芯片的初创公司，成立也快三年了。我们一直强调一个概念，最原始的算力就是我们的大脑。远古时候大脑不够用的时候，人类会用结绳石头去扩充算力。再后面，东方就进入了算盘时代，但一直停留在算盘，后来发明了各种各样算盘。

西方从1946年第一台计算机出现，就进入了一个算力爆炸的时代。第一台计算机可能只有5000次的计算量，当时重达30吨、占地170平、功耗150千瓦，但它是手工计算20万倍的计算效率，也从此让西方走上了超速发展的道路。

个人计算机以及手机的出现，包括ChatGPT，算力其实一直在重塑着人类社会的生产力。最近OpenAI代表的AI的应用，已经在飞速发展。回顾算法模型的演进历史，2012年深度学习的出现是一个转折点，AI进入了神经网络深度学习的阶段。2017年出现的transformer，当时谷歌的一篇论文《Attention Is All You Need》，让神经网络进入了自注意力阶段，transformer 为基础的大模型开始蓬勃发展。一年前，ChatGPT用两个月时间达到1亿的用户量，远远超过之前其他的APP收获上亿级用户所需要的时间。

未来算法到底会怎么演进，其实我回答不了这个问题。是不是transformer就真的统一了所有的大模型计算方式？但至少模型对算力的需求快速增长是确定的。OpenAI预测未来3.5个月算力需求就会翻一番，这是前ChatGPT时代做的预测。再到后面是不是会有更大的算力需求？这些大的模型或者说大参数量的计算，成本是非常高的。

首先训练的成本，GPT3.0基本上一次训练成本140万美元，更大的模型的话，训练成本会介于200万-1200万美元之间。除了训练成本，推理成本也很大。如果把大模型部署到google search里面，对英伟达A100的需求量将突破400万片，每年电费运营成本就有84亿美元。这是二级市场研究对英伟达服务器的需求量做的预估。

按照现在生成式AI的快速发展，2027年预计英伟达大概需要提供150万台服务器，每年消耗的电量，我们大概算了一下，接近一个瑞典或荷兰、阿根廷体量的国家一年耗电量。当AGI初步实现的阶段，大概需要43个美国全年的耗电量，这是地球无法承受的耗电量。

记得2016年AlphaGo和李世石的围棋大战，当时虽然AlphaGo以4：1赢了李世石，大家都只看到了输赢的结果，但如果分析后面的代价，AlphaGo那盘棋的电费差不多2万元人民币，李世石的大脑运转只是两碗米饭的消耗，所以他们计算效率不在一个维度上。

人是远比计算机要高效的，问题是，我们是否可以做出一个类似人脑的芯片来提供底层的算力呢？其实存算一体就是一个接近于人脑的计算架构。因为人脑其实是存储和计算是不分开的，我们的神经元细胞不会说这里是计算，那边是存储，每一个神经元细胞既是存储，也是计算。

我们大概有这么100万亿个左右的一个连接，所以形成了一个非常高效而且很智能的大脑。计算机从第一台架构发明，到现在英伟达每一代芯片迭代，比如说H100到A100就是不断增加了带宽，存储的容量能够大幅提升。

第二是功耗强的问题，芯片大概有80%-90%的功耗其实是浪费在数据的存储和计算之间的搬运，而不是在计算中使用到这些功耗。而存算一体的概念，就是在底层把存储和计算作一个融合。我们把存储的电路打开，然后把计算的电路加入进来。它其实是一个治标治本的方式，去面对今天爆炸或者说很变态的一个数据量发展需求，它会更高效、更接近于人脑的计算方式。

总结的话，存算一体芯片一是上限高，第二就是底线稳。上限高就是计算性能好，功耗更低成本也更好。就是原理上，数据不用反复搬运以后，计算密度得到了提升。所以在单位计算面积，反而可以比原来的传统架构更小。

第二个是底线会更稳，在今天国际大环境下，高制程芯片流片可能受到限制。而存算一体用28纳米制程可以做出传统架构7纳米的效果，这是供应链的一个重要保障。国内外有很多创业体已经开始了一个存算一体产业化的探索，好的技术一定不会只有一个公司在做。

特斯拉的Dojo计算机因为没有历史包袱，所以重新设计了一个适合数据爆炸时代的芯片架构，没有用原来传统的GPU的个架构，计算的效率也很高。摩根斯坦利最近给Dojo的资产估值5000亿美元。

后摩智能今年5月份发布了第一颗芯片产品叫后摩鸿途®H30，这是一颗256 tops物理算力的芯片，只有35瓦功耗，而且只用了12纳米工艺。相比于当前国际友商的畅销产品，我们的制程还落后了一代，等于我们是在落后一代情况下，做到了跟国际友商比2-3倍提升的性能，并且功耗只有它的1/2。如果不做一个底层的架构的创新，是不可能有这样的实际测试结果的。

我们的第二代芯片现在也已经在做性能提升了，我们做了一个新架构的尝试，是比较大胆的。但我们在实际的落地过程中是非常谨慎的。每一代产品都会先做一个测试验证片，然后再做一个产品片。比如我们今年5月份发布的后摩鸿途®H30，是我们在2022年就做了的验证样片。

关于第二代架构，我们其实今年也做了一个7纳米的车规级验证样片，专为transformer等车端大模型做了优化设计，并且已经通过了一个量产测试，良率、性能以及功耗的表现都有超出预期。相较于市面上全球主流的存算一体产品，在存算模块我们有了五倍以上的能效提升。我们非常期待明年推出的时候会收获很好的反响。

至于后摩智能的商业落地情况，第一代芯片我们瞄准最主要是智能驾驶，我们一直相信大模型的应用，需要更多算力，而且是计算效率更好的芯片。我们同时要瞄准了边缘端的市场，尤其是大模型出现以后，很多的解决方案商觉得，原来一些碎片细分市场会应付不过来，基于tranformer的更通用的边缘端芯片，会加速AI落地速度。

回顾一下，从第一代很计算机一瓦一兆的能效比，到2000年PC端计算机大概是一瓦一千兆，中间是一千倍的提升，现在我们手机时代处于一瓦一T的时代，又是一千倍的提升。可以再想象一下，万物智能的时代，我们需要怎样的芯片，需要怎样的算力，地球才能承受那么多的计算。人脑已经是很高效的计算，1瓦100000T的能效，也是后摩追求的梦想，存算一体可以做到1瓦1000T的效果，比如说最底层存算单元，第一代就可以接近1瓦100T的量级。

前段时间跟一些投资人沟通的时候，一些投资人会觉得云端数据中心的芯片对功耗不敏感。但大家是用静态的眼光看待问题，如果说看见通用人工智能出现，未来初代AGI是什么样子之后，会发现一定是巨量芯片需求和巨大的电耗，而不是今天理解的数据中心和服务器的概念。

未来的AGI不是一个机器，而是一种新的生物，需要巨量芯片处理器，功耗会非常敏感的，它能替代大部分人的脑力劳动，但需要几十个美国的电量，是地球无法承受的结果。后摩智能希望在这样一个发展过程中，作为一个创新架构的芯片公司贡献自己的力量，谢谢大家！

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章