聚焦端侧计算技术,这家“独角兽”量产模拟存内计算芯片,2年间让算力提升500倍
王绍迪博士是业内少见的既懂技术、又懂市场,更擅长表达输出的年轻创始人。他是 2007 年全国中学生物理竞赛冠军,被保送至北京大学微电子系。毕业后他进入美国加州大学洛杉矶分校攻读硕士和博士,研究方向主要围绕存储器、存算一体相关领域。值得一提的是,王绍迪入选了《麻省理工科技评论》 “2023 年中国智能计算创新人物”。
2017 年,他创立了知存科技并担任 CEO,数年间便量产了全球首颗存内计算芯片并实现百万终端商用。此次访谈,王绍迪博士向 DeepTech 分享了存内计算的当下和未来,介绍了知存科技在多模态大模型时代的定位,以及最新发布的“天才博士计划”。
AI 正在从以计算为中心转向以存储器为中心
谈及创立知存科技的初衷,王绍迪回忆道,“ 2016 年底 AI 已经非常热门,随着 AI 从机器学习转入深度学习之后,对存储器的性能要求越来越高。我们看到了这个趋势,但由于当时‘存算一体’的概念比较新,一些国际巨头对于投入这个技术不是很积极,我们不想放弃这个新机遇,最终决定自己创业研发存算一体技术。现在我们很庆幸做了这个决定,可以看到现阶段的大模型比先前深度学习模型对存储器的容量需求高出了约 1 万倍。”
存算一体技术是一种新的计算架构,通过“存算融合”的方式克服了传统冯·诺依曼架构的瓶颈,结合先进封装、新型存储器件等技术能够进一步提升计算能效。“存内计算芯片的计算单元也是存储单元,通过修改存储器的拓扑结构,从存储器里读出来的其实是一个矩阵的乘累加计算结果,并且乘累加不是用乘法器、加法器实现的,而是直接用存储器单元的物理特性完成,因此可以大幅节约内存读写,让计算能效实现数量级提升。”他解释道。
在王绍迪看来,“当 AI 从以计算为中心转变成以存储器为中心之后,整个计算的成本、性能瓶颈全都落在存储器这一侧。比如,目前一颗 GPU 中大约有 70% 的成本是存储器,同时性能瓶颈也在存储器(超 80% 取决于存储器的性能)。因此,开发存内计算技术其实就是在存储器侧去提高有效带宽,解决算力瓶颈。毕竟,目前 AI 计算的瓶颈之一是读取带宽,数据读取效率的提升能带来计算效率的大幅提升。”
针对现阶段存内计算架构如何进一步优化,王绍迪认为有很大提升空间。“从底层角度来说,我们目前所开发的存内计算技术只能在现有的存储器体系中去研发,然而已有存储器大都是为存储做优化而非为计算做优化,若想让存储器为计算优化,需要牺牲一部分存储密度。比如,减少几倍存储密度能换来 1000 倍的性能提升。”
“从设计角度来说,如今有了先进封装的加持,设计重构对其性能也可能会带来 10 倍左右的提升。”他指出。“比如,在存储器中进行计算势必要增加电路进行控制,如果电路布置在芯粒中(而非在存储器中)然后再通过先进封装连在一起,那么围绕存储器系统在工艺上的优化就可以做得更加极致。设计和封装,这两个维度上有非常大的空间值得去探索。”他说道。
率先实现量产商用,知存进入第三阶段:激发更大应用场景、盘活生态
知存科技自成立以来的发展历程大体可以分为三个阶段。“第一个阶段,存算一体被业界普遍认为是一件遥不可及的事情,当时我们的想法就是先开发出一个能运行简单算法的存内计算芯片 Demo,向业界证明存内计算芯片是能跑起来的,即便在非先进制程工艺下依旧可以输出很强的性能。”王绍迪介绍道。
“2019 年我们开发出了一颗存内计算芯片 Demo,使用模拟计算方式,仅有 8M 容量也可以运行很大的算法,这在当时属于业界首次。”他补充说。
一款产品从早期实验室阶段推向市场,需要在商业上形成闭环,具备性价比、可靠性等。“2019 年后公司进入第二阶段,团队吸收了软件、SoC 等领域人才并尝试先从一个小场景(可穿戴电子设备)进行切入。”他说道,“经过两年的研发,我们在 2021 年发布了第一款存内计算芯片,随后又用了一年的时间把这款芯片实现量产。”他表示,“这个阶段主要是为了证明存内计算芯片在性能、可靠性以及性价比等方面具有优势,而这些因素对于一项新技术而言是非常重要的。”
从 2022 年开始,在存内计算芯片完成量产和商用之后,王绍迪带着团队开始思考如何进一步提升芯片性能,公司的发展也顺势进入到第三阶段,开始围绕存算一体技术进行更前沿的探索,开发更高效的计算技术。“随着芯片性能提升,能够覆盖的场景和应用范围会更加广泛,所以接下来我们是围绕能效、成本、算力等方面持续进行升级。”他表示。
在王绍迪看来,存算一体技术也符合摩尔定律的发展,未来 5-10 年每年都能有数十乃至数百倍的性能提升。“为了让存内计算芯片在单位面积下实现更高算力,研发团队对芯片进行重新建模,包括底层的阵列设计等,探索芯片的理论极限。”他说道,“早期我们是带着问题去开发产品,如今我们通过解决问题不断靠近理论极限。随着研究的深入我们也取得了一些成果,两年时间让芯片单位面积的算力提升了 20 倍,除此之外芯片集成规模每年也可以有 10-20 倍的提升。”
以知存科技自主研发的第二代 3D 存内计算架构为例,“3D 存内计算架构主要带来两方面优势,其一,可以让存算一体部分和数据 I/O 部分解耦,在性能上实现‘精细分工’;其二,存储容量方面也可以进一步提升。”王绍迪指出。
针对芯片功耗,他解释说,“AI 计算中的高功耗主要有两部分,一是本身计算的功耗,目前这在很大程度上被散热所限制;二是 I/O 功耗,当单芯片没办法去完成一个复杂任务的时候需要多芯片集成,芯片之间必然存在 I/O 功耗以及数据通信功耗。存内计算从根本上节省计算过程,然后通过 3D 的方式结合在一起,因此 I/O 功耗也被大幅节省,整体粗略算下来大概会有 50-100 倍功耗降低的潜力。”
就目前而言,大模型在端侧受到模型大小和输出速度的限制,只能完成诸如语音转文字、合成声音等简单任务,不具备常识和总结能力,究其原因在于模型维度太小。
围绕端侧大模型市场应用,在王绍迪看来,“AI 领域向来都是算力驱动应用。现阶段端侧仍是一个蓝海市场,毕竟目前端侧还没有一款芯片能够跑得动真正意义上的大模型;同时,端侧对于‘实时性’的要求非常强,延时降低能够提升人使用的依赖性并激发更多应用场景。”
他表示,只有产品足够优秀才能激发出应用场景,进而开拓出更大的生态和市场。比如,CPU 之所以能够形成生态,主要是它跟操作系统实现了较好的绑定,而当前 AI 的火爆很大程度上归根于英伟达的 AI 芯片,AI 基于芯片算力的提升实现越来越多的应用场景。
“其实,包括大模型的产生与此前深度学习的变化,都与 AI 芯片算力的提升密不可分,算力大幅提升在云端激发出了很多应用场景。目前主流 AI 芯片在云端已经建立出了良好的生态,但在端侧建立生态有很大的难度。这对于我们而言就是机会,依托存内计算技术在端侧去激发广泛的应用场景,自然就可以形成生态,进而形成壁垒。”王绍迪说道。
在端侧,IDC 预测 2025 年全球物联网设备总数或将超过 400 亿台,产生数据量多达 80ZB,在智慧城市、智能家居、自动驾驶等诸多场景中,超过一半的数据需要依赖端侧本地处理。
“针对产品研发,端侧是我们布局的方向之一,围绕端侧开发存内计算芯片实现大模型能力的提升并且控制成本,目标是希望提升算力激发更多应用场景,进而形成一个生态,带来更大的市场。”王绍迪表示。
图 | 端侧多模态大模型应用场景(来源:受访者)
另一个方向是与头部客户的合作绑定产品。“存内计算在同样面积下可以实现更强性能,例如,针对端侧设备,使用 28nm 制程工艺开发一款存内计算芯片,在极小功耗的限制下几乎可以比 7nm 制程芯片的性能还要高出 5 倍左右。”他说道,“在成本降低的同时实现性能提升,这就需要更契合的、强大的应用把提升的这些性能发挥出来,因此我们与头部的客户绑定,从算法、应用方式、产品效果等多方面都实现创新。”
推出“天才博士计划”,百万级薪酬征集应届硕博人才
据了解,今年 5 月,知存科技与北京大学建立“存算一体联合实验室”,启动了“产学研”融合战略升级,并将继续投入近亿元资金继续加强与全国顶级高校的深度合作。
“在学术界,存内计算也是非常热门的领域,我带着团队连续拜访了很多高校进行了深度交流,看到了学术界很多创新的想法,这些想法在产业界是还没有看到的。而且有很多想法在学术界其实已经很成熟,这就是我们产学研融合关注的重点。”王绍迪说道。
“比如,围绕一些应用场景学术界开发技术难度非常大,但换一个应用场景,学术界已有的技术可以直接应用,把这些技术从学术界‘移植’到产业界,我们认为这就是学术界和产业界非常好的一个结合点。”他表示,“相当于是把学术界的一些新技术在存内计算领域找到了一个很好的应用点,可以更快速的推向产业化;与此同时,我们还可以向学术界提一些需求,引导学术界向一些产业需求方向去开展研究。”
图|知存科技公司一角(来源:受访者)
产学研战略升级是知存科技推动存内计算技术创新的重要一步。此外,人才培养和团队能力提升也是知存科技未来发展的核心战略。“成立 7 年来,知存科技研发人员占比始终保持在 80% 以上,一直在做创新方面的研究。借这次采访,我也想邀请并且非常欢迎同样有技术梦想的应届硕博人才加入知存科技。”在访谈的尾声,王绍迪着重表达了对优秀人才的渴求。
微信扫码关注该文公众号作者