Redian新闻
>
存算一体:芯片设计瓶颈与挑战

存算一体:芯片设计瓶颈与挑战

公众号新闻

作者 陈巍 博士:存算一体/GPU架构和AI专家,高级职称。中关村云计算产业联盟,中国光学工程学会专家。
本文为第一和第二部分大算力与大模型计算的瓶颈与挑战存算一体的技术优势与设计难点,以及面向云计算与边缘计算的大算力存算一体芯片、可重构存算一体技术和存算一体编译器的开发。
好的技术首先从好的问题开始。有很多对存算一体技术感兴趣的人问过我们团队各种各样的问题。
报告提纲分为大算力与大模型计算的瓶颈与挑战、存算一体的技术优势与设计难点、面向云计算与边缘计算的大算力存算一体芯片、可重构存算一体技术和存算一体编译器的开发。

1、大算力与大模型计算的瓶颈与挑战


AI发展趋势:大模型、通用AI、大算力需求爆发

AI模型历经数十年的发展,模型大小呈现出增速增加的趋势。由线性增长转变为指数增长。典型代表包括GPT-3、AlphaFold2等,个头都很大。

下面列了提升算力的一些传统思路。基本上各类方法在5年前都有使用过,但未能从根本上解决数据密集型算力的问题。例如包括为了减少数据搬运的大粒度的指令(集)或专用指令(集)、访存优化(替换/预取)、调度优化、内存/缓存压缩、低摆幅电路、大缓存技术等。也包括提高并行度的SIMD、SIMT、STMD、指令预测等技术。

大算力的瓶颈

大算力的瓶颈,首先是存算分离的计算带宽问题。
存算分离会导致算力瓶颈。AI技术的快速发展,使得算力需求呈爆炸式增长。虽然多核(例如CPU)/众核(例如GPU)并行加速技术也能提升算力,但在后摩尔时代,存储带宽制约了计算系统的有效带宽,系统算力增长步履维艰。例如,8块1080TI 从头训练BERT模型需99天。
想解决算力瓶颈,就需要突破存算分离得限制。
传统的一些方法,包括扩大芯片面积(包括使用chiplet技术整合)虽然能提升算力,但能效制约和性能瓶颈依然存在。
由于计算与存储分离,在计算的过程中就需要不断通过总线交换数据,将数据从内存读进CPU,计算完成后再写回存储。这一运转方式让冯·诺依曼架构无法适应AI计算的大算力需求。

第二个瓶颈,是存算分离的能耗密度/能效问题。
能效其实是提升算力的关键。
服务器环境下,单个计算卡的算力受限于服务器主板供电,单卡能耗密度导致单个计算卡算力受限。
了解半导体发展历史的应该清楚,能效比也是CMOS工艺成为主流工艺的的关键。
另外一点,单机算力需要突破存算分离。
深度学习中,计算单元和存储单元之间存在大量频繁的数据移动。
从处理单元外的存储器提取数据,搬运时间往往是运算时间的成百上千倍,整个过程的无用能耗大概在60%-90%之间,能效非常低,这时“存储墙”成为了数据计算应用的一大障碍。


GPU的架构演进并未解决大算力和大模型的挑战

虽然说现在很多AI计算使用GPU,但GPU的发展速度已经不能适应AI模型的发展速度了。
一方面,存储在GPU中所占比例越来越大。从GPU架构的演进趋势,我们可以看到存储在计算芯片中所占的比例越来越大。计算芯片从以计算单元为核心演变到以存储/数据流为核心的架构设计哲学。
另一方面,数据传输功耗仍是提升算力和算力密度的瓶颈。
以数据中心为例,百亿亿次(E级)的超级计算机成为各国比拼算力的关键点。以现有技术研制的E级超算功率高达千兆瓦,需要一个专门的核电站来给它供电,而其中50%以上的功耗都来源于数据的“搬运”,本质上就是冯·诺依曼计算机体系结构计算与存储的分离设计所致。


存算一体为算力升级提供赋能

我们看到,存算一体将为算力升级提供赋能。
一方面,是快速爆发的市场需求驱动。
目前,存算一体的商业驱动力主要源于AI和元宇宙算力的需求、并行计算在深度学习的广泛应用。看向应用端,存算一体的市场发展驱动非常强烈
另一方面,是存算一体计算技术与计算精度的提升。
基于神经网络的人工智能的兴起,大算力高能效比的存内计算/存内逻辑获得了广泛关注。同时,随着存算一体技术的进步,通过存内计算和存内逻辑,已经可以完成32位以上的任意高精度计算,普遍适用于从端到云的各类计算需求。
最后,新型高密度存储器的发展,也给存算一体的发展提供  了更多的可能。
新型存储器的出现也带动了存算一体技术的发展,为存算一体技术升级方向提供可能。新型存储器与存算一体技术的结合,形成了新一代的算力元素,有望推动下一阶段的人工智能发展。


2、存算一体的技术优势与设计难点

如果想把存算一体领域搞清楚,需要了解以下存算一体知识。比如存算一体的优势、应用领域、技术路线、存储器件的对比选型等等。这些知识也对很多存算一体领域的投资机构有价值。
如果是学习技术,则还要深入研究存算一体的架构和对比选型,以及电路级的多位读出与输入技术。


存算一体的原理、优势

存算一体就是存储器中叠加计算能力,以新的高效运算架构进行二维和三维矩阵计算。
存算一体的优势包括:
1)具有更大算力(1000TOPS以上)
2)具有更高能效(超过10-100TOPS/W),超越传统ASIC算力芯片
3)降本增效(可超过一个数量级)
存算一体技术的技术底层特征包括:
减少数据搬运(降低能耗至1/10~1/100)
存储单元具备计算能力(等效于在面积不变的情况下规模化增加计算核心数,或者等效于提升工艺代)

单个存算单元替代“计算逻辑+寄存器” 更小更快


存算一体的应用领域与技术路线

存算一体可以用于互联网的个性化推荐、语音识别、自然语言处理,也可用于自动驾驶、工业视觉等很多领域。在技术层级上,存算一体可以给不同的计算芯片赋能,使各个领域的计算芯片提升能效和算力。


存算一体方面,其实有几个不同的技术路线。其中查存计算已经在GPU中广泛使用,近存计算正被AMD作为与Chiplet结合的关键技术落地。国内做存内计算的公司已经起步,并且在小算力芯片上逐渐突围。同时计算灵活性更好的存内逻辑技术也在兴起。
查存计算(Processing With Memory):GPU中对于复杂函数就采用了这种计算方法,是早已落地多年的技术。存储芯片内部的存储单元完成查表计算操作,存储单元和计算单元完全融合,没有一个独立的计算单元。
近存计算(Computing Near Memory):典型代表是AMD的Zen系列CPU。计算操作由位于存储区域外部的独立计算芯片/模块完成。这种架构设计的代际设计成本较低,适合传统架构芯片转入。这次达摩院发布的存算芯片也属于这一类型。
存内计算(Computing In Memory):典型代表是Mythic、千芯、闪亿、知存、九天睿芯。计算操作由位于存储芯片/区域内部的独立计算单元完成,存储和计算可以是模拟的也可以是数字的。这种路线适合算法固定的场景算法计算,目前主要用于语音等轻算力场景。
存内逻辑(Logic In Memory):典型代表包括TSMC(在2021 ISSCC发表)和千芯科技。通过在内部存储中添加计算逻辑,直接在内部存储执行数据计算,这种架构数据传输路径最短,同时能满足大模型的计算精度要求。
来源:陈巍谈芯
链接:
https://zhuanlan.zhihu.com/p/522755103
下载链接:
华为昇腾服务器研究框架(2023)
《华为鲲鹏产业链深度研究合集》
1、华为鲲鹏生态研究框架 2、产业链深度研究:鲲鹏生态助力华为涅槃
165份重磅ChatGPT专业报告
浙商证券:ChatGPT研究框架(2023)
ChatGPT芯片算力:研究框架

推荐阅读:
高性能计算技术、方案和行业全解(第二版)
InfiniBand架构和技术实战总结(第二版)
RDMA原理分析、对比和技术实现解析

或者获取全店资料打包,后续免费获取全店所有新增和更新。

全店铺技术资料打包(全)


转载申明:转载本号文章请注明作者来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。
推荐阅读
更多架构相关技术知识总结请参考“架构师全店铺技术资料打包”相关电子书(37本技术资料打包汇总详情可通过“阅读原文”获取)。
全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”,后续可享全店内容更新“免费”赠阅,价格仅收198元(原总价350元)。

温馨提示:
扫描二维码关注公众号,点击阅读原文链接获取“IT技术全店资料打包汇总(全)电子书资料详情

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
重访西班牙(8)-飘香的欧洲果园煮屁话禅茶(九)结语美国回过味来了:芯片战关键不在高端芯片日媒:芯片行业视新加坡为未来重要生产中心【元宵快闪】《萱草花》+ 春节真人秀答案片链接见内,24小时后删除自主造芯新突破:256TOPS算力刷新国产性能榜,功耗低至35W,首个存算一体智驾芯片两年交卷AI入侵芯片设计,会干掉工程师吗?悄悄崛起的中东制造业:面纱下的创新与挑战艺变突起:AI艺术的机遇与挑战|牛津中国论坛6年大赚8倍,浮盈超100亿!大基金又出手,减持半导体龙头!基金经理:芯片的新周期有望加速到来台积电:芯片供应链库存高居不下,中国市场复苏力道弱,全球半导体春天未到芯片设计五部曲之二:图灵艺术家——数字IC「芯算一体」完成千万级天使轮融资,开发机器视觉低代码组态IDE平台|早起看早期英伟达 CEO 黄仁勋:芯片制造是 AI 的「理想应用」 下一波浪潮是「具身人工智能」芯片设计行业的新趋势AI技术深入EDA,芯片设计效率的又一场革命!苹果芯片设计师霸气官宣,芯片性能节节走高6倍ST股再创纪录,搭上AI快车,交易所:芯片赚钱么?数模混合芯片设计企业美芯晟登陆科创板:无线充电技术水平行业领先 产品收入复合增长率达398.11%国内首款存算一体大算力芯片,瞄准智能驾驶!谷歌宣布,所有芯片设计都已经上云巴菲特狂赞台积电:芯片行业没公司能相提并论这位女士推动了VLSI设计革命,改变了芯片设计芯片设计公司如何省钱?先算算账再说高通:芯片“大佬”藏大雷,寒冬还要久一些​OPPO终止ZEKU业务:称这是艰难决定 不再做芯片设计邓小平在中共中央会议上的检讨专访「EDA开创者」:芯片设计龙头背后的大师喜剧片:你会遇到一个高大黝黑的陌生人用“存算一体”底层创新,做高能效比国产化芯片|甲子光年2023年中国经济增长的动力与挑战一篇文根治芯片设计公司CEO的精神内耗【公开课预告】:通话降噪算法在手机和IoT设备上的应用与挑战直播预告:AI芯片设计验证利器——数据通路验证DPV解析基于存算一体技术的GPU大型计算系统
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。