新型存储,AI芯片新选择
在低功耗物联网和边缘人工智能应用中,人工智能模型可以足够小,以适应SoC的内部非易失性存储器 (NVM) 。片上NVM可用于代码存储以及保存AI权重和CPU固件。
半导体技术、算法和数据科学的持续创新使得在越来越多的边缘设备中融入一定程度的人工智能推理能力成为可能。如今,我们在计算机视觉应用中看到了它,例如手机、笔记本电脑和安全摄像头等产品上的对象识别、面部识别和图像分类。在工业系统中,推理可以实现预测性设备维护,并让机器人独立执行任务。对于物联网和智能家居产品,人工智能推理使得实时监控和响应各种传感器输入成为可能。
当今支持人工智能推理的成本最低的处理解决方案是用于物联网系统的现成单芯片微控制器。此类芯片将通用 CPU、SRAM 和 IO 功能与非易失性存储器 (NVM) 结合在一起。然而,这些芯片在 CPU 上运行的软件中实现人工智能算法,只能提供适度的性能,并且仅适用于基本推理。扩展单芯片解决方案以提供更高性能的推理对设计人员来说是一个挑战。
当今的解决方案有望为要求苛刻的推理算法提供数万亿次浮点运算的性能,必须使用专用的人工智能加速硬件。为了实现所需的性能,同时将功耗保持在最低限度,它们必须采用领先的工艺制造。事实上,如今市场上有许多片上系统 (SoC),它们配备了采用先进工艺几何结构开发的专用 AI 加速硬件,效率相当高。
然而,这些通常是两芯片解决方案,其中一个 AI 计算引擎采用先进工艺(通常为 22nm 或以下)实现,而 NVM 器件则采用较旧的工艺技术实现。这是因为嵌入式闪存在 40 纳米以下无法扩展;在 28nm 下,成本对于大多数应用来说变得过高,因此在 28nm 下嵌入式闪存不存在。这意味着不可能将闪存和高性能推理引擎集成在单个 SoC 中。
对于成本次于性能的应用,这样的双芯片解决方案可能是可行的(想想像自动驾驶汽车这样的产品,需要存储在固态驱动器 [SSD] 中并通过 DRAM 运行的巨大 AI 模型)。然而,对于低功耗边缘人工智能产品,两芯片解决方案的成本可能令人望而却步。在两芯片解决方案中,还需要不断从外部存储器获取权重,从而导致延迟和功耗增加。此外,两芯片解决方案还存在潜在的安全风险,因为通过外部总线读取或修改 NVM 来攻击系统的可能性更大。
低成本、低功耗系统的“圣杯”是在单个 SoC 上结合了加速器、NVM、SRAM 和 IO 的单芯片(SoC 或 MCU)。从资源角度来看,大多数小型、低功耗物联网和其他人工智能边缘应用实际上并不需要两芯片解决方案。在这些应用中,AI 模型可以足够小,以适合 SoC 的内部 NVM。只是闪存有限的可扩展性带来了挑战。
单芯片解决方案不仅可以节省成本,而且可以节省成本。它将有可能实现更高的性能和更低的功耗,这既是因为存储器和执行单元之间的带宽更高,也是因为不需要跨芯片边界获取权重。而且,由于这些应用中的AI模型相对较小且更新频率不高,因此片上NVM不仅可以用于传统NVM的代码存储任务,还可以用于执行其他任务。它还可以用来保存 AI 权重和 CPU 固件。
如今,AI 权重和 CPU 固件是从片上 SRAM 读取的。这种方法有几个缺点。首先,将权重存储在 SRAM 中意味着需要比其他方式更大的 SRAM 阵列。这会增加成本,因为 SRAM 本身就很昂贵,而且还会增加整体芯片尺寸,从而导致成本进一步增加。另外,由于SRAM是易失性存储器技术,因此在启动时仍然需要从外部闪存加载代码。没有即时启动。
使用 ReRAM 实现单芯片解决方案
电阻式RAM(ReRAM或RRAM)是一种创新的NVM技术,能够实现用于边缘 AI 推理的低成本、低功耗单芯片解决方案的愿景。ReRAM 可以与芯片的其余部分一起扩展到先进的工艺节点,因此可以在与 AI 引擎相同的先进工艺上实现。
ReRAM 可用于替代大型片上 SRAM 来存储 AI 权重和 CPU 固件。由于该技术是非易失性的,因此无需在启动时等待从外部 NVM 加载 AI 模型。它比 SRAM 更密集,这使得它比每比特 SRAM 更便宜,因此可以在片上集成更多内存,以在相同的芯片尺寸和成本下支持更大的神经网络。虽然数据存储仍需要片上 SRAM,但阵列将更小,整体解决方案更具成本效益。
虽然数据存储仍需要片上 SRAM,但用 ReRAM 取代大型片上 SRAM 来存储 AI 权重和 CPU 固件,可以实现更小的芯片尺寸和更具成本效益的整体解决方案。
借助 ReRAM,设计人员可以在单个 IC 中实现先进 AI 的单芯片实现,同时节省芯片尺寸和成本。
展望未来:未来的人工智能架构
展望未来,ReRAM 也将成为边缘 AI 未来的构建模块:神经形态计算(也称为内存模拟处理)。在这种范例中,计算资源和内存驻留在同一位置,因此无需移动权重。神经网络矩阵变成 ReRAM 单元阵列,突触权重变成驱动乘法运算的 NVM 单元的电导。
未来的系统将模仿人脑的行为,以快速实时处理大量数据。(图片来源:Weebit Nano)
由于 ReRAM 细胞在物理和功能上与人脑突触相似,因此可以通过 ReRAM 模拟人脑的行为,从而快速实时处理大量数据。这样的解决方案将比当今传统处理器上的神经网络模拟更加节能几个数量级。Weebit 正在与众多学术和商业合作伙伴合作,在这一领域取得进展。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3526期内容,欢迎关注。
推荐阅读
半导体行业观察
『半导体第一垂直媒体』
实时 专业 原创 深度
识别二维码,回复下方关键词,阅读更多
晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装
回复 投稿,看《如何成为“半导体行业观察”的一员 》
回复 搜索,还能轻松找到其他你感兴趣的文章!
微信扫码关注该文公众号作者