IBM这颗AI芯片,将动摇计算机架构?
来源:内容由半导体行业观察(ID:icbank)编译自nature,谢谢。
加州圣何塞 IBM 的研究人员开发了一种受大脑启发的计算机芯片,它可以通过以更少的功耗更快地工作来增强人工智能 (AI)。他们的大型 NorthPole 处理器芯片消除了频繁访问外部存储器的需要,因此比现有架构更快地执行图像识别等任务,同时消耗的电量大大减少。
“它的能源效率令人惊叹,”巴黎萨克雷大学帕莱索分校的纳米电子学研究员达米安·奎利奥兹 (Damien Querlioz) 说道。他说,这项发表在Science 上的研究表明,计算和内存可以大规模集成。“我觉得这篇论文将动摇计算机架构中的普遍思维。”
NorthPole 运行神经网络:简单计算单元的多层阵列,经过编程可识别数据模式。底层接收数据,例如图像中的像素;每个连续层都会检测复杂性不断增加的模式,并将信息传递到下一层。顶层产生一个输出,例如,可以表示图像包含猫、汽车或其他物体的可能性。
因瓶颈而减慢
一些计算机芯片可以有效地处理这些计算,但每次计算一层时它们仍然需要使用称为 RAM 的外部存储器。以这种方式在芯片之间传输数据会减慢速度——这种现象被称为冯·诺依曼瓶颈,以数学家约翰·冯·诺依曼命名,他首先构想了基于处理单元和单独内存单元的计算机标准架构。
冯·诺依曼瓶颈是减缓计算机应用程序(包括人工智能)速度的最重要因素之一。它还导致能源效率低下。研究合著者、IBM 计算机工程师 Dharmendra Modha 表示,他曾经估计在这种架构上模拟人脑可能需要相当于 12 个核反应堆的输出。
NorthPole 由 256 个计算单元或核心组成,每个计算单元都包含自己的内存。“你正在缓解核心内的冯·诺依曼瓶颈,”Modha 说道,他是 IBM 位于圣何塞阿尔马登研究中心的类脑计算首席科学家。
莫达说,这些核心在一个网络中连接在一起,其灵感来自于人类大脑皮层各部分之间的白质连接。这一设计原则和其他设计原则(其中大部分以前就存在,但从未被整合到一个芯片中)使 NorthPole 在图像识别的标准基准测试中以大幅优势击败现有的人工智能机器。尽管没有使用最新、最小型化的制造工艺,但它使用的能量仅为最先进人工智能芯片的五分之一。作者估计,如果 NorthPole 设计采用最新的制造工艺,其效率将比当前设计提高 25 倍。
在正确的道路上
但即使是 NorthPole 的 224 MB RAM 也不足以支持大型语言模型,例如聊天机器人 ChatGPT 使用的语言模型,即使在最精简的版本中也会占用数千兆字节的数据。而且该芯片只能运行预编程的神经网络,这些神经网络需要在单独的机器上提前“训练”。但该论文的作者表示,NorthPole 架构在自动驾驶汽车等速度关键型应用中可能很有用。
NorthPole 使内存单元在物理上尽可能靠近核心中的计算元件。在其他地方,研究人员一直在利用新材料和制造工艺开发更激进的创新。这些使存储单元本身能够执行计算,原则上可以进一步提高速度和效率。
上个月描述的另一种芯片使用忆阻器进行内存计算,忆阻器是能够在电阻器和导体之间切换的电路元件。“IBM 和我们的这两种方法都有望减少延迟并降低与数据传输相关的能源成本,”忆阻器研究的共同作者、北京清华大学的高斌说道。
另一种方法是由多个团队(包括位于瑞士苏黎世的独立 IBM 实验室)开发的,通过改变电路元件的晶体结构来存储信息。这些新方法能否在经济上得到推广还有待观察。
参考文献
https://www.nature.com/articles/d41586-023-03267-0
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3559期内容,欢迎关注。
推荐阅读
半导体行业观察
『半导体第一垂直媒体』
实时 专业 原创 深度
识别二维码,回复下方关键词,阅读更多
晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装
回复 投稿,看《如何成为“半导体行业观察”的一员 》
回复 搜索,还能轻松找到其他你感兴趣的文章!
微信扫码关注该文公众号作者