拯救未来计算的三种办法!
作者
Dovydas Joksas, AbdulAziz AlMutairi, Oscar Lee, Murat Cubukcu, Antonio Lombardo, Hidekazu Kurebayashi, Anthony J. Kenyon, Adnan Mehonic
摘要
在数据驱动的经济中,几乎所有行业都受益于信息技术的进步。强大的计算系统对于快速的技术进步至关重要。然而,如果当前的计算能力需求与现有技术所能提供的差异得不到解决,这一进展可能会放缓。提高能效的关键限制是与冯·诺依曼架构相关的数据传输成本的过度增长,以及互补金属氧化物半导体(CMOS)技术(如晶体管)的基本限制。本文讨论了三种可能在未来计算系统中发挥重要作用的方法:忆阻电子、自旋电子学和基于2D材料的电子。作者介绍了这些技术如何改变传统的数字计算机,并有助于诸如神经形态计算在内的新范式的采用。
1.简介
计算机已成为现代世界不可或缺的一部分。从即时消息传递到互联网搜索,再到智能助理,这些技术都是通过执行逻辑操作并随时间存储信息的设备实现的。随着使用量的激增,能源成本的增长也不足为奇。一些人估计,到本世纪末,信息和通信技术将占全球电力需求的8%到21%。当然,其中一些应用程序可能会对电力有更高的需求。
最值得注意的是,人工智能(AI)和机器学习(ML)已成为一系列以数据为中心且快速增长的技术中最为不可或缺的一种,涵盖物联网(IoT)、交通、医疗、安全和娱乐等多种领域。现在人们已然认识到,人工智能可能存在与巨大计算需求相关的硬件问题,这直接反映在能耗上,这正在迅速成为一个巨大的社会挑战。ML对计算能力的需求飙升,大大超过了基于摩尔定律的缩放或创新架构解决方案所带来的改进。从2012年到2020年,最先进的人工智能的硬件性能提高了317倍,但这并不足以满足AI应用不断增长的计算需求。最先进的人工智能模型的规模呈指数级增长,其训练成本也从2012年的几美元增加到2020年的数百万美元。现如今,我们迫切需要开发新技术,从根本上解决这一问题,并建立高效的人工智能系统。
这篇文章将讨论忆阻器、自旋电子以及二维(2D)材料和器件,解释它们如何既能改进当前的计算硬件、又能实现新的计算范式。我们将介绍这些技术的主要物理原理和前景,以及在全面采用之前必须解决的一些材料和工程挑战。这些新兴技术的作用将在基于数字电子和布尔代数的传统计算以及神经形态计算等有前途的新方法的背景下讨论。这篇文章并非作为对同类技术的详尽探讨,并不意味着其他技术和方法不会发挥重要作用,许多替代方案可能会补充我们在这里讨论的系统。此外,我们提出的三种方法经常在极端情况下重叠,我们甚至可能有部分基于2D材料的自旋电子忆阻器。
1.1基本概念
1.1.1 忆阻器
1971年,忆阻器正式成为一种电路元件,引入了与电荷和磁通量相关的电特性,称为忆阻。忆阻器的存在是因为这种关系填补了电路理论中观察到的基本对称性的空白。自2000年代末以来,人们对忆阻器的兴趣重新燃起,随之而来的是各种物理实现。忆阻技术和基础物理机制的前景广阔,而且仍在迅速扩展。
在大多数情况下,忆阻器基于电阻切换的概念。电阻切换是一个可逆过程,其中忆阻器通过外部施加的电刺激改变其电阻。在大多数情况下,电阻切换导致非易失性状态,即使在移除刺激后,忆阻装置也会“记忆”电阻状态,且保持时间较长。然而,电阻切换也可以通过其他类型的刺激(例如光学)实现,并可能导致易失性切换,这有非常利于一些特定应用(例如神经元尖峰)。
有许多忆阻技术,但大多数依赖于相似的物理原理。基于氧化还原的电阻式随机存取存储器(ReRAM)、相变存储器(PCM)和磁阻式随机存取内存(MRAM)等技术的三个示例如图1 a–c所示。忆阻器通常通过简单的两端电容器状结构实现,其中开关层被夹在两个电极之间。通过施加电压脉冲,可以将开关层的电阻编程为各种电阻状态。
图1.忆阻器件及其在计算中的潜在用途概述。存在多种记忆技术,包括a)ReRAM、b)PCM和c)MRAM。忆阻器件的常见应用包括d)嵌入式非易失性存储器,e)基于可编程交叉开关的模拟深度学习加速器,以及f)由模拟突触和神经元的忆阻器实现的系统。
电阻切换在ReRAM、PCM和MRAM中的表现略有不同。在ReRAM技术中,电阻切换基于导电细丝的产生/溶解(氧化物层固有的或电极金属扩散的结果);局部纳米离子氧化还原现象驱动ReRAM中的电阻切换。ReRAM器件有不同的类型,但它们可以根据开关类型进行大体划分:1)本征开关,其本身表现为开关材料的本征特性;2)非本征开关,其由扩散(通常来自金属电极)和制造的开关层外的金属离子漂移控制。或者,可以根据切换过程的主要驱动力来对设备进行分类,可分为电化学金属化电池、价态变化ReRAM和热化学ReRAM。在PCM中,开关由相变材料的结晶和非晶化的可逆过程控制。而两个铁磁层的可编程相对自旋取向是MRAM原理的基础。
需要注意的是,基于不同电阻切换机制的新型器件仍在开发中。例如,包括纯依赖于电子效应的纳米忆阻器,以及依赖于载流子捕获/去捕获陷阱位点的Ti/ZnO/Pt结构。这样的器件可以在速度、均匀性和低功耗方面提供进一步的改进。
如图1 d–f所示,目前已有非常广泛的忆阻器应用,包括嵌入式数字非易失性存储器、模拟深度学习加速器和神经形态脉冲系统。我们将在本文后面更详细地讨论这些和其他潜在的应用。我们查阅了丰富的文献来了解不同物理机制以及更多类型忆阻装置和技术的详细信息。
1.1.2 自旋电子
传统的电子系统依赖于电子电荷,这些系统使用电压电平和电流来处理信息。然而,电子具有另一种固有性质,称为“自旋”,使其类似于一个微小的磁体。自旋电子学的核心概念是利用这种自由度来制造使用传统半导体技术无法实现的功能电子器件。磁体由于其优异的非易失性,可以低成本且可靠地存储数字信息;将其与自旋相关传输相结合以实现高效的写入和读出是在电子设备市场上进行颠覆性创新的可行方法。
量子力学泡利不相容原理和库仑相互作用在自旋之间产生了所谓的交换耦合,产生了自旋系综的磁性阶数,其阶数参数为磁化强度M。自旋电子学的核心概念是在M中存储信息位,这些信息位可以低能耗的方式进行写入和读取,用于数据存储和处理。磁场H是通过塞曼相互作用(-M*H)控制M的常规方式。例如,当两个矢量平行排列时,系统的自由能变低并因此稳定。磁矩一般是非易失的,这意味着当我们关闭磁场时,磁矩的大小和方向是不变的,因为存在上述交换相互作用和磁各向异性。
在铁磁体中,交换相互作用使单个磁矩沿同一方向排列,将其中一个磁矩逆着这个方向翻转需要很大的能量成本,因此保持了沿有利方向的总磁矩(这种磁有序系统(称为磁振子)的激发态可以通过倾斜磁矩来实现,而这会导致总力矩的轻微变化)。M的平衡方向由磁自由能决定,其中在零外部磁场的情况下,磁各向异性产生作为角度函数的局部最小值,如图2a所示。最小值之间的能量势垒表征了磁矩取向的热稳定性,直接关系到磁单元中存储数据的可靠性。如果势垒高度 太小,可能会发生磁矩的意外反转,从而导致数据丢失,而在典型磁体中,当E/(k_B T)>60时,通常可以保证数十年的数据保留。这一机制是磁性材料非极化性的起源,优化诸如(磁各向异性的大小)等参数是自旋电子学应用的主要课题之一。
图2.自旋电子的基本原理。a) 具有单轴各向异性的磁体中的磁开关。当我们沿着单轴各向异性的易磁化轴施加磁场时,磁自由能随角度θ的变化而变化。在塞曼能量去除能量势垒的点处,磁化切换发生为M的跳跃。b)MTJ的两个磁电极的隧道磁阻与状态密度D(E)的示意图。对于平行构型(左图),费米能级上自旋电子的大D(E)可以产生与D1^2成比例的大隧穿概率。对于反平行情况,由于D1×D2的大小,隧穿概率较小。c) STT机制示意图。在FM1中产生自旋极化电子并进入FM2,由于角动量转移到S2中,传导电子的极化角在FM2中倾斜,这会在S2上产生磁力矩。
自旋电子器件的另一个关键因素是传输参数(例如电阻率)可以由M控制。在铁磁体中,由于交换耦合的能量分裂,上自旋电子和下自旋电子的费米能级的态密度不同(见图2b)。磁性隧道结(MTJ)通过两个具有隧道势垒的磁性层(图2b),利用这一特性作为隧道磁阻(TMR),其中隧穿概率取决于每个电极费米能级上电子的自旋极化。TMR器件表现出比巨磁阻(GMR)更大的电阻变化,特别是具有MgO势垒的TMR器件。高TMR值对于使用MTJ的自旋电子器件的读出可靠性以及减少读出时间至关重要,因为它实现了读取期间更快的电压变化率。
如图2a所示,通常我们通过施加大于磁体各向异性场的H来切换M。然而,由于电流产生的H与电流的绝对值成比例,而不是与电流密度成比例,因此这种写入方法不能随着尺寸的减小而扩展。作为一种可扩展的磁化切换机制,自旋转移力矩(STT)的概念由Slonczewski和Berger独立提出。在该方案中(图2c),注入磁层的自旋极化电流可以通过传导和局域电子之间的角动量传递施加扭矩。当电流大小足够大时,通过MTJ的电流可以切换一层的磁化。这种开关电流密度的大小与自旋电子存储器(如MRAM)的功耗直接相关,MRAM通过翻转MTJ阵列中的M来存储和处理数字信息。此外,由于每个MRAM单元由下面的CMOS晶体管供电,因此它也是自旋电子阵列的面积(密度)的一个重要参数,到目前为止,它还是MRAM小型化的限制因素。由于高电流需要大的CMOS晶体管,所以当写入电流小时可以实现高密度MRAM。另外,目前还有其他新兴的磁化控制机制,包括自旋轨道转矩(SOT)和电压控制磁各向异性(VCMA),请读者阅读其他研究文献。
1.1.3 2D材料
采用不同的计算变量(如自旋)和架构(如神经形态)会产生对能够支持此类技术的新型材料的需求。从这个角度来看,我们还要探讨2D分层材料,通常简称为2D材料。我们认为,这些材料是未来计算的最有前途的材料之一,因为它们具有各种各样的特性,可以很容易地组合成功能结构,并且易于与现有半导体和制造工艺集成。2D材料是一大类材料,由典型的范德华力将单个层堆叠在一起。每一层都由共价键合的原子形成,并表现出完全饱和的表面键,从而形成即使是单层形式也稳定的晶体,因此得名“2D”材料。
图3a显示了根据其结构分组的最常见2D材质的列表。X-烯是由单一元素组成的材料,如石墨烯和硅烯,而X-烷和-X-烯是它们的化学衍生物,例如,石墨烯指氢化石墨烯,氟石墨烯指氟化石墨烯。过渡金属二醇化物(TMDs)是由主要来自IV、V或VI族的过渡金属元素(M)和硫族元素(X)形成的一类化合物,具有通式MX2。这些材料形成XMX形式的层状结构,硫族原子位于由金属原子平面分隔的两个六边形平面中。半金属硫族化合物(SMC)类似于TMD,它们由半金属和硫族元素形成,通常以M2X2化学计量。MX烯是以式M(n+1) AXn出现的三元层状材料,其中M是早期过渡金属,A是第13或14族元素,X是碳或氮,n是1至3之间的整数。最后,2D材料还包括绝缘体,如六方氮化硼(hBN),这是一种由硼和氮原子组成的石墨烯的同晶型。
图3 2D材料及其应用概述。a)最常见的2D材料列表。b)2D材料的电性能范围从零带隙半金属(如石墨烯)到宽带隙绝缘体(如六方氮化硼)。c)基于2D材料的器件,用于逻辑、神经形态和量子计算。
尽管具有相似的结构,但2D材料的性质却极其多样。2D材料的“家族”包括半金属、直接和间接带隙半导体、绝缘体、金属、超导体、拓扑和铁磁绝缘体,如图3b所示。表面上缺少悬空键使得不同2D材料的确定性堆叠能够在没有晶格匹配约束的情况下形成异质结构,通常称为范德华(vdW)异质结构。这种结构对具有突变界面的不同层的厚度具有原子级的精确控制,从而在可用材料和性能方面具有前所未有的灵活性。此外,通过控制层之间的角度,可以定义提供进一步自由度的Moiré超晶格,从而导致新的现象(例如扭曲双层石墨烯[BLG]中的超导性),并实现一种被称为“扭旋电子学”的电子新方法。
目前,通过实验已获得了数十种材料,理论上预测可达到2000多种材料,2D材料是未来计算中最有前途的材料系统之一。从制造的角度来看,2D材料也具有显著的优势。事实上,这些材料仅在厚度方面是(亚)纳米级的,而其横向尺寸可以是宏观的,这导致了与其他纳米材料相比的显著技术优势,因为它们可以使用“传统”半导体平面技术进行加工。结合将它们从一个衬底转移到另一个衬底的方便性,2D材料可以很容易地与现有技术集成,特别是在CMOS生产线的后端。2D材料是当前和未来计算范式的有力候选,包括逻辑和神经形态计算,如图3c所示。尽管超出了这一视角的范围,但值得注意的是,2D材料,包括BLG量子点(QD)、约瑟夫逊结、和hBN单光子发射器(SPE),也已用于量子计算领域。事实上,2D材料在电子设备领域的应用早已超出了图3c所示的范围。在这里,我们将对如何将2D材料用作所讨论技术的支持平台进行前瞻性概述。请读者阅读其他研究,深入了解2D电子领域的最新进展。
2.传统计算硬件
数字计算机是我们信息和通信技术的基础。逻辑门,如NAND或NOR,可实现布尔代数,用于所有数字信息处理。场效应晶体管(FET)是数字电路的基本组成部分,50多年来一直遵循摩尔定律。我们仍在设法缩小晶体管的规模,然而,在过去几年中,前进速度已经放缓。从材料和基本纳米器件的创新和理解开始,研究后CMOS技术有着巨大的应用前景。ReRAM、自旋电子和基于2D的器件都可能提供更好的前景,以及提高能效和速度。这些新兴技术可以作为数字存储器和逻辑的改进实现,用于所有常规通用计算机。
2.1存储
ReRAM、PCM和MRAM设备都可以作为具有两种明确定义的非易失性存储器状态的二进制存储器操作。ReRAM和MRAM设备与当前使用的Flash技术相比都很好,在大多数性能指标上都优于它。微控制器单元(MCU)是这些新兴非易失性存储器技术的第一个也是最有吸引力的应用。今天的MCU使用嵌入式NOR Flash,无法轻松扩展到28 nm节点尺寸。这是一个关键瓶颈,尤其是考虑到越来越多的应用程序变得数据密集(例如,汽车MCU需要对现代汽车中的传感器收集的大量数据进行操作)。ReRAM和MRAM都提供了一个很有吸引力的机会,可以在嵌入式内存应用中取代NOR Flash,从而提供更好的扩展(向下扩展到更先进的工艺节点,<10 nm)和更快的编程/读取速度(<5 ns)。除了嵌入式存储器之外,ReRAM和MRAM也被认为是数据存储,因此是NAND闪存的替代品,它们提供了更高的读取速度和更低的能量。另一个有吸引力的潜在应用可以替代或增强边缘AI应用中的静态随机存取存储器(SRAM),其中ReRAM/MRAM提供类似的读取速度,但具有更好的可扩展性和能效。
ReRAM通常在用作非易失性数字存储器时可提供1)优异的可扩展性(nm以下),这与当前的存储器技术(如SRAM和闪存)具有高度竞争性;2)大电阻比(>10或更多),对快速传感和读取速度至关重要;3)快速编程(通常<100 ns);4)优异的耐久性(10^12个开关周期);5)运行能量小。
在ReRAM的商业化方面,2013年,松下发布了第一款带有嵌入式ReRAM的MCU。许多其他公司目前正在开发ReRAM技术,包括Rambus、4DS、Dialog Semiconductor、Crossbar、Intrintic Semiconductor Technologies、Weebit Nano、eMemory,以及台湾半导体制造公司(TSMC)等全球代工厂。
MRAM由一组MTJ组成,MTJ与读写线相连,用于其存储器操作。图4展示了具有不同写入机制的三种不同类型的单个MRAM单元。其中,STT写入方法对于工业应用已经成熟,两个磁性层沿着垂直于结平面的方向磁化,以最小化面积。与易失性存储器(如动态随机存取存储器(DRAM))相比,非易失性在节能方面具有显著优势,动态随机存取内存需要恒定的功率来保持其存储的信息作为能量损失。
图4.不同MRAM架构示意图。a)Toggle-MRAM使用磁场来切换MTJ中的磁化。b)STT-MRAM直接使电流通过MTJ以写入其单元。c)在SOT-MRAM中,电流流过写线,在上面的层上产生磁力矩。
头部电子公司一直专注于MRAM的开发。三星以及Everspin和Global Foundaries之间的合作伙伴宣布,他们在28/22 nm技术节点上发布了1GB嵌入式MRAM。他们技术的写入速度比eFlash快几个数量级,读取速度相当,在许多应用中提供了优于eFlash的功耗优势。英特尔宣布,他们正在使用其22nm FinFET工艺,比特产率大于99.9%。
STT-MRAM被认为更适合于工业级MCU、自动驾驶车辆和各种物联网设备的嵌入式存储器应用。STT-MRAM利用其高速特性,被认为是SRAM应用以及L3/L4高速缓存替换的替代品,这需要在密度、写入效率、带宽和耐久性方面的高性能。
MRAM单元的新兴写入机制,如SOT和VCMA,已被广泛研究用于下一代MRAM。与CMOS技术兼容的晶圆级SOT-MRAM已经被证明,在垂直磁化SOT-MRAM cell中的快速切换演示(小于400 ps)显示了高速切换特性,以及独立存储器和存储器中处理(PIM)应用的改进的耐久性。PIM是指在存储器单元内执行计算任务,这些应用中的存储器单元需要具有高耐久性和快速写入/读取。结合SOT和STT写入机制有望将写入电流降低到10–100 fJ bit−1。
2.2 逻辑器件
2.2.1 场效应晶体管
自从Geim和Novoselov于2004年通过实验揭示了石墨烯的电子性质以来,人们对其在晶体管中的应用给予了极大的关注,这一特性是由于石墨烯的原子厚度、极高的室温迁移率、饱和速度和热导率,以及其场效应的两极性。然而,由于缺少带隙,石墨烯场效应晶体管(GFET)无法关闭。因此,GFET仅表现出≈10的适度开/关比,这不适用于需要电流比超过104的晶体管逻辑应用。尽管如此,GFET已用于模拟射频电子设备中,它不需要关闭,并且在直接受益于场效应的双极性的应用中(例如高频混频器)实现超过400 GHz的截止频率。
由石墨烯证明的分离单个原子薄晶体的可能性为探索其他2D材料,特别是TMD铺平了道路。钼基和钨基TMD,如如MoS2,WS2和WS2,对未来的晶体管逻辑应用特别具有吸引力,因为它们是原子薄半导体,能够将FET的特征长度减少到硅所面临的极限之外。通过采用绝缘体上超薄体和鳍式场效应晶体管(FinFET)结构来缩放体厚度确实是减少短沟道效应和扩展摩尔定律的关键,然而,体半导体的体厚度减小到5nm伴随着由于厚度变化、悬空键和粗糙度导致的电荷载流子迁移率的快速降低,从而限制了进一步的缩放。相反,2D半导体的厚度<1nm(例如,单层MoS2 ≈ 0.65 nm)和超过100cm²Vs-1的迁移率,显著高于亚5 nm硅。此外,在3D半导体中,通常在带隙和有效质量之间存在权衡。具有较高带隙的材料通常显示出较大的有效质量和较低的迁移率,从而在性能和功耗之间形成折衷。这在2D半导体中并非如此,其中迁移率由声子散射决定,从而使材料能够结合大带隙和高迁移率。饱和速度在超尺度器件中也起着非常重要的作用,其中面内场很容易超过1kVcm-1,然而,TMD可用的数据是分散的,需要进行更彻底的调查。TMD是未来多通道场效应晶体管(MCFET)的极为有趣的候选者,它可以将FET的缩放长度减少到硅的限制之外。
2.2.2 隧穿场效应晶体管
在评估CMOS效率时,主要的优点之一是其金属氧化物半导体场效应晶体管(MOSFET)的能量延迟产物。控制EDP的主要因素之一是SS,它是将漏极电流改变十倍所需的栅极电压的测量值。MOSFET中的SS,无论沟道材料如何,都受到玻尔兹曼极限的热力学限制。在MOSFET中
其中Cs和Cox分别是半导体电容(或耗尽层电容)和栅极介电电容。很明显,即使Cox≫Cs,SS也不会下降到kBTln(10)以下(室温下≈60 mVdec-1)。
在能量势垒上进行热离子注入的另一种选择是隧穿场效应晶体管(TFET)。它们依赖于带间隧道(BTBT),因此SS不限于60毫伏/秒。然而,为了实现超过热极限的陡峭SS,隧道的能量窗口需要是尖锐的,这只能通过非常陡峭的界面来实现。这在传统的平面同质结TFET中被证明是具有挑战性的,因为将掺杂分布控制到原子水平是极其困难的。另一方面,大块异质结TFET已被证明优于其同质结对应物。然而,这种尖锐界面的制造仍然具有挑战性。
2D材料由于其固有的原子性平坦表面,非常适合此类应用,因为它们可以形成隧道理想的尖锐界面。已经探索了不同的材料组合,例如石墨烯/氮化硼/石墨烯、石墨烯/WS2/石墨烯,MoS2/ WSe2,黑磷/SnS22和SnS2/WSe2。更有趣的是,2D材料和3D传统材料之间的异质结构可以两全其美。特别是,MoS2/锗TFET达到了3.9 mV dec-1的“创纪录”SS,与其他亚热离子晶体管相比,其电流密度更高。
2.2.3 负电容场效应晶体管
通过修改MOSFET中的选通机制也可以获得陡峭的SS。在这些器件中,栅极通过直接电容方法控制沟道。负电容场效应晶体管(NCFET)利用铁电(FE)材料,其表现出亚稳态自发极化,可通过外部场从低态触发到高态。NCFET利用这种突变将器件从低(OFF)状态切换到高(ON)状态。然而,重要的是,适当的介电材料(DE)需要与FE层串联连接,以稳定负电容状态并减少滞后。需要改变上述SS公式来包含FE层效应。因此
其中 CFE FE层的电容。
很明显,要达到低于60 mV/dec SS,Cox必须大于|CFE|,这为选择合适的电介质增加了另一个标准。与MOSFET一样,NCFET得益于2D材料由于其薄而表现出的更佳的栅极控制。因此,在带有Hf0.5Zr0.5O2 FE的MoS2 NCFET中,SS低至25 mV dec−1。此外,基于MOSFET的工业方向,我们预计,能够结合陡峭SS和高导通电流的全二维堆叠负电容栅极全周围场效应晶体管(GAAFET)将是未来逻辑器件最有前途的结构之一。
2.2.4 基于忆阻器的逻辑器件
有几种方法可以将忆阻器用于数字逻辑。例如,忆阻器在过去被认为是FPGA的可编程开关。尽管目前这些开关是使用SRAM实现的,但基于忆阻器的开关可以显著提高能量效率,例如,减少40%的电池面积和28%的能量延迟产物。或者,可以使用忆阻器来实现IMPLY逻辑门。有趣的是,具有FALSE操作的IMPLY门(FALSE操作总是产生逻辑零)包括一个完整的逻辑结构。这一基本逻辑元件的记忆实现可以基于忆阻器的逻辑电路。Kvatinsky等人的研究中能够找到涉及该方法的更多细节和性能比较。
3.未来计算硬件
虽然基于布尔代数的现有计算基础设施具有许多优点,但新的硬件可以1)提高现有计算任务的效率,2)实现使用传统计算机无法实现的功能。
一个典型的例子是神经形态计算,它模拟大脑的结构和/或操作。神经形态计算可以有效地实现成熟的概念,如人工神经网络(ANN),以及奇异的信息处理方法,如脉冲神经网络(SNN)和储层计算。这种范式旨在以很少的资源执行包括识别和分类在内的复杂的任务,多种新兴技术有望使这些新的计算硬件方法成为现实。
3.1 交叉阵列上的人工神经网络
ANN是在数字计算机上实现的,但由于需要处理大量数据和传统计算机架构的性质,它们非常耗费资源。现代神经网络通常可以有数十亿个参数,而大多数计算机都是围绕着冯·诺依曼(von Neumann)架构构建的,不太适合处理这样的大型模型,它时间和资源大部分不是用于执行计算,而是用于在内存和计算单元之间重复移动数据。
电阻交叉杆是神经形态硬件最简单的例子之一,可以为这个问题提供解决方案。在这些结构中,电阻元件排列成阵列,如图5a所示。欧姆定律实现了电压和电导的相乘,而基尔霍夫电流定律实现了电流的相加。通过交叉结构,产生电压矢量和电导矩阵的乘法或累加。使用成对的设备,原理可以很容易地扩展到处理负数,从而实现任意向量和矩阵的内存乘法。这种交叉杆通常被称为点积引擎(DPE)。
图5 基于交叉阵列的点积引擎和完全连接的突触层背后的计算原理。a) 在每条垂直(位)线中使用电阻器件,纵横阵列可以计算电压和电导的点积。当多条这些位线组合在一起时,可以计算电压矢量V和电导矩阵G的乘积。b)神经网络中的突触对输入信号进行缩放。在非线性转换之前,这些缩放信号由突触后神经元相加。
线性代数运算的硬件加速很容易适用于ML和ANN。完全连接的神经网络严重依赖于向量矩阵乘法来计算突触层的输出,如图5b所示。在训练期间,通常使用梯度下降来确定最佳权重W。之后,在一个称为推理的过程中,只有输入x随着每个新的例子而改变,输出y要么直接用于预测,要么传递到下一个突触层。事实上,权重在推理过程中不会改变,这正是为什么交叉开关是其物理实现的一个有吸引力的候选者的主要原因之一。通过将权重编码为电导并将输入编码为电压,可以加速推断。DPE计算向量矩阵乘积的能力意味着,通过这种方式,ANN的突触层可以在内存中实现,也就是说,在计算过程中不需要传递权重,只需要以电压向量的形式应用输入。
易于编程的电阻器件是DPE实现的完美候选者。忆阻器正式一个典型的例子,可以将矩阵值编码到嵌入交叉阵列中的忆阻器的电导中。这种编程可以使用电压脉冲来完成,只需要很少的能量。此类装置的示例包括Ta/HfO2和SiOx忆阻器。自旋电子器件也可以用于模拟突触行为,MTJ可以充当本地非易失性数字存储器或连续变化的电阻。例如,三端MTJ器件的电导可以通过控制流过下层重金属层的电流的大小和方向来编码。
还使用2D材料实现了几种神经形态概念验证装置。其中包括原子薄的MoS2忆阻器,其开关比>104,稳定运行可达50 GHz,忆阻器由封装在石墨烯层之间的多层MoS2组成,石墨烯层能够高温(>30°C)操作,锂离子嵌入少数层金属二醇化物和三醇化磷。在2D材料中发现了不同的开关机制,包括导电细丝的形成、晶界迁移、相变、氧迁移和石墨烯,这些机制已被证明可以改善四面体非晶碳电阻金属-绝缘体-金属(MIM)器件中的ION ⁄ IOFF比率。此外,基于2D材料的三端忆阻器由于通过额外的栅极端子提供的额外的可调谐性和功能性而显示出巨大的前景。三端忆阻器的一个典型例子是突触晶体管,它利用多种机制,例如浮栅闪存和栅极电介质中的栅极控制电荷捕获。另一方面,铁电场效应晶体管(FeFET)利用FE层代替栅极电介质,使得非易失性状态可以通过栅极控制写入器件。最后,除了器件的电阻是栅极控制的之外,忆阻晶体管的工作方式与它的两个端子(忆阻器)类似。事实上,控制晶体管中电阻开关的几种机制已经被证明,例如晶界迁移、FE开关和栅极控制的vdW异质结等。
当然,对于这些技术中的任何一种,由于计算的模拟性质,图5a中理想化的矢量矩阵计算通常很难实现。首先,将器件设置为电导Gi,j的期望值可能是具有挑战性的。例如,像忆阻器这样的器件可能会陷入某种电导状态,甚至无法电成型(即导电),经历随机电报噪声(RTN)或编程可变性,或者电导状态随时间推移而漂移。更难解决的是导致偏离DPE所依赖的线性(关于电导和/或电压)行为的非理想性;这种非理想性包括I-V非线性和线路电阻。
有多种方法可以利用DPE实现ANN。最明显的一点是,早期的神经网络权重可以在数字计算机上训练后映射到交叉电导上。然而,也可以直接在交叉阵列上训练ANN,从而节省时间、能源,甚至防止不必要的温室气体排放。这具有非常大的吸引力,因为在传统数字架构上训练大型人工神经网络可能会在其整个生命周期中排放的约等同于五辆汽车的排放量。
迁移训练是学习神经网络权重的最直接的方法。这种ANN所利用的训练过程与用于训练传统网络的训练过程没有区别。在数字计算机上进行训练是最简单的方法,但性能良好的传统电子系统和由模拟设备组成的交叉阵列之间的不匹配也是它最为明显的缺点。
如果不考虑非理想性,与数字阵列相比,在现场训练的网络在交叉阵列上的性能可能会差得多。例如,少量的可实现状态、有限的动态范围、设备到设备(D2D)的可变性以及I–V非线性都可能导致更高的错误率。此外,包括上述线路电阻在内的系统级问题可能会干扰电流分布并进一步增加误差。
这可以通过修改迁移训练来部分解决,来解决将ANN部署到DPE之前所考虑非理想性问题。可以模拟模拟器件(如忆阻器)的行为,并相应地调整硬件神经网络的预期输出。即使对于随机非理想性,其随机性也可能会告知训练过程,并使ANN更加鲁棒。这并不是基于交叉阵列的神经网络所独有的,因为噪声本身甚至可以使传统的神经网络更加鲁棒。
在训练过程中,有多种方法可以将非理想因素考虑在内。例如,可以修改成本函数(量化ANN输出与预期输出的接近程度),以纳入与设备行为相关的随机性。或者,可以干扰网络权重,以表示非理想性,如读写噪声。如果不能通过向权重中注入噪声来表示非理想性的影响,则可以重新定义它们的行为以反映例如I–V非线性。
尽管异地培训可以显著提高绩效,但重要的是要考虑到它依赖于许多假设。如果非理想性建模不准确,这将反映在数字计算机上的训练中,并可能导致在实际实施ANN时偏离预期行为。然而,这可以通过在建模中包括随机性来部分对冲。随机性不仅代表设备行为的不确定性,也代表设计者对设备行为的理解。因此,当建模不完全准确时,甚至当不同的非理想性表现出来时,它可以提高性能。
最后,可以采用本地训练,这可以指直接在交叉阵列上进行的全部或部分训练,在真实设备上执行ANN训练可以帮助网络适应非理想行为的特定实例。没有两个模拟设备是相同的,但与异地不同,本地训练可以考虑个体变化,而无需对行为进行建模。本地方法使网络对非理想情况(如故障设备和D2D可变性)更加鲁棒。人们甚至可以将这两种范式结合起来,传统的原位训练可以用来产生ANN权重,之后本地再训练可以用来从缺陷中恢复。
不幸的是,本地训练网络具有极大的挑战性,因为传统的ML方法依赖于突触权重的增量调整,所以模拟设备对于这项任务来说可能过于不可靠。例如,电导变化的不对称性和非线性会对训练过程产生负面影响,这两种变化在例如忆阻装置中都很常见。处理这一问题的方法包括调整制造工艺,并将数字电子设备与模拟电子设备结合使用。
3.2脉冲神经网络
尽管神经网络的灵感来源于大脑,但与生物系统相比,它们的效率很低。这是因为这两个系统之间存在根本差异,所采用的大脑学习模型包括通过神经元尖峰活动动态调节突触强度。相比之下,ANN中的学习基于梯度下降方法来调整权重以优化目标函数。
开发SNN具有重大的研究意义,因为人们相信它们可以产生更好的能源效率。基本区别在于,在SNN中,时间直接用于编码和处理信息,它是在二进制事件到达时间(“尖峰”)中编码的。实施SNN所需的两个主要功能单元是神经元和突触。神经元通常被实现为简单的漏积分和激发神经元,它们能够随时间积分信号,并在达到某个阈值时产生尖峰。就突触功能而言,除了可调节的强度外,还需要实施不同的局部学习规则,例如尖峰时间依赖性、尖峰频率依赖性、短期可塑性、长期增强和长期抑制。
能源效率的争论依赖于开发专用硬件平台的希望,因为当前的冯·诺依曼体系结构并不是最适合SNN算法的实现。尽管存在许多基于CMOS的SNN硬件加速器的实现,但这些系统在生物对应物的能量效率方面仍然不足。相信新兴技术将能够使用比CMOS等效物低得多的电压和电流直接实现关键功能。
忆阻技术已被用于实现SNN范式的多个元素,突触功能通过结合时间可塑性以及特定的局部学习规则来实现。PCM忆阻器、ReRAM和基于Mott的忆阻器都已用于模拟神经元活动。有关将忆阻器用于SNN的更多细节和更全面的概述,我们请读者参考其它研究。
自旋电子器件也可以用于SNN的物理实现。生物神经元的振荡行为可以使用自旋力矩纳米振荡器(STNO)来模拟;当由微瓦纳秒激光脉冲辅助时,可以实现所需的功率。当系统配置到超顺磁性极限时,可以模拟生物神经元的随机尖峰,以执行种群编码和概率计算。图6a显示了使用概率位(p位)的概率计算示意图,其中MTJ的结构设计得益于超顺磁性隧道结的低能势垒。到某个结点的模拟输入电压I会对数字输出电压m产生非线性响应(图6b),并在室温下形成类似于随机神经元的0和1的随机波动。然而,其他系统,如忆阻器或纳米阵列,或利用不同形式的磁自旋结构中的非线性动力学,也可以被设计为促进这种特性,证明了自旋电子器件作为人工神经形态组件的潜力。
图6.自旋电子方法用于尖峰神经网络。a) p位计算方案的示意图。超顺磁性隧道结提供了极低的能量势垒,可用于解决复杂问题。某个结点的模拟输入电压I会对数字输出电压产生非线性响应,如(b)所示,并在室温下形成类似于随机神经元的0和1的随机波动。b) 偏置电压的控制改变了两个状态的相对能量。
光子电路代表了神经形态计算的另一种可能方法,特别是SNN。例如,黑磷已被用于利用氧化相关缺陷模拟兴奋性和抑制性动作电位。此外,WSe2/hBN异质结构已被用作位非易失性光电存储器以及彩色和混合彩色模式识别。此外,光电子忆阻器件领域的发展可以提供进一步的灵活性和扩展的功能。在许多情况下,这些设备的操作需要电子和光学刺激,在此场景下,光学可操作的忆阻器可以实现为具有神经形态计算的有利特性。
3.3 储层计算
除了上述完全连接的神经网络之外,还存在递归神经网络(RNN)。这些网络包含重复连接,在处理时间序列数据时非常有用。然而,RNN可能会受到梯度消失和梯度爆炸的影响,这使得它们的训练特别困难。
考虑到RNN的挑战,储层计算被认为是一种替代方案。它依赖于表现出丰富动态行为的系统来“免费”进行计算。与传统ANN中的激活函数可能引入非线性一样,物理“储层”是复杂的、非线性的,并且具有短期记忆特性,能够将输入映射到高维系统的非线性动力学。这使得只能在最后一个突触(通常是线性层)上进行训练。储层计算的原理如图7a所示。
图7.储层计算的操作原理和实现示例。a) 储层的输入和互连的非线性单元通过一组权重Win连接。这些储层节点和输出通过另一组权重Wout连接;在训练期间,只需要学习Wout。b) 使用自旋扭矩纳米振荡器进行语音数字识别的物理储层计算的实现。c)对手写数字进行分类的物理储层计算方案。
许多类型的忆阻器有望成为储层计算的潜在媒介,实现它的一个因素是许多忆阻器具有短期记忆特性。在某些忆阻器中,重复施加电压脉冲可能会逐渐增加响应,而脉冲的缺失将使器件向其原始静止状态衰减。此外,忆阻器件的非线性I-V特性对储层计算应用非常有用。
还可以在储层计算应用中使用自旋电子器件,图7b显示了使用MTJ的单个STNO作为储层的实验演示。它利用时分复用技术,通过周期性地调整每个神经元的状态,模拟多达400个神经元。输入电流和振荡频率之间的关系可以带来非线性响应,自由层中自旋的运动表现出对模拟音频信号振幅的响应的历史依赖性。另一个例子是通过使用小尺寸金属电极在3D空间中利用自旋波来施加和检测输入和输出电压(电流)。该系统被配置为堆叠器件,由导电衬底和磁电耦合层之间的薄钇铁石榴石层组成。通过减小施加的偏置DC磁场来控制自旋进动的稳定性,从而实现了自旋波的非线性效应和依赖于历史的运动,从而使器件满足储层计算标准。由于其稳定性和可控的依赖于历史的非线性效应,储层计算的另一种介质是磁天幕。在一项研究的示例设计中(如图7c所示),手写数字被转换成电流脉冲的输入序列,并被馈送到磁性忆阻器中,它们位置之间的非线性关系允许将系统配置为物理储层。
4.展望与结论
这里,我们将讨论三种新兴纳米级技术的基础知识,这些技术在改进和扩展计算硬件基础设施方面具有巨大潜力。解决计算问题日益多样和复杂的一个可能的方案包括更传统的数字系统和新的计算硬件范例之间的协同作用。通用计算可能仍然最好在使用布尔逻辑和更高精度计算的数字系统上实现。然而,目前在这些数字系统上实现的一些应用,如ANN,可能会受益于神经形态硬件加速器提供的速度和功率效率。此外,像SNN这样的计算方法甚至不太适合传统计算机,可以使用表现出更独特行为的器件来实现,例如突触可塑性或神经元尖峰。最后,有一些计算范例只有在具有特定物理行为的器件上才可行,例如储层计算。基于记忆、自旋电子和2D材料的器件可能会在改进数字硬件和采用更新颖的方法方面发挥作用。
许多系统将受益于快速低功耗忆阻硬件,但同时,一些系统同时也会受到额外要求的限制。例如,自动驾驶公司理论上可以使用忆阻式神经网络,然而,这些公司经常利用驾驶数据来改进其ML模型,并不断部署更新的模型。即使ANN是在本地训练且相同的版本被部署到忆阻系统上,各个物理实例都会略有不同。这不仅会影响单个车辆的行为,还会影响ML用于改进部署到所有车辆的模型所收集的数据。一般来说,忆阻器件存在诸多挑战,这些挑战需要在现实世界中大规模部署之前解决:1)相同设计系统的非一致行为2)随机性,包括随时间变化的行为3)一旦部署在现实世界,重编程的难度较高4)识别硬件故障的难度较高。
在一些场景下,安全性和行为再现性至关重要,目前需要特别注意装置随机性、可变性和可靠性的处理。当忆阻器被非传统地使用时(即,不用于数字非易失性存储器,而是用于模拟存储器和神经形态计算),这一点尤其如此。类似地,即使在受控环境中,需要不断重新配置硬件(例如,更新自动驾驶车辆中的ML模型)的应用程序也会面临挑战,但对忆阻装置进行编程仍然很困难。此外,可能需要提高循环耐久性以匹配易失性存储器的耐久性(例如,SRAM中的1016个循环)。
我们认为,在需要快速、低功耗和/或本地计算的地方,忆阻器可能是最有用的。最后一种可能来自前两个数据密集型应用程序,如ANN,消耗大量电力,因此计算通常远程进行;然而,忆阻技术由于其速度和功率效率,可以在本地执行计算。因此,我们认为这些设备非常适合物联网等应用,因为潜在的隐私侵犯仍然是一个重要问题。数据密集型任务的简单实现不仅可以消除向服务器发送数据的需要,而且可以确保低功耗和高速运行。
自旋电子学是另一种很有前景的方法,它可以在多种计算范式中推进最新技术。自旋电子存储器和逻辑电路有望开辟一条更有效地处理信息的新途径。在未来十年中,我们预测基于MRAM技术(如STT、SOT和VCMA)的混合CMOS自旋电子计算架构将日益占据主导地位。此外,想要在速度、能量和缩放方面取得预期进展,还需要使用诸如反铁磁体、2D材料和拓扑绝缘体等先进材料。自旋电子器件也被用于一种新的计算机体系结构,如全自旋逻辑(ASL)和内存逻辑(LIM)。LIM结构本质上是混合的,将现代自旋电子学组件(如MTJ)与当前的CMOS器件相结合。制造技术的进步(例如,3D后端工艺)使MTJ能够在硅层上生长,而不会损害电路的功能。与传统CMOS技术相比,使用LIM开发的电路具有更低的功耗、非易失性、高密度、快速读取能力、无限耐久性和3D制造适应性。
自旋电子器件的特性(例如,从GHz到可能的THz范围的高速动态、非对称性、可塑性和非线性)为访问能够模拟生物突触和神经元关键特征的众多构建块提供了充足的空间。在自旋电子器件中,信息的处理/传输可以通过自旋电流、自旋波、微波信号或磁自旋纹理来实现。通过提供更紧凑、更节能的方法,利用自旋自由度,这些特性可能会在电子市场中占据独特的地位。
虽然已经证明了基于自旋电子学的神经形态计算实现的概念,但仍然存在一些关键挑战。尽管已经提出了许多创造性和令人兴奋的想法,但在基于自旋电子学的神经形态计算中,考虑大规模生产的可行性和可扩展性也同样重要。同样,CMOS技术上使用的传统算法需要增强的调谐,以利用这种自旋电子神经形态芯片的最大潜力。与传统计算的冯·诺依曼体系结构类似,专用体系结构是神经形态计算大规模实现的先决条件。此外,需要额外的研究来增加所提出的器件的能力,例如,增强MTJ层之间的耦合效率以及现有器件的相对低的最大电阻与最小电阻之比。
2D材料是未来计算技术的又一关键推动力。无论是单独使用,还是组合使用,都可以形成具有定制属性的异质结构,为传统和新兴计算形式提供了前所未有的可能性。然而,在实现其全部潜力之前,还有许多挑战需要克服。
第一个挑战是掺杂,因为半导体工业中常用的离子注入工艺由于其原子厚度而不适用于2D材料。2D材料中的掺杂通常通过物理吸附、杂质的共价键合(化学掺杂)或与化合物的接近来实现,而不是取代晶格中的原子(如用于3D半导体的替代掺杂),这会改变介电环境并导致局部选通效应(有时称为固态掺杂)。不幸的是,到目前为止,这些方法中没有一种完全满足超大型器件的严格要求,因此,应该投入更多的研究工作来确定一种与行业兼容、精确、稳定和可重复的掺杂方法。
要克服的第二个挑战与高k电介质的沉积有关。事实上,2D材料表面缺少悬空键使得通过原子层沉积生长薄而均匀的绝缘层变得复杂。电介质不仅对器件的功能很重要,而且对封装2D材料也很重要,因为它们的性能通常会因衬底、污染、粗糙度和带电杂质而显著退化。一种有前途的替代方案是2D电介质,它与其他2D材料形成原子级的尖锐界面。HbN是迄今为止探索最多的2D电介质,它使传输现象的实验研究和概念验证装置成为可能。然而,低介电常数(≈3)和多层hBN的可扩展生产困难限制了其在高性能计算中的适用性。氧化铪和锆基多层TMD以形成高k电介质HfO2和ZrO2的可能性代表了一种更有前途的选择,它相当于硅的氧化,能够得到原始半导体部分和氧化表面之间几乎完美的界面。
第三个挑战是接触。2D材料接触电阻通常很高,不能像3D半导体那样通过离子注入来降低。此外,由于在2D半导体上沉积金属时形成的肖特基结,接触电阻也被施加的栅极电压改变,引入了额外的延迟,并使器件的分析复杂化。理论和实验工作应该致力于计算的这一基本但经常被忽视的方面。最后,应优化2D材料的可扩展生产,特别是在再现性和缺陷和污染控制方面。化学气相沉积(CVD)在过去十年中取得了令人印象深刻的进展;然而,一些基本挑战仍然存在,例如缺乏工业上可扩展的、清洁的石墨烯转移。我们的观点是,2D材料并不代表替代品,而是对当前3D半导体技术的补充。这种材料相对容易地集成到已建立的半导体生产线中,这确实将是两种技术之间协同作用并实现新的高性能计算的关键。
忆阻器、自旋电子和2D材料正在迅速发展和变化。新的发展涉及材料、器件、电路/系统设计和算法方法。这篇文章提供了其中心思想的基本介绍,探讨了它们与传统CMOS技术相比的潜在优势,并列出了一些仍然需要解决的紧迫挑战。忆阻器、自旋电子学和基于2D的电子器件是支持未来计算系统的最有希望的候选者之一,它们很有可能与传统电子系统共存并作为其它新兴技术和方法的补充。
★ 点击文末【阅读原文】,可查看本文原文链接!
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3280内容,欢迎关注。
推荐阅读
半导体行业观察
『半导体第一垂直媒体』
实时 专业 原创 深度
识别二维码,回复下方关键词,阅读更多
晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装
回复 投稿,看《如何成为“半导体行业观察”的一员 》
回复 搜索,还能轻松找到其他你感兴趣的文章!
微信扫码关注该文公众号作者