24小(xiǎo)时联系電(diàn)话:18217114652、13661815404
中文(wén)
- 您当前的位置:
- 首页>
- 電(diàn)子资讯>
- 技术专题>
- 電(diàn)阻式存储器為(wèi)边缘AI...
技术专题
電(diàn)阻式存储器為(wèi)边缘AI提供了受生物(wù)启发的架构
近年来,在脑启发计算领域的研究活动获得了巨大的发展。主要原因是试图超越传统的冯·诺依曼架构的局限性,后者越来越受存储器-逻辑通信的带宽和等待时间的局限性影响。在神经形态架构中,内存是分(fēn)布式的,可(kě)以与逻辑共定位。鉴于新(xīn)的電(diàn)阻式存储器技术可(kě)以集成在CMOS工艺的互连层中,因此可(kě)以轻松地提供这种可(kě)能(néng)性。
虽然目前AI部署中的大部分(fēn)注意力都集中在大型常规计算系统中实现深度學(xué)习算法,但对设备和電(diàn)路技术的影响却是混杂的。尽管先进的标准CMOS技术已用(yòng)于开发GPU和特定的電(diàn)路加速器,但并没有(yǒu)真正推动使用(yòng)任何“受生物(wù)启发”的硬件。新(xīn)兴的電(diàn)阻式存储设备(RRAM)可(kě)以打开途径,由于能(néng)够(感知到)不够成熟,可(kě)以通过在相对较低的偏置電(diàn)压下调节電(diàn)导来在纳米尺度上模拟生物(wù)學(xué)上合理(lǐ)的突触行為(wèi),因此这些方法仅限于研究组。技术。
但是,这些新(xīn)设备可(kě)以為(wèi)将AI大量部署到消费和工业产品中所面临的主要问题之一提供解决方案:能(néng)源效率。如果将AI的使用(yòng)范围扩大,将所有(yǒu)数据传输到云/服務(wù)器系统进行分(fēn)析的能(néng)源开销将很(hěn)快达到AI的经济可(kě)行性的极限。此外,对于自动驾驶汽車(chē)和工业控制等实时系统而言,如果连接到5G基础架构以处理(lǐ)数据的服務(wù)器集中在定义明确的區(qū)域而不是分(fēn)布在整个基础架构中,则延迟仍然是一个问题。由于这些原因,并且在欧洲也出于隐私考虑,具有(yǒu)高度节能(néng)的边缘/使用(yòng)点的,具有(yǒu)AI的系统将变得越来越重要,并且可(kě)能(néng)会逐步改善本地學(xué)习能(néng)力。
嵌入式AI系统非常适合处理(lǐ)需要实时响应的数据,并且在能(néng)源是主要问题的情况下。如tinyML计划的成功所证明的那样,对此类系统的兴趣正在增長(cháng)[1]。当处理(lǐ)稀疏,时域,由传感器(如麦克风,激光雷达,超声波等)生成的数据流时,该领域的生物(wù)启发(即存储元件还充当互连和计算元件)方法具有(yǒu)额外的优势。这些系统将然后能(néng)够在模拟域中进行大多(duō)数操作,从而避免了耗電(diàn),不必要的多(duō)次模数转换以及使用(yòng)非时钟数据驱动架构来简化数据流。仅在信号脉冲期间没有(yǒu)时钟和存储元件中的耗散,在没有(yǒu)输入的情况下会导致极低的功耗(因此适用(yòng)于稀疏信号),并且可(kě)能(néng)不需要特定的睡眠模式即可(kě)获得電(diàn)池供電(diàn)的工作状态。而且,非易失性仅在首次上電(diàn)或系统最终更新(xīn)时才需要设置参数,而在每次上電(diàn)时都不需要从外部来源进行传输。
但是,使用(yòng)新(xīn)型電(diàn)阻式存储器不仅限于此类“边缘”或“生物(wù)启发”应用(yòng),还可(kě)以使执行慢速非易失性高速缓存/快速大容量存储中间存储器功能(néng)的传统全数字时钟系统受益神经加速器的水平。在这种情况下,好处将是减少快速DRAM和SRAM缓存區(qū)域,同时仍减少访问大容量存储的延迟。
生物(wù)启发式计算的硬件平台
从技术角度来看,RRAM由于具有(yǒu)CMOS兼容性,高可(kě)伸缩性,强大的耐用(yòng)性和良好的保留特性,因此是神经形态应用(yòng)的良好候选者。但是,定义大规模混合集成神经形态系统(具有(yǒu)阻性记忆突触的CMOS神经元)的实际实施策略和有(yǒu)用(yòng)应用(yòng)仍然是一个困难的挑战
已经提出了诸如相变存储器(PCM),导電(diàn)桥RAM(CBRAM)和氧化物(wù)RAM(OxRAM)之类的電(diàn)阻RAM(RRAM)设备来模拟生物(wù)學(xué)上受突触功能(néng)启发的功能(néng),这些功能(néng)对于实现神经形态硬件至关重要。在不同类型的模拟突触特征中,依赖于尖峰时序的可(kě)塑性(STDP)是最常用(yòng)的一种,但肯定不是唯一的可(kě)能(néng)性,并且某些可(kě)能(néng)显示出对实际应用(yòng)的实现更為(wèi)有(yǒu)用(yòng)。
实施这些思想并验证该方法的電(diàn)路示例是SPIRIT,由IEDM 2019提出[2]。已实现的SNN拓扑是单层的,完全连接的拓扑,其目的是在MNIST数据库上执行推理(lǐ)任務(wù),有(yǒu)10个输出神经元,每个类一个。為(wèi)了减少突触的数量,将图像缩小(xiǎo)到12×12像素(每个神经元144个突触)。使用(yòng)单级单元(SLC)RRAM实现突触,即仅考虑低和高電(diàn)阻级别。结构為(wèi)1T-1R类型,每个单元带有(yǒu)一个访问晶體(tǐ)管。多(duō)个单元并联连接以实现各种重量。在學(xué)习框架上进行的突触量化实验表明,介于-4到+4之间的整数值是分(fēn)类精度和RRAM数量之间的良好折衷。由于我们旨在获得加权電(diàn)流,因此必须使用(yòng)4个RRAM作為(wèi)正权重。对于负权重,也可(kě)以使用(yòng)RRAM对符号位进行编码:但是,由于将需要容错三重冗余,因此最好使用(yòng)4个附加RRAM来实现负权重。
“集成与射击(IF)”模拟神经元设计是在数學(xué)等效性的指导下进行的,该数學(xué)等效性是在有(yǒu)监督的离線(xiàn)學(xué)习中使用(yòng)的tanh激活函数。规格如下:(1)突触重量等于±4的刺激必须产生尖峰;(2)神经元必须产生正负尖峰;(3)它们必须有(yǒu)一个不应期,在此期间它们不能(néng)散发尖峰,但必须继续积分(fēn)。神经元是围绕MOM 200fF電(diàn)容器设计的。使用(yòng)两个比较器将其電(diàn)压電(diàn)平与正阈值和负阈值进行比较。由于必须在RRAM的端子之间以不超过100mV的電(diàn)压降读取RRAM,因此,為(wèi)了防止将设备设置為(wèi)LRS,所获得的電(diàn)流不能(néng)被神经元直接积分(fēn),因此它们会被電(diàn)流注入器复制。评估了编程条件的影响,并使用(yòng)足够的编程条件来确保有(yǒu)足够大的内存窗口。放松机制的确出现在很(hěn)短的时间范围内(不到一小(xiǎo)时)。因此,分(fēn)类精度不会随时间降低。还验证了读取稳定性,将高达800M的峰值发送到電(diàn)路。
MNIST数据库的10K测试图像上的分(fēn)类精度测得為(wèi)84%。该值必须与88%的理(lǐ)想模拟获得的精度进行比较,该精度受简单的网络拓扑限制(1层具有(yǒu)10个输出神经元)。每个突触事件的能(néng)量耗散等于3.6 pJ。当考虑電(diàn)路逻辑和SPI接口时,它总计為(wèi)180 pJ(可(kě)以通过优化通信协议来降低它)。测量表明,图像分(fēn)类平均需要136个输入峰值(对于ΔS= 10):每个输入所累积的峰值少于一个峰值,与130nm节点中的等效形式编码MAC操作相比,能(néng)量增益提高了5倍。能(néng)量增益来自(1)基本操作的轻度(累积,而不是像经典编码中那样进行乘法累加)和(2)由于尖峰编码而导致的活动稀疏性。稀疏性的好处将随着层数的增加而增加。
这个小(xiǎo)演示者展示了如何可(kě)以与传统的嵌入式方法相提并论,但功耗却大大降低了。实际上,在SNN演示中使用(yòng)的速率代码使该实现等效于经典编码的实现:从经典域到尖峰域的代码转换不会引起准确性上的任何损失。但是,从概念验证中使用(yòng)的简单拓扑(即单层感知器)可(kě)以解释,与使用(yòng)更大网络和更多(duō)层的最新(xīn)深度學(xué)习模型相比,分(fēn)类精度略低。為(wèi)了克服这种差异,目前正在实施一种更為(wèi)复杂的拓扑结构(MobileNet类),并且分(fēn)类精度将相应提高,同时具有(yǒu)相同的能(néng)源优势。
相同的方法将扩展到嵌入了麦克风或激光雷达的電(diàn)路,以本地和实时分(fēn)析数据流,从而无需通过网络传输。速率编码和时间编码策略都可(kě)以用(yòng)于优化网络,具體(tǐ)取决于信号的信息内容。最初,學(xué)习将集中进行,并且仅将推理(lǐ)集成到系统中,但是在以后的世代中将引入一定程度的增量學(xué)习。
利用(yòng)对嵌入式AI产品有(yǒu)益的属性RRAM的另一种方法是使用(yòng)基于RRAM交叉开关阵列的模拟架构。与传统的数字实现相比,它们可(kě)以提供更密集的乘法累加器(MAC)功能(néng)实现,在推理(lǐ)和學(xué)习電(diàn)路中居于中心。如果采取进入时域并消除时钟的进一步步骤,则可(kě)获得超出当前技术水平的紧凑型低功率系统。尽管这种方法非常有(yǒu)前途并且受到學(xué)术界的广泛研究,但该方法仍未被业界广泛接受,这指出了设计,验证,表征和认证模拟异步设计的难度,以及扩展模拟解决方案的难度。在我们看来,
这些记忆的部分(fēn)感知困难来自观察到的变异性,但这是实验条件的反映。当在300mm内工作并且集成过程更加成熟时,我们观察到更好的分(fēn)布,因此我们假设可(kě)变性问题可(kě)以在工业化过程中解决。设计工具也即将问世,更精确的模型也逐渐可(kě)用(yòng)。温度变化当然会产生影响,但是这种计算类型的统计性质及其在推理(lǐ)阶段对参数变化在某种程度上具有(yǒu)固有(yǒu)的鲁棒性,因此其最终影响遠(yuǎn)不如使用(yòng)社區(qū)的常规模拟设计那么重要。模拟交叉开关方法的优点之一是,当施加“零”数据时,自动没有(yǒu)電(diàn)流。
有(yǒu)些问题更為(wèi)根本。第一个是功率效率和高度并行性来自权衡时间复用(yòng)(工作频率)与面积的关系:权衡有(yǒu)利的网大小(xiǎo)(问题或类别数量)的极限是多(duō)少?它如何取决于实现节点?另一个是这些存储器的可(kě)循环性。虽然对于推理(lǐ)阶段就足够了,并且可(kě)以在初始化阶段以可(kě)接受的开销进行交叉开关的编程,但是由于过多(duō)的写入负载,使用(yòng)经典的反向传播方案和迭代次数的片上學(xué)习是毫无疑问的。但是,正在探索使用(yòng)其他(tā)學(xué)习方法的非常有(yǒu)前途的途径,并有(yǒu)望在未来几年内提供有(yǒu)效的解决方案。
在引入这种类型的電(diàn)路之前,可(kě)以在常规实现中使用(yòng)RRAM和3D集成等技术来以较小(xiǎo)的功率预算和较小(xiǎo)的尺寸系数提供解决方案。如今,用(yòng)于高度定制化应用(yòng)的FPGA实现,运行在MCU或CPU上的纯软件实现,或专用(yòng)于GPU的高度并行多(duō)核/加速器(类似于或类似的GPU)用(yòng)于更通用(yòng)的应用(yòng),已成為(wèi)当今的主流。所有(yǒu)这些都可(kě)以从本地非易失性存储器中受益,这可(kě)以使FPGA变得更紧凑,為(wèi)MCU / CPU和多(duō)核/加速器芯片提供更优化的存储器层次结构。