人工智能的快速发展对芯片算力提出了更高的要求。基于冯·诺依曼架构的硬件由于存储与计算分离,数据搬运造成显著的时间与能量开销,限制了硬件算力的发展。存算一体技术通过融合存储与计算功能,实现了能效的突破性提升。然而,这项新型技术在热管理方面遇到一些挑战。局部热点突出,形成高温区,威胁芯片可靠性;RRAM电导值随温度漂移,计算精度热敏感,直接影响AI推理准确性;计算过程中,参数映射在特定物理位置,数据空间存在耦合特点,传统动态热管理方法失效。这些独特挑战使得现有热管理方案无法适用,亟需针对存算一体芯片特点构建全新的热管理技术体系。
为解决RRAM存算一体芯片面临的局部热点突出、精度热敏感及数据-空间耦合的挑战,本文提出了一套热管理框架,通过静动态结合的全新方案,在控制温度的同时保障计算性能,主要包括以下三个创新:1、提出用于RRAM存算一体芯片的热管理框架,覆盖芯片设计、参数部署与运行三个阶段。在设计阶段,基于2022年发表于IEDM文章中的成果,预测并校正温度变化引起的计算误差,将温度升高引起的推理精度损失降低,提升RRAM芯片的热鲁棒性。2、在参数部署阶段,提出了延时-热协同优化(LTCO)策略。针对存算一体芯片数据-空间耦合特性,利用遗传算法对神经网络参数映射方案进行热与延时协同优化。经评估,该方案在不增加计算延时的前提下,将芯片热点温度与温度分布均匀性有效优化,瓦解了局部热点。3、在运行阶段,提出了动态热管理(DTM)技术。利用RRAM的非易失特性,通过智能调节计算批次间的空闲时间动态管理功耗,在芯片过热时插入“休息间隔”以实现降温,解决了固定映射下的动态热管理难题。

图1 用于RRAM存算一体芯片的覆盖芯片设计、参数部署与运行三个阶段的热管理框架
实验表明,本文提出的热管理方案成效显著。静态热管理方案,在参数部署阶段采用LTCO策略,使芯片温度分布优化后(图2(b))相比于优化前(图2(a)),在保障延时不增加的基础上,实现热点温度降低6.5°C,温度均匀性优化5.3°C。芯片运行阶段,当触发动态热管理时,DTM方案相比传统ADC调节功耗的方法,任务吞吐量提升超过59%;LTCO与DTM联合方案,比单一DTM方案可将任务吞吐量进一步提升超10%,如图3所示。

图2 静态热管理方案(LTCO)的效果

图3 动态热管理方案(DTM)的效果
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。
