高带宽内存(HBM)是一种先进的内存技术,它利用 3D 堆叠的 DRAM 架构,提供卓越的数据带宽和效率。与依赖更宽总线和更高时钟速度的传统内存模块不同,HBM 将多个内存芯片垂直堆叠,并与处理器紧密集成。这种方法显著拓宽了通信接口,同时降低了延迟和功耗。HBM 由 JEDEC 标准化,最初由三星、AMD 和 SK 海力士共同开发,并于 2015 年首次在 AMD 的 Fiji GPU 中实现商用。自那时起,HBM 已成为高性能应用的关键推动者,包括 GPU、AI 加速器、网络设备,甚至需要高带宽缓存或主内存的 CPU。
HBM 的兴起源于“内存墙”这一持续存在的挑战——处理器速度与内存带宽之间日益扩大的差距。随着 CPU 和 GPU 的发展,DDR 和 GDDR 等传统 DRAM 解决方案难以跟上步伐。早期尝试弥合这一差距的方法包括提高时钟频率和总线宽度,但功耗和信号完整性的限制使得进一步扩展变得不切实际。这促使了 3D 堆叠内存等创新解决方案的出现。
在 HBM 之前,JEDEC 于 2011 年为移动设备推出了 Wide I/O DRAM,美光则开发了混合内存立方体(HMC),这是另一种堆叠 DRAM 概念。这些早期设计为 HBM 铺平了道路,HBM 于 2013 年正式标准化,并在两年后首次实现商用部署。自那时起,多代 HBM 不断提升内存带宽和效率,巩固了其作为高性能计算基础组件的地位。
随着现代工作负载对巨大数据吞吐量的需求,内存带宽已成为主要瓶颈,而非处理能力。AI 训练、科学模拟和高性能计算(HPC)依赖快速数据传输以保持效率。“内存墙”挑战意味着即使是最强大的处理器,在没有足够数据带宽的情况下也无法全速运行。HBM 通过将内存与处理单元紧密集成,直接解决了这一问题,显著提高了数据传输速度,同时降低了功耗。
当下,如何应对芯片过热是人工智能时代的一个主要问题——高性能 GPU 和人工智能加速器加上堆叠多个 DRAM 的高带宽内存 (HBM) 使得芯片制造商必须找到克服这一问题的方法。
汉阳大学 ERICA 教授 SangHoon Shin 表示,如何有效散热与半导体可靠性直接相关,他在该校研究先进半导体封装、异构集成和全栈可靠性工程。 在加入该大学之前,Shin曾在 IBM、英特尔、苹果和特斯拉工作。自博士课程以来,他一直致力于研究半导体过热和可靠性。Shin曾参与苹果 M1 和 M2 芯片的封装工作,以及特斯拉自动驾驶和推理 AI 芯片的设计工作。
据Shin介绍,芯片温度每升高10摄氏度,其寿命就会减半。半导体结点的设计温度不得超过85摄氏度。当超过该温度时,固件会自动降低时钟频率并降低芯片性能。芯片内部装有多个温度传感器,NAND和DRAM等存储芯片也配备了固件,当过热时会牺牲性能。
HBM 封装正在从焊料凸点过渡到铜-铜混合键合。
但这样做会消除原本用于散热的空间,许多人担心较新的 HBM 会出现过热问题。有人建议钻微通道来注入冷却剂。但 Shin 不同意这种建议,因为一次漏电就会严重损坏芯片,而且通道本身也会影响信号和电源的完整性。
Shin提出了一个不同的解决方案,那就是革新基板。他表示,由于绝缘层覆盖了晶体管通道,因此可以捕获必须向下散热的热量。
他说,需要对衬底材料进行工程设计,改进与源极和漏极接触的材料,以及设计新的界面层。Shin补充说,制造和粘合 AI 和 HBM 芯片的代工厂在材料和传热设计方面的能力对于这些芯片的性能至关重要。
过热一直是个问题,但当晶体管采用平面结构时,这个问题更容易解决。但随着 FinFET 和纳米片结构的引入,以及多个芯片的垂直和水平堆叠,问题变得更加严重。
冷却系统的重要性将在人工智能计算中继续得到强调——系统级的液体冷却、服务器级的空调和局部热点控制都是业界需要研究解决这一问题的一些角度,Shin 说。
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。