超宽带DRAM 模块技术HBM(高带宽内存)的衍生产品最近成为科技媒体的热门话题。它们分别是移动 HBM和闪存 HBM。这次,笔者想简单介绍一下Flash HBM或高带宽闪存(HBF)。Flash HBM或HBF的概念非常简单。我们先从传统的技术HBM(高带宽存储器)说起。
HBM 由一个存储器部分(DRAM 芯片称为核心芯片)和位于底部的基础芯片(逻辑芯片)组成,其中符合 HBM 标准的专用 DRAM 芯片使用硅通孔 (TSV)技术以三维方式堆叠。
DRAM 芯片(核心芯片)的数量取决于 HBM 的代数。例如,第五代HBM3E堆叠了 12 或 16 个核心芯片。核心芯片的显存容量为 16Gbit 或 24Gbit。假设核心芯片的显存容量为 16Gbit(2GB),堆叠了 12 个芯片,则一个 HBM 模块的显存容量为 24GB(192Gbit)。
八个HBM 模块与 GPU 或 SoC 等尖端大规模逻辑芯片安装在同一中介层上,总内存容量达 192GB。从 GPU 的角度来看,HBM 相当于内存层次结构中的主内存。此外,DRAM 芯片的内存容量将增加到 24Gbit(3GB),堆叠层数将增加到 16。假设安装在中介层上的 HBM 模块数量为 8 个,则 HBM 的总内存容量将为 384GB(48GB 模块 x 8 个)。
现在,让我们将核心芯片从DRAM 换成 NAND 闪存。假设 NAND 闪存芯片(核心芯片)的内存容量为 256Gbit,堆叠 16 个核心芯片,则每个模块(HBF 模块)的内存容量将达到 512GB。512/48 = 10.7,512/24 = 21.3,因此每个模块的内存容量是 DRAM 核心芯片的 10 到 20 倍。这就是HBF(高带宽闪存)。如果将 8 个 HBF 与 GPU 安装在同一个中间板上,我们可以获得 4,096GB 的大容量主内存。
Flash HBM(又称HBF)的特性(左)和基本结构(右)。
HBF 由 NAND 闪存和闪存存储供应商 Sandisk 发明。其 I/O 带宽与 HBM DRAM 核心芯片大致相同,并声称能够以与 HBM 相近的成本将内存容量提高 8 到 16 倍,同时显著降低功耗。512GB 模块的 I/O 数据速度高达 1.6TB/s,接近 HBM4 DRAM 核心芯片的速度。其外部尺寸(平面尺寸和高度)也与 HBM4 模块大致相同。
堆叠DRAM 芯片的 HBM(左)和堆叠 NAND 闪存芯片的 HBF(右)与 GPU 组合后的总存储容量。单个 HBM 的存储容量为 24GB(16 个 12Gbit 芯片或 12 个 16Gbit 芯片),单个 HBF 的存储容量为 512GB(16 个 256Gbit 芯片)。
Sandisk 声称,HBF 架构是通过收集几家大型人工智能 (AI) 公司的信息而设计的。大型机器学习模型,例如大型语言模型 (LLM),具有极其庞大的参数数量。例如,该公司表示,存储 1.8 万亿 (1.8T) 个具有 16 位权重的参数需要 3,600GB 的内存。
大规模语言模型(LLM) 的存储需求示例(左)和相应的 HBF 示例(右)。
目前HBM模块的最大容量为192GB至384GB,因此很难存储3600GB的数据。虽然理论上是可行的,但这会将DRAM的成本推高到不切实际的水平。
近年来,DRAM 内存容量的单位成本下降幅度不如以往。我们预计价格每年仅会下降约 5%。尽管如此,自 2020 年代以来,大规模机器学习模型所需的内存容量一直在快速增长。虽然由于 HBM 容量的扩展,GPU 模块产品的主内存容量正在增加,但与所需内存容量之间的差距却在不断扩大。
此外,2020年HBM成本占GPU模块产品成本的近一半(48%),但预计到2025年将上升到三分之二以上(68%)。HBM是一种基于DRAM的高带宽存储器,这使得优先考虑低成本的边缘AI服务器难以提高性能,即扩大主存储器容量(HBM容量)。
左图为DRAM每单位内存容量的单位成本,中图为大规模语言模型(LLM)的参数数量,以及机器学习用GPU/TPU主内存容量的变化趋势,右图为HBM成本占GPU模块(GPU、HBM、中间板等)总成本的比例变化趋势。
因此,通过使用单位存储容量成本低于DRAM 的 NAND 闪存作为高带宽存储模块 (HBF),可以在抑制存储成本上升的同时显著扩展主存储容量。然而,NAND 闪存存在读写性能不对称的问题。读取速度与 DRAM 一样快,原则上没有使用寿命(可以无限次读取)。写入速度比 DRAM 慢,并且可重写的次数有限(最多 10,000 次)。
因此,NAND 闪存不适用于 AI 学习服务器,因为在模型调整过程中,参数重写会频繁发生。NAND 闪存适用于基于推理的服务器,因为这类服务器不经常发生参数重写。SanDisk 声称,它适用于边缘推理服务器,这类服务器优先考虑降低成本、功耗和安装空间。
HBF的主要用于边缘AI推理服务器。下方的红色图表似乎是HBF的核心芯片(NAND闪存)的布局(中央的粗竖条是TSV区域)。
标准3D NAND 闪存的内部结构(左)和用于高带宽模块 (HBF) 的 3D NAND 闪存的内部结构(右)。两者均为示意图。对于 HBF,存储单元阵列被划分为多个块,从而显著增加 I/O 数量至 1,024 个,并提高了 I/O 带宽。
如果将HBM DRAM核心芯片替换为HBF NAND闪存核心芯片,推理性能会下降多少?SanDisk以LLMLlama 3.1(4050亿个参数)为例,比较了推理过程的几个步骤,发现HBF相比HBM(假设内存容量无限大)的性能下降幅度小于2.2%(GPU亦然)。
HBF 和 GPU 组合的推理性能与 HBM 相当接近,但实际上 HBM 的显存容量不可能无限大,因此性能差距有望进一步缩小。
这是模拟比较Llama 3.1(4050 亿个参数)与 HBM(假设内存容量无限大)和 HBF 处理性能的结果。从左到右,这些过程分别为Attn QKV Projection、Attn Output Projection、FFN Up-Projection、FFN Down-Projection、Final Linear和LLM Decode Pass 的平均值。纵轴表示权重读取速度。
SK海力士将与Sandisk合作开发HBF并制定其规范。SK海力士是主要的DRAM和NAND闪存制造商,也是最大的HBM供应商。TSV技术对HBF至关重要。Sandisk目前尚无TSV技术量产的记录,因此SK海力士是理想的合作伙伴。SK海力士拥有HBM(也采用TSV技术)的量产记录,并且对NAND闪存非常了解。
HBF模块样品预计于2026年下半年出货,搭载HBF模块的AI推理服务器预计将于2027年初问世。
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。