HBM、DDR5、LPDDR5X 等行业标准技术所能提供的内存带宽,在未来近十年内都已基本明确。尽管技术路线图看起来十分可观,但现代 AI 系统对性能的 “无限渴求” 是多维度的,其需求远超行业标准所能满足的水平。因此,业内厂商正在开发定制化内存技术,以匹配这些需求。
行业标准的初衷,是为技术定义稳定、一致的发展方向,同时在性能、功耗、成本与计算芯片面积之间取得平衡。然而,标准化内存与众多 AI 系统的需求之间,不匹配的现象正日益加剧。这些系统需要更高带宽、更强算力、更低延迟、更多功能、近存计算能力,或是集所有需求于一身。
此外,AI 行业发展速度极快,内存技术的演进节奏必须大幅快于 JEDEC 标准的制定速度。这正是定制化(更准确说是半定制化)内存技术的用武之地。
“JEDEC 标准化进程很慢。” 美满电子科技负责 CXL、定制 HBM、内存与存储产品营销的高级总监 Khurram Malik表示,“敲定一份规范可能需要两到三年,之后还要一年甚至更久才能做出产品。与此同时,超大规模云服务商现在每 6~9 个月就会更新一次 AI 硬件。他们等不起标准,现在就需要更高带宽、更大容量、更低功耗、更多算力面积。定制内存让他们可以按自己的节奏推进。”
定制或半定制内存对行业而言并非全新事物。英伟达曾在Pascal、Ampere、Ada Lovelace 系列显卡中使用 GDDR5X 和 GDDR6X 内存技术,这两类内存均由美光独家开发与供应;Cray采用过针对矢量与高性能计算(HPC)负载优化的定制 DRAM 子系统;而各类 eDRAM,包括 Xbox 360 SoC 上的 eDRAM、部分英特尔 Haswell 处理器的 Crystal Well eDRAM L4 缓存等,本质上也都是定制内存。
不过,新兴 AI 负载差异巨大,需要的内存类型也各不相同,这既涉及标准内存,也包括定制内存。为此,除了已推出或未来几年将推出的多款高性能内存外,还有多项定制内存技术即将到来。
这些技术包括采用 JEDEC 标准接口、基底裸片可选择是否集成高级逻辑的半标准化 C‑HBM4E;支持 UCIe 接口的 C‑HBM4E;采用定制接口的 C‑HBM4E;美满基于 C‑HBM4E 设计的子系统;创意电子(GUC)的逻辑上置 DRAM(DoL);三星高级互联技术 SAINT‑D。
所有这些方案的目标都是:尽可能提供高于通用内存的带宽、提升单颗 AI 加速器的内存容量、降低每比特能耗、减少 PHY 开销(从而在芯片中塞入更多算力)、在 DRAM 阵列附近加入定制逻辑、针对训练或推理负载优化访问行为,以及 / 或优化封装方式。
与此同时,DoL、SAINT‑D(在一定程度上)、HBM4 及其后续版本直接堆叠在处理器上的方案,旨在缩短计算与内存之间的物理与逻辑距离,降低数据移动带来的延迟与功耗。
在某些场景下,这类内存可以像超大容量缓存一样工作,从而在片上 SRAM 与 DDR5、HBM 等外部内存之间新增一级内存层级。这有望让软件把激活值、缓存与中间数据精准放在最需要的位置 ,紧邻逻辑单元。如果实现得当,这些技术将把内存从通用元器件转变为特定平台与架构的组成部分,与软件栈深度绑定。不过,由于软件开发复杂度高,多层级 DRAM 子系统至今仍较为少见,但未来这一局面可能改变。
尽管从多个角度看都极具吸引力,但定制内存技术永远不会取代甚至排挤标准内存。
“JEDEC 永远都会是核心组织。” 拥有多项内存领域专利、DataSecure 与布尔实验室(Boolean Labs)首席技术官 Michael Schuette 表示,“任何私下合作都可能奏效,但再看看英特尔与 Rambus,它们最终还是失败了。唯一例外是中国技术与 JEDEC 脱钩,这是由对部分中国企业的禁令导致的,迫使它们自研方案,但即便如此,这也可能只是短期现象。”
“(定制内存的优势)不意味着标准会消失。”Malik 说,“标准 HBM 市场会一直存在。但对于超大规模数据中心的 XPU 而言,定制化至关重要。”
未来某一天,如果亚马逊、谷歌、Meta 等企业能够挖掘出定制内存的优势并愿意投入研发,由超大规模云服务商主导的定制内存可能会占据相当大的市场份额。但 Schuette 认为,很多定制化方案可能违背理性策略。
“如果亚马逊、谷歌、Meta 等公司坚持走自己的路,(定制 DRAM)确实可能拿下可观的市场份额。但即便在这些公司内部,也要承担持续创新、优化、开发与制造的成本。这种模式能维持多久?这类事情几乎总是由某个人推动的…… 问题在于,一旦掺杂个人执念,一切就都不可预测。而推动这些定制化方案,恰恰离不开个人执念,因为它们本身就违背理性策略。”
C‑HBM4E 将是业内首个由 JEDEC 成员定义、从一开始就默认平台专属的 HBM 标准。因此,标准化不再是组织原则,而只是起点参考。不过,C‑HBM4E 仍将基于 HBM4 和 HBM4E 内存器件,部分情况下甚至会沿用行业标准基底裸片。所以 HBM4 与 HBM4E 的普及,将为包括 C‑HBM4E 在内的定制内存铺平道路。
从性能与内部架构来看,HBM4 与 HBM4E 是 AI 与 HPC 内存的下一个重要里程碑。每个 HBM4 堆叠采用 2048 位接口,官方速率分别为:
HBM4:最高 8 GT/s,单堆叠带宽 2 TB/s
HBM4E:最高 12 GT/s,单堆叠带宽 3 TB/s
实际应用中,Rambus 等控制器厂商与头部 DRAM 厂商已支持 HBM4 跑到 10 GT/s 甚至更高,以留出更多运行余量。这意味着,若开发者能将高速内存堆叠控制在合理功耗预算内,搭载 8 颗 HBM4 堆叠的加速器总带宽可达到 16 TB/s。
架构上,HBM4 将内部并行度提升一倍,单堆叠拥有 32 个独立通道,每个通道再分为两个伪通道,可减少体冲突,在高并行负载下提升效率。该标准支持 24Gb、32Gb DRAM 裸片,支持 4‑Hi、8‑Hi、12‑Hi、16‑Hi 堆叠,单堆叠容量最高可达 64 GB。美光预计,64 GB 堆叠要到 2027 年底随 HBM4E 普及,这与英伟达为其 Rubin Ultra GPU 配备最高 1 TB HBM4E 内存的规划相吻合。
除了更高的原始速率,Rambus 还在其 HBM4 控制器中加入了链路级可靠性功能。除了 DRAM 内部标准的片上 ECC 外,控制器还可选择性地在链路级提供 ECC 与错误擦洗,保护数据在经过 PHY 与互联链路时的安全,这针对的是系统设计者将内存运行在极高速率、高温或信号完整性边缘的场景,尤其是在极宽 I/O 下,误码率容易上升。
“JEDEC 把 6.4 GT/s 定为起点,但我们已经看到公开宣布最高达到 9.6 GT/s。”Rambus 硅 IP 产品管理总监 Nidish Kamath 表示,“行业内有大量超越 JEDEC 扩展版本的诉求,我们最不想做的就是成为限制性能的人。因此,我们的目标是实现 10 GT/s 这类极高速率,并在产品中加入能同时保护内存数据完整性与链路性能的功能。”
据台积电介绍,基于低功耗 12FFC 或 N5 工艺制造的 HBM4 基底裸片,以及基于 N3P 工艺制造的定制 C‑HBM4E 基底裸片,工作电压大幅降至 0.75~0.8 V(HBM3E 基底裸片为 1.1 V),能效比采用 DRAM 工艺的 HBM3E 基底裸片高出近一倍。
不过,由于内部架构更复杂且外部接口为 2048 位,HBM4 与 HBM4E 需要更先进的控制器与更大、更复杂的 PHY。创意电子数据显示,其面积约为 15 mm²,而 HBM3E 为 11 mm²。这使得 HBM4/HBM4E 内存子系统的绝对功耗更高。但得益于带宽大幅提升,HBM4 最终在能效与面积效率上优于前代产品。
Schuette 认为,虽然 HBM4 终于开始采用逻辑工艺制造基底裸片是好事,但特定厂商(如台积电)提供的基底裸片会同时绑定系统设计者与内存供应商,这可能成为一个隐患。
“逻辑与内存需要完全不同的制造工艺,这一直是逻辑与内存集成的最大难题。因此,要想具备成本竞争力,就必须分开制造内存与逻辑,再把它们封装到一起。但没人愿意单一来源供货,这就像被供应商挟持。所以无论方案多好,你总希望有两家供应商。”
为避免过度依赖台积电,美光计划为 HBM4 提供自研基底裸片,同时在定制 HBM4E 基底裸片上与台积电合作。
“我们经过验证的 1β DRAM、创新且高能效的 HBM4 设计、自研先进 CMOS 基底裸片与先进封装创新,是这款顶级产品的核心差异化优势。” 美光首席执行官 Sanjay Mehrotra 去年表示,“对于 HBM4E,美光将提供标准产品,同时支持基底逻辑裸片定制。我们正与台积电合作,为标准与定制版 HBM4E 制造基底逻辑裸片。定制化需要与客户紧密协作,我们预计搭载定制基底逻辑裸片的 HBM4E,毛利率将高于标准 HBM4E。”
C‑HBM4E 是一种保留 JEDEC 兼容 HBM4E DRAM 器件、但将标准基底裸片替换为定制裸片的 HBM4E 堆叠。其重心从提升带宽,转向在内存堆叠内部集成专用逻辑,部分情况下还会使用定制化裸片对裸片(D2D)接口。
按照 Rambus 的描述,最简单的 C‑HBM4E 内存子系统保留 2048 位接口,仅对基底裸片进行基础定制。在另一些方案中,C‑HBM4E 会切换到定制 D2D 接口与 PHY,但将行业标准 HBM4E 内存控制器移至基底裸片,从而从主处理器上移除超宽内存接口,节省宝贵的芯片面积给计算单元,同时在内存器件与软件层面保持与 JEDEC 规范兼容。
“C‑HBM4E 的设计思路,是让企业在沿用标准 HBM4E 接口的同时,为基底裸片增加定制逻辑。”Kamath 说,“这一选择对基于 HBM4E 的系统尤其有吸引力,因为如果 HBM4E PHY 相关的控制与功能放在 SoC 而非基底裸片上,会占用大量 PHY 面积。C‑HBM4E 方案可以在不破坏现有控制器与系统兼容性的前提下实现创新。新增逻辑必须在 JEDEC 规范约束下运行,以确保互操作性与行为可预测性。”
“行业内很多讨论都集中在 SoC 与 HBM 基底裸片之间采用更窄、引脚数更少的接口。”Rambus 院士与杰出发明家 Steven Woo 表示,“这样单颗 HBM 堆叠占用引脚更少,就能让 SoC 连接更多 HBM 堆叠。尽管定制基底裸片理论上支持 SoC 与 HBM 基底裸片之间采用任意互联方式,但我们预计最终只会出现少数几种方案(可能只有一两种),从而实现规模效应,并专注于速率与能效的演进。”
Schuette 认为,虽然 “窄位宽” 512 位 D2D I/O 从实现角度看能为计算硬件节省一些芯片面积,但 “宽而慢” 与 “窄而快” 的内存接口同样具有挑战性。“这是权衡取舍。要知道,每一个 I/O 都需要两对引脚、过孔、通道。然后你会遇到走线长度问题,因为必须物理实现这些连接,进而带来信号完整性问题。所以没有绝对优劣,只是窄高速 vs 宽低速。哪个更容易?都不容易。”
在更复杂的方案中,基底裸片可增加额外缓存以提升性能,同时不扩大 I/O 位宽或提高信号速率,前提是 HBM4E 协议、固件与软件保持兼容。不过,部分 C‑HBM4E 堆叠会集成增强内存控制器、协议与 PHY 的定制逻辑,这可能在电气上兼容 HBM4E 接口,但需要定制控制器与 PHY 实现。
“超出内存控制器范围的新增逻辑,不必遵守任何规范。”Kamath 说,“这类新增逻辑的例子包括内存重排或内容转换逻辑,这些都不在 JEDEC 管辖范围内。”
在台积电与 Rambus 设想的其他应用场景中,HBM4E 内存控制器与定制 D2D 接口被集成到基底裸片,以减少处理器与内存之间的走线数量,从而在不扩大封装的前提下,让单颗 SoC 搭载更多 HBM 堆叠。
“对于定制 HBM,你可以在 SoC 与 HBM 基底裸片之间使用任何你想要的接口。”Kamath 说,“可以是标准 HBM4E,也可以是更新的接口,比如串行接口。行业内很多讨论都集中在 SoC 与 HBM 基底裸片之间采用更窄、引脚数更少的接口。这样单颗 HBM 堆叠占用引脚更少,就能让 SoC 连接更多 HBM 堆叠。”
当采用台积电 N3P 工艺制造时,这类基底裸片可集成:
行业标准 HBM4E 内存器件
行业标准 HBM4E 控制器
定制 D2D PHY
额外逻辑
甚至可以集成近存计算引擎,实际上将部分 C‑HBM4E 堆叠变成具备有限处理能力的小型 SoC。Woo 表示,用逻辑工艺制造基底裸片非常合理,因为它们比 DRAM 工艺更省电。“我们预计这些基底层会更多转向逻辑工艺,尤其是你希望在那里做更多计算的时候。”
尽管 C‑HBM4E 及其后续产品提供了极大的自由度,但内存厂商仍会尽可能遵守行业标准,以最大化规模效应,并简化客户对 C‑HBM4E 的采用。
“可以预计,内存厂商会主张在 C‑HBM4E 中使用标准 HBM4E 控制与数据访问协议。”Kamath 说,“因为堆叠中的内存裸片与标准 HBM4E 堆叠所用裸片相同或相近。与标准接口保持一致,能让内存厂商利用 HBM4E 的规模效应。对希望增强功能、又不想给系统集成商带来复杂度的企业来说,复用标准接口规范是理想选择。但如果逻辑部分需要新的信号方式或协议变更,那么定制接口就不可避免。”
尽管部分客户可能会选择非常规的内存子系统,但 Schuette 认为,大多数企业不太可能为定制内存子系统支付远高于标准内存的溢价。毕竟,行业需要一段时间才能真正体会到定制内存的收益,而在此之前,企业要为差异化逻辑买单。
“关于溢价我只能推测,但我认为最多也就 5%~10% 的额外成本。”Schuette 说。
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。
