定制内存,AI算力的下一个核心战场

来源:半导纵横发布时间:2026-03-11 11:35
存储
AI
生成海报
AI行业发展速度极快,内存技术的演进节奏必须大幅快于JEDEC标准的制定速度。

HBM、DDR5、LPDDR5X 等行业标准技术所能提供的内存带宽,在未来近十年内都已基本明确。尽管技术路线图看起来十分可观,但现代 AI 系统对性能的 “无限渴求” 是多维度的,其需求远超行业标准所能满足的水平。因此,业内厂商正在开发定制化内存技术,以匹配这些需求。

带宽 × 容量 × 功能

行业标准的初衷,是为技术定义稳定、一致的发展方向,同时在性能、功耗、成本与计算芯片面积之间取得平衡。然而,标准化内存与众多 AI 系统的需求之间,不匹配的现象正日益加剧。这些系统需要更高带宽、更强算力、更低延迟、更多功能、近存计算能力,或是集所有需求于一身。

此外,AI 行业发展速度极快,内存技术的演进节奏必须大幅快于 JEDEC 标准的制定速度。这正是定制化(更准确说是半定制化)内存技术的用武之地。

“JEDEC 标准化进程很慢。” 美满电子科技负责 CXL、定制 HBM、内存与存储产品营销的高级总监 Khurram Malik表示,“敲定一份规范可能需要两到三年,之后还要一年甚至更久才能做出产品。与此同时,超大规模云服务商现在每 6~9 个月就会更新一次 AI 硬件。他们等不起标准,现在就需要更高带宽、更大容量、更低功耗、更多算力面积。定制内存让他们可以按自己的节奏推进。”

定制或半定制内存对行业而言并非全新事物。英伟达曾在Pascal、Ampere、Ada Lovelace 系列显卡中使用 GDDR5X 和 GDDR6X 内存技术,这两类内存均由美光独家开发与供应;Cray采用过针对矢量与高性能计算(HPC)负载优化的定制 DRAM 子系统;而各类 eDRAM,包括 Xbox 360 SoC 上的 eDRAM、部分英特尔 Haswell 处理器的 Crystal Well eDRAM L4 缓存等,本质上也都是定制内存。

内存带宽与容量对比

不过,新兴 AI 负载差异巨大,需要的内存类型也各不相同,这既涉及标准内存,也包括定制内存。为此,除了已推出或未来几年将推出的多款高性能内存外,还有多项定制内存技术即将到来。

这些技术包括采用 JEDEC 标准接口、基底裸片可选择是否集成高级逻辑的半标准化 C‑HBM4E;支持 UCIe 接口的 C‑HBM4E;采用定制接口的 C‑HBM4E;美满基于 C‑HBM4E 设计的子系统;创意电子(GUC)的逻辑上置 DRAM(DoL);三星高级互联技术 SAINT‑D。

所有这些方案的目标都是:尽可能提供高于通用内存的带宽、提升单颗 AI 加速器的内存容量、降低每比特能耗、减少 PHY 开销(从而在芯片中塞入更多算力)、在 DRAM 阵列附近加入定制逻辑、针对训练或推理负载优化访问行为,以及 / 或优化封装方式。

与此同时,DoL、SAINT‑D(在一定程度上)、HBM4 及其后续版本直接堆叠在处理器上的方案,旨在缩短计算与内存之间的物理与逻辑距离,降低数据移动带来的延迟与功耗。

在某些场景下,这类内存可以像超大容量缓存一样工作,从而在片上 SRAM 与 DDR5、HBM 等外部内存之间新增一级内存层级。这有望让软件把激活值、缓存与中间数据精准放在最需要的位置 ,紧邻逻辑单元。如果实现得当,这些技术将把内存从通用元器件转变为特定平台与架构的组成部分,与软件栈深度绑定。不过,由于软件开发复杂度高,多层级 DRAM 子系统至今仍较为少见,但未来这一局面可能改变。

尽管从多个角度看都极具吸引力,但定制内存技术永远不会取代甚至排挤标准内存。

“JEDEC 永远都会是核心组织。” 拥有多项内存领域专利、DataSecure 与布尔实验室(Boolean Labs)首席技术官 Michael Schuette 表示,“任何私下合作都可能奏效,但再看看英特尔与 Rambus,它们最终还是失败了。唯一例外是中国技术与 JEDEC 脱钩,这是由对部分中国企业的禁令导致的,迫使它们自研方案,但即便如此,这也可能只是短期现象。”

“(定制内存的优势)不意味着标准会消失。”Malik 说,“标准 HBM 市场会一直存在。但对于超大规模数据中心的 XPU 而言,定制化至关重要。”

未来某一天,如果亚马逊、谷歌、Meta 等企业能够挖掘出定制内存的优势并愿意投入研发,由超大规模云服务商主导的定制内存可能会占据相当大的市场份额。但 Schuette 认为,很多定制化方案可能违背理性策略。

“如果亚马逊、谷歌、Meta 等公司坚持走自己的路,(定制 DRAM)确实可能拿下可观的市场份额。但即便在这些公司内部,也要承担持续创新、优化、开发与制造的成本。这种模式能维持多久?这类事情几乎总是由某个人推动的…… 问题在于,一旦掺杂个人执念,一切就都不可预测。而推动这些定制化方案,恰恰离不开个人执念,因为它们本身就违背理性策略。”

HBM4 与 HBM4E:为定制 HBM 铺路

C‑HBM4E 将是业内首个由 JEDEC 成员定义、从一开始就默认平台专属的 HBM 标准。因此,标准化不再是组织原则,而只是起点参考。不过,C‑HBM4E 仍将基于 HBM4 和 HBM4E 内存器件,部分情况下甚至会沿用行业标准基底裸片。所以 HBM4 与 HBM4E 的普及,将为包括 C‑HBM4E 在内的定制内存铺平道路。

从性能与内部架构来看,HBM4 与 HBM4E 是 AI 与 HPC 内存的下一个重要里程碑。每个 HBM4 堆叠采用 2048 位接口,官方速率分别为:

  • HBM4:最高 8 GT/s,单堆叠带宽 2 TB/s

  • HBM4E:最高 12 GT/s,单堆叠带宽 3 TB/s

实际应用中,Rambus 等控制器厂商与头部 DRAM 厂商已支持 HBM4 跑到 10 GT/s 甚至更高,以留出更多运行余量。这意味着,若开发者能将高速内存堆叠控制在合理功耗预算内,搭载 8 颗 HBM4 堆叠的加速器总带宽可达到 16 TB/s。

架构上,HBM4 将内部并行度提升一倍,单堆叠拥有 32 个独立通道,每个通道再分为两个伪通道,可减少体冲突,在高并行负载下提升效率。该标准支持 24Gb、32Gb DRAM 裸片,支持 4‑Hi、8‑Hi、12‑Hi、16‑Hi 堆叠,单堆叠容量最高可达 64 GB。美光预计,64 GB 堆叠要到 2027 年底随 HBM4E 普及,这与英伟达为其 Rubin Ultra GPU 配备最高 1 TB HBM4E 内存的规划相吻合。

除了更高的原始速率,Rambus 还在其 HBM4 控制器中加入了链路级可靠性功能。除了 DRAM 内部标准的片上 ECC 外,控制器还可选择性地在链路级提供 ECC 与错误擦洗,保护数据在经过 PHY 与互联链路时的安全,这针对的是系统设计者将内存运行在极高速率、高温或信号完整性边缘的场景,尤其是在极宽 I/O 下,误码率容易上升。

“JEDEC 把 6.4 GT/s 定为起点,但我们已经看到公开宣布最高达到 9.6 GT/s。”Rambus 硅 IP 产品管理总监 Nidish Kamath 表示,“行业内有大量超越 JEDEC 扩展版本的诉求,我们最不想做的就是成为限制性能的人。因此,我们的目标是实现 10 GT/s 这类极高速率,并在产品中加入能同时保护内存数据完整性与链路性能的功能。”

据台积电介绍,基于低功耗 12FFC 或 N5 工艺制造的 HBM4 基底裸片,以及基于 N3P 工艺制造的定制 C‑HBM4E 基底裸片,工作电压大幅降至 0.75~0.8 V(HBM3E 基底裸片为 1.1 V),能效比采用 DRAM 工艺的 HBM3E 基底裸片高出近一倍。

不过,由于内部架构更复杂且外部接口为 2048 位,HBM4 与 HBM4E 需要更先进的控制器与更大、更复杂的 PHY。创意电子数据显示,其面积约为 15 mm²,而 HBM3E 为 11 mm²。这使得 HBM4/HBM4E 内存子系统的绝对功耗更高。但得益于带宽大幅提升,HBM4 最终在能效与面积效率上优于前代产品。

Schuette 认为,虽然 HBM4 终于开始采用逻辑工艺制造基底裸片是好事,但特定厂商(如台积电)提供的基底裸片会同时绑定系统设计者与内存供应商,这可能成为一个隐患。

“逻辑与内存需要完全不同的制造工艺,这一直是逻辑与内存集成的最大难题。因此,要想具备成本竞争力,就必须分开制造内存与逻辑,再把它们封装到一起。但没人愿意单一来源供货,这就像被供应商挟持。所以无论方案多好,你总希望有两家供应商。”

为避免过度依赖台积电,美光计划为 HBM4 提供自研基底裸片,同时在定制 HBM4E 基底裸片上与台积电合作。

“我们经过验证的 1β DRAM、创新且高能效的 HBM4 设计、自研先进 CMOS 基底裸片与先进封装创新,是这款顶级产品的核心差异化优势。” 美光首席执行官 Sanjay Mehrotra 去年表示,“对于 HBM4E,美光将提供标准产品,同时支持基底逻辑裸片定制。我们正与台积电合作,为标准与定制版 HBM4E 制造基底逻辑裸片。定制化需要与客户紧密协作,我们预计搭载定制基底逻辑裸片的 HBM4E,毛利率将高于标准 HBM4E。”

C‑HBM4E:一种 “行业标准级” 的定制内存

C‑HBM4E 是一种保留 JEDEC 兼容 HBM4E DRAM 器件、但将标准基底裸片替换为定制裸片的 HBM4E 堆叠。其重心从提升带宽,转向在内存堆叠内部集成专用逻辑,部分情况下还会使用定制化裸片对裸片(D2D)接口。

按照 Rambus 的描述,最简单的 C‑HBM4E 内存子系统保留 2048 位接口,仅对基底裸片进行基础定制。在另一些方案中,C‑HBM4E 会切换到定制 D2D 接口与 PHY,但将行业标准 HBM4E 内存控制器移至基底裸片,从而从主处理器上移除超宽内存接口,节省宝贵的芯片面积给计算单元,同时在内存器件与软件层面保持与 JEDEC 规范兼容。

“C‑HBM4E 的设计思路,是让企业在沿用标准 HBM4E 接口的同时,为基底裸片增加定制逻辑。”Kamath 说,“这一选择对基于 HBM4E 的系统尤其有吸引力,因为如果 HBM4E PHY 相关的控制与功能放在 SoC 而非基底裸片上,会占用大量 PHY 面积。C‑HBM4E 方案可以在不破坏现有控制器与系统兼容性的前提下实现创新。新增逻辑必须在 JEDEC 规范约束下运行,以确保互操作性与行为可预测性。”

“行业内很多讨论都集中在 SoC 与 HBM 基底裸片之间采用更窄、引脚数更少的接口。”Rambus 院士与杰出发明家 Steven Woo 表示,“这样单颗 HBM 堆叠占用引脚更少,就能让 SoC 连接更多 HBM 堆叠。尽管定制基底裸片理论上支持 SoC 与 HBM 基底裸片之间采用任意互联方式,但我们预计最终只会出现少数几种方案(可能只有一两种),从而实现规模效应,并专注于速率与能效的演进。”

Schuette 认为,虽然 “窄位宽” 512 位 D2D I/O 从实现角度看能为计算硬件节省一些芯片面积,但 “宽而慢” 与 “窄而快” 的内存接口同样具有挑战性。“这是权衡取舍。要知道,每一个 I/O 都需要两对引脚、过孔、通道。然后你会遇到走线长度问题,因为必须物理实现这些连接,进而带来信号完整性问题。所以没有绝对优劣,只是窄高速 vs 宽低速。哪个更容易?都不容易。”

在更复杂的方案中,基底裸片可增加额外缓存以提升性能,同时不扩大 I/O 位宽或提高信号速率,前提是 HBM4E 协议、固件与软件保持兼容。不过,部分 C‑HBM4E 堆叠会集成增强内存控制器、协议与 PHY 的定制逻辑,这可能在电气上兼容 HBM4E 接口,但需要定制控制器与 PHY 实现。

“超出内存控制器范围的新增逻辑,不必遵守任何规范。”Kamath 说,“这类新增逻辑的例子包括内存重排或内容转换逻辑,这些都不在 JEDEC 管辖范围内。”

在台积电与 Rambus 设想的其他应用场景中,HBM4E 内存控制器与定制 D2D 接口被集成到基底裸片,以减少处理器与内存之间的走线数量,从而在不扩大封装的前提下,让单颗 SoC 搭载更多 HBM 堆叠。

“对于定制 HBM,你可以在 SoC 与 HBM 基底裸片之间使用任何你想要的接口。”Kamath 说,“可以是标准 HBM4E,也可以是更新的接口,比如串行接口。行业内很多讨论都集中在 SoC 与 HBM 基底裸片之间采用更窄、引脚数更少的接口。这样单颗 HBM 堆叠占用引脚更少,就能让 SoC 连接更多 HBM 堆叠。”

当采用台积电 N3P 工艺制造时,这类基底裸片可集成:

  • 行业标准 HBM4E 内存器件

  • 行业标准 HBM4E 控制器

  • 定制 D2D PHY

  • 额外逻辑

甚至可以集成近存计算引擎,实际上将部分 C‑HBM4E 堆叠变成具备有限处理能力的小型 SoC。Woo 表示,用逻辑工艺制造基底裸片非常合理,因为它们比 DRAM 工艺更省电。“我们预计这些基底层会更多转向逻辑工艺,尤其是你希望在那里做更多计算的时候。”

尽管 C‑HBM4E 及其后续产品提供了极大的自由度,但内存厂商仍会尽可能遵守行业标准,以最大化规模效应,并简化客户对 C‑HBM4E 的采用。

“可以预计,内存厂商会主张在 C‑HBM4E 中使用标准 HBM4E 控制与数据访问协议。”Kamath 说,“因为堆叠中的内存裸片与标准 HBM4E 堆叠所用裸片相同或相近。与标准接口保持一致,能让内存厂商利用 HBM4E 的规模效应。对希望增强功能、又不想给系统集成商带来复杂度的企业来说,复用标准接口规范是理想选择。但如果逻辑部分需要新的信号方式或协议变更,那么定制接口就不可避免。”

尽管部分客户可能会选择非常规的内存子系统,但 Schuette 认为,大多数企业不太可能为定制内存子系统支付远高于标准内存的溢价。毕竟,行业需要一段时间才能真正体会到定制内存的收益,而在此之前,企业要为差异化逻辑买单。

“关于溢价我只能推测,但我认为最多也就 5%~10% 的额外成本。”Schuette 说。

本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。

评论
暂无用户评论