NVIDIA Vera 数据中心 CPU 预计将在今年晚些时候进入量产爬坡阶段。在正式放量前,Vera 这颗面向 agentic AI 工作负载设计的 Arm 架构 CPU 已经完成了一轮早期 Linux 基准测试。凭借 NVIDIA 自研的 Olympus CPU 核心,Vera 展现出过去其他 ARM 或非 x86_64 处理器少见的竞争力,已经能够在多项工作负载中与 Intel、AMD 的 x86_64 服务器 CPU 正面对比。
Vera 是 NVIDIA 面向 agentic AI 以及现代数据中心工作负载设计的下一代数据中心 CPU。它将作为 NVIDIA NVL72 Vera Rubin AI 机架的主机 CPU,为高性能 AI 机架提供支撑;同时,Vera 也会以独立 CPU 的形式用于 CPU 服务器机架。与采用 Arm Neoverse-V2 核心的 Grace 不同,Vera 使用的是 NVIDIA 自研的 “Olympus” CPU 核心。
Vera 配备 88 个 Olympus 核心,官方宣称其性能可达到上一代的 2 倍,并兼具领先能效。Olympus 兼容 Armv9.2 ISA,支持 FP8 精度;通过 spatial multi-threading,总线程数达到 176 个;同时搭配 LPDDR5X 内存,最高可提供 1.2TB/s 内存带宽。与 Grace 相比,Vera 的 L2 缓存翻倍至每核心 2MB,统一 L3 缓存扩大到 164MB,并支持 PCIe Gen 6 与 CXL 3.1 连接能力。
本轮初始测试中的 Vera CPU 插槽峰值 TDP 为 450W。搭配的 LPDDR5X 内存功耗约为 50W 或更低。
NVIDIA Vera 数据中心 CPU 仍按计划在今年下半年出货。在进入放量前,NVIDIA 于圣克拉拉总部开放了基于 Olympus 核心的新 CPU 早期公开基准测试。进入性能部分之前,首先需要关注 Linux 支持情况。虽然 Vera 尚未正式上市,但其上游 Linux 内核支持已经较为成熟。Linux 7.1+ 已经具备关键驱动支持,Vera 理论上可运行在 Ubuntu、Fedora 等 ARM64 服务器 Linux 发行版上。NVIDIA 也会继续提供 Base OS,即基于 Ubuntu 修改并预置 Vera 补丁的系统版本。Vera 在 Linux 上依赖 ACPI,而不是复杂且容易带来维护负担的 Device Tree。
由于 Vera 兼容 Armv9.2,并符合 Arm Server Base System Architecture(SBSA)规范,因此它能够复用大量通用 ARM Linux 驱动。这也是硬件正式上市前,外界较难通过上游内核提交情况完整追踪其支持状态的原因之一。在这些通用 ARM Linux 代码中,也包括围绕 Arm Confidential Compute(CCA)的持续工作,Vera 将支持面向虚拟机的机密计算能力。
GCC 和 LLVM Clang 已在去年加入 Olympus 核心支持。这意味着,要为 Vera 构建优化二进制文件,需要使用 GCC 16.1+ 或 LLVM Clang 21+。NVIDIA 很早就将 Olympus 编译器支持上游化,这一点较为积极。作为对比,NVIDIA 在 2025 年 3 月就上游了 Olympus 支持,而 AMD Zen 6(znver6)支持直到同年 12 月才加入 GCC,并在次年 2 月出现在 LLVM/Clang 中。NVIDIA 在 Olympus 编译器支持上的提前布局,接近过去 Intel 在新平台发布前长期推进生态支持的做法。
本次测试没有覆盖在 Vera 上安装不同 Linux 发行版等场景。不过从 NVIDIA 提供的信息看,Vera 的上游开源 Linux 支持已经处于较好状态。测试环境为 Ubuntu 24.04 LTS,使用 NVIDIA Base OS 配置、打补丁的 Linux 6.18 LTS 内核以及 GCC 16.1。
在 Linux 环境下,搭载 Olympus 核心的 NVIDIA Vera 运行表现稳定。需要注意的是,部分电源管理调校仍在上游化过程中。近期 NVIDIA 正在为 Linux 推进 ACPI CPPC v4 支持,这可能与相关工作有关。由于电源管理调校尚未完成,本轮早期基准测试没有启用 CPU 功耗监控;同样,CPU 频率监控也未开放。此外,本次 Vera 测试基于预生产开放平台系统。等到 2026 年晚些时候量产服务器进入封闭式机箱设计后,再观察功耗与频率表现会更具参考意义。
NVIDIA 本轮仅开放了与 Vera 目标数据中心应用领域高度相关的特定工作负载测试。因此,这轮 Vera 基准测试并没有覆盖全部可能的工作负载,而是限定在 NVIDIA 认为最贴近现代数据中心客户需求的项目上。受测试时间限制,本次结果也应被视为早期样本。后续随着 Vera 平台逐步放量,围绕 Olympus CPU 核心的更完整工作负载测试,以及在电源管理代码成熟后的性能功耗比测试,仍值得继续关注。
为量化 NVIDIA Vera 的性能,本次测试纳入了以下配置和处理器:
本次同时使用单路与双路 Intel/AMD 处理器,是为了从核心/线程数量、单路/多路扩展性,以及不同工作负载的多线程扩展情况等维度全面观察 Vera 的相对位置。部分工作负载受 NUMA locality 影响,在多插槽配置下反而可能低于单插槽表现。此外,双路方案还涉及总体拥有成本(TCO)因素,例如需要使用两倍数量的内存条。
测试平台选择受可用 CPU 样本限制。因此,Intel 侧只测试了 Xeon 6980P,这是可用的唯一 Xeon 6 Granite Rapids 评测样品。同样,由于 Ampere Computing 在早期评测后收回了 AmpereOne 样机,因此本次没有当前一代 Ampere 硬件参与对比。不过,从 Vera 相对 EPYC/Xeon 的结果来看,无论是裸机环境还是公有云场景,Vera 都是目前表现最具竞争力的 ARM 服务器 CPU 之一。
本次早期测试基于 NVIDIA 提供的 Vera CPU 测试机会完成。
测试首先从代码编译开始,这也是 Phoronix 读者长期关注的项目。在 Gem5 编译测试中,NVIDIA Grace 是所有受测处理器中最慢的,而 NVIDIA Vera 则跃升至接近双路 AMD 旗舰 5.0GHz 高频 EPYC 9575F 的水平。在所有单路 CPU 中,NVIDIA Vera 是最快的。
从 Gem5 编译的每核心性能来看,Vera CPU 介于 EPYC 9575F 与 EPYC 9475F 这两款高频处理器之间。
在 Godot 游戏引擎编译测试中,NVIDIA Vera 相比 Grace 继续显著缩短编译时间,并持续与 AMD 高频 Turin 处理器竞争。
Node.js 编译性能是本轮测试中最令人意外的项目之一。面对大型代码库,Vera 的编译耗时不到 NVIDIA Grace 的一半;在 Node.js 每核心编译性能上,Vera 与 5.0GHz EPYC 9575F 并列最佳。
在所有受测处理器上构建 x86_64 默认配置内核时(ARM64 CPU 执行 x86_64 交叉编译),NVIDIA Vera 是最快的 CPU,仅用 20 秒就完成了默认 x86_64 内核构建。
在构建包含所有可能模块的 x86_64 allmodconfig 内核时,NVIDIA Vera 仅落后于核心/线程数量更多的双路 AMD EPYC 9575F 与双路 EPYC 9755。Vera 仍然是本次测试中最快的单路方案。
若按每核心构建性能衡量,采用 Olympus 核心的 NVIDIA Vera 给出了最快的构建时间。
在 Stream 内存基准测试中,NVIDIA 允许使用上游原版 Stream 代码;相比之下,一些厂商更倾向于使用定制版本或自家编译器工具链。基于上游 Stream 且全部使用 GCC 构建时,NVIDIA Vera 展示出非常强的内存带宽能力。
凭借 LPDDR5X 内存,NVIDIA Vera 相比当前 Intel Xeon 与 AMD EPYC 处理器展现出明显的内存性能优势。未来当 EPYC Venice 与 Xeon Diamond Rapids 转向 DDR6 内存后,这一对比将更值得关注。
7-Zip 是非常典型的多线程 CPU 基准测试。作为一颗 88 核 CPU,Vera 的表现符合预期。值得注意的是,NVIDIA Vera 88 核 CPU 在该项目中超过了 128 核 Xeon 6980P。
从每核心性能来看,NVIDIA Vera 略微超过 5.0GHz AMD EPYC 9575F,拿下最佳 7-Zip 每核心性能。这一结果非常亮眼。Grace 到 Vera 的代际性能提升也持续高于常规处理器迭代预期。
在 7-Zip 解压缩每核心性能测试中,NVIDIA Vera 的优势更为明显。虽然几个月后 EPYC Venice 的位置仍有待观察,但在当前测试中 Vera 处于领先。遗憾的是,本轮测试未开放 CPU 功耗数据,因此无法同步评估能效。
对于关注 NVIDIA Vera CPU 服务器视频编码/转码能力的用户,Vera 在开源 SVT-AV1 编码器测试中实现了非常明显的代际提升。Grace 通常已经快于 Intel Xeon 6980P,而 Vera 则进一步与本次测试中的 AMD EPYC 9005 系列处理器基本持平。
转向 4K 10-bit SVT-AV1 视频内容后,NVIDIA Vera 开始超过受测的 EPYC Zen 5 服务器处理器,即使是最高频率达到 5.0GHz 的高频 SKU 也被超过。
从 Grace 到 Vera 的代际提升非常显著,Vera 也成为目前最具竞争力的 ARM64 服务器处理器之一。
考虑到 Python 语言在 AI 领域的广泛使用,NVIDIA 对 Vera 的 Python 性能表现非常重视。
根据具体 Python 基准测试不同,NVIDIA Vera 通常与 AMD EPYC 9005 系列高频处理器表现接近,在部分项目中甚至明显领先。Vera 基本全面超过 Intel Granite Rapids。
在 Ubuntu Linux 上,NVIDIA Vera 给出了足以对标当前一代 AMD EPYC Turin 处理器的 Python 性能。
进入 OpenJDK Java 工作负载后,NVIDIA Vera 依然表现强势。在 Jython 等项目中,Vera 超过了所有受测 EPYC Turin 处理器,仅落后于 Intel Xeon 6980P Granite Rapids。
在 DaCapo 的 Eclipse 基准测试中,Vera 超过 Granite Rapids,仅次于 AMD EPYC 9575F 5.0GHz Zen 5 处理器,并领先其他 Turin 型号。
在这些 Java 工作负载中,NVIDIA 从 Grace 到 Vera 的代际提升同样非常明显。
在已测试的 Java 工作负载中,Vera 与当前一代 x86_64 处理器具备很强竞争力。等到今年晚些时候,如果能够获得性能功耗比数据,将更有助于判断平台价值。
在部分基准测试中,NVIDIA 从上一代处于队尾,跃升到本轮所有受测服务器处理器中的第一名。
无论面对哪类 Java 工作负载,NVIDIA Vera 都展现出可与当前 AMD EPYC 和 Intel Xeon 处理器竞争的性能。
在一些测试中,NVIDIA Vera CPU 性能明显快于所有受测 x86_64 CPU。
总体来看,NVIDIA Vera 的 OpenJDK Java 性能表现扎实。
Zstandard 压缩性能也是本轮 Vera 测试开放的工作负载之一,这与当前客户对 Zstd 的高度关注有关。测试显示,Vera 在 Zstd 压缩方面远快于 Grace。Grace 是受测 CPU 中最慢的,而在 compression level 3 这种面向快速实时性能需求的场景下,Vera 已经成为最快平台。
解压缩表现没有压缩端那么突出,但仍然体现出良好的代际提升,并领先于 Intel Xeon 6 Granite Rapids 旗舰。
如果追求最高压缩率,Zstd 在最高 compression level 19 下,Vera 相比 Grace 的压缩性能接近翻倍。Vera 也明显快于 Intel Xeon 6980P 服务器,并与本次测试中的 AMD EPYC 9005 系列 CPU 接近。
在 Zstd compression level 19 且开启 long mode 的情况下,Vera 在压缩速度上与 EPYC Turin 高频 SKU 的竞争力进一步增强。
Lua JIT 性能同样体现出 Grace 到 Vera 的显著代际提升。Vera 能够与 EPYC Turin 正面对抗,并明显领先 Granite Rapids。
在正则表达式性能测试中,NVIDIA Vera 与 AMD EPYC Turin 高频 CPU 型号基本处于同一水平,位居最快梯队。
最后是 ClickHouse 数据库服务器测试,覆盖 x86_64 与 ARM64 处理器。凭借 Olympus 核心和 LPDDR5X 内存,NVIDIA Vera 在所有受测处理器中取得了最佳表现,也为本轮与当前一代 AMD EPYC、Intel Xeon 的对比画下了有力结尾。
在本轮允许测试的多种工作负载中,NVIDIA Vera 展现出过去 ARM64 处理器少见的 x86_64 竞争力。按几何平均成绩计算,NVIDIA Vera 比 5.0GHz 高频 AMD EPYC 9575F 高出 10%;相比上一代 Grace,Vera 的几何平均性能达到 1.63 倍;相比 Intel 当前旗舰 Granite Rapids 单路 Xeon 6980P,NVIDIA Vera 达到 1.55 倍性能。
在采用全新 Olympus 核心后,NVIDIA Vera 成为 Intel 与 AMD x86_64 处理器迄今最强的 ARM 阵营竞争者。它的性能明显高于 Ampere Computing 以及 Google Compute Engine、Microsoft Azure 等公有云厂商内部定制 ARM 方案。Vera 已经能够在一系列工作负载中与最新 AMD EPYC 和 Intel Xeon 处理器竞争。当然,本轮测试仍存在限制:NVIDIA 将初始基准测试范围限定在目标市场与目标用例内。不过,这些项目已经足以形成初步判断,且大部分工作负载长期用于服务器处理器评测。随着 Vera 在今年晚些时候放量,后续仍有必要进行更全面、更密集的工作负载覆盖测试。
性能功耗比仍然是一个待解问题。本轮测试未开放 CPU 功耗数据,因此无法给出明确的 performance-per-Watt 结论。考虑到当前平台仍处于早期预生产阶段,这些数据对最终量产服务器调校的参考价值也可能有限。未来几个月,随着平台和电源管理代码成熟,这一问题有望得到更清晰的答案。对于关注 Vera 在 agentic AI 基准测试中表现的读者,夏季还会有更多相关信息值得关注。
从功耗角度看,NVIDIA Vera 很值得关注。Vera CPU 的 TDP 为 450W,LPDDR5X 内存约 50W,同时提供非常可观的内存带宽。也就是说,CPU 加内存约 500W;而顶级 AMD EPYC Turin 与 Xeon Granite Rapids CPU 单颗 CPU 本身 TDP 就达到 500W。当 12 个内存通道全部插满时,DDR5 ECC RDIMM 或 Xeon Granite Rapids 使用的 MRDIMM 功耗可能远高于 50W。结合 Stream 内存基准测试结果,Vera 的 LPDDR5X 内存带宽甚至超过 Granite Rapids 搭配的 MRDIMM。整体墙上功耗层面,Vera 有望具备更好能效,但本轮尚无可公开数据。
受限于 Vera 接触时间和本轮测试项目范围,目前还不适合给出确定的产品推荐或最终结论。基于已开放的测试结果,Vera 无疑是目前表现最强的 ARM Linux 服务器处理器之一。对于本轮测试的工作负载,采用 Olympus 核心的 NVIDIA Vera CPU 已经具备与当前一代 AMD EPYC 9005 “Turin” 处理器相当的竞争力;面对顶级 Intel Xeon 6980P “Granite Rapids”,即便后者搭配 MRDIMM-8800 内存,NVIDIA Vera 也在几乎所有项目中更从容地取得领先。
NVIDIA Vera 的量产节奏和定价也将发挥关键作用。Vera 预计将在今年晚些时候放量。基于 Zen 6 的 AMD EPYC Venice 同样预计在今年发布,但具体时间与量产节奏尚未公开。EPYC Venice 相比 EPYC Turin 预计会带来显著提升,因此在放量后可能重新夺回部分领先优势。与此同时,Intel Xeon Diamond Rapids 大概率会在 2027 年某个时间点推出。对于 Vera 设计目标之外的多样化工作负载,EPYC Venice 可能会具备更强优势;但更关键的问题或许是 NVIDIA 能够多快推出 Vera 后续产品。如果 NVIDIA 延续激进的硬件发布节奏,并能比 AMD EPYC 约两年一代的节奏更快迭代,那么基于 Olympus 这一优秀基础,NVIDIA 有机会在合适时间点形成重要的性能领先。
现阶段,Vera 的定价仍是重大未知数;在超大规模云厂商、AI 公司以及其他头部客户之外,NVIDIA Vera 近期能有多大可获得性,也仍有待观察。未来几个月,Vera 的放量过程以及服务器价格变化都值得持续跟踪。
鉴于 Olympus 展现出的强劲每核心性能,桌面和工作站用户可能会期待 NVIDIA 推出桌面/工作站级处理器。不过,这种可能性目前并不高。受多方面 TCO 因素影响,NVIDIA 似乎并不打算推出低核心数 Vera 处理器。当然,更远期的产品规划仍存在想象空间。
除了 Vera 相对 x86_64 的激进性能表现,以及相比 Grace 的优秀代际提升外,本次测试中另一个重要发现是 Vera 的上游开源支持。由于 NVIDIA 没有依赖繁琐的 Device Tree,并且较好地遵循了多项 Arm 标准,Vera 的上游内核支持已经处于良好状态,也有利于现代主流 AArch64 Linux 发行版适配。正式测试前,外界并不清楚它是否会存在标准兼容问题,或是否需要专用驱动方案;但从 Olympus 核心在主线 Linux 内核上的运行情况看,整体表现较为顺畅。此外,NVIDIA 也已在产品发布前较早将 Olympus 核心支持上游到 GCC 和 LLVM Clang 编译器。
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。
