英特尔推出一系列芯片,完善“Granite Rapids”Xeon 6

来源:半导纵横发布时间:2025-02-25 14:56
英特尔
芯片制造
生成海报
英特尔推“Granite Rapids”至强 6 新品详情披露 。

芯片制造商英特尔如今在多个方面举步维艰,这已不是什么秘密。但有一点很重要,要知道数据中心售出的处理器中,近三分之二都来自英特尔。这是一项效益尚可的业务,英特尔能够——而且经常在X86服务器CPU领域与竞争对手AMD展开竞争,同时,相比超大规模数据中心运营商和云服务构建商自行开发、委托台积电代工的各类定制化Arm服务器CPU,英特尔也有自身优势。

2024年6月,英特尔推出了基于E核(即“高效核心”)设计的“塞拉·福里斯特”至强6代处理器,这种E核设计源于凌动风格的内核。这是至强6代处理器的首批产品,意味着传统的至强内核(现称为P核,即性能核心)与E核整合在同一组插槽上,具备相同的外部数据传输速率,并基于插槽内相同的I/O小芯片来保障数据传输。2024年9月,英特尔发布了基于P核计算小芯片的“Granite Rapids”至强6代处理器,这些高端芯片主要面向超大规模数据中心运营商和云服务构建商,他们希望在单个插槽中塞进尽可能多的核心,从而为庞大的服务器集群配备尽可能少的服务器。

E核与P核服务器处理器的差异体现在承载计算核心的小芯片内部。即便有人对在本质上仍属于凌动和至强内核的计算分支上维持这种区分的合理性存疑,但从芯片设计角度来看,这仍是一种合理的划分。

市场会决定其需求。这就是市场的作用。

今天,至强6系列的其他产品也将发布。英特尔院士罗纳克·辛加尔(Ronak Singhal)长期担任至强产品线的首席架构师,如今也兼任产品经理。在产品发布前,他向我们简要介绍了其余的至强6处理器。

“Granite Rapids”SP变体,即命名为至强6500P和6700P的处理器,实际上是至强6系列的核心产品,目标客户是企业用户。相较于整体市场,企业用户对至强芯片的青睐程度更高。在X86架构处理器方面,超大规模数据中心运营商和云服务构建商更倾向于AMD的霄龙(Epyc)服务器CPU。

辛加尔在谈到至强6500P和6700P处理器时解释道:“这些产品真正聚焦于广泛的企业市场以及其中各种不同的应用场景,尤其关注人工智能和安全领域。我们致力于为客户提供能提升其基础设施投资价值的产品,让他们能够将旧的基础设施整合到具备更强新工作负载处理能力的新基础设施中,同时降低功耗。或者,当他们希望借助基础设施推出新功能或新服务时,明白为何应选择至强处理器。”

在深入探讨至强6300P、至强6500P和至强6700P之前,我们先做些简要说明。

首先,基于“克雷斯蒙特”(Crestmont)E核的“Granite Rapids”至强6900E不会有大规模发布。英特尔早在2023年9月就透露正在研发一款拥有多达288个核心的“塞拉·福里斯特”芯片,辛加尔证实至强6900E目前正在量产爬坡阶段。

辛加尔表示:“这款288核的芯片现已投入生产。实际上,我们已将其部署到一家大型云服务客户处。当他们准备好公开介绍相关应用时,我想那会非常有趣。我们正与每位客户紧密合作,针对这款288核芯片进行定制化开发,以满足他们的需求。所以,我们不会从广泛部署的角度来谈论这款产品。它首先是为那些定制化云服务场景打造的。”

此外,英特尔如约推出了面向电信运营商及其他服务提供商的网络和边缘应用场景的至强6 P核平台片上系统变体。鉴于我们目前专注于数据中心领域,在此不会过多探讨该产品。

最后提醒一下,几周前英特尔对现有的多达128核的“Granite Rapids”至强6900P芯片进行了降价。以下是至强6900P更新后的价格及性价比表格,在查看今天发布的“花岗岩急流”系列其他产品时,这会很有用。

接下来,让我们深入了解 Granite Rapids 队其他阵容的详细信息。

适中路线

与许多代 Xeon 服务器处理器一样,英特尔不会只蚀刻一块大芯片,然后根据该设计的核心和 I/O 产量充实产品线。该公司设计了多种不同尺寸的芯片,因为较小芯片的产量通常要好得多。即使英特尔已经进入了芯片时代,每个芯片都有自己的产量曲线(通常越小越好),但更少的芯片可以提高封装制造的产量。在 Granite Rapids 芯片和插槽设计中,您可以看到这种相互作用,以最大限度地提高产量以及 Xeon 6 产品线的深度和广度,而不会牺牲盈利能力。

四种不同的 Xeon 6 芯片封装在名称上很熟悉:超多核心数 (UCC)、极限核心数 (XCC)、高核心数 (HCC) 和低核心数 (LCC)。无论使用哪种类型的核心芯片组合,所有 Granite Rapids 核心组合均采用英特尔 3 工艺蚀刻而成(大致类似于台积电的 3 纳米工艺),并具有一个、两个或三个计算组合,其中有三种设计。一个小核心组合有 16 个核心,中间一个有 48 个核心,有趣的是,在 Granite Rapids 插槽中使用的具有多个核心组合的第三个核心组合有 44 个核心,为互连留出了空间,以将核心组合及其缓存相互连接起来,从而创建虚拟单片芯片。

所有 Granite Rapids 芯片都有一对 I/O 小芯片,其中有 DDR5 内存控制器、PCI-Express 控制器和各种加速器,这些加速器包含在之前的 Xeon 4 和 Xeon 5 CPU 中,并且会不时更新新的哈希或加密算法或以其他方式进行压缩。这些加速器概述在 Xeon 6 系列的以下显着特性表的底部:

昨天发布的 Xeon 6500P 和 6700P 处理器及其平台可扩展至 86 个核心,并且支持 AVX512 矢量单元和 AMX 张量单元加速,前者对于 HPC 和 AI 都很重要,而后者可能成为 AI 工作负载和未来 HPC 例程的真正差异化因素。

我们感到有些困惑,四路或八路机器中使用的 Xeon 6700E 处理器通过片上 NUMA 集群技术(所谓的无缝 NUMA)连接,每个处理器上只有四个 UltraPath Interconnect (UPI) 链路。诚然,这些 UPI 链路的运行速度为 24 GT/秒,速度非常快。但是 Xeon 6900P 只能扩展到单个 NUMA 映像中的两个处理器,因此与具有四个或八个处理器的 NUMA 集群相比不需要大量互连,它有六个 UPI 链路,运行速度为 24 GT/秒。Sierra Forest Xeon 6700E 和 6900E 变体也是如此,它们也有更多的 UPI 链路,但只能扩展到最多两个插槽。

原本以为,制造大型 NUMA 机器来运行后端关系数据库或内存数据库及其应用程序的 OEM 会希望使用 Xeon 6900P 将插槽更紧密地耦合在一起。链接越多越好,因为它可以减少 NUMA 内存中的跳数。六个 UPI 链接允许任何一个处理器直接链接到六个处理器,第二个跳数只需要到达八 CPU 机器中的第七个 CPU。您可以像英特尔那样使用四个链接进行八路连接,方法是覆盖两个四路并使用第四个 UPI 链接交叉连接两个四路,如上图所示。但是,使用六个链接,您也可以在单个 NUMA 映像中使用 16 个插槽制作无缝机器。这将有助于英特尔的 OEM 客户更好地与 IBM Power Systems 铁矿石竞争。

无法理解为什么有人希望将八个八核可扩展 SKU 连接在一起形成一个节点,但这样的机器可以拥有 32 TB 的主内存、4.8 TB/秒的总内存带宽和 64 个核心,以 4 GHz 基本频率和 4.3 GHz Turbo Boost 速度运行。这是一个内存容量和内存带宽 CPU 集群,与具有 128 或 288 个核心的单个插槽相反。也许有人需要的是内存肌肉服务器?

也许那些购买 Granite Rapids 6900P、6700E 和 6900E 处理器的超大规模企业和云构建者正在利用这两条额外的 UPI 链路做一些有趣的事情。它们不是偶然出现的……我们知道的就这么多。

除了可扩展至四或八个插槽的 Granite Rapids 芯片版本外,还有一些版本经过调整,仅适用于单插槽数据中心级用例,这与针对电信公司和服务提供商的 Xeon 6 SoC 不同且更强大。

Granite Rapids 6500P 和 6700P 芯片的单插槽变体很有趣,它们证明了 AMD 在向超大规模计算和云构建商推销单插槽设备作为 HPC 和 AI 头节点以及更通用的服务器托架方面取得了成功。(AMD 没有四插槽或更高的 NUMA 配置,并且一直保持在两个插槽的上限。但如果 AMD 想要分一杯羹 SAP HANA 和其他大型数据库的羹,这种情况可能会改变。)

Xeon 65X1P 和 67X1P - X是变量,末尾的1表示单插槽 - 用于单插槽服务器的 Granite Rapids 芯片从 16 核到 80 核不等,虽然核心数量并不多,但足以完成某些类型的计算工作 - 以软件定义存储的控制器为例 - 并且具有大量的 I/O。

“我认为,我们今天看到很多人对这个平台非常感兴趣。”Singhal 表示,他指的是该平台的单插槽设计。“事实上,我们已经看到一些案例,我们利用这个平台从竞争对手手中夺回了设计,随着我们在市场上逐渐扩大规模,我预计会看到更多这样的情况。”

英特尔还必须满足 SMB 和边缘计算的需求,在这些情况下,具有强大 P 核的真正 Xeon 处理器非常重要,而 Xeon 6300P 芯片可以做到这一点。这些芯片可能会进入数据中心,但它会成为特洛伊木马,比如交换机或其他设备。Xeon 6300P 系列中一个计算单元的成本相当低——大约是性能 SKU 和英特尔所谓的 1 插槽 SKU 的一半,大约是四路和八路机器中使用的 Xeon 6500P 和 6700P 芯片版本价格的四分之一到一半。

Granite Rapids 6500P 和 6700P 芯片的单插槽变体很有趣,它们证明了 AMD 在向超大规模计算和云构建商推销单插槽设备作为 HPC 和 AI 头节点以及更通用的服务器托架方面取得了成功。(AMD 没有四插槽或更高的 NUMA 配置,并且一直保持在两个插槽的上限。但如果 AMD 想要分一杯羹 SAP HANA 和其他大型数据库的羹,这种情况可能会改变。)

Xeon 65X1P 和 67X1P - X是变量,末尾的1表示单插槽 - 用于单插槽服务器的 Granite Rapids 芯片从 16 核到 80 核不等,虽然核心数量并不多,但足以完成某些类型的计算工作 - 以软件定义存储的控制器为例 - 并且具有大量的 I/O。

“我认为,我们今天看到很多人对这个平台非常感兴趣。”辛加尔表示,他指的是该平台的单插槽设计。“事实上,我们已经看到一些案例,我们利用这个平台从竞争对手手中夺回了设计,随着我们在市场上逐渐扩大规模,我预计会看到更多这样的情况。”

英特尔还必须满足 SMB 和边缘计算的需求,在这些情况下,具有强大 P 核的真正 Xeon 处理器非常重要,而 Xeon 6300P 芯片可以做到这一点。这些芯片可能会进入数据中心,但它会成为特洛伊木马,比如交换机或其他设备。Xeon 6300P 系列中一个计算单元的成本相当低——大约是性能 SKU 和英特尔所谓的 1 插槽 SKU 的一半,大约是四路和八路机器中使用的 Xeon 6500P 和 6700P 芯片版本价格的四分之一到一半。

Xeon 6300P 的主内存限制为 128 GB,并且仅以 4.8 GT/秒的速度运行,因此根本不适合繁重的内存工作负载。

编译器触及核心的地方

我们将进行更彻底的性能分析,但目前,以下是 Granite Rapids 系列中的 64 核 (Xeon 6 6767P) 和 86 核 (Xeon 6 6787P) 与之前的“Emerald Rapids”系列中的 64 核 Xeon 5 8592+ 的相对性能。

就同类核心数量而言,Granite Rapids 芯片在各种工作负载(对计算、内存带宽和 I/O 的压力不同)中性能提升了 14% 至 41%。86 核顶级 Granite Rapids 6700P 系列中增加了 22 个核心,与 64 核 Emerald Rapids 芯片相比,性能提升了 30% 至 54%。

在我们看来,对于相同的 64 个核心,平均性能提升约 25%,而对于增加到 86 个核心,平均性能提升约 40%。但当然,性能总是取决于细节,虽然数据中心运行大量工作负载,但它们不会平均这些工作负载。每个工作负载的发挥取决于系统配置的优劣。如果没有足够的内存或 I/O,即使是世界上最好的 CPU 也毫无意义。

在 100% CPU 利用率下推动绝对性能通常不是 CPU 设计师的目标,即使是那些自己制造 Arm 服务器芯片的人也是如此。他们试图在典型工作负载下获得性能、散热和价格的适当平衡。对于许多超大规模和云构建者来说,40% 的峰值 CPU 是典型负载,因此英特尔优化了 Granite Rapids P 核设计,使其比 Emerald Rapids 前代产品更高效。就像这样:

因此,这为您提供了此公告的总体情况。以下是昨天宣布的其他 Granite Rapids 芯片的 SKU 表:

本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。

评论
暂无用户评论