InfiniBand与以太网:博通与英伟达的横向扩展技术之争

来源:半导纵横发布时间:2025-10-31 16:16
英伟达
博通
生成海报
高性能计算的内部通信之争。

以太网有望重回横向扩展数据中心的主流地位,而InfiniBand在高性能计算领域依然保持强劲势头。博通和英伟达正在争夺市场主导地位。

随着人工智能模型规模呈指数级增长,数据中心的扩展方式已从单系统纵向扩展架构转向涉及数万个互连节点的横向扩展架构。横向扩展网络市场主要由两种相互竞争的技术主导:

InfiniBand:作为性能领先者,由 NVIDIA 子公司 Mellanox 推动,它利用原生 RDMA 协议提供极低的延迟(低于 2 微秒),且零丢包风险。

以太网:凭借开放的生态系统和显著的成本优势,它受到博通等主要厂商的大力支持。

2025年6月,以太网发起强有力的反击。超以太网联盟(UEC)发布了UEC 1.0规范,该规范重构了网络协议栈,实现了媲美InfiniBand的性能。凭借多项优势,以太网有望逐步扩大市场份额。这一技术变革正在重塑横向扩展市场的整个竞争格局。

横向扩展的关键战场:InfiniBand优势与以太网反击

主流的横向扩展 InfiniBand 架构本身就支持远程直接内存访问 (RDMA),其工作原理如下:

在数据传输过程中,DMA 控制器将数据发送到支持 RDMA 的网络接口卡 (RNIC)。

RNIC 将数据打包并直接传输到接收 RNIC。

由于该过程绕过了 CPU,与传统的 TCP/IP 协议不同,InfiniBand 数据传输可以实现极低的延迟,低于 2 μs。

此外,InfiniBand 还具有链路层基于信用的流量控制 (CBFC) 机制,可确保仅在接收器有可用缓冲区空间时才传输数据,从而保证零丢包。

原生 RDMA 协议需要 InfiniBand 交换机才能正常工作。然而,InfiniBand 交换机长期以来一直被 NVIDIA 的 Mellanox 所主导,这使得整个生态系统相对封闭,采购和维护成本也更高;硬件成本大约是以太网交换机的三倍。

由于其开放的生态系统、众多供应商、灵活的部署方式和较低的硬件成本,以太网已逐渐获得广泛应用。

为了将 RDMA 的优势引入以太网,IBTA(InfiniBand 贸易协会)于 2010 年推出了基于融合以太网的 RDMA(RoCE)。最初的 RoCE v1 仅在链路层添加了以太网报头,将通信限制在二层子网内,并阻止了跨路由器或不同子网的传输。

为了增强部署灵活性,IBTA 于 2014 年发布了 RoCE v2。它将三层网络层中的 InfiniBand GRH(全局路由头)替换为 IP/UDP 头部。这一改变使得标准以太网交换机和路由器能够识别并转发 RoCE 数据包,从而实现跨多个子网或路由器的传输,极大地提高了部署灵活性。然而,RoCE v2 的延迟仍然略高于原生 RDMA,约为 5 微秒,并且需要额外的功能(例如 PFC 和 ECN)来降低丢包风险。

上图突出了 InfiniBand 与 RDMA 技术下开放式 RoCE 的主要比较:

  • InfiniBand 使用完全专有的封闭协议栈,实现了最低的延迟。
  • RoCE v1 模拟以太网上的 IB 架构,但只能在同一个二层子网内运行。
  • RoCE v2 使用 IP 网络层,支持跨子网通信,并与现有的以太网数据中心基础设施具有最高的兼容性。

InfiniBand 具有极低的延迟和零丢包等固有优势,因此在当今的 AI 数据中心中仍然被广泛采用;然而,它的硬件和维护成本较高,且供应商选择有限。相比之下,基于以太网的 RoCE v2 虽然无法达到与 InfiniBand 相同的性能,但它提供了一个开放的生态系统,并且硬件和维护成本更低,这促使人们逐渐转向以太网架构。

目前,人工智能数据中心需求的增长,以及成本和生态系统方面的考量,促使英伟达进军以太网市场。除了自家的InfiniBand交换机Quantum系列之外,英伟达目前还提供Spectrum系列以太网产品。

今年,Quantum-X800 可提供 800 Gbps/端口 × 144 个端口,总计 115.2 Tbps;Spectrum-X800 可提供 800 Gbps/端口 × 64 个端口,总计 51.2 Tbps。Quantum-X800 和 Spectrum-X800 的 CPO(共封装光模块)版本预计将分别于 2025 年下半年和 2026 年下半年推出。

虽然 Spectrum 的价格高于其他厂商的以太网交换机,但NVIDIA 的优势在于其硬件和软件的深度集成,例如,与 BlueField-3 DPU 和 DOCA 2.0 平台配合使用,可实现高效的自适应路由。

交换机IC成本与CPO部署竞赛:以太网领先,InfiniBand紧随其后

在以太网领域,博通始终保持着以太网交换机的技术领先地位。其Tomahawk系列交换机芯片遵循“每两年将总带宽翻一番”的原则。到2025年,博通推出了Tomahawk 6,这是目前全球总带宽最高的交换机芯片,总带宽高达102.4 Tbps,支持1.6 Tbps/端口×64端口。此外,Tomahawk 6还支持超高速UEC 1.0协议,实现了多路径数据包喷射、LLR和CBFC等功能,进一步降低了延迟和丢包风险。

博通在CPO技术领域也处于领先地位。自2022年以来,该公司发布了Tomahawk 4 Humboldt的CPO版本,随后在2024年发布了Tomahawk 5 Bailly,并在2025年继续推出Tomahawk 6 Davisson,巩固了其在以太网硬件集成领域的领先地位。

与今年率先推出 102.4 Tbps Tomahawk 6 的博通相比,英伟达预计要到 2026 年下半年才会发布 102.4 Tbps Spectrum-X1600,其技术比博通落后大约一年。

关于 CPO,NVIDIA 预计也将在 2026 年下半年推出 102.4 Tbps Spectrum-X Photonics 的 CPO 版本,目标是赶上博通。

除了博通和英伟达阵营之外,其他厂商也加入了这场竞争。Marvell 于 2023 年推出了总带宽为 51.2 Tbps 的 Teralynx 10,思科也于 2023 年发布了总带宽为 51.2 Tbps 的 Cisco Silicon One G200 系列,以及他们的 CPO 原型机。

电通信达到极限,光集成成为焦点

传统数据传输主要依赖于铜缆电通信。然而,随着传输距离需求的增加,光纤光通信在横向扩展场景中逐渐展现出优势。如表6所示,与电通信相比,光通信具有损耗低、带宽高、抗电磁干扰能力强、传输距离远等优点。

目前,光通信主要采用可插拔光收发器进行电光信号转换。单通道传输速度已达到 200 Gbps,总带宽高达 1.6 Tbps(8 × 200 Gbps)。

随着速度的提升,功耗增加,电路板上的信号损耗也更加明显。硅光子学(SiPh)技术正是为了解决这些问题而开发的。

硅光子学将微型收发器组件集成到硅芯片中,形成光子集成电路 (PIC),如下图所示。PIC 进一步封装在芯片内部,缩短了电气距离,并用光路取而代之。这种封装方法称为共封装光学器件 (CPO)。

下图,显示了 CPO 的更广泛概念,涵盖多种封装形式,包括 OBO(板载光学器件)、CPO 和 OIO(光学 I/O)。

光引擎 (OE) 的封装逐渐靠近主 ASIC。其演变细节如下:

  • OBO:将 OE 封装在 PCB 上,现在这种封装方式不太常用。
  • 窄型CPO:将OE封装在基板上,这是目前的主流解决方案。与可插拔模块相比,功耗降低至<0.5倍(~5 pJ/bit),延迟降低至<0.1倍(~10 ns)。
  • OIO:将OE封装在中介层上,代表了未来的发展方向。与可插拔模块相比,功耗降低至<0.1倍(<1 pJ/bit),延迟降低至<0.05倍(~5 ns)。

然而,CPO仍然面临着诸如热管理、键合和耦合等技术挑战。随着光通信技术接近其极限,CPO和硅光子学的突破将决定横向扩展网络的下一个竞争格局。

以太网阵营集结:UEC推广UEC 1.0标准

如前所述,InfiniBand凭借其极低的延迟,在生成式人工智能发展的早期阶段便占据了相当大的市场份额。然而,作为主流高性能网络生态系统之一,以太网也致力于实现极低延迟。

2023年8月,超以太网联盟(UEC)成立,其初始成员包括AMD、Arista、博通、思科、Eviden、HPE、英特尔、Meta和微软。

与 NVIDIA 主导的 InfiniBand 生态系统相比,UEC 强调开放标准和互操作性,以避免对单一供应商的依赖。

2025 年 6 月,UEC 发布了 UEC 1.0,它不仅仅是基于 RoCE v2 的改进,而是对所有层(包括软件层、传输层、网络层、链路层和物理层)的完全重建。

降低延迟的关键改进之一是在传输层添加数据包交付子层(PDS)功能。其主要特点包括:

  • 利用多路径传输,在端点之间存在多条等距且速度相同的路径(轨道/车道)。
  • 网卡使用熵值将数据包分配到所有通道上,从而实现并行传输,以获得更大的带宽。

这种多层结构可以加速网络恢复,例如快速替换丢失的数据包以确保流量顺畅,近似于 InfiniBand 的自适应路由。

另一方面,为了降低丢包风险,UEC 1.0 引入了两项主要变化:

  • 链路层提供了一个可选的链路层重试 (LLR) 功能,允许本地链路在数据包丢失时快速请求重传,从而减少对优先级流控制 (PFC) 机制的依赖。
  • 链路层提供了一种可选的基于信用的流量控制 (CBFC) 功能,发送方必须先从接收方获得信用才能发送数据。接收方在处理数据并释放缓冲区空间后返回新的信用,从而实现无丢包风险的流量控制,类似于 InfiniBand 的 CBFC。

中国的规模化发展:协调标准与自主研发技术

中国的AI基础设施横向扩展架构正沿着自主性和国际兼容性原则发展。在遵循国际以太网标准的同时,国内主要企业也在积极投资自主架构,逐步形成具有本土特色的横向扩展系统。

阿里巴巴、百度、华为和腾讯等众多科技巨头选择加入UEC,共同推进UEC标准的制定。除了参与标准化工作外,中国企业也在自主研发横向扩展架构,这些架构通常以低延迟和零丢包为目标,并直接与InfiniBand进行对比。

这些专有技术架构的具体细节如下:

  • 中国移动:通用调度以太网(GSE)

中国移动在2023年5月UEC架构之前推出了GSE。它分为两个阶段:

GSE 1.0 通过端口级负载均衡和端点网络拥塞感知来优化现有的 RoCE 网络,提高数据传输稳定性和整体性能,同时减少计算浪费。

GSE 2.0 是一次完整的网络重构,从控制层、传输层到计算层重新构建了协议。它实现了多路径喷射和流量控制机制(DGSQ),能够更高效地分配流量,进一步降低延迟和丢包率,以满足未来人工智能计算中心的高性能需求。

  • 阿里云:高性能网络(HPN)

阿里云高性能网络7.0采用“双上行+多通道+双平面”设计。双上行提升网络性能,多通道实现并行数据包传输,双平面增强稳定性。下一代高性能网络8.0计划采用全自主研发的硬件,例如可实现800Gbps带宽的102.4Tbps交换芯片,并与国际同类解决方案展开对标。

  • 华为:UB-Mesh互连架构

华为在昇腾NPU平台上部署了自主研发的UB-Mesh架构,采用多维nD全网状拓扑结构,支持横向向上扩展和纵向向外扩展。当扩展到三维及以上维度时,即可达到横向向外扩展级别,能够支持超大规模AI训练集群。

中国自主研发的横向扩展架构持续发展,有望为本土企业带来更大的增长机遇。随着中兴通讯、光迅科技等企业的参与,国产光模块和硅光子技术有望形成完整的产业链,从而在人工智能基础设施网络领域开辟一条独具特色的中国发展道路。

下一代人工智能数据中心:技术转型与机遇

长期以来,NVIDIA 的 InfiniBand 凭借其超低延迟(低于 2 微秒)和零丢包率,在 AI 数据中心的横向扩展市场占据主导地位。然而,随着 UEC 1.0 标准于 2025 年 6 月发布,以太网正努力追赶 InfiniBand 的低延迟和高稳定性,逐步重夺市场竞争力。与此同时,博通持续的研发周期,每两年将交换机 IC 的带宽翻一番,不断提升以太网硬件的性能。

随着传输速率达到 1.6 Tbps 或更高,传统可插拔光模块的功耗和延迟已成为瓶颈,使得共封装光模块 (CPO) 技术在高性能网络中日益普及。CPO 将光收发器直接集成到交换芯片基板上,显著降低了功耗和延迟。博通公司在 CPO 技术方面一直处于领先地位,自 2022 年以来已推出多代基于 CPO 的交换机。英伟达也计划在 2025 年下半年发布 InfiniBand CPO 产品,这预示着 CPO 将逐步成为网络架构的主流。

随着以太网和CPO技术的成熟,人工智能数据中心网络正全面向高速光通信发展,为光收发器模块和上游供应链(包括硅光子芯片、激光源和光纤模块)创造了新的增长机会。

在横向扩展架构领域,NVIDIA 预计将继续引领传统的 InfiniBand 市场。在以太网领域,博通有望凭借其领先的高带宽交换机 IC、CPO 技术以及 UEC 标准的实施,保持其主要市场份额。

2025年8月,NVIDIA和博通同时推出了Scale-Across概念,旨在扩展跨多个数据中心的连接性。这种方法将实现更大规模的GPU互连和更远距离的传输,从而推动高性能网络和数据中心架构的新范式。

本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。

评论
暂无用户评论