随着AI数据中心规模日益庞大,云服务公司正面临一个问题:如何处理那些老旧、小型的设施?
博通公司为此提供了一个可能的解决方案,至少对于地理位置邻近的部署是如此。该公司核心交换机事业部高级副总裁兼总经理Ram Velaga表示,于本周一发布的新版Jericho网络芯片能以更快的速度传输更大量的数据,这意味着客户可以将多个较小的数据中心连接起来,从而创建一个用于开发或运行AI模型的大型系统。
博通表示,Jericho4产品能够连接多个数据中心的100多万个处理器,处理的信息量约为上一代产品的四倍。
博通已开始出货其Jericho4交换机系列,将其定位为适用于现代数据中心横向扩展AI的最先进以太网路由芯片。Jericho4专为满足分布式AI基础设施日益增长的需求而设计,提供了高达51.2Tbps的无损、深缓冲以太网性能。因此,AI工作负载可以轻松地跨机架、集群乃至地理上分散的位置进行扩展,而不会影响可靠性或性能。
随着人工智能模型的规模和复杂性持续增长,它们正迅速超越单个数据中心的容量和物理限制。将XPU(如GPU和TPU等加速器)分布在多个耗电量达兆瓦级的设施中,也带来了一系列新的网络挑战,包括需要在城域甚至区域距离内实现无损、低延迟和高带宽的传输。
Ram Velaga强调,AI时代需要能够支持超过一百万个XPU的分布式计算环境的网络解决方案。Velaga解释说,Jericho4系列旨在构建能够超越单个数据中心边界的AI规模以太网交换架构,支持长距离RoCE(融合以太网上的远程直接内存访问)传输、先进的拥塞控制和高效的互连。
Jericho4系列专为跨数据中心的横向扩展而构建,提供了一系列满足AI工作负载特定需求的功能。
现场部署已经证明了Jericho4的可靠性和有效性,能够支持超过100公里距离的可扩展AI设计。这使Jericho4成为下一代分布式AI基础设施的关键技术。
单个Jericho4系统可扩展至36,000个HyperPort,每个端口以3.2Tb/s的速度运行,具备深缓冲、线速MACsec以及超过100公里的RoCE传输能力。部署选项包括采用Jericho线卡的机箱式系统、采用Jericho叶交换机和Ramon脊交换机的分布式调度交换架构(DSF)以及固定式集中系统,所有这些都利用了博通的高基数、低延迟和高能效架构。
Jericho4是博通完整的以太网AI平台的重要组成部分,该平台还包括:
这些产品共同为构建任何规模的基于以太网的AI基础设施提供了一个开放、可扩展的平台——从紧密互连的GPU集群到区域性部署。
博通的Jericho4进入了一个竞争激烈的市场,超大规模数据中心运营商和AI基础设施提供商都旨在克服传统InfiniBand和传统以太网解决方案的局限性。英伟达(NVIDIA)凭借其基于InfiniBand的Quantum和Spectrum-X以太网交换机,在AI网络领域仍然是主导者,尤其是在紧密耦合的GPU集群中。然而,以太网的开放性、成本效益和生态系统支持正在推动行业向基于以太网的AI交换架构转变,特别是在横向扩展和多站点部署方面。
其他竞争对手,如思科(Cisco)的Nexus系列和Arista Networks,也在大力投资高性能、AI优化的以太网交换技术。然而,博通的深缓冲、无损架构,结合其在芯片创新和生态系统整合方面的领导地位,为Jericho4提供了极具吸引力的价值主张——特别是对于那些旨在构建开放、可扩展且面向未来的AI基础设施的组织而言。
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。