博通、Arm携手,推动PCIe 7.0重新设计

来源:半导纵横发布时间:2025-10-20 17:16
博通
Arm
生成海报
博通、Arm携手,推动PCIe 7.0重新设计

在OCP全球峰会上,博通与Arm联合呼吁对PCI Express进行一次彻底的架构转变,主张业界必须摆脱长期存在的排序约束,以释放PCIe 7.0在人工智能(AI)和高性能计算(HPC)工作负载中的全部潜力。

在一场题为“OCP服务器基础设施中用于高速I/O连接的PCIe 7.0增强功能”的会议上,博通的杰出工程师与架构师Hemal Shah和Arm的系统架构师Travis Hamilton阐述了为何符合PCIe 7.0规范的服务器将比预期更早地被需要,以满足AI加速器和网络计算系统爆炸性的带宽需求。

PCIe传统的“根复合体到端点”(root-complex-to-endpoint)模型,长期以来足以应对以CPU为中心的系统,但现在在多加速器拓扑下面临压力。Shah和Hamilton认为,要使PCIe能作为连接CPU、XPU、网卡(NIC)和存储设备的内部互连架构,就必须放弃导致不相关操作之间产生不必要依赖的严格事务排序规则。

Hamilton用一个“伪排序”(false order)场景来说明这个问题:当两个不相关的写事务到达主机时,如果第一个事务遇到了如地址转换未命中等长延迟事件,第二个事务就必须等待。这种人为的依赖关系会将延迟传播到所有处理引擎,从而增加延迟并降低吞吐量。

提议的解决方案——无序I/O(Unordered I/O, UIO)——通过允许任何事务层数据包(Transaction Layer Packet, TLP)绕过另一个数据包,放宽了这些约束,从而有效地将延迟隔离到每个数据流中。建模结果显示,即使转换缓存未命中增加,UIO也能消除性能抖动并维持吞吐量。

因此,UIO在PCIe互连架构内实现了多个独立的路径,既支持内部连接(如网卡到内存的传输),也支持用于横向扩展架构的更大型外部PCIe互连架构。

实现UIO需要对设备职责和系统设计进行根本性的重新思考。源设备必须跟踪读和写的确认——这是对现有模型的扩展——并且系统必须维持传统的严格排序(Strict-Order)虚拟通道与UIO虚拟通道之间的共存。

Hamilton告诫说,虽然UIO的目标是对软件保持透明,但依赖隐式排序的传统应用程序将需要仔细的硬件仿真或同步机制,如屏障(barriers)。开发人员和系统集成商还需要更好地了解哪些组件支持UIO,以防止互操作性陷阱。

除了UIO,Shah将PCIe 7.0描述为在PCIe 6.0基础上的一次基本增量更新——在保持向后兼容的同时,将数据速率提高了一倍。新规范还通过增强的链路训练、扩展的平台安全功能以及通过PCIe管理接口(PCIe MI)改进的管理,带来了能效的提升。

两位工程师总结说,UIO代表了自PCIe诞生以来最具影响力的概念性转变。他们敦促设备制造商立即开始测试并集成UIO,并警告说,AI和HPC服务器很快将需要PCIe 7.0的全部带宽和灵活性,以跟上计算能力的增长步伐。

Arm :大规模AI建设的“长期需求毋庸置疑”

Arm 数据中心业务负责人表示,包括他所在的公司在内的全球最大、最具影响力的科技公司正在大力建设大规模的人工智能数据中心,“毫无疑问,这是长期需求”。

Arm 基础设施业务高级副总裁兼总经理Mohamed Awad表示:“如果从长远角度考虑,毫无疑问所有这些都是必需的。”

上个月出现了几笔庞大的人工智能数据中心交易,其中包括OpenAI协议使用Nvidia GPU平台构建至少10千兆瓦的基础设施,以及使用AMD GPU平台构建6千兆瓦的服务器场。

休斯顿系统集成商Mark III Systems的一位高管表示,由于代理AI应用能力的不断增强,对此类数据中心的需求正日益受到推理能力的驱动。这与几年前培训成为AI数据中心市场主要增长来源的情况不同。

Mark III Systems首席技术官兼战略与创新副总裁Andy Lin表示:“目前所需的规模,尤其是当你谈论这些代理模型、这些更大的推理模型时,它们的规模很大,因此随着越来越多的组织想要利用它们而不是训练自己的基础模型,他们将需要类似的平台。”该公司多年来一直被评Nvidia的顶级合作伙伴。

但Awad和其他业内人士一样,也承认日益凸显且日益严重的能源限制阻碍了越来越多的大型人工智能数据中心的建设。这些项目包括Arm与OpenAI、甲骨文、投资公司MGX及其最大投资者软银集团共同参与的价值5000亿美元的“星际之门”合资项目。

Arm 在2025年OCP全球峰会上宣布,Awad表示将通过为科技公司提供构建定制的、基于小芯片的硅产品的新标准来解决这些能耗问题,从而最大限度地提高每瓦性能。

Arm宣布将向开放计算项目 (OCP) 贡献基础芯片系统架构 (FCM) 规范。OCP是由Meta公司创立的组织,旨在为超大规模数据中心建设者制定一系列标准。全球最大的超大规模数据中心运营商——亚马逊、微软和谷歌——均使用Arm技术来定制数据中心芯片,其中亚马逊是最知名、使用量最大的用户。该公司的技术也应用于英伟达最新的机架式AI平台,这些平台正在部署于许多新的AI数据中心。

本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。

评论
暂无用户评论