AMD:为什么CPU在智能体AI系统中更为重要?

来源:半导纵横发布时间:2025-12-19 11:07
AMD
CPU
生成海报
高级推理模型“需要大量的计算能力、内存和CPU”。

过去两年,人工智能领域的讨论大多围绕GPU展开。GPU通常被视为推动技术进步的主要动力,尤其是在模型规模越来越大、复杂度越来越高的情况下。但随着企业开始部署智能体人工智能和高级推理系统,技术栈中的另一个重要组成部分——CPU——正日益受到关注。

这种转变与其说是单纯的性能提升,不如说是协同工作的改进。随着人工智能系统从单模型推理转向多步骤推理和基于代理的工作流,CPU在实际应用中越来越决定着这些系统的运行效率。

今年早些时候,在AMD Advancing AI 2025大会上,OpenAI首席执行官Sam Altman也表达了类似的观点,他指出,高级推理模型“需要大量的计算能力、内存和CPU”。这一评论反映了业界的普遍看法,即人工智能的扩展如今取决于不同计算层之间的协同工作效率。

在接受 AMD 亚太区总经理 Alexey Navolokin 的采访时,他描述了随着智能 AI 从理论走向部署,CPU 的作用是如何扩大的。

CPU 作为智能体人工智能的控制层

“随着智能体人工智能的加速发展,数百万个智能体正在以前所未有的速度访问计算资源并进行生产性工作,每个智能体都与数据源、工具和其他智能体进行交互,不断产生由 CPU 驱动的操作流,”Navolokin说。

在这些环境中,CPU 的功能远不止于运行工作负载。它还负责管理系统内的协调工作。在现代 AI 集群中,CPU 负责调度、数据传输和同步,确保 GPU 始终处于忙碌状态,而不是等待输入。

他表示:“与此同时,在现代人工智能集群中,CPU扮演着同步器和协调器的角色,负责向GPU提供数据、启动内核并管理推理调度,以确保加速器得到充分利用。高IPC和高频率的CPU核心能够确保每个GPU周期都发挥作用,从而直接提升集群级性能。”

这种影响在系统层面显而易见。CPU 性能分配不均会导致昂贵的 GPU 闲置,而提升主机性能则可以在不增加加速器的情况下提高吞吐量。

“换句话说,CPU不再是辅助角色,而是指挥层,它使整个系统能够快速思考、决策和行动,”Navolokin说。

成本压力正在改变人工智能系统的设计方式

随着人工智能部署规模的扩大,成本问题变得不容忽视。许多组织仍然根据GPU数量来规划容量,但如果系统的其他部分与工作负载不匹配,这种方法可能会导致超支。

“人工智能的扩展并非关乎单一芯片类型,而是一个集成化的端到端系统,其中每个计算引擎都能发挥其最佳功能,”Navolokin说道。

他指出工作负载模式发生了变化。人工智能系统越来越依赖于多步骤工作流程、实时决策和持续的数据移动,而不是孤立的推理任务。这导致对CPU、内存和网络资源的需求持续增长。

他说:“CPU 在这个系统中扮演着不可或缺的角色——它提供了大规模运行工作负载所需的访问性、利用率、本地化和内存带宽。”

对于准备部署多智能体系统的组织而言,Navolokin将“CPU 就绪性”描述为拥有服务器级主机处理器,能够协调服务、高效地提供数据,并在分布式环境中充当控制节点。

他表示:“高性能主机 CPU 可确保 GPU 得到充分利用,从而降低推理延迟,提高吞吐量,并提升整体 AI 效率。”

内存、I/O 和同步变得更加重要

随着人工智能系统利用更大的数据集和更快的处理流程,传统的瓶颈正在发生变化。内存容量、带宽和I/O性能现在决定着系统的响应速度。

“CPU的两个特性对于达到最佳推理性能至关重要:高内存容量以减少瓶颈,以及高核心频率以保持AI管道流畅运行,”Navolokin说。

随着企业部署混合工作负载(即人工智能推理与传统企业应用程序并行运行),这种情况变得愈发突出。此时,CPU 必须高效地处理两者,同时又不迫使企业拆分基础设施。

Navolokin重点介绍了AMD EPYC处理器,以此为例说明CPU设计如何适应这些需求。他指出,EPYC处理器拥有高核心数、高内存带宽,并且支持AI和非AI工作负载。他表示,这使得企业能够仅依靠CPU高效运行小型AI部署,同时也能支持GPU驱动性能的大规模环境。

对企业而言,关键不在于具体的规格,而在于系统平衡。性能不足的主机CPU会限制GPU投资的回报,而匹配良好的架构则可以延长现有硬件的使用寿命。

开放平台作为一种扩展策略

除了硬件之外,Navolokin还强调了软件和标准在使人工智能系统更容易扩展和维护方面所起的作用。

“AMD 的开放平台方法让企业和开发者能够自由地构建、扩展和部署人工智能,几乎没有任何障碍,”他说。

他指出,ROCm 可以支持通用的 AI 框架,而无需将组织锁定在专有技术栈中。随着不同团队和地区的 AI 工作负载各不相同,对调优、定制和分布式推理的访问变得越来越重要。

这种开放性也延伸到了网络和互连领域。Navolokin讨论了AMD参与UALink和Ultra Ethernet Consortium等开放标准的情况,这些标准旨在支持更大、更灵活的AI集群。

他表示,通过专注于开放的生态系统,企业可以更好地控制系统的发展,而不是将未来的增长与单一供应商的路线图捆绑在一起。

平衡云端、边缘和本地人工智能

对于跨多个环境管理人工智能的首席信息官来说,Navolokin提出了两个广泛的原则:开放性和分布式。

开放平台使团队能够根据工作负载的变化进行调整,而分布式计算则有助于将推理部署在更靠近数据生成位置的地方。并非所有人工智能工作负载都适合放在中央数据中心,尤其是在延迟、能耗或数据隐私成为关注焦点时。

“虽然集中式基础设施非常适合训练大型模型,但实时推理通常在更靠近数据源的 AI PC 或边缘设备上运行效果最佳,”他说。

这种方法可以降低成本并提高响应速度,尤其是在人工智能融入日常业务流程的情况下。

为下一阶段的人工智能应用做好准备

Navolokin展望未来时表示,企业应该减少对单个组件的关注,更多地关注系统如何在不同环境中相互配合。

“随着人工智能推理技术逐渐融入企业环境,IT 领导者的首要任务不应该是关注单个计算资源的性能,而应该是关注基础设施战略如何发展以支持在各种系统中部署,”他说道。

他指出,AMD 计划推出代号为“Helios”的集成机架级架构,预计将于 2026 年推出,以此为例说明供应商如何围绕这一理念整合 CPU、GPU、网络和软件。

对企业而言,更广泛的信息很明确。随着人工智能系统变得越来越复杂,这些部署的成功与否将不再取决于任何单一的加速器,而更多地取决于整个技术栈的设计是否能够协同运作。

本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。

评论
暂无用户评论