
智能体的快速普及正迫使芯片和系统架构师从根本上重新思考数据中心的设计。他们不再仅仅优化GPU的原始吞吐量,现在还必须验证复杂的混合系统,在这些系统中,CPU负责协调长时间运行的推理循环,并管理上下文、内存和数据移动。GPU和加速器将处理最繁重的数值计算工作,但这只是众多环节之一。
这种转变也极大地增加了验证的难度。功能验证和性能验证必须同步进行,需要大规模仿真和原型设计、模拟真实的代理工作负载,并深入研究3D-IC和堆叠式存储器设计中的内存架构、上下文切换、功耗行为和热完整性。所有这些都必须安全可靠,需要通过监控和访问控制来防止自主代理访问特定数据或执行不受信任的代码。
Arm云AI业务部门全球云和AI基础设施芯片负责人Satadal Bhattacharjee表示:“智能AI的兴起正在重塑对CPU的需求。 随着AI系统变得越来越复杂,CPU正在成为持续运行的智能循环的编排和执行引擎,负责管理上下文、工具调用、内存移动、安全边界和加速器利用率。”
Arm 的预测表明,智能体人工智能将要求数据中心在相同的功耗范围内提供高达四倍的 CPU 核心密度,但这并不意味着加速器的重要性会降低。“这凸显了一个关键事实:加速器的性能越来越依赖于整个系统的效率、响应速度和平衡性,”Bhattacharjee 表示。
与此同时,代理工作负载引入了更多不可预测的控制流、不规则的内存访问模式、同步需求以及I/O密集度。“避免系统级停顿需要更紧密的CPU-加速器耦合、更高效的数据传输、更高带宽的内存访问以及能够支持一致性、隔离性和可扩展性的系统架构,”他说道。“因此,异构架构正变得更加模块化和集成化。PCIe、CXL、芯片间一致性链路和高级架构IP等技术为系统设计人员提供了平衡灵活性、带宽、延迟和效率的新方法。”
智能体对数据中心架构的影响是根本性的。“我们过去谈到人工智能时,GPU主要用于矩阵运算和数值计算,”西门子EDA产品负责人Sathishkumar Balasubramanian表示,“现在情况完全不同了,因为智能体流程正在兴起。CPU过去主要用于输入数据并将其加载到不同的GPU中。现在,CPU的用途正在从数据加载器转变为数据编排器。整个编排层都由CPU处理,因此英特尔看到需求上升,因为人们意识到他们需要CPU来完成许多智能体工作流任务,只有在必要时才使用GPU。再次强调,数据编排的兴起将至关重要,我们正在从卸载数据转向编排数据,这就是新的计算集群。”
现在,由独立服务器驱动的基础设施已经实现了智能推理循环。“只有在需要的时候才会进行GPU密集型操作,”Balasubramanian说道。“另一个变化是,过去GPU在一个机架上,CPU在另一个机架上。这样做的问题在于,所有操作都需要访问实际数据所在的内存,延迟太高。所以现在(处理器开发商)正试图效仿服务器公司过去的做法,将GPU和CPU都放在同一个机架上。”
由于智能体人工智能需要复杂的编排、工具调用和推理循环,而不能像过去几年那样仅仅依赖GPU,这标志着技术正重新转向紧密集成的异构SoC和芯片组。这一点在近期发布的英特尔酷睿Ultra系列3移动处理器(代号Panther Lake)、英伟达RTX Spark PC芯片(采用Arm CPU)、苹果Fusion架构、AMD APU以及英伟达Vera Rubin平台等产品中均有所体现。
这个概念并非全新。英特尔早在2010年1月就推出了集成CPU和GPU的SoC。但它们之间交互的基本物理机制已经发生了彻底的改变。早期的SoC将集成GPU视为辅助组件,仅用于向显示器输出图像或渲染基本的3D图形,并且依赖于速度较慢的独立内存池。而如今面向人工智能的智能SoC则专为连续、异步、多步骤的执行循环而设计。这催生了以往SoC设计中不存在的架构创新。
“他们把这些组件集成到同一个芯片里,在内存协议等方面共享相同的带宽,所以它们可以访问统一的内存,”Balasubramanian说道。“延迟完全降低了,CPU 和 GPU 端的运算能力都大幅提升。架构正在随着时代的变化而彻底改变。就连 PC 也将如此,配备更强大的 GPU 和 CPU,因为你需要运行自己的 NemoClaw 和所有 24/7 全天候代理,这需要本地计算和数据中心都进行大量的运算。”
这些芯片的架构会因最终应用的不同而有很大差异。
Quadric首席营销官Steve Roddy表示:“虽然智能体人工智能确实正在迅速影响数据中心的计算资源分配比例(CPU与GPU),但智能体人工智能崛起带来的真正影响将最直接地体现在云计算与边缘计算的整体格局中,尤其会直接影响到人工智能服务公司本身。按照目前Token需求增长的速度,即使超大规模数据中心每年投入1万亿美元的资本支出,数据中心的可用计算能力也无法满足需求。因此,近几个月来,我们看到人们对将更多GenAI计算‘马力’推向新型AI边缘设备产生了浓厚的兴趣。就在本月,我们看到英伟达推出了一款PC芯片组,声称拥有数百TOPS的推理能力,试图满足这一市场需求。但这是一款售价2500美元或更高的高端笔记本电脑,它具备所有其他人类计算机所需的PC功能,而非智能体计算解决方案。”
Roddy表示,市场需要一款专用的agentic token服务器,价格远低于1000美元,耗电量与传统家用电器或台式电脑相当。“不久的将来,我们将看到被动式风冷设备实现PetaOp级别的推理能力,这些设备适用于家庭和办公室。1亿台这样的agentic token服务器分布在家庭和办公室中,无需大规模建设数据中心或新建发电厂,就能提供超过ZettaOp级别的推理计算能力。”
数据中心仍将像精心照料的庄稼一样从农田中拔地而起。“但它们将与我们家中和办公室中庞大的分布式计算能力协同工作,”Roddy说道。实现这种新型计算模式的关键在于:将人工智能模型适配到去中心化计算模型。消费者聊天机器人和程序员的智能体工作流程都需要采用先进的模型,将计算任务分配到集中式的大规模参数模型和本地的1000亿以上参数模型上。高效节能、完全可编程、专为边缘计算设计的推理处理能力——并非重新利用的GPU。
延迟压力是这一切的基础,它要求能够快速移动数据并在需要的地方进行处理。Synopsys PCIe 和 CXL 产品管理总监 Antonio Costa指出,就在几年前,人们的关注点几乎完全集中在使用 GPU 在云端训练大型语言模型和进行推理上。
“在那种环境下,我们看到客户的设计通常是这样的:一个主CPU搭配多个GPU,CPU与GPU的比例为1:4或1:2。在我们的方案中,CPU和GPU之间将使用PCIe接口传输训练数据和参数。通常,训练的目的就是确定这些参数的权重,从而训练出一个模型。这是人工智能革命的第一波浪潮——训练模型,并在模型训练完成后进行推理,最终使每个人都能使用LLM聊天机器人。”
在这种情况下,CPU 将数据馈送到 GPU,PCIe 用作通道,而带宽是最重要的因素。“我们需要 CPU 和 GPU 之间有足够的带宽来传输所有这些参数,但延迟并不是一个大问题,因为这只是训练过程的一部分,”Costa 解释道。“然后,你将这些参数读回系统并保存。随着智能体 AI 的引入,情况发生了变化,你不再只是将数据馈送到 GPU。你使用 CPU 作为整个系统的协调器。在智能体 AI 中,CPU 与文件、网络网站和磁盘交互以读写数据,而 GPU 则像大脑一样,根据 CPU 提供的指令告诉你下一步该做什么。但真正执行操作的是 CPU。”
AI代理将根据LLM模型的指令采取行动。这需要CPU和GPU之间进行更多交互。CPU必须读取数据,并且经常需要将数据写入GPU,同时还要与周围环境交互,例如用于网络访问的网卡和用于内存扩展的固态硬盘,因为处理更多数据并根据用户需求采取行动需要更多内存。
“假设你想创建一个 PowerPoint,”Costa 说,“你必须打开 PowerPoint 应用程序。然后你必须请求 LLM 模型提供 PowerPoint 中的数据。这是一个更加以 CPU 为中心的应用,这使得 CPU 再次成为关注的焦点。由于智能体 AI 的兴起,我们最近看到了 Arm 和 Intel 的产品发布,这意味着需要更多的 PCIe 链路来连接所有周边设备以及 GPU。但现在延迟至关重要。如果响应时间过长,则意味着你的智能体运行缓慢。因此,延迟是一个关键因素。PCIe 非常适合解决延迟问题,并且由于实现智能体 AI 所需的通道和连接数量呈爆炸式增长,它正在成为应对这些挑战的基础协议。我们看到一些客户在设计这些芯片时,需要上百条通道。相比之下,用于 AI 训练的 PCIe 通道只有 16 条。因此,通道数量和带宽的需求至少是以前的五倍。”
智能 AI SoC 的验证挑战其中最大的挑战之一,是验证从数据移动到不同类型处理元件之间的交互,以及处理器和存储器之间的交互等所有方面。
“一切都变得更加复杂了,”Balasubramanian说道。“目前的验证工作量巨大。单个智能体AI芯片中存在两种不同的计算范式,你需要验证它们是否能够很好地协同工作,是否存在冲突等等。在内存方面,你能否解决内存瓶颈问题?你是如何构建内存结构的?你是如何构建数据输入和指令排队的?验证方式远不止这些。我指的是功能验证。此外,如果复杂度更高,性能验证也需要更加彻底,这将对仿真产生巨大的需求。”
每当硬件架构发生重大变化时,开发人员都需要开始共同开发软件和硬件,以确保一切功能都能正常运行。
他接着说道:“这就离不开硬件仿真与 FPGA 原型验证技术,二者会成为功能验证环节的核心支柱,保障芯片功能设计不出差错。这只是功能验证层面。后续还必须开展性能验证:要确认内存、处理器、GPU 等各单元能否满足超高算力需求,各类资源余量是否充足,这些都是研发团队必须考量的问题。第三点是,如今芯片普遍采用 3D 集成电路堆叠晶粒方案,这种技术路线要求设计方充分评估各类物理效应。就算设计出高速交换总线,也要预判其带来的热分布影响;如果温度真的很高,而且上面还有一个大容量的HBM,会发生什么?它会熔化吗?会导致晶圆变形吗?为了获得高性能的混合架构芯片,所有环节都必须完美运行。这意味着功能验证和仿真方法需要改变。你需要理解相关协议。你需要理解……”不同的内存配置。你需要设计软件架构来确保满足硬件要求,反之亦然。而实现起来则是一个巨大的挑战,涉及到3D集成电路、散热效应以及其他诸多方面。
此外,随着业界对安全风险的认知不断加深,客户越来越关注硬件安全以及安全监控的集成。“对于代理来说,这确实是个挑战,”Balasubramanian说道,“如何确保系统硬件层面的访问控制安全可靠?虽然内置了安全监控和可靠性监控,但这又是另一个需要考虑的方面,因为你需要确保代理不会执行任何不受信任的代码或其他恶意行为。还有很多其他因素需要考虑,这是一个非常庞大的领域。在这些复杂的架构中,安全和硬件监控的挑战性也大大增加。”
虽然智能体人工智能的最佳架构会因工作负载而异,但总体方向已初见端倪。“人工智能基础设施正从以加速器为中心的服务器演变为异构机架级系统,其中更多针对智能体工作流程的每个阶段和组件进行优化的专用系统可以得到最佳执行,”Arm公司的Bhattacharjee表示。
对Roddy来说,还有更多问题。“开放硬件生态系统是否会像上世纪80年代中期个人电脑那样发展演变?在初期,计算能力是模块化且可扩展的,之后才逐渐普及到日常使用。个人电脑最初是业余爱好者自带的,硬件逐步升级,最终发展成如今的笔记本电脑市场。或者,各个竞争厂商会像2000年代和2010年代的有线电视机顶盒市场那样,建立专有的封闭式设备,甚至可能与服务提供商绑定?此外,人工智能软件部署模型会发展到允许用户在不同模型之间迁移,还是边缘智能令牌服务器会被锁定在服务提供商的合同中,由服务合同补贴?这种软件模型又将如何发展?它是否会从今天开始,为OpenClaw的高级用户提供开放模型,然后逐步过渡到支持订阅服务用户的令牌生成?”
智能体人工智能正在将数据中心转变为紧密集成、持续协调的系统,其中CPU驱动的工作流、混合CPU-GPU架构以及硬件级安全都必须作为一个整体进行设计和验证。对于芯片架构师而言,真正的竞争优势在于他们能否在不牺牲可靠性和控制力的前提下,出色地协同设计计算、内存、封装和验证流程,以跟上这些快速演进的智能体工作负载。
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。
