过去数年,在 AI 大模型预训练的浪潮下,GPU 凭借并行计算能力的绝对优势,成为算力竞争的核心壁垒,也因此成为科技巨头与资本市场共同追逐的焦点。
彼时,NVIDIA H100 芯片一卡难求,硅谷巨头们为抢夺 GPU 资源,甚至将芯片库存量列为财报会议上的核心竞争力指标。这段狂热的历史,在投资者与大众心中刻下了一个根深蒂固的认知:AI = GPU。
但时间来到 2026 年,当你走进最先进的 AI 数据中心会发现,困扰行业的算力瓶颈早已不止 GPU—— 内存告急、光模块短缺、电力供应紧张、散热难题凸显,算力缺口正从单点扩散到整个基础设施链条。
在这些被热议的赛道之外,不禁想追问:还有哪些被忽视的机会?答案,藏在那个曾被视作 “无聊配角” 的硬件里:CPU(中央处理器)。
若你觉得 “CPU 缺货” 的说法有违直觉,不妨看看近期产业巨头的真实动向:
在这份深度报告中,将拆解 CPU 重回算力舞台中央的完整逻辑:
在探讨 2026 年超大规模数据中心为何大举采购 CPU 之前,需要先打破一个过时的迷思:“AI = GPU,GPU 越强 AI 越聪明”。要理解这一认知的转变,不妨回溯算力产业的三段历史:为什么过去 40 年是 CPU 称霸?为什么过去 10 年 GPU 逆袭上位?而现在,算力天平为何再次向 CPU 倾斜?
40 年 CPU 霸权,源于 “通用性” 基因
在个人电脑与早期服务器时代,CPU(中央处理器)是整台设备的绝对核心。无论是 Intel 还是 AMD,其 CPU 设计的底层哲学只有一个:通用性(General-Purpose)。

电脑需要处理的任务繁杂且多变:开机时加载操作系统、移动鼠标光标、一边播放 Spotify 音乐,一边打开数十个 Chrome 浏览器标签页,同时后台还在下载文件。这些任务的共同特点是:充满不确定性与复杂逻辑判断。
“如果用户点击这个按钮,就打开新窗口”“如果网络突然中断,就弹出错误提示”——CPU 正是为这种 “如果 A 发生,就执行 B” 的分支逻辑而生。它就像一把瑞士军刀,功能全面且切换任务的速度极快。在那个算力瓶颈聚焦于 “逻辑处理效率” 的年代,CPU 的运算速度直接决定了设备的流畅度。
GPU 称霸 AI 时代,赢在 “并行计算” 优势
GPU(图形处理器)的诞生初衷与 AI 毫无关联 —— 它是为 “玩游戏” 而生的。
在 3D 游戏中,屏幕上数百万个像素的颜色、光影反射效果,需要每秒钟重新计算 60 次。这类计算的特点鲜明:运算逻辑简单、数据量庞大、且各像素的计算过程互不干扰。此时,主打通用性的 CPU 就显得 “笨拙” 了。就像用一把精密的瑞士军刀去切一万颗卷心菜,远不如一万把菜刀同时开工高效。NVIDIA 正是抓住了这一痛点,设计出内置成千上万个 “微小、简单且可并行工作” 运算核心的 GPU。

而 GPU 与 AI 的结缘,源于一场 “技术巧合”。2012 年左右,科学家们发现:深度学习与神经网络的底层数学逻辑,和 3D 游戏的像素渲染运算,本质上完全一致。训练一个 AI 大模型(比如让它 “读完” 一座图书馆的书籍),对计算机而言就是将文字转化为数字,再执行数万亿次的 “矩阵乘法”。这是一种标准化、规模化的算术运算。

CPU 处理这类海量简单任务时,会因核心数量不足陷入 “算力拥堵”;而 GPU 的数千个并行核心可同时启动,运算速度是 CPU 的几十倍甚至上百倍。这正是 2024 年以前 “大模型预训练时代”,GPU 独霸算力市场的核心原因 —— 彼时的 AI 就像一个 “死记硬背的学生”,其核心需求就是纯粹的并行数学运算。
一万名士兵(GPU)vs 十位大学教授(CPU)

GPU:一万名整齐划一的士兵。这支军队最擅长 “标准化并行算术”。若让所有人同时计算 “1+1=2”,他们能瞬间完成任务。但他们的短板也很明显 —— 应变能力极差。一旦遇到逻辑分支变化或复杂任务,整支队伍就会陷入混乱,需要重新整队才能继续。更重要的是,士兵们不具备独立运行操作系统和复杂软件的能力。
CPU:十位顶尖的大学教授。教授的数量虽少,却拥有极强的 “复杂决策与逻辑判断能力”。他们专精于处理 “如果…… 就……” 的条件分支,能瞬间切换策略,从容应对不可预测的任务。更关键的是,教授们天生就是为操控各类软件、网络与数据库而生的 —— 他们是整个算力系统的 “指挥官”。
2026 年,算力天平向 CPU 倾斜的底层逻辑
总结来说,过去十年的 AI 突破,建立在 “将所有问题转化为并行数学运算” 的基础上,这造就了 GPU 的黄金时代。彼时的 AI,就像一个坐在图书馆里死记硬背的学生,只需要无穷无尽的 GPU “士兵” 帮忙翻书、做算术。但到了 2026 年,科技巨头们发现了一个新命题:AI 已经 “背完了书”,背完了书”,现在需要走进现实世界 “解决问题”。
当 AI 的行为模式从 “静态的文本生成” 转向 “动态的逻辑推理与工具操作”,仅靠一万名只会做算术的士兵已经远远不够。算力系统突然需要大量的 CPU “教授”—— 指挥 GPU 军队、操控各类软件、为 AI 搭建复杂的虚拟训练环境。GPU 是 AI 的 “肌肉”,CPU 则是 “神经系统”。当肌肉已经足够强壮时,整个 AI 产业的发展速度,开始由能指挥肌肉的 “神经系统” 决定。
2023-2024 年,全球科技巨头疯抢 GPU;2025 年,行业焦点转向内存(HBM)。而到了 2026 年,数据中心的最新算力瓶颈,悄然落在了曾经的 “配角” CPU 身上。这一转变的背后,是 AI 产业演进跨过的关键分水岭 —— 三股趋势的交汇共振,其中前两股发生在 GPU 机架 “内部”,第三股则在机架 “外部” 开辟了全新战场。
推论时代来临 ——AI 使用量的指数级爆炸
这是最容易被大众忽视,却体量最为庞大的一股力量。

在 2026 年 3 月的 GTC 大会上,NVIDIA CEO 黄仁勋(Jensen Huang)正式宣告“推论时代”(Age of Inference)全面降临。这意味着,AI 算力的最大消耗端,已经从实验室里的 “模型训练”,转向现实世界中的 “用户服务”。
背后的逻辑很简单:训练一个顶级大模型,可能需要数万张 GPU 连续运算数月,这是一项 “一次性工作”;但模型上线后,全球数亿用户每天用它搜索信息、编写代码、进行医疗诊断与金融分析 —— 这种 “推论” 需求是持续不断、永无止境的。
但推论不等于 “只用 GPU”。

每一次用户发起请求,CPU 都需要承担大量繁琐的 “前后端工作”:接收请求、任务排队、分批处理、组装提示词(Prompt)、执行 Tokenization(将人类语言转化为模型可识别的碎片),最后将 GPU 的运算结果格式化,反馈给用户。
如果说 “模型训练” 是花几个月建造一座高科技工厂,那么 “推论” 就是工厂 24 小时不间断接收订单。工厂运转时,不能只有负责生产的机器人(GPU),更需要大量调度员、包装员和品管员(CPU)—— 确保每一张订单精准、准时交付。
当全球 AI 推论量从 “每天几百万次” 飙升至 2026 年的 “每天几十亿次”,CPU 的工作量也随之呈现指数级增长。即便单次请求的 CPU 工作量不变,仅 “订单量” 的爆发,就足以让 CPU 成为新的算力瓶颈。
这也正是 AMD CEO 苏姿丰在 2026 年初强调的:“我们看到 CPU 需求显著上升,这是推论需求大幅增长的直接结果。” 据多家机构预测,2026 年推论算力占 AI 总算力的比例将超过 60%-70%,且仍在加速攀升。
Agentic AI—— 单次请求的 CPU 工作量暴增 5-10 倍
如果说推论时代带来的是 “量” 的爆炸,那么Agentic AI(智能体 AI) 就是 “质” 的颠覆 —— 它让单次请求的 CPU 工作量直接提升 5-10 倍。在 ChatGPT 时代,用户提出一个问题,GPU 运算一次就能给出答案。这是一条单向直线,CPU 仅需承担少量辅助工作。

但 2026 年的 Agentic AI 完全不同。当你对 AI 说 “帮我规划下周东京行程并预订机票”,AI 不会直接输出一段文字,而是启动一个多步骤的 “循环流程”:规划行程(CPU)→ 打开旅游网站比价(CPU 调用工具)→ 遇到网站报错,重新尝试(CPU 逻辑判断)→ 优化行程方案(GPU 推理)→ 填写机票订单并验证(CPU)
在这个复杂循环中,GPU 仅负责 “思考” 的短短几毫秒,而50%-90% 的延迟与工作量,都压在了 CPU 身上。CPU 需要承担调用 API、查阅数据库、执行代码、管理记忆状态等核心任务。

再用一个比喻理解这一变化:过去,8 台机器人(GPU)只需要 1 个领班(CPU)—— 机器人接到指令就能独立完成工作;现在,每台机器人做完一步,都要回头询问领班:“下一步怎么做?”“网页报错了怎么办?”“帮我联系航空公司确认座位!”—— 结果就是领班忙到崩溃,而昂贵的机器人只能在一旁 “发呆” 等待指令。
为了减少 GPU 闲置,数据中心不得不持续增加 CPU 数量,这直接改变了 GPU 机架内的 CPU:GPU 配比 —— 过去是 1:8,现在飙升至 1:2 甚至 1:1。以 NVIDIA 最新的 Vera Rubin NVL72 机架为例,其内置 72 颗 GPU 的同时,配备了高达 36 颗 CPU。
这里需要明确一个关键区别:推论时代让 “请求数量变多”,Agentic AI 让 “单次请求的 CPU 工作量变大”。两者形成 “乘法效应”,这正是 CPU 需求爆发远超华尔街分析师去年预测的核心原因。
RL 训练与合成数据 ——AI 的 “练习场”,完全跑在 CPU 上
前两股力量聚焦于 GPU 机架 “内部” 的推论端,而第三股力量则在机架 “外部”—— 由纯 CPU 组成的服务器农场,开辟了全新的算力战场。
2025 年底,科技巨头们遇到了一个新瓶颈:互联网上的人类高质量文本数据,几乎已被 AI “读完”。想要实现 Agentic 模型的能力突破,AI 不能再依赖 “死记硬背”,必须学会 “自己跟自己练习”—— 这就是强化学习(RL, Reinforcement Learning)与合成数据技术崛起的背景。

过去的大模型预训练,就像让 AI “读完一整座图书馆”。对计算机而言,这个过程的本质是文字转数字,再执行超大规模的加减乘除 —— 这类纯数学任务,是 GPU 的绝对主场。而现在的强化学习,更像教一个学徒修车或订机票:AI 需要亲自 “动手操作”—— 点击按钮→验证结果→修正错误→再次尝试。
当 AI 练习 “预订机票” 时,我们需要为它搭建一个虚拟的航空公司网站(环境模拟器)。这个网站有菜单、按钮、报错提示,是一个标准的 “通用软件”。整个练习过程,充满了 “如果…… 就……” 的逻辑分支:如果 AI 点错按钮,网站要弹出警告;如果网络中断,要显示错误代码。面对这种复杂的逻辑判断,只会做算术的 GPU 运转起来慢如乌龟,而擅长 “运行通用软件” 的 CPU 则如鱼得水。
为了让 AI 快速迭代升级,前沿实验室不会只搭建一个模拟网站,而是同时开启 1 万 - 10 万个平行的虚拟环境。这 10 万个虚拟世界,需要海量 CPU 核心充当 “考场管理员” 与 “裁判”—— 监控 AI 的练习过程、评估任务完成度、生成 “成绩单”,再将数据反馈给 GPU,让 GPU 更新模型参数。
我们可以用 “运动员与练习场” 的关系,理解当下的算力分工:GPU 是运动员的 “肌肉”,负责最终的思考与发力;CPU 是 “练习场与教练”,负责搭建训练环境并提供反馈。
过去,运动员只需要看比赛录像学习(GPU 读取数据),CPU 需求极低;现在,运动员需要下场训练数百万次 —— 没有足够的 CPU 搭建练习场,运动员的能力就会停滞不前。这正是 2026 年 OpenAI、xAI、Anthropic 与 Meta 等前沿实验室,大举采购纯 CPU 服务器搭建 RL 模拟农场的原因。SemiAnalysis 在 2026 年 2 月的报告中直言:“前沿 AI 实验室的 CPU,已经不足以支撑 RL 训练需求。” 而 NVIDIA 推出的 Vera CPU 机架(单机架搭载 256 颗 CPU),正是为了同时运行超过 22500 个并行 RL 环境而生。
推论需求的指数级增长、Agentic AI 带来的单次请求工作量飙升、强化学习所需的海量虚拟练习场 —— 这三股力量在 2026 年完美交汇,将 CPU 从幕后推向了算力舞台的中央。
既然 CPU 已成算力刚需,那么市场上的主流玩家们,又是如何布局应战的?为什么 GPU 霸主 NVIDIA 要跨界做 CPU?
当 Agentic AI 与强化学习将 CPU 重新推上核心舞台,你可能会问:“随便买哪一家的 CPU,不都一样吗?”答案是:完全不一样。现代数据中心的 CPU,早已不是 “主频越高,性能越强” 的单一维度比拼。AMD EPYC、Intel Xeon 与 NVIDIA Grace/Vera 三大产品线,在指令集、物理架构、GPU 协同方式上,存在着根本性的设计哲学分歧。
要理解当下的 CPU 战争,首先要回顾算力产业最古老的阵营之争 ——x86 与 ARM 两大指令集架构的对决。

过去几十年,无论是台式机、笔记本还是服务器,搭载的几乎都是 x86 架构 CPU(采用复杂指令集 CISC)。可以把它看作一把功能强大、兼容万物的超级瑞士刀。x86 的核心优势,在于无可匹敌的软件兼容性。过去数十年间,全球企业开发的操作系统、数据库、监控工具,几乎都是基于 x86 架构编写的 —— 直接部署即可运行,无需任何修改。但这份兼容性的代价,是背负了沉重的历史包袱:x86 架构内部设计复杂,功耗相对较高。
ARM 架构(采用精简指令集 RISC)的发展路径,与 x86 截然不同。它最初是为手机、平板等移动设备设计的,底层哲学是极致省电与高能效比。很长一段时间里,科技圈对 ARM 的认知都是 “省电但性能弱”,认为它只能用于移动设备,登不上服务器的 “大雅之堂”。直到几年前,苹果将 Mac 电脑的 Intel x86 芯片,替换为自研的 ARM 架构 M 系列芯片 —— 这场 “苹果革命” 彻底颠覆了市场认知:ARM 芯片不仅功耗极低,性能还显著超越传统 x86 芯片。
苹果的成功,让云端巨头们恍然大悟:ARM 架构也能做到高性能。到 2026 年,ARM 已正式杀入数据中心市场。不仅 NVIDIA 的 Grace 与 Vera CPU 采用 ARM 架构,AWS 的 Graviton、Google 的 Axion、微软的 Cobalt 等云厂商自研 CPU,也全部基于 ARM 架构打造。原因很简单:在动辄消耗几十兆瓦电力的 AI 数据中心里,ARM 的能效优势极具吸引力 —— 在部分 AI 任务中,NVIDIA Vera 的能效比是 x86 架构的 1.5-2 倍。
这一趋势对投资市场的影响深远:x86 架构 40 年的绝对垄断被打破。云端巨头为降低能耗与成本,正加速导入 ARM 架构。这也是专注于 “架构授权” 的 ARM Holdings,能在这波浪潮中收获长期结构性红利的原因;而 AMD 与 Intel,则需要依靠深厚的 “软件生态护城河” 与高核心数设计,捍卫自己的市场份额。
架构之外,芯片的物理设计方式,决定了 CPU 能集成多少核心,以及核心之间的协同效率。当前市场上主要有三种设计路线:AMD 的 Chiplet(芯粒)架构、NVIDIA 的 Monolithic(单片)架构,以及 Intel 的混合微调方案。
AMD 的 EPYC 系列 CPU(如 2026 年主力型号 Turin 与 Venice),采用的是 Chiplet 设计。它不追求单块超大芯片,而是将 CPU 拆解为 8-16 块 “小芯片(CCD)”,再通过中间的 I/O 芯片,像拼乐高一样组装成完整的处理器。其优点是生产成本低、芯片良率高,且核心数可以无限堆叠。这也是 AMD 能轻松推出 192 核甚至 256 核超高核心数处理器的关键。对于需要同时运行 10 万个虚拟环境的 RL 模拟农场而言,这种 “人多力量大” 的架构堪称完美。其缺点是芯片之间的通信存在微小延迟,在对时延要求极高的场景下,性能会受到一定影响。

NVIDIA 的 Vera CPU 走了一条完全相反的路线。它是一块巨大的单一芯片,将 88 个核心全部集成在同一块晶圆上,没有拆分也没有组装。其优点是核心之间的通信几乎没有延迟。在 Agentic AI 的推论循环中,这种超低延迟的均匀网络,能让 CPU 与 GPU 的协同效率达到极致。其缺点是核心数受限于芯片面积,无法像 Chiplet 架构那样无限扩展(Vera 仅 88 核);且大尺寸芯片的生产难度高、成本昂贵。
Intel 新一代 Xeon 系列 CPU(如 Clearwater Forest,搭载 288 个能效核),则走了中间路线。它同样采用多芯片拼接方案,但使用了先进的 EMIB 封装技术 —— 通过高密度的互连线路,让拼接后的芯片,在协同效率上无限接近 “一整块大石头”。这项技术的研发难度极高,也是 Intel 实现市场翻盘的关键赌注。

三种架构的差异,直接决定了市场格局的分化:AMD 的 Chiplet 架构,凭借高核心数与低成本优势,成为 “纯 CPU 农场” 的绝对霸主;NVIDIA 的 Monolithic 架构,则凭借超低延迟的优势,锁定 “GPU 机架内部” 的核心控制节点。
NVIDIA 的独门武器:NVLink-C2C

如果仅比拼核心数与能效,NVIDIA 很难说服客户放弃 AMD 与 Intel,转而采购自家 CPU。NVIDIA 真正的技术壁垒,是一项名为NVLink-C2C的硬件互连技术。在传统的 AMD 或 Intel 服务器中,CPU 与 GPU 来自不同厂商,两者通过 PCIe 总线通信。这种连接方式虽然稳定,但带宽有限 —— 当 Agentic AI 需要 CPU 与 GPU 每毫秒都进行高密度数据交换时,PCIe 总线就会变成 “拥堵的省道”。
NVIDIA 的解决方案极具颠覆性:将自家 Vera CPU 与 Rubin GPU,直接集成在同一块基板上(称为 Superchip 超级芯片),并通过 NVLink-C2C 搭建一条 “私人高铁”。

这条 “高铁” 的优势体现在两个维度:
这是 NVIDIA 最深的硬件护城河。只要客户的 AI 任务,需要 CPU 与 GPU 进行高频次、低延迟的协同(比如前沿的 Agentic AI 推论),就只能选择 NVIDIA 的 Superchip 方案。在这个 “紧密耦合” 的细分领域,AMD 与 Intel 目前尚无能力提供同级别的硬件支持。

为什么云端巨头不全部换成 NVIDIA CPU?
读到这里,可能会产生疑问:“NVIDIA 的 Vera CPU 这么强,为什么云端巨头不全部切换成 NVIDIA 方案?”
但实际的市场数据给出了相反的答案:2026 年,AMD 与 Intel 的服务器 CPU 持续缺货;甚至连 NVIDIA 自家的旗舰 AI 服务器(DGX Rubin NVL8),官方默认搭载的也是 Intel Xeon x86 CPU。

背后的原因,主要有四点:
这意味着,当前的 CPU 市场并非 “零和博弈”,而是整体规模(TAM)持续扩张的增量市场。
Agentic AI 创造了两种截然不同的 CPU 需求:一种是 “与 GPU 紧密耦合的低延迟控制核心”(NVIDIA 主导),另一种是 “外围支撑的高核心数并行算力”(AMD/Intel 主导)。这正是 NVIDIA 推出自研 CPU 后,AMD EPYC 依然能在 2026 年卖到缺货并涨价的核心逻辑。
至此,已经勾勒出清晰的 CPU 市场版图:NVIDIA 的 Vera 凭借 NVLink-C2C 技术,锁定 GPU 机架内部的 “控制核心”;AMD 的 EPYC 依靠 Chiplet 架构的高核心数优势,统治外围的纯 CPU 市场;Intel 的 Xeon 则凭借 x86 生态的深厚根基与七成的市场装机量,在传统企业级市场与混合部署场景中,扮演着不可替代的角色。
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。
