图解AI算力新瓶颈:下一个主角是CPU?

来源:半导体产业纵横发布时间:2026-04-16 17:49
AI
CPU
生成海报
算力赛道要换主角,CPU重登舞台中心。

过去数年,在 AI 大模型预训练的浪潮下,GPU 凭借并行计算能力的绝对优势,成为算力竞争的核心壁垒,也因此成为科技巨头与资本市场共同追逐的焦点。

彼时,NVIDIA H100 芯片一卡难求,硅谷巨头们为抢夺 GPU 资源,甚至将芯片库存量列为财报会议上的核心竞争力指标。这段狂热的历史,在投资者与大众心中刻下了一个根深蒂固的认知:AI = GPU。

但时间来到 2026 年,当你走进最先进的 AI 数据中心会发现,困扰行业的算力瓶颈早已不止 GPU—— 内存告急、光模块短缺、电力供应紧张、散热难题凸显,算力缺口正从单点扩散到整个基础设施链条。

在这些被热议的赛道之外,不禁想追问:还有哪些被忽视的机会?答案,藏在那个曾被视作 “无聊配角” 的硬件里:CPU(中央处理器)。

若你觉得 “CPU 缺货” 的说法有违直觉,不妨看看近期产业巨头的真实动向:

  • AMD CEO 苏姿丰(Lisa Su)在财报会议上直言,EPYC 服务器 CPU 需求 “远超预期”。在核心的数据中心领域,AMD 高端 CPU 已陷入严重供不应求的境地,交货周期拉长至 6 个月以上,甚至手握 10%-15% 的涨价话语权。
  • 一度陷入低谷的 Intel,在 2025 年底意外迎来服务器 CPU 库存见底。公司不得不紧急调整产能,将原本预留给 PC 产线的晶圆,转投服务器 CPU 生产以缓解缺口。
  • 最具说服力的信号,来自 “GPU 霸主” NVIDIA—— 其 AI 基础设施主管公开承认:“在扩展 AI 与智能体(Agentic)工作流时,CPU 正成为我们的瓶颈。”

在这份深度报告中,将拆解 CPU 重回算力舞台中央的完整逻辑:

CPU vs GPU—— 必须搞懂的底层逻辑

在探讨 2026 年超大规模数据中心为何大举采购 CPU 之前,需要先打破一个过时的迷思:“AI = GPU,GPU 越强 AI 越聪明”。要理解这一认知的转变,不妨回溯算力产业的三段历史:为什么过去 40 年是 CPU 称霸?为什么过去 10 年 GPU 逆袭上位?而现在,算力天平为何再次向 CPU 倾斜?

40 年 CPU 霸权,源于 “通用性” 基因

在个人电脑与早期服务器时代,CPU(中央处理器)是整台设备的绝对核心。无论是 Intel 还是 AMD,其 CPU 设计的底层哲学只有一个:通用性(General-Purpose)。

电脑需要处理的任务繁杂且多变:开机时加载操作系统、移动鼠标光标、一边播放 Spotify 音乐,一边打开数十个 Chrome 浏览器标签页,同时后台还在下载文件。这些任务的共同特点是:充满不确定性与复杂逻辑判断。

“如果用户点击这个按钮,就打开新窗口”“如果网络突然中断,就弹出错误提示”——CPU 正是为这种 “如果 A 发生,就执行 B” 的分支逻辑而生。它就像一把瑞士军刀,功能全面且切换任务的速度极快。在那个算力瓶颈聚焦于 “逻辑处理效率” 的年代,CPU 的运算速度直接决定了设备的流畅度。

GPU 称霸 AI 时代,赢在 “并行计算” 优势

GPU(图形处理器)的诞生初衷与 AI 毫无关联 —— 它是为 “玩游戏” 而生的。

在 3D 游戏中,屏幕上数百万个像素的颜色、光影反射效果,需要每秒钟重新计算 60 次。这类计算的特点鲜明:运算逻辑简单、数据量庞大、且各像素的计算过程互不干扰。此时,主打通用性的 CPU 就显得 “笨拙” 了。就像用一把精密的瑞士军刀去切一万颗卷心菜,远不如一万把菜刀同时开工高效。NVIDIA 正是抓住了这一痛点,设计出内置成千上万个 “微小、简单且可并行工作” 运算核心的 GPU。

而 GPU 与 AI 的结缘,源于一场 “技术巧合”。2012 年左右,科学家们发现:深度学习与神经网络的底层数学逻辑,和 3D 游戏的像素渲染运算,本质上完全一致。训练一个 AI 大模型(比如让它 “读完” 一座图书馆的书籍),对计算机而言就是将文字转化为数字,再执行数万亿次的 “矩阵乘法”。这是一种标准化、规模化的算术运算。

CPU 处理这类海量简单任务时,会因核心数量不足陷入 “算力拥堵”;而 GPU 的数千个并行核心可同时启动,运算速度是 CPU 的几十倍甚至上百倍。这正是 2024 年以前 “大模型预训练时代”,GPU 独霸算力市场的核心原因 —— 彼时的 AI 就像一个 “死记硬背的学生”,其核心需求就是纯粹的并行数学运算。

一万名士兵(GPU)vs 十位大学教授(CPU)

 GPU:一万名整齐划一的士兵。这支军队最擅长 “标准化并行算术”。若让所有人同时计算 “1+1=2”,他们能瞬间完成任务。但他们的短板也很明显 —— 应变能力极差。一旦遇到逻辑分支变化或复杂任务,整支队伍就会陷入混乱,需要重新整队才能继续。更重要的是,士兵们不具备独立运行操作系统和复杂软件的能力。

CPU:十位顶尖的大学教授。教授的数量虽少,却拥有极强的 “复杂决策与逻辑判断能力”。他们专精于处理 “如果…… 就……” 的条件分支,能瞬间切换策略,从容应对不可预测的任务。更关键的是,教授们天生就是为操控各类软件、网络与数据库而生的 —— 他们是整个算力系统的 “指挥官”。

2026 年,算力天平向 CPU 倾斜的底层逻辑

总结来说,过去十年的 AI 突破,建立在 “将所有问题转化为并行数学运算” 的基础上,这造就了 GPU 的黄金时代。彼时的 AI,就像一个坐在图书馆里死记硬背的学生,只需要无穷无尽的 GPU “士兵” 帮忙翻书、做算术。但到了 2026 年,科技巨头们发现了一个新命题:AI 已经 “背完了书”,背完了书”,现在需要走进现实世界 “解决问题”。

当 AI 的行为模式从 “静态的文本生成” 转向 “动态的逻辑推理与工具操作”,仅靠一万名只会做算术的士兵已经远远不够。算力系统突然需要大量的 CPU “教授”—— 指挥 GPU 军队、操控各类软件、为 AI 搭建复杂的虚拟训练环境。GPU 是 AI 的 “肌肉”,CPU 则是 “神经系统”。当肌肉已经足够强壮时,整个 AI 产业的发展速度,开始由能指挥肌肉的 “神经系统” 决定。

2026 年,三股力量同时引爆 CPU 需求

2023-2024 年,全球科技巨头疯抢 GPU;2025 年,行业焦点转向内存(HBM)。而到了 2026 年,数据中心的最新算力瓶颈,悄然落在了曾经的 “配角” CPU 身上。这一转变的背后,是 AI 产业演进跨过的关键分水岭 —— 三股趋势的交汇共振,其中前两股发生在 GPU 机架 “内部”,第三股则在机架 “外部” 开辟了全新战场。

推论时代来临 ——AI 使用量的指数级爆炸

这是最容易被大众忽视,却体量最为庞大的一股力量。

在 2026 年 3 月的 GTC 大会上,NVIDIA CEO 黄仁勋(Jensen Huang)正式宣告“推论时代”(Age of Inference)全面降临。这意味着,AI 算力的最大消耗端,已经从实验室里的 “模型训练”,转向现实世界中的 “用户服务”。

背后的逻辑很简单:训练一个顶级大模型,可能需要数万张 GPU 连续运算数月,这是一项 “一次性工作”;但模型上线后,全球数亿用户每天用它搜索信息、编写代码、进行医疗诊断与金融分析 —— 这种 “推论” 需求是持续不断、永无止境的。

但推论不等于 “只用 GPU”。

每一次用户发起请求,CPU 都需要承担大量繁琐的 “前后端工作”:接收请求、任务排队、分批处理、组装提示词(Prompt)、执行 Tokenization(将人类语言转化为模型可识别的碎片),最后将 GPU 的运算结果格式化,反馈给用户。

如果说 “模型训练” 是花几个月建造一座高科技工厂,那么 “推论” 就是工厂 24 小时不间断接收订单。工厂运转时,不能只有负责生产的机器人(GPU),更需要大量调度员、包装员和品管员(CPU)—— 确保每一张订单精准、准时交付。

当全球 AI 推论量从 “每天几百万次” 飙升至 2026 年的 “每天几十亿次”,CPU 的工作量也随之呈现指数级增长。即便单次请求的 CPU 工作量不变,仅 “订单量” 的爆发,就足以让 CPU 成为新的算力瓶颈。

这也正是 AMD CEO 苏姿丰在 2026 年初强调的:“我们看到 CPU 需求显著上升,这是推论需求大幅增长的直接结果。” 据多家机构预测,2026 年推论算力占 AI 总算力的比例将超过 60%-70%,且仍在加速攀升。

Agentic AI—— 单次请求的 CPU 工作量暴增 5-10 倍

如果说推论时代带来的是 “量” 的爆炸,那么Agentic AI(智能体 AI) 就是 “质” 的颠覆 —— 它让单次请求的 CPU 工作量直接提升 5-10 倍。在 ChatGPT 时代,用户提出一个问题,GPU 运算一次就能给出答案。这是一条单向直线,CPU 仅需承担少量辅助工作。

但 2026 年的 Agentic AI 完全不同。当你对 AI 说 “帮我规划下周东京行程并预订机票”,AI 不会直接输出一段文字,而是启动一个多步骤的 “循环流程”:规划行程(CPU)→ 打开旅游网站比价(CPU 调用工具)→ 遇到网站报错,重新尝试(CPU 逻辑判断)→ 优化行程方案(GPU 推理)→ 填写机票订单并验证(CPU)

在这个复杂循环中,GPU 仅负责 “思考” 的短短几毫秒,而50%-90% 的延迟与工作量,都压在了 CPU 身上。CPU 需要承担调用 API、查阅数据库、执行代码、管理记忆状态等核心任务。

再用一个比喻理解这一变化:过去,8 台机器人(GPU)只需要 1 个领班(CPU)—— 机器人接到指令就能独立完成工作;现在,每台机器人做完一步,都要回头询问领班:“下一步怎么做?”“网页报错了怎么办?”“帮我联系航空公司确认座位!”—— 结果就是领班忙到崩溃,而昂贵的机器人只能在一旁 “发呆” 等待指令。

为了减少 GPU 闲置,数据中心不得不持续增加 CPU 数量,这直接改变了 GPU 机架内的 CPU:GPU 配比 —— 过去是 1:8,现在飙升至 1:2 甚至 1:1。以 NVIDIA 最新的 Vera Rubin NVL72 机架为例,其内置 72 颗 GPU 的同时,配备了高达 36 颗 CPU。

这里需要明确一个关键区别:推论时代让 “请求数量变多”,Agentic AI 让 “单次请求的 CPU 工作量变大”。两者形成 “乘法效应”,这正是 CPU 需求爆发远超华尔街分析师去年预测的核心原因。

RL 训练与合成数据 ——AI 的 “练习场”,完全跑在 CPU 上

前两股力量聚焦于 GPU 机架 “内部” 的推论端,而第三股力量则在机架 “外部”—— 由纯 CPU 组成的服务器农场,开辟了全新的算力战场。

2025 年底,科技巨头们遇到了一个新瓶颈:互联网上的人类高质量文本数据,几乎已被 AI “读完”。想要实现 Agentic 模型的能力突破,AI 不能再依赖 “死记硬背”,必须学会 “自己跟自己练习”—— 这就是强化学习(RL, Reinforcement Learning)与合成数据技术崛起的背景。

过去的大模型预训练,就像让 AI “读完一整座图书馆”。对计算机而言,这个过程的本质是文字转数字,再执行超大规模的加减乘除 —— 这类纯数学任务,是 GPU 的绝对主场。而现在的强化学习,更像教一个学徒修车或订机票:AI 需要亲自 “动手操作”—— 点击按钮→验证结果→修正错误→再次尝试。

当 AI 练习 “预订机票” 时,我们需要为它搭建一个虚拟的航空公司网站(环境模拟器)。这个网站有菜单、按钮、报错提示,是一个标准的 “通用软件”。整个练习过程,充满了 “如果…… 就……” 的逻辑分支:如果 AI 点错按钮,网站要弹出警告;如果网络中断,要显示错误代码。面对这种复杂的逻辑判断,只会做算术的 GPU 运转起来慢如乌龟,而擅长 “运行通用软件” 的 CPU 则如鱼得水。

为了让 AI 快速迭代升级,前沿实验室不会只搭建一个模拟网站,而是同时开启 1 万 - 10 万个平行的虚拟环境。这 10 万个虚拟世界,需要海量 CPU 核心充当 “考场管理员” 与 “裁判”—— 监控 AI 的练习过程、评估任务完成度、生成 “成绩单”,再将数据反馈给 GPU,让 GPU 更新模型参数。

我们可以用 “运动员与练习场” 的关系,理解当下的算力分工:GPU 是运动员的 “肌肉”,负责最终的思考与发力;CPU 是 “练习场与教练”,负责搭建训练环境并提供反馈。

过去,运动员只需要看比赛录像学习(GPU 读取数据),CPU 需求极低;现在,运动员需要下场训练数百万次 —— 没有足够的 CPU 搭建练习场,运动员的能力就会停滞不前。这正是 2026 年 OpenAI、xAI、Anthropic 与 Meta 等前沿实验室,大举采购纯 CPU 服务器搭建 RL 模拟农场的原因。SemiAnalysis 在 2026 年 2 月的报告中直言:“前沿 AI 实验室的 CPU,已经不足以支撑 RL 训练需求。” 而 NVIDIA 推出的 Vera CPU 机架(单机架搭载 256 颗 CPU),正是为了同时运行超过 22500 个并行 RL 环境而生。

推论需求的指数级增长、Agentic AI 带来的单次请求工作量飙升、强化学习所需的海量虚拟练习场 —— 这三股力量在 2026 年完美交汇,将 CPU 从幕后推向了算力舞台的中央。

既然 CPU 已成算力刚需,那么市场上的主流玩家们,又是如何布局应战的?为什么 GPU 霸主 NVIDIA 要跨界做 CPU?

CPU 架构战争 ——AMD EPYC vs Intel Xeon vs NVIDIA Grace/Vera

当 Agentic AI 与强化学习将 CPU 重新推上核心舞台,你可能会问:“随便买哪一家的 CPU,不都一样吗?”答案是:完全不一样。现代数据中心的 CPU,早已不是 “主频越高,性能越强” 的单一维度比拼。AMD EPYC、Intel Xeon 与 NVIDIA Grace/Vera 三大产品线,在指令集、物理架构、GPU 协同方式上,存在着根本性的设计哲学分歧。

要理解当下的 CPU 战争,首先要回顾算力产业最古老的阵营之争 ——x86 与 ARM 两大指令集架构的对决。

过去几十年,无论是台式机、笔记本还是服务器,搭载的几乎都是 x86 架构 CPU(采用复杂指令集 CISC)。可以把它看作一把功能强大、兼容万物的超级瑞士刀。x86 的核心优势,在于无可匹敌的软件兼容性。过去数十年间,全球企业开发的操作系统、数据库、监控工具,几乎都是基于 x86 架构编写的 —— 直接部署即可运行,无需任何修改。但这份兼容性的代价,是背负了沉重的历史包袱:x86 架构内部设计复杂,功耗相对较高。

ARM 架构(采用精简指令集 RISC)的发展路径,与 x86 截然不同。它最初是为手机、平板等移动设备设计的,底层哲学是极致省电与高能效比。很长一段时间里,科技圈对 ARM 的认知都是 “省电但性能弱”,认为它只能用于移动设备,登不上服务器的 “大雅之堂”。直到几年前,苹果将 Mac 电脑的 Intel x86 芯片,替换为自研的 ARM 架构 M 系列芯片 —— 这场 “苹果革命” 彻底颠覆了市场认知:ARM 芯片不仅功耗极低,性能还显著超越传统 x86 芯片。

苹果的成功,让云端巨头们恍然大悟:ARM 架构也能做到高性能。到 2026 年,ARM 已正式杀入数据中心市场。不仅 NVIDIA 的 Grace 与 Vera CPU 采用 ARM 架构,AWS 的 Graviton、Google 的 Axion、微软的 Cobalt 等云厂商自研 CPU,也全部基于 ARM 架构打造。原因很简单:在动辄消耗几十兆瓦电力的 AI 数据中心里,ARM 的能效优势极具吸引力 —— 在部分 AI 任务中,NVIDIA Vera 的能效比是 x86 架构的 1.5-2 倍。

这一趋势对投资市场的影响深远:x86 架构 40 年的绝对垄断被打破。云端巨头为降低能耗与成本,正加速导入 ARM 架构。这也是专注于 “架构授权” 的 ARM Holdings,能在这波浪潮中收获长期结构性红利的原因;而 AMD 与 Intel,则需要依靠深厚的 “软件生态护城河” 与高核心数设计,捍卫自己的市场份额。

架构之外,芯片的物理设计方式,决定了 CPU 能集成多少核心,以及核心之间的协同效率。当前市场上主要有三种设计路线:AMD 的 Chiplet(芯粒)架构、NVIDIA 的 Monolithic(单片)架构,以及 Intel 的混合微调方案。

AMD 的 EPYC 系列 CPU(如 2026 年主力型号 Turin 与 Venice),采用的是 Chiplet 设计。它不追求单块超大芯片,而是将 CPU 拆解为 8-16 块 “小芯片(CCD)”,再通过中间的 I/O 芯片,像拼乐高一样组装成完整的处理器。其优点是生产成本低、芯片良率高,且核心数可以无限堆叠。这也是 AMD 能轻松推出 192 核甚至 256 核超高核心数处理器的关键。对于需要同时运行 10 万个虚拟环境的 RL 模拟农场而言,这种 “人多力量大” 的架构堪称完美。其缺点是芯片之间的通信存在微小延迟,在对时延要求极高的场景下,性能会受到一定影响。

NVIDIA 的 Vera CPU 走了一条完全相反的路线。它是一块巨大的单一芯片,将 88 个核心全部集成在同一块晶圆上,没有拆分也没有组装。其优点是核心之间的通信几乎没有延迟。在 Agentic AI 的推论循环中,这种超低延迟的均匀网络,能让 CPU 与 GPU 的协同效率达到极致。其缺点是核心数受限于芯片面积,无法像 Chiplet 架构那样无限扩展(Vera 仅 88 核);且大尺寸芯片的生产难度高、成本昂贵。

Intel 新一代 Xeon 系列 CPU(如 Clearwater Forest,搭载 288 个能效核),则走了中间路线。它同样采用多芯片拼接方案,但使用了先进的 EMIB 封装技术 —— 通过高密度的互连线路,让拼接后的芯片,在协同效率上无限接近 “一整块大石头”。这项技术的研发难度极高,也是 Intel 实现市场翻盘的关键赌注。

三种架构的差异,直接决定了市场格局的分化:AMD 的 Chiplet 架构,凭借高核心数与低成本优势,成为 “纯 CPU 农场” 的绝对霸主;NVIDIA 的 Monolithic 架构,则凭借超低延迟的优势,锁定 “GPU 机架内部” 的核心控制节点。

NVIDIA 的独门武器:NVLink-C2C

如果仅比拼核心数与能效,NVIDIA 很难说服客户放弃 AMD 与 Intel,转而采购自家 CPU。NVIDIA 真正的技术壁垒,是一项名为NVLink-C2C的硬件互连技术。在传统的 AMD 或 Intel 服务器中,CPU 与 GPU 来自不同厂商,两者通过 PCIe 总线通信。这种连接方式虽然稳定,但带宽有限 —— 当 Agentic AI 需要 CPU 与 GPU 每毫秒都进行高密度数据交换时,PCIe 总线就会变成 “拥堵的省道”。

NVIDIA 的解决方案极具颠覆性:将自家 Vera CPU 与 Rubin GPU,直接集成在同一块基板上(称为 Superchip 超级芯片),并通过 NVLink-C2C 搭建一条 “私人高铁”。

这条 “高铁” 的优势体现在两个维度:

  1. 速度碾压:2026 年的 Vera/Rubin 世代,NVLink-C2C 的双向带宽高达 1.8TB/s,是传统 PCIe 总线的 7 倍以上;
  2. 内存共享:这是其核心竞争力。通过 NVLink-C2C,GPU 可以直接访问 CPU 的内存资源。AI 模型的庞大上下文数据(KV Cache),可以直接存储在 CPU 的低成本大容量内存中,GPU 随用随取 —— 完全不需要软件工程师编写复杂的数据搬运程序。

这是 NVIDIA 最深的硬件护城河。只要客户的 AI 任务,需要 CPU 与 GPU 进行高频次、低延迟的协同(比如前沿的 Agentic AI 推论),就只能选择 NVIDIA 的 Superchip 方案。在这个 “紧密耦合” 的细分领域,AMD 与 Intel 目前尚无能力提供同级别的硬件支持。

为什么云端巨头不全部换成 NVIDIA CPU?

读到这里,可能会产生疑问:“NVIDIA 的 Vera CPU 这么强,为什么云端巨头不全部切换成 NVIDIA 方案?”

但实际的市场数据给出了相反的答案:2026 年,AMD 与 Intel 的服务器 CPU 持续缺货;甚至连 NVIDIA 自家的旗舰 AI 服务器(DGX Rubin NVL8),官方默认搭载的也是 Intel Xeon x86 CPU。

背后的原因,主要有四点:

  1. 核心数无法满足需求:如前文所述,RL 模拟农场需要的是 “海量并行处理能力”。AMD EPYC 单芯片最高可达 256 核,而 NVIDIA Vera 仅 88 核。对于无需与 GPU 紧密耦合的 “纯 CPU 任务”,AMD 的性价比优势显著。
  2. 软件生态的 “路径依赖”:数据中心内部,部署着成千上万的 x86 架构软件 —— 排程系统、数据库、安全工具等。云端巨头不可能为了一个 AI 项目,将整个基础设施的底层软件全部重构为 ARM 版本。
  3. 产能与供应量限制:NVIDIA 的 CPU 产能,受限于台积电的先进封装工艺,远低于 AMD 与 Intel 的规模。云端巨头动辄需要数十万颗 CPU,NVIDIA 的产能根本无法满足如此庞大的需求。
  4. 混合部署才是最优解:云端巨头的策略非常清晰 —— 将数据中心划分为两大板块:
  • 核心算力区(GPU 训练 / 推论机架):采用 NVIDIA Superchip 方案(Vera CPU + GPU),享受 NVLink-C2C 的超低延迟协同优势;
  • 外围支援区(纯 CPU 农场):大规模采购 AMD EPYC 与 Intel Xeon,承担 RL 模拟、合成数据生成、传统软件排程等任务。

这意味着,当前的 CPU 市场并非 “零和博弈”,而是整体规模(TAM)持续扩张的增量市场。

Agentic AI 创造了两种截然不同的 CPU 需求:一种是 “与 GPU 紧密耦合的低延迟控制核心”(NVIDIA 主导),另一种是 “外围支撑的高核心数并行算力”(AMD/Intel 主导)。这正是 NVIDIA 推出自研 CPU 后,AMD EPYC 依然能在 2026 年卖到缺货并涨价的核心逻辑。

至此,已经勾勒出清晰的 CPU 市场版图:NVIDIA Vera 凭借 NVLink-C2C 技术,锁定 GPU 机架内部的 控制核心AMD EPYC 依靠 Chiplet 架构的高核心数优势,统治外围的纯 CPU 市场Intel Xeon 则凭借 x86 生态的深厚根基与七成的市场装机量,在传统企业级市场与混合部署场景中,扮演着不可替代的角色。

本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。

评论
暂无用户评论