从CUDA到AI，从GPU到CPU：黄仁勋袒露20年未变的 “加速计算” 野心

来源：半导体产业纵横发布时间：2026-03-28 13:08

英伟达

CPU

生成海报

英伟达的战略始终围绕“打破计算边界” 这一核心。

2026 年圣何塞GTC大会期间，英伟达 CEO 黄仁勋与分析师Stratechery 完成了第五次深度对话。这场时长超 1 小时的访谈中，这位全球市值最高科技公司的掌舵人，既回溯了 CUDA 生态 20 年的根基，也详解了 CPU 业务、Groq 收购等 “战略转变”，更直面中国市场竞争、地缘政治压力等争议。黄仁勋始终强调：“英伟达不是 GPU 公司，而是加速计算公司”，其背后是贯穿硬件、软件、生态的统一战略逻辑。

CUDA 的终极使命

在 GTC 2026 主题演讲中，黄仁勋花大量时间回溯可编程着色器与 CUDA 的起源，这一看似怀旧的举动，实则是针对 AI 时代的战略重申。他指出，AI 正全面渗透 Excel、Photoshop、SQL 数据库等人类常用工具，这些软件必须实现超高速加速才能匹配 AI 的运行效率，“我们需要加速世界上所有软件，让 AI 能自主调用它们”。在黄仁勋看来，加速计算的本质是全栈问题，绝非单纯依赖芯片硬件，而是需要深度理解应用场景、重构适配 GPU 的算法 —— 这能让性能提升 10-100 倍，同时还要构建完善的开发者生态。如今，英伟达的布局已延伸至 AI 工厂领域，单个千兆瓦级 AI 工厂的投资高达 500-600 亿美元，其中仅 150-170 亿美元用于土地、电力等基础设施，其余均投入计算、网络、存储及系统软件。这意味着英伟达的角色早已超越芯片供应商，成为 “AI 工厂总设计师”，通过组件间的协同优化突破效率极限。

AI领域的核心变革

谈及过去一年 AI 领域的核心变革，黄仁勋将焦点放在 “推理能力的成熟” 上。他认为，生成式 AI 已通过 “推理 + 反思 + 检索 + 搜索” 的组合方式解决了幻觉问题，实现 “接地能力” 的显著跃升，真正从 “生成信息” 迈向 “创造经济价值” 的新阶段。其中，编码成为 AI 商业化落地的关键验证场景。黄仁勋解释，编程与自然语言存在本质差异，前者具有结构化、可验证、需编译运行的特性，这一特性推动 AI 工具完成了关键突破。如今，英伟达内部 100% 的软件工程师都在使用代码助手，“他们不再需要编写基础代码，而是可以聚焦架构设计与创新，工作效率大幅提升”。同时他也强调，Transformer 模型并非万能解决方案，AI 需要多元化的模型体系：长对话场景需要 Transformer 与固态模块结合的混合架构（如 Nemotron 3），物理模拟需要几何感知模型（如 cuEquivariance），而连续动作生成则需要突破离散标记的限制，“不同场景需要不同的技术适配，这是 AI 发展的必然趋势”。

CPU是 “不浪费 GPU 的最优搭档”

针对外界对英伟达扩张 CPU 业务的质疑，黄仁勋澄清了背后的核心逻辑。他表示，摩尔定律失效后，加速计算的目标从未是取代 CPU，而是避免 “GPU 等待 CPU” 造成的资源浪费。阿姆达尔定律的过时，意味着通用计算与加速计算必须协同发展，而非单纯堆砌晶体管。基于这一认知，英伟达推出的 Vera CPU 采用了差异化设计思路：不同于超大规模云厂商 “多核心、低单线程” 的计费导向，Vera 聚焦 “超高单线程性能 + 三倍于传统 CPU 的带宽”，核心目标是解决 AI 智能体工具使用中的 I/O 瓶颈，“GPU 的价值极高，绝对不能闲置，必须搭配最优的 CPU 才能发挥最大效能”。在架构兼容方面，英伟达采取了双轨策略：通过与英特尔的合作延续 x86 架构支持，以适配企业级存量协议栈；同时通过 Grace 系列布局 Arm 架构，覆盖数据中心与 PC 双场景的工具加速需求，形成全面的产品矩阵。

为什么收购Groq？

收购 Groq 被外界视为英伟达近期的关键战略动作，黄仁勋在访谈中揭示了这一决策的深层考量。他指出，AI 推理领域存在一个核心矛盾：“吞吐量” 与 “令牌速率” 难以兼顾 —— 通用 GPU 能够覆盖大部分场景，但高价值智能体（如编码、专业工具调用）对 “极低延迟 + 超高令牌速率” 的需求无法得到充分满足，而 Groq 的架构恰好弥补了这一缺口，能够与 Grace Blackwell 形成协同效应。值得注意的是，这并非简单的技术并购，而是基于英伟达已研究 3 年的 “解耦推理” 技术（源于 Dynamo 项目），将 Groq 的低延迟架构与自身软件栈进行深度耦合，甚至细化到解码过程中浮点运算与注意力机制的拆分。在商业化边界上，黄仁勋明确表示，Groq 并非面向所有客户：对于免费用户占比高的平台而言，投入 Groq 的成本收益比不高；但对于 OpenAI、Anthropic 等 “高价值智能体服务商”，Groq 能够将编码速度提升 10 倍，直接转化为收入增长，“这是一场精准的战略布局，而非盲目扩张”。

开源浪潮下的竞争

黄仁勋表示，中国在开源软件领域的贡献显著，全球 50% 的 AI 研究人员来自中国，且极具创造力，DeepSeek、Kimi、Qwen 等模型已形成独特的技术路线，“这些都不是普通的技术成果，而是真正优秀的创新”。黄仁勋表达：如果美国技术栈无法持续渗透中国市场，可能面临中国开源生态的反向冲击。他进一步指出，美国的一些政策做法正在损害其在基础设施、芯片、平台、模型、应用五大层面的领先能力，“认为制胜之道在于自上而下的捆绑限制，是极其严重的错误，我们必须让所有层面都参与市场竞争，才能保持领先”。

英伟达的本质

面对“业务扩张是否会导致失控” 的疑问，黄仁勋给出了英伟达的 “生存法则”—— 统一的公司理论。他解释，英伟达之所以能保持高速发展，核心在于始终有一套清晰的统一理论，明确什么是重要的、事物之间如何关联，再围绕这一理论构建能够高效执行的组织。这套理论的核心是三大核心平台：CUDA-X 软件生态、垂直优化的计算系统、AI 工厂基础设施，所有业务都围绕 “加速计算” 展开，“看似多元，实则同源”。在发展模式上，英伟达遵循 “垂直整合后开源共享” 的路径：先完成硬件、软件、系统的垂直优化（如今已拥有 3 万个不同的 SKU），再通过开源的方式释放价值，“我们提供源代码，客户无需全部使用英伟达的产品，只需选择他们需要的部分，享受协同优化带来的效率提升”。谈及 Blackwell 架构，黄仁勋坦言，NVLink 72 是最大的技术难点。这种极致的协同设计，正是英伟达保持竞争力的核心所在，也是其能够在快速变化的市场中始终占据领先地位的关键。

加速计算的下一程

黄仁勋在访谈结尾重申，英伟达的使命从未改变—— 通过全栈技术加速所有应用，让 AI 成为人类的 “超级工具”。从 CUDA 生态的构建到 AI 工厂的布局，从 GPU 的深耕到 CPU、低延迟架构的异构整合，英伟达的战略始终围绕 “打破计算边界” 这一核心。面对中国市场的竞争、地缘政治的不确定性与技术路线的分歧，这家市值巨头依然保持着 “小公司” 的专注与初心。正如黄仁勋所言：“我们只需牢记，什么是真正重要的 —— 加速计算，以及它能为世界创造的价值”。这一信念，或将支撑英伟达在 AI 时代的下一段征程中继续领跑。

本文转自媒体报道或网络平台，系作者个人立场或观点。我方转载仅为分享，不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益，请及时联系客服，我们作为中立的平台服务者将及时更正、删除或依法处理。