人工智能数据中心和云计算需要世界各国大力投资。“自主人工智能”一词在各国纷纷建设自主人工智能基础设施的过程中变得日益流行,人工智能数据中心甚至被称为“人工智能工厂”。随着这些数据中心的日益普及,其所需的加速计算芯片在当今市场上炙手可热。这些芯片包括先进的CPU、GPU、ASIC以及新兴的人工智能芯片技术。
IDTechEx 估计,GPU(图形处理器)将在 2024 年占据 AI 芯片总收入的 82%,而到 2025 年,GPU 的部署量将呈指数级增长。这主要由科技巨头 NVIDIA 引领,该公司于 2024 年推出了最新的 Blackwell GPU,并在 2025 年全年加大了部署力度。然而,AMD 目前凭借其 MI300 和最新的 MI350 系列,是数据中心 GPU 市场的有力竞争者,这些系列也赢得了大规模 GPU 集群的大量出货订单。主要买家仍然是美国超大规模计算平台 AWS、微软、Meta 和甲骨文。
NVIDIA 在 2025 年 5 月告诉投资者,主要的超大规模提供商每周都会部署近 1,000 个 NVL72 机架(72,000 个)Blackwell GPU,据报道,保守估计 2025 年 Blackwell GPU(GB200)的出货量将达到 250 万个。AMD 的 MI350 系列出货量不断增长,并将于 2025 年 6 月开始量产。AMD 最大的交易之一是与 Humane 进行数十亿美元的合作,以构建完全基于 AMD CPU、GPU 和软件的 AI 基础设施,同时还与 Oracle 达成了多达 130,000 个 MI355X GPU 的交易。
自 20 世纪 70 年代以来,图形处理单元 (GPU) 就一直用于图形渲染和计算。IBM和Itari 是首批芯片设计公司之一,他们开发了用于个人电脑和街机的图形硬件,用于处理简单的 2D 渲染操作。20 世纪 90 年代迎来了技术的新一轮繁荣,3D 图形技术逐渐受到青睐。
进入 21 世纪,GPU 开始用于科学计算,例如模拟和图像处理,并使用专门为充分利用并行处理能力而创建的软件库。21 世纪末,NVIDIA 发布了 CUDA,AMD 发布了 Stream SDK(现为 ROCm),这在学术界之外得到了广泛应用。这至关重要地允许开发人员将 GPU 用于通用计算,而不仅仅是图形处理。
2010 年代初,人们对人工智能的兴趣开始普及,当时出现了一些著名的人工智能模型,如 AlexNet、ResNet 和 Transformers,它们都展示了深度学习和自然语言处理能力。这些模型针对 NVIDIA GPU 进行了优化,并利用了 NVIDIA 的库和框架。这些模型使用 GPU,为各种人工智能任务设定了新的性能基准。现在,GPU 因其执行大规模并行处理、达到高数据吞吐量以及支持高级库(例如 cuBLAS 和 cuDNN)的能力而被广泛使用,这些库为线性代数和深度学习提供了高性能例程。这正是训练当今最大型人工智能模型所需要的,包括 OpenAI 的 ChatGPT、Anthropic 的 Claude 或Google的Gemini等。
GPU(图形处理单元)由数千个并行执行指令的核心组成。每个核心都经过优化,可同时在多个数据点执行同一条指令,这被称为 SIMD(单指令多数据)。每个核心都比 CPU 中的内核简单得多。
与 CPU 相比,GPU 的缓存系统略逊一筹,但它们拥有更多专用于计算的晶体管,因此可以牺牲延迟优化来获得高吞吐量。这种架构使 GPU 能够以更快的吞吐量和更高的效率执行需要矩阵乘法和并行计算的任务。
每个 GPU 核心都能够以特定数据格式执行不同精度的计算(例如,FP32 精度较高,而 FP4 精度较低),这使得它们适用于各种 AI 工作负载。事实上,这些数据中心 GPU 拥有称为张量核心的特定核心,这些核心专为神经网络训练和推理所需的矩阵乘法而设计。
低精度、混合精度和专用数据格式是当今高端 GPU 的基础。低精度尤其有利于快速 AI 推理:NVIDIA 已将低精度精度降至 FP4,AMD 也宣布其 MI355X 处理器兼容 FP4。
对于 GPU 设计师来说,拥有能够有效利用这些核心的软件是一个关键障碍,而这正是市场领导者具有优势的地方,尤其是在拥有庞大的开发者社区的情况下。
高性能 GPU 持续采用更先进的晶体管,2nm 和 18A 节点将于 2026 年起发布。这些先进节点通过提高晶体管密度来提升 GPU 的性能。然而,这些先进节点需要 ASML 的高数值孔径 EUV(极紫外)光刻设备,每台设备的成本将高达 7.8 亿美元。
其他挑战包括低良率、高发热量、高研发成本以及材料挑战。追求更小节点的经济价值越来越不明确,投资的合理性也越来越难以证明。
许多厂商正在增加硅片的总面积,这意味着增加芯片中的晶体管数量。关键技术策略包括将芯片拼接在一起(例如,NVIDIA 的 Blackwell GPU 和 Cerebras 的非 GPU 晶圆级引擎),以及采用 3D 堆叠的 chiplet 技术(例如,AMD 的 MI300 和 MI350 系列 GPU)。chiplet 技术可以提高良率,但可能会降低内存带宽。
先进封装至关重要。NVIDIA 和 AMD 使用台积电的 2.5D CoWoS 封装。台积电的 CoWoS 封装已达到产能上限,这意味着其他代工厂可能会使用类似技术来满足需求。AMD 也面临同样的问题,日月光 (ASE)、安靠 (Amkor)、力成 (Powertech)和京元电子 (KYEC) 等公司都可能是 AMD 的潜在合作伙伴,为其提供替代的先进封装技术。
高带宽内存 (HBM) 已得到广泛采用,用于提供大型 AI 模型所需的内存。HBM 主要由三星、SK海力士和美光三大厂商提供,目前这些厂商的顶级 GPU 已开始采用 HBM3e。HBM4 预计将于 2025 年下半年实现量产(SK 海力士)。
AI芯片市场持续发展,尽管GPU仍占据主导地位,但也面临挑战。其他AI芯片包括超大规模厂商开发的定制ASIC(专用集成电路),以及各家初创公司利用新兴芯片技术开发的GPU替代方案。
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。