微软Azure Maia负责人谈AI计算的复杂未来

来源：半导纵横发布时间：2026-04-01 15:34

技术进展

生成海报

微软正致力于通过Maia 200尽可能降低Azure云平台上推理的成本效益。

OpenAI 在 2023 年初训练 GPT-4 时，需要大约 25,000 个 Nvidia A100 GPU。每个 GPU 都间歇性运行了三个多月，以大幅提升 ChatGPT 的性能，使其超越最初的 GPT-3.5 版本。然而，训练是一个有限的过程。与训练不同，推理是持续进行的。运行 GPT-4 的 Microsoft Azure 很快就发现，维持 ChatGPT 运行所需的计算资源远远超过了训练所需的资源。这些 GPU 并非专为推理任务而设计，在 ChatGPT 的早期阶段，它们只是当时可用且最广泛使用的最佳选择。

随着推理需求的不断增长，“最佳可用方案”与“实际最优方案”之间的差距日益扩大，足以证明构建专注于推理的AI加速器的必要性。这与2023年初的情况形成了鲜明对比，当时GPU几乎是GenAI工作负载的唯一选择。如今，或许只需要大约5000个Maia 200加速器就能以相同的速度完成GPT-4最初的训练任务。更引人注目的是，Maia 200甚至并非用于训练。相反，微软的目标是提供高效的AI推理能力，以低成本在云端运行模型。

AI推理变得多方面

这一点很明确：不仅原始 AI 计算能力得到了显著提升，而且也变得更加成熟。自 ChatGPT 早期（值得一提的是，ChatGPT 最初诞生于 Azure）以来就担任 Azure Maia 总经理的 Andrew Wall 解释了为什么 Maia 200 不能被简单地描述为 AI 推理的升级。尽管人们可能会关注其 216 GB 的 HBM3e 显存或每秒 7 TB 的内存带宽，但仍然无法完全理解 Azure-Maia 的理念。Wall 表示，运行 AI 工作负载的组织通常不会特意考虑使用 Maia 200。Azure 的重点在于应用层，它无需组织选择特定芯片，而是专注于为特定 AI 工作负载选择最合适的硬件。

因此，微软 Azure 将提供 Maia 200 作为底层 AI 推理的总体拥有成本 (TCO) 提升方案。用户仍然可以在其他芯片（例如 GPU）上运行 AI 模型和特定的 AI 任务。但并非所有工作负载的行为方式都完全相同，企业数据和模型选择决定了哪种芯片最适合当前任务。最近看到 AWS 和 Cerebras 合作，甚至将 AI 推理拆分为预填充和解码任务。在这种情况下，Trainium 3 会根据输入计算模型的键值缓存，而 Cerebras 的 CS-3 则生成最终输出。

Wall解释说，Maia 200介于通用并行处理器（例如GPU）和专用芯片（例如Cerebras的CS-3和Groq的语言处理单元（LPU））之间。Wall表示，这使得微软能够在大幅加速已知关键AI工作负载的同时，保留足够的通用能力来应对未来AI任务中的巨大未知挑战。这很冒险，因为它既不会直接挑战GPU在人工智能训练方面的优势，也无法最大限度地提高当前LLM的效率。然而，并无法得知2026年左右LLM的确切架构，尤其考虑到OpenAI和Anthropic等厂商对此的保密态度。

AI发展趋势的预测

概括来说，芯片从最初设计到最终上市通常需要 18 到 36 个月。因此，不可能在 2025 年就设想出 2026 年才能实现的复杂 AI 加速器。相反，需要预测行业的发展轨迹、工作负载的迁移，并预留一些回旋余地。这就是为什么微软为 Maia 200 选择的折中方案是经过深思熟虑的策略，确保其在 2026 年的上市能够满足企业明确的实际需求。正如 Wall 所描述的，他的团队一直在 AI 硬件开发中“小心翼翼地平衡”各种需求。Maia 200 是异构 AI 基础设施的一部分，它将运行多种模型，包括 OpenAI 最新推出的 GPT-4 的衍生模型 GPT-5.2。

一些规格参数突显了 Maia 200 的推理导向设计。微软在 SRAM 分配方面的选择可谓大胆，这对于 AI 芯片而言至关重要。272 MB 的超高速片上缓存甚至超过了英伟达目前部署的专注于训练的 Blackwell GPU 的 192 MB。简而言之，它将计算所需的更多数据放置在芯片的计算端附近。这意味着缓存未命中率大幅降低，从而加快了令牌输出速度，使 AI 模型能够以最快的速度运行。如果缓存中没有相关数据，则可以使用容量高达 216GB 的 HBM3e 显存，足以将大多数 AI 模型完全存储在单个芯片上。这些规格最终避免了与外部存储器和存储设备之间延迟较高的往返通信，这对于最大限度地缩短令牌生成时间至关重要。微软有意在此方面进行前瞻性投资，以保持对延迟敏感的工作负载的领先地位。

开发者可能希望访问 Azure 的更深层，以使所有这些规范都适用。裸机访问基于NPL 编程语言，但大多数开发者会通过 SDK 提供的 Triton 编译器或 PyTorch 与 Maia 通信。该功能目前处于预览阶段。这些工具的易用性至关重要，因为目前还没有哪家英伟达的竞争对手能够构建出足以匹敌 CUDA 的软件生态系统。这一差距埋没了许多极具潜力的硬件，而大多数人却不愿提及。

微软的答案是提供灵活性。其SDK方案旨在为希望深入探索的高级用户提供更多优化机会。如果抽象层能够有效发挥作用，大多数开发者将完全无需考虑底层芯片的工作原理。这一策略能否成功，将决定Maia 200的硬件雄心能否转化为开发者实际采用的产品。

AI 硬件的升级

Maia 200 的继任者不出所料是 Maia 300，而 Maia 300 最终也会被 Maia 400 取代。微软的路线图显示，Maia 300 将于 2027 年左右发布。不过，Wall 表示他预计 Maia 200 的使用寿命约为 4 到 5 年。如果这一预测属实，对于那些质疑 AI 硬件开发速度的人来说，无疑是个好消息。鉴于英伟达和 AMD 的开发周期都在不断缩短，人们不禁要问，企业何时才能实现 AI 硬件升级的稳定节奏？既然 AI 硬件很快就会被淘汰，为什么还要费心去调整呢？考虑到这种快速迭代的趋势，并不确定如今的芯片在五年后是否还能保持竞争力，但微软似乎认为可以。

Wall认为，对人工智能模型内部运作机制的深入了解，使他的团队能够拓展 Azure Maia 的用途。微软在这方面相对独特。除了谷歌之外，没有其他科技公司像微软这样，既如此专注于人工智能硬件本身，又如此专注于运行在其上的模型。微软在这两个领域都呈现上升趋势，尽管它还有很长的路要走。除了 OpenAI 提供的模型之外，其他供应商的模型现在也出现在 Azure 上。此外，微软还拥有一个由 Mustafa Suleyman 领导的人工智能团队，负责开发 LLM（逻辑逻辑模型）。正如前面所讨论的，微软在硬件方面显然也拥有成熟的策略。在这两个方面同时推进，必将为其带来优势。

Wall认为芯片和模型的协同开发是一项关键优势。通过与该团队直接合作，并与人工智能实验室保持联络，硬件工程师可以根据人工智能模型内部参数的变化调整芯片。这种集成方法使他们能够平衡片上系统 (SoC) 的资源，并解锁新的功能。如果他们仅仅将现成的模型视为“黑盒”，则无法实现这些功能。

AI的未来

除了芯片本身，预计人工智能未来的异构架构将成为一片未知的领域。在现有硬件的基础上，只需调整人工智能工作负载在现有芯片上的分配方式，就可能实现巨大的性能提升。微软 Maia 200 有望在 2026 年大放异彩，成为一款低总拥有成本 (TCO) 的推理解决方案，即便大多数商业用户可能只会关注成本层面，而不会注意到这一点。

无论如何，芯片本来就不应该面向用户。尽管如此，Wall预计未来会出现许多引人注目的重大进展。业内资深人士应该已经很熟悉这些进展了，因为像台积电、ASML 和 imec 这样的公司多年来一直在其产品路线图中规划这些技术的各种变体。例如，芯片组、复杂的 3D 堆叠式存储芯片和硅光子学。Wall认为，在这些领域，“阶跃式改进”可能会对摩尔定律构成挑战。他认为，未来的芯片设计将策略性地将新技术应用于硅芯片内的特定 IP 模块（本质上是区域），从而获得巨大的性能提升。

除此之外，人工智能计算的未来看起来将极其复杂。抽象层需要承担大量繁重的工作，才能确保工作负载的一致性和灵活性。工作负载路由、延迟预算和成本优化将在未来很长一段时间内成为人工智能计算的关键杠杆。微软押注于这些技术，不仅是为了降低当前的总体拥有成本 (TCO)，更是为了使公有云成为未来几年优化人工智能工作负载最可行的基础架构。只要拥有能够路由工作负载的硬件，运行人工智能模型可能不再是单一的单体操作。如果微软成功推广这种模式（并且得到了 AWS 和 Cerebras 等行业竞争对手的支持），那么模型很可能会被设计成能够从这种解耦式架构中受益。这种相互作用可能会持续一段时间，并将有助于决定人工智能的理想运行位置。

归根结底，人工智能计算的未来最令人兴奋之处在于它目前所蕴含的无限可能，并且根本无法预知中长期人工智能架构的最终形态。CPU 曾经主导着其他专用于特定任务的芯片。GPU 挑战了这一格局，而如今，各种各样的 [X]PU 定义了不同的处理器，它们都以某种形式运行着人工智能。有一点很明确：商业用户只关心结果，包括成本和模型有效性。在成本方面，Wall的团队似乎对微软能够充分满足当今的需求充满信心。

本文转自媒体报道或网络平台，系作者个人立场或观点。我方转载仅为分享，不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益，请及时联系客服，我们作为中立的平台服务者将及时更正、删除或依法处理。