英伟达将在2027年底前向亚马逊出售100万颗GPU芯片

来源：半导纵横发布时间：2026-03-20 15:18

英伟达

GPU

亚马逊

生成海报

销售将于今年开始，并持续到2027年。

英伟达一位高管周四表示，到2027年，英伟达将向亚马逊的云计算部门出售100万颗图形处理器芯片，以及一系列其他产品。英伟达和亚马逊网络服务（AWS）本周宣布，AWS已达成协议，将购买英伟达的100万块GPU，但并未透露交易的具体时间。英伟达超大规模和高性能计算副总裁伊恩·巴克周四称，销售将于今年开始，并持续到2027年。

就在同一时期，英伟达首席执行官黄仁勋表示，该公司预计其Rubin和Blackwell系列芯片的整体销售机会将达到1万亿美元。英伟达和亚马逊并未披露交易的具体财务条款。但巴克告诉路透社，此次交易除了100万块GPU外，还包括英伟达的多种芯片，例如Spectrum网络芯片和Groq芯片。Groq芯片是英伟达在去年底与一家人工智能芯片初创公司达成170亿美元的授权协议后，于本周发布的。具体来说，AWS计划使用英伟达的Groq芯片以及英伟达的其他六款芯片，以实现更高效的推理。推理是指人工智能系统代表用户生成答案和执行任务的过程。

“推理很难，难得要命，”巴克称。“要想在推理方面做到最好，并非只靠一个芯片就能完成的。我们实际上要用到全部七个芯片。”该协议还包括在AWS数据中心部署英伟达的Connect X和Spectrum X网络设备。此举意义重大，因为AWS数据中心使用的是AWS多年来不断完善的定制网络设备。“他们当然还会继续这样做，”巴克说。“但我们现在正与AWS合作，为人工智能领域的重要工作负载和最大客户部署Connect X和Spectrum X。”

随着AI模型的广泛应用，需要进行推理计算的硬件日益增多，对推理芯片的需求也将“水涨船高”。国际数据公司（IDC）的报告显示，未来几年，推理端的AI服务器占比将持续攀升。预计到2027年，用于推理的工作负载将占据七成以上。

Cerebras、Groq和d-Matrix等初创公司，以及超威半导体公司（AMD）和英特尔等传统巨头，纷纷推出了AI推理芯片。这些公司敏锐捕捉到了AI推理芯片“大显身手”的契机。

据Cerebras公司官网报道，2024年8月28日，该公司推出了同名AI推理芯片。这款芯片在Llama 3.1-8B模型上实现了1800token/秒的推理速度；在Llama 3.1 70B上实现了450token/秒的推理速度，约是英伟达GPU推理速度的20倍。Token指AI处理文本的最小单元或基本元素，如一个单词、一个字符等。

Cerebras公司解释说，这一卓越表现得益于其创新的AI芯片设计方案。其晶圆级引擎（WSE）宛如一座庞大的“计算工厂”，最大特点是尺寸惊人——单个芯片几乎占据了一整块晶圆的面积。在这个超大芯片上，计算单元和内存单元高度集成，形成一个密集的网格结构。这样的设计，让数据能在极短距离内，于计算单元和存储单元之间传输，从根本上降低了数据移动成本，解决了GPU推理无法避免的内存带宽瓶颈。此类大芯片能更快处理信息，从而在更短时间内给出答案。

早在去年2月，Groq公司就发布了自己的AI推理芯片GroqCloud。它在Llama 3.1 70B模型上实现了250token/秒的推理服务，速度比GPU几乎提升了一个量级。

去年11月19日，硅谷初创公司d-Matrix宣布，其首款AI推理芯片Corsair已开始出货，旨在提供聊天机器人和视频生成等服务。Corsair在单服务器环境下，能让Llama3 8B模型实现60000token/秒的处理能力，且每个token的延迟仅为1毫秒，充分彰显了其在高速处理大规模数据方面的卓越性能。更值得一提的是，与GPU及其他方案相比，Corsair能在提供同等性能的同时，大幅降低能耗和成本。

业内专家称，一旦推理速度提升至每秒数千token，AI模型将能在眨眼之间完成复杂问题的思考与回答过程。这不仅能让现有应用的交互效率实现质的飞跃，还将带来一系列令人耳目一新的人机交互场景。例如，在语音对话领域，延时将被压缩至毫秒级，能实现近乎自然的对话体验；在虚拟现实/增强现实领域，AI将能实时生成和调整虚拟环境、角色对话以及交互逻辑，给用户带来个性化、沉浸式体验。

本文转自媒体报道或网络平台，系作者个人立场或观点。我方转载仅为分享，不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益，请及时联系客服，我们作为中立的平台服务者将及时更正、删除或依法处理。