英伟达将在2027年底前向亚马逊出售100万颗GPU芯片

来源:半导纵横发布时间:2026-03-20 15:18
英伟达
GPU
亚马逊
生成海报
销售将于今年开始,并持续到2027年。

英伟达一位高管周四表示,到2027年,英伟达将向亚马逊的云计算部门出售100万颗图形处理器芯片,以及一系列其他产品。英伟达和亚马逊网络服务(AWS)本周宣布,AWS已达成协议,将购买英伟达的100万块GPU,但并未透露交易的具体时间。英伟达超大规模和高性能计算副总裁伊恩·巴克周四称,销售将于今年开始,并持续到2027年。

就在同一时期,英伟达首席执行官黄仁勋表示,该公司预计其Rubin和Blackwell系列芯片的整体销售机会将达到1万亿美元。英伟达和亚马逊并未披露交易的具体财务条款。但巴克告诉路透社,此次交易除了100万块GPU外,还包括英伟达的多种芯片,例如Spectrum网络芯片和Groq芯片。Groq芯片是英伟达在去年底与一家人工智能芯片初创公司达成170亿美元的授权协议后,于本周发布的。具体来说,AWS计划使用英伟达的Groq芯片以及英伟达的其他六款芯片,以实现更高效的推理。推理是指人工智能系统代表用户生成答案和执行任务的过程。

“推理很难,难得要命,”巴克称。“要想在推理方面做到最好,并非只靠一个芯片就能完成的。我们实际上要用到全部七个芯片。”该协议还包括在AWS数据中心部署英伟达的Connect X和Spectrum X网络设备。此举意义重大,因为AWS数据中心使用的是AWS多年来不断完善的定制网络设备。“他们当然还会继续这样做,”巴克说。“但我们现在正与AWS合作,为人工智能领域的重要工作负载和最大客户部署Connect X和Spectrum X。”

随着AI模型的广泛应用,需要进行推理计算的硬件日益增多,对推理芯片的需求也将“水涨船高”。国际数据公司(IDC)的报告显示,未来几年,推理端的AI服务器占比将持续攀升。预计到2027年,用于推理的工作负载将占据七成以上。

Cerebras、Groq和d-Matrix等初创公司,以及超威半导体公司(AMD)和英特尔等传统巨头,纷纷推出了AI推理芯片。这些公司敏锐捕捉到了AI推理芯片“大显身手”的契机。

据Cerebras公司官网报道,2024年8月28日,该公司推出了同名AI推理芯片。这款芯片在Llama 3.1-8B模型上实现了1800token/秒的推理速度;在Llama 3.1 70B上实现了450token/秒的推理速度,约是英伟达GPU推理速度的20倍。Token指AI处理文本的最小单元或基本元素,如一个单词、一个字符等。

Cerebras公司解释说,这一卓越表现得益于其创新的AI芯片设计方案。其晶圆级引擎(WSE)宛如一座庞大的“计算工厂”,最大特点是尺寸惊人——单个芯片几乎占据了一整块晶圆的面积。在这个超大芯片上,计算单元和内存单元高度集成,形成一个密集的网格结构。这样的设计,让数据能在极短距离内,于计算单元和存储单元之间传输,从根本上降低了数据移动成本,解决了GPU推理无法避免的内存带宽瓶颈。此类大芯片能更快处理信息,从而在更短时间内给出答案。

早在去年2月,Groq公司就发布了自己的AI推理芯片GroqCloud。它在Llama 3.1 70B模型上实现了250token/秒的推理服务,速度比GPU几乎提升了一个量级。

去年11月19日,硅谷初创公司d-Matrix宣布,其首款AI推理芯片Corsair已开始出货,旨在提供聊天机器人和视频生成等服务。Corsair在单服务器环境下,能让Llama3 8B模型实现60000token/秒的处理能力,且每个token的延迟仅为1毫秒,充分彰显了其在高速处理大规模数据方面的卓越性能。更值得一提的是,与GPU及其他方案相比,Corsair能在提供同等性能的同时,大幅降低能耗和成本。

业内专家称,一旦推理速度提升至每秒数千token,AI模型将能在眨眼之间完成复杂问题的思考与回答过程。这不仅能让现有应用的交互效率实现质的飞跃,还将带来一系列令人耳目一新的人机交互场景。例如,在语音对话领域,延时将被压缩至毫秒级,能实现近乎自然的对话体验;在虚拟现实/增强现实领域,AI将能实时生成和调整虚拟环境、角色对话以及交互逻辑,给用户带来个性化、沉浸式体验。

本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。

评论
暂无用户评论