
英伟达计划推出一款专为帮助 OpenAI 和其他客户构建更快、更高效的工具而量身定制的新处理器,这将对其业务进行重大变革,并有望重塑人工智能竞赛格局。
据知情人士透露,该公司正在设计一套用于“推理”计算的新系统,这种处理方式可以让人工智能模型响应查询。知情人士称,这个新平台将于下个月在圣何塞举行的英伟达GTC开发者大会上亮相,并将采用初创公司Groq设计的芯片。
推理计算一直是行业竞争的焦点。谷歌和亚马逊等竞争对手都设计出了能够与英伟达旗舰级系统相媲美的芯片。此外,科技行业自主编程能力的爆炸式增长,也催生了对能够更高效处理复杂人工智能相关任务的新型芯片的需求。
据知情人士透露,OpenAI已同意成为这款新型处理器的最大客户之一,这对英伟达来说是一项重大胜利。作为英伟达最大的客户之一,ChatGPT的开发商OpenAI在过去几个月里一直在寻找比英伟达芯片更高效的替代方案,并于上个月与一家芯片初创公司签署了一项协议,为其提供了新的选择。
周五早些时候,OpenAI在宣布将从英伟达购买大量“专用推理能力”以及获得这家芯片巨头300亿美元投资时,就暗示了这款新型处理器的存在。此外,OpenAI还签署了一项重要新协议,使用亚马逊的Trainium芯片。
英伟达一直主导着GPU(图形处理器)的设计和销售业务,GPU是一种可以同时执行数十亿个简单任务的处理器。但自人工智能热潮兴起以来,它首次面临其旗舰产品的局限性。随着市场向推理方向转变,英伟达感受到来自部分客户的压力,要求其生产能够更高效地驱动人工智能应用的芯片。
该公司强大的 Hopper、Blackwell 和 Rubin 系列 GPU 被认为是训练大型 AI 模型的最佳选择,价格也居高不下。大多数分析师估计,英伟达控制着 90% 或以上的 GPU 市场份额。
英伟达首席执行官黄仁勋一直声称,英伟达的 GPU 在训练和推理方面都是市场领导者,这种多功能性是该产品的一个关键吸引力。
但过去一年,随着企业部署人工智能代理和其他工具,对高级计算的需求已从训练转向推理。企业希望这些工具能够颠覆数百个行业,并通过订阅费创造巨额利润。人工智能代理是一种相对自主地代表用户执行任务的人工智能系统。
许多构建和运营人工智能代理的公司发现,GPU成本过高、能耗过大,而且并不适合实际运行他们的模型。随着智能体人工智能的迅猛发展,英伟达面临着开发成本更低、能效更高的推理芯片的压力。
上个月,OpenAI与Cerebras签署了一项价值数十亿美元的计算合作协议。Cerebras提供一款专注于推理的芯片,其首席执行官Andrew Feldman称该芯片比英伟达的GPU速度更快。此前报道称,OpenAI的工程师去年秋天向Cerebras提出需求,希望获得一款速度更快的推理芯片,用于智能体编码应用,之后OpenAI便与Cerebras展开了谈判。 英伟达去年底同意支付 200 亿美元,从 Groq 获得关键技术许可,并聘请其高层领导,包括创始人乔纳森·罗斯,这是硅谷有史以来规模最大的“收购式招聘”交易之一。
Groq设计的芯片采用了一种与Nvidia不同的架构,称为“语言处理单元”,这种芯片在推理功能方面效率极高。然而,到目前为止,Nvidia对如何使用Groq的技术一直保持沉默。
人工智能推理计算分为两大任务:预填充,即模型解读用户提示的过程;以及解码,即模型逐字生成响应的过程。预填充通常速度更快,而解码对于大型人工智能模型而言往往速度较慢。
编码应用已成为企业级人工智能最重要且最赚钱的应用之一,Anthropic 的 Claude Code通常被认为是市场领导者。但 Anthropic 主要依赖亚马逊网络服务 (AWS) 和Alphabet旗下谷歌云部门设计的芯片,而非英伟达 (Nvidia) 的芯片来驱动其模型。
然而,Claude 最强劲的竞争对手之一是 OpenAI 快速发展的 Codex 工具。知情人士透露,ChatGPT 的开发者 OpenAI 计划利用英伟达的新系统来改进 Codex。
通常情况下,英伟达会将Vera芯片(中央处理器,即CPU)与Rubin GPU搭配使用,构建高性能数据中心服务器。但一些大型客户发现,某些智能体AI工作负载仅使用CPU运行效率更高。
本月,英伟达宣布扩大与Meta Platforms的合作关系,其中包括首次大规模部署纯CPU架构,以支持Meta的广告定向AI代理。这项合作让我们得以窥见英伟达的战略:不再局限于GPU,而是通过其他方式来锁定部分AI市场份额。
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。
