Nvidia计划出售技术以加速AI芯片通信

来源:半导纵横发布时间:2025-05-20 15:35
AI
英伟达
生成海报
芯片互联技术开放,携手联发科等破局AI算力。

Nvidia周一宣布,计划出售一项将芯片连接在一起的技术,以加快构建和部署人工智能工具所需的芯片间通信速度。

该公司推出了其 NVLink 技术的新版本,名为 NVLink Fusion,并将出售给其他芯片设计公司,以帮助构建将多个芯片连接在一起的强大定制人工智能系统。首席执行官黄仁勋在中国台北音乐中心宣布了NVLink Fusion的计划,该中心是5月20日至23日举行的Computex AI展会的举办地。Nvidia表示,Marvell Technology和联发科计划在其定制芯片业务中采用名为Fusion的NVLink技术。其他合作伙伴包括世芯电子、富士通和高通。

NVLink Fusion 的技术核心在于通过标准化芯片间互连协议,突破传统 PCIe 接口的带宽限制,实现多芯片协同计算的高效性。其采用高速差分信号通道设计,支持点对点通信架构,能够将数据传输延迟降低至微秒级,同时兼容 NVLink 与 PCIe 多协议并发。这种架构优势在 AI 训练场景中尤为显著,例如千亿参数模型的分布式训练,可通过 NVLink 连接多个 GPU 和 CPU 形成统一内存池,避免数据在不同芯片间频繁迁移导致的性能损耗。此外,该技术还支持模块化扩展,既能用于单机多芯片互联(如 DGX 系统),也能横向扩展至数据中心级集群,满足从边缘计算到超大规模 AI 推理的多样化需求。

从技术演进角度看,NVLink 系列经历了从专有协议到开放授权的转变。早期 NVLink 仅用于 GPU 间的点对点直连,2022 年推出的 NVLink C2C(Chip-to-Chip)首次开放协议标准,允许非Nvidia芯片(如 Arm CPU、ASIC)直接接入。这一阶段的协议开放为后续 NVLink Fusion 的 IP 授权模式奠定基础——第三方厂商可直接将 NVLink 物理层与协议栈集成至自研芯片中,构建半定制化 AI 基础设施。例如 Marvell 和联发科已计划在定制芯片业务中采用该技术,通过授权模式快速实现异构计算单元的高效互联。这种演进路径不仅巩固了Nvidia在 AI 硬件生态的主导地位,也通过降低第三方厂商的开发门槛,加速了 NVLink 成为行业标准的进程。

然而,Nvidia的芯片在中国市场前景黯淡。黄仁勋在接受采访时表示,由于美国对其H20芯片的出货量实施限制,该公司在中国“放弃了150亿美元的销售额”。该公司上个月表示,将承担与这些限制相关的费用。Nvidia 的 NVLink 用于在各种芯片之间交换海量数据,例如其 GB200 芯片,它结合了两个 Blackwell 图形处理器和一个 Grace 处理器。除了宣布新技术生产外,黄仁勋还透露了公司计划在台北北郊设立中国台湾总部。他的主题演讲探讨了 Nvidia 构建 AI 芯片、系统和支持这些芯片的软件的历史。他表示,他的演讲主要关注公司的图形芯片。如今,Nvidia 已超越了最初作为视频游戏图形芯片制造商的定位,成为自 2022 年 ChatGPT 推出以来推动 AI 热潮的主要芯片生产商。Nvidia 一直在设计运行微软 Windows 操作系统并使用 Arm Holdings 技术的中央处理器。

去年在台北国际电脑展上,黄仁勋在中国台湾引发了“詹森热潮”(Jensanity),公众和媒体屏息凝视着这位首席执行官,而他本人也受到了展会现场观众的热烈欢迎。

在三月份举行的公司年度开发者大会上,黄仁勋概述了Nvidia将如何定位自身,以应对计算需求从构建大型人工智能模型到基于模型运行应用程序的转变。他公布了几代新一代人工智能芯片,包括将于今年晚些时候上市的Blackwell Ultra。

继Rubin芯片之后,Nvidia还将推出Feynman处理器,这是其继 Rubin 架构之后的下一代 GPU 产品,以著名理论物理学家理查德·费曼(Richard Feynman)命名,预计于 2028 年正式推出 。这一架构的命名延续了Nvidia以科学家命名的传统,旨在强调其技术与前沿科学探索的关联性。

从技术规格来看,Feynman 架构将搭配全新的 HBM 内存技术 ,具体为 HBM3e ,并支持更高的内存带宽和容量 。根据已披露的信息,基于 Feynman 的系统节点可容纳 144 颗 GPU 和 72 颗 CPU ,内存组合达到 20TB HBM3e 与 40TB DDR5 ,相比前一代提升了 50% 。这种设计将显著提升大规模 AI 训练和复杂计算任务的效率,尤其适用于生成式 AI 和量子物理模拟等领域。预计将于2028年上市。

Nvidia还推出了一款名为DGX Spark的桌面版人工智能芯片。其核心是基于 GB10 Grace Blackwell 超级芯片 的定制化设计。该芯片采用 第五代Tensor Core 架构 和 FP4 精度支持 ,可提供高达 1,000 万亿次(TOPS)的 AI 运算能力 ,专为生成式 AI、物理 AI 和机器人基础模型的推理任务优化。

硬件配置方面,DGX Spark 配备 128GB 内存 和预装的 NVIDIA AI 软件栈,采用节能高效的紧凑型设计,定位为“桌面级数据中心解决方案”,适用于 AI 开发者和研究人员快速部署复杂任务 。目前,该产品已全面投产,并计划在“几周内”投入使用 。 

本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。

评论
暂无用户评论