“杀手”CUDA

来源:半导纵横发布时间:2024-11-14 16:15
英伟达
AMD
生成海报
ROCm 最初是为英伟达GPU构建的,但是AMD后来优先将其用于自己的GPU。

虽然英伟达的名声源自其 GPU,但真正的魔力来自 CUDA,这是它离不开的软件。在最近接受 No Priors 采访时,英伟达首席执行官黄仁勋表示,他们的目标是让他们的 AI 工程师“一次构建,随处运行”。

黄仁勋在谈到 CUDA 及其在支持和最大化硬件潜力方面的关键作用时表示:“软件方面的投资是最昂贵的。”

他进一步表示,英伟达坚定承诺无限期地支持其软件,并以编程语言 C 为例。“我们从未放弃过任何一款软件,”他表示,并补充说英伟达将继续维护其开发的软件,“只要我们还活着”。

在另一次采访中,他透露,保护软件的心理始于 1993 年(英伟达成立的那一年),从那时起就一直是公司的首要任务。“英伟达的 CUDA 之所以拥有如此庞大的安装基础,是因为我们一直在保护它,”

目前,约 4 万家公司的 500 万名开发人员都在使用 CUDA。它提供了一个强大的环境,拥有 300 多个代码库、600 个 AI 模型,并支持 3700 个 GPU 加速应用程序,可满足各种计算需求。

CUDA 主要支持 C、C++ 和 Fortran,并包含完善的 API 和用于并行处理的大量库,例如用于线性代数的 cuBLAS、用于深度学习的 cuDNN 和用于并行算法的 Thrust。开发人员还可以使用 PyTorch 和 TensorFlow 等框架,这些框架都带有内置的 CUDA 支持。

AMD ROCm 榜单

为了挑战英伟达的 CUDA,AMD 推出了ROCm 6.2,它引入了对基本 AI 功能的支持,例如 FP8 数据类型、Flash Attention 3、Kernel Fusion 等。与 ROCm 6.0 相比,这些更新使 ROCm 6.2 在推理方面实现了高达 2.4 倍的性能提升,在一系列 LLM 中的训练方面实现了 1.8 倍的提升。

Johnaic创始人Sasank Chilamkurthy在接受AIM独家采访时表示,ROCm 比 CUDA 更具优势,因为它对 PyTorch 有很强的支持。他补充说,那些喜欢拥有自己代码的公司可能会从使用 ROCm 中受益。Chilamkurthy 还与我们分享了一个有趣的事实:ROCm 最初是为英伟达GPU 构建的,但 AMD 后来将其优先用于自己的 GPU。

值得注意的是,该公司最近推出了用于训练和推理 LLM 的新型 MI325X 加速器。

在 2024 年的先进人工智能峰会上,AMD 人工智能高级副总裁 Vamsi Bopanna 分享了有关 ROCm 的更多细节。

“ROCm 是开发和部署 AI 工作负载所需的一套完整的库、运行时编译器和工具。我们将 ROCm 设计为模块化和开源的,以便 AI 社区能够快速做出贡献,” Bopanna 说道,并补充道,它还旨在与 PyTorch 等生态系统组件和框架以及 Hugging Face 等模型中心轻松连接。

他解释说,他们已经扩大了对JAX等新框架的支持,并实现了强大的新功能、算法和优化,以便为生成性 AI 工作负载提供最佳性能。

AMD 还支持各种开源框架,包括vLLM、 Triton、SGlang、ONXX Runtime等。Bopanna 透露,如今有超过 100 万个 Hugging Face 模型在 AMD 上运行。

“我们与 PyTorch 建立了非常深厚的合作关系。我们完全融入了 PyTorch,每晚运行超过 200,000 次测试,并且是 PyTorch 社区中的一级公民,” AMD 公司副总裁Bradley McCredie表示,并补充说,只有两个计算平台完全融入了 PyTorch,AMD 就是其中之一。

AMD 还与Triton密切合作,Triton 是 OpenAI 为 GPU 编程开发的开源编程语言和编译器。虽然最初是为英伟达GPU 设计的,但最近的发展使 Triton 能够通过 ROCm 平台与 AMD GPU 兼容。

McCredie 表示:“Triton 是我们行业极具战略意义的平台,因为它为程序员提供了一个具有高抽象度的高效环境,从而实现了出色的性能。”他补充说,它消除了对 CUDA 等硬件专用语言的依赖,允许程序员直接在此级别编码并直接编译到 AMD 平台。

此外,与配备 CUDA 的英伟达GPU 相比,配备 ROCm 的 AMD GPU 提供了更具成本效益的选择。尽管其顶级 GPU 的原始性能可能落后 10%~30%,但价格差异可能很大。

AMD 在 Advancing AI 2024 上展示了 ROCm 的推荐书,并邀请了初创企业领导人,包括 Luma AI 首席执行官 Amit Jain、Essential AI 首席执行官 Ashish Vashwani、Reka AI 首席执行官 Dani Yogatama 和 Fireworks AI 首席技术官 Dmytro Dzhulgakov。

Luma AI最近推出了一款名为 Dream Machine 的视频生成模型。“我们正在训练的模型非常具有挑战性,与 LLM 完全不同。然而,我们对在 ROCm 和 MI300X GPU 上运行模型的速度印象深刻。我们只花了几天时间就建立了端到端管道,这真是太棒了,”Jain 说。

CUDA的优势是什么?

AMD 的 ROCm 不如 CUDA 那么成熟。英伟达围绕 CUDA 的生态系统非常广泛,拥有庞大的开发者社区、丰富的文档以及一套广泛的调试和分析工具。

大多数深度学习框架、HPC(高性能计算)应用程序和库都是基于 CUDA 开发的,因此它成为许多开发人员的首选。

英伟达于 2006 年推出 CUDA 作为专有并行计算平台和应用程序编程接口 (API) 模型,而 ROCm 最初于 2014 年推出。

AMD 仍在开发 ROCm 以迎头赶上。Hacker News 上的一位用户表示,要想让 ROCm 有机会与 CUDA 抗衡,AMD 需要投入数十亿美元来构建生态系统。这包括支持开发人员、创建资源以及培育一个可以与 CUDA 的受欢迎程度相媲美的长期平台。

该用户解释称,从历史上看,英特尔和 AMD 等硬件公司在建立和维护强大的软件生态系统方面一直举步维艰。他以OpenCL为例指出,尽管它得到了硬件公司的支持,但由于支持不一致和缺乏生态系统投资,它未能发展成为强大的竞争对手。

CUDA 的唯一问题是它是闭源的,并且仅适用于英伟达GPU 工作负载。尽管人们已经找到了几种解决方案来解决此限制,但 CUDA 仍然是英伟达GPU 上最好的,而且由于每个人都在使用其 GPU,因此护城河变得更大。

如今,英伟达控制着 95% 的 AI 芯片市场。Reddit上的一位用户写道:“CUDA 在 GPU 编程领域占据主导地位,因为英伟达在 AI、ML 和其他 GPU 编程应用方面占据 GPU 市场主导地位。CUDA 是英伟达独有的。”

在印度,Unscript和Sarvam AI等初创公司向AIM透露,他们使用英伟达GPU 和 CUDA,但尚未采用 ROCm。

去年,AMD收购了Nod.ai,为 AI 客户提供开放软件,以便轻松部署针对 AMD 硬件优化的高性能 AI 模型。该公司最近收购了欧洲私人 AI 实验室 Silo AI。AMD 首席执行官 Lisa Su 表示:“我们最近完成了对 Silo AI 的收购,这为我们带来了一支世界一流的团队,他们在训练和优化 LLM 以及提供客户专属 AI 解决方案方面拥有丰富的经验。”

总而言之,虽然 ROCm 提供了一个引人注目的替代方案,但 CUDA 的成熟度和广泛使用使其很难被超越。

本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。

评论
暂无用户评论