AMD发布ROCm 7挑战英伟达CUDA:推理Deepseek R1 AI性能是ROCm 6的3.8倍

来源:半导纵横发布时间:2025-09-17 16:48
AMD
生成海报

报道称 AMD 为打破英伟达 CUDA 在 AI 领域的垄断,发布 ROCm 7.0 计算软件堆栈,官网页面显示支持最新算法和模型、扩展 AMD 锐龙 AI 处理器和 AMD Radeon 显卡支持等。

AMD 官方已经发布 ROCm 7.0 更新日志,其中最值得关注的改进,在于优化 AI 推理任务。AMD 宣称,在 DeepSeek R1 基准任务中,Instinct MI355X 的 FP8 吞吐量比 NVIDIA Blackwell B200 高出 30%。

AMD 还提供了 ROCm7 的实测结果,相比较 ROCm 6,在 Llama 3.1 70B 模型上性能提升 3.2 倍,Qwen2-72B 上性能提升 3.4 倍,而 DeepSeek R1 性能提升 3.8 倍。

功能升级方面,ROCm 7.0 集成了最新算法与模型、先进的 AI 扩展特性、对 MI350 系列 GPU 的支持,以及集群管理与企业级功能,这些改进旨在提升大规模 AI 部署的可扩展性与稳定性。

新版本引入对 Instinct MI355X、MI350X 的支持,并新增 Ubuntu 24.04.3 与 Rocky Linux 9 系统兼容,同时淘汰了旧版 Ubuntu 与 SLES 15 SP6。

AI 框架支持也同步更新,包括 PyTorch 2.7、TensorFlow 2.19.1、ONNX Runtime 1.22.0、JAX 0.6.0、Triton 3.3.0、vLLM 等。相关数学库、通信库与工具链全面提档,进一步提升大模型和 HPC 场景表现。

本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。

评论
暂无用户评论