AI 工厂依赖的不仅仅是计算结构。虽然连接 GPU 的东西向网络对于 AI 应用程序性能至关重要,但连接高速存储阵列的存储结构也同样重要。存储性能在 AI 生命周期的多个阶段中发挥着关键作用,包括训练检查点、推理技术(如检索增强生成 (RAG))等。
为了满足这些需求,NVIDIA和存储生态系统正在将NVIDIA Spectrum-X 网络平台扩展到数据存储结构,为 AI 带来更高的性能和更快的速度。由于 Spectrum-X 自适应路由能够缓解流冲突并增加有效带宽,因此存储性能远高于 RoCE v2(大多数数据中心用于 AI 计算和存储结构的以太网网络协议)。
来源:NVIDIA
Spectrum-X 将读取带宽提高了 48%,将写入带宽提高了 41%。带宽的增加意味着可以更快地完成 AI 工作流中与存储相关的步骤,从而缩短作业完成时间(在训练的情况下)并降低令牌间延迟(在推理的情况下)。
随着 AI 工作负载规模和复杂性的不断增长,存储解决方案必须不断发展,以跟上现代 AI 工厂的需求。领先的存储供应商(包括 DDN、VAST Data 和 WEKA)正在与 NVIDIA 合作,集成和优化其 Spectrum-X 解决方案,为 AI 存储结构带来尖端功能。
Spectrum-X 利用 Israel-1 超级计算机实现大规模影响
NVIDIA 打造了Israel-1,一台生成式 AI 超级计算机,以优化 Spectrum-X 性能,通过启用预先测试和验证的 AI 结构蓝图来简化网络部署。这使得以色列-1 成为 Spectrum-X 如何影响存储工作负载的良好测试平台,展示了网络在真实超级计算机运行条件下对存储性能的影响。
为了了解 Spectrum-X 对存储网络的影响,Israel-1 团队测量了 NVIDIA HGX H100 GPU 服务器客户端访问存储时产生的读写带宽。测试(使用 Flexible I/O Tester 基准)在网络配置为标准 RoCE v2 结构的情况下执行一次,然后在启用 Spectrum-X 的自适应路由和拥塞控制的情况下重新运行。
这些测试使用不同数量的 GPU 服务器作为客户端,范围从 40 个 GPU 到 800 个 GPU。在每种情况下,Spectrum-X 的表现都更好。对于读取带宽,改进范围从 20% 到 48%。对于写入带宽,改进范围从 9% 到 41%。这些结果与 DDN、VAST 和 WEKA 的合作伙伴生态系统实现的加速相当。
要了解 Spectrum-X 为何如此重要,不妨先考虑一下为什么存储是 AI 的一个因素。AI 性能不仅仅是大型语言模型 (LLM) 步骤完成时间的函数,还涉及许多其他因素。例如,由于模型训练通常需要几天、几周或几个月才能完成,因此在训练中期(通常每隔几个小时)检查点或将部分训练的模型保存到存储中是有意义的。这意味着,如果发生系统中断,训练进度不会丢失。
对于拥有数十亿甚至数万亿参数的模型,这些检查点状态变得足够大(对于当今最大的 LLM 来说,数据量高达数 TB),以至于保存或恢复它们会产生“巨流”。这些是大量突发数据,可能会淹没交换机缓冲区和链路,而网络必须保证为训练工作负载提供最佳利用率。
RAG 是另一个存储结构可以决定工作负载性能的例子。借助 RAG,LLM 与不断增长的知识库相结合,为模型添加特定领域的上下文,以提供更好的响应,而无需额外的模型训练或微调。RAG 的工作原理是获取额外的内容或知识并将其嵌入到矢量数据库中,这使其成为可搜索的知识库。
当推理提示出现时,提示会被解析(嵌入)并搜索数据库,检索到的内容会为提示添加上下文,以帮助 LLM 制定最佳答案。矢量数据库是多维的,可能非常大,尤其是在由图像和视频组成的知识库的情况下。
这些数据库通过存储结构连接到推理节点,网络必须提供快速通信以将延迟降至最低。这在多租户生成式 AI 工厂中尤为重要,因为此类工厂每秒的查询数量非常庞大。
为了消除大流量冲突并减少检查点期间产生的网络流量,我们采用自适应路由来动态地对网络上的数据包逐个进行负载平衡。Spectrum-4 以太网交换机根据实时拥塞数据选择拥塞最少的路径。由于数据包在网络中传播,它们可能会无序到达目的地,这在传统以太网下需要重新传输许多数据包。
借助 Spectrum-X,目标主机中的 SuperNIC 或数据处理单元 (DPU) 可以知道数据包的正确顺序,将它们按顺序放置在主机内存中,并使自适应路由对应用程序透明。这样可以提高结构利用率,从而提高有效带宽,并为检查点、数据获取等提供可预测、一致的结果。
检查点和其他存储操作通常会导致 incast 拥塞,也称为多对一拥塞。当多个客户端尝试写入单个存储节点时,可能会发生这种情况。Spectrum-X 引入了一种基于遥测的拥塞控制技术,该技术使用来自交换机的基于硬件的遥测来通知 SuperNIC 或 DPU 减慢发送方数据注入速率(即 RDMA 写入和读取)。这可以防止出现拥塞热点,拥塞热点可能会向后传播并导致相邻作业或进程受到拥塞的不公平影响。
由于人工智能工厂通常包含大量交换机、电缆和收发器,任何链路中断都可能导致网络性能大幅下降,因此网络弹性对于维护健康的基础设施至关重要。Spectrum-X 全局自适应路由可在链路中断时实现最佳且快速的重新收敛,从而保持存储结构的充分利用。
除了 Spectrum-X 为存储结构带来的创新之外,NVIDIA 还提供并推荐使用多种 SDK、库和软件产品来加速存储到 GPU 的数据路径。这些包括但不限于以下内容:
NVIDIA Air: 一种基于云的网络模拟工具,用于建模交换机、SuperNIC 和存储,加速第 0、1 和 2 天的存储结构操作。
NVIDIA Cumulus Linux: 围绕自动化和 API 构建的网络操作系统,可确保大规模的顺利运行和管理。
NVIDIA DOCA: 适用于 NVIDIA SuperNIC 和 DPU 的 SDK,为存储、安全等提供无与伦比的可编程性和性能。
NVIDIA NetQ: 一套与交换机遥测集成的网络验证工具集,可提供结构的实时可见性。
NVIDIA GPUDirect Storage: 一种在存储和 GPU 内存之间实现直接数据路径的技术,使数据传输更加高效。
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。