
如果问一些技术领导者如何构建高性能、高性价比的人工智能应用,他们会滔滔不绝地谈论层级管理(LLM)、数据集和专用芯片。这些固然重要,但他们却忽略了技术栈中一个不起眼却至关重要的部分,而这部分对于最大化人工智能系统的性能和投资回报率至关重要:存储。
人工智能系统会消耗和产生海量数据,而设计不佳的存储架构会显著增加成本。根据 Meta 和斯坦福大学联合发布的白皮书 ,存储耗电量可能高达训练深度学习模型所需电量的三分之一。对于规划人工智能部署的首席信息官和工程负责人而言,了解存储的作用以及如何优化存储至关重要,这直接关系到项目的成功。
AI加速器,尤其是GPU,是现代数据中心中最昂贵、最稀缺的资源之一。当GPU闲置等待数据时,实际上是在白白浪费资金。错误的存储配置会大幅降低GPU的有效吞吐量,使高性能计算变成一场代价高昂的等待游戏。
根本问题在于,GPU 和TPU(张量处理单元)的数据处理速度远超传统存储的传输速度。这种速度不匹配会引发一系列性能问题,直接损害计算投资。当存储系统无法满足加速器的需求时,GPU 就会浪费宝贵的计算周期等待,而不是进行处理。
这种影响遍及整个人工智能流程。在训练过程中,加速器可能会闲置,等待来自数TB数据集的下一批数据。数据准备工作负载会产生数百万次随机I/O操作,这些操作累积起来会导致显著的延迟。检查点操作需要在不中断正在进行的训练的情况下,承受大量的写入突发。
每一个瓶颈都会使高效的人工智能开发变成一场代价高昂的等待游戏。
对延迟要求极高的应用,例如实时推理,可以从 Lustre 等并行文件系统中获益匪浅。这些系统能够提供毫秒级延迟对 GPU 响应速度至关重要的超低延迟。在交互式模型开发或生产部署期间,这些系统可以避免昂贵的计算资源因等待存储而浪费资源。
横向扩展的人工智能基础设施越来越依赖于新兴的连接标准,例如用于纵向扩展架构的超高速加速器链路 (UAL) 和用于横向扩展部署的超高速以太网。这些技术使存储系统能够与计算资源更紧密地集成,从而减少可能限制大规模 GPU 集群性能的网络瓶颈。
除了选择合适的存储架构之外,智能存储管理系统还可以主动优化 GPU 利用率。这意味着要实现的存储不仅要存储数据,还要主动管理数据,从而最大限度地提高加速器的效率。
实时优化 是指利用系统监控 GPU 和 TPU 的活动模式,并根据实际计算需求自动调整数据放置和缓存。当这些系统检测到训练作业频繁访问某些数据集时,它们可以提前将这些数据移动到更靠近计算资源的位置,从而消除导致加速器闲置的延迟。
在管理跨多个人工智能项目的PB级数据集时,生命周期管理 至关重要。自动化的分层策略可以将已完成的训练数据集迁移到成本更低的存储层,同时将活跃数据集保留在高性能层。版本跟踪确保团队能够快速访问模型迭代所需的确切数据集版本,无需人工干预,从而避免拖慢开发周期。这种智能方法将存储从被动存储库转变为优化加速器利用率的积极参与者。
即使是最好的AI模型和最强大的AI芯片也无法克服糟糕的存储架构带来的限制。如果企业将存储视为次要因素,最终会发现计算资源远未发挥其全部潜力,训练时间过长导致模型部署延迟,基础设施成本也远超预期。在人工智能大规模部署的竞赛中,存储系统可能不会引起太多关注,但它们肯定有助于决定谁能最终胜出。
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。
