
为提升数据中心效率,多个存储设备通常会通过网络进行池化管理,使多个应用程序能够共享使用。但即便采用池化方案,由于不同设备之间存在性能差异,设备的大量容量仍未得到充分利用。
麻省理工学院(MIT)的研究人员近日开发出一套系统,可同时应对三大导致性能波动的根源,从而提升存储设备效率。相比传统方法一次只解决一种波动问题,该方案实现了显著的速度提升。这套系统采用双层架构:中央控制器从全局层面分配各存储设备的任务;每台设备上的本地控制器则在设备出现瓶颈时快速重路由数据。
该方法可实时适配动态变化的负载,且无需专用硬件支持。研究人员在 AI 模型训练、图像压缩等真实场景任务中测试该系统后发现,其性能几乎达到传统方案的两倍。通过智能均衡多台存储设备的负载,这套系统能够有效提高数据中心整体运行效率。
“人们往往倾向于通过增加资源来解决问题,但这种方式在很多层面都不具备可持续性。我们希望尽可能延长这些造价高昂、碳足迹巨大的设备使用寿命,” 电子工程与计算机科学系(EECS)研究生、该技术论文第一作者 Gohar Chhdhry 表示。“借助我们这款自适应软件方案,在淘汰旧设备、采购新设备之前,你仍能从现有硬件中挖掘出大量性能。”
与 Chaudhry 共同撰写论文的作者包括:塔夫茨大学助理教授 Ankit Bhardwaj、2024 届博士毕业生 Zhenyuan Ruan,以及资深作者、MIT 电子工程与计算机科学系副教授、MIT 计算机科学与人工智能实验室(CSAIL)成员 Adam Belay。
固态硬盘(SSD)是高性能数字存储设备,可为应用提供数据读写服务。例如,SSD 可存储海量数据集,并在机器学习模型训练时快速向处理器传输数据。将多块 SSD 池化以实现多应用共享,能够提升效率,因为并非所有应用都需要在同一时刻占用整块 SSD 的全部容量。但不同 SSD 的性能并不一致,性能最差的设备会拖累整个存储池的整体表现。
这类效率损耗源于 SSD 硬件差异及其所执行任务的波动性。为释放这部分未被利用的 SSD 性能,研究人员开发了 Sandook,一款纯软件系统,可同时解决三大影响性能的波动问题。“Sandook” 在乌尔都语中意为 “箱子”,象征 “存储”。
第一类波动由 SSD 本身差异导致:设备采购时间、厂商不同,使用年限、磨损程度与容量也各不相同。
第二类波动源于同一 SSD 上读写操作冲突。向设备写入新数据前,SSD 需要先擦除部分旧数据,这一过程会拖慢同时进行的数据读取操作。
第三类波动来自垃圾回收:系统会集中清理过期数据以释放空间,该过程会降低 SSD 运行速度,且触发时间随机,数据中心运维人员无法控制。
“我无法假设所有 SSD 在整个部署周期内表现都完全一致。即便分配相同负载,部分设备仍会成为瓶颈,进而影响整体吞吐量,”Chaudhry 解释道。
为同时处理三类波动,Sandook 采用双层结构:全局调度器对整个存储池进行任务分配优化;每块 SSD 上的轻量化调度器则实时响应紧急事件,将任务从拥堵设备转移。系统通过轮换读写 SSD的方式缓解读写冲突带来的延迟,降低同一设备上读写同时发生的概率。
Sandook 还会为每块 SSD 建立性能画像,据此判断垃圾回收是否导致性能下降。一旦检测到垃圾回收,系统便会降低该 SSD 的负载,将部分任务分流,直至回收完成。“如果某块 SSD 正在执行垃圾回收,无法承载原有负载,我就会降低其任务量,再逐步恢复。我们希望找到一个平衡点,让它仍能承担部分工作,从而持续释放性能,”Chaudhry 说。
基于 SSD 性能画像,Sandook 的全局控制器可根据各设备特性与容量进行加权分配任务。由于全局控制器掌握整体情况,而本地控制器可即时响应,Sandook 能够同时管理不同时间尺度的波动。例如,垃圾回收造成的延迟突发出现,而硬件老化带来的延迟则在数月间逐渐累积。
研究人员在由 10 块 SSD 组成的存储池上对 Sandook 进行测试,并在四类任务中评估系统效果:运行数据库、训练机器学习模型、图像压缩、存储用户数据。结果显示,相比静态方案,Sandook 将各应用吞吐量提升了 12% 至 94%,并使 SSD 整体容量利用率提高 23%。该系统使 SSD 达到其理论最大性能的 95%,且无需专用硬件或针对特定应用修改。“我们的动态方案能为所有 SSD 释放更多性能,真正将其推向极限。在这种规模下,每一点可节省的容量都至关重要,”Chaudhry 表示。
未来,研究人员计划集成最新 SSD 支持的新协议,让运维人员对数据放置拥有更强控制力。他们还希望利用 AI 负载的可预测性进一步提升 SSD 运行效率。Google 软件工程师、即将就任宾夕法尼亚大学助理教授的 Josh Fried 评价,“闪存是支撑现代数据中心应用的关键技术,但在性能需求差异巨大的负载间共享这一资源仍是一大难题。这项工作以简洁实用、可直接部署的方案实现了重要突破,让闪存更接近其在生产云环境中的全部潜力。”
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。
