MIT放大招:SSD性能翻倍,数据中心效率飙升

来源:半导纵横发布时间:2026-04-07 16:47
存储
数据中心
技术进展
生成海报
其性能几乎达到传统方案的两倍。

为提升数据中心效率,多个存储设备通常会通过网络进行池化管理,使多个应用程序能够共享使用。但即便采用池化方案,由于不同设备之间存在性能差异,设备的大量容量仍未得到充分利用。

麻省理工学院(MIT)的研究人员近日开发出一套系统,可同时应对三大导致性能波动的根源,从而提升存储设备效率。相比传统方法一次只解决一种波动问题,该方案实现了显著的速度提升。这套系统采用双层架构:中央控制器从全局层面分配各存储设备的任务;每台设备上的本地控制器则在设备出现瓶颈时快速重路由数据。

该方法可实时适配动态变化的负载,且无需专用硬件支持。研究人员在 AI 模型训练、图像压缩等真实场景任务中测试该系统后发现,其性能几乎达到传统方案的两倍。通过智能均衡多台存储设备的负载,这套系统能够有效提高数据中心整体运行效率。

“人们往往倾向于通过增加资源来解决问题,但这种方式在很多层面都不具备可持续性。我们希望尽可能延长这些造价高昂、碳足迹巨大的设备使用寿命,” 电子工程与计算机科学系(EECS)研究生、该技术论文第一作者 Gohar Chhdhry 表示。“借助我们这款自适应软件方案,在淘汰旧设备、采购新设备之前,你仍能从现有硬件中挖掘出大量性能。”

与 Chaudhry 共同撰写论文的作者包括:塔夫茨大学助理教授 Ankit Bhardwaj、2024 届博士毕业生 Zhenyuan Ruan,以及资深作者、MIT 电子工程与计算机科学系副教授、MIT 计算机科学与人工智能实验室(CSAIL)成员 Adam Belay。

挖掘未被利用的性能

固态硬盘(SSD)是高性能数字存储设备,可为应用提供数据读写服务。例如,SSD 可存储海量数据集,并在机器学习模型训练时快速向处理器传输数据。将多块 SSD 池化以实现多应用共享,能够提升效率,因为并非所有应用都需要在同一时刻占用整块 SSD 的全部容量。但不同 SSD 的性能并不一致,性能最差的设备会拖累整个存储池的整体表现。

这类效率损耗源于 SSD 硬件差异及其所执行任务的波动性。为释放这部分未被利用的 SSD 性能,研究人员开发了 Sandook,一款纯软件系统,可同时解决三大影响性能的波动问题。“Sandook” 在乌尔都语中意为 “箱子”,象征 “存储”。

第一类波动由 SSD 本身差异导致:设备采购时间、厂商不同,使用年限、磨损程度与容量也各不相同。

第二类波动源于同一 SSD 上读写操作冲突。向设备写入新数据前,SSD 需要先擦除部分旧数据,这一过程会拖慢同时进行的数据读取操作。

第三类波动来自垃圾回收:系统会集中清理过期数据以释放空间,该过程会降低 SSD 运行速度,且触发时间随机,数据中心运维人员无法控制。

“我无法假设所有 SSD 在整个部署周期内表现都完全一致。即便分配相同负载,部分设备仍会成为瓶颈,进而影响整体吞吐量,”Chaudhry 解释道。

全局规划,本地响应

为同时处理三类波动,Sandook 采用双层结构:全局调度器对整个存储池进行任务分配优化;每块 SSD 上的轻量化调度器则实时响应紧急事件,将任务从拥堵设备转移。系统通过轮换读写 SSD的方式缓解读写冲突带来的延迟,降低同一设备上读写同时发生的概率。

Sandook 还会为每块 SSD 建立性能画像,据此判断垃圾回收是否导致性能下降。一旦检测到垃圾回收,系统便会降低该 SSD 的负载,将部分任务分流,直至回收完成。“如果某块 SSD 正在执行垃圾回收,无法承载原有负载,我就会降低其任务量,再逐步恢复。我们希望找到一个平衡点,让它仍能承担部分工作,从而持续释放性能,”Chaudhry 说。

基于 SSD 性能画像,Sandook 的全局控制器可根据各设备特性与容量进行加权分配任务。由于全局控制器掌握整体情况,而本地控制器可即时响应,Sandook 能够同时管理不同时间尺度的波动。例如,垃圾回收造成的延迟突发出现,而硬件老化带来的延迟则在数月间逐渐累积。

研究人员在由 10 块 SSD 组成的存储池上对 Sandook 进行测试,并在四类任务中评估系统效果:运行数据库、训练机器学习模型、图像压缩、存储用户数据。结果显示,相比静态方案,Sandook 将各应用吞吐量提升了 12% 至 94%,并使 SSD 整体容量利用率提高 23%。该系统使 SSD 达到其理论最大性能的 95%,且无需专用硬件或针对特定应用修改。“我们的动态方案能为所有 SSD 释放更多性能,真正将其推向极限。在这种规模下,每一点可节省的容量都至关重要,”Chaudhry 表示。

未来,研究人员计划集成最新 SSD 支持的新协议,让运维人员对数据放置拥有更强控制力。他们还希望利用 AI 负载的可预测性进一步提升 SSD 运行效率。Google 软件工程师、即将就任宾夕法尼亚大学助理教授的 Josh Fried 评价,“闪存是支撑现代数据中心应用的关键技术,但在性能需求差异巨大的负载间共享这一资源仍是一大难题。这项工作以简洁实用、可直接部署的方案实现了重要突破,让闪存更接近其在生产云环境中的全部潜力。”

本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。

评论
暂无用户评论