人们走进普通的数据中心时,第一印象往往是噪声很大。成千上万个风扇发出嗡嗡声,有单个计算机芯片旁的风扇,有服务器机架后面板上的风扇,还有网络交换机上的风扇。所有风扇都将热空气从对温度敏感的计算机芯片吹向空调设备。
如今,虽然这些风扇可能还在嗡嗡作响,但它们已经无法胜任降温的工作了。在过去的10年里,最先进的计算机芯片的功率密度呈爆炸式增长。2017年,英伟达推出了V100图形处理单元(GPU),其功耗为300瓦。大部分的能量又以热量的形式散失了。3年后的2020年,英伟达A100问世,功耗高达400瓦。2022年,现在很受欢迎的H100上市,其功耗高达700瓦。2024年,英伟达发布了最新的Blackwell GPU,其功耗达到了1200瓦。
液体冷却公司Mikros Technologies的总裁兼首席执行官德鲁·马特(Drew Matter)表示:“未来一两年内,(每个芯片的)功率将超过2000瓦。事实上,在可预见的未来,业界正在准备研发5千瓦及以上的芯片。”
显然,促成这种功率爆炸式增长的最大因素是人工智能。所有额外的计算消耗了来自先进芯片的全部额外功率,产生了难以控制的热量。
“机架的平均功率约为8千瓦。”初创公司Accelsius的首席执行官乔希·克拉曼(Josh Claman)说,“采用人工智能后,每个机架的功率将提高到100千瓦。这是一种数量级的增加。人工智能的采用让我们迫切需要找到一种更好的方式来冷却数据中心。”
具体来说,当务之急是摒弃风扇,采用某种形式的液体冷却。例如,水的比热大约是空气的4倍,密度大约是空气的800倍,这意味着水吸收的热量大约是同等体积空气的3200倍。更重要的是,水的导热系数是空气的23.5倍,这意味着热量更容易传递到水中。
“你可以把手伸进热烤箱里,也不会被烫伤。但如果把手伸进一锅沸水里,就会立即遭到三度烫伤。”浸没式冷却公司Airedale by Modine的总经理谢莫斯·伊根(Seamus Egan)说,“这是因为液体传递热量的速度要快得多。”
数据中心行业普遍认为,用液体来冷却芯片是未来的发展方向,至少对侧重人工智能的数据中心而言是这样。Nortek数据中心冷却公司的总裁卡林·奥弗斯特里特(Karin Overstreet)在邮件中表示:“随着人工智能让机架越来越密集、温度越来越高,液体冷却已经成为了实际的冷却方案。”
不过,从简单直接的方法,到复杂和略微奇怪的方法,实现液体冷却的方法有很多。
简单的方法是在连接最热芯片的冷却板上循环冷却水。第二种方法是循环一种特殊的介质液,而不是循环水,它会在冷却板内部沸腾,从而带走热量。第三种方法是将整个服务器浸泡在能保持其冷却的液体中。最后一种方法也是最引人瞩目的,那就是将服务器浸入沸腾的液体中。
哪种方法最终会成为未来高端人工智能工厂的行业标准?这一点尚无定论。以下是这4种方法的工作原理,以及它们可能在哪些地方最有用。
以下是4种实现人工冷却的新方法。
水冷却是技术上最成熟的冷却方法。许多人工智能中心已经在针对最热的芯片采用这种直接式芯片液体冷却方法。
在这个方案中,名为冷却板的金属块被直接放置在芯片顶部,其中有冷却剂循环的通道。冷却板的大小与芯片尺寸匹配,位于服务器内部。循环液体通常是水和乙二醇,加入乙二醇的目的是防止细菌生长,稳定温度,防止冻结和腐蚀,并提高液体的黏度。乙二醇和水的混合物会在加压条件下流经冷却板,带走热源处的热量。
乙二醇水通常会处于一个闭环中,从冷却板循环到热交换装置,热交换装置将液体冷却下来,液体再回到冷却板。在热交换器内,有一个单独的“设施循环水”回路用于冷却乙二醇水溶液。设施循环水则通过两种方式降温:一种是通过电动制冷的水冷机组;另一种是通过干式冷却器,这是一种室外装置,会使用风扇吹过流经管道的水周围的空气来实现冷却。虽然干式冷却器比水冷机组简单得多,也更节能,但它只能在较冷的气候下工作,无法将水冷却到环境温度以下。
这种方法有一个困难,那就是在服务器中的每个产生热量的组件上都安装一个冷却板并不可行。只有把冷却板放在GPU和一些中央处理器(CPU)等能量密度最大的组件上,才能起作用,而电源和存储单元等较小的组件,则使用风扇这种老式的方式来冷却。
“趋势是向混合冷却解决方案发展。”奥弗斯特里特说,“因此,液体冷却可以完成服务器室或数据大厅大约80%的冷却工作,其余20%的冷却工作则由现有空气冷却解决方案完成。”
由于GPU的功率密度还没有稳定在某个水平的迹象,直接式芯片水冷却正在趋近于极限。当然,也可以提高水的流量,但这样会消耗更多的能量。还可以让芯片在更高的温度下运行,但这样会降低其性能,从长远来看会导致芯片老化。幸运的是,还有第三个选择,即从热交换的物理原理中挤出更多的利用空间。
这项由物理学原理赋予的额外冷却效果来源于潜热,也就是物质发生相变(此处是指从液态转变为气态)所吸收的能量。冷却液在GPU表面沸腾汽化时,会吸收额外的潜热,且不会提高温度。
这就是两相直接式芯片冷却的工作原理。在这个方案中,特殊配方的介质液会在高能芯片顶部的冷却板中循环,并沸腾成蒸汽。然后,蒸汽会被输送到热交换器,热交换器再用设施循环水冷却液体。
“这是真正通过沸腾实现的冷却。”初创公司ZutaCore的首席技术官米·托鲁姆(My Truong)表示,该公司生产两相直接式芯片冷却系统。
水的沸点为100℃,芯片要正常运行,这个温度太高了,因此需要一种沸点较低的特制液体。ZutaCore的首席宣传官沙哈尔·贝尔金(Shahar Belkin)解释说,他们使用的液体来自霍尼韦尔和科慕等化学品供应商,这种液体的沸点可低至18℃,可以通过调节回路中的压力来调整其沸点。此外,这种液体是介电的,除非受到外部电场的极化,否则它是不带电的。因此,与水不同的是,这种液体即便溅到电子器件上,也不会损坏昂贵的设备。
水在流经热芯片时,温度会急剧升高。这意味着,流入的水需要保持低温,因此在大多数气候条件下,需要用冷却器来冷却设施循环水。
然而,使用沸腾的介质液时,液体会保持大致相同的温度,只是从液体转变为蒸汽。这意味着,液体和设施循环水都可以保持在更高的温度,从而显著节省能源。
另一家研究两相直接式芯片冷却技术的初创公司Accelsius的产品营销总监卢卡斯·贝兰(Lucas Beran)表示:“冷却板上的沸腾过程非常高效,因此我们可以采用比单相直接式冷却方式高6到8℃的设施循环水。”
与传统单相水冷却方式相比,两相冷却装置对液体流速的要求也更低,因此其能耗更低,损坏设备的风险也更小。贝尔金表示,两相冷却系统的流速大约是单相冷却系统流速的1/5。
他说,采用单相水冷却方式时,要冷却运行功率为2000瓦的最先进芯片,“必须每分钟向冷却板输送1加仑的冷却液。这意味着压力相当高,流量也非常非常大,因此泵送的成本很高,而且(冷却系统)实际上会因高流量而损坏。”
虽然直接式芯片液体冷却方式的冷却效果比扇动空气流动好很多,但它需要将冷却板作为中介来实现冷却。
如果完全摒弃冷却板,而将整个计算机服务器都浸泡在冷却剂里,效果如何?一些公司就采用了这样的方案。
在这种方法中,数据中心被放置在浸没式冷却箱周围,而不是放置在机架上,每个冷却箱的尺寸与冰箱大致相当。Baltimore Aircoil公司浸没式冷却系统的全球销售经理雷切尔·比尔斯坦(Rachel Bielstein)表示,浸没式冷却箱中充满了介质液,通常是一种油,这种介质必须是不导电的,而且具有很强的传热性能。此外,这种液体还需要长期稳定,且环境风险和火灾风险较低。
在浸没式冷却系统中,所有的组件都被同样的液体冷却。油体带走热量后,有各种方法来冷却浸液。比尔斯坦解释说,Baltimore Aircoil公司设计了一种热交换器,可通过冷却箱内的盘管和冷却板来循环设施水。“然后,加热的水会被泵送到外部冷却器,将热量释放到空气中并将水冷却,然后冷却器再将其送回热交换器以便从冷却箱中吸收更多的热量。与传统设计相比,这一过程最多可节省51%的能源。”
新加坡SMC公司就是一家制造数据中心浸没式冷却系统的公司,该公司的团队已经了解了需要对服务器进行哪些修改,使其与这种冷却方法兼容。除了移除内置风扇外,该公司还更换了连接芯片和散热器的热界面材料,因为其中一些材料在油液中会分解。SMC及其姐妹公司Firmus的联合首席执行官奥利弗·柯蒂斯(Oliver Curtis)告诉本刊,虽然他们做的改动很小,但对SMC装置的运行而言很重要。
“我们为计算机打造了完美的运行环境。”柯蒂斯说,“没有风扇,因此没有灰尘,不会移动,也没有振动,而且工作温度也很完美。”
不过,有些芯片的功率密度还是太高,无法被缓慢流动的油液完全冷却。在这种情况下,则有必要添加冷却板以便增加在其上流动的油量。Airedale by Modine的伊根表示,对于冷却这些先进芯片而言,“单相浸没技术已经达到了极限。”他说,在浸没式冷却系统中增加冷却板,“一定会为更先进的芯片架构提供支持,并减少单相介质液的热负荷。新的挑战在于,现在需要两个独立的冷却循环系统。”
如果单独使用一种冷却方法还不够,那么是否可以将所有的冷却方法应用起来,并将数据中心浸入一大桶沸腾的油中?
一些公司已经采用了这样的方法。
“在数据中心液体冷却方面,两相浸没式冷却可能是最具挑战性的技术。”Accelsius的贝兰说。
不过科慕数据中心液体冷却系统全球营销经理布兰登·马歇尔(Brandon Marshall)表示,这是该行业的发展方向。“根据我们所做的研究,我们相信,两相浸没式冷却将以一种非常合理的方式出现。”
马歇尔认为,两相液体(也称为沸腾液体)因为有潜热,其冷却能力是单相液体的10倍到100倍。虽然两相直接式芯片冷却可能适用于当今的芯片,但存储模块和电源等许多组件仍需要空气冷却。随着CPU和GPU越来越强大,这些存储模块和电源也将需要液体冷却。
马歇尔表示:“这一系列问题不会消失。我认为,随着我们的发展,浸没式冷却系统将继续受到人们的关注。人们将更加适应在机架内放置两相液体,就像他们在单相直接式芯片冷却技术中把水放入机架一样。”
在位于美国特拉华州纽瓦克的实验室里,科慕团队将几个大功率服务器放入了装满专有特殊配方液体的容器中。这种液体是介电的,因此不会造成短路,而且也没有腐蚀性,其沸点被精确设计为芯片运行时的温度。液体会直接在热芯片上沸腾,然后蒸汽会凝结在冷却的表面上,要么在冷却箱的顶部,要么在后面板。
冷凝器用设施循环水来冷却。“我们只需要把液体直接送入比沸点低6℃的冷却箱中,也就是43℃左右,”马歇尔说,“液体就会在冷却箱内冷凝(回到液态)。在大多数情况下,要达到液体冷凝所需的温度,是不需要冷却器和其他复杂的机械基础设施的。”
科慕研究人员最近的一项案例研究表明,在大多数气候条件下,两相浸没式冷却比单相浸没式冷却或单相直接式芯片冷却更具成本效益。例如,在弗吉尼亚州的阿什布恩(全球最大的数据中心市场之一),单相直接式芯片冷却系统的10年总拥有成本估计为4.36亿美元,单相浸没式冷却系统的10年总拥有成本估计为4.91亿美元,而两相浸没式冷却系统的10年总拥有成本估计为4.33亿美元,后者较低主要是由于较低的功耗要求和简化的机械系统。
批评人士认为,两相浸没式冷却系统会导致设备难以维护,尤其是这些油是如此专业、昂贵,而且容易蒸发。“将设备放在浸没式冷却槽中,就会因此承担一些成本,这对服务来说确实是个挑战。”贝兰说。
不过,Airedale by Modine的伊根表示,他的公司已经开发了一种方法,可以在很大程度上避免浸没式冷却箱的这个问题,浸没式冷却箱是针对边缘应用设计的。“我们的EdgeBox经过了特殊设计,可将蒸汽层保持在油箱中较低的位置,它的上方有一层空气,并且更靠近箱盖。打开冷却箱(进行短期维护)时,蒸汽层不会‘流出’冷却箱。”伊根在电子邮件中写道,“蒸汽比空气重得多,因此在冷却箱中的位置较低。系统内的液体缓冲罐会抵消最小蒸汽损失。”
在可预见的未来,业内人士一致认为,人工智能的功率需求将继续增加,对冷却的需求也将随之提高。
马歇尔表示:“除非人工智能的底层坍塌,所有人都停止制造这些人工智能集群,不再制造用于训练大语言模型的硬件,否则我们还需要继续改进冷却技术,解决散热问题。”
哪种冷却技术将在未来的人工智能工厂中占据主导地位?现在下结论还为时尚早。但是,数据中心快速变化的本质为大量的发明和创新打开了这个领域的大门。
Mikros Technologies的德鲁·马特表示:“冷却系统不仅有巨大的市场,而且也是一个有趣的工程问题。”
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。
