以下是当前更难实现的问题:是获取1665个英伟达“ Blackwell” B200 GPU计算引擎,还是获得美国东北部地区一份为期四年、功率为10兆瓦的电力合同?
毫无疑问,是后者,而非前者,并且两者的成本都约为6600万美元。
有趣的是,在GB200 NVL72机架规模系统配置中,这些GPU实际运行可能需要13.4兆瓦的电力,这意味着它们在四年内将消耗约88.5兆瓦的电力。如果您不需要为GPU提供机架规模的相干内存域(因为您将GPU用于AI训练而非推理(推理需要数万个GPU的规模)),您可能会消耗大致相同的电力,但可以用两倍的空间和一半的功率密度来实现。
现代AI数据中心还有一个有趣的点:如果您无法证明您已分配到电力,并且数据中心设计能够处理系统的密度,英伟达在您证明拥有电力之前不会向您出售GPU。上周,在纽约纳斯达克交易所举行的金融服务业AI会议上了解到,电力公司现在正试图扩展其千兆瓦级的发电能力,并在进行电力分配之前,越来越关注AI数据中心的电力分配方式和冷却方式。
越来越多的情况是,如果您无法证明您在合理使用电力,您将无法获得电力,或者无法获得所需的电量。
此外,运行思维链模型的AI系统需要计算密度,因为这些模型需要GPU之间具有超低延迟的相干内存链接来进行AI推理。因此,直接液体冷却虽然不是未来的必然选择,但现在绝对是必需的。许多数据中心对此并不习惯,而五六十年前IBM System/360和System/370大型机时代使用过液体冷却设备的数据中心,已经很久没有在其数据中心中使用液体冷却设备了。
这就是为什么超微(Supermicro)等公司必须在其GPU加速系统的直接液体冷却方面突破极限。
超微营销和网络安全高级副总裁迈克尔·麦克纳尼(Michael McNerney)表示:“我们与之交谈的所有客户都在考虑每兆瓦能为多少GPU供电和冷却。他们告诉我们有多少兆瓦,并且希望尽可能多的GPU。讨论的主题是GPU密度和每兆瓦的GPU数量,而不是他们能在电力上节省多少钱,而是获得更多的GPU来处理AI工作负载。”
2023年秋季,超微基于英伟达“Hopper” H100 GPU开发了第一代带有CPU和GPU冷板的直接液体冷却系统,采用8 GPU服务器。此时,人们首次意识到,高性能计算(HPC)系统中使用了几年的一些冷却技术需要在AI系统中普及。超微设计和制造了整个DLC系统,包括冷板、机架中的冷却剂分配单元(CDU)以及向机架中的设备提供冷水的冷却器。
值得注意的是,xAI在孟菲斯数据中心的“Colossus”系统(总共50,000个H100 GPU)中,有一半是由超微使用其DLC-1技术构建的。系统的另一半(另外50,000个H100)由戴尔构建,仅采用风冷。
Colossus机器中的这些节点有一对CPU和八个H100 GPU。服务器节点还配备了八个ConnectX-7网络接口卡(每个GPU一个)以及一对用于系统管理的低速以太网接口卡、用于将GPU复合体连接到CPU和节点存储的PCI-Express交换机以及许多其他组件。DLC-1系统使用30摄氏度的水,可以去除系统中约70%以上的热量,这在效率和节能方面有了很大的提升。DLC-1设置中的CDU额定功率为100千瓦。
但鉴于全球电力短缺及其成本,超微本周推出了DLC-2液体冷却系统,并与Blackwell B200 GPU节点一起首次亮相,进一步推动了技术发展。
以下是采用DLC-2冷却的新型4U节点的外观:从技术上讲,按照超微的命名惯例,上面的这台机器是SYS-422GS-NBRT-LCC。CDU效率更高,可以提供250千瓦的冷却流量,重要的是可以在仅45摄氏度的液体中运行,这意味着它可以使用外部冷却塔而不是冷却器进行冷却,从而减少了总体电力需求。
在B200 HGX超级服务器的DLC-2设置中,一对英特尔至强6 CPU和八个Blackwell B200 GPU都有冷板,但主内存DIMM、节点中的PCI-Express交换机、电源和电压调节器也都配备了冷板,以直接散热。
对于超微将于今年晚些时候推出的HGX B300系统,ConnectX-7及后续的网络接口卡也将采用液体冷却,因此系统产生的约98%的热量将通过液体而非空气去除。事实上,SuperServer B300节点将只配备两个小风扇,并且几乎不会产生噪音。
其结果是,使用DLC-2冷却的GPU系统冷却所需的电力比两年前完全风冷的HGX H100系统少40%。使用DLC-2设置的机架的电源使用效率(PUE)也将非常低。企业数据中心的传统机架的PUE为1.6到2.0,这意味着数据中心机架消耗的电力是计算单元工作所需电力的1.6到2倍,额外的电力用于冷却机架。使用DLC-1时,超微机架的PUE降至约1.2,而DLC-2的目标是极低的1.02 PUE。
DLC-2机架的噪音水平降至约50分贝,而DLC-1机架的噪音水平约为75分贝。正常对话的噪音约为60分贝,(车外的)交通噪音约为85分贝。摇滚音乐会的噪音约为120分贝,喷气发动机起飞时的噪音为140分贝。
为AI系统提供更高效冷却的唯一方法是将其浸入婴儿油或其他不会损坏计算机组件的冷却剂中。可以说,这是一个非常沉重的解决方案。
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。