现代高性能芯片绝对称得上是工程界的奇迹,一块小小的芯片里就包含了数百亿个晶体管。可问题在于,你没办法把这些晶体管同时投入使用。要是强行同时启用,芯片上就会出现“热点”——也就是热量集中在一小块区域的情况,而且这些区域的功率密度能接近太阳表面的功率密度。
这一现象直接导致了一个让人头疼的“悖论”,计算机架构师给它起了个名字叫“暗硅”。简单来说,“暗硅” 就是芯片里那些为了防止芯片因过热而损坏,必须一直处于断电状态的部分,并且随着芯片技术的发展,这部分的占比还在不断增加。现在的芯片,竟然有高达80% 的晶体管得随时保持“休眠”状态,就怕芯片因为过热而出现故障。咱们明明在一小块硅片上造出了堪比超级计算机的设备,却只能用到它一小部分的性能,这就好比盖了一座摩天大楼,结果却只能用最下面的10 层,实在是可惜。
这些年来,行业里一直在想办法应对芯片的热极限问题,比如用更大的风扇,或者研发更复杂的液体冷却系统。但说实在的,这些办法都只是“治标不治本”的权宜之计。不管是靠空气散热,还是靠液体散热,它们的核心思路都是把热量从芯片表面导走。可问题是,热量得先通过芯片的硅材料传导到冷却板上,这个过程中就形成了一个“热瓶颈”。而且随着未来芯片功率密度的不断提升,这个热瓶颈根本没办法突破。现在芯片上的热点,每平方毫米就能产生几十瓦的热量,更麻烦的是,这些热点还会在计算过程中,随着时间的推移出现在芯片不同的位置。
不管是空气冷却还是液体冷却,都很难精准地针对这些随时可能出现、位置还不固定的热点进行散热,它们能做到的只是给整个芯片进行整体降温,效果自然大打折扣。
不过,现在有了新的解决方案。位于美国明尼苏达州圣保罗市的初创公司Maxwell Labs,提出了一种全新的芯片冷却思路:要是Maxwell Labs不只是简单地转移热量,而是能让热量直接 “消失”,那会怎么样呢?基于这个想法,Maxwell Labs研发出了“光子冷却”技术。这项技术能直接把芯片产生的热量转化成光能,从芯片内部到外部,全方位地给芯片降温。更厉害的是,转化出来的光能还能被回收利用,进一步转化成可用的电能,实现了能源的循环利用。
采用这种光子冷却技术,不用再费力地给整个芯片进行均匀降温,而是能像用激光瞄准目标一样,以极高的精度对准那些刚形成的热点进行精准散热。从根本上来说,这项技术的散热能力远超传统方式,它能应对每平方毫米产生数千瓦热量的热点,相比现在主流的芯片冷却方式,散热效果一下子提升了好几个数量级,为未来高性能芯片的发展扫清了热极限这一关键障碍。
激光通常被认为是热源,这并非毫无道理——它们最常用于切割材料或传输数据。但在适当的条件下,激光可以诱导冷却。其秘密在于一种名为荧光的发光过程。
荧光是荧光笔、珊瑚礁和白色衣物在黑光照射下发出的常见光芒背后的现象。这些材料吸收高能光(通常是紫外线),然后重新发射能量较低的光(通常是可见光谱)。由于它们吸收的能量高于发射的能量,这种能量差异通常会导致材料升温。然而,在某些非常特殊的条件下,可能会发生相反的情况:一种材料可以吸收低能光子,然后发射高能光,并在此过程中冷却下来。
再发射的能量更高,因为它将入射光子的能量与声子(材料晶格中的振动)结合在一起。这种现象被称为反斯托克斯冷却,早在1995年,一组科学家就首次在固体中证明了这一现象,当时他们用激光冷却了一个掺镱的氟化物玻璃样品。
选择镱作为掺杂剂并非偶然:反斯托克斯冷却只有在精心设计的条件下才能发挥作用。吸收材料的结构必须能够确保几乎每个被吸收的光子都会发射出一个能量更高的光子。否则,其他机制就会发挥作用,加热而不是冷却样品。镱和其他镧系元素的离子具有合适的电子轨道结构,可以促进这一过程。当照射在材料上的窄波长激光照射时,离子可以有效吸收入射光,并利用声子触发发射出能量更高的光。这些重新发射的热光需要足够快地逸出材料,以免再次被吸收,否则会导致加热。
迄今为止,实验室方法已在掺镱石英玻璃中实现了高达90瓦的冷却功率。尽管这令人印象深刻,但为了实现Maxwell Labs预期的对高性能芯片的变革性影响,Maxwell Labs需要将冷却能力提高许多个数量级。要实现这一目标,需要将光子冷却机制集成到薄膜芯片级光子冷板上。小型化不仅可以通过紧密聚焦的光束实现更精确的热点空间定位,而且是推动激光冷却物理学向高功率和高效率方向发展的关键因素。更薄的层也使得光在离开薄膜之前被重新吸收的可能性更小,从而避免了加热。并且,通过在光波长尺度上设计材料,可以增加对入射激光束的吸收。
在实验室中,Maxwell Labs正在开发一种利用光子冷却技术来解决当前和未来CPU和GPU产生的热量问题的方法。Maxwell Labs的光子冷板旨在感知功率密度不断增加的区域(新兴热点),然后将光高效地耦合到附近的区域,从而将热点冷却至目标温度。
光子冷板有几个组件:首先是耦合器,它将入射的激光耦合到其他组件中;然后是微制冷区域,冷却实际发生在这里;接下来是背反射器,它可以防止光直接照射到CPU 或 GPU 上;最后是传感器,它可以检测热点的形成。
激光从上方通过耦合器照射到目标区域:耦合器是一种透镜,将入射激光聚焦到微制冷区域。耦合器同时将入射的载热荧光引导出芯片。微制冷区域,Maxwell Labs称之为提取器,是真正神奇之处发生的地方:特殊掺杂的薄膜发生反斯托克斯荧光。
为了防止入射的激光和荧光进入实际芯片并加热电子设备,光子冷板采用了背反射器。
至关重要的是,冷却仅在激光照射到冷板时才会发生。通过选择激光的照射位置,Maxwell Labs可以瞄准芯片上出现的热点。冷板包含一个热传感器,可以检测热点,从而引导激光照射到热点上。
设计整个堆栈是一个复杂且相互关联的问题,涉及许多可调参数,包括耦合器的精确形状、提取区域的材料和掺杂水平,以及背反射器的厚度和层数。为了优化冷板,Maxwell Labs部署了一个多物理场仿真模型,并结合逆向设计工具,以便Maxwell Labs搜索大量可能的参数。Maxwell Labs利用这些工具,希望将冷却功率密度提高两个数量级,并且Maxwell Labs计划进行更大规模的仿真,以实现更大的改进。
Maxwell Labs与新墨西哥大学、圣托马斯大学以及桑迪亚国家实验室的合作伙伴携手合作,在圣保罗的实验室中构建一个光子冷却的演示版本。Maxwell Labs正在组装一系列小型光子冷板,每个冷板的尺寸为一平方毫米,平铺在各种CPU上。为了演示,Maxwell Labs使用外部热像仪来感应来自芯片的热点。当热点开始出现时,Maxwell Labs会用激光照射到正上方的光子冷板上,提取其热量。Maxwell Labs最初设计的冷板采用了镱离子掺杂,但目前Maxwell Labs正在试验其他多种掺杂剂,Maxwell Labs相信这些掺杂剂将带来更高的性能。
在即将推出的该演示的集成实现中,光子冷板将由更精细的“瓷砖”(tile)组成——尺寸约为 100 x 100 微米。与自由空间激光器不同,来自光纤的光将通过片上光子网络路由到这些“瓷砖”。激光激活哪些“瓷砖”将取决于传感器测量到的热点形成位置和时间。
最终,Maxwell Labs希望与 CPU 和 GPU 制造商合作,将光子冷板与芯片本身集成在同一封装内,从而使Maxwell Labs能够将关键的提取层更靠近热点并提高设备的冷却能力。
为了了解Maxwell Labs的光子冷却技术对当前和未来数据中心的影响,Maxwell Labs对激光冷却的热力学进行了分析,并将其与空气和液体冷却方法进行了比较。初步结果表明,即使是第一代激光冷却装置的功耗也是纯空气和液体冷却系统的两倍。冷却能力的显著提升将为未来的芯片和数据中心架构带来几项关键变革。
首先,激光冷却可以消除暗硅问题。通过在热点形成过程中充分移除热量,光子冷却可以允许芯片上更多晶体管同时工作。这意味着芯片上的所有功能单元可以并行运行,充分发挥现代晶体管密度的优势。
其次,激光冷却技术可以实现比目前更高的时钟频率。由于这种冷却技术瞄准的是热点,因此可以将芯片各处的温度保持在50°C以下。当前一代芯片的热点通常在90至120°C之间,而且预计情况只会越来越糟。克服这一瓶颈将允许在同一芯片上实现更高的时钟频率。这为在不直接增加晶体管密度的情况下提升芯片性能开辟了可能性,为摩尔定律的持续发展提供了亟需的空间。
第三,这项技术使3D集成的热管理更加便捷。由于激光辅助冷却能够精确定位热点,因此它能够更轻松地从3D堆叠中散热,而这是当今冷却技术无法做到的。在3D集成堆叠的每一层上添加光子冷板,可以负责整个堆叠的冷却,从而使3D芯片设计更加简单。
第四,激光冷却比空气冷却系统更高效。从热点散热带来的更诱人的效果是,它能够保持芯片温度均匀,并大幅降低对流冷却系统的总功耗。Maxwell Labs的计算表明,结合空气冷却,当前一代芯片的总能耗可降低50% 以上,而未来芯片的节能效果将显著提升。
此外,激光冷却比空气或液体冷却能够回收更高比例的废能。在某些地区和气候条件下,循环使用热液体或热空气来加热附近的房屋或其他设施是可行的,但这些方法的回收效率有限。而光子冷却则可以将反斯托克斯荧光发出的光重新收集到光纤电缆中,然后通过热光伏技术将其转化为电能,从而实现高达60%的能量回收率。
凭借这种全新的冷却方法,Maxwell Labs可以改写芯片和数据中心的设计规则。Maxwell Labs相信,这或许能够使摩尔定律得以延续,并实现数据中心层面的节能,从而为Maxwell Labs今天即将见证的智能爆炸式增长开绿灯。
尽管Maxwell Labs的研究成果前景光明,但在这项技术实现商业化之前,仍存在一些挑战。Maxwell Labs目前用于光子冷板的材料已满足基本要求,但持续开发更高效的激光冷却材料将提升系统性能,并使其在经济上更具吸引力。迄今为止,只有少数材料经过研究并达到足够高的纯度,可以实现激光冷却。Maxwell Labs相信,在光学工程和薄膜材料加工技术的进步的推动下,光子冷板的小型化将对这项技术产生与晶体管、太阳能电池和激光器类似的变革性影响。
Maxwell Labs需要对处理器、封装和冷却系统进行协同设计,以实现效益最大化。这需要传统上孤立的半导体生态系统之间的密切合作。Maxwell Labs正在与行业合作伙伴合作,努力促进这一协同设计流程。
从实验室设备过渡到大规模商业化生产,需要Maxwell Labs开发高效的工艺流程和专用设备。全行业采用该技术需要制定新的光学接口、安全协议和性能指标标准。
尽管还有很多工作要做,但Maxwell Labs认为光子冷却技术的大规模应用目前尚未遇到任何根本性障碍。根据Maxwell Labs目前的愿景,Maxwell Labs预计该技术将在2027年之前在高性能计算和人工智能训练集群中得到早期应用,冷却性能将实现数量级的提升。之后,在2028年至2030年之间,Maxwell Labs希望看到该技术在主流数据中心的部署,同时IT能耗降低40%,计算能力翻倍。最后,Maxwell Labs预计在2030年之后,从超大规模到边缘的无处不在的部署将催生新的计算范式,这些范式将不再受热性能的限制,而仅受算法效率的限制。
二十多年来,半导体行业一直在努力应对“暗硅”的威胁。光子冷却不仅提供了应对这一挑战的解决方案,还从根本上重塑了性能、计算和能量之间的关系。通过将废热直接转化为有用的光子,并最终转化为电能,这项技术将热管理从“必要之恶”转变为宝贵的资源。
计算的未来是光子的、高效的、极其酷炫的。
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。