铜缆退潮,无线电成AI新引擎

来源:半导体产业纵横发布时间:2025-12-29 18:00
AI
行情
生成海报
无线电接棒铜缆与光纤。

训练超大型新 AI 模型的速度,归根结底取决于两个词:向上扩展与向外扩展。

在数据中心术语中,向外扩展(scaling out) 指的是增加您可以连接在一起的 AI 计算机数量,以分块处理一个大问题。另一方面,向上扩展(scaling up) 指的是在每台计算机中塞入尽可能多的 GPU,将它们连接起来使其像一个单一的巨型 GPU 一样工作,并允许它们更快地处理更大块的问题。

这两个领域依赖于两种不同的物理连接。向外扩展主要依赖于光子芯片和光纤,它们可以将数据传输数百或数千米。而向上扩展形成的网络密度大约是前者的 10 倍,它属于一种更简单、成本更低的技术领域 —— 通常跨度不超过一两米的铜缆。

但随着制造更强大计算机所需的 GPU 间数据传输速率越来越高,铜缆正面临其物理极限。数据中心互联初创公司 Point2 Technology 的产品营销和业务开发副总裁 David Kuo 表示,当铜缆的带宽需求接近每秒太比特(Tb/s)的领域时,物理定律要求它们必须做得更短、更粗。考虑到当今计算机机架内部的拥挤状况,以及领先的 AI 硬件公司英伟达(Nvidia)计划到 2027 年将每个系统的最大 GPU 数量从 72 个增加到 576 个(增长八倍),这成为了一个大问题。

“我们称之为‘铜缆悬崖’(copper cliff)。”Kuo 说。

业界正在研究各种方法来疏通数据中心,包括延长铜缆的传输距离,并将纤细、长距离的光纤更靠近 GPU 本身。但 Point2 和另一家初创公司 AttoTude 则倡导一种介于这两种技术之间、又完全不同的解决方案。他们声称,这项技术将兼具铜缆的低成本和可靠性,以及光纤的部分细径和长距离优势 —— 这种组合将轻松满足未来 AI 系统的需求。

他们的答案是什么?无线电(Radio)。

今年晚些时候,Point2 将开始制造支持 1.6 太比特 / 秒(Tb/s)的电缆背后的芯片。该电缆由 8 根细长的聚合物波导组成,每根波导使用 90 吉赫兹(GHz)和 225 吉赫兹(GHz)两种频率,能够承载 448 吉比特 / 秒(Gb/s)的数据。在波导的两端是插件模块,用于将电子比特转换为调制无线电波,再转换回来。AttoTude 也在计划本质上相同的事情,但工作在太赫兹(THz)频率,并使用一种不同类型的纤细、灵活的电缆。

两家公司都表示,他们的技术在传输距离上可以轻松超越铜缆 —— 在没有显著损耗的情况下跨越 10 到 20 米,这对于处理英伟达宣布的向上扩展计划来说肯定足够长。就 Point2 的情况而言,该系统的功耗仅为光纤的三分之一,成本也为三分之一,延迟可低至光纤的千分之一。

据其支持者称,与光子学相比,无线电的可靠性和易于制造性意味着它可能在将低能耗的处理器间连接一路延伸到 GPU 的竞赛中击败光子学,甚至在印刷电路板上也能取代部分铜缆。

铜缆出了什么问题?

一条传输速率高达 1.6 太比特/秒的 e-Tube 电缆,其横截面积仅为 32 号铜缆的一半,传输距离却可达其 20 倍。

那么,铜缆出了什么问题?只要数据速率不太高,传输距离不太远,铜缆本身没什么问题。然而,在高速率下,像铜这样的导体会受到所谓趋肤效应(skin effect) 的影响。趋肤效应的产生是因为信号快速变化的电流会产生一个试图抵消该电流的变化磁场。这种抵消力集中在导线的中心,因此大部分电流被限制在导线的外边缘 —— 即 “表皮”—— 流动,这增加了电阻。在 60 赫兹(许多国家的市电频率)下,大部分电流位于铜缆外 8 毫米处。但在 10 吉赫兹下,“表皮” 深度仅为 0.65 微米。因此,要通过铜缆传输高频数据,导线需要更粗,并且需要更多的功率。这两个要求都不利于在更小的空间内封装越来越多的连接以向上扩展计算能力。

为了抵消趋肤效应和其他信号衰减问题,各公司开发了在两端带有专用电子设备的铜缆。其中最有前景的一种称为有源电缆(Active Electrical Cables, AECs),其终端芯片被称为重定时器(retimer)。这种集成电路在数据信号和时钟信号从处理器到达时对其进行清理。然后,该电路将它们重新传输到铜缆通常包含的八对导线(或通道)上。(另一组用于反向传输。)在另一端,该芯片的配对芯片处理在传输过程中累积的任何噪声或时钟问题,并将数据发送到接收处理器。因此,以电子复杂性和功耗为代价,AEC 可以延长铜缆的传输距离。

为数据中心提供网络硬件的 Credo 公司高级副总裁兼产品主管 Don Barnetson 表示,他的公司已经开发出一种 AEC,可以在 7 米的距离内传输 800 吉比特 / 秒(Gb/s)的数据 —— 随着计算机达到 500 至 600 个 GPU 并跨越多个机架,这个距离很可能是必需的。AEC 的首次使用可能是将单个 GPU 连接到构成向外扩展网络的网络交换机。Barnetson 说,向外扩展网络的这第一阶段很重要,因为 “它是网络中唯一的非冗余跃点(hop)”。失去该链路,即使是瞬间的,也可能导致 AI 训练运行崩溃。

但即使重定时器能将 “铜缆悬崖” 的到来稍微推迟一些,物理定律最终还是会占上风。Point2 和 AttoTude 都押注这一点很快就会到来。

太赫兹无线电的传输距离

AttoTude 脱胎于创始人兼首席执行官 Dave Welch 对光子学的深入研究。作为 2025 年被诺基亚收购的光通信设备制造商 Infinera 的联合创始人,Welch 数十年来一直在开发光子系统。他非常清楚该技术的弱点:功耗太大(据英伟达称,约占数据中心计算预算的 10%);对温度极其敏感;将光导入和导出光子芯片需要微米级精度的制造;而且该技术缺乏长期可靠性是出了名的。(甚至有一个专门的术语来形容它:“链路抖动”(link flap)。)

“客户喜欢光纤。但他们讨厌的是光子学。”Welch 说,“事实证明,电子学本质上比光学更可靠。”

在诺基亚以 23 亿美元收购 Infinera 后不久,Welch 在考虑他的下一个创业项目时,问了自己一些根本性的问题,首先是 “如果我不必局限于 [某个光波长],我应该选择哪里?” 答案是可以纯粹用电子学实现的最高频率 —— 太赫兹频段,即 300 至 3000 吉赫兹(GHz)。因此,Welch 和他的团队着手构建一个系统,该系统包括一个与 GPU 接口的数字组件、一个太赫兹频率发生器,以及一个将数据编码到太赫兹信号上的混频器。然后,一个天线将信号送入一根狭窄、灵活的波导中。

至于波导,它由中心的电介质(用于传输太赫兹信号)和周围的包层组成。早期的一个版本只是一根狭窄的空心铜管。Welch 说,第二代电缆 —— 由直径仅约 200 微米的光纤组成 —— 指向一个损耗低至每米 0.3 分贝的系统 —— 这只是承载 224 吉比特 / 秒(Gb/s)数据的典型铜缆损耗的一小部分。

Welch 预测,这种波导将能够传输数据长达 20 米。他说,这 “恰好是数据中心向上扩展的理想距离”。

到目前为止,AttoTude 已经制造出了各个组件 —— 数字数据芯片、太赫兹信号发生器、将两者混合的电路 —— 以及几代波导。但该公司尚未将它们集成到一个单一的可插拔形式中。尽管如此,Welch 表示,这种组合至少可以提供 224 吉比特 / 秒(Gb/s)的传输带宽,并且该初创公司去年 4 月在旧金山举行的光纤通信会议(Optical Fiber Communications Conference)上展示了在 970 吉赫兹(GHz)下 4 米的传输。

无线电在数据中心的应用前景

Point2 致力于将无线电引入数据中心的时间比 AttoTude 更长。这家由 Marvell、Nvidia 和三星的资深人士于九年前成立的初创公司已经获得了 5500 万美元的风险投资,其中最引人注目的来自计算机电缆和连接器制造商 Molex。Kuo 表示,后者的支持 “至关重要,因为他们是电缆和连接器生态系统的重要组成部分”。Molex 已经证明,它可以在不修改现有生产线的情况下制造 Point2 的电缆,现在,生产电缆和连接器的富士康互联科技(Foxconn Interconnect Technology)也在与该初创公司合作。这种支持对于作为 Point2 客户的超大规模数据中心运营商来说可能是一个很大的卖点。

英伟达的GB200 NVL72机架式计算机依靠大量铜缆将72个处理器连接在一起。

Point2 的电缆名为 e-Tube,其两端各包含一个单一的硅芯片,用于将传入的数字数据转换为调制毫米波频率,以及一个向波导辐射的天线。波导本身是一个带有金属包层的塑料芯,全部包裹在金属屏蔽层中。一根名为有源无线电电缆(Active Radio Cable, ARC) 的 1.6 太比特 / 秒(Tb/s)电缆由 8 个 e-Tube 芯组成。其直径为 8.1 毫米,体积仅为同类 AEC 电缆的一半。

Kuo 说,工作在射频(RF)频率的好处之一是,处理这些频率的芯片可以在标准硅晶圆厂制造。今年发表在《IEEE 固态电路杂志》(IEEE Journal of Solid-State Circuits)上的一篇由 Point2 和韩国科学技术高级研究院(Korea Advanced Institute of Science and Technology)的工程师合作的论文,使用了 28 纳米 CMOS 技术,该技术自 2010 年以来就不再是尖端技术了。

向上扩展网络市场

尽管他们的技术听起来很有前景,但 Point2 和 AttoTude 将不得不克服数据中心行业长期使用铜缆的历史。“你从无源铜缆开始,”Credo 的 Barnetson 说,“并且只要有可能,你就会想尽一切办法使用无源铜缆。”

他说,数据中心计算中液体冷却的兴起就是证据。“人们转向液体冷却的全部原因就是为了继续使用无源铜缆进行 [向上扩展]。” 为了使用无源铜缆在向上扩展网络中连接更多 GPU,它们必须以空气冷却无法单独处理的密度进行封装。Kuo 认为,通过毫米波 ARC 连接分布更分散的 GPU 组来实现相同的向上扩展规模,将减轻对冷却的需求。

与此同时,两家初创公司也在追逐一种将直接连接到 GPU 的技术版本。

英伟达和博通最近部署了与处理器封装在同一封装内的光学收发器,将电子设备和光学设备之间的距离从厘米或米缩短到微米。目前,该技术仅限于连接到向外扩展网络的网络交换机芯片。但大公司和初创公司都在努力将其应用范围一直延伸到 GPU。

Welch 和 Kuo 都表示,他们公司的技术在这种收发器 - 处理器封装中可能比光学技术具有很大优势。英伟达和博通 —— 各自 —— 都做了大量的工程工作,才使其系统能够制造出来,并足够可靠地与非常昂贵的处理器共存于同一封装中。众多挑战之一是如何以微米级精度将光纤连接到光子芯片上的波导。由于波长较短,红外激光必须与光纤纤芯(直径仅约 10 微米)非常精确地对准。相比之下,毫米波和太赫兹信号的波长要长得多,因此连接波导时不需要那么高的精度。Kuo 说,在一个演示系统中,这是手工完成的。

可插拔连接将是该技术的第一个用途,但与处理器共封装的无线电收发器才是 “真正的奖品”,Welch 说。

本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。

评论
暂无用户评论