FPGA会成为AI数据中心的新选择吗?

来源:半导纵横发布时间:2025-02-25 16:05
FPGA
数据中心
生成海报
数据中心 AI 系统初创公司Positron希望通过基于FPGA的解决方案与Nvidia的GPU竞争。

数据中心 AI 系统初创公司 Positron 的创始人兼首席技术官 Thomas Sohmers 在接受《EE Times》采访时表示:“我们成立仅 18 个月,自 2024 年夏天以来就已向客户交付基于 FPGA 的大规模语言模型 (LLM) 推理系统。我们最近向二级 CSP 客户交付了我们的第一个系统,订单价值数百万美元。”

索默斯表示:“我们在 2025 年取得了非常好的开局,我们预计这位客户以及许多其他客户将在上半年大幅扩大规模。”

他补充道:“目前,我们还有 20 个潜在客户正在现场或远程评估 Positron 基于 Atlas FPGA 的 AI 设备。我们的客户包括运行本地/主机托管基础设施的企业以及二级云服务提供商 (CSP)。”

2024 年初,Positron 推出了第一台 AI 推理设备

他补充道:“到目前为止,我们接触过的大多数公司,尤其是涉及更大规模部署的公司,都是 CSP 或大型网络服务提供商。”

实现从基于 NVIDIA 的系统的“无缝”过渡

Positron 由 Sohmers 和首席科学家 Edward Kmett 于 2023 年 4 月创立。这两名男子之前都是人工智能推理初创公司 Groq 的员工。 2025年2月初,Positron任命前AI CSP Lambda的Mitesh Agrawal为新任首席执行官,并筹集了2350万美元的资金。

“当我们创办 Positron 时,我们只关注两件关键的事情:确保基于 NVIDIA 的系统提供完全无缝的体验,以及上市时间和成本,”Sohmers 说道。“我们看到许多 AI 芯片初创公司的失败之处在于,它们上市时间太长,成本太高。虽然我们正在开发自己的 AI 推理加速器 ASIC,但我们的第一代和第二代 Atlas 系统都是基于 FPGA 的。”

FPGA 的优势

Sohmers 表示:“FPGA 无法提供 GPU/ASIC 解决方案的 FLOPS,但它们具有其他优势。”

“在确定产品适合市场之前,我们不想花费大量时间和金钱来构建 ASIC,”Sohmers 表示。“其他 AI 芯片制造商也有自己的问题,但他们都存在产品适合市场的问题,尤其是第一代设备。使用 FPGA 使我们能够非常快速地进行迭代,并开始与客户一起迭代。”

他补充道:“客户销售额是产品/销售人员的最佳指标。”

Sohmers 表示:“AI SCP 在 Groq 之前与 Lambda 合作的经历凸显了快速迭代周期和与客户定期讨论的必要性,但并非所有 AI 芯片制造商都完全认识到这一点。”他说:“最重要的是确保你正在构建正确的东西并不断更新你的假设。”

Positron 的客户成千上万地购买其 PCIe 卡,但 Atlas 设备的外形尺寸非常适合大多数习惯于采购 NVIDIA 设备、连接并出租的云制造商。

“这种设备模型是一个黑匣子,您可以通过令牌进出,这是客户购买我们硬件并从资本支出和运营支出角度获得所有好处的最简单方式,”Sohmers 说。“它还允许客户轻松替换或增强其现有的基于 NVIDIA 的系统。”

根据 Positron 最新发布的软件,与基于 NVIDIA Hopper 的系统上运行的相同推理工作负载相比,其 Atlas LLM 推理设备的性能(令牌/秒)提高了 70%,每瓦性能提高了 3.5 倍,每美元性能提高了 3.5 倍。 “它基于 Altera 的 Agilex-7M FPGA,目前只有 Positron 获准出货,因为这些部件尚未公开发售,”Sohmers 表示。“这些 FPGA 拥有 32GB(千兆字节)的高带宽内存 (HBM)。”

当前一代 Atlas 是一个 4U 系统,在 PCIe 卡上使用四个 FPGA。它设计为交钥匙设备,从 HuggingFace 或客户自己的模型获取二进制文件并以零步骤过程运行它们(无需重新编译)

“一步到位的流程包含太多步骤,”索默斯说。“在 Positron 中运行该模型所需的一切并没有什么全新或独特的。”

利用内存带宽是关键

下一代平台将采用 Positron 的定制模块外形尺寸(类似于 NVIDIA 的 SXM),将四个 FPGA 系统缩小到 2U,并显著扩展 DDR 内存。索默斯表示,该系统预计将于 2025 年底发布,其性能预计将比 Nvidia 的 Blackwell 提高五倍。与 Positron 第一代产品相比,其性能显著提升,这是即将推出的软件/FPGA 优化的结果,它将释放更高的性能(包括将进一步地操作从主机 CPU 转移到 FPGA)。第一代 Atlas 版本上市时也将进行类似的更新。

那么 Positron 是如何在低 FLOPS 和最小内存硬件下实现更好性能的呢? Sohmers 表示:“卷积神经网络 (CNN) 受计算限制,而 Transformer 受内存限制,无论是内存带宽还是内存容量。”“基于 GPU 的推理解决方案已证明,Transformer 推理使用的内存带宽不到总理论峰值内存带宽的 30%。Altera Agilex-7M 是唯一一款同时配备 HBM 和 DDR5 内存的 FPGA。计算 FLOPS 可能有限,但内存带宽才是最重要的。”

“你可能不得不为非常昂贵的内存和非常高的逻辑内存带宽买单,但从根本上讲,GPU 架构意味着你根本无法充分利用内存带宽,”Sohmers 表示。“我们的设计是在 FPGA 上实现的,在所有用例中都实现并维持了 93% 的逻辑内存带宽。”

他补充道,“我们无法实现剩余 7% 性能的原因是我们无法控制 HBM 刷新周期。”

Positron 如何实现这种内存带宽利用率代表了该公司的关键 IP。 Sohmers 解释道:“我们能够在 Altera 的 Quartus 工具允许的范围内工作,最大限度地提高矩阵乘法 (matmul) 阵列和为其提供数据的内存互连的密度。” Positron 的第一个原型基于上一代配备 HBM 的 Stratix 设备,实现了理论峰值内存带宽的 65%~70%。然而,升级到 Agilex 使开发团队能够利用 Altera 的新型强化结构片上网络 (NoC)。结构 NoC 旨在支持 FPGA 内存之间的高速传输,而无需依赖于芯片其余可编程逻辑资源所使用的通道。这种新的 NoC 具有从 HBM 到位于可编程逻辑阵列中任何位置的 SRAM 块的专用路径。

“由于这是一个新功能,我们与 Altera 的开发团队密切合作,以确保我们能够充分利用其潜力,”Sohmers 表示。“线性代数脉动阵列设计需要大量新思路,以确保我们能够保持可重新编程的时钟速率,并在 FLOPS 和内存之间实现一对一的平衡。”

Agilex-7M 具有四通道 DDR5 和 32GB HBM 2e,Positron 将一些“高级技巧”与 SRAM 相结合,将其用作单独的内存而不是分层缓存系统。在需要高性能的地方使用 HBM,在这种情况下用于存储模型权重。 DDR 用于存储用户上下文、KV 缓存和可交换的不同模型(例如,根据 Sohmers 的说法,可以批量对不同的用户应用不同的 LoRA 微调)。还可以添加高达 512GB 的 DDR5。

本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。

评论
暂无用户评论