谷歌推出第六代 TPU Trillium预览版

来源:半导纵横发布时间:2024-10-31 15:42
谷歌
生成海报
TPU v6 的峰值性能比其在产品线中(某种程度上)所取代的 TPU v5e 高出 4.7 倍。

当搜索引擎巨头谷歌试图涉足云计算领域时,几年过后,谷歌发现客户并不打算购买那种掩盖了底层硬件的全套平台服务,而是更倾向于选择更低级别的基础设施服务,因为这样能有更多选择且可以承担更多职责。为此,谷歌云不得不从英特尔、AMD 和英伟达那里购入计算引擎来扩充其服务器群。

英特尔过去在 CPU 领域所占据的利润率,AMD 当下在 GPU 领域的利润率,以及在可预见的未来英伟达仍将在 GPU 领域保持的利润率,这些情况都促使谷歌必然会去研发自己的 CPU 和 AI 加速器,其目的在于降低服务器群的总体拥有成本(TCO),特别是针对搜索引擎索引、广告投放、视频投放以及各种形式和超大规模的数据分析等内部工作。

所以,每当有谷歌云相关活动举行时,读者就能获取更多关于谷歌在构建服务器群时所购入或自行研发的计算引擎的相关信息。谷歌不会像普通芯片供应商那样去发布产品,既不会公布大量芯片和封装的图片,也不会给出诸如速度、插槽和功率等大量数据。读者只能随着时间推移一点点拼凑相关信息,或者等待若干年后发表的回顾性论文,才能知晓谷歌当下究竟在做什么。

这确实令人感到有些厌烦。不过谷歌向来注重保密,毕竟信息技术绝对是该公司的竞争优势所在。但这种做法也存在矛盾之处,因为谷歌一方面想宣扬自身的独创性,毕竟这是吸引下一轮创新人才的关键因素。所有超大规模企业和大型云服务建设者都是如此。如果你的竞争对手实力强劲,并且你为了保护和发展自身业务付出了高昂代价,你也会采取这样的策略。

话说回来,一起来看看谷歌在其主题演讲中所透露的有关计算引擎的内容,首先从自主研发的 “Trillium” TPU v6 AI 加速器说起。

早在 6 月份,笔者就对 Trillium 加速器进行了分析,感觉那已经是很久以前的事了。当时笔者提供了所能找到的关于谷歌第六代自主研发 AI 加速器的详细信息。正如笔者那时所指出的,关于 TPU v6 设备及其使用系统,存在的疑问远远多于答案。不过现在,已经有了一些关于推理和训练的相对性能数据,以及 TPU v5e 和 TPU v6 计算引擎之间相对性价比的数据。

曾在谷歌负责网络工作、现任机器学习、系统和云 AI 总经理的阿明・瓦赫达特(Amin Vahdat)在谷歌云应用开发与基础设施峰会(Google Cloud App Dev & Infrastructure Summit)的主题演讲中,再次阐述了 Trillium TPU 的一些关键特性。TPU v6 的峰值性能比其在产品线中(某种程度上)所取代的 TPU v5e 高出 4.7 倍,HBM 内存容量和带宽是 TPU v5e 的两倍,系统中相邻 TPU 之间的芯片间互连(ICI)带宽也是 TPU v5e 的两倍。

谷歌还给出了用于训练和推理的一些实际基准数据,这些数据很有价值。以下是 TPU v5e 和 TPU v6 在训练方面的对比:

在这五项不同的训练基准测试中,当前 TPU 与倒数第二个 TPU 之间的平均性能提升为 3.85 倍,谷歌在其演示文稿中将其四舍五入为 4 倍。这里还添加了每个基准测试在基准测试中所达到的峰值性能占比,这里是相对于芯片本身 4.7 倍性能提升而言的。

在推理方面,谷歌仅展示了 Trillium 与 TPU v5e 在 Stability AI 的 Stable Diffusion XL 文本转图像模型上的性能对比,该模型于 7 月底刚刚发布,属于前沿技术:

该代码较新,这或许是 TPU v5e 和 TPU v6 之间性能差异不到峰值性能 4.7 倍差异的三分之二的原因。

要是能看到一些不同的推理基准测试就更好了。例如,谷歌自己的 JetStream 推理引擎的基准测试结果在哪里?此外,TPU v5p 与 Trillium 芯片的对比测试又在哪里呢?

在其描述基准测试的博客中,谷歌提到:“我们设计 TPU 旨在优化性价比,Trillium 也不例外,与 v5e 相比,其性价比提升了近 1.8 倍,与 v5p 相比,其性价比提升了约 2 倍。这使得 Trillium 成为我们迄今为止性价比最高的 TPU。”

笔者尝试利用这些数据来反向推算 TPU v6 的定价,但结果并不合理。首先,谷歌在这些价格 / 性能比较中所指的是训练还是推理并不明确,而且不清楚它使用的是真实基准还是峰值理论性能。鉴于 TPU v5p 和 TPU v5e 实例的定价存在差异,很难想象它们在 TPU v6 所带来的价值倍数上会如此接近。经过查找发现,尽管 Trillium 实例目前仅处于技术预览阶段,但其定价已经公布。于是,这里更新了 TPU 功能和定价表。请看:

和往常一样,红色斜体部分是笔者在缺乏实际数据情况下所做的估算。

从该表中可以看出,TPU v5p 的 pod 尺寸比 TPU v5e 大得多,HBM 内存带宽也高得多,在 INT8 和 BF16 浮点精度下的性能仅为 TPU v6 的一半。据悉,TPU v6 pod 尺寸在单个图像中为 256 个加速器,在 INT8 精度下峰值为 474 petaflops。瓦赫达特证实了这一点,并由此推断出 pod 之外的情况。

“Trillium 能够从单个由 256 个芯片组成、具备高带宽、低延迟、ICI 特性的域,扩展到由每秒多 PB 的数据中心网络互连的、楼宇级超级计算机中的数万个芯片,” 瓦赫达特解释道,“Trillium 在单个集群中能够提供前所未有的 91 exaflops 性能,这是我们用上一代 TPU 所构建的最大集群性能的四倍。客户对我们的 Trillium TPU 青睐有加,我们看到对第六代产品的需求达到了空前的高度。”

考虑到 TPU v6 实例目前仅处于技术预览阶段,给予好评的应该只是少数非常重要的客户。

瓦赫达特还展示了一些 Trillium 设备的图片。这是一块 TPU v6 系统板,上面有四个 TPU v6 计算引擎:

这里还有一些放置这种 Trillium 设备的架子,架子前面露出一个具有提示性的节点。

接下来看英伟达 GPU 基础设施方面,谷歌云必须构建这一基础设施,这样公司才能在云基础设施上部署英伟达 AI 企业软件栈,并且谷歌和英伟达还在对其进行调整,使其能够运行谷歌偏好的 JAX 框架(用 Python 编写)及其 XLA 跨平台编译器,该编译器能够流畅地使用 TPU 和 GPU。

谷歌已经推出了基于英伟达 “Hopper” H100 GPU 加速器的 A3 和 A3 Mega 实例,这些加速器分别配备 80 GB 和 96 GB 的 HBM3 内存,而瓦赫达特借此机会预览了即将在谷歌云上推出的基于 Hopper H200 GPU 的全新 A3 Ultra 实例,该实例拥有更大的 141 GB HBM3E 内存。A3 Ultra 实例将于 “今年晚些时候” 推出,它们将包含谷歌自己的 “Titanium” 卸载引擎和英伟达 ConnectX - 7 SmartNIC,后者将采用谷歌的 RoCE 以太网交换调整技术,以 3.2 Tb / 秒的带宽实现集群中 GPU 的互连。

瓦赫达特并未过多透露英伟达已发布和即将推出的 “Blackwell” GPU 的相关信息,但表示公司 “拥有几个运行正常的英伟达 GB200 NVL72 机架,并且正在积极致力于将这项技术带给客户”。

瓦赫达特还补充说,基于谷歌自己的 “Cypress” Axion Arm 服务器 CPU 的 C4A 实例现已全面可用。谷歌早在 4 月就宣布了首款 Axion 芯片,但显然还有两款芯片正在研发中,另一款代号为 “Maple”,基于由 Marvell 和 Cypress 授权的 Neoverse V2 内核技术。Axion 处理器同样与 Titanium 卸载引擎搭配使用。

谷歌表示,C4A 实例在 SPEC 整数基准测试中的性价比比 “当前一代基于 X86 的实例” 高 64%,能源效率比 “当前一代基于 X86 的实例” 高 60%,但并未具体说明这些实例是什么。他还提到,C4A 实例的性能比其他云上的其他 Arm 实例高 10%。不过,他并未说明 Axion 处理器的性能与英特尔 “Granite Rapids” Xeon 6 或 AMD “Turin” Epyc 9005 CPU 相比如何。

为了便于理解,谷歌展示了这张性价比图表:

到目前为止,还不清楚 Axion C4A 实例的具体情况,以下是 C4A 实例标准版的速度和配置信息,每个虚拟 CPU(vCPU)配备 4 GB 内存:

Axion C4A 实例有高 CPU 配置(每个 vCPU 配备 2 GB 内存)和高内存配置(每个 vCPU 配备 8 GB 内存)。正如细则所注明的,Axion 芯片中的这些 V2 核心不支持同时多线程,所以核心等同于线程,也就是 vCPU。

以下是谷歌北弗吉尼亚(US - East - 4)地区标准实例的每小时定价:

C4A 实例已经在美国中部 1(爱荷华州)、美国东部 4(弗吉尼亚)、美国东部 1(南卡罗来纳州)、欧盟西部 1(比利时)、欧盟西部 4(荷兰)、欧盟西部 3(法兰克福)和亚洲东南部 1(新加坡)地区推出,预计很快会在其他地区上线。

期待对在各个云中运行的 AWS Graviton 4、谷歌云 C4A 和微软 Azure Cobalt 100 Arm 服务器芯片进行比较。希望微软能在几周后的 Ignite 2024 大会上推出 Cobalt 100,这样我就能进行比较了。

本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。

评论
暂无用户评论