
还记得高性能计算似乎总是x86架构的天下吗?十年前,TOP500超级计算机(学术界每年两次评选出的最强超级计算机榜单)中,近九成都是基于英特尔处理器的。而如今,这一比例已降至57%。
英特尔曾经在高性能计算领域占据主导地位,但其影响力正在减弱。如今,其他处理器正在迅速崛起。
自 20 世纪 70 年代中期 Cray 公司率先推出向量处理器(非常擅长对大型数据集执行单个操作)以来,超级计算的发展经历了一波又一波的演变。
后来出现了精简指令集芯片(RISC)架构,例如64位DEC Alpha、IBM POWER、Sun/Fujitsu SPARC、SGI MIPS和HP PA-RISC等芯片。每种架构都具有独特的性能特点。它们更简单的指令集实现了快速的指令解码和流水线处理,并且比基于向量的系统更适用于通用应用场景。
RISC面临的问题是经济性的。小批量生产的芯片成本远高于x86等通用芯片。NASA意识到了这一点,早在1994年就开始在其Beowulf超级计算机集群中使用英特尔芯片。事实证明,并行运行廉价芯片可以在性能上接近甚至媲美专用硬件,同时大幅降低成本。
英特尔的 ASCII Red 在 1997 年延续了这项工作,成为第一台使用 9,152 个奔腾 Pro 处理器的 teraFLOPS 工作站专用机器。
英特尔虽然获得了市场份额,但GPU的重要性日益凸显。英伟达在2006年推出的CUDA技术,将图形处理器转变为通用计算机,显著提升了并行数据工作负载的处理速度。
市场分析公司Intersect360 Research的首席执行官Addison Snell表示:“人工智能趋势和超大规模计算的发展,真正为x86架构之外的CPU架构开辟了机遇。市场上很大一部分高增长用户都在追逐加速器,尤其是英伟达的GPU,这确实推动了许多架构的发展。”
然而,这些GPU仍然需要CPU来处理部分工作负载。
这种CPU密集型负载包括作业调度、工作流管理、I/O以及难以并行化的标量运算。“例如,求平均值,对吧?GPU在这方面的速度不会比Arm芯片或x86芯片更快,”Cambria-AI Research的创始人兼首席分析师Karl Freund解释道。“所以,当你完成一层运算后,想要计算各个节点的平均值时,那就让Arm来做吧。”
无论是英特尔还是AMD的x86芯片,都迅速发展,在市场上超越了RISC芯片,并越来越多地与GPU协同工作,承担繁重的并行计算任务。例如,2012年,橡树岭国家实验室的Titan超级计算机凭借18,688个节点,将AMD Opteron处理器与Nvidia K20 GPU相结合,实现了17.6 petaflops的运算能力,荣登TOP500榜首。
英伟达在高性能计算 (HPC) GPU 领域的统治地位源于其完整且紧密集成的硬件和软件解决方案。
“英伟达更大的优势在于软件方面,”斯内尔的同事、Intersect360 Research 的高级分析师史蒂夫·康威说道。“他们很早就对管理 CUDA 这个庞然大物的软件进行了投资。”
他表示,这套技术栈才是公司真正的护城河。公司投入巨资,不仅让现有商业开发者能够使用,也让大学里的未来一代开发者能够使用,从而构筑了这道护城河。
AMD在CPU和GPU领域都展现出了巨大的潜力。其面向服务器和嵌入式系统的EPYC架构,助力橡树岭国家实验室在2023年再次荣登榜首,其Frontier服务器搭载了9472颗AMD CPU和37888颗AMD Instinct GPU(AMD的数据中心GPU品牌)。
AMD的米兰、热那亚和都灵EPYC处理器系列不断提升芯片密度,助力其取得更多重大胜利。11月,劳伦斯·利弗莫尔国家实验室(LANL)的El Capitan超级计算机凭借AMD EPYC和Instinct处理器的组合,蝉联了超级计算机领域的霸主地位。
布里斯托尔超级计算中心主任西蒙·麦金托什-史密斯非常看好AMD。“AMD的竞争力日益增强。他们的硬件非常出色,与英伟达不相上下。他们传统上较弱的领域是软件,”他说道,并呼吁加大对软件方面的投资。
尽管AMD在竞争激烈的x86高性能计算(HPC)市场中已取得显著进展,超越英特尔,但Arm也是该领域的有力竞争者。由巴塞罗那超级计算中心于2011年启动的Mont-Blanc项目,利用嵌入式Arm芯片在实验集群中验证了Arm架构在欧洲的有效性。这是最早将Arm架构应用于高性能计算机器的实验之一。
近十年后,Arm于2020年在日本理研计算科学中心部署了富岳超级计算机,这可以说是Arm迄今为止最伟大的成就。这款性能高达442 petaFLOPS的超级计算机采用48核A64FX处理器,一举登上TOP500榜首。
一年后,在 2021 年,Arm 将矢量处理引入到其 Neoverse 数据中心处理器设计中,推出了 Neoverse V1 CPU,该 CPU 具有可扩展矢量扩展功能。
Arm 与英伟达的合作使其在高性能计算 (HPC) 领域获得了重要的战略立足点。这项于 2021 年宣布的合作促成了 Grace 芯片的诞生,这是一款基于 Arm 架构的英伟达芯片,随后英伟达又将其与 Hopper GPU 相结合,打造了 Grace Hopper 超级芯片。
超过 40 个超级计算机项目宣布支持 Grace Hopper,其中包括德国的 Jupiter 系统,该系统刚刚成为欧洲第一个百亿亿次级系统,运算速度达到 1 exaFLOPS。
研究还表明,Arm芯片具有很高的能效。例如,2023年的一项人工智能系统基准测试发现,与同类x86芯片相比,Arm芯片可节省约25%至30%的能耗。
布里斯托尔超级计算中心也选择了Arm架构,其首台Isambard超级计算机于2018年问世。如今,其Isambard-AI超级计算机基于Nvidia Grace Hopper节点构建,是英国最大的超级计算机,拥有超过5500个Grace Hopper节点。
英伟达似乎准备开发自己的CPU架构。该公司与Arm签订了为期20年的IP授权协议,并已表示将利用该IP构建自己的内核,这可能意味着它将不再使用现成的Neoverse内核。
尽管Arm目前发展势头强劲,但其他竞争者也正在崛起。其中之一便是RISC-V,它在授权策略上与Arm截然不同,Arm采用的是完全免费的方式。RISC-V由加州大学伯克利分校开发,是一种完全开放的指令集架构,无需任何授权费用。
“这是一项巨大的优势,”战术计算实验室(TCL)首席科学家兼创始人约翰·莱德尔说道。这位曾在克雷和硅谷图形公司工作多年的资深人士,在软件开发和硬件设计方面拥有丰富的经验。他现在经营着一家小型研发公司,专门从事高性能计算和高性能数据分析领域的新型硬件和软件研发。
他说:“如果你想定制一款适用于特定科学应用的x86处理器,你需要从英特尔获得授权。然后还要经历一个非常繁琐的过程,耗资数十亿美元。”
当然,Arm处理器也是如此。但他表示,这并非RISC-V相对于x86的唯一优势。这种历史悠久的架构也存在诸多问题。
“x86 是一种传统架构,顾名思义,它必须支持 x86 处理器曾经拥有的所有传统指令,”莱德尔指出。1989 年编写的用于运行某人桌面会计系统的应用程序,仍然需要在 TOP500 机器内部的现代 x86 芯片上运行。
“RISC-V 放弃了那个标准。他们说这简直太疯狂了,”他解释说。“为什么我们不从头开始重新设计,清空一切,把白板上的内容都清空,从一开始就把事情做好呢?”
他说,RISC-V 的设计理念是提供一个基础指令集,然后允许人们在此基础上构建自己的可选扩展。这样,他们就可以构建针对自身独特应用需求的定制芯片。
麦金托什-史密斯对此并不认同。他指出,购买Arm许可证是有原因的,其中很大一部分原因与更先进的工具有关。
他解释说:“免费实现的质量和性能无法与苹果设备或任何云平台上的顶级Arm内核相提并论。开源软件无法达到最先进的水平,它们只能达到教科书级别的优秀程度,但并不具备真正的竞争力。”
他还指出,测试和验证套件需要数十年的投入。“RISC-V 并不提供免费的这些,”他说。等你把所有这些都开发出来之后,免费开放系统的优势可能就荡然无存了。
欧洲倡议与主权
但埃蒂安·沃尔特(Etienne Walter)非常乐意谈谈RISC-V的另一个优势。他是欧洲处理器计划(EPI)的负责人,该计划于2018年启动,旨在利用RISC-V开发高性能计算(HPC)加速器技术。该计划在10个国家拥有27个合作伙伴。
它采用了双架构策略:通用处理器采用 Arm 架构,专用加速器采用 RISC-V 架构。后者包括一款基于 RISC-V 指令集架构中向量扩展的 CPU。EPI 于 2021 年完成了 RISC-V 加速器测试芯片的流片。
除了源自巴塞罗那超级计算中心研究的矢量加速器之外,EPI 还致力于可变精度加速和张量加速器的研究。
欧洲政策倡议(EPI)现已结束,并将接力棒交给了今年3月启动的“欧洲基于RISC-V的数字自主性”(DARE)项目。该项目拥有2.4亿欧元的预算,由来自13个国家的38个合作伙伴组成。
该计划由巴塞罗那超级计算中心协调,目前计划持续到 2030 年。它将开发通用处理器、矢量加速器和人工智能处理单元。
何必费心思做这些呢?或许只需快速浏览一下美国的对外政策就足以说明问题。随着政治和经济联系的瓦解,主权的重要性日益凸显。
“这就是我们关注的重点。我们必须牢记这种担忧,并准备一些可能的解决方案以防万一,”沃尔特说,“即使我们知道欧洲的水平不如美国,我们在专业知识和解决方案方面也无法达到同样的水平。”
康威理解那些认识到高性能计算对经济发展日益重要的地区政府,因此他们不希望受制于外国势力。但其中也存在一些细微差别。他很难想象高性能计算能够完全自主。
“你们依赖来自中国或其他地方的锂,依赖来自荷兰的先进光刻技术,”他说。“从这个意义上讲,即使是美国,在处理器层面也无法完全自主。每个国家都在谈论这个问题,好像这是一个合理的目标,但短期内可能并非如此。”
Arm 花了大约十年时间才凭借其芯片设计打造出一个强大的超级计算平台。2011 年推出 64 位处理器还不够;它还需要合适的软件栈和验证生态系统。
现在,RISC-V 也必须做到这一点。“生态系统尚未成熟,或者说还不够完善,这是肯定的,”沃尔特说。“要建立一个稳定成熟的环境,还有很多工作要做,但我毫不怀疑最终会实现。这只是时间问题。”
需要多少时间?DARE的第一阶段,SGA-1,目标是在三年内打造“一套完全由欧洲自主研发的高性能计算和人工智能超级计算硬件/软件体系”。接下来,它还得说服人们使用它。
斯内尔持谨慎乐观态度。“我认为RISC-V在未来五年内确实有很大的潜力,”他说。“我们认为它目前只比Arm落后一点点,它真的需要一位能够带领它前进的领军人物。”
RISC-V 的发展取得了一些进展。10 月,Meta 收购了 RISC-V 初创公司 Rivos。这将使 Meta 拥有自主研发的、兼容 CUDA 的混合 CPU-GPU RISC-V 架构,而 Meta 目前依赖第三方芯片供应商。据报道,Meta 也一直在内部研发自己的 RISC-V 芯片。
高性能计算(HPC)处理器经历了一个发展周期,最初是各种专有芯片并存的时代,后来随着通用芯片的普及而逐渐减少。如今,情况似乎又开始逆转。目前有几家关键厂商,还有一些厂商正在蓄势待发。一些超大规模数据中心运营商本身就是独立的市场,并且正在开展一些有趣的项目。微软有Maia,AWS有Inferentia和Trainium,谷歌有TPU,它们都是定制的ASIC芯片。
再深入探究,你会发现更多奇妙之处。Cerebras 拥有晶圆级引擎,它通过将所有功能集成到单个芯片上,绕过了互连瓶颈。此外,还有一些硅光子学项目,旨在通过在芯片上直接实现光计算互连来降低功耗。
由于牵涉到巨额资金,高性能计算领域的变革步伐缓慢。但如今涌现出如此多的有趣选择,而且还有更多方案正在酝酿之中,x86 的世界不太可能永远是它的天下。
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。
