在人工智能飞速发展的当下,算力已然成为核心竞争力的关键要素。由显卡规模撑起的算力水平,是决定大模型性能的最重要指标之一。一般认为,1万枚英伟达A100芯片,是做好AI大模型的算力门槛。
2024 年,我国智算中心建设驶入快车道,最明显的感受就是万卡集群项目加速落地。万卡集群,是指由一万张及以上 GPU、TPU 等专用 AI 加速芯片组成的高性能计算系统,它深度融合高性能 GPU 计算、高速网络通信、大容量并行文件存储以及智能计算平台等前沿技术,将底层基础设施整合成一台超级强大的 “算力巨兽”。借助这样的集群,千亿乃至万亿参数规模的大模型训练得以高效完成,大幅缩短模型迭代周期,助力 AI 技术快速进化。
然而,随着AGI的概念持续火热,行业对算力的渴求愈发强烈,“万卡集群” 逐渐难以满足爆发式增长的需求,算力领域的 “军备竞赛” 愈演愈烈。如今,十万卡集群已成为全球顶尖大模型企业的 “兵家必争之地”,xAI、Meta、OpenAI 等国际巨头纷纷布局,国内企业也不甘示弱,积极投身这场算力角逐。
在全球范围内,OpenAI、微软、xAI 和 Meta 等头部科技公司竞相构建超 10 万卡规模的 GPU 集群。这一宏大计划背后,是惊人的资金投入,仅服务器成本就超过 40 亿美元。此外,数据中心的空间限制、电力供应不足等问题,也如同拦路虎,阻碍着项目推进。
而在国内,建一个万卡集群,单是GPU的采购成本就高达几十亿,因此国内能够部署万卡规模集群的,原本就只有阿里、百度等寥寥几家大厂。而想要部署十万卡集群,其“烧钱”程度可想而知。
除了资金成本,十万卡集群建设还面临着诸多技术难题。
首先是电力与散热的极限考验。十万卡H100 集群仅关键 IT 设备就需约 150MW 电力,远超单个数据中心建筑的承载能力,需通过园区多建筑分布式部署实现电力分配,同时还要应对电压波动与稳定性难题。而散热系统更需匹配巨量热负荷 — 高密度 GPU 运行时产生的热量若无法及时疏导,将直接导致设备宕机,高效散热方案的能耗与维护成本也需同步优化。GPU是一种很敏感的硬件,连一天之内气温的波动,都会影响到GPU的故障率,而且规模越大,出故障的概率就越高。Meta训练llama3的时候,用了1.6万张GPU卡的集群,平均每3小时就会出一次故障。
此外,区别于传统CPU集群的串行特点,大模型训练过程需要全部显卡同时参与并行计算,对网络传输能力也提出了更大的挑战。若采用胖树拓扑实现全GPU 高带宽互联,四层交换的硬件成本将呈指数级增长,因此通常采用 “计算岛” 模式:岛内以高带宽保障通信效率,岛间则降低带宽以控制成本。但这要求在张量并行、数据并行等不同训练模式下,精准平衡通信任务分配,避免因拓扑设计缺陷导致带宽瓶颈。尤其当模型规模突破万亿参数时,前端网络的通信量会随稀疏技术应用急剧增加,延迟与带宽的优化需精细化权衡。
最后,相比于美国同行,中国大模型企业还面临一重特殊的困难。由于总所周知的原因,国内企业无法像马斯克那样全部采用英伟达方案,而是需要使用包括国产GPU在内的异构芯片。这也意味着,即使同样十万张显卡,国内企业在算力规模上也很难同美国企业匹敌。
算力是大模型发展的核心,但算力的增长已从线性变为平面。构建十万卡集群不仅是算力的增长,还涉及技术和运营挑战,管理10万卡集群与万卡集群有本质区别。
“芯片问题其实没必要担心,用叠加和集群等方法,计算结果上与最先进水平是相当的。” 华为总裁任正非的这番表态,不仅增强了社会各界对中国 AI 发展的信心,也凸显了集群计算在 AI 研发应用中的关键地位。从曾经的 “万卡集群” 入场券,到如今 “十万卡集群” 新目标,国内智算中心建设不断迈向新高度。
去年9月,一项瞄准十万卡超大规模算力的单体集群建设计划——“算海计划”二期宣布落地启动。“算海计划”取“海纳百川、聚沙成塔”之义,剑指筹建面向模型训练的大规模单体集群。据介绍,“算海计划”二期由北京并行科技股份有限公司(以下简称并行科技)发起,合作伙伴北京智谱华章科技有限公司、北京面壁智能科技有限责任公司、中国移动通信集团湖北有限公司武汉分公司、中国联合网络通信有限公司武汉市分公司、中国电信股份有限公司武汉分公司、武汉大学信息中心、内蒙古新东吉泰科技公司参与启动仪式。在内蒙古和林格尔,占地超50亩的“算海计划”一期建设项目已于今年5月上线运营,该项目规划有4000个20kW高功率智算机柜,最大可支持建设6万卡规模的单体智算集群。在距离该项目不超过100米处,“算海计划”二期项目已规划上马,二期将依托单一大集群进行统一管理和调度,可容纳高达10万卡的强大算力资源。
2024年7月底,甘肃亿算智能科技有限公司已在庆阳投资3.07亿元建成了中国首个国产万卡推理集群。而在今年6月,甘肃亿算及其生态合作伙伴计划出资55亿元,建设“国产十万卡算力集群”,提供不低于2.5万P算力服务,预计于2027年12月30日前建成并投入使用。本次拟落地庆阳的十万卡算力集群,计划全部采用国产芯片与自主架构,深度融合庆阳能源优势与长三角技术势能,构建“西部算力+东部智慧”全国联动,打造开放算力平台,为AI大模型训练与科学计算筑牢“中国底座”。
字节跳动在智算领域的布局同样雄心勃勃。2024 年,其资本开支达 800 亿人民币,接近 BAT 三家总和(约1000亿人民币)。预计 2025 年,这一数字将翻倍至 1600 亿人民币,其中 900 亿用于 AI 算力采购,700 亿投向数据中心基础设施建设及配套硬件。据第三方机构测算,以 400T (FP16) AI 算力卡为标准,字节跳动当前训练算力需求约为 26.73 万张卡,文本推理算力需求约为 33.67 万张卡,未来推理算力需求有望突破 230 万张卡。
在这股热潮中,有能力建设十万卡集群的国产AI芯片公司也将获得利好。
在6月20日举行的华为开发者大会2025(HDC 2025)上,华为常务董事、华为云计算CEO张平安宣布,基于CloudMatrix384超节点的新一代昇腾AI云服务全面上线,为大模型应用提供澎湃算力。 通过432节点级联,可构建16万卡超算集群,满足十万亿参数级大模型训练需求,突破传统架构扩展极限。
华为云新一代昇腾AI云服务基于CloudMatrix384超节点,首创将384颗昇腾NPU和192颗鲲鹏CPU通过全新高速网络MatrixLink全对等互联,形成一台超级“AI服务器”,单卡推理吞吐量跃升到2300 Tokens/s。
超节点架构能更好地支持混合专家MoE大模型的推理,可以实现“一卡一专家”,一个超节点可以支持384个专家并行推理,极大提升效率。同时,超节点还可以支持“一卡一算力任务”,灵活分配资源,提升任务并行处理,减少等待,将算力有效使用率(MFU)提升50%以上。同时,超节点还可以支持训推算力一体部署,如“日推夜训”,训推算力可灵活分配,帮助客户资源使用最优。
此外,百度的百舸4.0通过HPN高性能网络、自动化混训切分策略、自研集合通信库等一系列产品技术创新,已经能够实现十万卡集群的高效管理。
腾讯去年也宣布了自研星脉高性能计算网络全面升级,星脉网络2.0搭载全自研的网络设备与AI算力网卡,能够支持超10万卡大规模组网,网络通信效率比上一代提升60%,让大模型训练效率提升20%。
阿里方面同样释出消息,阿里云可实现芯片、服务器、数据中心之间的高效协同,支持10万卡量级的集群可扩展规模,已服务全国一半的人工智能大模型企业。
当前,我国智能算力供不应求的问题较为突出,大模型对算力的需求增速远超单颗AI芯片性能的提升步伐。相关报告显示,2023年,中国智能算力需求达123.6EFLOPS,而供给仅为57.9EFLOPS,供需缺口一目了然。利用集群互联弥补单卡性能短板,或是现阶段缓解AI算力荒最值得探索与实践的有效途径。
“十万卡集群”建成后如何充分挖掘其应用价值,使其在人工智能训练、大数据分析等适配场景发挥最大作用,杜绝资源空置与浪费现象的问题亟待解决。智算中心的建设只是一个开端,更重要的是后续的有效运用。也就是说,如何打通市场堵点才是关键。在此背景下,为解决相关市场堵点,算力互联网和东数西算被提出并受到广泛关注。
算力互联网,并非一张全新的网络,而是基于现有互联网,将各地分散的算力资源连接起来,借助标准化的算力标识与协议接口,跨域实现资源互联网络,达成全网异构算力的智能感知、实时发现与随需获取。简单来说,它就是一张服务于算力流动的网络,旨在进一步推动算力的互联互通,盘活现有算力资源,提升使用效率,降低使用成本,为用户带来更优质的体验。5月17日,中国信通院会同三大运营商联合启动“算力互联网试验网”建设,并发布《算力互联网体系架构 1.0》。这一举措旨在面向通算、智算、超算,以及云、边、端等公共算力资源,实现三家运营商自有算力和全国分散社会算力的互联,让用户能便捷地“找、调、用”算力。未来,用户有望像按“千瓦时”用电一样,按“卡时”灵活购买使用算力资源,实现用多少买多少的便捷服务。
而东数西算工程,则是通过构建数据中心、云计算、大数据一体化的新型算力网络体系,把东部的算力需求有序引导至西部,优化数据中心建设布局,促进东西部协同联动。2022年2月,国家在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏8地启动建设国家算力枢纽节点,并规划10个国家数据中心集群,标志着东数西算工程正式全面启动。其核心目的是让西部的算力资源更充分地支撑东部数据的运算,为数字化发展赋能。一方面,能缓解东部能源紧张问题;另一方面,为西部开辟新的发展道路。
通过算力互联网和东数西算的协同推进,有望打通市场堵点,优化算力资源配置,推动我国AI产业的持续健康发展。一方面,算力互联网能实现算力资源的跨区域、跨行业流通,提升资源利用效率;另一方面,东数西算可利用西部的能源和土地资源优势,降低算力成本,同时缓解东部的数据中心建设压力。二者相辅相成,共同为我国智能算力供需失衡问题提供解决方案。
如果说2024年是我国万卡集群的元年,2025年,十万卡集群也要来了。
此内容为平台原创,著作权归平台所有。未经允许不得转载,如需转载请联系平台。