
新兴行业的发展走向向来充满不确定性,有的昙花一现,有的艰难维系行业地位,仅有少数企业能够持续创新、稳步演进。如今人工智能行业正迎来新一轮变革,核心风向转向推理业务。过去数年,人工智能数据中心搭建各类全新架构,只为满足大语言模型训练所需的算力性能。这类架构虽适配模型训练场景,却难以满足AI推理需求——推理性能高度依赖数据流转效率、能效水平与互连带宽。
随着行业重心从模型训练转向业务推理,业内分析师预测,三年内推理算力负载将占到企业级AI总算力的85%。这场行业转型,也彻底暴露了当下AI基础设施存在的系统性短板:全球电力供给总量受限、推理场景内存调度机制落后、大规模部署下散热负荷难以持续承载,传统互连架构也无法支撑机架级全域算力协同。
各类问题最终归结为四大相互关联的发展瓶颈:功耗墙、内存墙、散热墙、铜线互连墙。想要高效、可持续地扩容AI算力基础设施,必须同步攻克这四大难题。本文逐一解析各项瓶颈,梳理目前行业对应的架构优化方案,并阐明全域系统协同设计是最高效的解决思路。
电力已然成为制约AI数据中心运营的核心稀缺资源。美国现有总发电装机容量约1250吉瓦,但未来三年内,仅AI推理与训练业务新增用电需求就接近400吉瓦,仅靠扩建电网根本无法填补电力缺口。
在此背景下,头部云厂商纷纷推行自备电力核心策略,脱离公共电网自主搭建供电体系。例如XAI企业自建燃气、柴油发电机组,摆脱电网供电限制保障数据中心稳定运行,这也标志着AI基建的能源布局思路迎来结构性转变。即便电力供给充足,能效依旧是无法逾越的核心制约,能效指标更是衡量AI数据中心实力的关键标准。
想要突破功耗墙,算力中心运营方必须持续提升单位功耗产出词元数量,保障AI推理业务长久稳定落地、具备商业可行性。单次词元生成成本,既取决于算力芯片运算效率,也受制于底层供电架构。想要压降单词元算力成本,既要优化加速芯片设计,也要升级全域供电调度体系,最大限度减少电力损耗。
推理业务流量存在突发性特征,用户请求集中涌入时,模型会快速切换不同算力运算链路,对供电网络提出严苛要求:既要快速响应负载波动,又要维持电压稳定。这就需要从园区配电到芯片供电全链路完成架构升级。
园区侧采用800V高压配电等新型架构,大幅降低电能转换损耗;固态变压器省去低频变压环节,可直接对接直流微电网,精简中压电网至芯片端的电能转换流程,全面提升系统整体能效。
靠近芯片端的供电架构也在逐级迭代,实现从电网到算力核心的全链路能效升级:分离式稳压模块将稳压单元贴近算力负载;集成式模块化稳压元件进一步下沉至基板层,缩短电力传输路径;最终实现稳压功能嵌入芯片硅片内部,在算力裸片端完成就近供电。
供电距离直接影响电力损耗,稳压模块与处理器之间每增加一毫米距离,都会产生额外功耗,规模化部署后整体损耗可达数百瓦。搭配高性能数字控制芯片,可实现大电流高密度供电场景下的快速瞬态响应、多相位智能调度与自适应稳压调控。
算力性能持续迭代升级,但内存带宽发展速度严重滞后。行业实测数据显示,算力性能每两年约提升3倍,而内存带宽同期仅提升1.6倍,二者差距不断拉大,导致处理器长期处于等待数据调取的闲置状态。推理场景需要频繁调用模型权重参数与中间运算数据,这种算力与内存资源失衡的现状,直接压制整体算力吞吐能力。
训练集群依赖高带宽内存搭建大规模并行算力阵列,推理业务运行逻辑则截然不同:推理多为串行执行,运算强度偏低,对内存访问时延更为敏感,其性能上限不再取决于峰值算力,而是由数据流转效率决定。
行业由此掀起架构变革,主推以片上静态内存为核心的设计思路,拉近存储单元与算力单元的物理距离。相较于外置动态内存,片上及近核静态内存拥有更低访问时延、更高有效传输带宽,减少对外置存储的依赖,大幅降低高时延、高功耗的数据交互频次。
如今越来越多推理加速芯片采用该设计,将模型权重与运算激活数据就近存储,减少内存调取延迟,有效提升响应速度与整体算力吞吐量。
诸多前沿设计进一步深化这一理念,通过封装集成、高带宽低时延互连技术实现存储与算力深度融合,精简数据流转流程,提升任务运行稳定性,摒弃传统存储层级架构带来的各类能效损耗。
Cerebras、d-Matrix等企业凭借此类架构大幅提升单位功耗词元产出效率,英伟达近期披露的产品规划也明确,下一代推理芯片将沿用同款设计思路。
随着单机架AI算力功耗从数十千瓦攀升至100千瓦以上,散热排热能力已然成为基础设施建设的硬性门槛。按照行业规划,未来单机架算力功耗将达到600千瓦至1兆瓦,传统风冷散热模式彻底无法满足高热流密度散热需求。
为此,算力中心开始全面转向液冷方案,直冷、浸没式液冷逐步普及,支撑超高功耗机架稳定运行。此前主打汽车与工业油品业务的嘉实多,现已推出多款液冷散热产品,成功入选开放计算项目基金会认证生态。
除此之外,芯片级固态散热方案成为全新突破方向。Frore Systems推出的微型机电系统主动散热芯片AirJet,依靠超声震动薄膜在处理器表面形成高速脉冲气流,整机厚度仅2.8毫米,散热功耗仅1瓦。
受限于当前散热性能,这类设备目前主要适配中央处理器、移动端低功耗算力场景,暂无法满足高功耗图形处理器集群散热需求,但该技术正快速向数据中心场景落地,依托成熟微型机电制造工艺打造差异化散热方案。在传统机箱风扇逐步精简乃至取消的趋势下,这类微型散热器件还可同步为光模块、周边内存等临近硬件完成散热。
内存与供电体系决定单机算力性能上限,硬件互连架构则决定整个集群的扩容边界。AI算力集群从单机架向多机架、整栋算力楼宇规模化拓展过程中,传统铜缆互连在传输带宽、传输距离、信号稳定性上的短板彻底暴露。
想要在更高传输速率下维持稳定运行,传统铜缆架构必须增加功耗投入、强化信号校正,这些固有缺陷共同构成铜线互连墙,严重制约电力互连架构的大规模拓展。
而光纤互连技术可实现长距离、高带宽数据传输,兼具信号稳定、低时延优势,助力算力资源跨机架灵活拆分调度,且不会损耗通信效率。目前规模化算力集群已逐步用可插拔光模块替代传统铜缆,封装集成式光互连方案也已提上落地日程,省去高功耗信号调理环节、缩短电路传输路径,进一步降功耗、减时延。
技术升级带来的效益十分可观:谷歌木星算力网络搭载微机电光交换架构与软件定义网络技术,对比传统Clos网络架构,整体功耗降低41%,基建投入成本缩减30%。
光交换架构可依托软件调整逻辑组网方式完成拓扑重构,无需改动物理线路,组网调整效率比传统配线架模式提升两倍。这套设计理念现已全面应用于新一代AI集群互连方案,依托软件定义光网络,实现全网链路状态实时监测、按需智能路由调度。
功耗墙、内存墙、散热墙、铜线互连墙,共同划定了AI数据中心推理业务的性能边界。静态内存优先架构精简数据交互,但需要配套高密度、低时延供电体系提供支撑;就近快速稳压技术保障高波动负载下的运行稳定,散热方案则决定机架级高功耗部署能否长久落地;光纤互连实现全域算力扩容,同时也对全网内存带宽、整体能效提出更高要求。
想要同步提升算力性能与整体拥有成本,必须统筹解决四大核心瓶颈。四大难题相互影响、彼此制约,推动行业走向全域系统协同设计,将加速芯片架构、存储层级、供电体系、散热方案、互连网络进行一体化优化,统一适配芯片设计、封装工艺与底层固件。
行业架构演变趋势也印证了这一方向:确定性算力运行模式减少运算时序波动、存储优先设计优先保障数据就近调用与带宽利用率、软件定义光网络取代固定组网模式,实现全网智能路由与链路状态监测。
未来算力平台将融合中央处理器、图形处理器以及多款专用推理加速芯片,依据用户请求复杂度、模型架构与时延需求,智能调度分配算力负载。模型训练类任务依旧交由通用高吞吐处理器承载,专用推理芯片精准承接各类细分推理业务。
这场架构变革不止局限于大型数据中心,当下搭建的AI基础设施,也将成为未来边缘算力部署的核心底座。边缘场景散热空间更小、电力供给受限,且无法像中心机房一样配置冗余设备,四大瓶颈制约更为严苛。整个行业攻克这四大发展壁垒的进度,将直接决定下一代人工智能系统的规模化落地能力、运行能效与应用覆盖范围。
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。
