
美国半导体行业协会(SIA)与德勤近期联合发布了报告《驱动 AI:作为数据中心基石的半导体生态系统》。报告明确指出:半导体是人工智能的根本使能技术,没有半导体就没有 AI。到 2028 年,部署在 AI 数据中心服务器中的半导体年度营收预计将超过 1.2 万亿美元,在四年内增长近十倍。
报告通过多组数据揭示了 AI 服务器对半导体技术的极端依赖:在领先的 AI 服务器机架中,半导体价值占比超过 95%,占 AI 数据中心总资本支出的 50% 以上。 一个单机架 AI 服务器包含超过 4,500 个封装芯片,这些芯片由约 20,000 个独立芯片 组成。
尽管目前训练(Training)需求旺盛,但推理(Inference)将主导未来。预计 2023-2028 年,推理工作的营收复合年增长率将高达 122%(训练仅为 30%),到 2032 年,推理可能占据总需求的 80%。
报告通过对尖端 AI 服务器的“虚拟拆解”,展示了一个高度模块化、垂直整合的硬件堆栈,由五个核心模块组成:分别是计算模块、加速互联模块、电源模块、网络与管理模块、冷却模块。
计算模块是价值最集中的部分,通常占据服务器机架 95% 的内容价值。AI 加速器(GPU/ASIC): 负责大规模并行计算,单价在 10,000 至 40,000 美元 之间。高带宽内存 (HBM): 通过 2.5D/3D 封装与加速器集成,打破“内存墙”瓶颈。异构计算: 包括 CPU(控制中心,单价 7,500−15,000)和 DPU(卸载网络与安全任务,单价 1,000−3,500),确保 GPU 能够满载运行。
加速器互联模块其功能是将数十个 AI 加速器连接成一个统一的超级计算集群。交换机 ASIC负责传输路由加速器间的海量数据。同时,随着带宽需求激增,共封装光学(CPO) 正在兴起,用光信号代替电信号以降低延迟并提高能效。
电源模块面对兆瓦(MW)级的电力需求,材料创新成为核心。化合物半导体,如氮化镓(GaN)和碳化硅(SiC) 正被广泛用于电源转换,以处理更高电压并减少热损耗。AI数据中心的电源架构正从 48V 向 400V 甚至 800V 高压直流(HVDC) 发展,以支持单机架功率从 100kW 向 1,000kW 跃升。
网络与管理模块负责提供控制平面基础设施、高带宽网络以及硬件级安全。可信平台模块(TPM) 提供硬件加密,是机密计算(Confidential Computing)的基石。BMC(基板管理控制器) 允许在不中断 AI 训练的情况下进行远程健康监控。
一个冷却模块配备了超过 10 个流量、压力和温度传感器,通过 MCU 进行精确的热控制。
随着加速器功耗在未来十年可能超过 5,000W,空气冷却正达极限。报告预计到 2035 年,液冷技术占比将升至 30%。
报告强调,虽然高端逻辑芯片捕捉了大部分价值,但机架中 52% 的芯片单价低于 10 美元。这些“长尾”芯片(如 PMIC、传感器、时钟芯片)对于整个系统的稳定性至关重要。电源管理IC 和电压调节模块 (VRM) 负责将机架级的电压精确降至芯片所需的1V以下轨道。仅一块加速器计算板就可能含有 50到100多个VRM。在冷却分配单元(CDU)中,长尾传感器实时监测液冷回路的健康状态EEPROM(如SPD EEPROM) 被称为组件的“数字名牌”,存储内存条或主板的配置数据和身份信息。AI基础设施的韧性并不只取决于尖端的3nm/5nm逻辑芯片。
由于长尾芯片数量庞大且高度分散,任何一种基础组件(如一个几美分的电压调节器)的短缺,都可能导致价值数百万美元的AI机架无法交付。这种“木桶效应”使得成熟制程芯片的供应链稳定性与先进制程的研发同等重要。
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。
