对人工智能数据中心的投资显然已达到前所未有的水平。微软、谷歌、亚马逊和Meta等超大规模数据中心巨头竞相每年投资数千亿美元。据TrendForce预测,到2026年,这四大超大规模数据中心巨头的总投资额将高达7550亿美元(图1)。按1美元兑160日元的汇率计算,这相当于约120.8万亿日元,超过了日本2025财年的国家预算(一般账户预算总额约为115万亿日元,数据来源:日本财务省)。

图 1:前 4 大超大规模数据中心运营商对数据中心的疯狂资本投资
之所以需要如此巨额的投资,是因为人工智能服务器中使用的AI半导体价格飞涨。以领先的AI半导体制造商NVIDIA的GPU为例,其目前的旗舰架构“Blackwell”中,单颗“B200”GPU的价格在500万至800万日元之间,一台配备8颗B200 GPU的“DGX B200”服务器的价格在4000万至7000万日元之间,而基于该服务器的AI机架的价格则高达数亿至10亿日元(图2)。由于构建AI数据中心需要大量部署这些AI机架,因此每个超大规模数据中心运营商的投资额都超过1000亿至2000亿美元。

图 2:NVIDIA GPU AI 服务器和数据中心(Hopper、Blackwell、Rubin)的定价结构
然而,这已经超出了“增长投资”一词所能解释的范畴,而更像是“为了竞争而进行的军事建设”。
在这种情况下,有一个很少被直接讨论的关键问题:“这项投资真的可以收回成本吗?”虽然人工智能热潮强调的是强劲的需求和技术创新,但对于资本密集型行业来说,最终的问题是投资能否收回成本。
本文将人工智能数据中心的成本结构分解为三个要素:GPU、宽带内存(HBM)和电力。此外,本文利用微软和谷歌公开的实际数据,对当前人工智能投资的收入结构进行了定量分析。基于此分析,本文试图估算“崩溃线”,即投资无法收回的临界点。
请注意,本分析侧重于GPU基础设施按小时计费带来的直接收入,并不包括人工智能带来的间接收入(例如搜索广告质量提升或SaaS价值增加)。阅读本文时,请牢记这一点。
直截了当地说,美国超大规模数据中心运营商在人工智能数据中心看似疯狂的投资很可能已经注定失败。借用动漫《北斗神拳》中健次郎的一句名言:“你已经死了。”
图 3以量化方式展示了微软和谷歌的实际投资规模。基于这些数据,它充分说明了微软和谷歌(Alphabet 的子公司)在数据中心领域的投资规模之庞大令人瞩目。

图 3:微软和谷歌的实际投资规模
微软的案例
根据微软2025财年年度报告,资本支出(不包括固定资产和设备)预计将达到645亿美元。此外,该公司表示,投资(主要用于人工智能基础设施)预计将超过800亿美元。
与微软云业务1680亿美元的营收相比,资本支出约占营收的38%,或根据公司声明约为48%。通常情况下,在稳定的基础设施业务中,资本支出很少超过营收的30%,因此这一比例极其罕见。
更重要的是,折旧费用已达220亿美元。这意味着过去的投资负担已经开始影响公司的损益,而且这种负担在未来几年可能会继续增加。此外,如上图1所示,微软2026年的资本支出预计将达到1900亿美元,约为上年的2.4倍。因此,微软的利润和亏损预计将大幅下降。
谷歌的案例
与此同时,谷歌母公司Alphabet正在进行更大规模的投资。其2025年的资本支出达到914亿美元,其中大部分将用于服务器和数据中心等技术基础设施。相比之下,谷歌云的年收入约为588亿美元,营业利润约为139亿美元。
当然,这914亿美元的资本支出不仅支持云计算业务,也支持公司范围内的基础设施,例如搜索引擎和人工智能研究平台。然而,即使其中一半用于云计算服务,也仍然高达约457亿美元,约占云计算销售额的80%,约为营业利润的3.3倍。即便考虑到这一点,显然目前的投资规模与传统的回报模式存在显著偏差。
此外,与微软类似,谷歌2026年的整体资本支出预计将达到1800亿至1900亿美元,约为上一年的2.4至2.5倍。鉴于如此高的资本支出水平,不难想象,收回对云计算业务的投资将变得更加困难。
这项巨额投资的原因在于人工智能数据中心独特的成本结构。首先,我们将估算人工智能数据中心的成本结构和市场范围(图 4)。

图 4:AI 数据中心的成本结构和市场范围
首先,我们来看看GPU。目前的AI基础设施几乎完全依赖于NVIDIA的GPU。例如,H100系统的单价估计在2.5万美元到4万美元之间,具体价格取决于配置,而一个包含8个H100的服务器机架价格将达到约300万美元。此外,GB200系列的机架价格预计将上涨至数百万美元(约350万美元到550万美元)。
另一个重要因素是投资对象不是单个GPU,而是“集群单元”。在目前的AI数据中心,每个集群部署数千到数万个GPU已是司空见惯,单个集群的投资额从数亿美元到约7亿美元不等。
其次是HBM显存。在H100和GB200芯片中,每个GPU通常配备6到8个HBM堆栈。HBM的单价会根据代数和合约条款而有所不同,但据称HBM3/3E的单价在1000美元到1500美元之间。因此,每个GPU的HBM成本约为10000美元,这在GPU价格中占了相当大的比例。
更重要的是供应限制。HBM市场几乎完全由三家公司主导:SK海力士、三星电子和美光科技。特别是,据称SK海力士在先进HBM市场占有超过50%的份额。这种供应集中度形成了一种抑制价格下降的结构。
第三,还有功耗问题。人工智能数据中心的功耗比传统云平台高出几个数量级(图 5)。例如,H100 的 TDP(注:热设计功耗,指冷却芯片所需的估计最大发热量)约为 700W,而 GB200 的 TDP 则在 1kW 级别。如果配置一个包含 10,000 个 GPU 的集群,仅 GPU 本身的功耗就将达到 10MW,加上网络和冷却等其他功耗,总功耗将达到20-30MW。

图 5:人工智能数据中心的年度功耗和总成本
回到图5的解释,换算成年耗电量,一个20兆瓦的系统需要20兆瓦×24小时×365天≈1.75亿千瓦时/年。假设电价为0.14美元/千瓦时,则年电费约为2500万美元。实际上,考虑到冗余配置和冷却损耗,成本达到每年3500万美元左右的情况并不少见。
因此,GPU(资本支出)、HBM(供应限制)和电力(运营支出)这三个要素都会随着规模的扩大呈指数级增长。结果,人工智能基础设施的成本仍然居高不下,而且似乎很难像过去那样通过规模扩张来降低成本。
传统云基础设施受益于规模经济,这得益于服务器单位成本的持续下降和利用率的提高。摩尔定律和虚拟化技术的进步使得单台服务器能够随着时间的推移“以更低的成本处理更多服务”,这为恢复模型提供了支持。然而,人工智能数据中心的情况则截然不同。图 6展示了其成本结构的前提条件,图 7则展示了基于这些条件计算出的人工智能数据中心恢复线。

图 6:AI 数据中心恢复模型计算的假设

图 7:AI 数据中心投资回收期计算
假设初始投资7亿美元用于建设一个拥有1万个GPU的集群(包括GPU、服务器、网络和冷却系统),并出于会计目的将其摊销在5年内,则每年的摊销费用为1.4亿美元。加上3500万美元的电力成本和3500万美元的运营成本(维护、人员成本、数据中心租金等),每年的总成本约为2.1亿美元。
由此可知,恢复所需的每个 GPU 的计费成本可以用以下公式表示。
所需计费成本 = 年度总成本 ÷ (GPU 数量 × 8760 小时 × 正常运行时间)
假设运行率为70%,2.1亿美元 ÷ (10,000 × 8,760 小时 × 0.7) ≈ 约 3.43 美元/GPU 小时
换句话说,除非每块GPU在接近恒定的运行条件下每小时至少产生3.43美元的收益,否则投资无法收回。这是“下限”,而非“平均值”,如果利用率下降,所需的单位成本还会更高。
然而,在实际市场中,生成式人工智能推理的价格正在迅速下降。例如,据报道,大规模语言模型(LLM)的应用程序编程接口(API)价格在2023年至2025年间将降至原价的十分之一以下。此外,开源模型的激增进一步加剧了价格竞争。
关键在于,尽管API价格大幅下降,但GPU、HBM和电力成本实际上却在上涨。此时,传统的恢复模式已不再可行。人工智能基础设施正在从“规模越大,优势越明显”的模式转向“规模越大,固定成本风险越高”的模式。那么,恢复会在什么规模下变得不可能呢?让我们基于微软和谷歌的真实数据来分析恢复条件
正如前文所述,微软每年持续投资600亿至800亿美元,而到2025年,其折旧费用已超过200亿美元。如果微软试图用微软云的运营利润来支付这220亿美元的折旧费用,将会大幅降低其云业务的运营利润率。另一方面,谷歌云业务的运营利润为139亿美元,而其仅云业务的资本支出就高达约457亿美元,这意味着即使按单年计算,其投资额也超过了运营利润的三倍。
这表明存在结构性问题。人工智能基础设施必须保持极高的投资回报率才能盈利。然而,现实情况是,人工智能服务的价格正在下降,GPU和HBM的成本仍然很高,而电力成本却在上升。
在上述三个因素同时作用的环境下,投资回收的条件会迅速恶化。可以说,当前的AI投资已经进入了一种结构性困境:除非同时实现极高的利用率和极高的单价,否则很难收回投资。
那么,这种对资本设备的疯狂投资会放缓吗?答案是否定的。
微软剩余履约义务约为3680亿美元,表明市场需求仍然超过供应。谷歌也明确表示,计划进一步扩大资本支出,以满足人工智能和云计算的需求。关键在于,这两家公司都不是因为预期能够收回投资才进行投资的。相反,它们是被迫继续投资的,因为停止投资就意味着在竞争中落后。
当前的人工智能投资已经从追求利润最大化转变为力求避免失败。我们应该将人工智能投资视为已经进入“消耗战”阶段,而非“增长”阶段。
只要这种结构持续下去,人工智能热潮就会继续扩张,但其内部会累积一种无法挽回的风险形式的“扭曲”。这种扭曲会在某个节点突然显现出来。这就是下一章将要阐述的“崩溃线”。
如上所述,判断人工智能投资的可持续性不仅需要考虑GPU的数量,还需要考虑HBM、电力以及整个电力基础设施。本文将以一个拥有10000个GPU的集群为例,定量地展示投资回收在何种规模下将变得不可能——即所谓的“崩溃线”。
从GPU数量倒推,HBM和功耗按如下方式增加:
首先,我们假设一个由 10,000 个 GPU 组成的集群。图 8显示了每个集群所需的年功耗以及所需的等效核电站数量。

图 8:故障线所需功耗的物理规模
假设每个GPU配备8个HBM堆栈,则所需的HBM总量将达到80,000个堆栈。每个堆栈24GB,总计约为1.92PB。此外,就功耗而言,假设每个GPU的功耗为1kW,而整个设施(包括冷却、变电站和网络负载)的功耗约为其两倍,则一个拥有10,000个GPU的集群的设施负载约为20MW。
年耗电量约为175.2吉瓦时(GWh),除以一座1吉瓦级核电站以90%负荷运行的年发电量,相当于约0.022座反应堆的发电量。反过来说,这意味着一座核电站只能满足约45个地点的用电需求,如果人工智能集群大规模扩张,不新建核电站将无法满足需求。
破产线的定义
如上所述,假设一个拥有10,000个GPU的集群,初始投资7亿美元,分5年摊销,年运营成本3500万美元,年电力成本约为3500万美元,则年度总成本约为2.1亿美元。在这种情况下,盈亏平衡条件可以用第三章中描述的以下公式表示。
所需计费成本 = 年度总成本 ÷ (GPU 数量 × 24 小时 × 365 天 × 正常运行时间)
假设利用率为 70%,则每 GPU 小时的计费成本约为 3.43 美元。本文将此称为“临界点”。换句话说,一旦 AI 服务价格低于此水平,或者利用率低于此假设值,投资就无法收回成本。
需要注意的是,出于会计目的而采用的5年摊销期相对于NVIDIA GPU的技术周期(通常每两年左右更新换代一次)而言是一个较为乐观的假设。在后文所述的崩溃情景③中,我们将分析这种缩短的摊销期对收入结构的影响。
崩溃突然发生
在典型的基础设施行业中,利润率会逐渐下降。然而,在固定成本极高的AI数据中心,一旦利润率低于某个水平,盈利能力就会迅速恶化,原因有以下三点。
第一,GPU 和 HBM 的初始投资巨大且固定。
第二,电力和冷却负荷很高,而且不容易降低。
第三,另一方面,由于竞争,所需的计费单位价格(市场价格)将会下降。
因此,人工智能投资的恶化过程并非线性而非线性。换句话说,并非“情况逐渐恶化,然后变得更加艰难”,而是“一旦越过某个临界点,损失就会突然变得巨大”。这就是破产线的本质。
现在,让我们定量计算人工智能数据中心发生故障的三种场景。每种场景的共同条件如图 9所示。

图 9:计算 AI 数据中心故障线的常见条件
图 10显示了三种故障场景的仿真结果。

图 10:人工智能数据中心发生故障的三种场景模拟
第一,软件崩溃。
最有可能出现的情况是人工智能公司之间展开激烈的价格竞争。如果计费价格降至每GPU小时2.90美元,利用率降至65%,则所需计费价格将上涨至3.69美元,导致每年损失约4490万美元。然而,如图10所示,虽然现阶段并未出现彻底崩溃,但利润已完全消失,投资复苏也悄然走向失败。即使表面需求得以维持,内部资本效率也在急剧下降。
第二,硬件崩溃。
下一个风险是电力、制冷和安装等实际成本的上涨。如果3美元的计费率和55%的利用率,再加上电价上涨和设施负荷增加,所需的计费率将跃升至4.7美元,导致每年约8170万美元的损失。图 10 显示,在此阶段,赤字急剧扩大。这是一个典型的例子,说明基础设施成本而非需求如何摧毁盈利能力。
第三,金融崩溃。
最严重的后果是财务上的崩溃。即使计费率为每间3.20美元,入住率为60%,由于折旧期缩短(从5年缩短到4年)以及8%的资本成本,实际计费率也需达到每间5.73美元,导致每年亏损约1.33亿美元。因此,如图 10 底行所示,此阶段的损失已达到无法承受的水平(每年 1.33 亿美元)。这种情况的本质在于,资本市场在设备发生物理故障之前就认定该项投资“无法收回”。
失效以“非线性”方式发生
图 11显示了 AI 数据中心利用率与所需计费成本之间的关系。需要注意的是,这种关系并非线性关系。

图 11:AI 数据中心将出现故障的领域
入住率为 70% 时,所需单位成本约为 3.43 美元;但当入住率降至 60% 时,所需单位成本将上升至近 4 美元;如果入住率进一步降至 50%,所需单位成本将跃升至近 5 美元。
图 11 所示的“崩溃区域”直观地展示了这种非线性关系。市场价格区间(2.5 至 3.0 美元:基于 AWS、Azure、Lambda Labs 等平台的 H100/H200 小时费率范围)已经跌入该区域深处,目前的 AI 服务价格很可能已从结构上低于盈亏平衡点。
更重要的是,人工智能投资的规模化直接依赖于电力基础设施。如图 12所示,10,000 个 GPU 大约需要 20 兆瓦 (MW) 的电力,100,000 个 GPU 需要 200 兆瓦 (MW) 的电力,而 1,000,000 个 GPU 则需要 2,000 兆瓦 (MW)(= 2 吉瓦 (GW))。这意味着不仅需要扩建数据中心,还需要扩建电力供应基础设施本身。

图 12:功耗从 10,000 个 GPU 到 100,000 个 GPU 再到 1,000,000 个 GPU 急剧增加
如果我们把这些电力转化为核能:
人工智能投资的扩张显然等同于电力基础设施的扩张。人工智能数据中心不再仅仅是IT行业的问题,而是已经演变为涉及电力、土地和建设能力的“国家供给能力问题”。
目前对人工智能数据中心的投资不仅无利可图,而且在物理上也难以持续。市场价格下跌、利用率下降、电力成本上涨或资本市场收紧——哪怕其中任何一个因素都可能立即导致数据中心崩溃到临界点。而且,这种崩溃不会逐渐发生,而是在跨越某个临界点后突然爆发。这不再仅仅是半导体行业的问题,而是关乎国家电力供应能力的问题。
2026年4月3日,日本首相高市早苗会见了美国大型超大规模数据中心运营商微软总裁布拉德·史密斯,并对该公司在日本数据中心投资约100亿美元表示欢迎。然而,正如本文所示,此类投资不仅无利可图,而且耗电量巨大,其结构还会给国家基础设施带来负担。在人工智能热潮的背后,有必要冷静地评估日本将要付出的代价规模。
此内容为平台原创,著作权归平台所有。未经允许不得转载,如需转载请联系平台。
