首页

资讯池

半导圈

视频场

产品汇

搜索

晶圆级芯片，是未来

来源：半导体产业纵横发布时间：2025-06-29 14:09

作者：九林

大模型

算力

芯片制造

生成海报

晶圆级芯片，潜力无限。

今天，大模型参数已经以“亿”为单位狂飙。

仅仅过了两年，大模型所需要的计算能力就增加了1000倍，这远远超过了硬件迭代的速度。目前支持AI大模型的方案，主流是依靠GPU集群。

但单芯片GPU的瓶颈是很明显的：第一，单芯片的物理尺寸限制了晶体管数量，即便采用先进制程工艺，算力提升也逐渐逼近摩尔定律的极限；第二，多芯片互联时，数据在芯片间传输产生的延迟与带宽损耗，导致整体性能无法随芯片数量线性增长。

这就是为什么，面对GPT-4、文心一言这类万亿参数模型，即使堆叠数千块英伟达 H100，依然逃不过 “算力不够、电费爆表” 的尴尬。

目前，业内在AI训练硬件分为了两大阵营：采用晶圆级集成技术的专用加速器（如Cerebras WSE-3和Tesla Dojo）和基于传统架构的GPU集群（如英伟达 H100）。

晶圆级芯片被认为是未来的突破口。

晶圆级芯片，两大玩家

在常规的芯片生产流程中，一个晶圆会在光刻后被切割成许多小裸片（Die）并且进行单独封装，每片裸片在单独封装后成为一颗完整的芯片。

芯片算力的提升方式，是依靠增加芯片面积，所以芯片厂商都在不断努力增加芯片面积。目前算力芯片的单Die尺寸大约是26x33=858mm²，也就是接近曝光窗大小，但是芯片的最大尺寸无法突破曝光窗的大小。

曝光窗大小多年来一直维持不变，成为了制约芯片算力增长的原因之一。

晶圆级芯片则提供了另一种思路。通过制造一块不进行切割的晶圆级互连基板，再将设计好的常规裸片在晶圆基板上进行集成与封装，从而获得一整块巨大的芯片。

未经过切割的晶圆上的电路单元与金属互连排列更紧密，从而形成带宽更高、延时更短的互连结构，相当于通过高性能互连与高密度集成构建了更大的算力节点。所以，相同算力下，由晶圆级芯片构建的算力集群占地面积对比GPU 集群能够缩小 10-20 倍以上，功耗可降低 30% 以上。

全球有两家公司已经开发出了晶圆级芯片的产品。

一家是Cerebras。这家企业从2015年成立，自2019年推出了WES-1，之后经过不断迭代，目前已经推出到第三代晶圆级芯片——WES-3。

WES-3采用台积电5nm工艺，晶体管数量达到夸张的4万亿个，AI核心数量增加到90万个，缓存容量达到了44GB，可以支持高达 1.2PB 的片外内存。

WES-3的能力可以训练比GPT-4和Gemini大10倍的下一代前沿大模型。四颗并联情况下，一天内即可完成700亿参数的调教，支持最多2048路互连，一天便可完成Llama 700亿参数的训练。

这些都是集成在一块215mm×215mm=46,225mm²的晶圆上。

如果这个对比还不够明显，那可以这么看：对比英伟达H100，WES-3的片上内存容量是 H100的880倍、单芯片内存带宽是H100的7000倍、核心数量是H100的52倍，片上互连带宽速度是H100的3715倍。

另一家是特斯拉。特斯拉的晶圆级芯片被命名为Dojo。这是马斯克在2021年就开始的尝试。

特斯拉Dojo的技术路线和Cerebras不一样。是通过采用Chiplet路线，在晶圆尺寸的基板上集成了 25 颗专有的 D1 芯粒（裸Die）。

D1芯粒在645平方毫米的芯片上放置了500亿个晶体管，单个芯粒可以提供362 TFlops BF16/CFP8的计算能力。合起来的单个Dojo拥有9Petaflops的算力，以及每秒36TB的带宽。

特斯拉的Dojo系统专门针对全自动驾驶(FSD)模型的训练需求而定制。思路是从25个D1芯粒→1个训练瓦（Training Tile）→6个训练瓦组成1个托盘→2个托盘组成1个机柜→10个机柜组成1套ExaPOD超算系统，能够提供1.1EFlops的计算性能。

晶圆级芯片与GPU对比

既然单芯片GPU和晶圆级芯片走出了两条岔路，在这里我们以Cerebras WSE-3、Dojo 和英伟达 H100为例，对比一下两种芯片架构对算力极限的不同探索。

一般来说AI 训练芯片 GPU 硬件的性能通过几个关键指标进行评估：每秒浮点运算次数(FLOPS) ，表明GPU 在深度学习中必不可少的矩阵密集型运算中的原始计算能力的强弱。内存带宽，决定了访问和处理数据的速度，直接影响训练效率。延迟和吞吐量，能够评估GPU处理大数据负载和模型并行性的效率，从而影响实时性能。

算力性能

Cerebras WSE-3 凭借单片架构，在 AI 模型训练中展现独特潜力。

一般来讲，每秒浮点运算次数(FLOPS) 能够表明GPU 在深度学习中必不可少的矩阵密集型运算中的原始计算能力。WSE-3 的 FP16 训练峰值性能达到 125 PFLOPS，支持训练高达 24 万亿参数的 AI 模型，且无需进行模型分区处理。这个功能就特别适合以精简高效的方式处理超大模型。

与依赖分层内存架构（可能造成处理瓶颈）的传统 GPU 不同，WSE 的设计使850 个核心可独立运行，并直接访问本地内存，这样就有效提升了计算吞吐量。

在这方面，英伟达H100采用的是模块化和分布式方法。单个 H100 GPU 可为高性能计算提供 60 TFLOPS FP64 计算能力，八个互连的 H100 GPU 组成的系统，可实现超 1 ExaFLOP 的 FP8 AI 性能。

但分布式架构就存在数据传输问题，虽然NVLink 和 HBM3 内存能降低延迟，但在训练超大型模型时，GPU 间通信仍会影响训练速度。

在AI训练的表现中，Cerebras WSE-3会更加擅长处理超大型模型。2048个WSE-3系统组成的集群，训练Meta的700亿参数Llama 2 LLM仅需1天，相比Meta原有的AI训练集群，速度提升达30倍。

延迟与吞吐量

从数据传输来看，WSE-3 的单片架构避免了多芯片间的数据传输，显著降低延迟，支持大规模并行计算和核心间低延迟通信。速度快是单片的优势，与传统GPU 集群相比，WSE-3 可将软件复杂度降低高达 90%，同时将实时 GenAI 推理的延迟降低 10倍以上。

特斯拉Dojo Training Tile属于晶圆级集成，当然也能够大幅降低通信开销。由于是从Die到Die之间传递，在跨区块扩展时仍会产生一定延迟。目前，Dojo 能实现 100 纳秒的芯片间延迟，并且针对自动驾驶训练优化了吞吐量，可同时处理 100 万个每秒 36 帧的视频流。

英伟达H100基于 Hopper 架构，是目前最强大的AI训练GPU之一，配备18,432个CUDA 核心和640个张量核心，并通过NVLink和NVSwitch系统实现GPU间高速通信。高速通信。虽然多 GPU 架构具备良好扩展性，但数据传输会带来延迟问题，即便NVLink 4.0 提供每个GPU 900 GB/s的双向带宽，延迟仍高于晶圆级系统。

尽管能够凭借着架构特性实现单晶圆工作负载的低延迟和高吞吐量，但晶圆级系统如WSE-3 和 Dojo面临着可扩展性有限、制造成本高和通用工作负载灵活性不足的问题。

谁更划算？

从硬件购置成本来看，不同芯片的价格因架构和应用场景而异。

据报道，特斯拉单台Tesla Dojo 超级计算机的具体成本估计在3 亿至 5 亿美元之间。技术路线上，Dojo采用的是成熟晶圆工艺再加上先进封装（采用了台积电的Info_SoW技术集成），去实现晶圆级的计算能力，能够避免挑战工艺极限。这既能保证较高的良品率，又便于实现系统的规模化生产，芯粒的更新迭代也更为轻松。

Cerebras WSE 系统则因先进的制造工艺与复杂设计，面临较高的初期研发和生产成本。据报道，Cerebras WSE-2 的每个系统成本在 200 万至 300 万美元之间。

相比之下，英伟达单GPU的采购成本比较低。以英伟达A100来说，40GB PCIe型号价格约 8,000 - 10,000美元，80GB SXM型号价格在18,000 - 20,000美元。这使得许多企业在搭建 AI 计算基础设施初期，更倾向于选择英伟达GPU。不过，英伟达GPU在长期使用中存在能耗高、多芯片协作性能瓶颈等问题，会导致运营成本不断增加。

总体来看，虽然WSE-2能为超大规模AI模型提供超高计算密度，但对于需要在大型数据中心和云服务中部署多GPU可扩展方案的机构，A100的成本优势更为明显。