晶圆级芯片,是未来

来源:半导体产业纵横发布时间:2025-06-29 14:09
作者:九林
大模型
算力
芯片制造
生成海报
晶圆级芯片,潜力无限。

今天,大模型参数已经以“亿”为单位狂飙。

仅仅过了两年,大模型所需要的计算能力就增加了1000倍,这远远超过了硬件迭代的速度。目前支持AI大模型的方案,主流是依靠GPU集群。

但单芯片GPU的瓶颈是很明显的:第一,单芯片的物理尺寸限制了晶体管数量,即便采用先进制程工艺,算力提升也逐渐逼近摩尔定律的极限;第二,多芯片互联时,数据在芯片间传输产生的延迟与带宽损耗,导致整体性能无法随芯片数量线性增长。

这就是为什么,面对GPT-4、文心一言这类万亿参数模型,即使堆叠数千块英伟达 H100,依然逃不过 “算力不够、电费爆表” 的尴尬。

目前,业内在AI训练硬件分为了两大阵营:采用晶圆级集成技术的专用加速器(如Cerebras WSE-3和Tesla Dojo)和基于传统架构的GPU集群(如英伟达 H100)。

晶圆级芯片被认为是未来的突破口。

晶圆级芯片,两大玩家

在常规的芯片生产流程中,一个晶圆会在光刻后被切割成许多小裸片(Die)并且进行单独封装,每片裸片在单独封装后成为一颗完整的芯片。

芯片算力的提升方式,是依靠增加芯片面积,所以芯片厂商都在不断努力增加芯片面积。目前算力芯片的单Die尺寸大约是26x33=858mm2,也就是接近曝光窗大小,但是芯片的最大尺寸无法突破曝光窗的大小。

曝光窗大小多年来一直维持不变,成为了制约芯片算力增长的原因之一。

晶圆级芯片则提供了另一种思路。通过制造一块不进行切割的晶圆级互连基板,再将设计好的常规裸片在晶圆基板上进行集成与封装,从而获得一整块巨大的芯片。

未经过切割的晶圆上的电路单元与金属互连排列更紧密,从而形成带宽更高、延时更短的互连结构,相当于通过高性能互连与高密度集成构建了更大的算力节点。所以,相同算力下,由晶圆级芯片构建的算力集群占地面积对比GPU 集群能够缩小 10-20 倍以上,功耗可降低 30% 以上。

图片

全球有两家公司已经开发出了晶圆级芯片的产品。

一家是Cerebras。这家企业从2015年成立,自2019年推出了WES-1,之后经过不断迭代,目前已经推出到第三代晶圆级芯片——WES-3。

WES-3采用台积电5nm工艺,晶体管数量达到夸张的4万亿个,AI核心数量增加到90万个,缓存容量达到了44GB,可以支持高达 1.2PB 的片外内存。

图片

WES-3的能力可以训练比GPT-4和Gemini大10倍的下一代前沿大模型。四颗并联情况下,一天内即可完成700亿参数的调教,支持最多2048路互连,一天便可完成Llama 700亿参数的训练。

这些都是集成在一块215mm×215mm=46,225mm2的晶圆上。

如果这个对比还不够明显,那可以这么看:对比英伟达H100,WES-3的片上内存容量是 H100的880倍、单芯片内存带宽是H100的7000倍、核心数量是H100的52倍,片上互连带宽速度是H100的3715倍。

图片

另一家是特斯拉。特斯拉的晶圆级芯片被命名为Dojo。这是马斯克在2021年就开始的尝试。

特斯拉Dojo的技术路线和Cerebras不一样。是通过采用Chiplet路线,在晶圆尺寸的基板上集成了 25 颗专有的 D1 芯粒(裸Die)。

D1芯粒在645平方毫米的芯片上放置了500亿个晶体管,单个芯粒可以提供362 TFlops BF16/CFP8的计算能力。合起来的单个Dojo拥有9Petaflops的算力,以及每秒36TB的带宽。

特斯拉的Dojo系统专门针对全自动驾驶(FSD)模型的训练需求而定制。思路是从25个D1芯粒→1个训练瓦(Training Tile)→6个训练瓦组成1个托盘→2个托盘组成1个机柜→10个机柜组成1套ExaPOD超算系统,能够提供1.1EFlops的计算性能。

晶圆级芯片与GPU对比

既然单芯片GPU和晶圆级芯片走出了两条岔路,在这里我们以Cerebras WSE-3、Dojo 和英伟达 H100为例,对比一下两种芯片架构对算力极限的不同探索。

图片

一般来说AI 训练芯片 GPU 硬件的性能通过几个关键指标进行评估:每秒浮点运算次数(FLOPS) ,表明GPU 在深度学习中必不可少的矩阵密集型运算中的原始计算能力的强弱。内存带宽,决定了访问和处理数据的速度,直接影响训练效率。延迟和吞吐量,能够评估GPU处理大数据负载和模型并行性的效率,从而影响实时性能。

算力性能

Cerebras WSE-3 凭借单片架构,在 AI 模型训练中展现独特潜力。

一般来讲,每秒浮点运算次数(FLOPS) 能够表明GPU 在深度学习中必不可少的矩阵密集型运算中的原始计算能力。WSE-3 的 FP16 训练峰值性能达到 125 PFLOPS,支持训练高达 24 万亿参数的 AI 模型,且无需进行模型分区处理。这个功能就特别适合以精简高效的方式处理超大模型。

与依赖分层内存架构(可能造成处理瓶颈)的传统 GPU 不同,WSE 的设计使850 个核心可独立运行,并直接访问本地内存,这样就有效提升了计算吞吐量。

在这方面,英伟达H100采用的是模块化和分布式方法。单个 H100 GPU 可为高性能计算提供 60 TFLOPS FP64 计算能力,八个互连的 H100 GPU 组成的系统,可实现超 1 ExaFLOP 的 FP8 AI 性能。

但分布式架构就存在数据传输问题,虽然NVLink 和 HBM3 内存能降低延迟,但在训练超大型模型时,GPU 间通信仍会影响训练速度。

在AI训练的表现中,Cerebras WSE-3会更加擅长处理超大型模型。2048个WSE-3系统组成的集群,训练Meta的700亿参数Llama 2 LLM仅需1天,相比Meta原有的AI训练集群,速度提升达30倍。

延迟与吞吐量

从数据传输来看,WSE-3 的单片架构避免了多芯片间的数据传输,显著降低延迟,支持大规模并行计算和核心间低延迟通信。速度快是单片的优势,与传统GPU 集群相比,WSE-3 可将软件复杂度降低高达 90%,同时将实时 GenAI 推理的延迟降低 10倍以上。

特斯拉Dojo Training Tile属于晶圆级集成,当然也能够大幅降低通信开销。由于是从Die到Die之间传递,在跨区块扩展时仍会产生一定延迟。目前,Dojo 能实现 100 纳秒的芯片间延迟,并且针对自动驾驶训练优化了吞吐量,可同时处理 100 万个每秒 36 帧的视频流。

英伟达H100基于 Hopper 架构,是目前最强大的AI训练GPU之一,配备18,432个CUDA 核心和640个张量核心,并通过NVLink和NVSwitch系统实现GPU间高速通信。高速通信。虽然多 GPU 架构具备良好扩展性,但数据传输会带来延迟问题,即便NVLink 4.0 提供每个GPU 900 GB/s的双向带宽,延迟仍高于晶圆级系统。

尽管能够凭借着架构特性实现单晶圆工作负载的低延迟和高吞吐量,但晶圆级系统如WSE-3 和 Dojo面临着可扩展性有限、制造成本高和通用工作负载灵活性不足的问题。

谁更划算?

从硬件购置成本来看,不同芯片的价格因架构和应用场景而异。

据报道,特斯拉单台Tesla Dojo 超级计算机的具体成本估计在3 亿至 5 亿美元之间。技术路线上,Dojo采用的是成熟晶圆工艺再加上先进封装(采用了台积电的Info_SoW技术集成),去实现晶圆级的计算能力,能够避免挑战工艺极限。这既能保证较高的良品率,又便于实现系统的规模化生产,芯粒的更新迭代也更为轻松。

Cerebras WSE 系统则因先进的制造工艺与复杂设计,面临较高的初期研发和生产成本。据报道,Cerebras WSE-2 的每个系统成本在 200 万至 300 万美元之间

相比之下,英伟达单GPU的采购成本比较低。以英伟达A100来说,40GB PCIe型号价格约 8,000 - 10,000美元,80GB SXM型号价格在18,000 - 20,000美元。这使得许多企业在搭建 AI 计算基础设施初期,更倾向于选择英伟达GPU。不过,英伟达GPU在长期使用中存在能耗高、多芯片协作性能瓶颈等问题,会导致运营成本不断增加。

总体来看,虽然WSE-2能为超大规模AI模型提供超高计算密度,但对于需要在大型数据中心和云服务中部署多GPU可扩展方案的机构,A100的成本优势更为明显。

结语

常规形态下,集群算力节点越多,则集群规模越大,花费在通信上的开销就越大,集群的效率就越低。

这就是为什么,英伟达NVL72 通过提升集群内的节点集成密度(即提高算力密度)。在一个机架中集成了远超常规机架的 GPU 数量,使得集群的尺寸规模得到控制,效率才能实现进一步提升。

这是英伟达权衡了良率和成本之后给出的解决方案。但是如果英伟达继续按照这种计算形态走下去,想要进一步提升算力密度,就会走到晶圆级芯片的路上。毕竟,晶圆级芯片的形态是目前为止算力节点集成密度最高的一种形态。

晶圆级芯片,潜力无限。

此内容为平台原创,著作权归平台所有。未经允许不得转载,如需转载请联系平台。

评论
暂无用户评论