AI加速器,开启半导体测试新时代

来源:半导体产业纵横发布时间:2026-04-07 17:54
AI
芯片制造
生成海报
AI IC测试仍任重道远。

AI加速器的应用场景极为广泛,既用于大语言模型训练,也用于基于大模型的推理预测。它可在自动驾驶中实时处理传感器与摄像头数据,用于智能手机、相机、无人机等设备上的AI边缘应用,甚至能加速疫苗研发进程。但AI系统的测试是一场全新的挑战。测试内容涵盖高速接口、多处理器以及复杂的多层存储架构,还包括光接口相关测试。这类测试需要覆盖裸芯片、HBM、终测、系统级测试以及现场测试。这种多裸片、多接口的测试模式,要求可测性设计(DFT)与测试方法实现创新,包括引入流式扫描技术、增加更多在线应力测试与切割后模块测试,以覆盖所有潜在失效点。

随着封装尺寸不断增大,新型测试搬运设备与更大规格的JEDEC托盘将成为必需。测试工程师还需应对先进工艺节点下出现的新型失效问题,包括混合键合界面、硅通孔(TSV)、凸点界面以及硅中介层处的失效。测试是AI芯片发展过程中最为关键的一环,必须能够覆盖从晶圆探针测试到数据中心系统内运行的全流程失效检测。

IBM研究院AI硬件研究工程师 JohnDavid Lancaster 表示:“积极的一面是,AI加速器计算引擎可针对一组更聚焦、更可预测的负载进行测试,因为我们清楚其将要执行的运算类型。而挑战在于,这类引擎通常支持多种精度格式,会让精确比特级预期结果的设定变得复杂。此外,推理任务的启停会引发大幅瞬态功率波动,进而对加速器上的电源完整性电路造成应力;若未完成充分表征,可能导致设备在运行中失效。”

AI测试首先需要明确被测器件(DUT)的特性。爱德万测试P93k产品线业务开发经理 Daniel Simoncelli 表示:“在这类AI系统中,通常单个计算核心会在同一裸片上复制数十乃至数千个,因此与 CPU 这类异构设计相比,其架构更为同质化,测试范围也更明确。而运行大语言模型的AI芯片,其软件栈是定制化的,需要对芯片施加应力,验证其系数运算是否准确。与此同时,测试对象还包含数十亿个晶体管,因此复杂度主要来源于需要灌入这些器件的海量扫描数据。”

热管理与电源管理问题在系统级测试中至关重要。安靠科技高级总监兼制造测试专家Vineet Pancholi 表示:“AI加速器的电流密度极高,平台内每个封装功耗可达 300 瓦至 2000 瓦。在封装设计中,小芯片的精准布局以实现隔热是关键架构决策。测试过程中,每个裸片关键区域的热点不仅会影响自身性能,还会波及相邻裸片。内核门控测试向量可在晶圆分拣、终测与系统级测试中实现热管理,同时通过导热界面材料(TIM)以及定制风冷、液冷测试头保障量产测试顺利进行。”

什么是AI加速器?

AI加速器并非单一器件,而是由集成数千个核心的小芯片、HBM与SRAM共同组成的系统,可为算法提供大规模并行处理能力。这与拥有2至8个核心、按顺序处理请求且负载类型截然不同的CPU形成明显区别。CPU可面向通用场景,而AI加速器通常为特定任务设计。例如NPU专注于深度学习,TPU则擅长并行矩阵乘法与张量运算,这些正是神经网络的核心数学运算。基于GPU的模块是最早出现的AI加速器(至今仍用于游戏与图形处理),因其可在实现低延迟操作的同时完成并行计算。但与GPU不同,AI加速器更优先保障内存的高带宽读写,从而实现更快运算与更低功耗。

图 1:在2.5D与3D封装架构中,裸片间接口的验证与测试至关重要。来源:泰瑞达

数据中心模块主要分为两类。泰瑞达半导体测试事业部产品营销高级总监 Jeorge Hurtarte 解释道:“AI模块是一种异构集成先进封装,包含一颗或多颗GPU、一组HBM堆叠、高速串行接口,以及集成在中介层上的共封装光学器件。第二类则是在中介层上集成交换机、高速接口与共封装光学(CPO)的模块。AI数据中心模块并非单一 xPU,后者最大尺寸仅 26mm×33mm,而当前这类模块已达 100mm×100mm,很快将扩展至 150mm×150mm,因此必须以系统视角开展测试。”

裸片间接口测试中,信号完整性保障是一大重点。西门子 EDA 3D-IC 可测性设计与良率技术赋能经理 Quoc Phan 表示:“2.5D 与 3D 封装在小芯片高速接口处带来显著的信号完整性与噪声隔离问题。传统故障模型已不足以检测这类复杂裸片间连接或先进封装内部产生的缺陷,因此必须开发专用互联测试与监测方案。这些裸片间连接还直接影响可测性设计测试向量的传输,亟需创新的 DFT 方法,通过 UCIe 等高速接口高效实现裸片间测试数据的生成与传输。”

尽管存在上述差异,芯片测试的核心目标并未改变。新思科技首席产品经理 Sri Ganta 表示:“测试的首要目标仍是以最低成本实现最高测试质量。但针对先进工艺节点、热应力与电源应力、多裸片系统以及现场 / 系统内运行场景,新增了更多测试需求。”

对于AI模块而言,片上监测单元的重要性日益凸显。proteanTecs 首席执行官 ShAICohen 表示:“端到端优化已成为必然需求。如今已无法先打造极致芯片,再构建极致系统,最后搭建极致机柜并以此组建数据中心,因为这样会浪费大量性能与功耗。当前核心目标是确保针对每一种负载,甚至每几个时钟周期都完成优化,实现整体功耗最低、性能最高。”

多裸片测试新时代也推动了企业间的深度协作。PDF Solutions 首席执行官 John Kibarian 表示:“量产复杂度极高,需要协调来自多家供应商的基板、基底裸片、第三方组件、各类封装技术、封测厂配置与测试系统。尽管半导体行业曾携手攻克过重大工程难题,但规模化小芯片量产需要更深层次的协作,尤其是系统厂商越来越多地集成来自不同供应商的组件。这种协同需贯穿初始导入与持续量产全过程,并具备快速适配不同产品型号的灵活性。”

这一新趋势也进一步凸显了可测性设计创新的重要性。Phan表示:“AI芯片测试已成为当前半导体工程领域的前沿挑战,AI模块极高的架构复杂度与大规模并行特性带来了巨大考验。”

扫描测试迈入流式时代

扫描测试(又称结构测试)已实现显著提速以适配新需求,主要用于检测数百万个焊料凸点连接中的开路、短路等制造缺陷。

AI系统并行架构的一个弊端是电路失效后难以定位。爱德万测试的 Simoncelli 表示:“若部分器件在良率提升阶段出现失效,诊断会更为复杂。当测试出现失效比特或失效向量时,无法确定芯片内数千个核心中究竟是哪一个出现问题。因此测试设备端工具需要识别扫描网络,以实现失效测试序列的定位映射。为加速这一过程,我们正引入 PCIe 等高速接口。优势在于,不同测试环节间的测试内容传输变得更为简便,因为晶圆分拣、终测与系统级测试已实现统一标准。”

便捷程度取决于具体测试对象。西门子EDA Phan 表示:“大规模存储使用需求与庞大架构规模,给量产测试中的可控性与可观测性带来困难。从DFT角度来看,测试向量的生成、传输与执行变得极为复杂,覆盖如此庞大架构所需的向量体量巨大,进而导致测试时间延长。此外,众多核心与存储接口的并发运行,使得测试过程中的 DFT 电源管理成为关键问题,功耗可能出现大幅飙升。”

HBM测试的技术演进

Phan 表示:“由于搭载数千个计算核心与多层存储架构,AI系统同时依赖片上 SRAM 与片外 DRAM,数据传输速率可达每秒 TB 级。大规模存储使用需求与庞大架构规模,给量产测试中的可控性与可观测性带来困难。从 DFT 角度来看,测试向量的生成、传输与执行变得极为复杂,覆盖如此庞大架构所需的向量体量巨大,进而导致测试时间延长。此外,众多核心与存储接口的并发运行,使得测试过程中的 DFT 电源管理成为关键问题,功耗可能出现大幅飙升。”

HBM由多层DRAM裸片堆叠而成,当前主流规格最高可达 12 层,裸片间通过基底逻辑裸片通信 —— 该基底裸片近期已取代传统DRAM基底裸片。Simoncelli 表示:“基底裸片负责对上方堆叠的存储芯片完成全部检测。而在芯片切割后通常还需进行一轮测试,因为这类封装极为脆弱且成本高昂。HBM 成本可占整个封装成本的 50% 以上,因此尽早检测垂直结构中的微小变化、捕捉潜在失效至关重要。为此,客户正考虑新增测试环节,有人称之为部分装配测试,也有人称之为切割后裸片测试,这类测试有望在未来一两年内落地。”

片上监测单元可布置在裸片边缘,用于检测切割后的缺陷。proteanTecs Cohen 表示:“若要实现高精度工艺检测,部分监测单元需要布置在边缘。这正是多裸片与普通裸片的区别所在。多裸片架构中,裸片边缘状态的可视性更为重要,以便掌握裸片间的运行状况。”

随着海力士、美光、三星等HBM厂商从 HBM3、HBM3E 向 HBM4 迭代,核心目标是在不超过单张硅片厚度(775 微米,含基底裸片)的有限堆叠高度内集成更多DRAM裸片,从而提升存储容量。HBM4 的标准厚度较 HBM3/3E 的 720 微米限制有所放宽。

HBM4厂商预计仍将采用微凸点连接16层DRAM裸片,后续再引入混合键合技术,下一代产品则有望集成 20 层DRAM裸片与 1 层基底裸片。实现高带宽所需的大量信号通道,意味着每一代HBM都将采用数量更多、密度更高的硅通孔(TSV),微凸点间距与尺寸将进一步缩小至 20 至 30 微米。

新思科技首席产品经理 Faisal Goriawalla 表示:“为实现低延迟高带宽,HBM 存储采用极宽接口(1K 位、2K 位,正向 4K 位演进)。为提升容量,HBM标准将堆叠层数从12层、16层提升至20层。这提升了互联密度与存储堆叠中的 TSV 数量,随着微凸点总量大幅增加,外部凸点间距也随之缩小。对DRAM厂商而言,这带来了热管理、电源分配网络、布线、可靠性与 TSV 容量等多方面挑战。”

但HBM良率责任该由谁承担?Goriawalla 表示:“DRAM厂商会向ASIC厂商或原始设备制造商交付已知合格裸片存储,但封装装配后问题如何界定?例如,系统厂商如何在终测中检测互联线上的固定故障?鉴于HBM与 xPU 间凸点间距极小、高带宽互联信号数量庞大,系统集成商很难通过自动测试设备(ATE)对封装后的DRAM完成全面测试。”

他还强调了测试时间与测试覆盖率之间的平衡。“即便一颗 8G DRAM芯片,在 ATE 上完成全面测试也需要数秒时间。因此为用户提供测试时间与覆盖率的调节能力至关重要,仅在必要时开展详细物理失效分析(PFA)。”

不过HBM测试并未止于系统级测试,数据中心还需开展系统内测试以排查老化相关失效。Goriawalla 解释道:“在设备维护或计划停机期间,用户可执行特定的行锤测试,检测DRAM中的边缘性能问题或潜在灵敏度缺陷,以预防灾难性失效。更具挑战性的是,定制HBM等新兴方案中,HBM 基底裸片现已采用逻辑工艺制造(而非DRAM厂商的存储工艺)。这为 SoC 设计师提供了更高的设计划分灵活性,但也增加了已知合格堆叠与已知合格封装的测试复杂度。”

图 2:定制HBM中,由于DRAM基底裸片采用逻辑工艺制造,测试难度进一步提升。来源:新思科技

基于上述诸多原因,测试方法与接入性、测试时间、不同场景测试需求、定制HBM的出现,HBM测试已成为重大挑战与瓶颈,也是 2.5D IC 设计中必须重点考量的环节。

测试可及性

大约15年前,头部器件厂商、测试企业与封测厂已意识到,多裸片封装中部分裸片测试可及性不足将成为重大问题,这也推动了 IEEE 1838 标准的制定。该标准旨在实现堆叠裸片与测试设备的通信,并通过全新 DFT 架构实现堆叠内非接触裸片间的互联通信。

尽管AI子系统测试存在诸多特殊性,行业仍可沿用现有测试方法。安靠测试业务开发高级总监 Scott Carroll 表示:“AI封装测试与单片xPU测试存在差异,主要原因是封装内裸片间互联的测试可及性不足。但所有xPU逻辑测试方案,包括符合 IEEE 1838 标准、通过 EDA 流程开发的自动测试向量生成(ATPG)、扫描测试、结构化功能测试等,均适用于AI模块。”

小芯片级逻辑实现标准从多方面提供了助力。Carroll 表示:“从 DFT 角度来看,UCIe 通过冗余修复、位宽降级与通道反转等物理层核心特性简化了量产测试,可选特性还可支持收发端差分眼图宽度与高度验证。为满足加速器与内存间的低延迟需求,AI负载对 I/O 数据速率要求持续提升(32Gbps 至 64Gbps),近端与远端环回 DFT 技术协同使用以保障充分测试覆盖率。”Carroll 指出,行业正持续协作优化 DFT 方案,IEEE P3405 工作组便是其中之一,该小组有望提出裸片间互联测试生成与检测模块及其他测试方法。

另一项挑战是验证处理器(xPU)与HBM间的连接。当前二者通过微凸点与硅中介层相连。爱德万测试的 Simoncelli 表示:“在电气层面保障这类连接可靠性存在重大挑战。尽管可对凸点进行光学检测,但这并非电气测试,因此需在处理器与封装完成连接后开展电气测试。”

引脚可及性是另一项难题。泰瑞达的 Hurtarte 表示:“先进封装无法接触全部引脚,因此需要通过 DFT 接口以系统视角完成测试。例如,西门子的流式扫描网络(SSN)可辅助自动测试设备提速扫描测试,因此必须配备合适的接口以实现系统级测试。”

图 3:芯片厂商正探索新增测试环节,尤其在切割/单颗化工序之后。来源:泰瑞达

Hurtarte 补充道:“另一重要接口是光接口,因为降低功耗的关键路径之一是从铜互联转向硅光子技术。我们近期推出了面向光学测试的量产自动测试系统,取代了传统机架式实验室设备。”

Lancaster介绍了 IBM 的系统级测试(SLT)方案。“在量产阶段,我们以尽可能严苛的条件对板级形态的芯片施加应力,包括在特定电压与温度偏置下运行AI负载,目标是压缩测试中的失效运行裕度,从而确保芯片与板卡在实际部署中的稳定性。”

这类测试需要多层级方案协同。Lancaster 表示:“在这些阶段,我们启用全套诊断模式,包括校验所有比特级精确结果,从硬件层面验证最高负载的AI模型。由于企业级客户对现场失效率要求极低,我们的测试流程包含全面硬件验证,从模块级测试到完整系统级集成与应力测试。这种多层级方案保障了芯片及其集成平台的可靠性。”

一项行业通用原则是,测试设备应能施加两倍于器件实际运行所需的电压应力。Lancaster 表示:“为全面检测芯片上的所有组件,我们配备了针对芯片特定模块与接口的硬件验证测试套件。这些测试在不同频率、电压与温度下运行,并启用完整诊断检测。此外,这些测试通过专用硬件测试设备调度执行,这类设备可提供比常规客户负载更深的可视性与更高的应力水平,确保在比终端用户实际使用更严苛的条件下提前发现问题。”

结语

AI加速器的发展刚刚起步,但测试领域已积累大量经验。安靠 Pancholi 表示:“AI IC测试仍任重道远。但随着首批产品完成封装与测试,我们将收集更多数据与见解,复盘优化空间与核心经验,并以此完善未来AI产品的测试方案。”

本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。

评论
暂无用户评论