多芯片组件测试，越来越复杂

来源：半导纵横发布时间：2026-01-31 13:03

芯片设计

技术文章

生成海报

整个流程中的任何失误都可能像滚雪球一样扩大，因此必须尽早发现并解决问题。

多芯片组件(Multi-die assemblies)正迫使工程团队在设计流程的更早阶段就规划出各种组件将如何运作和交互，并为它们的验证和测试制定详细计划。

尽管“左移(shift left)”和“右延(extend right)”的概念至少在过去几年里已经存在，但在前沿设计领域所需的细节水平以及需要考虑的数据量正在爆炸式增长。如今的设计必须包含基于不同工艺节点开发的芯粒(chiplets)互连、各种类型的存储器、基于特定工作负载梯度的热图、跟踪老化效应的监测器，以及对硬核和软核IP更详细的特性描述。

这些设计可能涉及多个芯粒以及某种类型的中介层(interposer)或先进基板，甚至还有一些正在开发中的全3D-IC。最先进芯片的开发成本可能高达1亿美元甚至更多，因此确保这些设备正常且可靠运行的赌注巨大。

“设计规模变得庞大，如果你正在做十亿门级的设计，在RTL阶段验证连接性变得至关重要，而不是等待在网表阶段验证，因为你根本无法加载那些设计，”Synopsys产品管理执行总监Kiran Vittal表示。“今天使用的一些技术，包括临时凑合的方法，甚至可能无法适用于这类设计。SoC的规模在门数、IP复用方面都在增长，并且有着越来越多的电源域和时钟域。”

整个流程中的任何失误都可能像滚雪球一样扩大，因此必须尽早发现并解决问题，尤其是在设计任何部分发生变更的情况下。设计端的任何变更都需要反映在日益复杂的可测性设计(DFT)计划的更新中。

新的DFT挑战

“功能性ECO（工程变更指令）的一个小改动可能会影响DFT，”Vittal说，“这意味着变更必须在RTL阶段进行验证，然后贯穿整个设计实现过程。与此同时，现在的每个设计都使用了复杂的DFT结构，如测试压缩(test compression)，以前这通常是在SoC级别添加的。但现在设计团队也在模块级别或子系统级别添加测试压缩。可能存在多层测试压缩，从模块连接到子系统再到SoC，DFT部分内部有大量新的连接。”

这还只是开始。“在RTL阶段存在功能性DFT问题，例如组合环路(combinational loops)，以及与时钟、复位和时钟门控的可控性相关的移位/捕获模式问题，”Cadence产品工程组总监Kanwarpal Singh解释道，“还可能存在额外的问题，如时钟/数据交叉、测试模式下存储器未被旁路，以及锁存器不透明等。”

DFT所需的细节水平需要反映这些多芯片组件复杂性的巨大增加。更具挑战性的是，测试仪可能无法访问所有引脚或信号路径，而且芯粒和存储器的高度和形状可能各不相同。最重要的是，许多先进封装是设计不可或缺的一部分，并且可能高度定制化。

“DFT的核心在于可控性和可观测性，为了确保设计是可测试的，设计人员需要确保测试时钟连接正确，复位信号能到达预期的触发器，时钟门控被启用/可控，且测试信号正确连接到存储器，”Singh说，“DFT逻辑连接中的任何问题都可能导致设计中的触发器变得不可扫描，从而损失测试覆盖率。RTL阶段是发现并修复这些问题的最佳时机。这将节省后期昂贵的迭代成本。”

其他人也表示赞同。ChipAgents首席执行官William Wang指出，当今大多数DFT故障都是集成故障，扫描、测试和复位信号在层级、电源域和复用IP之间的缺失或中断传播属于结构性连接问题，而非综合问题。“RTL是修复成本最低的最后阶段。在DFT插入和物理实现之后，连接性错误会导致ECO级联和进度延误。在RTL阶段捕捉它们具有最高的投资回报率(ROI)。”

然而，说起来容易做起来难。“测试控制信号，如scan_enable（扫描使能）、test_mode（测试模式）、测试时钟和复位，并未到达所有预期的端点，”Wang说，“此外还有低功耗感知(power-aware)的DFT错误，例如扫描路径穿过断电域，或者隔离和保持逻辑不是测试安全的(test-safe)。功能模式和测试模式之间存在时钟和复位不一致，还有因参数化和逻辑生成导致的包装器(wrapper)和顶层集成错误。”

计划是什么？

工程师可能要在多芯片设计中处理数百个不同的接口IP。“如今看到一百万个连接是非常常见的，”Vittal说，“最近，一位客户告诉我们，他们在SoC级别需要验证60亿个连接/节点。这就是存在的挑战，需要得到解决。采用左移方法在RTL阶段提前捕捉问题是应对这些挑战的最佳方式。”

这意味着芯片架构师必须确定测试将在哪里进行，测试什么，以及如何解释结果。

“诊断部分并不太难，”西门子EDA(Siemens EDA)产品管理高级总监John Ferguson指出，“我们已经有一些标准到位。在很大程度上，如果你通过了LVS（版图与原理图一致性检查）且设计得当，那么从输入引脚到输出引脚，你可以在那个三维系统内的任何地方进行诊断。但在如何进行物理测试方面存在一些挑战。你可以将一个独立的裸片或芯粒放在测试台上，如果是已知好芯粒(KGD)，你可以将其放入系统中，一切都会运行良好。问题在于，当你把它放入系统中时，它会变热，它在工作，它受到应力，它的表现将不再相同。现在的问题是它是否在我的规格范围内。这是一个全新的问题。我们需要弄清楚这一点。”

解决这个问题的方式各不相同。“有些公司会做已知好芯粒、已知好堆叠和已知好封装，他们会把这些组合起来，情况会稍微好一点，”Ferguson说，“但这仍然是个问题。即使你想拿整个3D-IC组件说，‘这整个东西是已知好的，我可以把它用到任何我要放的地方’，你依然有问题。它经历了制造过程，受热并产生了翘曲。现在我把它放在测试台上探测它，但它连接到正确的东西了吗？可能没有。所以现在你有了一个全新的问题。可能有一些正确的方法来做这件事。我们可以对翘曲进行建模，我们可以告诉你哪里可能需要更长的连接，哪里需要更短的。但这仍然需要解决。这是一个悬而未决的问题。”

更多的裸片意味着更多的潜在问题。“一个是性能测试，”Keysight EDA新市场和战略计划高级总监Chris Mueth说，“在芯粒上获取测试点很难，但遵循一些行业标准，测试设备公司会围绕这一点进行创新。如果你正在寻找一种单一测试解决方案，即拥有一个神奇的系统级测试，能够以某种方式运行芯片，让你知道你有了一个好的组件，那是说起来容易做起来难。内建自测试(BIST)对这类组件很重要，因为你无法探测所有东西。如果你关注的是裸片的结构完整性（这是主要瓶颈），你该如何测试？你可以用TDR（时域反射计）系统来测试，它允许你通过探测封装上的引脚来窥视封装内部。你可以像X光机一样探测并本质上透视内部，并通过TDR系统推断封装内部的缺陷。所以这是一种方法。当然，终极的左移是在前端进行严格的仿真，这样你在后端对封装完整性的担忧就会减少。”

鉴于这些持续存在的挑战和多芯片测试的复杂性，设计团队必须重新思考他们的验证和DFT策略。这正是先进验证方法发挥作用的地方，它弥合了物理测试和逻辑测试需求之间的鸿沟。

在验证领域，静态和动态验证在解决连接性挑战方面发挥着作用。“静态验证有助于在RTL阶段早期发现问题，节省后期昂贵的迭代，”Cadence的Singh说，“动态仿真也可以帮助检查RTL中DFT电路的正确性。”

不过，虽然静态检查能捕捉到大多数连接性错误，包括可达性、完整性、非法交叉和约束不匹配，但“只有在静态正确性得到保证后，动态仿真才有效，”ChipAgents的Wang说。这就是为什么ChipAgents专注于代理驱动(agent-driven)的静态连接性推理，然后建议进行最小化的动态测试。

制定计划

以一种适用于单一工作负载的方式将各部分组合在一起本身就是一个挑战。但例如为AI数据中心构建一个独特的设计则要困难得多。

尽管如此，还是有一些共同要素。Synopsys的Vittal指出了设计团队应对这些挑战需要采取的五个初步步骤，包括：

1. 将验证左移至RTL阶段，在综合或网表创建之前捕捉连接性和DFT问题，最大限度地减少下游问题和进度延误的风险。

2. 利用可扩展的静态验证工具，处理具有数十亿连接的超大规模复杂设计，超越传统仿真和形式验证工具的限制。

3. 使用与设计无关且可复用的验证结构（如宏和用户定义的约束），以便更轻松地适应不同的芯片，包括先进的多芯片和芯粒架构。

4. 优先考虑快速、全设计范围的结构检查和支持回归的流程，以跟上频繁的设计变更和ECO，确保每次更新后DFT和功能完整性得以维持。

5. 采用支持大规模调试和根本原因分析的工具功能，允许团队快速识别并解决连接性或值路径故障。

随后的其他步骤也需要跟进。“芯片架构师/设计师需要意识到，确保测试时钟/复位和其他DFT逻辑的正确连接有助于使设计做好扫描准备，并有助于实现测试覆盖率目标，”Cadence的Singh说，“这意味着他们需要在最开始就规划DFT，并在RTL阶段执行连接性检查，以节省设计周期后期昂贵的迭代成本。”

他们需要将其作为设计的一部分来处理，在送去制造之前完成。ChipAgents的Wang表示，设计团队应将DFT连接视为接口契约，而不是RTL之后的脚本问题，并在持续集成(CI)中连续运行连接性检查，而不是在流片前只做一次。“此外，在RTL阶段使用低功耗感知和层级感知的静态分析，并将DFT检查与功能连接性对齐，因为许多错误会同时影响两者。”