过去十年,半导体行业始终朝着同一个方向发展:左移验证,也就是将更多验证工作前置到流片前阶段。这套逻辑十分直白:既然系统最终的运行逻辑由软件决定,那软件就应当成为核心验证载体。行业随之大举投入虚拟平台、硬件仿真系统与FPGA原型验证工具。工程师无需等待芯片流片,就能提前数月搭载操作系统、运行应用程序、完成全软件栈验证,这是行业一次重大技术进步。
新思科技等企业依靠ZeBu、HAPS、Virtualizer系列平台推动这一转型,实现了在首版芯片问世前,就完成软件启动调试与全系统验证。多年来这套验证方案成效显著,但支撑该方案成立的底层前提正在失效。
传统软件驱动式验证基于一个简单假设:运行足量真实业务负载,就能覆盖系统绝大多数运行场景,充分确认硬件功能正确性。但如今这条假设越来越站不住脚。
在移动终端领域,软件运行逻辑具备较强可预测性;应用虽持续迭代,但整体负载特征始终相对稳定,运行几组典型负载就能实现可观的验证覆盖度。
AI基础设施则完全是另一套局面:行业不存在单一、具备代表性的标准负载。每一种AI模型对芯片架构的压力测试方式都不同,每一套开发框架会生成独特数据流量,每一种部署方案都会让处理器、内存子系统、加速单元、缓存、互联总线产生全新交互。软件类型的扩张速度,已经超过人类可完成验证的速度,由此衍生出核心难题:如果不存在能代表全部场景的标准负载,仅依靠软件驱动验证,永远无法完整确认系统运行可靠性。
与此同时,芯片系统本身复杂度陡增。现代SoC不再是通过标准接口连接、相对独立的功能模块集合,而是高度集成的计算平台:CPU、GPU、NPU、多级内存、一致性互联总线、安全引擎、各类硬件加速器持续高频交互。
芯片架构迭代的同时,故障类型也同步改变。如今最难定位的故障,大多不再产生于单个IP模块内部,而是源于模块间交互:缓存一致性冲突、资源竞争、时序同步异常、仅在数十亿时钟周期后才会触发的资源抢占问题。
这类故障极难复现,往往需要多重极端条件同时满足才会暴露。真实业务软件或许能触发,也可能永远不会触发。随着芯片设计复杂度持续走高,这种不确定性已经无法被行业接受。
软件驱动验证仍是现阶段最重要的验证手段之一,但场景真实性和验证覆盖度是两个完全不同的概念,二者甚至时常相互冲突。
编译器的设计目标是生成正确、高效的代码;操作系统追求运行行为稳定可控;应用开发者会主动规避各类极端异常场景。以上软件技术的设计初衷,都不是为了刻意暴露硬件缺陷。因此大量会触发硬件漏洞的极限边界场景,在真实软件运行中根本不会出现。
颇具讽刺意味的是,验证场景越贴近真实软件运行逻辑,就越容易漏掉关键硬件故障。行业很少公开讨论这个问题,毕竟软件驱动验证确实创造了巨大价值,但现实十分明确:真实业务软件擅长验证预期内的正常行为,却很难暴露出意料之外的硬件缺陷。
正因如此,行业重新拾起验证工程师早已熟知的思路:有时必须主动给系统施加极限压力。工程师不再只依赖编译好的业务软件负载,而是越来越多地生成人工指令流,专门将硬件推向极限运行工况。这类测试并不模拟真实应用,核心目的是暴露硬件短板、极端资源抢占、罕见缓存一致性状态、特殊时序关系、复杂同步冲突——这些真实软件大概率永远不会触发,但硬件必须稳定承载的场景。
验证的核心目标不再是贴近真实业务,而是拉满场景覆盖度;现代芯片设计,二者缺一不可。当前最优验证策略不会二选一,而是将真实软件负载与人工加压测试结合使用。
找到极端故障场景只解决了一半问题,大规模、长时间运行测试才是真正瓶颈。大量关键故障,需要芯片运行海量时钟周期才会显现,系统可能遍历数十亿种运行状态后,异常条件才会触发。
软件仿真工具早已跟不上需求,性能差距持续拉大。这正是硬件辅助验证成为现代验证体系刚需的核心原因。
硬件仿真器与FPGA原型工具,既能支撑超大规模系统深度运行,又保留完整信号可视性,便于故障发生时定位根因。ZeBu、HAPS这类平台,已经从实用验证工具升级为先进SoC开发必备基础设施。如果缺少这类工具,当前绝大多数系统级验证难题,都无法在合理项目周期内解决。
硬件辅助测试生成技术的价值正在于此。传统硬件辅助平台主要用于高速运行软件,而全新技术框架大幅拓展了它的能力边界:不再只是加速应用程序运行,而是成为系统化遍历硬件场景的引擎。
自动生成的测试负载可精准针对架构薄弱点加压、大规模并行执行,覆盖传统软件验证无法触及的运行行为。验证思路从观测软件运行结果转变为主动搜寻硬件潜在漏洞。
二者存在本质区别:前者验证软件恰好产生的行为,后者探究硬件在各类极端条件下的全部可能性。随着芯片系统复杂度提升,两种验证视角都不可或缺。
本次行业转型中,最关键的变革或许不在于单项技术,而在于各类工具的打通融合。过去验证流程是割裂的:RTL阶段编写的测试用例,进入硬件仿真阶段就直接废弃;仿真环境与原型验证环境互不兼容;流片后验证需要从零搭建全新负载。验证知识断层、覆盖度碎片化、重复开发大量人力成本。
在新思科技的引领下,行业正全面转向连续验证体系。面向Arm架构的Threadmill、面向RISC-V的STING自动测试生成工具,搭配Imperas参考模型、ZeBu/HAPS硬件辅助平台,搭建起覆盖芯片完整研发周期的验证流程。

图1:硬件辅助测试解决方案将测试生成任务交给上位主机,持续向硬件内存推送全新测试用例,最大化硬件执行效率与验证覆盖能力(来源:新思科技)
在RTL早期阶段生成的测试负载,可无缝复用至硬件仿真、FPGA原型、最终流片验证全流程,验证设计思路完整延续,研发投入持续累积。团队不再将测试用例当作一次性产物,而是视作长期复用资产,彻底改变验证工作的成本结构。
各类计算架构百花齐放,进一步放大验证压力。行业不再统一采用单一计算架构:Arm持续渗透数据中心与AI场景,RISC-V落地速度大幅加快,各类专用硬件加速器遍地开花。
异构计算已经成为现代芯片的标配,验证方法学必须同步迭代。一套可适配多架构、统一执行加压与验证的方案,其重要性已经不亚于工具原始运行速度。如今工具的可扩展性,不仅指代运算速率,更包含跨架构适配能力。
芯片系统规模更大、模块互联更复杂后,定位故障已经不再是最大难点,解析故障根因才是。多数验证团队生成故障的速度,远超工程师高效调试的速度。行业瓶颈转移,故障调试效率成为制约整体验证周期的核心短板。
这也是人工合成测试负载的另一重价值:定向加压测试触发的故障,场景更简洁、复现性更强,相比埋藏在庞大软件栈深处的故障更容易定位。搭配参考模型、信号观测工具、Verdi调试平台,工程师能更快从故障表象追溯底层根源。在芯片复杂度爆炸的当下,可复现、易调试的测试场景,和验证覆盖度同等珍贵。
验证技术始终伴随半导体复杂度同步迭代,每一次芯片架构大变革,都会倒逼验证方法学革新,本次转型只是最新一例。
软件驱动验证重塑了整个行业,因为软件决定系统核心行为;但如今软件品类过于繁杂、运行逻辑动态多变、行为难以预判,已经无法单独支撑完整验证。运行真实业务负载依旧必要,但只靠软件已经远远不够。
下一代验证体系,会融合真实应用场景与系统化人工加压方案,依托硬件辅助平台,遍历真实软件永远无法触发的硬件工况。成本最高的故障,往往不是能稳定复现的那一类,而是你的测试负载从未覆盖过的隐藏缺陷。
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。
