业界首个3D半导体路线图,来了!(1)

来源:半导体产业纵横发布时间:2025-10-28 18:41
作者:SRC
技术文章
先进封装
生成海报
MAPT路线图 2.0为半导体行业阐明了清晰而紧迫的路线方向。

最近,半导体研究公司(SRC) 发布微电子和先进封装技术 (MAPT) 路线图 2.0,这是业界首个 3D 半导体路线图的全面更新。

MAPT路线图2.0版提出了更新的战略框架,旨在引导半导体行业应对日益严峻的挑战和机遇。该版本是2030年半导体十年计划和MAPT 1.0路线图的延续,强调了半导体设计、制造和集成领域新范式的紧迫性。它体现了在确保长期竞争力和安全的同时,推进信息和通信技术(ICT)发展的共同努力。

路线图基于对五大结构性挑战或“重大转变”的认识,定义了信息通信技术 (ICT) 和微电子与先进封装技术 (MAPT) 的未来:

  • 模拟数据洪流——模拟输入的快速增长需要高效的处理。

  • 内存和存储需求——容量需求呈指数级增长。

  • 通信容量与数据生成——数据生成与传输能力之间的差距越来越大。

  • ICT 安全挑战——基础设施和系统的漏洞。

  • 计算能源与全球能源生产——不断增长的电力需求威胁着我们的抱负和技术的可扩展性。

这些转变最初在十年计划中提出,至今仍是MAPT 2.0 的基础。它们反映了长期存在的半导体缩放曲线的临界点,而这种临界点是由物理和实际限制共同驱动的。事实上,大型多模态模型 (LMM) 和人工智能技术的最新进展极大地加速了这些挑战,凸显了系统级工程思维模式和加大投资的必要性。

图片

径向图形代表MAPT 2.0 路线图的十二个章节,展示了基础生态系统;芯片、小芯片和 SiP 的关键技术;创新需求和驱动因素;以及关键推动因素,即半导体劳动力

总而言之,MAPT 路线图 2.0 版为半导体行业阐明了清晰而紧迫的路线方向。它认识到传统扩展轨迹的终结,并提出了能源效率、3D 异构集成和系统级创新的战略。

该路线图共包含十二章,覆盖从基础技术到产业生态的全链条内容。其中,半导体产业纵横特别筛选了与当前技术热点高度相关的六章重点分享给读者,包括数字处理、模拟和混合信号半导体、光子学与微机电系统、先进封装与异构集成、材料、基材和供应链。本次内容为数字处理、模拟和混合信号半导体部分。

01 数字处理

本路线图探讨了数字处理的现有和新兴驱动因素以及处理范式所需的创新。这些要求决定了处理、内存和支持芯片组、互连以及整体系统架构所需的技术和架构。反过来,芯片组和互连架构又推动了所需的设备和互连解决方案,以及必要材料和加工/制造技术的开发。该路线图还明确了数字处理系统级集成所需的辅助要求和解决方案,以及与整体安全性、功率转换/输送、系统可靠性和运行时管理需求相关的系统级考虑因素,这些因素将在其他章节中讨论。图 4.1 描绘了本章的总体主题。表 4.1 总结了未来 10 年的技术预测。

图片

图4.1:本章的总体主题

主要障碍和挑战

MAPT 路线图的数字处理章节确定了实现异构集成数字处理系统的几个障碍/挑战,包括需要:

第一,随着数据量和速率呈指数级增长,解决数据移动在性能(延迟和带宽)方面的成本问题,以及传输每比特所消耗的端到端能量。

第二,限制整体系统规模的能耗,并需要大幅提高整个处理系统的能源效率,以应对数据洪流和对此类数据的必要处理。

第三,解决正在使用的架构和系统级封装(SiP) 固有的扩展限制,包括由总功率、配电、中介层和互连所施加的限制。

第四,满足异构集成数字处理系统日益增长的安全性和可靠性需求,包括监控和解释所有所需信息以确保安全可靠的运行。

第五,解决并改善端到端的可持续性,包括预设计、设计、制造、使用和最终处置/回收。

提供高级设计工具,允许将功能分解为多芯片架构,同时跨多个参数进行优化;需要探索的大型设计空间带来了挑战,需要基于机器学习(ML) 的解决方案。

第4.1 节讨论了应用需求如何驱动处理范式,而第 4.2 节则讨论了由此产生的系统级架构影响、相关挑战、实现和技术需求。从第 4.2 节开始,我们将广泛讨论大型语言模型 (LLM) 的处理需求所带来的微电子和系统级挑战,因为这些挑战将在加速高端产品系列的微电子、架构和系统级解决方案的开发中发挥关键作用。第 4.3 节将系统级架构需求转化为设备、互连和材料挑战以及有前景的解决方案。第 4.4 节以制造中的图案化和原子级处理的创新结束本章。下页的表格显示了处理范式、系统级架构和数字处理设备/材料的路线图。

4.1应用程序、处理范例和软硬件协同设计

本节将介绍推动市场发展的最苛刻、最突出的应用及其需求。一些应用需求也暴露出当前处理架构的不足,因此我们将讨论不同处理范式的演进。最后,软硬件协同设计强调了在系统设计的不同层面上协调一致以满足功耗和性能需求的必要性。

图片

4.1.1 应用

各种各样的应用将推动半导体发展路线图的发展,这些应用对性能、能效、安全性、可靠性、可扩展性、存储和互连提出了各种不同的要求。例如,高性能计算(HPC) 和人工智能 (AI) 强调大规模计算和存储,而物联网 (IoT) 应用则侧重于能源、计算和存储等资源受限的操作。数字系统的多样化需求也需要并利用标准和定制处理架构,包括数模混合处理。

本章重点介绍数字技术,旨在满足这些应用从系统架构到设备的一些核心需求,包括处理范式、软硬件协同设计、节能高性能计算和内存架构以及设备和工艺技术。其他一些应用需求,例如可靠性、封装和安全性,将在其他章节中介绍。

4.1.2 处理范式

当基于CPU 的处理平台无法满足特定应用的计算、能源、存储效率要求时,典型的响应是从标准计算转向定制计算解决方案(作为定制处理器或硬件加速器)。

为了提高这些应用的计算能效和性能,我们需要探索超越当前流行的以计算为中心的范式的替代计算范式。

以下计算范式预计将得到发展,并影响特定类型的应用。

以计算为中心:当前大多数计算架构都以计算单元、内存层次结构和互连为核心,旨在支持计算结构。应用处理的效率是通过利用计算的指令(CPU、DSP、ASIP)、指令级并行(标量、超标量、VLIW)和任务级并行(多核、异构架构)等特性来实现的。

数据驱动架构:许多应用涉及海量数据处理,其焦点正从计算转向内存,这从内存和互连上耗费的大量能源中可见一斑。新的存储设备和架构正在不断发展,以提高这些应用的整体性能和能耗效率。

以内存为中心:随着数据密集型应用程序的计算与内存的相对成本(性能和功率)继续倾向于内存(称为内存墙),将计算资源放置在更靠近数据的架构中(如内存计算和近内存计算)的趋势日益明显。

随机计算:主流计算范式以高精度(8、32、64 位)的数字形式处理和存储信息。处理数值数据会产生性能和能耗方面的算术计算成本。对于许多对数值精度要求不严格的应用,将信息存储为概率数据的随机计算(以及相关的简化计算)可以显著提升能效。

认知计算:与随机计算类似,信息也可以用大型随机向量代替数值数据来存储和处理。超维计算正是利用了这一点,它为人工智能系统在网络架构、学习能效以及推理和噪声/误差容忍度方面提供了诸多优势。使用大型随机向量的符号数据表示也支持多层认知计算。

神经形态计算:这是一种受大脑启发的计算范式,包括集成记忆和神经元及突触的计算架构。它还通过事件驱动/异步计算和通信(例如脉冲神经网络 (SNN))来提高能效。目前已有一些用于脉冲神经网络的硬件架构,通常采用模数混合处理。

量子退火和量子计算:传统计算将信息存储为比特并通过算术进行计算,而量子计算将信息存储在多维状态(量子比特)中,量子处理利用量子比特的叠加和干扰,为大型复杂问题提供指数级增长的计算能力。

4.1.3 数字处理系统的软硬件协同设计

硬件-软件协同设计非常重要,并被广泛应用于各种应用程序和计算平台,但我们主要以高性能计算 (HPC) 为例,因为它对协同设计技术具有广泛的吸引力和需求。

几十年来,高性能计算(HPC) 已逐渐摆脱定制设计的 Cray Vector HPC 系统,转而采用基于大规模并行处理 (MPP) 架构的商用现货 (COTS) 计算平台。这些 MPP 计算平台进一步增强了 GPU 的功能,用于科学计算和机器学习计算的大规模浮点运算。这需要对这些 CPU-GPU 混合计算平台进行协同设计,以实现高性能计算从 PetaFlop 到 ExaFlop 的可持续计算需求。

使用这些异构计算平台以及芯片集和三维异构集成技术,满足实际应用工作负载所需的能效和性能,将进一步推动从系统软件堆栈到硬件平台的整体和更深入的协作。持续的能效和性能需求呼唤深度协同设计,即对算法、软件堆栈和系统架构进行整体设计。粗粒度可重构架构(CGRA) 以及在分解架构中动态组合离散组件的能力将进一步拓展协同设计的可能性。

这些用于高性能计算(HPC) 的异构系统的功耗和性能效率将取决于能否通过 3D 集成和芯片集集成标准(例如通用芯片集互连标准 (UCIe))定制处理器、内存、互连和加速器。这反过来又需要 EDA 工具进行协同设计、性能分析、设计空间探索、仿真和实现。在软件方面,编译器技术、运行时和操作系统需要持续改进,以支持软硬件深度协同设计框架。

深度协同设计技术的研究和开发对于国家战略计算工作负载的功率性能持续改进至关重要,这一点在2023 年 4 月的国家学术报告中也有所概述。

4.2系统级架构

图片

图4.2:芯片级功率趋势

正如SRC 十年报告所指出的,数据量和数据移动成本占主导地位。在芯片规模上,如图4.2 所示,在先进节点上,互连所消耗的芯片总能量占比已大幅增长。系统级封装必须解决所有规模的数据移动成本,包括绝对功率和数据传输过程中每比特的能耗。处理大型语言模型 (LLM) 的数据传输需求进一步加剧了对高效、海量数据传输的需求。

本章讨论的系统规模架构技术在降低数据移动成本方面有望取得进展,总结如下:

  • 处理近记忆。

  • 内存处理,包括开发具有嵌入式逻辑的合适内存设备。

  • 在互连接口处、互连内进行处理(例如,在片上路由器内移动数据时)

  • 3D 芯片堆叠架构大大减少了芯片间互连的范围。

  • 避免系统规模数据移动的架构解决方案,例如在广播中。

  • 由于时钟信号是全球分布的,因此需要解决相关的互连功率(使用H 树或类似的互连拓扑)。

  • 在互连本身的层面上,下面列举的几种解决方案具有降低互连能耗的潜力:使用许多芯片集成技术(例如CoWoS)中提供的重分布层 (RDL)。

  • 在2D 和 3D 配置中使用时钟转发链路进行短距离传输,从而避免使用占用大量面积和能源的 PLL 和 DLL 进行时钟/数据恢复。

  • 使用超越当前最先进水平的PAM 4 的高级符号编码。

  • 使用能量管理链路,支持DVFS等技术的模拟。

  • 将光子技术应用于封装级IO。从长远来看,这也可能成为中介层级连接的解决方案,但非IO部署仍需要重大进展。

  • 内存到内存的网络技术。为分散式系统提供更紧密的封装外通信耦合。

当然,为了简化芯片集集成,充分发挥集成式互联(HI) 的潜力,互连标准的演进势在必行。相关标准正在不断发展(BoW [13] 和其他 ODSA 工作、UCIe等)。其他标准可能会在主流标准的基础上发展或构建,包括配电、可靠性监控、安全监控和测试标准。

SRC十年计划显示,如果芯片/系统设计的当前趋势按照预计的部署速度持续下去,系统功率的总体趋势将超过全球发电总量。提高能源效率的这一重大挑战必须通过多种解决方案来应对。如下所列:

  • 存储技术的创新,包括非易失性存储设备、模拟存储设备等。

  • 使通用多核架构更加节能。

  • 使用更节能的专用功能加速器替换或增强通用处理解决方案。

  • AI/ML 的首选处理引擎从 GPU 和 GPU 等传统数字 ML 加速器转向能效更高的替代方案,特别是用于 MAC 操作的脉动阵列和模拟 AI/ML 加速器。

  • 神经形态计算将提供极高的单位能量性能,比传统基于晶体管的解决方案的性能高出几个数量级。

  • 通过系统架构创新降低数据移动成本。

机器学习(ML) 应用(通常称为 AI 应用)的广泛普及,得益于先进的推理模型和日益强大的 AI/ML 硬件加速器,也带来了能源需求不断增长以及随之而来的热管理挑战的危机。从大型语言模型 (LLM) 服务器云的公开部署开始,LLM 服务的能源需求在过去几年中大幅增长。处理大型语言模型的总体挑战很可能推动大量微电子和系统级创新,我们首先探讨这些挑战以及一些潜在的解决方案。

4.2.1 处理大型语言模型:挑战和潜在解决方案

目前云端部署的大多数LLM 实现都基于神经网络 (NN)。LLM 的组成 NN 层数和每层节点数各不相同,有些 NN 以复杂函数(如 Softmax 或 ReLU)层结尾。推理依赖于前馈 NN,这得益于注意力机制(也基于 NN)的使用,以满足吞吐量和延迟需求。注意力机制使 LLM 能够专注于输入查询中对输入处理相对重要的部分。因此,LLM 处理在训练 LLM 和使用训练好的模型进行推理时,很大程度上依赖于矩阵乘法的高效实现。合适的内存层次结构对于 LLM 处理也至关重要,因为训练和推理期间处理的数据集规模巨大,预计未来几年模型参数数量将从数千亿增长到超过一万亿。考虑到 LLM 处理的操作和数据复杂性,到2030 年,LLM 云安装的能源消耗将根据不同的估计从每年 200 TWh 上升到 550 TWh 以上,这并不奇怪。这一需求将耗尽大多数设施的现有和规划需求。预计共置发电设施(包括小型模块化反应堆(SMR))将满足这一新增能源需求。共置发电设施还可以避免人工智能/机器学习工作负载对现有电网造成潜在的不稳定影响,但这会对环境产生影响。目前和预计的LLM 工作负载处理能力的大幅增长,也对微电子系统设计人员构成了跨时代的挑战,并将推动高端设备、互连、集成和系统层面的微电子和系统创新。

LLM 处理对模型训练和推理过程中的计算需求、内存系统和能耗提出了极高的要求。即使硬件能效大幅提升,服务于 AI/ML 应用(特别是 LLM 工作负载)的数据中心的预计能耗需求仍在持续增长。我们迫切需要解决方案,在不降低 LLM 工作负载需求的情况下,抑制 AI/ML 系统巨大的能耗需求。以下是解决 LLM 处理能耗和数据传输需求的具体解决方案及其相关挑战:

替代加速器硬件: GPU 继续主导 AI 加速器领域,这主要得益于其早期的市场占有率、丰富的编程专业知识和软件环境。与现有GPU 相比,脉动阵列提供了一种更高效的方式来处理 AI/ML 处理中普遍存在的矩阵乘法运算。越来越多基于脉动阵列的设计应运而生。事实上,领先的GPU 供应商已将基于脉动阵列的引擎纳入其云 GPU 产品中!目前正在探索替代的 LLM 加速架构,但产品要么正在开发中,要么处于非常初级的阶段。其他替代方案包括模拟处理组件(第 4.2.5 节)和神经形态计算(第 4.2.7 节),尽管它们最适合边缘计算和特定类别的 AI/ML 应用。为了应对可能持续数天甚至数月的模型训练需求,晶圆级引擎为实现大型、紧密耦合的加速器-内存集成提供了一种颇具吸引力的替代方案。晶圆级引擎面临的挑战主要集中在配电、冷却和总体成本上。因此,需要继续开发能够降低LLM功耗的架构。LLM处理系统的算法软件200和系统架构协同设计是一项基本需求。一个普遍趋势是,代表着朝着这一方向迈出的第一步,即使用基于芯片集的SiP设计,该设计集成了加速器、存储和IO芯片集。在AI/ML加速器芯片集下方以3D配置共置SRAM芯片集,也代表着一种提升性能和能效的方法。目前,更广泛的以内存为中心的架构既不具备处理LLM 工作负载所需的内存容量,也不具备处理能力,因此需要创新。低精度表示(例如 4 位和 8 位浮点格式)无疑有助于缓解内存瓶颈。逻辑压缩(利用对新微尺度标准的硬件支持)和/或硬件实现的物理数据压缩也有助于减少内存瓶颈并改善数据传输的能耗。

模型优化和替代模型: 通过使用替代LLM 模型和模型优化进行软件级创新,有望显著降低功耗并可能减少对数据传输的需求,尤其是在推理过程中。如上所述,LLM 处理的大量子集可以通过使用较低精度的数据和权重表示来保持几乎相同的解决方案质量。同样,LLM 模型剪枝(即移除用于推理的前馈神经网络的边、节点甚至层级)可以降低处理需求和功耗,而不会对解决方案质量产生显著影响。其他模型公式可以极大地避免对庞大、复杂且过于通用的模型的需求。例如,使用混合专家框架、使用带有专家定义奖励函数的强化学习、从较大模型到较小模型集合的知识提炼,以及采用逐步使用较简单推理进行更复杂推理的框架。在许多情况下,可以将特定于上下文的知识从数据库中注入模型,以简化处理需求,并在许多情况下降低能耗。这种技术的通用类别称为检索增强生成 (RAG),并且 RAG 有多种变体,具体取决于注入的内容以及在推理过程中的位置。最后,或许在能源效率方面最重要的提升是采用软硬件协同设计方法来实现LLM处理系统。此类协同设计工具和环境的研究与开发至关重要。

内存系统:LLM 的处理会产生大量的内存流量。例如,在推理模式下,解码步骤会产生大量的内存流量,用于访问先前生成的令牌的键值 (KV) 对。键值对应尽可能靠近处理单元(加速器)存储,以提高吞吐量和延迟,并减少访问任何封装外部内存时可能产生的额外功耗。与加速器相关的 SRAM 内存缓冲区或缓存容量不足以满足超大型 LLM 的这种需求。3D集成,将加速器芯片堆叠在 SRAM 芯片上或堆叠在 SRAM 和逻辑芯片之上,提供了一种增加快速本地内存容量的方法,用于更大的键值存储。缩短连接长度(和延迟)并降低互连功耗。除了这种本地 SRAM 之外,将高带宽内存 (HBM) 与加速器集成,为所有当前 AI/ML 系统中的这一问题提供了解决方案。此外,HBM 支持 LLM 处理的流式访问模式。LLM 模型规模的增长需要 HBM 容量的扩展,但这也带来了相关挑战 (第 4.2.2 节)。目前存在高功率、高成本HBM 的替代方案(例如 GDDR DRAM、LP-DRAM 等),并且正在被纳入一些新兴的 AI/ML 系统,这些方案可能成为 LLM 处理系统中 HBM 的替代方案。 除了加速器包之外,内存层次结构仍然相当传统,尽管可以使用CXL 连接的 DRAM 内存系统和其他高容量、低延迟内存系统。从能效角度来看,采用现有的虚拟内存技术可能并非最佳解决方案。当前的解决方案依赖于程序员控制的内存分配和数据移动,充其量也只是半自动化的,效率低下或受限于特定用例。我们需要开发用于在内存层级结构内无缝自动移动数据的控制策略,这些策略需要专门针对大规模AI/ML应用进行调整,并且具有通用性。目前已经出现了用于映射和调度LLM工作负载的工具,但这方面仍需继续改进。

通信基础设施: LLM 在训练和推理过程中的数据移动在包内部互连以及平台级别及其他方面消耗了大量能量。在封装层面,处理和存储芯片组的 3D 集成似乎是降低传输能耗和提升数据带宽的可行解决方案。尽管这些解决方案颇具吸引力,但热管理问题(以及通常与 3D 集成相关的其他挑战)限制了这些解决方案的使用,使其只能使用容量有限的 SRAM 存储芯片组(例如,用于权重和激活值的临时存储)。此解决方案属于近内存计算类别(第 4.2.4 节)。中介层级的节能通信基础设施将继续以现有标准和技术为基础,而光子芯片组间互连尚未成为一种实用且可制造的解决方案,以满足 LLM 处理的数据传输需求。在封装边界,共封装光子学、激光器的改进以及密集WDM 链路的使用无疑为降低 AI/ML 系统批量数据传输的开销提供了有希望的解决方案。具有芯片间和封装外IO 功能的有源光子中介层 [KGNew1] 有望提供高带宽、低延迟的铜线替代方案,以及更高的带宽和更低的每比特端到端传输能量,超越了铜线的极限。

SiP 电压调节需求和数据中心级管理: LLM 加速器 SiP 必须集成足够的仪器仪表,以便快速传输功率和性能数据,从而在数据中心电力传输链中进行电力调度和配置。SiP 内部电压调节器还必须能够应对模型训练期间更高功率消耗的快速变化,以及推理过程中平均功率需求的下降(处理阶段从计算密集型预填充阶段过渡到内存密集型(且顺序执行)解码阶段)。数据中心传输链中的电力供应方可以利用这些功率变化特性,利用任何功率余量,重新分配峰值负载上限或平均负载上限的功率预算,以减轻电源的负担。

分布式模型处理/推理:另一种降低能耗和数据传输需求的方法是在不同的平台上以分布式方式执行推理,例如在边缘计算平台上,将部分推理结果传递给云端的大型模型。当然,整体流程中实现的复杂性/功耗降低必须考虑到从边缘到云端的上下文传输的能耗成本。分布式模型处理的退化形式在汽车系统和其他系统中较为常见。

热管理:所有用于云端AI/ML 处理的加速器 IC 都包含多个处理芯片、多个 HBM 以及其他用于 IO 和控制的芯片。一些高端产品的封装TDP 已超过 700 瓦,并且有望达到几千瓦。目前,液冷解决方案(单相和双相)是唯一的选择。封装内也需要适当的热管理解决方案,例如,在AI/ML加速器中,限制意外热量传递到HBM(第4.2.2节)。然而,加速器SiP内的散热问题需要通过器件、架构和软件创新来降低功耗。

4.2.2 内存技术

目标/需求:独立存储材料和设备

需要一些方法来扩展当前的独立内存、DRAM 和 NAND 闪存技术,以及支持“新兴”内存,以及发明/发现新的/新颖的内存可能性。

障碍/挑战: DRAM 的进一步微缩受限于电容器所需的较大相对面积,因此为了持续提升密度,类似于 3D NAND 的做法,通过分层(同质集成)进行 3D 器件堆叠颇具吸引力。3D 同质 DRAM 面临的一个主要障碍是,它需要兼容 BEOL 工艺的精选器件,这些器件具有合适的驱动特性和极低的漏电,而目前尚未实现。3D NAND 中持续的层堆叠需要蚀刻技术的进步和更薄的材料(朝向 2D 发展),尤其是在通道方面。对于 DRAM 和 NAND 而言,都需要超越当前 HBM 方法的全新封装架构方案和芯片堆叠(3D HI)支持技术。

在AI/ML 处理的背景下,通过增加 HBM 中单个芯片的容量来提升 HBM 的整体容量目前并非经济的选择,因为 DRAM 器件和优化阵列的几何形状已达到极限。因此,增加 HBM 容量需要增加堆叠 DRAM 芯片(堆叠层)的数量。目前的 HBM 产品层数限制为 12 层,随着层数的增加,容量将进一步提升。(HBM4 标准规定最多 16 个堆叠芯片。)然而,增加更多HBM 层数面临着诸多挑战。

为了保持HBM堆叠(Z方向)的有限高度,需要采用芯片减薄技术。减薄后的芯片会使晶圆处理更加复杂,并且由于芯片键合过程中的热循环产生的机械应力,以及为了降低散热路径中的热阻而减小芯片间距而施加的高压,可能会导致良率降低。在操作过程中,由于加热而产生的热致翘曲会对可靠性产生不利影响。

与加速器共封装的HBM 温度升高不仅由 HBM 访问活动引起,还可能由来自紧密相邻的加速器芯片组的热量流入 HBM 引起。随着 HBM 层数的增加,散热路径中的热阻会增加,导致 HBM 访问受限 。不可恢复错误也会随着温度升高而增加。

额外的HBM 层也需要可靠且更细间距的信号、控制和温度传感连接 。

为了提升HBM 的容量(以及普遍的 3D 组装),需要先进的封装技术,这需要材料选择、工艺开发和工艺优化。目前采用大规模回流焊和模塑底部填充 (MR-MUF) 的制造工艺。被视为一种颇具前景的解决方案。采用 MR-MUF 工艺,首先将带有低熔点焊料微凸块的 DRAM 芯片堆叠放置,然后用液态、低热阻、热固性环氧树脂底部填充材料填充芯片间的间隙。然后,对整个芯片组件进行热循环和加压,以同时键合所有芯片。这种封装工艺避免了反复施加压力和加热以键合单个芯片,从而提高了良率和可靠性,同时降低了热阻。集成后需要进行的另一项改进是在 HBM 边缘和紧密排列的高功率源(例如加速器)之间提供高热阻屏障材料。减小互连间距也至关重要。混合键合或其他 HBM 直接键合技术也可以从改进的材料选择和替代组装技术中受益。

新兴存储器仍处于“新兴”阶段,目前尚无任何技术具备在大规模独立实施中取代主流的DRAM和NAND闪存技术所需的综合特性。新兴存储器必须克服各自已知的缺陷,才能在成本、微缩、可靠性、可变性、可重复性、可循环性和其他指标上与现有技术相媲美。人们已经为解决新兴存储器的缺陷(例如,各种类型的ReRAM、PCRAM、MRAM和FERAM)付出了很多努力,但尚未取得整体胜利。如果没有这种整体的器件竞争力,这些技术将被限制在小规模、利基市场,例如MRAM作为非易失性SRAM的替代品,FERAM作为相对快速、低电压的非易失性存储器。

对于整个内存领域而言,革命性的全新应用平台(例如新的人工智能架构或新型消费设备)可能赋能新兴内存(甚至在新领域中赋能DRAM 和/或 NAND),因此新的技术机遇和重叠领域应继续受到关注。独立内存领域中意想不到的机遇可能会通过设想中的新架构展现出来,这些架构有助于消除功耗高、计算到内存互连受限的问题,即所谓的“内存墙”,从而实现广泛的近内存和内存内计算。

可能的解决方案:任何存储器和/或特定器件的材料和器件解决方案都必须全面了解成功所需的诸多目标性能指标和集成挑战,这些指标和挑战使得器件能够替代或补充现有存储器。材料和器件的开发必须与建模(第一性原理、传输、多物理场等)同步进行,以指导开发和实施。有助于消除当前路线图问题的新架构和技术空间,可能为成熟和/或新兴的存储器技术带来新的机遇。

现有主流内存

3D NAND——微缩需要更薄的沟道材料(2D),并具有相当高的迁移率(>20 cm²/Vs),以及与BEOL工艺窗口兼容的并行3D沉积技术(原子层沉积,ALD)。通过使用铁电体实现极高的k值。

3D DRAM——堆叠需要兼容BEOL工艺的精选器件,该器件在~+/-2V电压下具有高驱动电流(>10 MA/cm²),并且漏电流极低(<<10-15 A)。同样,也需要朝2D方向发展。

利用支持DRAM 和 NAND 的技术以及任何感兴趣的新兴内存应用,实现 3D 异构封装架构和方法。

新兴存储

ReRAM——实现电阻状态的确定性控制,从而降低器件可变性和循环可重复性,并具有最小漂移和高稳定性。

PCRAM——具有较低驱动电流要求的抗漂移和原子偏析材料

MRAM——MTJ 器件或模拟器件,临界电流或电压切换降低 10-100 倍,电阻比提高 10-100 倍。

FERAM(包括 FeFET 和 FTJ)——在 XY 和 Z 方向上具有高且均匀的剩余极化,可在低电压下快速切换,具有高耐久性、保留性和抗压痕和疲劳性。

新存储

类模拟——对大量记忆状态(>10)进行确定性控制,具有接近线性的响应、大的动态范围、低可变性以及高循环和可靠性。具有一组或多组竞争性固有属性的新颖概念。

4.2.3 常规处理

挑战与需求:通用计算集成电路(IC) 将继续占据主导地位。这些系统已得到优化,并广泛应用于从高性能计算 (HPC) 到嵌入式/物联网 (IoT) 等各种应用。传统处理方式面临的挑战包括:单芯片实现高核心数的良率低、成本高,这严重限制了其性能提升;在高核心数系统中,需要保持缓存一致性,这也阻碍了性能提升;当工作负载转移到加速器时,核心空闲或核心利用率低会导致能效低下;传统内存层级结构和封装输入输出 (IO) 的压力增加;需要检查长时间运行应用程序的计算状态(这在高性能计算 (HPC) 领域很常见);以及与加速器一起使用时由于缺乏统一虚拟内存而导致的效率低下(源于内存复制、一致性活动和虚拟内存异常处理)。

总体而言,传统处理系统,如同任何其他多芯片集系统级封装(SIP) 实现一样,最初将依赖于 2.5D 集成,在封装内实现密集、低延迟的互连,并最初依赖于专用的芯片集到芯片集的连接;在不久的将来,有限形式的 3D 集成将实现量产。芯片集互连标准(例如 UCIe ,ODSA 标准集中的 BoW)和芯片集级缓存一致性标准(例如 CXL(本质上实现了著名的 MESI 协议))的开发,有助于为传统处理系统的多芯片集实现铺平道路,这些系统将包含用于加速、内存和输入输出 (IO) 的额外芯片集。

系统升级挑战的可能解决方案包括采用多芯片组实现高核心数,这将成为解决单芯片实现低良率和高成本问题的标准。 非同质多核芯片组或具有非同质核心的芯片组(称为“大-小”配置)提供了一种减少低利用率下功耗的方法。系统调速器和操作系统调度器可以有效利用非同构核心。此外,需要通过调度技术避免核心闲置或利用率过低,从而在工作负载转移至加速器芯片时提高整体能效——这需要开发合适的软件和操作系统基础设施。总体而言,加速器芯片能效的提升将促进不同加速技术在部分产品系列的通用计算解决方案中更深入地渗透。

还可以通过网络内加速实现升级,以实现多播、集合、屏障和其他同步功能,从而缓解日益增长的内核间通信延迟。自适应路由可减少拥塞并释放互连的可用二分带宽。在系统级封装(SiP) 中,互连瓶颈可以通过多种方式缓解——包括在 2.5D 配置中使用宽桥、堆叠低功耗内核和/或 IO 处理器,或在高功率 chiplet 内核上部署 SRAM 缓存。最后,在中介层内设置多层金属层将通过网络并行性显著改善连接性。

内存层次结构的限制可以通过多种方式解决:通过使用在公共封装内的单独芯片中实现的额外缓存级别、堆叠的SRAM 低级缓存、结合新的内存技术、在公共封装内使用共存的 HBM 芯片以及使用以内存为中心的计算范例和加速器,如本章后面所述。

在扩展通用计算系统时,多芯片组实现处理器以及内存、专用加速器和其他芯片组显然是一个解决方案,但需要开发更大规模的共享内存一致性技术。必须使用将缓存一致性扩展到数百个大型缓存(这些缓存之间的距离不断增加)的技术,这催生了动态可分区NUMA 域的概念。检查点解决方案将依赖于封装内外的非易失性内存技术。本章稍后将讨论适用于这些应用的有前景的非易失性内存技术。

可以通过将频繁通信且数据速率较高的系统组件以芯片组的形式集成到通用封装中来规避封装输入输出(IO) 限制。共封装光子器件也可以规避封装输入输出 (IO) 瓶颈,但低成本大规模部署仍将是一项挑战。开发能够抵御较大温度波动且总体成本较低的光子收发器对于大规模部署至关重要。缺乏统一虚拟内存机制的问题需要通过制定标准来解决,这些标准允许将多核和加速器芯片组与共享虚拟内存的通用视图无缝集成。

4.2.4 内存处理

目标/需求:深度神经网络 (DNN)和同态加密 (HE)等应用需要在内存层级结构的不同层级之间频繁移动数据。有限的带宽和高昂的数据移动能耗会降低系统性能,并增加处理能耗。然而,此类操作的其中一个操作数是固定的,例如 DNN 中的神经网络权重。内存处理(PIM) 是一种很有前景的解决方案,可以加速此类数据密集型工作负载,因为它可以直接在内存组件中进行现场计算。凭借缓存、主存储器和/或存储设备的处理能力,从数据中心规模到边缘设备的应用程序都可以实现系统级性能和能源效率的提高。

内存处理方法必须扩展,以支持事务处理、数据库和搜索应用、推荐系统、零知识证明、加速位级运算以及特定的生物信息学应用等应用。障碍/挑战: SiP 的 PIM 芯片集实现面临以下挑战:

第一,PIM加速器的架构设计、规模和计算精度往往依赖于过于理想化的器件/电路参数,这在实际制造过程中很难实现。

第二,由于内部总线带宽有限,需要灵活数据访问模式(例如非本地访问或集体操作)的工作负载仍然受到数据移动瓶颈的影响。

第三,当前简单的矩阵向量乘法映射方案和PIM 的固定操作数假设无法有效地支持 DNN 的高级操作,例如 Transformer 模型的注意力机制。

第四,由于片上内存容量有限且模型规模快速增长,基于PIM的加速器的性能因PIM数据替换引起的数据移动而降低。

第五,软件堆栈缺乏支持。大多数编译器/库无法感知PIM加速器内部以及PIM加速器与主机之间的特殊数据流,因此无法充分利用PIM设计的优势。

第六,现有的PIM 设计缺乏实现整个应用程序所需的灵活性和多功能性。因此,它需要内存共享或与处理器进行细粒度同步,这可能会导致性能与单独评估中所示的性能相比下降。

第七,目前还没有完整的解决方案将PIM 集成到现有系统中。尚未验证任何解决方案是否与缓存一致性、操作系统内存管理、编程语言中现有的内存模型等兼容。

可能的解决方案:异构集成允许将专用的PIM芯片集与其他芯片集、高速互连以及通用的IO芯片集集成,以实现实用部署。此外,异构集成还支持在内存层级结构的不同层级上进行PIM集成,但需要提供适当的API来支持工作负载调度、数据暂存和其他需求。需要算法-硬件协同设计来构建和挖掘基于PIM系统的全部潜力。需要跟踪驱动的高级仿真工具来识别硬件原语,从而为设计相关的软件堆栈、库和运行时系统以及编程模型奠定基础。如果没有软件基础,就需要大规模部署。

4.2.5 模拟AI加速器

目标/需求:人工智能/机器学习应用将在未来5到10年继续占据主导地位,预计将在从边缘设备和移动平台(例如自动驾驶汽车)到大型数据中心等多个规模上得到部署,模型也将更加多样化。这些应用中的很大一部分依赖于神经网络变体(CNN、DNN、大型语言模型 (LLM) 等),当前的产品供应证明了现有和未来需求的多样性。在任何此类系统中,及时响应和高吞吐量都至关重要。用于训练人工智能/机器学习加速器的数据集也显著增长。因此,必须大幅提高人工智能/机器学习加速子系统的能效,以适应数据集和应用规模的扩展。

障碍/挑战:传统的基于神经网络的加速器采用数字逻辑实现,依赖于一系列乘法累加 (MAC) 逻辑。传统上,人们采用改进的器件技术、可变精度支持等方法来扩展这些加速器的容量并提高其能效。近年来,基于模拟乘法器的 MAC 也应运而生,它们依赖于忆阻器和类似技术,特别适用于可以容忍一定精度缺陷的低功耗应用。加速器的扩展仍面临一些挑战:必须解决数据传输开销问题;需要显著降低组合系统的功耗以避免热性能和相关的可靠性问题,以便在所有应用类别中大规模部署;并且必须提高复杂模拟系统的电路和系统的稳健性和可测试性。

可能的解决方案:实现模拟AI/ML 加速芯片的潜在解决方案包括:

  • 具有长寿命和高精度的密集模拟AI 加速器芯片支持动态或可配置精度调整的器件。这可以改进现有技术,因为现有技术的寿命通常较短。这反过来又转化为对材料、低噪声和稳定的模拟电压调节器、低功耗、小尺寸ADC等方面创新的需求。候选模拟AI加速器的例子包括基于相变存储器(PCM)等新兴存储器技术的模拟神经网络加速器,以及各种存储器架构。

  • 采用新器件技术实现的替代MAC 设计,在给定电压下本质上具有更高的驱动电流,因此更节能(例如 CNT - 碳纳米管晶体管),但可靠性/寿命的提高是必要的。

  • 持久性存储设备比当前基于MTJ 的设备具有明显更低的开关电流和更大的读取裕度,同时仍保持类似 SRAM 的速度和高耐用性。

  • 这些可以组合成3D 芯片堆栈,而这又需要高纳米凸块/微凸块密度、新的电力传输/转换策略等。

  • 先进的算法解决方案,以提高模拟计算范式的鲁棒性,包括噪声感知神经网络设计和映射方案,例如锐度感知最小化(SAM)。

4.2.6 SiP扩展的其他方面

通过更高的组件集成度来扩展系统配置以支持进一步的性能提升,除了目前讨论的物理和散热挑战之外,还会带来多重架构和微架构挑战。许多跨核心执行的操作涉及广播和多播操作,随着核心间通信距离的增加,这些操作会导致完成延迟增加。此外,尽管2.5D 和 3D 集成可以显著提升未来片上互连的二分带宽 (BW),但大规模片上网络(NoC) 的拥塞可能会带来瓶颈,从而限制带宽的有效提升。当数据从/流向PE,穿过SiP,流向SiP外围的IO和内存控制器时,NoC瓶颈会尤为严重。此外,NoC面积目前占SiP总面积的20%-30%,占TDP的5%-10%,因此进一步提高互连密度以解决带宽问题需要付出高昂的代价。

系统扩展的一个根本限制因素是功耗壁垒。由于芯片内的互连功耗是其功耗的主要组成部分,异构集成提供了一种降低总功耗的方法,即将芯片集成在一个具有宽而短互连的封装内,从而降低跨封装边界所需的IO功耗。这在采用桥接芯片的2.5D集成,以及3D堆叠芯片架构中尤为明显。然而,3D芯片集成必须解决散热、功率传输和良率问题。这些问题已在路线图的其他部分得到解决。目前以及短期内,HBM以及一个或多个单层高功耗逻辑的3D堆叠(堆叠在具有低功耗芯片的堆叠中)可以集成在2.5D配置中,为内存扩展和系统扩展提供切实可行的解决方案。系统规模的长期扩大需要通过以下一项或多项措施来提高系统的整体能源效率:(a)系统架构的创新;(b)设备和互连的创新,以及冷却技术的重大创新。

支持SiP 扩展的其他可能解决方案:这些解决方案是对第 4.2.3 节中讨论的解决方案的补充和扩展,包括:

  • 带宽敏感(例如GPU)与延迟敏感(例如 CPU)PE 的 QoS 感知路由和拥塞管理。

  • 细粒度(例如路由器级)DVFS 支持电源管理。

  • 数据压缩技术可增加带宽并允许更窄的互连链路。

  • 用于芯片到芯片链路的集成光子学。

  • 需要硬件对稀疏性的支持来提高包中大型3D 缓存和大量计算资源的有效利用率。

  • 根据数据移动模式共同设计的互连拓扑。

此类大型系统的架构研究还需要新颖的模拟技术,该技术可以模拟多个抽象级别,同时能够推断芯片内的微架构细节,以及跨芯片、不同类型的处理元件和3D 层的整个系统的整体性能、功率和热分析。

除了在中介层上以二维或三维方式集成芯片外,用于定制应用的更大晶圆级系统还可以实现系统扩展,但此类产品不太可能得到广泛部署。

4.2.7 分解加速、内存和存储

目标/需求:数据中心的一个主要趋势是走向系统分解。在过去的五年中,我们观察到明显的趋势,即从同质系统转向专用的计算、存储、内存和网络节点,这些节点专门处理不同种类和数量的计算和数据。

这一趋势主要源于成本方面的担忧。分解和专业化已为所有现有的超大规模计算架构带来了大幅成本降低;这要么直接体现在功耗和密度的降低,要么间接体现在计算效率的提升。此外,私有云和高性能计算(HPC) 也正在采用同样的系统设计风格,未来可能会有更多市场出现。

这种分解的一个反复出现的模式是将核心从一个集中的核心集群移到更分散的设备上。放置在存储设备上的内核会创建计算存储设备(CSD);放置在 NIC 上则会成为 SmartNIC 或数据处理单元 (DPU)。

正在使用Compute eXpress Link (CXL) 互连标准开发可互连的分解组件。CXL 是一种用于主机与所连接存储设备之间通信的互连协议。放置在远程内存块上并能够使用此 CXL 协议的内核,将成为 Type-2 或 Type-3 CXL 设备。

障碍/挑战:新的工作负载,尤其是人工智能,对内存容量、延迟和带宽提出了极高的要求。垂直扩展的限制使得单台机器无法满足这一需求,而水平扩展也并非适用于所有工作负载。

然而,与主总线内存相比,第一代CXL 连接内存的内存访问延迟较高且带宽有限,因此这些设备的普及速度较慢。正确利用这种“远”内存的软件挑战被认为是难以克服的,因此人们转而致力于隐藏延迟和带宽问题。

可能的解决方案:

  • 扩展更传统的芯片到芯片标准,可以通过直接连接或通过交换机支持更长的传输距离。

  • 支持近内存计算和内存到内存协议的内存扩展处理,以减轻数据移动成本。

  • 更好的操作系统和运行时支持分解内存,缓解非均匀延迟、混合一致性模型和可靠性问题。

  • 将远程内存操作集成到指令集架构中,以避免与网络协议栈相关的开销。这在面向GPU 的内存到内存协议(例如 NVlink 和 UAlink)中已经有所体现。

4.2.8 神经形态计算

目标/需求:人工智能应用主要采用深度神经网络架构,其训练和推理对计算、内存和能耗的要求非常高。受脑启发的神经形态计算已成为一种高能效范式,与神经网络相比,其能效提升了数倍。神经形态系统的特点是集成计算和存储(神经元和突触),以及异步和模拟/数字操作(脉冲神经网络)。计算-存储集成架构支持扩展和并发,异步操作可实现高能效运行。

障碍/挑战:采用新的计算范式通常会带来软件基础设施方面的挑战移植现有的人工智能应用以及新的认知应用需要新的抽象层和算法。这些架构通过模拟/混合信号处理进行扩展也需要具有容错能力的设备和架构。

可能的解决方案:

  • 特别适合神经形态计算的新型内存和计算设备。

  • 大规模网络可以与小芯片和3D 集成相结合。

  • 可以为特定的应用领域构建SW 抽象层。

  • SNN 可用作异构系统中的自定义加速器。

4.2.9 量子退火与通用量子计算

量子系统主要分为两大类:一类是量子退火系统,其目标是实现高复杂度的优化;另一类是使用模拟或“数字”量子门的通用量子计算系统。量子比特是所有系统中信息存储的基本单位,它运用了量子叠加和量子纠缠。由于量子叠加,一个量子比特实际上处于多个具有不同概率的状态,这使得单个量子比特能够存储比单个比特多得多的信息。因此,对量子比特的操作本质上是矢量操作。量子系统因此可以处理大型问题空间,并从矢量操作中获益匪浅。

量子比特容易发生退相干,即存储的信息会因噪声而质量下降。在极低温度(接近毫开尔文)下存储量子比特会延迟退相干。对量子比特状态的测量具有破坏性(并且会有效地消除叠加态)。量子系统利用量子纠缠现象的非直观且无法解释的性质在读出过程中保持状态。量子纠缠将两个物理耦合的量子比特的量子态联系在一起,使得对一个量子比特的状态改变会影响与其纠缠的量子比特的状态。在测量过程中,纠缠的量子比特会暂时解耦以保持一个量子比特的状态,同时读取另一个量子比特。多个纠缠的量子比特组成一个逻辑量子比特,系统中量子比特的数量决定了所处理的问题空间的大小,但扩大这个数量仍然是一个挑战。量子比特和量子逻辑门有许多不同的实现方式。量子比特实现包括:(a)超导量子比特,其中量子比特是一个带有约瑟夫森结实现电感器的谐振槽;(b)冷原子量子比特被实现为过冷和孤立(“捕获”)原子;(c)捕获离子量子比特,类似于冷原子,但使用离子而不是原子;(d)光子量子比特被实现为孤立光子粒子或叠加“压缩”光子的光束,以及(e)基于 FinFET 的捕获载流子量子比特。

HI 使量子系统的许多关键部分能够在一个包内实现——这些部分会因系统而异一些潜在的集成候选方案包括:共同构成放大量子比特集合的芯片、用于测量和激发的芯片、用于光子束形成或光子隔离的芯片,以及在使用光子量子比特的系统中实现量子门的芯片。量子系统的主要需求仍然是开发能够缩小物理尺寸、降低运行成本的新架构。对真正通用量子计算机的探索仍然遥不可及,而且尚未实现普遍的融合。预计中期也不会出现。一般来说,量子系统体积庞大,需要大型多级稀释制冷装置来维持所有或部分核心部件在极低温度下运行。少数量子系统需要紧凑的台式制冷装置来冷却量子比特、测量/激励电路和量子门。从封装角度来看,量子系统IO仍将是一个挑战,并且可能会使用光子链路和共封装光子学。 此外,封装解决方案需要承受较大的温度波动。

4.2.10 横切考虑

电源转换和电源管理

SiP 的电源分配带来了一些独特的挑战,包括电源布线考虑、高端系统中大电流引入的线路电压降(下垂)、集成数字和模拟芯片组的 SiP 对电源质量的要求以及常见的噪声和串扰问题。3D 芯片组堆叠本身也面临着独特的挑战,例如电源布线布局限制、由于芯片组之间距离更近而产生的串扰和噪声。

一些潜在的解决方案可以应对这些现有的(并将继续使用的)挑战,包括:(1) 背面供电,即通过芯片背面的连接将电力以分布式方式直接输送到使用点,以避免信号布线层和电源布线层之间可能存在的争用。中介层中的重新分配层可以简化此解决方案中电源到适当点的布线;(2)中介层嵌入式电源转换器可以减少大电流下的欧姆(即 I2R)损耗以及一般的电力线电压下垂相关的问题;(3) 对于高端 SiP,可以通过为封装提供更高的电压并在封装内使用负载点 (POL) 电源转换器芯片来避免大电流需求和相关的欧姆损耗将更高电压以分布式方式转换为芯片级电压。为了容纳封装内部转换器,有必要追求更先进的转换器设计,采用先进的磁性元件(以及相关材料的开发),以降低整体高度并实现更高的体积功率转换密度。与此同时,还应寻求用于小型电容器的先进电介质。对于3D系统,需要开发用于3D堆栈内电源布线的解决方案;这些解决方案还需要避免通过电源网络和共享电源转换器设置意外的隐蔽通道。未来的解决方案包括扩展当今业界用于HBM和最新3D逻辑芯片堆栈的技术,用于边缘功率传输,在芯片内部使用局部功率调节等。在这方面,需要适当的软IP开发和标准来指定电源连接的物理参数。

安全

许多适用于封装单芯片解决方案的传统安全威胁,例如芯片篡改、芯片探测逆向工程和泄露信息(物理或使用X 射线)、侧通道和隐蔽通道以及固件泄露,在 HI 系统中成倍增加。这是由于芯片组彼此靠近(尤其是在3D芯片组堆叠中),使用了更宽的低延迟互连,以及共用电源转换器和配电网络。在3D配置中,解决侧信道和隐蔽信道的安全解决方案仍然是一个特殊的挑战。开发适当的方法和EDA 工具,以便在设计时检测并避免潜在的通道,从而消除或减少攻击面,将成为一项实际要求。HI 独有的威胁是中介层本身的完整性,它可能被篡改。数字 SiP 中使用的模拟加速器带来了新的攻击面。以模数转换器以及模拟存储器组件为中心。最后,另一个威胁来自运行时固件或应用软件的入侵这可能导致信息泄露和拒绝服务攻击。

芯片组身份验证解决方案已得到深入研究,技术也已相当成熟。例如水印、逻辑锁定和设计混淆等技术。一般而言,作为应对系统级封装(SiP) 可能遭受攻击的解决方案,芯片组和中介层身份验证必不可少,这需要诸如清算所之类的设施进行注册和安全访问,以便在启动或运行时使用封装内的本地信任根对芯片组、固件和系统软件进行身份验证。这需要开发一个完整的安全意识生态系统。用于高可用性系统的系统级封装 (SiP) 还可以集成以硬件为中心的隔离机制,在检测到恶意行为者(包括已被入侵的整个芯片组)后将其隔离,从而使 SiP 的其余部分能够继续运行并以优雅的性能降级方式提供服务。在芯片组内部署可靠的传感器对于支持运行时监控和优雅的降级至关重要;机器学习技术在检测跨多个芯片组的异常行为方面也发挥着重要作用。总体而言,运行时监控、异常行为识别和运行时检测到的攻击处理等技术需要进行大量的方法论开发,但目前尚未到位,代表着一项重要的需求。SiP 的安全问题和解决方案将在第 6 章中详细介绍。

可靠性问题

确保芯片组可靠性的技术(包括器件和工艺技术)已经非常成熟,这并非HI 独有,软错误及其处理技术也是如此。然而,芯片组故障和软错误可能会对系统级封装 (SiP) 产生连锁反应,因此需要开发系统级容错技术。这些技术可能包括使用冗余、隔离故障芯片组的设施(如第4.2.8 节和第 6 章中提到的某些安全解决方案中所用)。在为关键任务应用设计的 SiP 中,故障处理技术需要更积极(例如使用 TMR),但这必然会带来成本,需要进行合理的论证。一般而言,对于高可靠性系统,SiP 必须使用系统级架构解决方案。

集成智能系统(HI) 在集成阶段面临着独特的可靠性挑战。互连线路需要具备冗余性和容错能力。在系统层面,中介层和互连线路上的热致机械应力可能引发故障,构成威胁。协同设计技术对于使用基于多物理场的紧凑模型进行早期可靠性评估至关重要,该模型可用于评估组装和使用过程中的热致应力。可靠的组装工艺、材料特性和合适的计量方法的开发也至关重要(参见第 4.2.9.4 节)。最后,同样重要的是,在组装过程中和部署运行期间进行测试也带来了重大挑战。

可靠性问题、其影响、测试技术和材料以及计量技术是相关的封装技术,在本路线图的其他地方进行了讨论。

特性和计量

未来十年,表征和计量方法将面临新材料、新结构、新设备和新工艺日益严格的测量需求的挑战。应对这些挑战需要加强工艺/结构与计量之间的联系。测量要求的一个显著变化源于向三维结构的转变及其复杂性的提升。对计量设备供应商而言,两个非常重要的突出例子是:n 型和 p 型 MOS 晶体管的垂直堆叠(预计将在未来 10 多年内实现),以及存储器中多层膜堆叠的增加,这些多层膜具有非常高的深宽比孔。显微镜的空间分辨率以及相关的表征(例如电子衍射和 X 射线表征)需要数据分析技术的进步才能实现常规应用。这些结构表征和计量的另一个关键方面是需要提供纳米级结构在更宽波长范围(从红外到极紫外到 X 射线)下的基本材料特性信息,包括热机械和电学等其他特性。缺陷检测面临着巨大的挑战,因为需要从特征尺寸减小、深宽比更高的器件中提供具有统计意义的信息。机器学习和人工智能将被用于帮助实现计量设备控制、数据分析和配方创建。 NIST 拥有独特的能力,能够支持新测量方法的研发,并提供关键的标准和参考材料。关键机构和合作伙伴可以帮助推动生态系统的发展,从而实现快速扩展和混合计量等概念。基础设施建设将进一步增强这一能力。

可持续性

HI SiP 设计流程和设计范式必须不断发展,以融入以可持续性为中心的选择。可持续的工艺和技术开发对于提供这些选择至关重要。对体现可持续性考量的深度协同设计 EDA 工具的需求仍然很高,并在未来几年变得尤为重要。多芯片解决方案采用更小、更可持续、更节能且良率更高的芯片,较小的芯片尺寸可确保高良率并减少浪费。然而,必须权衡组装步骤中因需要组装更多芯片而产生的浪费。需要制定指标、方法和指南来促进可持续设计和制造。在运营阶段,良好的系统级电源管理技术和支持可持续性友好型热管理的封装技术至关重要。最后,报废处置阶段的可持续性影响仍未量化,需要在此方面取得重大进展,以最终使该阶段可持续。第二章详细介绍了可持续性方面的考虑、需求和一些潜在的解决方案。

4.3 3D集成的进步:设备、计量、工艺和材料

几十年来,本征维度缩放一直是提升功耗、性能、面积和成本(PPAC) 的主要手段,但其对领先技术节点计算效率的影响却很小,且呈稳步下降趋势。虽然算法和架构改进可以带来大部分效率提升,但维度缩放仍然很重要,因为它提供了一种通用的、与应用无关的缩放解决方案。接下来的 4.3 和 4.4 节将讨论维度缩放技术的挑战、需求和趋势。

图片

图4.3:3D异构集成技术示意图

4.3.1 逻辑和存储设备

逻辑器件

目标/需求:连接设备的数量和计算过程中传输的数字数据量持续呈指数级增长。与此同时,电子设备消耗的可用功率总量也呈指数级增长。为了跟上这一步伐,晶体管和互连架构需要在能耗和运行速度方面进行改进,并不断改进制造工具以实现尺寸缩放[31]。CMOS 正在积极转向 3D 堆叠,以降低功耗、增强功能并实现进一步的缩放。必须寻求新的策略来提供功率并消散 3D 堆叠带来的多余热量。需要化学工艺和新的集成方案来为高效的 3D 缩放提供新的途径。

图片

图4.4:先进 CMOS 晶体管和互连架构的进展预测,其中光刻技术的进步实现了尺寸的持续缩小。

障碍/挑战

传统CMOS 逻辑的计算功耗取决于电源电压、栅极电流泄漏程度、关态泄漏、器件电容(包括栅极、互连和寄生电容)以及时钟频率。提高频率对降低电压、电容和泄漏提出了更高的要求。这些因素受以下几个因素影响:

  • 器件材料:栅极介电常数和厚度、NP结突变度和隔离度以及互连金属电导率。

  • 物理设备尺寸和设计:栅极接触电容、单元高度、互连电容和源极/漏极重叠都起着作用。

  • 设备集成和封装:2D平面和3D堆叠之间的选择。

需要新技术来实现高纵横比和非对称架构尤其是当特征对准要求相对于特征厚度非常小时。随着沟道厚度不断减小,需要新的器件设计和材料创新来控制阈值电压的变化。背面供电需要开发兼容3D集成的材料,同时最大限度地降低有害电容。除了降低寄生电容和电阻外,还需要考虑材料的散热特性,以最大限度地减少缩放和堆叠器件中的热量积聚。

可能的解决方案——提出的解决方案需要针对特定应用,并且没有一种解决方案可以替代或扩展通用 CMOS。

器件结构和设计:器件结构从FinFET 演变为NanoSheet/Ribbon FET,再演变为 Complementary/ Stacked Ribbon FET,这将有助于提高效率,但无法达到目标效率要求。 此外,还必须积极探索垂直 FET、隧道 FET以及任何有前景的器件架构或结构。通过任何方式(例如 1D/2D 材料、负电容或更高的有效 k)来改进栅极控制。通过改进栅极控制和实现栅极长度缩放来降低功耗。隧道场效应晶体管 (FET) 和负电容场效应晶体管 (FET) 属于潜在的“陡坡”器件,它们可以在室温 60mV/decade 亚阈值摆幅极限以下工作,从而降低电压/功耗。低温 CMOS也可以考虑,但对于大多数应用而言,可行性有限。低温操作除了提供低于 60mV/十倍频程的操作外,还能通过减少短沟道效应和最大限度地减少有害的 RC 延迟来降低功耗。磁电自旋轨道耦合器件和铁电自旋轨道耦合器件以及后端兼容的一维/二维晶体管可以提供多层超低压逻辑电路,这些电路可以在 CMOS 之上/之下构建。一种在各种工作负载下优化性能和能效的有前景的方法是部署异构核心架构,其中高性能(大)核心继续使用先进的 Si CMOS 技术,而高效(小)核心则采用隧道场效应晶体管 (Tunnel FET) 等超低功耗器件。这种“大-小”策略需要强大的设计技术协同优化 (DTCO),以平衡不同器件技术的面积、功耗和性能。许多此类器件方案的整体可靠性尚未得到验证,并且对于每种方法,预期一致的长期性能将取决于材料选择和制造方法。

特征尺寸缩放: 利用设计技术协同优化(DTCO)的进步,可以在 3D 架构中实现非常积极的区域缩放在模块级别优化功耗、性能和面积 (PPA)。布局相关效应也需要考虑,例如,可以通过自对准集成方案和选择性或定向工艺技术来解决。为了减小器件体积和热质量,需要创新低热预算的3D 共形金属和间隙填充工艺、低热预算和低成本的堆叠方法,以及新的更薄的通道结构。先进的共形沉积和蚀刻二维半导体和绝缘体可以通过更低的电压操作和更小的 RC 延迟,实现埃级器件的低功耗。芯片集的设计和集成也将受益于新兴的系统技术协同优化 (STCO)方法。

沟道材料:沟道材料将继续发展,从应变硅和硅锗到锗,以及探索性的低维材料,例如一维碳纳米管(CNT)、石墨烯纳米带 (GNR) 和二维过渡金属二硫族化合物 (TMD)。低维材料是超大规模器件的有希望的候选材料,因为它们即使在约 1 纳米的体厚下也能保持高载流子迁移率,这对于静电控制至关重要。例如,由多个 CNT 组成的一维碳纳米管场效应晶体管 (CNFET) (CNFET) 预计比 2 纳米硅纳米片具有更好的能量延迟积 (EDP)。同样,一维 GNR FET 预计可提供比 1.1 纳米硅纳米线高 20 倍以上的电子迁移率。二维 TMD FET 在低功耗应用中也特别有前景。沟道必须坚固耐用,缺陷少,高度可靠,能够实现低电阻欧姆接触,并与低温栅极电介质和栅极金属兼容,并具有可调功函数。氧化物半导体具有合理迁移率(~100 cm² / V•sec)和低漏电性能的半导体可以在低温下沉积,但集成需要更高的热稳定性,并需要避免不必要的氢掺杂效应和与氧的相互作用。此外,还有一些用于新型场效应晶体管(FET)的探索性接触和材料选择,例如自旋场效应晶体管(Spin-FET) 。和拓扑晶体管,这可能会带来性能的提升或功能的增强。栅极堆叠中的铁电材料与双极沟道材料的结合,还可以实现新型可重构器件,这对于硬件安全和/或动态逻辑应用非常有用[35]。

互连材料:互连材料也需要改进。目前,铜需要一层薄的氮化钽扩散阻挡层,而在小通孔中,高电阻阻挡层可能占据通孔体积的很大一部分。钌、钴、铑、铱和钼是潜在的近期替代方案,但需要材料创新来实现未来的阻力扩展。

新型材料和集成方案能够降低寄生电阻、电容和器件自热:在制造过程中实现高度微缩和三维架构,需要提高特征尺寸和对准精度(例如,更小的边缘位置误差和均匀的栅极长度控制),以及在纵横比可能超过50-100:1 的垂直结构中实现亚纳米级的均匀性。对于垂直器件方案,每个器件的功耗会降低,但单位体积的功耗会变得非常大。需要新的散热方案。垂直器件制造也需要低温材料合成技术的进步。高质量、低缺陷材料是在高温下获得的,此时热力学驱动力会促进结晶和缺陷减少,但高热预算可能会损坏底层材料和材料结。需要更好地理解化学表面过程,以实现原子尺度材料组装的低温动力学控制以及可制造的层转移工艺,这有助于在需要高温材料时克服热预算限制。对于高度微缩的器件,任何能够改善差异、减少自热、降低电阻和电容的材料进步都将有助于实现未来逻辑的微缩和性能提升。此外,为了减轻三维堆叠逻辑中的寄生效应,集成低介电常数(低k)材料(包括气隙)对于降低电容至关重要。同时,需要高导热率材料来实现垂直堆叠中的有效散热,以控制热梯度和自热。

存储设备

目标/需求:新型内存技术的需求将持续旺盛,尤其是在数据中心、图像和传感器处理、量子计算和人工智能等应用领域。对电子内存的需求增长如此之快,以至于内存所需的硅片数量很快就会超过全球现有硅片的供应量。此外,内存访问的能效,尤其是CPU对DRAM的查询,尚未跟上计算能效的步伐,导致了前面提到的“内存墙”现象,这促使人们需要全新的技术。为了满足不断增长的内存需求并帮助降低不断上升的系统能耗要求,内存密度需要比目前水平提高100倍或更多,同时通过高带宽和内存内或近内存计算架构来降低功耗。

障碍/挑战

提高缓存级存储器密度(例如用SRAM替代)可以缓解CPU和DRAM之间数据传输带来的功耗问题。然而,必须满足严格的设备级要求,包括末级缓存或嵌入式DRAM(eDRAM)的读/写时间接近10纳秒,L2/L3级缓存的读/写时间甚至更快(约2至3纳秒)。耐久性需要接近10 15至10 18次读/写循环,并且工作电压需要与先进的逻辑晶体管兼容。因此,需要对领先的存储器选项进行重大改进,以实现下一代节能、高速、密集的嵌入式存储器。

随着当前独立存储器特征几何尺寸不断压缩,以实现持续的二维(2D)代际微缩,不可避免地会出现一个临界点,即下一次微缩变得不可行。例如,NAND 闪存就曾面临这种情况,其接近 20 纳米的浮栅长度无法实现必要的电子电荷存储。NAND 传统的横向单元串现已过渡到垂直设计,利用了第三维空间,这是第一个真正的 3D 单片集成。DRAM 微缩也可能受益于类似的 3D 过渡,但这更加困难,因为电容单元(在 X 和 Y 维度上)都比 NAND 闪存栅极更大。向 3D DRAM 微缩过程中存在重大挑战,尤其是在垂直沟道晶体管的位线处理方面。在 3D 存储器架构中,强力的通孔刻蚀对于创建垂直连接至关重要,这需要混合键合和更先进的刻蚀工艺等创新策略。此外,由于复杂性,在这些 3D 结构中集成更大的电容器件也带来了重大挑战 [36]。垂直存储器件堆叠还需要新的兼容BEOL工艺的器件,这些器件应具有合适的驱动特性和极低的漏电。所有新的集成方法都需要新的材料和新的工艺,尤其是分别通过原子层沉积(ALD)和原子层刻蚀(ALE)进行沉积和蚀刻控制。通过新的架构方案,使存储器更接近计算,即所谓的内存内和近内存处理,或许可以缓解这种持续扩展方法带来的压力。此外,新颖的架构方案将推动新的混合和异构3D集成技术的发展,这些技术需要在芯片级和晶圆级堆叠方面进行创新,超越当前的高带宽存储器(HBM)实现。

可能的解决方案

新兴存储器:新兴存储器,包括电阻式随机存取存储器(ReRAM)、相变随机存取存储器 (PCRAM)、磁性随机存取存储器 (MRAM)、铁电随机存取存储器 (FERAM)、压缩随机存取存储器 (Z-RAM) 和晶闸管随机存取存储器 (T-RAM),仍处于“新兴”阶段,尚未有任何存储器具备足以取代现有 SRAM、DRAM 和 NAND 闪存技术(这些技术已牢牢占据市场)的综合特性。新兴存储器必须克服成本、微缩、器件可变性、可靠性、耐用性和其他指标方面的缺陷。早期应用可能属于利基市场。例如,MRAM 可作为非易失性 SRAM 的替代品,而 FERAM 则是一种快速的非易失性存储器,非常适合智能卡等低功耗、低循环应用。与利用电荷存储的设备不同,ReRAM 中的原子运动(以及 PCRAM 中程度较轻的原子运动)本质上是随机的(即不可控且可能具有不确定性),这会导致相当大的变化,从而限制当前的实现和/或需要容错能力极强的系统。使内存在处理中占据更重要地位的新架构可以使内存解决方案具备一种或多种新兴内存固有的特性。为了实现经济可行的大规模内存应用,新兴内存技术必须追求比特成本可扩展 (BCS) 架构,以优化制造投资回报率 (ROI)。这不仅包括内存单元的固有成本,还包括对外围电路的深入分析,而外围电路通常决定了功耗和面积的开销。因此,准确建模系统总成本(包括感测放大器、控制逻辑和纠错)对于评估竞争力至关重要。此外,对于 AI/ML 工作负载,新兴的基于内存的内容可寻址内存 (CAM) 实现(例如 FeFET-CAM)在搜索操作中提供了显著的优势,有可能通过更快、更节能的关联搜索功能改变推理引擎。

铁电存储器:可以考虑几种形式的铁电存储器,包括铁电随机存取存储器、铁电晶体管和铁电隧道结或二极管。用于存储系统的铁电体可以是基于萤石的材料,包括掺杂的二氧化铪、钙钛矿(例如BaTiO3)和纤锌矿(例如掺杂的 AlN、ZnTe 和 BeS)。人们迫切需要对材料有更深入的了解,包括缺陷如何影响开关动力学、唤醒、疲劳和电介质击穿,特别是为了允许扩展到 1V 以下的操作以与先进逻辑技术节点兼容。需要开发稳健的 ALD 和 CVD 方法,以便在几何约束的特征中沉积高质量的钙钛矿和混合金属氧化物。还需要改进的分析技术来表征缺陷类型和密度并识别相组成。器件需要界面金属工程的进步,以实现在施加场干扰免疫的情况下进行突变极化切换,以及达到1015至1018次读/写循环的耐久性,以取代缓存级存储器。为了实现铁电晶体管,需要通过调节铁电极化和载流子密度来降低陷阱充电/放电效应,并改进栅极堆叠和源/漏极工程以减少缺陷并实现低压工作。隧道结需要具有超低缺陷的超薄(< 3 纳米)铁电层,以通过高隧道电阻 (TER) 实现高离子密度和高开关比。

目前尚不清楚这是否能在规模化铁电器件中可靠地实现,但取决于编程脉冲电压和持续时间的部分极化会导致多种类似模拟的电阻状态,这表明其有可能用于人工智能应用的多位存储器。类似模拟存储器件的三维交叉阵列可以实现高效神经形态计算的存储密度。这些高密度配置需要全面了解规模化铁电场效应晶体管(FeFET) 的多电流电平变化和耐久性,而具有类似二极管电流-电压特性的场效应晶体管 (FTJ) 则有可能在堆叠交叉阵列中提供无选择器、双端、多电平存储单元。

自旋电子存储器:自旋电子存储器的选项包括自旋转移力矩MRAM(STT MRAM)和自旋轨道力矩MRAM(SOT MRAM)。STT MRAM 需要铁磁材料工程,以实现更低的磁化反转开关电流,以及器件设计,使其能够通过更大的有效自旋转移矩实现更低的开关电流,同时不影响隧道磁阻 (TMR)。为了在 SOT MRAM 中实现低开关电流下的磁化反转,需要具有更大自旋轨道效应的新材料。此外,高密度配置需要新的器件设计,以集成其他现象,例如电压控制磁各向异性,或磁电和反铁磁效应。

新型存储器:能够与现有技术甚至新兴技术相媲美的设备有着很高的标准。最终的设备将具有确定性、模拟性和线性的存储状态变化,能够在低电压和/或低电流下实现,并具有低纳秒或皮秒的切换时间。除非出现这样的终极存储器,否则解决本节和4.2.1节中讨论的当前新兴存储器的固有问题,将有助于其在利基应用中获得采用,或实现神经网络等新的架构方案。

4.3.2 片上互连

目标/需求

片上互连负责将信号和电源传输到器件。电源互连需要低电阻,而信号线则受益于低电容和/或低阻容积。面积缩小一直推动最小金属间距呈指数级下降,预计到本世纪末将突破 20 纳米大关。随着最小金属间距不断缩小以实现性能和可靠性目标,需要不断改进材料(导体和电介质),进行新的集成创新,并采用新的图案化方案,以实现更好的套刻效果并降低 LER。

障碍/挑战

铜互连需要扩散阻挡层和金属填充小特征,且阻挡层和铜均需保证无空隙,这是一个巨大的挑战。此外,铜阻挡层和衬垫尚未随最小间距的缩小而缩小。导致铜的横截面积变小、电阻增加,并产生内在的可靠性问题。

可能的解决方案

轨道微缩是应对互连挑战的关键考虑因素。一种潜在的解决方案是开发新型阻挡层和衬垫材料,这些材料可以大幅减薄,从而实现间隙填充和线路电阻的提升,同时仍能满足可靠性目标。此外,还可以使用有机阻挡分子进行区域选择性阻挡层沉积,从而提高通孔电阻。新的集成方法,例如混合金属化和半镶嵌减材金属蚀刻方法,也可用于降低互连电阻。此外,不需要阻挡层的Cu替代候选材料(例如,钌、钴、钨、铑、铱和钼)。正在探索中。必须开发各种工艺(ALD、CVD、PVD 等)来沉积高质量、无缺陷的二元或三元金属薄膜,以实现超越钌或钼的电阻缩放。各向异性金属(例如 c 轴取向的 Ru)薄膜的外延沉积为持续的电阻缩放提供了另一种途径。这些附加材料的引入必须伴随兼容的粘附和衬里材料以及可行的蚀刻和 CMP 工艺的开发。先进的低 k 材料可以降低线电容,但这需要工艺方法来保持图案保真度并避免在蚀刻和清洁过程中介电常数的降低。实现低互连电容的另一种方法是实施气隙. 采用背面供电[40] 将实现最小间距的反向缩放,从而实现更有效的轨道缩放以及信号互连(设备正面)和电源线(设备背面)的独立优化。

4.3.3 二维(2D)材料

目标/需求

低维材料(LDM),包括二维材料和排列整齐的一维碳纳米管(CNT)阵列,由于其超薄的体积、优异的电子、热学和化学性能,碳纳米管 (CNT) 和石墨烯是超大规模器件的有希望的候选材料。由于在开发与超大规模集成电路 (VLSI) 兼容的工艺方面进展不足,碳纳米管 (CNT) 和石墨烯已不再受到青睐。此外,石墨烯的电学性能和碳纳米管的导电性使其难以实现大规模集成,因此有必要重点研究这些问题。

二维导体(例如石墨烯和MXenes)可以降低薄层电阻、散热并避免电迁移。半导体二维材料(例如MoS2和WS2 )因其对通道的静电控制增强和隧穿效应减弱而有望应用于低功耗应用。六方氮化硼等绝缘二维材料可用作具有二维半导体通道的场效应晶体管(FET)的电介质(以形成清晰的范德华界面)以及其他存储器件。由多个取向碳纳米管(CNFET)构成通道的场效应晶体管(FET)因其更佳的电数据处理(EDP)而成为节能数字逻辑的有希望的候选材料。

尽管基于LDM的器件多年来取得了显著进展,例如利用硅工业设备制造,并应用于传感器和特种相机(例如石墨烯),但仍有许多挑战需要解决,例如如何保持LDM优异性能的集成工艺、二维材料的晶圆级合成和材料沉积,以及碳纳米管(CNT)的均匀可控组装,才能使这些探索性材料成为未来规模化先进CMOS逻辑的可行方案。LDM器件的低温处理也备受关注,因为通过将CNTFET或二维FET与硅CMOS集成,可以显著改善EDP性能。

障碍/挑战

欧姆接触和LDM FET中的栅极绝缘体集成需要改进的材料和工艺。在硅微芯片上沉积具有合适(低)缺陷密度的LDM是主要挑战。大多数二维材料合成方法需要高温(>400 ºC),这与BEOL CMOS工艺不兼容。由于裂缝和杂质的形成,转移过程的缩小和缩放尤其困难。当2D 材料不需要超高质量时,可以使用与 BEOL 兼容的温度(< 300ºC),例如在容错设备和应用(如忆阻器)中。用金属或绝缘体涂覆 2D 材料,或者蚀刻图案或通孔,可能会产生额外的缺陷。2D 材料中高密度的缺陷会降低性能和产量,同时增加可变性。在 2D 半导体中,虽然已经证明接近量子极限的n 型接触电阻( RC ),但必须开发缩放的 p 型和 n 型低R C 接触(<15 纳米)。迄今为止,还没有人用包含间隔物的现代 GAA 设备展示出低接触电阻。已经展示了缩放 p 型 CNFET(即包括密集 CNT、缩放低R C 接触和自对准延伸掺杂)的集成里程碑。碳纳米管纯化(即金属碳纳米管去除)和设计技术(例如,设计抗金属碳纳米管的弹性——DREAM)的进步,使得能够实现抗缺陷的超大规模集成电路 (VLSI) 成为可能。然而,实现这些优势的关键挑战在于晶圆级均匀碳纳米管取向的严格目标,以及2-10 纳米范围内可控且均匀的间距,而目前任何已知方法都无法实现这些目标。LDM 面临的另一个挑战是,成功的 CMOS 实现需要 NMOS 和 PMOS 晶体管之间不同二维半导体的共集成,或者需要识别双极性二维材料。材料二元性和双极性之间的选择必须考虑沟道迁移率的不对称性、阈值电压控制、接触电阻、集成复杂性(成本)以及规模节点下的可靠性等因素。此外,先进的 CMOS 需要将这些材料集成到类似 CFET 的器件架构中,因此相应的工艺集成问题将是至关重要的考虑因素。

可能的解决方案

对于2D 材料,最重要的需求是改进高质量合成和/或转移、蚀刻以及在其表面沉积其他材料。减少 2D 材料缺陷的潜在途径包括使用具有不同温度区域的反应堆进行低温合成;使用晶圆脱键合并涉及更厚的 2D 层状材料(比单层更机械稳定)来改进转移;采用原子层蚀刻;以及调整金属蒸发过程中传递的能量。发现克服高温处理限制的新型 2D 材料并优化与 2D 半导体兼容的材料的合成,包括 CaF2 、 PTCDA、BiSO5 、 SrTiO3等,可以提供新的选择。对于 CNFET,CNT 带隙均匀性(例如手性富集)和沉积方法(例如尺寸限制的自对准)对于确保高密度对准的 CNT 至关重要。此外,开发基于 LDM 的 FET 的理论模型对于集中实验努力至关重要。

4.3.4 3D单片集成

目标/需求

随着物理和等效微缩的极限越来越接近现实,一个关键机遇在于三维单片方法,该方法在晶圆级进行三维加工。在某种程度上,这是一种自然延伸,并建立在背面供电领域的最新进展之上。该领域蕴含着巨大的可能性,包括:通过将两个或多个器件堆叠在一起,显著提升逻辑密度;由于材料和结构可以通过堆叠方法解耦,在模块级和晶体管级均获得显著的性能提升;以及在同一逻辑芯片上集成其他功能,例如存储器、射频和供电等等。堆叠层的顺序处理也是提升功能性和密度的绝佳选择。顺序处理需要仔细考虑最终集成的器件层及其在密度、垂直互连、材料和工艺细节(温度、气体等)方面的兼容性。

目标应该是从产品角度更好地理解这些方法的优势(通过DTCO或STCO),以及在加工和所有要素协同集成方面面临的挑战。BEOL CMOS的价值声明已被推广十多年,但主要的半导体制造公司尚未实施,这解释了为什么需要进行研究和整合。

障碍/挑战

下表2 有助于说明单片集成和异构集成之间的区别。近年来,两者均取得了长足的进步。单片集成可以实现约 100 纳米的互连间距,预计 10 年内将缩小至 10 纳米以下。

图片

3D单片集成技术在应对更小间距尺寸方面拥有诸多机遇,也面临诸多挑战,需要创造性创新和严谨的执行。关键的系统级挑战在于理解和定义所有关键工艺要素,从而实现3D单片集成的规模化应用。在技术领域,关键问题是这些实现所需的高、高纵横比特征的处理。虽然这在DRAM 中很常见,但逻辑技术必须根据其特定需求和应用进行调整和采用。

可能的解决方案

仔细、详细的DTCO 分析要使三维单片集成成为增加功能和缩小逻辑尺寸的可行方案,最迫切需要的是开发工艺技术的关键选项和技术定义。堆叠晶体管实现中需要的一个具体要素是“分栅”集成,其中顶部和底部晶体管的栅极可以分别独立寻址。必须审查和理解的问题围绕着这种特性的必要性(这是现有技术的必然要求),以及这种连接所需的区域、工艺方法等。这个简单的例子说明了现有技术中许多看似理所当然的特性,可能会影响提供增值三维单片集成方法的能力。

同样,工艺技术人员也正在努力识别和解决与三维单片集成相关的工艺挑战[46]。值得庆幸的是,结合本章其他章节中的许多想法,将会成为关键的解决方案。例如,为了解决三维单片集成中的高度堆叠挑战,可以考虑将较厚的硅纳米带通道转换为二维材料。此外,原子层沉积 (ALD) 和原子层沉积 (ALE) 技术在这些高纵横比结构中也至关重要。

4.3.5 特性和计量

未来十年,表征和计量方法将面临新材料、新结构、新设备和新工艺日益严格的测量需求的挑战应对这些挑战需要加强工艺/结构与计量之间的联系。测量要求的一个显著变化源于向三维结构的转变及其复杂性的提升。对计量设备供应商而言,两个非常重要的突出例子是:n 型和 p 型 MOS 晶体管的垂直堆叠,预计在未来十年(2032-2033 年)内实现;以及存储器中多层膜堆叠的增加,这些多层膜具有极高的深宽比孔。显微镜的空间分辨率以及相关的表征方法(例如电子衍射和 X 射线表征)需要数据分析技术的进步才能实现常规应用。这些结构表征和计量的另一个关键是需要提供纳米级结构在更宽波长范围(从红外到极紫外到 X 射线)下的基本材料特性信息,包括热学、机械和电气等其他特性。缺陷检测面临着挑战,因为需要从特征尺寸减小且深宽比增大的器件中提供具有统计意义的信息。机器学习和人工智能将助力计量设备控制、数据分析和配方创建。NIST 拥有独特的能力,能够支持新测量方法的研发,并提供关键的标准和参考材料。关键机构和合作伙伴可以帮助推动生态系统的发展,从而实现快速扩展和混合计量等概念。这应该通过基础设施建设进一步增强。

4.4 先进制造的图案化和原子级加工创新

4.4.1 高数值孔径光刻和定向自组装

目标/需求

EUV:光刻技术使芯片制造商能够在先进节点开发更小、更快的设备。ASML 的 0.33 NA EUV 扫描仪采用 13.5 纳米波长,已被各大公司用于先进芯片的生产。然而,在 32 纳米以下的间距下,使用 0.33 NA 的直接打印 EUV 来图案化缺陷密度足够低的未来芯片将变得困难。这个问题可以通过使用低 NA 进行多重图案化来解决,但这会增加工艺复杂性、成本/工艺步骤,并施加设计规则限制。一旦 0.55 高 NA EUV 扫描仪面市,业界将了解是否能够通过一次曝光直接打印间距低于 20 纳米的线/间距图案,并遵循与设备相关的设计规则。除了较低的焦深外,在 20 纳米及以下的紧密间距下,高 NA 的关键限制因素之一是光子散粒噪声和光刻胶随机性导致的线边缘粗糙度和线宽粗糙度的变化。沿着这些思路,堆叠工程以及新型抗蚀剂(例如基于金属氧化物的抗蚀剂)以及补充技术(例如尺寸修改蚀刻)可以发挥重要作用。

展望未来,超NA(>0.7 NA)是一项新技术,它能够通过传统的单次光刻工艺实现器件缩放,达到约12 纳米级的最小投影间距分辨率,并且由于焦深 (DOF) 与 NA 2成比例,因此预计光刻胶厚度为 10 纳米(图 4.5)。

图片

EUV + DSA:通过量化分辨率(R)、线宽/边缘粗糙度 (L) 和灵敏度 (S) 来分析光刻胶材料,但优化其中一项会降低其他至少一项。这种“RLS 权衡”是一个主要问题,需要特别

注意以可接受的剂量解析光刻胶。打破RLS 权衡的一种方法是使用定向自组装 (DSA),它是 EUV 的补充技术 [48]。EUV 光刻胶的嵌段共聚物 (BCP) 整流使用光刻定义的引导图案来利用 BCP 的相分离来创建与 EUV 设计布局一致的明确定义的线/空间结构和六边形接触孔 (CH)。BCP 具有化学定义的内置尺寸以扩展缩放并且对抗蚀剂缺陷具有耐受性,与单独的 EUV 光刻相比,提高了整体图案均匀性 (LER、LWR 和 CDU)。

挑战在于,目前生产的大多数EUV 光刻胶是基于聚合物的化学放大型光刻胶 (CAR),而金属氧化物光刻胶 (MOR) 则是一个新平台。进入超数值孔径 (NA) 领域后,光刻胶厚度微缩(预计超数值孔径为 10 纳米)带来了限制和挑战,这将加剧线边缘的粗糙度和缺陷。

薄聚合物抵抗挑战

  • 随机性(较薄的光刻胶由于分子大小、聚集/分离和多种成分而具有更多的分子不均匀性)。

  • 高光子散粒噪声效应。

  • 蚀刻转移限制。

  • 底层效果高。

  • 二次电子效应(~4 nm 的模糊成为分辨率的一部分)。

金属氧化物抗挑战

  • 仅使用负性光刻胶。为了印刷接触孔,需要使用明场掩模版,但容易出现掩模缺陷。

  • 由于与底层相互作用而导致的不稳定性(机制尚不清楚。)

  • 由于与大气相互作用而导致的不稳定性(机制尚不清楚。)

  • 需要提高抗蚀剂/吸收的量子效率(剂量与间距2成反比,可能会无意中导致剂量损失。唯一的补偿方法是提高抗蚀剂灵敏度,同时保持良好的大气稳定性。这将有助于控制EUV光源功率。)

  • 二次电子效应(模糊程度小于聚合物抗蚀剂,但会进一步限制间距分辨率。)

与MOR 相比,聚合物抗蚀剂不太容易与晶圆堆叠和大气发生相互作用。

EUV + DSA: EUV 光刻胶图案的线/间距 (L/S) 和接触孔 (CH) 校正需要开发新的材料,用于引导图案、BCP 材料和 BCP 蚀刻工艺,以满足严格的粗糙度和缺陷率要求。LS 和 CH 可以通过化学外延或图形外延形成,但就 LER 和 LWR 而言,化学外延更有利。EUV + DSA 应用的主要限制在于设计规则受限以及工艺复杂性,需要多个光刻步骤才能生成逻辑版图,而 CH 校正不适用于逻辑应用中使用的版图。

L/S挑战

  • 仅限于单间距,无法用于需要可变性的应用(多间距、变化的空间和大面积人口稀少的地区)

  • 对双重图案CD 变化敏感(需要较小的 CD 变化)

CH 挑战

  • 难以以紧密的间距进行打印(需要分成多次打印,每隔一个CH 打印一次,然后进行第二次打印。Hyper NA 将启用单次打印 CH。)

  • 控制图案放置误差(PPE)和缺陷(部分封闭和缺失孔)的策略

  • CH 整流模式,仅限于六边形对称。

EUV 和 DSA 共同面临的挑战和限制是用于绘制化学位置以及表征和量化图案化基板上的化学成分的计量技术。

可能的解决方案

EUV方面,将光刻胶缩小至超薄(≤10 纳米):随着特征尺寸的缩小,光刻胶分子组分在特征尺寸中所占比例显著增加。构成光刻胶的分子需要是单组分、小分子结构,以防止聚集和偏析。新的设计结构将需要超薄光刻胶和底层的组合。需要了解聚合物尺寸和构象对光刻胶射程的影响。未来的光刻胶设计需要考虑光电子和二次电子的射程及其随机影响。

电源方面,由于剂量随间距变化,因此需要更高功率的光源。

新型光刻胶材料和光刻胶工艺方面,干法沉积和干法显影(即分别采用原子层/分子层沉积和化学选择性干法刻蚀)是未来重点研究方向。通过进一步的化学处理对沉积和/或显影的光刻胶进行改性也是未来研究方向,例如通过气相渗透添加无机元素、通过ALD技术对光刻胶进行整形以及原子层刻蚀(ALE)。

互补的LER/LWR 改进技术方面,尺寸修改已被证明不仅可以提高端到端特征的 CDU,还可以将 CD 缩小到亚分辨率极限。最近,尺寸修改技术也被证明可以提高线/空间图案的 CDU。

EUV+DSA

为了适应超高NA,L/S和CH应用都需要第二代高chi BCP材料,其间距小于20纳米,线边缘粗糙度和线宽粗糙度小于1.7纳米。二嵌段体系已非常普遍,然而,具有高蚀刻选择性的新型三嵌段ABC共聚物将拓宽DSA的应用范围。采用顺序渗透(SIS)技术进行嵌段共聚物加工可以提高蚀刻选择性和粗糙度值。单个 BCP 块相对于另一个 BCP 块的相对位置,以及干显影冲洗材料帮助解决图案崩溃问题。新的BCP退火技术,例如BCP 的溶剂蒸汽退火,将允许热不稳定的 BCP 分子。

4.4.2 原子级处理,包括原子层沉积和原子层蚀刻

目标/需求

新型器件结构和材料需要对原子尺度的材料合成和加工有新的理解和更佳的控制。原子层沉积(ALD) 采用受控的自限性表面反应序列,是目前最常用的方法,而准自限性原子层沉积 (ALE) 正迅速迈向全面制造。区域选择性沉积 (ASD)[50],通常采用沉积和刻蚀相结合的方法实现,也引起了人们的极大兴趣。其他原子尺度工艺诸如原子层退火等技术也正在探索中。然而,这些方法尚未充分发挥控制原子位置和键合结构(这是目标器件设计所需的)的潜力。我们需要分子工程方面的新进展,包括前体分子的设计和合成、新型钝化化学的开发、原子级和基于人工智能的建模。基于原子层沉积(ALD)自限性原理和新型机器学习控制策略的定向化学合成也必不可少,但目前尚未实现。

障碍/挑战

单个自限性ALD 循环中薄膜的生长程度取决于反应前体的结构和表面反应位点的性质。这意味着需要更好地理解 ALD 成核机制及其如何转变为连续生长。在形成超薄膜时,理解反应机制的这种转变变得更加重要,例如,如上文 4.3.2 所述,实施种子层 ALD 或填充工艺以将互连线缩小到 20 纳米间距以下。同样,ALE 中的许多机制已被描述,但 ALE 机制如何随着蚀刻的进行而演变或如何应用于超薄膜仍是未知的。用于分析和量化表面反应的可靠工具,以及用于在制造过程中实时监测反应的计量方法仍然是一项重大挑战。

新器件的构建需要使用制造过程中暴露在表面的多种不同材料。这对原子级加工提出了挑战,因为在一种暴露材料上进行的预期反应可能会对相邻材料造成有害结果或不必要的损坏。例如,二维材料的出现带来了额外的挑战,因为二维结构是由固有的化学各向异性决定的,具有反应性边缘和相对被动的暴露表面。在二维导体中添加介电材料或半导体材料是这一挑战尤为突出的一个特定领域。二维材料表面的成核不应通过二维材料表面的键修饰来实现,以避免改变二维材料的电学性质。诸如范德华外延和掺杂等新方案需要得到更深入的理解。

ALD 和 ALE 工艺中使用的反应物是具有原子级精度的分子,ALD 利用这种精度来实现大面积的平均均匀性和保形性。关键挑战在于开发新的可行且可扩展的低温固体薄膜工艺。具有原子级精度和材料特异性。在后端应用中,保持低温(<400°C)对于避免掺杂剂和金属在底层扩散至关重要。因此,与外延生长等高温工艺不同,低温限制了平衡热力学在实现预期结果方面的应用程度。在 ALE 工艺中,还必须避免蚀刻剂物质扩散到未被蚀刻的区域。此外,ALD 和 ALE 工艺本质上是随机的,因此空间位阻和其他分子效应会导致原子尺度的固有非均匀性。随着特征尺寸不断接近分子尺度,了解 ALD 和 ALE 工艺过程中分子尺度的随机现象将至关重要。

随着存储器和逻辑电路尺寸的减小,使用等离子体作为原子层沉积(ALD) 和原子层释放 (ALE) 的转换手段将变得更具挑战性。等离子体中高能物质的复合速率取决于等离子体气体的成分、压力和流路的几何形状。众所周知,所有等离子体增强原子工艺都存在纵横比限制,这将限制这些技术在路线图中的应用。在某种程度上,标准的等离子体增强原子层沉积 (ALD) 和ALE工艺将需要热替代方案。

可能的解决方案

化学选择性:开发用于识别、促进、分析和量化ALD 和 ALE 中化学选择性的方法是未来工艺的重中之重。包括 ASD 和选择性蚀刻在内的选择性的进步,需要平衡潜在的热力学驱动力和化学反应速率。表面钝化可以阻止不需要的、能量上有利的反应。但是,如果可以提高所需工艺的速率以限制不必要的辅助成核程度,则通过表面控制来实现内在选择性(无需分子钝化)可能更为有利。虽然 ALD 可以在高纵横比表面上以亚单层或原子级精度控制均匀薄膜的厚度,但 ASD 实现的化学选择性也可能为控制横向“蘑菇”生长提供途径。研究人员开始了解前体在非反应性表面上的相互作用如何影响由此产生的ASD图案的形状和横向过度生长的程度。更好的量化图案形状的方法,例如垂直选择性分析,可能有助于对ALD和ALE过程中随机表面反应的根本限制有新的认识。

前驱体与工艺协同设计:前驱体与工艺的协同设计是拓展研究的重要方向。对前驱体稳定性、不稳定性及反应性的全新理解,例如新型铪化合物的开发,已推动原子层沉积(ALD) 工艺及其与半导体制造的集成取得重大进展。例如,专门设计用于在所需表面上进行选择性反应的前驱体将具有很高的价值。前驱体/工艺协同设计还可以使反应物在预先设计的反应条件下使用特定的共反应物时,遵循预定的反应路径。这有望为先进器件系统实现稳定、低缺陷晶体材料的低温沉积。

工艺强化:原子级加工,尤其是原子级表面扩散(ASD),也可能受益于新的协同方法,即将沉积和蚀刻整合在一起,形成一个重复的循环序列,或同时进行共定位或相邻反应。将多个合成步骤耦合到一个单一强化工艺中的重要性已在化学工业中得到充分认可,而工艺强化方面的类似进展对于电子制造业也具有重要意义。例如,可以通过调节温度来控制平衡产物分布,从而平衡沉积和蚀刻,但这种平衡通常需要高温,而高温往往会引发不必要的掺杂剂和金属扩散。将低温工艺反应结合起来的新技术有望指导未来器件结构所需的反应路径。

过程建模与控制:人工智能和机器学习领域的新兴能力或将为理解、设计和优化各个基本反应步骤提供新的途径,并将反应和复杂的工艺序列耦合到完整的制造设计中。新的原位反应分析工具与定向人工智能分析和建模相结合,对于提高制造可靠性和成本,以及最大限度地减少能源消耗和环境影响至关重要。同时,化学和材料信息学将用于识别未来规模化所需的新材料、反应物和工艺。

此内容为平台原创,著作权归平台所有。未经允许不得转载,如需转载请联系平台。

评论
暂无用户评论