使用AI整合不同的IC生态系统数据

来源:半导纵横发布时间:2024-09-27 17:08
AI
生成海报
为什么芯片行业如此关注用于设计和制造芯片的大型语言模型,以及实现这些计划需要解决哪些问题。

人工智能有可能改变公司在全球半导体生态系统中互动的方式,将不同的数据类型和流程粘整合在一起,这些数据和流程可以在过去几乎没有任何直接联系的公司间实现共享。

芯片制造商始终使用抽象层来了解芯片的各个组件如何组合在一起,从而使他们能够比分而治之更快地查明潜在问题并进行修复。事实上,大多数问题都是在设计流程的最早阶段发现的,这时修复它们所需的时间和精力最少。

但即使使用最好的工具,也并非能解决所有问题。这就是为什么如此多的设计过程花费在验证和调试上,以及在制造和封装过程中有着越来越多的测试和检查切入点。尽管做出了这些努力,一些设备仍然在实地使用时失败。在最好的情况下,它们可以通过软件补丁来修复,填补安全漏洞或减轻电池过度消耗。在最坏的情况下,追踪静默数据损坏等问题可能需要数月时间才能查明。有些问题可能是特定于工艺的,例如基板中的点蚀或翘曲、由于晶圆厂中一个或多个工艺中的热量导致的意外材料损坏,或者特定领域设计中小芯片之间意外的相互作用。

从积极的一面来看,问题发生时并不缺乏需要整理的数据。几乎每个流程步骤都会编译千兆字节到太字节的数据。问题在于数据通常对于特定流程来说是唯一的,并且不一定对其他流程步骤有用。例如,检查数据与电气测试或振动数据或在室内进行的热测量有很大不同,并且数据分析可能仅关注一两个测量来识别问题。通常,大部分数据都是抽象的,这使得识别和评估问题变得更加困难。

这就是大型语言模型的用武之地。大型语言模型允许共享任何数据或数据类型,从架构探索和布局规划一直到复杂系统中的最终测试。这也是芯片行业对大型语言模型如此热议的原因。与典型的抽象层(从特定流程中发生的任何事情中删除一个或多个步骤)不同,大型语言模型抽象可以是水平的、包罗万象的,识别不同流程步骤和工作流程之间不明显的模式。这使得负责从设计到制造流程中任何步骤的工程师,甚至是那些在现场跟踪问题的工程师,都可以利用从生态系统一端到另一端的相关数据。

图 1:大型语言模型融入人工智能领域的地方。来源: 蒂尼斯

Synopsys 生成式人工智能卓越中心负责人 Stelios Diamantidis 表示:“生成式人工智能让我们能够为许多问题描绘出宏伟的蓝图。如果你考虑芯片设计流程,我们一直在引入人工智能技术,利用强化学习来帮助我们进行优化,从而更快地找到解决方案。生成式人工智能强化了这一点。首先,它有助于培养新人才。它可以帮助我们更快地获取信息。通过将用户界面转变为自然语言界面,在团队之间共享信息。这是第一个影响点。再往后看,整个设计流程都可以通过生成式人工智能融合在一起,借助其具备的规划和推理以及解决高级别问题的能力。这是该行业最终将发展的方向。”

这就是芯片行业变得特别有趣的地方。 Diamantidis 说:“我们在所有设计抽象中都使用语言,大型语言模型已经帮助我们连接了许多这些知识点,但未来这些模型将会不断发展。也许我们会讨论其他类型数据的大型语言模型——抽象将帮助我们在整个设计周期中更内在地连接各个点。因此,你将能够从制造中提取信息,并将其与建筑中的数据关联起来,因为你已经围绕这些数据抽象构建了语义空间。”

图 2:使用生成式 AI 模型的第二波 AI 浪潮。资料来源:Synopsys/Hot Chips 2024

这一观点在IC生态系统的其他部分也得到了呼应。“整个想法是扩大我们在晶圆分类和封装测试方面的关注范围,并重新进入后硅验证等领域,与电子设计自动化建立强大的联系——推向系统级测试和系统测试,然后能够提供整个频谱的解决方案,”Advantest应用研究和技术副总裁Ira Leventhal表示。“能够在晶圆、晶圆分类、晶圆验收、参数测试上进行测试,然后甚至返回到后硅验证,并从晶圆向前发展。在进入最终封装之前,可以进行单片测试,或者构建某种中间结构,该结构将进入最终基板。这些每一项都是测试插入点,我们的客户需要根据特定的应用以各种方式拥有这些能力并将它们组合在一起。”

在先进封装方面,这一点变得特别有吸引力。“当你拥有来自各方的分散异构集成芯片时,这变得更加有趣,”Teradyne技术和市场总监Nitza Basoco表示。“现在我们看到各公司组团合作共同开展这项工作。如果他们都同意运行这些东西,那么你就可以回头说,‘我可能会在这里遇到问题’。在此之前,很多人担心如果他们分享太多信息,这些信息可能会被用来对付他们。但与此同时,如果真的需要找出问题的根源——因为这不仅仅是一个供应商的问题——那么我们就需要主动出击,找到这些问题的所在。”

这是一个革命性的想法,但只有解决三个主要挑战才能发挥作用:

·找出一致的方法来限制共享哪些数据以及与谁共享;

·共享数据后确保数据安全,以防止泄漏或彻底的 IP 盗窃,特别是当涉及来自不同代工厂的多供应商小芯片时;

·将现有工具和流程与大型语言模型联系起来。

所有这一切的关键是制定足够的规则和标准,以在不同公司之间建立信任,这在竞争激烈的全球行业中并非易事。

“所有这些都是数据驱动的,”SambaNova Systems 联合创始人兼首席架构师 Kunle Olukotun 说。 “如果我是 A 公司且对我的设计有所了解,真的希望通过 EDA 供应商将这些信息传递给 B 公司吗?如果没有设计数据存储库,就无法训练好的模型。 EDA 公司可以在没有客户设计数据的情况下训练出好的模型。这是芯片设计需要专门解决的根本问题。”

端到端数据

假设数据共享和安全问题能够得到解决——目前整个半导体行业正在就如何实现这一目标进行大量讨论——那么对从设计到制造的每个领域的影响都可能是巨大的。

“数据编排是我们的首要目标之一,因为在测试中有三到八个晶圆排序测试步骤,然后是封装,之后是许多最终测试以及系统级和早期系统级测试,”PDF Solutions 首席执行官John Kibarian说。“最终,你希望从一个插入点中提取性能参数,并将其传递给下一个点,以便在下一个点根据上下游数据做出控制决策。你希望在整个生产流程中都能做到这一点,因为通常晶圆分类是在一个设施中完成的,而最终测试和可能的系统级测试则是在另一个设施中完成的。现在从事构建板卡或整个系统业务的客户,如富士康等公司,将拥有第三个系统级测试能力。”

下一步是要能够以受控的方式利用大型语言模型。因此,与其共享所有数据,不如让现有工具能够划分这些数据,以便只共享特定数据。我们的目标是在合理的情况下,将现有工具和流程与大型语言模型联系起来,并防止专有数据泄露。这是一项重大挑战,但需要解决这一挑战才能使所有这些工作顺利进行。

Kibarian说:“就像一个大弧线,我们看到客户的趋势是越来越多的东西在向数据所在的地方移动。”“这可能与K&S在引线键合方面的机器学习合作有关,你可以将算法转移到键合机上。否则会在网络上产生大量数据流量。”

为了实现这一点,我们需要的是一个灵活的模型,能够将许多不同的知识产权结合在一起,并以某种方式将它们关联起来,而不是创建一个试图一次性完成所有工作的模型。Keysight新业务机会经理Chris Mueth说:“但这需要一些思考。有些模型类型试图做一些这样的事情,但它们不是主流。它们对于不同的供应商来说是独一无二的。任何对供应商来说独一无二的东西,都不会传播开来。在我们实现那点之前,我们必须将领域更紧密地联系在一起,因为你可以发明模型,但如果你没有将领域联系在一起,那么没有人会使用它。让两个领域相互沟通、交换知识产权是一个棘手的问题。作为横跨两个领域的供应商,这也并不容易。”

虽然大型语言模型备受关注,但要使用大型语言模型和其他人工智能技术将一切连接起来,还需要解决数据难题的其他部分。

Tignis 总裁兼首席执行官Jon Herlocker 表示:“这一愿景的障碍不是技术,而是流程和数据孤岛以及组织问题。作为一个行业做到这一点的唯一方法就是更深入地研究数据。但有些挑战仅与数据基础设施有关。围绕大型语言模型的炒作让每个人都对进行更智能的数据分析的想法感到兴奋,但今天,发挥作用的并不是大型语言模型。真正的挑战是克服后勤、内部流程障碍,开始相互传递数据。这些数据模式通常是不同的,让它们保持一致是很痛苦的。”

需要更高的效率

另外两个重大挑战也需要解决。首先是如何有效地处理大量数据,这取决于用于处理这些数据的系统架构,从内存和处理器到用于连接它们的 PHY。

第二个挑战是如何减少生成式人工智能查询的数量,这会消耗大量的能量。从能源网格和使用的角度来看,数万亿个大型语言模型查询是不可持续的,因此每个查询的结果需要更准确、更严格地定义,并且需要在本地进行更多的数据处理。这基本上就像边缘和云之间的划分工作一样,其中大型语言模型在超大规模数据中心中创建、维护和更新,而许多更集中的机器学习算法则在边缘使用。

至少从成本角度来看,人工智能/机器学习的好处是可以提高工程师的工作效率,考虑到芯片行业面临的人才短缺,这一点至关重要。但这也意味着工程师需要了解生态系统的更广泛部分,而不是在设计或制造流程的一小部分中工作。

“社会对我们的依赖已经发生了根本性的转变,”Siemens Digital Industries Software 的 Silicon Systems 首席执行官 Mike Ellow 说道。 “他们需要我们取得成功,而半导体需要可靠、有弹性的基础设施,以及一种用更少的大学毕业生来实现这一目标的方法。那么,如何为早期职业工程师和经验丰富的工程师带来倍增效应,以应对大量设计中的挑战呢?这与芯片的数量无关,而是随着时间的推移必须进行的设计数量,以预测人工智能未来的发展方向?在过去,你可以看到设计启动设施不断增加,技术节点是相当可预测的。你经历过起起落落、繁荣-萧条周期。但在未来的某个时刻,我们会遇到一种耗尽一切的状态,并且我们不会经历同样的繁荣和萧条。当然,我们会看到公司来来去去,但有些人会失败得更快,因为成功和失败之间的时间间隔将被大大压缩。”

此外,这种压缩将发生在各个行业领域。 Advantest 的 Leventhal 负责异构集成路线图的测试数据分析工作组,他表示这种跨部门互动的势头正在不断增长。“工作组中有几个人说,‘让我们开始吧。’ 这有点像‘我们能在飞行中重建引擎吗?’所以我们正在研究如何利用无监督学习技术或强化学习来实现这一目标,即你试图朝着某个目标进行优化,而不是依赖一堆训练模型或基于时间序列的算法来寻找意外行为。”

Leventhal 指出,最好的方法不是挑选出哪一种技术效果最好,而是如何将它们结合起来以获得最佳结果。 “实际上这个有一个名字,”他说。 “这就是所谓的深度强化学习。你有一个监督学习模型,某种训练过的深度学习模型在奖励级别工作,然后用强化学习算法来决定下一步采取什么步骤。你可以应用无监督学习将多个步骤联系在一起。”

对芯片架构和技术的影响

理论上,大型语言模型和机器学习的结合应该可以实现更高的产量、改进的可靠性和性能,以及更简单地在设计中集成异构计算元素。

Teradyne 的 Basoco 表示:“数据和数据所有权之间存在一层关系,以及当你想要与某个公司共享数据时,你希望给予其尽可能少或尽可能多的可见性。这是其中一个方面。另一个方面是,这始于设计的最初阶段,即架构阶段。我们进行设计,运行模拟。我们来回进行模拟,并从更广泛、更宏大的层面来看待它。这不再只是我和我的芯片。而是我、我的芯片、基板、互连、其他芯片。它是否会影响数据路径另一端的芯片A,以及它将如何影响可能就在附近但与芯片A或芯片B没有真正交互的芯片C?”

这需要在整个生态系统中进行大量协调。仅仅期望大型语言模型来解决这个问题是不切实际的。至少从短期来看,结果可能是市场分裂成两个方向:一是系统公司开发用于训练大型语言模型的最先进芯片;二是设计更加通用、灵活和可重用的部分,这些部分具有狭窄的焦点。

这是现场可编程门阵列和数字信号处理器在过去如此成功的原因之一。它们为变革提供了缓冲。对于那些急于率先进入市场的公司来说,英伟达基于CUDA的可重用模型已经证明非常具有吸引力。但随着设计的异构性越来越强,这些领域将开始以新的方式融合在一起,并且需要以小芯片和更标准化的组件形式提供灵活性。

Eliyan 首席战略和业务官 Patrick Soheili 表示:“当你想到小芯片,你会发现它违背了摩尔定律的放缓。”如果想构建 [NVIDIA] Blackwell 芯片,我需要尽可能高的带宽、尽可能低的功耗、每毫米边缘尽可能大的带宽以及 ASIC 中最小的 PHY 面积。这些都是非常重要的事情。所有这些类型的公司的工作速度都在每秒每毫米 5 到 20 太比特之间。如果没有,那么连接的两个 GPU 将无法充当一个芯片。你会在延迟、功耗和性能上错失良机。”

这些芯片系统将用于创建大型语言模型,而LLM将用于确保各个小芯片、芯片以及从架构到最终测试的整个系统都能按预期工作并正常产出。

现实检验

这一切都还处于未来阶段,尽管大型语言模型的研究正在以惊人的速度进行,但并不是所有的部分都在以同样的速度发展。这一端到端的愿景可能需要数年时间才能成为现实,而数据链最终会有多完整,目前还无从得知。

“当我们考虑这样的话题时,重要的是要稍微踩一下刹车,并确保我们在诚实地了解正在试图解决的问题,以及提出的解决方案的优点和局限性这些问题,”Cadence 战略和新企业集团总监 Rob Knoth 说道。 “我们正在讨论将不同的工具、不同的数据格式整合在一起,所有这些都是本着发现事物之间意想不到的联系,以帮助解释夜间出现的问题并防止其发生。当你在谈论问题的调试时,这是一件很棒的事情,但这并不是我们在电子设计自动化领域所做的全部工作,这也不会解决EDA中的所有问题。”

设计、制造和测试复杂芯片和系统所需的数据量是巨大的。 “大型语言模型是否会在当今和未来不同数据集之间的接口方面发挥重要作用,从而极大地改变我们调试见解的方式?答案是 100% 是的,我们正在与我们的合作伙伴一起走上这条道路,在该领域开展真正的生产工作,” Knoth 说。 “它会取代整个工程软件吗?我们是否不再需要考虑工程软件本身的数据结构?一点也不。如果你考虑 NVIDIA 的 Grace Blackwell 及其 2000 亿个晶体管,然后考虑所有这些晶体管之间的互连数量,以及所有功能波、这 2000 亿个晶体管上 1 和 0 的状态,那这个问题不能仅仅留给最新的聊天机器人来解决。”

然后还有大型语言模型的准确性问题。 “当然,大型语言模型将消除一整类糟糕的写作工作,而且它们可能很有用。如快速总结内容,为入门读者提供密集的主题要点。”Quadric 首席营销官 Steve Roddy 说道。 “但根据定义,大型语言模型是编造的东西,所以他们充其量只是那些拥有真正知识、从事真正工作的真正人的辅助。不明白一个容易出错的工具如何帮助测试工程师在装配和测试车间完善测试模式,或指导工艺工程师如何调整晶圆厂工具上的配方。”

结论

围绕大型语言模型的热议——以及两年前 chatGPT 的意外发布——让芯片行业思考了连接数据的可能性和价值。所有参与其中的人都同意,要达到宣传的效果,还有很长的路要走。

“你必须开始对所有信息进行分类,并对其进行标记,以表明‘该文档在这些情况下使用很有用,’”Herlocker 解释道。 “因此,你开始标记要在这些上下文中使用的所有信息,然后查询系统接受您的查询并对其进行翻译以对标签进行排序,然后将其输入到大型语言模型中以回答问题。这是当今使用大型语言模型的最佳模式实践,但这需要大量工作。这不仅仅是将所有数据放入一个大型语言模型中并将其发送。”

考虑到人工智能的大量可能性和快速变化,即使找出最好的前进道路仍然是一个挑战。“建造变压器的人并没有想到我们现在仍然会使用变压器,”Expedera 解决方案架构师Patrick Donnelly说。 “我不知道开发卷积网络的人是否认为这将是我们用于视觉的东西。也许我们将来会使用 Transformer,但是很多批判性地看待它的人会说这不是处理这些大型语言模型的最有效方法。或者,如果我们要开发更具体的语言模型来完成更细致的任务,也许我们需要一种不同的方法。或者,如果我们坚持这种方法,我们需要针对许多不同的应用程序定制这种方法。因此,无论是改变大型语言模型的基本架构还是扩展该架构,在解决这些棘手的问题之前,算法开发方面还有很多工作要做。”

美国商务部国家先进封装制造计划现任项目经理 Rob Aitken 表示,这些大型语言模型需要足够大才能做一些有用的事情。 “一旦达到 700 亿或 1000 亿个参数,或者达到这个邻域大小,那么你就拥有了一个可以做很多事情的模型。然后你可以让多个模型互相交谈、学习和做事。现在还为时尚早。有些深藏不露的人说我们正在朝着某种明确的方向前进。但在我看来,围绕此进行的实验有很多,而在某个时候,会有一组事情突然显现,我们会说,‘这就是正确的方法。’”

图3:AI辅助EDA数字化实施的优势。来源:新思科技

目前看来,可能性似乎无穷无尽,但也有很多警告。“我们坚信现在正处于一些令人惊叹的事情的边缘,”Synopsys系统设计组总经理Ravi Subramanian表示。“从大型语言模型(多模态模型)的演变来看,我们所看到的是,它不仅仅关乎语言,还可能与图像和语音有关。你可能会有生物模型。但其中一个关键问题是训练这些模型需要多长时间,需要多少能量。这开始成为一个经济问题。”

本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。

评论
暂无用户评论