启用RAG增加信息来源,消除不确定性

来源:半导纵横发布时间:2024-09-30 14:23
AI
生成海报

许多 EDA 公司已经迈出了将生成式 AI 整合到其工具中的第一步,在这种严格控制的环境中,GenAI 似乎具有很大的好处。但由于其显著的不准确性,如给出的结果往往是过时的、不真实的和没有来源的,GenAI的广泛采用被推迟了。

这种情况正在开始改变。GenAI 的快速发展使这类问题正在得到解决。随着新方法的推出,GenAI 变得越来越适合半导体行业。通过既有EDA企业和新创企业提供的解决方案,GenAI 有望成为开启效率新时代的强大竞争者,其可以自动执行许多繁琐的任务并缩短完成时间。

有效使用生成式 AI 模型通常是一个两步或三步过程。首先,开发人员选择一个预先训练的基础模型。这些是由 Meta 和 OpenAI 等公司提供的巨大模型。(麻省理工学院最近有一篇论文探讨了如何评估基础模型的可靠性。)其次,为了更有效地使用,基础模型会通过一个称为微调的过程,用特定领域的知识进行定制。

“在基本方法中,你可以使用基础模型,该模型已经在自然语言理解方面接受过良好的训练,”Siemens EDA 数字验证 AI/ML 解决方案经理 Dan Yu 说。“然后在此基础上添加一些微调。例如,我们的客户正在寻找验证解决方案,所以我们会加入数字验证团队的信息并进行微调。

对于许多使用案例来说,微调是将基础模型转变为专业资源的最后一步。但是,为了确保信息的准确性和最新性,作为第三步的检索增强生成 (RAG) 等新框架正变得越来越流行。

许多用户在谷歌搜索、Otter文字转录等各处都能感受到AI生成的摘要所带来的影响。这些摘要的背后是RAG技术的驱动,它是聊天机器人背后的“秘密武器”,如今这些聊天机器人能够为用户提供帮助,对Adobe PDF文件及其他文档进行摘要整理和询问分析。

许多用户在 AI 创建的摘要中看到它们的效果,从 Google 搜索到 Otter 成绩单,无处不在。它们由 RAG 提供支持,RAG 是聊天机器人背后的“秘密武器”,现在有助于总结和询问 Adobe PDF 和其他文档。

AI 联盟称,半导体行业的 AI 领域正在从简单的聊天机器人发展到多样化的特定领域系统,这些系统将不同大小的模型与专用工具相结合,以应对芯片设计优化和良率提高等复杂挑战。这些 AI 解决方案专门用于半导体特定任务,通常会将基础模型与行业知识相结合。

基础框架、模型

2021 年,随着生成式 AI 从文本查询扩展到图形、音频和视频,斯坦福大学以人为本的人工智能研究所 (HAI) 表示,“语言模型”一词过于狭隘。作为替代,它创造了“基础模型”一词来强调它们“至关重要但又不完整”的特性。在实践中,基础模型是在大型、无差别数据集上进行训练的模型。然后,它可以针对特定目的对其进行修改,通常包括变得更小以降低功耗。例如,Meta提供了其旗舰基础模型Llama 3.1,具有4050亿个训练参数,以及700亿和80亿个参数的更轻量级模型。

尽管基础模型功能强大,但它们一直受到持续存在的问题的困扰。HAI 进一步表示,这些模型在过多任务中的有效性促使了同质化。虽然同质化具有强大的优势,但也需要谨慎对待,因为基础模型的缺陷会被下游的适配模型继承。这也是基础模型被指控存在种族主义的部分原因。不仅错误会重复出现,而且长尾数据可能会被模型平均化,从而消除了与更广泛信息相矛盾的关键异常值。

训练集可能会比当前知识晚一年或更长时间,从而导致答案过时。此外,模型可能会 “产生幻觉”,生成完全虚构的答案。最糟糕的是,AI 基础模型并不直接链接到来源,因此无法仔细检查他们的答案是过时的、错误的还是逐行抄袭的。

来源问题有一些解决方法,例如使用学术剽窃检查器,或者更简单地说,将引用的短语粘贴到 Google 中,看看它是否返回原始文章。也可以提示模型包含来源,但人们需要仔细检查引用的来源是否存在。

这些方法仍然无法解决过时的信息问题,并且还增加了繁琐的双重检查,这使得这些模型对于企业级生产力来说不是最佳选择。更糟糕的是,AI 检查器经常给出误报,导致许多无辜的学生和专业人士被指控作弊。根据一位记者的经历,“一位文案编辑对我提交的一篇文章中使用了一个工具,发现它有 49% 是由 AI 撰写的。然后,另一个工具说它有 15% 是由 AI 编写的。

RAG 是 GenAI 代理的基础

为了应对这些问题并创建更可靠的模型,研究人员开发了“代理框架”,这些框架可以修改基础模型,使其更加精确和可靠。这些新方法还扩展了模型可以执行的操作。对于用户来说,它们可以显示为更人性化的前端,这些前端可以执行诸如总结数据之类的操作,同时自动包含真实的引文和链接。

以Tavily.com为例,它能为查询提供附有真实引用的回答。不过,Tavily的导航确实有点令人困惑。从主页开始,在右上角找到“Dashboard(仪表板)”;进入下一页后,点击菜单图标(三条横线);然后在左侧栏中点击“Research Assistant(研究助手)”。另一款应用Perplexity与之相似,但界面更为简洁。由于它会标注引用来源,因此很容易发现某个答案是从其他网站直接引用的。值得注意的是,在回答同一问题时两者引用了不同来源。

这两个站点都由 RAG 提供支持,RAG 于 2020 年首次发布。有关 RAG 的编码示例,请查看 Hugging Face。

“进行微调时教给模型的是一种语言。这可能是半导体的语言,或者是以特定方式响应的技能,“NVIDIA 生成式 AI 总监 Amanda Saunders 说。“RAG 将现在经过训练的模型与实时实时数据源或数据语料库连接起来,以便它可以直接从这些数据库中提取信息。这意味着不必继续训练;它使模型更小、更紧凑,同时可以访问所有数据。RAG 从用户或应用程序那里获取问题,然后由规划代理将其发送到正确的数据库。它将根据问题查找相关数据和信息,从而检索数据。然后,它将该数据扩充到问题中。本质上,RAG 会说,“提出的问题是我将交给模型的相关数据源。”应用程序会说,“希望模型将这个问题、这些数据转换为响应。”这种响应可以是总结文本、生成新代码、创建新图像等等。检索数据、扩充数据,然后生成新的响应,是 RAG 的本质。

鉴于 Saunders 对代理未来的预测,有一天代理可能会审查 Tavily 的界面,例如,提出修改建议,并根据要求进行修改。目前,即使是具有真实来源的摘要也是一个可喜的进步。

“像 Google 这样的经典搜索引擎使用爬虫检索所有数据,”西门子的 Yu 解释说。“他们检索互联网上的每一个网页,然后应用智能算法来查找文本之间的相似性。然后,他们将其存储在内部数据库中。当您有问题时,他们会尝试使用矢量数据库将您的问题与最近的网页的最近答案相关联。因此,当您有问题时,他们会发现您的问题与最近的网页之间的相似性。RAG 只是更进一步。在您获得最相关的前 10 个答案后,它会为您提供所有这 10 个答案的摘要,因此您不必浏览 10 个或更多网页。您可以立即以您想要的风格获得所有东西。检索部分并不是什么新鲜事。我们每天都通过 Google 搜索来做到这一点。其厉害之处在于总结,而且这一功能可以根据不同的需求进行调整。

从本质上讲,预先训练的基础模型是一个通才模型。它什么都知道一点,但缺乏专业知识的深度。“如果我想进行布局布线并实现极低的功耗,我不需要一个既能回答琐事又能执行其他通用任务的代理,”Cadence 数字和签核小组的产品管理总监 Rob Knoth 说。“如果你有一个非常定制化、非常具体的模型,那么你可能不需要为拥有一个大型通用模型而付出代价,但这确实会产生一定的成本。”

然后,RAG 可以检索这些知识,使用额外的最新信息对其进行补充,并以专家级水平进行总结。然而,Yu 指出,如果底层基础模型没有使用特定领域的数据进行微调,那么关于小芯片的 RAG 总结听起来可能像一个困惑的英语专业学生对工程课程的解读。

“你可以把RAG想象成一个后过滤器,它不会像微调那样干扰基础模型的内部机制,而是会查看查询、查看答案,并查看它可以访问的知识库,然后利用这些信息来改进答案,”Knoth说道。“RAG之所以有用,是因为无论你选择哪个基础模型,你都可能有一些非常具体的用例数据、电子邮件、电子表格和其他文档,这些是你不想或不能纳入训练的。有了RAG,你可以拥有自己的基础模型并从中获取答案,从而提高这些答案的准确性。”

关于RAG与微调之间有很多讨论,共识是仅对不太频繁更新的领域特定数据集进行微调是最佳选择。例如,如果一家公司有一个不会更新的重要公司知识数据库,那么微调就足够了。但如果旧信息在不断更新,新信息在不断添加,那么保持返回结果准确性的方法就是使用RAG。现在有一种可能更优越的技术结合了这两者,称为RAFT(检索增强型微调)。

Explainpaper.com是RAG实现的另一个例子,可能对在职工程师很有价值。上传一篇学术论文,它会对其进行总结和解释,并带有一个滑动条,让用户可以设置理解水平,从 5 岁到专家。

“我们很难快速消化一篇论文,但有时我们只想问一两个快速的问题,”Yu说道。“这就是这个系统的优点。你可以迅速找到你需要的知识。”

Explainpaper的功能是代理制造商希望人工智能如何帮助专业人士的一个例子。人工智能不会取代工作,而是通过简化繁琐的任务来节省时间。它使专业论文更容易理解,而“高中”和“本科”水平的总结可以帮助工程师和物理学家与非专业人士快速沟通。

“训练涉及在大量未标记数据上进行自监督学习,通常分为两个阶段——大型企业的初步训练,以及在安全的私有云中进行关键的微调以保护专有信息,”AI联盟团队表示。“RAG是这个生态系统中的一个组件,提供对最新信息的访问。但它只是更大工具包中的一个部分,这个工具包还包括像OpenSSA(小型专业代理)和LangChain(语言模型集成框架)这样的代理框架,以及ReAct(Reason + Act,一个结合思维链提示和行动的框架)。这些框架使人工智能能够通过推理解决挑战,并管理半导体操作中的多步骤过程。与SemiKong等特定行业的模型相结合后能够创造出强大的AI问题解决工具,利用人类专业知识来加快问题解决周期。”

SemiKong 是AI联盟通过训练半导体知识模型而创建的。它是半导体行业的基础模型,公司可以将其用作自己专有模型的基础。联盟成员认可它和类似的数据安全方法。“公司可以使用自己的特定数据微调这些模型,并拥有最终的工件。结合本地计算和联合学习,公司能够在利用 AI 力量同时保护敏感信息。

Knoth同意,RAG(可能是指某种数据访问或共享平台)通过提供安全的、有保护的数据查看方式服务于半导体行业。“每当我们谈论训练数据时,都无法将其与知识产权和对安全的担忧分开。每家公司都有自己独特且使其成功的数据集。这正是RAG不可或缺的原因。我们正在与许多不同的合作伙伴合作。例如,我们与英伟达(NVIDIA)建立了良好的关系,我们使用他们的NeMo服务来帮助使用RAG。因此,我们的合作伙伴能够使用他们自己的设计以及服务器上的一切内容,这些内容永远不会离开他们的网络,不会被上传到云端,也不会意外地被纳入竞争对手的模型中。这样就可以建立一个非常好的监管链,从而使用公司拥有的知识库,确保从基础模型中得出的结果是准确的,并且是根据公司的应用和知识历史量身定制的。RAG 是一种很好的方法,让我们无需花费时间或资源来培训或微调基础模型,并在不影响安全性的情况下获得更高的准确性。”

引擎盖下

RAG 检索是通过一系列涉及其他模型和代理的步骤完成的。“Saunders说:"基础模型懂得如何说话,懂得如何用词。“嵌入模型了解如何将数据放入矢量数据库并嵌入正确的代码,这样规划代理就能获取正确的数据。还有重新排序模型。这些模型将检索到的数据按照相关性进行排序。因此,当 RAG 获取信息时,它会通过这些模型找到正确的数据,对数据重新排序,然后将其返回给基础模型。

嵌入模型是成功实施 RAG 的关键。与关键词搜索不同,关键词 “棒球 ”的搜索只返回包含关键词棒球的文档,而矢量搜索则更广泛、更深入,因为它构建了词与词之间的语义关系。因此,矢量搜索返回的文档与棒球有更多关联--竞技体育、球赛、投手、接球手等。想象一下高维空间中的散点图,每个检索结果都是图上的一个点。使用近邻算法,根据它们之间的近似程度以及与原始查询的近似程度对它们进行聚类。因此,“篮球 ”可能会出现,因为它也是一项团队竞技运动,名称中包含 “球”,但它与 “世界大赛 ”等更直接相关的术语相距甚远。

图 1 OpenAI 的 Dall-e 展示了基于向量的搜索概念,显示了查询向量和数据库向量如何在高维空间中相互作用。从拼写错误中可以看出它目前的一些局限性。来源:OpenAI

为了确定其在向量空间中的位置,RAG 模型首先将庞大的基础模型数据语料库切成 “块”,这是动作的实际技术术语。通过将数据分割成更小、更相关的部分,可以提高获得精确答案的可能性,同时还能加快处理速度。根据数据类型和预期结果,分割的方法有很多。

生成式 AI 不理解单个单词,它将数据划分为“标记”,这些标记可以被认为是音素:本身不具有内在含义的可管理部分。

在嵌入过程中,这些标记被转换成数字,这些数字将它们锚定在向量空间中。Scroll.ai的CEO Elik Eizenberg表示:“当你进行嵌入过程时,你实际上是在那一系列数字中编码了很多真实的上下文意义。这一长串数字本质上代表了单词,但也代表了我们在训练过程中创建的所有关联。这导致了RAG的一个重大突破,即你可以通过意义进行搜索。”他解释说,一个典型的例子来自计算语言学领域:king(国王)- man(男人)+ woman(女人)= queen(王后)。

虽然嵌入在 RAG 中找到了实用应用,但它们在学术研究中有着悠久而杰出的历史。随着研究人员继续寻找更快、更可靠的回报,包括更有效的嵌入方法,还有大量的工作要做。成功的实施可以给公司带来竞争优势,因为其工具可以更快、更准确地产生回报。

图 2 Google 的 Gemini 想象向量空间,带有语义集群。 资料来源:谷歌 Gemini。此处有一个包含嵌入公式的该概念的简化图示。此处有一个更精确的技术可视化图示。

尽管如此,RAG 仍有一些问题需要克服。Claude AI 助手的发明者 Anthropic 最近在一篇博文中写道:“传统的 RAG 解决方案在编码信息时会删除上下文,这通常会导致系统无法从知识库中检索相关信息。Anthropic 声称其提出的解决方案“上下文检索”将通过在嵌入之前为每个块预置特定于块的解释上下文来解决问题。一位提示工程师已经在 YouTube 上提供了相关教程。

思维链

提高生成式AI(GenAI)模型准确性的另一种方法是思维链,该方法于2022年在神经信息处理系统大会(NeurIPS)上提出。这种方法促使生成式模型放慢速度,通过顺序步骤解决问题,就像人类解决数学问题时的推理过程一样。

这是 OpenAI 在o1 更新预览中的特色部分。最理想的是,该过程可以防止模型出错,比如现在已成为经典的例子——在“strawberry”(草莓)一词中错误地计算了字母“r”的数量。

正如去年 3 月发表的一篇论文所述,思维链与 RAG 结合使用可能会很强大。在这种方法中,被称为RAT(检索增强思维)的每一步都会随着RAG的进行而得到修改,从而形成一个反馈机制,使答案越来越准确和相关。

硬件需求

尽管 RAG 和相关方法具有所有优势,但所涉及的功能可能会让公司倾向于走传统路线,并依赖关键字搜索现有企业数据库,但这对于当代需求来说还不够。

“在半导体领域,关系数据库关键字搜索和生成式 AI 的神经网络之间存在显著差异,”AI 联盟团队写道。“传统的数据库搜索可以有效地从结构化数据中检索特定信息,例如库存记录或测试结果。它们在计算上是轻量级的,对于简单的查询来说可能经济高效。然而,生成式AI理解自然语言,并能够利用深入的行业知识。它可以分析复杂的芯片设计,预测良率问题,或根据积累的专业知识提出新的制造工艺。虽然使用‘传统方式’似乎可以节省硬件成本,但在我们这个行业,这种观点是短视的。投资AI的回报率通常远远超过成本。像EnCharge AI这样的公司正在开发用于AI推理的新型低功耗电路,这可能会降低AI部署相关的能源成本。

AI联盟团队强烈建议不要承担基础模型预训练的高昂费用。“相反,请专注于使用专有知识对现有模型进行微调。像Lepton AI这样的公司专门从事高效的微调流程,这种方法更加易于实现。”

Alphawave Semi 公司首席技术官Tony Chan Carusone说,虽然成本在每个人的心目中都很重要,但还是有希望的。“降低硬件成本是扩大人工智能规模的关键因素。 一旦人工智能硬件成本降低,建立在基础模型上的特定行业聊天机器人将改善决策并自动执行更复杂的任务,其投资回报率将超过硬件的初始成本。基于芯片组的设计是实现所需性能/成本比的关键。Chiplet是每12个月开发新的、功能更强大的定制人工智能硬件的唯一途径,可根据工作负载量身定制,其成本状况将支持人工智能的扩展。

本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。

评论
暂无用户评论