尽管如今人工智能的能力在不断突飞猛进,但为其提供支持的硬件却难以跟上步伐。通用CPU能够“优雅地老去”,长期保持兼容性,而人工智能芯片却往往和它们所运行的模型一样,迅速过时。这种快速演进的算法与固定功能芯片之间的脱节,正逐渐成为一个严重的瓶颈。
那么,是什么让人工智能硬件如此缺乏灵活性?像imec这样的公司是如何解决这个问题的?可编程芯片能否成为打造更具未来适应性的人工智能基础设施的关键?
电子世界从未停滞不前。从真空管到如今尖端的半导体,这是一场永不停歇的进步之旅,坦率地说,也是一场辉煌的征程。微控制器已成为现代嵌入式系统的支柱,微处理器是从智能手机到服务器等一切设备的核心,而图形处理器(GPU)曾经只是游戏玩家和3D设计师的专属,如今却被广泛应用于从图像处理到深度学习的几乎所有领域。我们在每一代产品中,都能将更强大的性能融入更小、更便宜的设备中。
但问题在于:这种进步有其时效性,在人工智能领域尤其如此。
一款10年前的CPU,以如今的标准来看可能速度较慢,但它本质上仍然是一款CPU。它运行相同的逻辑,遵循相同的指令集,能兼容任何基于标准架构编写的软件。你可以通过升级提升其性能,但它不会在一夜之间就功能过时。
然而,人工智能硬件则完全是另一回事。机器学习和神经网络的算法进步速度惊人。我们不仅在改进旧技术,还每隔几个月就会发明全新的架构,从Transformer模型到扩散网络皆是如此。每一种新架构都需要不同的计算模式、内存布局和优化策略。
因此,当你为人工智能打造专用硬件时——无论是张量处理单元、人工智能优化的GPU,还是某种专有ASIC——实际上都把自己锁定在了当前的技术路线上。而在这个每个会议季都会迎来革新的领域,这种做法风险极高。一个残酷的事实是:你的全新芯片可能在数据手册上的墨迹未干之时,就已经过时了。
这与现场可编程门阵列(FPGA)等可重构硬件形成了鲜明对比。这类芯片真的能实时改变自身逻辑。如果出现一种需要不同流水线或架构的新人工智能范式,你只需重新编程FPGA就能继续使用。这就像是在不触碰物理硬件的情况下完成了硬件升级。对于前沿人工智能领域而言,这种灵活性价值连城。
遗憾的是,大多数大型人工智能数据中心都搭建在一排排GPU之上。这些GPU虽然擅长并行数学运算,但在适应新算法方面却不够灵活。随着人工智能的不断演进,那些昂贵的服务器集群渐渐不再像创新中心,反而更像是技术博物馆的化石。你可能耗费大量电力和资金,运行的却是已不符合最佳实践的模型。
这种僵化不仅是技术障碍,更是战略隐患。它限制了研究范围——开发者不得不让模型去适配硬件能力,而非根据科学需求来设计模型。这完全本末倒置,就像为了适配道路而设计汽车,而非为汽车修建道路。
为解决半导体行业在人工智能硬件开发中面临的挑战,imec正探索可编程人工智能芯片的研发。imec首席执行官Luc Van den Hove表示,行业需要转向可重构芯片设计,以避免成为人工智能未来发展的瓶颈。
Van den Hove解释道,单纯提升计算能力已不再可行。“增加更多GPU、数据和训练时间……不足以应对一系列多样化的工作负载,”他指出。相反,我们需要转向更动态的计算架构,让硬件能灵活适配同时运行的各种推理、感知和动作模型。
在近期的一次采访中,Van den Hove强调了行业在人工智能硬件开发中面临的挑战。他指出,人工智能算法的快速进步已经超越了当前以开发定制化、侧重原始算力的芯片为核心的策略。这导致在能耗、成本和硬件开发速度方面都出现了显著问题。
软件速度与硬件就绪度之间的不匹配,造就了Van den Hove所说的“同步问题”。人工智能工作负载可能在一夜之间发生变化(例如深度求索的模型创新),而新芯片设计却需要数年时间才能完成。这种硬件适应滞后的问题,加剧了成本和环境方面的担忧——尤其是在能耗持续攀升的情况下。
Van den Hove还对人工智能硬件行业的“搁浅资产”风险表示担忧。他指出,当人工智能硬件准备就绪时,快速发展的软件领域可能已经转向了其他方向。对于那些在定制芯片开发上投入巨资的公司(如OpenAI)而言,这种风险尤其突出。
在这个高速发展的人工智能领域,搁浅资产的风险尤为严峻。尽管像OpenAI这样的科技巨头正通过台积电等合作伙伴开发定制芯片,但Van den Hove认为,对许多企业而言,这条道路并不可行——考虑到其成本、风险以及芯片出厂时可能已过时的潜在问题。
作为半导体突破的先驱,imec一直走在新技术开发的前沿,其技术被台积电、英特尔等芯片制造商广泛采用。该公司目前正探索能适应不断变化的人工智能算法需求的可重构芯片架构。根据Van den Hove的设想,未来的芯片将把所有必要功能整合为名为“超级单元”(supercells)的模块化结构。然后,片上网络将引导和重构这些模块,以满足最新算法的需求。
这些超级单元由垂直堆叠的半导体组成,内存和逻辑在物理上紧密相邻,从而减少延迟和能量损耗。imec表示,这种配置能将数据传输距离从厘米级缩短至纳米级,最多可节省80%的能量——在人工智能工作负载能耗日益高昂的背景下,这一优势极具吸引力。
为实现这一目标,imec正致力于真正的三维堆叠技术——一种将逻辑层和内存层硅片键合在一起的制造工艺。这家总部位于比利时的机构为3D堆叠技术的进步和完善做出了关键贡献,该技术将应用于台积电的A14和英特尔的18A-PT节点。
该项目旨在弥合实验室研究与芯片制造之间的差距,通过培育一个更敏捷、垂直整合的生态系统,连接人工智能初创企业、设计公司和代工厂。
理论上,为人工智能工作负载设计可重构硬件的想法极具吸引力。其承诺的适应性、未来兼容性和模型无关性都切中要害——尤其是在人工智能发展速度快到让去年的芯片都显得陈旧的当下。但理论再好,也要经得起实践检验。
首先要正视一个明显的问题:人工智能工作负载不同于典型的数字逻辑。它们依赖大规模、细粒度的并行计算。这也是GPU能在人工智能领域占据主导地位的原因——其成千上万的核心和为并行操作优化的内存结构独具优势。相比之下,FPGA虽然在灵活性上堪称奇迹,但在扩展至神经网络级计算时却会遇到瓶颈。
即便你尝试将多个FPGA封装拼接起来以匹配GPU的规模,也会面临严重的延迟问题。数据不会在芯片之间凭空传输。封装内带宽至关重要,而一旦超出紧密耦合的芯片边界,延迟就会急剧增加。这使得实时推理或高速训练变得异常困难。
其次是密度和效率问题。FPGA的紧凑性向来不佳。一个能在定制ASIC中紧凑实现的功能,在FPGA上可能需要占用多得多的硅片面积。这意味着需要更多电路板空间、产生更多热量、消耗更多电力——而数据中心在这些方面早已捉襟见肘。因此,用可重构逻辑构建人工智能加速器虽可行,但会在功耗和功率效率方面付出高昂代价。
况且,数据中心不是博物馆,它们的存在是为了实现最大吞吐量和投资回报。如果你试图以未来适应性为理由,说服别人用一整机架的灵活人工智能芯片替换经过实战检验的GPU,那必须拿出极具说服力的性能路线图。否则,任何有头脑的CTO都不会同意这种替换——毕竟GPU能适配下一个模型,而新方案可能只是“或许”能做到。
现实来看,我们可能会看到一种混合方案。未来的人工智能芯片或许会在以固定功能为主的架构中,嵌入有限的可重构组件。这是一种明智的折中:让大部分硅片针对当前最苛刻的任务进行优化,同时保留部分逻辑以应对算法灵活性需求。这种方案虽不像全可编程核心那样花哨,但更有可能实现规模化生产并投入实际使用。
那么,灵活的人工智能硬件会成为游戏规则改变者吗?在特定场景下可能会。例如,对于工作负载不断演进的边缘设备,或者用于新架构的学术研究,它都能发挥作用。但对于训练数十亿参数模型或大规模运行实时推理的核心领域,可重构芯片在短期内还无法取代GPU。
归根结底,灵活性固然重要,但性能才是硬道理。
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。