
英特尔前首席执行官Pat Gelsinger(帕特·基辛格)透露,他已投资英国AI芯片初创公司Fractile。
“现有的硬件路线图越来越受到推理模型的限制,这些模型需要内存限制地生成数千个输出令牌。为了实现我们的人工智能抱负,我们需要让推理速度更快、更便宜、更节能。我很高兴地告诉大家,我最近投资了英国人工智能硬件公司 Fractile,该公司正在寻求实现这一激动人心的飞跃的道路,”他在 LinkedIn 帖子中说道。
基辛格表示:“推理性能在尖端人工智能模型开发中的作用仍未得到充分重视。提高推理性能相当于在模型开发中提前几年。”
Fractile 是一家什么样的公司?它在推行什么样的举措?
Fractile 由首席执行官 Walter Goodwin 于 2022 年创立。 2024年夏天,该公司在种子轮融资中筹集了1500万美元,并于同年10月获得了英国政府ARIA(高级研究与发明局)计划的652万美元资助。该公司计划利用这笔资金,使用内存计算开发具有数十亿或数千亿个参数的大规模语言(LLM)的推理加速器。据该公司预测,这款加速器将实现LLM的“Llama2-70B”,实现比NVIDIA的“H100”快100倍的速度(解码令牌/秒),同时将系统成本降低10倍。
在创立 Fractile 之前,Goodwin 在英国牛津大学获得了人工智能/机器人学博士学位。他们致力于利用大规模多模态基础模型来打造具有更好泛化能力的机器人。
Fractile 的 AI 加速器概念基于内存计算。Goodwin拒绝透露该设计是否会有任何模拟计算元素,但表示它将使用该公司自己的 CMOS SRAM 单元设计。该公司首席技术官 (CTO) Tony Stansfield 曾在英国 SRAM 设计公司 SureCore 工作 10 年。
“这绝对是晶体管级的设计,”Goodwin说。“这不是一种全新的内存方法,而是我们使用相对标准的内存单元,这些单元经过了轻微的修改,然后对其进行了定制的电路布局和设计。这是我们提高密度和 TOPS/W 的一部分。”
Goodwin说:“内存计算被广泛认为是一种提供快速、高吞吐量矩阵向量乘法的技术,但随着我们转向基础模型,它将变得越来越重要。”
Goodwin 解释说:“内存计算为卷积神经网络 (CNN) 推理提供了适度的好处,但 CNN 工作负载通常需要混合矩阵乘法和其他运算,从而产生较小的矩阵和内核。内存加速器不需要在处理器和内存之间不断传输权重,因为权重系数在内存中是固定的。但在芯片周围移动激活仍然是工作负载的相对较大的一部分,因此内存计算对 CNN 的性能优势相对较小。”
对于 LLM 来说,权重的数量远大于激活的数量,而激活的大小很小。这些工作负载的特点放大了内存计算所提供的优势。
Goodwin 表示:“十亿参数模型的特点之一是矩阵乘法,尤其是对于非常宽的矩阵。激活来自这些矩阵的两端,因此它们非常小——比推理权重小约 10,000 倍。就我们可以将修复矩阵和内存中的权重的好处发挥到何种程度而言,这是一个设计点的变化。”
他补充道:“内存计算非常适合 LLM,但许多为 CNN 时代构建的现有内存计算架构都存在缺点,因为与 CNN 不同,LLM 具有可变长度的输入/输出。”
“按照现有概念,即使是单个用户使用 LLM 也需要付出成本。有两个不同的阶段,每个阶段的持续时间未知。例如,如果编译器范例假设需要按什么顺序执行的固定列表,并且以特定方式编译以流经芯片,并计算何时触发,那么它必须填充以适应该序列长度,这实际上会稍微降低性能,”Goodwin 说。
现有的架构是围绕矩阵乘法构建的,以实现更好的数据重用,同时也因为存在一定大小的脉动阵列。 Goodwin 补充说,对于在快速处理(长序列数据)和解码阶段(一次一个字)之间切换的工作负载,矩阵向量乘法更加灵活且更适合,并表示灵活性是 Fractile 架构的关键部分。
AI技术日新月异,应用领域不断拓展,在这一背景下,Fractile.ai的创新之路或将为整体行业的发展提供新的方向。基辛格指出,低成本的AI推理能力有助于为各类消费产品与服务赋能,也将促进企业在智能制造、精准医疗、自动驾驶等领域的长足发展。AI绘画与AI写作等人工智能工具的崛起,在某种程度上正是低成本推理带来的技术红利,改变了创作的游戏规则,提升了创作效率。
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。
