Jim Keller:AI依旧遵循经典计算定律

来源:半导纵横发布时间:2026-06-26 11:51
芯片制造
技术进展
生成海报
一套成熟可用的AI基础设施,核心永远是平衡计算、内存与输入输出三者资源配比。

一年前,Tenstorrent CEO Jim Keller的办公室门外的白板上写着:“我们必将取胜!”而现在白板上的字迹已然换成:“天呐,这速度太快了!”

Tenstorrent在TT-Deploy产品发布会现场演示了旗下芯片规模化部署后的实际性能。在会后接受采访时,Keller表示,搭载Black Hole芯片的Galaxy服务器,综合性能能够同时超越GPU与专用AI加速硬件。

Keller认为,AI推理本质是网络与内存瓶颈问题,而Tenstorrent自研架构如今已在规模化场景下验证了这一判断。在TT-Deploy活动现场,公司展示了多类负载下的实测性能:16台Tenstorrent Galaxy服务器(总计512颗芯片)批量处理DeepSeek-671B大模型,批处理量32时,单用户每秒最高可输出350个token。

Keller称,这套超高token生成速度,源于产品可将超大张量轻松拆分至数百颗芯片并行运算。单台Galaxy整机内置56个以太网端口,反观普通GPU服务器,整机外置端口通常仅8个。

Keller引用上世纪60年代IBM提出的伦特定律(Rent’s Rule):逻辑单元所需输入输出接口数量,随逻辑规模呈次线性增长;落地到硬件设计意味着,计算单元面积的扩张速度,会远超可用于通信互联的物理空间。他表示,这也是其他主流架构难以突破的致命短板。

“不存在什么全新的计算规律。”他说道,“AI计算的底层根基源自上世纪70年代的高性能计算(HPC)体系,相关原理业界数十年前就已研究透彻。”

他指出,一套成熟可用的AI基础设施,核心永远是平衡计算、内存与输入输出三者资源配比。“AI绝大多数运算为矩阵计算与非线性向量运算。想要实现高速推理,就必须配备充足片上静态内存(SRAM)存放计算数据与中间结果,同时预留缓冲区完成内存、张量处理器、芯片之间的数据流转——而我们的硬件恰好配齐了这套设计。”他解释道,“片载内存配置过大只会造成资源浪费,容量不足则会直接拖垮整机性能。”

Tenstorrent的竞品Cerebras刚完成IPO,市场正高度关注其大模型推理性能,该企业近期公布了Kimi K2.6(万亿参数)模型实测数据,这也是其公开测试过的最大参数模型;Cerebras称自家CS3硬件每秒最高可生成981个token。但Keller表示,只要规模化部署Black HoleGalaxy服务器,Tenstorrent不仅能跑出更优性能,硬件采购成本还远低于对方。“Cerebras完成IPO、估值走高其实是件好事,毕竟我们各项指标都能实现对它的超越。”Keller坦言,“尽管放马过来,我们接下这个挑战!”

Jim Keller在TT-Deploy发布会上进行主题演讲

分离式推理架构赛道

行业龙头英伟达已向Groq采购相关技术,推出分离式推理方案,专门加速大语言模型(LLM)的解码阶段。这套方案需要三组机柜搭配使用:一组Groq芯片机柜负责解码,另外两组英伟达CPU+GPU机柜分别承担预填充、存储海量KV缓存的工作。

Keller表示,Tenstorrent硬件无需额外配套设备,就能实现高速解码。“经常有人问我,你们如何处理KV缓存?”他说,“缓存直接存放在和解码单元同芯片的DRAM里,我们完全不用为此额外费心,这块是我们的强项。”

核心优势在于,Tenstorrent可将任意数量的张量处理器自由互联。Keller介绍,只要芯片数量足够,完整张量可全部存入片上SRAM;若芯片规模有限,数据也能从DRAM中持续流式读取,仅小幅损失性能。他补充,Groq、Cerebras这类完全不带片载DRAM的架构,根本做不到这种灵活调度。

“它们虽然也能跑超大模型,但需要堆砌海量硬件;而我们的方案,中等规模集群就能承载大模型推理。如果追求极致token吞吐速度,我们也能按需把生成速率拉到任意目标区间。”

Tenstorrent硬件能否像英伟达分离式架构一样,搭配GPU协同加速解码流程?Keller给出肯定答复:“已有客户在用Galaxy服务器,为其已采购的GPU做性能加速。我们推出了搭载Black Hole芯片的PCIe加速卡,依靠二层以太网完成数据传输,对接现有设备十分简便。”

该客户采用这套混合方案后,token生成速度直接提升2至3倍。“如果客户当初直接全套采购Tenstorrent设备,整体成本会更低——我们同时支持预填充与解码全流程,架构更简洁纯粹。只是客户此前已经批量购入GPU,希望盘活现有硬件投资。”他补充道。

Keller透露,公司暂时没有将这套混合加速方案做成标准化产品的明确计划,仍处于观望评估阶段。

Tenstorrent可轻松将数百乃至数千颗Black Hole芯片互联,搭建超大规模算力集群

负载软硬件协同设计

Keller认为,行业普遍存在一个误区:认为云厂商、前沿实验室具备垂直整合优势,自研硬件时能深度贴合自有业务负载,实现芯片与大模型的软硬件协同优化,这一优势被过度夸大了。和其他厂商一样,Tenstorrent已在硬件中针对主流非线性运算做专项优化,后续迭代芯片也可按需调整相关硬件单元。

在芯片设计层面,三大核心关键点是:适配超大参数模型、精准控制计算精度、妥善承载海量KV缓存与扩散模型这类计算密集型负载。“只要DRAM、SRAM、计算单元、矩阵向量运算单元、片上网络(NoC)配比均衡,整套硬件就能稳定发挥性能,伦特定律至今依然完全适用。”Keller说道。

另一套经典理论如今在AI领域焕发全新价值——阿姆达尔定律(Amdahl’s Law),该定律核心结论为:整套业务的加速上限,由无法被并行加速的串行环节决定。

“智能体计算(Agentic computing)恰恰就是典型的阿姆达尔定律场景。”Keller解释,“早年AI算力消耗极大,CPU下发AI任务后只能全程等待运算结束;如今AI推理速度大幅提升,串行标量运算环节反倒成了性能瓶颈,市场对通用CPU的需求也随之回升。”

关于IPO上市计划

针对坊间传闻英特尔、高通等企业发起收购邀约一事,Keller未予以正面置评,仅确认自己确实与两家企业CEO均有会面,同时对接过所有头部云厂商,向对方推介Tenstorrent自研AI硬件IP。“我很期待能和其中任意一家达成大额合作,我们的RISC-V CPU IP竞争力很强。”他说,“已有一家头部云厂商,正在评估我们面向轻量化芯片的AI IP方案。”

Keller表示,虽然各大云厂商都自研了高端大算力AI芯片,但边缘端小型AI芯片不能简单删减高端IP直接复用。Tenstorrent的AI IP原生支持弹性扩展,已完成标准化产品落地,一套IP可灵活适配1至1000个运算核心的不同规格芯片。

过去半年,Tenstorrent的两家同赛道初创竞品,一家被实质收购、另一家完成IPO上市。Keller证实,Tenstorrent自身目标是独立IPO,公司正同步完善供应链布局、拓展全球业务版图,为上市铺路。

“目前公司投资方都非常支持我们推进IPO。”他透露。

既然Tenstorrent可作为专用解码加速硬件,是否会成为GPU厂商的优质收购标的?Keller认为,达成战略合作、联合市场推广的可能性,远高于直接收购。政企自研算力基础设施、顶尖前沿实验室,都希望自主掌控软硬件全栈技术路线。“未来行业存在多种发展可能性,一切尚未定论。”他补充道。

Keller称,TT-Deploy发布会结束后,公司已收获多笔硬件订单;最大一笔采购为96台Galaxy整机集群,将发往美国境外(96台Galaxy合计搭载3072颗Black Hole芯片)。Tenstorrent当前最大客户仍是日本AI&公司,其CEO David Bennett曾任职于Tenstorrent。

“不少客户原本向英伟达下达了上亿美元算力采购订单,但英伟达交货周期长达一年,于是转而采购价值两千万美元的Tenstorrent设备,我们的硬件成本优势十分突出。”Keller解释。

目前Tenstorrent正在量产1000台Galaxy服务器,其中至少半数已签订订单售出。“我们的硬件落地表现超出预期,已有十家客户部署Galaxy设备,项目均顺利通过概念验证阶段。后续追加订单源源不断。”Keller说,“我的目标是先积累10家满意客户,再拓展至20家、30家。”

本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。

评论
暂无用户评论