Jim Keller：AI依旧遵循经典计算定律

来源：半导纵横发布时间：2026-06-26 11:51

芯片制造

技术进展

生成海报

一套成熟可用的AI基础设施，核心永远是平衡计算、内存与输入输出三者资源配比。

一年前，Tenstorrent CEO Jim Keller的办公室门外的白板上写着：“我们必将取胜！”而现在白板上的字迹已然换成：“天呐，这速度太快了！”

Tenstorrent在TT-Deploy产品发布会现场演示了旗下芯片规模化部署后的实际性能。在会后接受采访时，Keller表示，搭载Black Hole芯片的Galaxy服务器，综合性能能够同时超越GPU与专用AI加速硬件。

Keller认为，AI推理本质是网络与内存瓶颈问题，而Tenstorrent自研架构如今已在规模化场景下验证了这一判断。在TT-Deploy活动现场，公司展示了多类负载下的实测性能：16台Tenstorrent Galaxy服务器（总计512颗芯片）批量处理DeepSeek-671B大模型，批处理量32时，单用户每秒最高可输出350个token。

Keller称，这套超高token生成速度，源于产品可将超大张量轻松拆分至数百颗芯片并行运算。单台Galaxy整机内置56个以太网端口，反观普通GPU服务器，整机外置端口通常仅8个。

Keller引用上世纪60年代IBM提出的伦特定律（Rent’s Rule）：逻辑单元所需输入输出接口数量，随逻辑规模呈次线性增长；落地到硬件设计意味着，计算单元面积的扩张速度，会远超可用于通信互联的物理空间。他表示，这也是其他主流架构难以突破的致命短板。

“不存在什么全新的计算规律。”他说道，“AI计算的底层根基源自上世纪70年代的高性能计算（HPC）体系，相关原理业界数十年前就已研究透彻。”

他指出，一套成熟可用的AI基础设施，核心永远是平衡计算、内存与输入输出三者资源配比。“AI绝大多数运算为矩阵计算与非线性向量运算。想要实现高速推理，就必须配备充足片上静态内存（SRAM）存放计算数据与中间结果，同时预留缓冲区完成内存、张量处理器、芯片之间的数据流转——而我们的硬件恰好配齐了这套设计。”他解释道，“片载内存配置过大只会造成资源浪费，容量不足则会直接拖垮整机性能。”

Tenstorrent的竞品Cerebras刚完成IPO，市场正高度关注其大模型推理性能，该企业近期公布了Kimi K2.6（万亿参数）模型实测数据，这也是其公开测试过的最大参数模型；Cerebras称自家CS3硬件每秒最高可生成981个token。但Keller表示，只要规模化部署Black HoleGalaxy服务器，Tenstorrent不仅能跑出更优性能，硬件采购成本还远低于对方。“Cerebras完成IPO、估值走高其实是件好事，毕竟我们各项指标都能实现对它的超越。”Keller坦言，“尽管放马过来，我们接下这个挑战！”

Jim Keller在TT-Deploy发布会上进行主题演讲

分离式推理架构赛道

行业龙头英伟达已向Groq采购相关技术，推出分离式推理方案，专门加速大语言模型（LLM）的解码阶段。这套方案需要三组机柜搭配使用：一组Groq芯片机柜负责解码，另外两组英伟达CPU+GPU机柜分别承担预填充、存储海量KV缓存的工作。

Keller表示，Tenstorrent硬件无需额外配套设备，就能实现高速解码。“经常有人问我，你们如何处理KV缓存？”他说，“缓存直接存放在和解码单元同芯片的DRAM里，我们完全不用为此额外费心，这块是我们的强项。”

核心优势在于，Tenstorrent可将任意数量的张量处理器自由互联。Keller介绍，只要芯片数量足够，完整张量可全部存入片上SRAM；若芯片规模有限，数据也能从DRAM中持续流式读取，仅小幅损失性能。他补充，Groq、Cerebras这类完全不带片载DRAM的架构，根本做不到这种灵活调度。

“它们虽然也能跑超大模型，但需要堆砌海量硬件；而我们的方案，中等规模集群就能承载大模型推理。如果追求极致token吞吐速度，我们也能按需把生成速率拉到任意目标区间。”

Tenstorrent硬件能否像英伟达分离式架构一样，搭配GPU协同加速解码流程？Keller给出肯定答复：“已有客户在用Galaxy服务器，为其已采购的GPU做性能加速。我们推出了搭载Black Hole芯片的PCIe加速卡，依靠二层以太网完成数据传输，对接现有设备十分简便。”

该客户采用这套混合方案后，token生成速度直接提升2至3倍。“如果客户当初直接全套采购Tenstorrent设备，整体成本会更低——我们同时支持预填充与解码全流程，架构更简洁纯粹。只是客户此前已经批量购入GPU，希望盘活现有硬件投资。”他补充道。

Keller透露，公司暂时没有将这套混合加速方案做成标准化产品的明确计划，仍处于观望评估阶段。

Tenstorrent可轻松将数百乃至数千颗Black Hole芯片互联，搭建超大规模算力集群

负载软硬件协同设计

Keller认为，行业普遍存在一个误区：认为云厂商、前沿实验室具备垂直整合优势，自研硬件时能深度贴合自有业务负载，实现芯片与大模型的软硬件协同优化，这一优势被过度夸大了。和其他厂商一样，Tenstorrent已在硬件中针对主流非线性运算做专项优化，后续迭代芯片也可按需调整相关硬件单元。

在芯片设计层面，三大核心关键点是：适配超大参数模型、精准控制计算精度、妥善承载海量KV缓存与扩散模型这类计算密集型负载。“只要DRAM、SRAM、计算单元、矩阵向量运算单元、片上网络（NoC）配比均衡，整套硬件就能稳定发挥性能，伦特定律至今依然完全适用。”Keller说道。

另一套经典理论如今在AI领域焕发全新价值——阿姆达尔定律（Amdahl’s Law），该定律核心结论为：整套业务的加速上限，由无法被并行加速的串行环节决定。

“智能体计算（Agentic computing）恰恰就是典型的阿姆达尔定律场景。”Keller解释，“早年AI算力消耗极大，CPU下发AI任务后只能全程等待运算结束；如今AI推理速度大幅提升，串行标量运算环节反倒成了性能瓶颈，市场对通用CPU的需求也随之回升。”

关于IPO上市计划

针对坊间传闻英特尔、高通等企业发起收购邀约一事，Keller未予以正面置评，仅确认自己确实与两家企业CEO均有会面，同时对接过所有头部云厂商，向对方推介Tenstorrent自研AI硬件IP。“我很期待能和其中任意一家达成大额合作，我们的RISC-V CPU IP竞争力很强。”他说，“已有一家头部云厂商，正在评估我们面向轻量化芯片的AI IP方案。”

Keller表示，虽然各大云厂商都自研了高端大算力AI芯片，但边缘端小型AI芯片不能简单删减高端IP直接复用。Tenstorrent的AI IP原生支持弹性扩展，已完成标准化产品落地，一套IP可灵活适配1至1000个运算核心的不同规格芯片。

过去半年，Tenstorrent的两家同赛道初创竞品，一家被实质收购、另一家完成IPO上市。Keller证实，Tenstorrent自身目标是独立IPO，公司正同步完善供应链布局、拓展全球业务版图，为上市铺路。

“目前公司投资方都非常支持我们推进IPO。”他透露。

既然Tenstorrent可作为专用解码加速硬件，是否会成为GPU厂商的优质收购标的？Keller认为，达成战略合作、联合市场推广的可能性，远高于直接收购。政企自研算力基础设施、顶尖前沿实验室，都希望自主掌控软硬件全栈技术路线。“未来行业存在多种发展可能性，一切尚未定论。”他补充道。

Keller称，TT-Deploy发布会结束后，公司已收获多笔硬件订单；最大一笔采购为96台Galaxy整机集群，将发往美国境外（96台Galaxy合计搭载3072颗Black Hole芯片）。Tenstorrent当前最大客户仍是日本AI&公司，其CEO David Bennett曾任职于Tenstorrent。

“不少客户原本向英伟达下达了上亿美元算力采购订单，但英伟达交货周期长达一年，于是转而采购价值两千万美元的Tenstorrent设备，我们的硬件成本优势十分突出。”Keller解释。

目前Tenstorrent正在量产1000台Galaxy服务器，其中至少半数已签订订单售出。“我们的硬件落地表现超出预期，已有十家客户部署Galaxy设备，项目均顺利通过概念验证阶段。后续追加订单源源不断。”Keller说，“我的目标是先积累10家满意客户，再拓展至20家、30家。”

本文转自媒体报道或网络平台，系作者个人立场或观点。我方转载仅为分享，不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益，请及时联系客服，我们作为中立的平台服务者将及时更正、删除或依法处理。