英伟达或许是 GPU 领域的王者,但竞争也愈演愈烈。近年来,一波初创公司涌现,与黄仁勋领导的这家巨头展开较量。
Tenstorrent 是一家由 AMD K8 微架构首席架构师 Jim Keller 领导的初创公司,该公司正在开发 AI 芯片,该公司声称其性能优于英伟达的 GPU。
Tenstorrent 首席运营官 Keith Witek 告诉 AIM:“我们的计算非常节能,我们可以在一个盒子里安装 32 个引擎,大小与英伟达的 8 个引擎相同。凭借更高的计算密度和相似的功率范围,我们在性能、每瓦输出和每美元输出方面的表现都比 英伟达好几倍。”
英伟达的芯片用于数据中心,需要 HBM 内存芯片等硅中介层。三星和 SK Hynix 等公司以及英伟达也通过销售这些芯片赚取了数百万美元。然而,Tenstorrent 芯片消除了对这些芯片的需求。
同样,由 Andrew Feldman 于 2015 年创立的 Cerebras Systems 也开发了用于运行训练模型和推理等生成式 AI 工作负载的芯片。他们的芯片 WSE-3 是世界上最大的 AI 芯片,拥有超过 4 万亿个晶体管和 46225 平方毫米的硅片。 该初创公司声称,其芯片比英伟达DGX H100 快 8 倍,专为训练大型模型而设计。
全球最大AI芯片WSE-3
为推理市场而建的初创企业
有初创公司正在开发专为推理而设计的芯片。虽然英伟达的 GPU 需求量很大,因为它们在训练 AI 模型方面发挥着重要作用,但对于推理而言,它们可能不是最好的工具。
D-Matrix 是一家由 Sid Sheth 创立的初创公司,该公司正在开发最适合推理任务的硅片。其旗舰产品 Corsair 专为推理生成式 AI 模型(1000 亿个参数或更少)而设计,与 GPU 相比,其成本效益更高。
“我们相信,大多数对推理感兴趣的企业和个人会倾向于使用多达 1000 亿个参数的模型。部署更大的模型会变得非常昂贵,这使得它对于大多数应用来说不太实用,”他告诉AIM。
另一家在该领域与英伟达展开竞争的初创公司是Groq,由乔纳森·罗斯于 2016 年创立。据罗斯介绍,他的产品速度快 10 倍,价格便宜 10 倍,功耗降低 10 倍。Groq 旨在为推理任务提供高性能,这对于在生产环境中部署 AI 模型至关重要。
最近,另一家公司 Cerebras 宣布推出 Cerebras 推理解决方案,并声称这是世界上最快的 AI 推理解决方案。它为 Llama3.1 8B 提供 1,800个令牌/秒,为 Llama3.1 70B 提供 450 个令牌/秒,比基于英伟达GPU 的超大规模云快 20 倍。
边缘 AI 市场的挑战者
虽然英伟达可能通过销售 GPU 赢得了名声和金钱,但多年来,它也在其他领域进行了扩张,例如开发人形机器人、无人机和物联网设备的芯片。
SiMa.ai 是一家总部位于美国、在印度扎根深厚的初创公司,该公司正在开发可以在嵌入式边缘上运行生成式 AI 模型的芯片。这家初创公司由 Krishna Rangasayee 于 2018 年创立,将英伟达视为其最大的竞争对手。
Rangasayee 相信多模式 AI 是未来,这家初创公司的第二代芯片旨在在边缘运行生成式 AI 模型——在汽车、机械臂、人形机器人以及无人机上。
“多模式将无处不在,从每台设备到电器,无论是机器人还是人工智能电脑。你将能够交谈、观看视频、解析输入,就像你和人交谈一样,”他告诉AIM。
值得注意的是,SiMa.ai 的首款芯片专为在边缘运行计算机视觉模型而设计,在 ML Perf 基准测试中击败了 英伟达。英伟达 在该领域的另一个竞争对手是 Hailo AI。它正在构建在边缘运行生成式 AI 模型的芯片。

每个人都想分一杯羹
值得注意的是,这些初创公司并不寻求在半导体生态系统中占据一席之地。相反,他们专注于提供顶级产品,并且无所畏惧地与英伟达直接竞争。
他们都想分一杯羹,并已与英伟达发生冲突。
例如,D-Matrix 的客户包括 AI 模型构建商之一微软。Sheth 透露,该公司在北美、亚洲和中东都有客户,并与其中一位客户签订了数百万美元的合同。重点是,微软是英伟达最大的企业客户之一。
Cerebras 的客户还包括一些顶尖研究和超级计算实验室。借助这一成功案例,这家初创公司计划今年上市。
Rangasayee 此前曾向AIM透露,他的初创公司正在与多家机器人公司、人形机器人研发初创公司、公共部门公司以及全球一些顶级汽车公司进行洽谈。
他们可能都会输给 CUDA
这些初创公司都取得了长足的进步,其中一些正准备在不久的将来推出产品。虽然拥有先进的硬件至关重要,但这些公司面临的真正挑战将是与一个庞然大物——CUDA 竞争。
这些初创公司将自己定位为自主研发硬件的软件公司,他们开发了自己的软件,使其硬件与客户的应用程序兼容。
例如,Tenstorrent 的开源软件堆栈 Metalium 与 CUDA 类似,但更简洁、更易于使用。在 Metalium 上,用户可以直接在硬件上编写算法和编程模型,绕过抽象层。
有趣的是,他们还有另一个叫做 BUDA 的雕像,据 Witek 说,它代表着对未来乌托邦的设想。“最终,随着编译器变得越来越复杂,人工智能硬件变得越来越稳定,达到可以以 90% 的效率编译代码的程度,人工智能领域对手工打包代码的需求就会减少。”
尽管如此,这些初创公司如何与 CUDA 竞争仍有待观察。英特尔和 AMD 多年来一直在努力,但 CUDA 仍然是英伟达的护城河。 “所有数据库以及所有内容都是加密的。事实上,英伟达每个季度都在将其平台变得越来越专有。它不允许AMD 和英特尔查看并复制该平台,”Witek 说。
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。
