理想汽车回应自研智驾芯片计划

来源:半导纵横发布时间:2025-08-01 11:20
汽车电子
芯片制造
生成海报
自研芯片的核心原因是作为专用芯片能够针对自己的算法进行特定地优化处理,性价比和效率都会很高。

近日,理想i8正式上市,并首发了VLA(Vision 视觉 - Language 语言 -Action 行动)。理想自动驾驶的几位研发负责人在接受采访时谈及了Thor芯片上车的过程,如何基于通用芯片做算力压榨以及他们对自研智驾芯片的看法。

理想汽车自动驾驶研发高级副总裁郎咸朋博士表示:“自研芯片的核心原因是作为一个专用芯片能够针对自己的算法进行特定地优化处理,性价比和效率都会很高。现在我们依然使用 Thor 芯片是因为英伟达对一些新的算子支持是比较好的,算力也比较充足,在整体 VLA 迭代过程中依然有变化的可能性,所以我们依然在用Thor芯片。如果未来算法锁定,为了更好的效率和成本,大家都会考虑自研芯片的。”

在谈到Thor 芯片上车的过程,郎咸朋坦言:“我们是第一次用 Thor 芯片上车的,在过去 L9 的时候,第一个用 Orin 芯片。再往前,我们是第一个用 J3 芯片。其实我们积累的很多跟芯片厂商的供应商的这种合作经验,包括再往前推算 J3 芯片,当时 J3 芯片设计很有缺陷。但是我们会跟合作伙伴一起,去做一些优化和迭代,这都是很正常的一个过程。我们也知道,芯片的产生,它需要有很多输入,我们也在新的芯片研发过程当中,我们也给它提供很多输入,比如 J3 上的问题,它在 J5 上解决了;Orin-X 问题,可能在 Thor 上解决了,Thor 上问题可能也会在其他的方面去解决。我觉得这是一个正常的研发过程,主要还是看最终的应用情况。”

在被问到竞争对手的车载算力比理想i8更高,郎咸朋回应称,车载算力和量化精度是相关的,也就是如何使用芯片。如果使用精度比较高的表达方式,等效算力或有效算力会低一些,但如果使用更好的量化精度,算力就会高。“我们在车载算力上有更加长期的规划,但现在不方便透露。”

如何基于英伟达Thor通用芯片去做算力压榨?理想汽车自动驾驶高级算法专家詹锟表示:“我们从去年开始用 Orin 芯片做大模型部署,当时英伟达觉得这是不可能的,但我们认为这是必须要要做的,和英伟达做了非常详细的剖析和拆解,我们的工程团队、部署团队做了非常多的工作,包括我们魔改 CUDA 的底层,重写 PTX 底层指令,才能实现现在的效果。”

“理想汽车自动驾驶团队的工程部署能力是一以贯之的,其中很关键的一点是我们打磨细节的能力,芯片能否被压榨最主要的事做底层分析,解决瓶颈热点。大家会发现 VLA 从最初推理一帧需要 500-600 毫秒到最后实现 10Hz,提升了近 10 倍的效率,这其中有非常多的细节都是我们在遇到问题后拆解当前芯片适配的算法,调整算子,让算子和芯片目前的能力更匹配。大家会常用的推理模型会用 FP16,我们把它降到 FP8,性能做了非常的提升,同时 FP4 也是英伟达在最新的 Blackwell 架构中非常推崇的,我们会进一步把芯片算力压榨出来。”

如何做到将精度从 FP16 降至 FP8 时,还能保持模型精度?詹锟回应称,首先这是业界比较共识的一个问题,在大模型领域,大家对数值精度的要求会降低,这也是为什么,大家看到 DeepSeek 开始推它的 FP8,为什么以前做不到?也是因为模型参数规模过大,对它的容错变低了,它通过更多的层,更多的数据容量,把之前的异常值降的越来越少,这是大模型一个特性,这也是为什么到 VLM、VLA 领域以后,大家会逐渐往低精度,更精细的计算密集型的算子上去靠近。

另一个很重要的,我们还是做了大量的数据清洗。以往出现这种数据噪点还是因为有脏数据,但是我们这里面做了大量的数据清洗、数据储备工作,把不好的数据去掉,这样才能让训练变得稳定、变得收敛,这也是目前像大语言模型大家常规的迭代方向。

至于未来是否能够做到FP4?詹锟表示:“如果想做 FP4,要在训练上花更多精力,做更多的数据迭代、数据清洗,才能往这方面做。目前我们也在做这样的尝试,很快就可以再把 Thor 芯片的算力进一步压榨出来。”

针对此次首发的VLA,詹锟表示:“VLA 是一个大模型,大模型部署在边缘端算力上是非常具有挑战的。很多团队并不是认为 VLA 不好,而是因为 VLA 部署有困难,把它真正落地是非常具有挑战性的事情,尤其是在边缘端芯片算力不够的情况下是不可能完成的,所以我们是在大算力芯片上才能部署。所以这不仅仅是工程创新,但的确需要工程部署大范围优化才能实现。”

本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。

评论
暂无用户评论