首页

资讯池

半导圈

视频场

产品汇

搜索

中美顶级模型性能差距缩小至0.3%

来源：半导纵横发布时间：2025-04-08 16:08

高校

生成海报

速览斯坦福大学《2025年人工智能指数报告》。

刚刚，斯坦福大学以人为本人工智能研究所（Stanford HAI）发布了《2025 年人工智能指数报告》，这份报告长达456页，追踪了2024年全球人工智能行业的发展趋势，并抛出不少值得关注的观点。

AI性能全面突破，从基准测试到视频生成；
中美顶级模型性能差距缩至0.3%，大模型性能已经趋同；
推理成本暴降，AI正变得更高效、更普惠；
科技巨头竞争白热化，训练算力每5个月翻番，数据集每8个月扩容一倍；

AI性能全面突破，从基准测试到视频生成

2023 年，研究人员引入了新的基准——MMMU、GPQA 和 SWE-bench，以测试高级 AI 系统的极限。仅仅一年后，性能大幅提升：在 MMMU、GPQA 和 SWE-bench 上的得分分别提高了 18.8、48.9 和 67.3 个百分点。

在基准测试之外，AI 系统在生成高质量视频方面也取得了重大进展，在某些场景下，语言模型智能体（language model agents）甚至在有限时间预算的编程任务中超越了人类。

2024年发布的RE-Bench基准测试，为评估AI智能体复杂任务能力设立了严苛标准。数据显示：在短期任务（2小时内）场景下，顶级AI系统的表现可达人类专家的4倍；但当任务时限延长至32小时，人类则以2:1的优势反超。

值得注意的是，AI已在特定领域，如编写特定类型代码，展现出与人类相当的专业水平，且执行效率更胜一筹。

中美顶级模型性能差距缩至0.3%

这份报告最吸睛的部分无疑是中美AI差异。报告称，2025年中美顶级AI模型的性能差距已经缩小到了0.3%，而在2023年，这一数字还是20%，中国模型正在快速追赶美国的领先地位。

其中，DeepSeek领衔的开放权重模型，更是以1.7%之差，逼宫各大闭源巨头。前者和后者的差距，已经由2024年的8%缩小至2025年的1.7%。如今大模型的性能已经趋同，2024年TOP1和TOP10的模型的差距能有12%，但如今，它们的差距已经越来越小，锐减至5%。

当然，从行业主导企业来看，目前美国仍然领先于中国。在2024年，美国机构以拥有40个知名模型领先，超过中国的15个和欧洲的3个。

还有一个趋势值得关注，模型发布总量已经下降，这可能是多个因素共同导致的，比如训练规模日益庞大、AI技术日益复杂，开发新模型方法的难度也在增加。

推理成本暴降，AI正变得更高效、更普惠

随着小模型性能提升，达到GPT-3.5水平的推理成本在两年间下降280倍，硬件成本以每年30%的速度递减，能效年提升率达40%。开源模型性能突飞猛进，部分基准测试中与闭源模型的差距从8%缩至1.7%。

在MMLU基准测试中达到GPT-3.5水平（MMLU准确率64.8%）的AI模型调用成本，已从2022年11月的20美元/每百万token，骤降至2024年10月的0.07美元/每百万token（谷歌DeepMind的Gemini-1.5-Flash-8B模型），18个月内AI成本下降280倍。

在大规模多任务语言理解（MMLU）基准测试中，2022年得分超60%的最小模型是 PaLM，参数量为5400亿。到了2024年，微软Phi-3-mini仅用38亿参数，就取得了同样的实力。这代表，两年多的时间里模型参数减少了142倍。

科技巨头竞争白热化，训练算力每5个月翻番，数据集每8个月扩容一倍

2024年，近90%的重要模型源自企业，学术界则保持基础研究优势。

模型规模呈指数增长：训练算力每5个月翻番，数据集每8个月扩容一倍。值得注意的是，头部模型性能差距显著缩小，榜首与第十名得分差已从11.9%降至5.4%。

去年12月，DeepSeek V3一经推出就引发了广泛关注，主要就是因为它在性能上极其出色，但用的计算资源却比许多顶尖大型语言模型少得多。通过比较中国和美国知名AI模型的训练算力，我们可以得出一个重要趋势：美国的顶级AI模型通常比中国模型需要多得多的计算资源。

此外，企业在AI领域的竞争进入白热化阶段，2024 年，美国私营部门对 AI 的投资增长到 1091 亿美元——几乎是中国（9.3 亿美元）的 12 倍，是英国（4.5 亿美元）24 倍。生成式 AI 尤其强劲，全球吸引私营投资 339 亿美元，比 2023 年增长 18.7%。

AI 的商业应用也在加速，2024 年，78% 的组织报告称在使用 AI，比前一年增长 55%。同时，越来越多的研究证实，AI提高了生产力，在大多数情况下，有助于缩小劳动力中的技能差距。

本文转自媒体报道或网络平台，系作者个人立场或观点。我方转载仅为分享，不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益，请及时联系客服，我们作为中立的平台服务者将及时更正、删除或依法处理。

暂无用户评论

联系电话:

010-61853490

新闻投稿:

server@icviews.cn

商务合作:

business@icviews.cn

问题反馈:

19800315212（微信同号）

半导体产业纵横公众号

半导纵横公众号

半导纵横小程序

中美顶级模型性能差距缩小至0.3%

AI性能全面突破，从基准测试到视频生成

中美顶级模型性能差距缩至0.3%

推理成本暴降，AI正变得更高效、更普惠

科技巨头竞争白热化，训练算力每5个月翻番，数据集每8个月扩容一倍

MLCC需求暴涨，或成为“下一个存储”

替代HBM？HBF时代近在眼前

Anthropic呼吁全球停止AI研发