中美顶级模型性能差距缩小至0.3%

来源:半导纵横发布时间:2025-04-08 16:08
高校
AI
生成海报
速览斯坦福大学《2025年人工智能指数报告》。

刚刚,斯坦福大学以人为本人工智能研究所(Stanford HAI)发布了《2025 年人工智能指数报告》,这份报告长达456页,追踪了2024年全球人工智能行业的发展趋势,并抛出不少值得关注的观点。

  • AI性能全面突破,从基准测试到视频生成;

  • 中美顶级模型性能差距缩至0.3%,大模型性能已经趋同;

  • 推理成本暴降,AI正变得更高效、更普惠;

  • 科技巨头竞争白热化,训练算力每5个月翻番,数据集每8个月扩容一倍;

AI性能全面突破,从基准测试到视频生成

2023 年,研究人员引入了新的基准——MMMU、GPQA 和 SWE-bench,以测试高级 AI 系统的极限。仅仅一年后,性能大幅提升:在 MMMU、GPQA 和 SWE-bench 上的得分分别提高了 18.8、48.9 和 67.3 个百分点。

在基准测试之外,AI 系统在生成高质量视频方面也取得了重大进展,在某些场景下,语言模型智能体(language model agents)甚至在有限时间预算的编程任务中超越了人类。

2024年发布的RE-Bench基准测试,为评估AI智能体复杂任务能力设立了严苛标准。数据显示:在短期任务(2小时内)场景下,顶级AI系统的表现可达人类专家的4倍;但当任务时限延长至32小时,人类则以2:1的优势反超。

值得注意的是,AI已在特定领域,如编写特定类型代码,展现出与人类相当的专业水平,且执行效率更胜一筹。

中美顶级模型性能差距缩至0.3%

这份报告最吸睛的部分无疑是中美AI差异。报告称,2025年中美顶级AI模型的性能差距已经缩小到了0.3%,而在2023年,这一数字还是20%,中国模型正在快速追赶美国的领先地位。

其中,DeepSeek领衔的开放权重模型,更是以1.7%之差,逼宫各大闭源巨头。前者和后者的差距,已经由2024年的8%缩小至2025年的1.7%。如今大模型的性能已经趋同,2024年TOP1和TOP10的模型的差距能有12%,但如今,它们的差距已经越来越小,锐减至5%。

当然,从行业主导企业来看,目前美国仍然领先于中国。在2024年,美国机构以拥有40个知名模型领先,超过中国的15个和欧洲的3个。

还有一个趋势值得关注,模型发布总量已经下降,这可能是多个因素共同导致的,比如训练规模日益庞大、AI技术日益复杂,开发新模型方法的难度也在增加。

推理成本暴降,AI正变得更高效、更普惠

随着小模型性能提升,达到GPT-3.5水平的推理成本在两年间下降280倍,硬件成本以每年30%的速度递减,能效年提升率达40%。开源模型性能突飞猛进,部分基准测试中与闭源模型的差距从8%缩至1.7%。

在MMLU基准测试中达到GPT-3.5水平(MMLU准确率64.8%)的AI模型调用成本,已从2022年11月的20美元/每百万token,骤降至2024年10月的0.07美元/每百万token(谷歌DeepMind的Gemini-1.5-Flash-8B模型),18个月内AI成本下降280倍。

在大规模多任务语言理解(MMLU)基准测试中,2022年得分超60%的最小模型是 PaLM,参数量为5400亿。到了2024年,微软Phi-3-mini仅用38亿参数,就取得了同样的实力。这代表,两年多的时间里模型参数减少了142倍。

科技巨头竞争白热化,训练算力每5个月翻番,数据集每8个月扩容一倍

2024年,近90%的重要模型源自企业,学术界则保持基础研究优势。

模型规模呈指数增长:训练算力每5个月翻番,数据集每8个月扩容一倍。值得注意的是,头部模型性能差距显著缩小,榜首与第十名得分差已从11.9%降至5.4%。

去年12月,DeepSeek V3一经推出就引发了广泛关注,主要就是因为它在性能上极其出色,但用的计算资源却比许多顶尖大型语言模型少得多。通过比较中国和美国知名AI模型的训练算力,我们可以得出一个重要趋势:美国的顶级AI模型通常比中国模型需要多得多的计算资源。

此外,企业在AI领域的竞争进入白热化阶段,2024 年,美国私营部门对 AI 的投资增长到 1091 亿美元——几乎是中国(9.3 亿美元)的 12 倍,是英国(4.5 亿美元)24 倍。生成式 AI 尤其强劲,全球吸引私营投资 339 亿美元,比 2023 年增长 18.7%。

AI 的商业应用也在加速,2024 年,78% 的组织报告称在使用 AI,比前一年增长 55%。同时,越来越多的研究证实,AI提高了生产力,在大多数情况下,有助于缩小劳动力中的技能差距。

本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。

评论
暂无用户评论