蚂蚁使用国产芯片训练AI模型,成本降低20%

来源:半导纵横发布时间:2025-03-24 16:39
GPU
AI
生成海报
蚂蚁百灵大模型在训练阶段使用国产芯片产品,取得与英伟达芯片相似的结果。

近日,蚂蚁集团Ling团队发表了一篇技术成果论文。论文显示,蚂蚁集团推出了两款不同规模的MoE大语言模型——百灵轻量版(Ling-Lite)与百灵增强版(Ling-Plus),前者参数规模为168亿(激活参数27.5亿),Plus基座模型参数规模高达2900亿(激活参数288亿),两者性能均达到行业领先水平。

除了自研性能领先的大模型以外,该技术论文最大的突破在于提出了一系列创新方法,以提升资源受限环境下AI开发的效率与可及性。实验表明,其3000亿参数的MoE(混合专家)大模型可在使用国产GPU的低性能设备上完成高效训练,性能与完全使用英伟达芯片、同规模的稠密模型及MoE模型相当。

根据技术成果论文,虽然DeepSeek、阿里通义千问、MiniMax等系列的MoE大模型在特定任务中展现出卓越性能,但是MoE模型的训练通常依赖高性能计算资源(如英伟达H100/H800等先进GPU),高昂成本制约了在资源受限环境中的普及应用。同时,近年来英伟达高性能芯片持续短缺,相比之下,低性能加速器供应更充足且单机成本更低。这种差异凸显了构建跨异构计算单元与分布式集群无缝切换技术框架的必要性。

因此,Ling团队设定的目标是“不使用高级GPU”来扩展模型,并通过提出创新性的训练策略,旨在突破资源与预算限制实现高效大语言模型训练,从而推动AI技术向普惠化方向发展。

具体而言,团队提出的创新策略包括:1)架构与训练策略革新:动态参数分配与混合精度调度技术;2)训练异常处理机制升级:自适应容错恢复系统缩短中断响应时间;3)模型评估流程优化:自动化评测框架压缩验证周期超50%;4)工具调用能力突破:基于知识图谱的指令微调提升复杂任务执行精度。

在预训练层面,蚂蚁构建约9万亿 token 的高质量语料库,采用创新的MoE架构,分析缩放规律确定超参数,多阶段训练并应对瞬时尖峰问题,并且通过优化模型架构和训练策略,如选择匹配架构、集成训练框架、开发XPUTimer和EDiT策略等,提高训练效率。

在AI异构计算平台上,技术人员们将多个训练框架集成到统一的分布式深度学习框架中,即开源项目DLRover。同时,为了利用各种平台的具体特性,团队开发了轻量级调试工具XPUTimer,有助于快速、高效进行任务性能分析,并将内存使用量减少90%。而EDiT(弹性分布式训练)则在各种配置下,训练时间最多可减少66.1%。

此外,在存储优化中,通过存储与训练流程的协同设计,提升MoE场景下的I/O效率,通过5000个加速器 MoE 训练任务,将检查点写入延迟降低了50%,减少一半的时间消耗,同时还将训练节点上的峰值内存消耗降低了60%。

据技术论文,Ling团队在五种不同的硬件配置上对9万亿个token进行Ling-Plus的预训练,其中使用高性能硬件配置训练1万亿token的预训练成本约为635万元人民币,但利用蚂蚁的优化方法后,使用低规格硬件的训练成本将降至508万元左右,节省了近20%,最终实现与阿里通义Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相当的性能。

此前,DeepSeek通过一系列算法创新及工程优化,使用性能较低的英伟达H800训练出了性能与顶尖模型相当的V3与R1,为大模型的训练开辟了新的道路,让更多的企业和研究机构看到了降低成本、提高效率的可能性。虽然蚂蚁并未透露具体使用的芯片,但根据蚂蚁论文提供的FLOPS峰值,有报道认为这些 AI 加速器产品中可能包括壁仞、天数、寒武纪的算力芯片技术。

值得注意的是,”英伟达H800”是英伟达专为高性能计算和人工智能训练设计的高端GPU芯片,广泛应用于数据中心和AI模型训练场景。2023年7月30日时,英伟达特供国内的A800和H800芯片已经从原来的12万人民币左右,涨至了25万甚至30万,甚至有高达50万一片。至2025年,H800芯片单卡价格约为6万元。

而H800整机价格在2023年9月就达到了约210万元/台,后在同年10月,因限售政策涨至350万元/台。至2025年市场数据显示,H800整机价格稳定在230万元左右。

针对蚂蚁百灵大模型训练成本的报道,蚂蚁回应称:蚂蚁针对不同芯片持续调优,以降低AI应用成本,目前取得了一定的进展,也会逐步通过开源分享。

本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。

评论
暂无用户评论