小米开源“Xiaomi MiMo”大模型：以7B参数超越OpenAI o1-mini

来源：半导纵横发布时间：2025-04-30 15:33

小米

大模型

生成海报

4 月30 日，小米大模型团队宣布，正式开源其首个专为推理任务设计的大模型 - Xiaomi MiMo。这款模型在数学推理和代码竞赛等公开测评集上表现出色，仅用 7B 参数便超越了 OpenAI 的闭源推理模型 o1-mini 以及阿里 Qwen 的更大规模开源推理模型 QwQ-32B-Preview。

MiMo 的卓越推理能力得益于预训练和后训练阶段的数据和算法创新。在预训练阶段，MiMo 团队着重挖掘富含推理信息的语料，并合成了约 200B tokens 的推理数据。通过三阶段逐步提升难度的训练，MiMo 总共接受了 25T tokens 的训练，从而“见识”了更多推理模式，为后续的推理能力打下了坚实基础。

在后训练阶段，MiMo 团队引入了高效稳定的强化学习算法和框架，进一步提升了模型的推理能力。他们提出了 Test Difficulty Driven Reward(测试难度驱动奖励)机制，以缓解困难算法问题中的奖励稀疏问题，并引入了 Easy Data Re-Sampling(简单数据重采样)策略，以稳定强化学习(RL)训练过程。

此外，MiMo 团队还设计了 Seamless Rollout(无缝展开)系统，该系统使得 RL 训练加速 2.29 倍，验证加速 1.96 倍，大大提高了训练效率。

本文转自媒体报道或网络平台，系作者个人立场或观点。我方转载仅为分享，不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益，请及时联系客服，我们作为中立的平台服务者将及时更正、删除或依法处理。