智元机器人GO-1通用具身基座大模型开源

来源：半导纵横发布时间：2025-09-23 16:30

大模型

人形机器人

生成海报

智元机器人今日宣布，继今年 1 月 AgiBot World 具身智能百万真机数据集开源后，通用具身基座大模型 GO-1（Genie Operator-1）今日也正式在 GitHub 开源。

智元机器人称，这标志着全球首个采用 Vision-Language-Latent-Action (ViLLA) 架构的通用具身智能模型向全球开发者免费开放，将极大降低具身智能的技术门槛，推动行业快速发展。

GO-1 采用的 Vision-Language-Latent-Action (ViLLA) 架构是具身智能领域的重大技术突破。与传统的 Vision-Language-Action (VLA) 架构相比，ViLLA 通过引入隐式动作标记，成功弥合了图像-文本输入与机器人执行动作之间的语义鸿沟。这一创新使得机器人能够更好地理解人类意图，并将其转化为精确的动作执行。

ViLLA 架构的核心在于其三层协同设计。VLM 多模态理解层基于 InternVL-2B 构建，能够处理多视角视觉图片、力觉信号、语言输入等多模态信息，为整个系统提供强大的场景感知和指令理解能力。Latent Planner 隐式规划器通过预测隐式动作标记，实现了对复杂操作任务的高层次规划和理解。Action Expert 动作专家则基于扩散模型，能够生成高频率、高精度的连续动作序列，确保机器人能够执行精细的操控任务。

Genie Studio 是智元机器人专为具身智能场景打造的一站式开发平台，为开发者和合作伙伴提供全栈式解决方案，覆盖数据采集、数据管理、模型训练与微调、仿真评测、模型构建与部署等全流程。平台提供开箱即用的 GO-1 基座模型，集成 Video Traning 方案和统一训练框架，内置完整的开发工具链，可实现真机一键编译 & 部署，显著提升开发效率，助力具身智能技术的快速落地与应用。

本文转自媒体报道或网络平台，系作者个人立场或观点。我方转载仅为分享，不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益，请及时联系客服，我们作为中立的平台服务者将及时更正、删除或依法处理。