就在昨天,Generalist AI Team发布了GEN-1:“GEN-1: Scaling Embodied Foundation Models to Mastery”。

博客链接:
https://generalistai.com/blog/apr-02-2026-GEN-1

原文链接:Generalist AI发布GEN-1!一脚踹开“精通物理任务”的大门,1小时数据,成功率达到99%

博客中突出,这是在规模化机器人学习领域取得的最新里程碑。也是首个跨越全新性能门槛的通用人工智能模型:即对简单物理任务的精通

在以往模型成功率仅为 64% 的任务中,GEN-1 将平均成功率提升至 99%,完成任务的速度约为现有最先进技术的3倍,而每项成果仅需 1 小时的机器人数据。

GEN-1 开启了机器人在广泛应用场景下的商业可行性——尽管它目前尚无法解决所有任务,但朝着为物理世界打造通用智能的使命,迈出了至关重要的一步。

来看看效果



GEN-1这次的突破

1)从“能做什么”到“做得多好”的范式转移

过去(GEN-0 时代)的重点是证明机器人能学、能适应;现在(GEN-1 时代)的重点是高性能、物理任务的精通。

博客中明确提出了衡量“精通”的三个新标准:

  • 可靠性:成功率从 64% 提升至 99%(这是商业落地的生死线)。
  • 速度:比现有技术快 3 倍(这是生产效率的关键)。
  • 即兴发挥能力:在意外情况下能自我恢复(这是鲁棒性的体现)。

2)“scaling laws”在物理世界的验证与加速

博客强调 GEN-1 的成功并非偶然,而是基于“scaling laws”的持续投入。

数据规模:从 GEN-0 到 GEN-1,依靠的是 50 万小时的真实世界数据积累。

算法与架构:不仅仅是堆算力,还包括对具身基础模型的“全面重新设计”。

数据效率:强调仅需 1 小时数据就能达到上述高性能,暗示了模型极高的学习效率和泛化能力。

3)商业可行性的临界点

这是整篇博客最务实的部分,不再谈论科幻般的通用能力,而是直言 GEN-1 跨越了“商业可行性”的门槛。

这意味着机器人不再是只能做演示的“花瓶”,而是开始在特定任务上具备了替代传统自动化或人工的经济价值。这是对投资人及客户最有力的信号。

4)迈向物理 AGI 的务实路线图

博客也保持了清醒的认知:GEN-1 虽然强大,但不能解决所有任务。

它将 GEN-1 定义为通往物理 AGI 道路上的一个“阶跃式变化”,而非终点。这种“承认不足但展示巨大进步”的叙事方式,既展示了自信,又为未来的迭代留出了空间。

扩展具身智能的预训练时代

此前,通过 GEN-0,首次证明了机器人领域存在扩展定律。重要的是,它证明了以通用方式扩展机器人学习是可行的——我们追踪的每一项零样本任务都会同时得到提升。然而,其性能尚不足以应用于商业环境。现在,通过 GEN-1,借助数据和算力的进一步扩展,并辅以算法进步的加速,我们开始看到某些任务的性能跨越了在具有经济价值的场景中部署所需的门槛。

这与过去 8 年大型语言模型在扩展过程中所取得的进步基础如出一辙。GPT-2 展示了多任务学习的可扩展路径,但难以部署在具有经济价值或实用性的软件产品中。将模型扩展至 GPT-3 证明了扩展定律依然成立,新的能力随之涌现,并且模型在某些任务(如广告文案撰写)上具备了经济可行性。随着 LLMs 的不断扩展,每一代后续模型都带来了满足新一组任务性能要求的新能力。同样,GEN-1 开始能够精通简单的任务,但扩展所支持的更重要的概念是:可以预期每一代新模型都将带来一组新的、日益复杂的可精通任务。

值得注意的是,这一进程也验证了这些模型背后的数据引擎。此前在机器人领域成功率超过 90% 的通用模型,依赖于庞大且昂贵、难以扩展的遥操作数据集。相反,对于 GEN-0 和 GEN-1,其基础模型在训练时并未使用任何机器人数据——它使用的是人类佩戴低成本可穿戴设备进行数百万项活动所产生的数据,并提供了确凿证据,证明这种预训练可以在不需要大量遥操作或模拟数据集的情况下实现高水平的精通。

GEN-1的设计

虽然没有开源,但一些主要模块还是能看到。

GEN-1 囊括了预训练前沿技术、后训练技巧、强化学习、多模态人类引导以及全新的推理时技术等多维度的创新。其中,预训练技术的进步推动了预训练智能计算效率曲线的偏移,而其他技术则共同致力于释放特定任务下的更高性能。除了这些技术突破,相较于前代模型 GEN-0,GEN-1 在规模上也实现了显著扩展:这不仅意味着更多的算力投入和数据积累——我们的训练数据集现已包含超过 50 万小时的高保真物理交互数据。

虽然将 GEN-1 称为一个“模型”,但将其定义为一个“系统”或许更为精准。

GEN-1 是一位数据高效的学习者:在某些测试中,GEN-1 仅需 GEN-0 十分之一的特定任务数据和微调步骤,即可实现相当的性能。此外,博客中展示的每一项成果均仅基于约一小时的机器人数据构建。由于预训练数据集中不包含任何机器人数据,因此当 GEN-1 适应新任务时,实际上是它首次同时适应特定的机器人实体形态以及该任务本身。

Generalist AI对指标的定义

1)定义“精通”

具身基础模型应当具备可靠性、快速执行能力,以及在意外情境中自我恢复的能力。使用“精通”一词,特指可靠性、速度与即兴智能三者的结合。尽管可靠性与速度较易量化衡量,但即兴智能恰恰是此前机器人领域最为缺失的关键能力。

2)可靠性

稳定完成任务的能力是现实世界部署的“入场券”。数十年来,传统系统已能可靠地执行重复性动作,但这一点却始终是端到端机器人模型难以企及的目标。即便实现了高性能,往往也依赖于特定系统上资源密集型的遥操作数据,局限于狭窄的任务范围,或是以牺牲任务复杂度为代价。真正的挑战不仅在于一次性实现高性能,更在于跨任务、跨系统、跨环境提供稳健且可重复的性能表现。

3)速度

机器人领域长期受困于“速度瓶颈”:灵巧通用模型的演示视频往往动作迟缓。但突破这一瓶颈并非易事。随着速度提升,物理世界的准静态假设不再成立:速度项增大,摩擦动力学特性改变,运动模糊加剧,对精度、响应性与推理能力的约束也日益严苛。关键不在于电机运转有多快,而在于任务完成的速度有多快。

4)即兴能力

要在非结构化环境中蓬勃发展,机器人必须具备在意外情境中创造性地即兴解决问题的能力——即能够响应与适应,而非依赖预设行为。正如此前所述,他们认为物理常识是实现此类自由式问题解决的核心。缺乏这一能力,机器人或许能出色执行既定流程,但一旦现实偏离脚本,便会陷入困境。

自20世纪60年代初以来,可靠性与速度一直是工业机器人的核心要素——但这一历史建立在精密控制与对机器人环境的严格约束之上,而非依赖智能。相反,通用物理AI模型采取截然不同的路径:依靠智能而非限制。正如19世纪末现代心理学奠基人威廉·詹姆斯所言:“智能是通过不同手段达成同一目标的能力。”即兴智能使机器人得以在非结构化环境中茁壮成长,同时也为通用模型带来更优的可靠性与速度。

在评估“精通”水平时,同样关键的是考量达成特定任务性能所需的数据量。

还有一些不足的地方

GEN-1 并非没有局限。例如,虽然展示了多个成功率超过 99% 的灵巧操作任务,但并非所有尝试过的任务都能达到这一水平。此外,部分任务若要真正投入实际应用,还需要更高的成功率或更快的执行速度。

重磅!

全网首个!具身智能开源知识库来啦(技术/产业/投融资/上下游)

推荐阅读

VLA+RL方向首个系统教程来啦!Online RL/Offline RL/test time RL等~

具身智能的WAM与世界模型一份完整指南~

一览具身智能的行业全局,从产品经理的角度出发!

我们用低成本的机械臂完成pi0/pi0.5/GR00T/世界模型等VLA任务~

好用,高性价比!面向具身科研领域打造的轻量级机械臂

VLA/VLA+触觉/VLA+RL/具身世界模型等!具身大脑+小脑算法与实战全栈路线来啦~

从零训练你的足式机器人!让你的足式机器人真正动起来~

具身领域的目标导航到底是什么?有哪些主流方法?

具身智能与传统机器人任务有什么区别?主流方案有哪些?

1v1 科研论文辅导来啦!

重磅!具身智能之心论文辅导来啦(近20+方向,顶会/顶刊/SCI/EI/中文核心/申博等)

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐