26年4月来自Generalist AI的博客文章“GEN-1: scaling embodied foundation model to mastery”。

GEN-1模型是其在扩展机器人学习方面取得的最新进展。它是首个突破全新性能门槛的通用人工智能模型:能够熟练掌握简单的物理任务。在以往模型成功率仅为 64% 的任务上,GEN-1 的平均成功率提升至 99%,完成任务的速度比现有技术快约 3 倍,并且仅需 1 小时的机器人数据即可达到上述所有目标。GEN-1 为广泛的应用领域开启了商业可行性——虽然它目前还无法解决所有任务,但它是朝着为物理世界创造通用智能这一使命迈出的重要一步。

请添加图片描述


引言

Generalist AI 致力于构建物理通用人工智能 (AGI),并使其惠及所有人。现在推出最新模型 GEN-1,一个大型多模态模型,能够实时发出动作。与之前的模型GEN-0相比,它展现多项先进功能,是实现使命的重要一步。

五个月前,2025年11月,推出的 GEN-0 首次证明机器人领域存在扩展规律【1】,将物理人工智能模型带入预训练时代,这与语言模型领域可预测的进步有着异曲同工之妙【2】。GEN-0 的实现得益于基于自身(全球最大的)机器人预训练数据集训练的全新多模态架构,它展现快速学习新任务、适应新环境【3】(即泛化)以及展现物理常识【4】的能力。

GEN-1 在 GEN-0 的基础上进一步扩展,并借助算法的进步,开始展现出这些模型所能提供的显著变化。 GEN-1 已开始掌握一些简单的任务——在多个任务中,该模型的成功率已超过 99%(可靠性),完成任务的速度比之前最先进的模型快约 3 倍(速度),并且展现出广泛的涌现行为,能够在意外情况下进行恢复(即兴发挥)。所有这些结果仅需约 1 小时的机器人数据即可获得。

GEN-1 是首个跨越关键门槛的通用物理人工智能模型:它突破了商业化应用的门槛,涵盖了广泛的任务——其通用性是传统自动化无法比拟的,其性能水平也达到了此前机器人模型难以企及的水平。之前创建第一批具身基础模型【5】,包括 VLA【6】 和世界模型【7】,当然它们远非完美。GEN-1 的进展源于对面向真实世界的具身基础模型的全面重新设计,并基于目前拥有 50 万小时真实世界数据的数据集从零开始训练。

GEN-1 代表着能力上的飞跃,但它并不能解决所有问题。它强化了其观点:通过持续的模型扩展和实践经验,将不断取得新的发现,从而解锁更广泛的物理智能,拓展可执行任务的范围,并开辟新的应用领域。

这些成果令人振奋,但仍处于探索的早期阶段。通用智能的真正本质在于能够精通所有体力劳动,而 GEN-1 则阐明了如何评估进展。GEN-1 展现出新的精通水平的早期迹象,其定义为可靠性、速度和即兴发挥能力的结合。


具身智能预训练时代的规模化

此前,利用 GEN-0 首次证明机器人领域存在规模化规律。更重要的是,它证明机器人学习可以以通用的方式进行规模化——其追踪的每个零样本任务的性能都会同时提升。然而,其性能尚不足以应用于商业场景。如今,借助 GEN-1,通过进一步扩展数据和计算能力,并得益于算法的进步,一些任务的性能达到在具有经济价值的场景中部署所需的水平。

这与过去 8 年来大语言模型 (LLM) 的发展历程类似。GPT-2【8】 展示多任务学习的可扩展路径,但在经济价值或实用软件产品中的部署方面却举步维艰。将模型扩展到 GPT-3【9】 后,规模化规律依然成立,新的能力得以涌现,并且该模型在某些任务(例如广告文案撰写)中实现了经济可行性。随着 LLM 的规模化发展,每一代后续模型都带来了新的能力,以满足一系列新任务的性能需求。同样,GEN-1 可以开始掌握简单的任务,但规模化所支持的更重要的概念是,可以预期每一代新模型都会带来一系列日益复杂的任务,并且这些任务都可以被掌握。

值得注意的是,这种发展也验证了这些模型背后的数据引擎。以往机器人领域成功率超过 90% 的通用模型依赖于庞大的远程操作数据集,这些数据集成本高昂且难以扩展。而 GEN-0 和 GEN-1 的基础模型无需任何机器人数据即可进行训练——它使用来自低成本可穿戴设备的数据,这些数据记录人类进行数百万次活动的情况,这证明了这种预训练无需大型远程操作或仿真数据集即可达到很高的掌握水平。

GEN-1 简介

GEN-1 融合预训练、后训练技术、从经验中学习 (强化学习RL)、多模态人类引导以及新的推理-时技术的创新。预训练技术的进步推动预训练智能计算效率曲线的提升,而其他技术进步则共同提升模型在任何给定任务上的性能。除了这些进步之外,GEN-1 相较于之前的模型 GEN-0 也得到显著扩展:它包含了更多的计算资源和更多的数据,这些数据均基于现有的数据集进行训练,该数据集现在包含超过 50 万小时的高保真物理交互数据。

虽然可以称 GEN-1 为模型,但更准确地说,称其为系统更为贴切。正如前沿的 LLM 聊天机器人和 API 一样,GEN-1 在推理和模型驾驭方面包含许多系统级组件,这些组件极大地提升其性能,使其远超一组模型权重。

GEN-1 是一款数据高效的学习器:在某些测试中,GEN-1 仅需比 GEN-0 少 10 倍的任务特定数据和微调步骤即可达到与其相当的性能。此外,所有展示的结果均仅使用约一小时的机器人数据构建而成。预训练数据集不包含任何机器人数据,因此当 GEN-1 适应新任务时,它是首次同时适应该机器人本体和该任务。

定义精通

具身基础模型应具备可靠性、速度和从意外情况中恢复的能力。用“精通”一词来指代可靠性、速度和即兴(improvisational)智能的综合体现。虽然可靠性和速度更容易衡量,即兴智能才是机器人领域此前最关键的缺失。

可靠性

可靠地完成任务是实际部署的基本要求。传统系统几十年来一直能够可靠地执行重复性动作,但端到端机器人模型却难以做到这一点。即使实现了高性能,通常也是通过在特定系统上进行资源密集型的远程操作数据处理,或者仅限于少数任务,又或者以牺牲复杂性为代价。真正的挑战不仅在于一次性实现高性能,更在于如何在不同的任务、系统和环境中提供稳健且可重复的性能。

速度

机器人技术长期以来都受制于速度瓶颈:灵巧通用型机器人的演示视频速度太慢。但突破这一速度瓶颈并非易事。随着速度的提升,世界不再那么静态:速度项增大,摩擦动力学发生变化,运动变得模糊,精度、反应速度和推理能力都受到越来越多的限制。此外,重要的不是电机运转的速度,而是任务完成的速度。

即兴发挥

为了在非结构化环境中茁壮成长,机器人必须具备在意外情况下创造性地即兴解决问题的能力——能够做出响应和适应,而不是依赖预设的行为模式。正如之前讨论过的,物理常识对于实现这种自由发挥的问题解决能力至关重要。缺乏物理常识,机器人或许能够很好地执行常规操作,但一旦环境偏离预设,它们就会束手无策。

自 20 世纪 60 年代初以来,可靠性和速度一直是工业机器人的核心——但这段历史建立在精确性和对机器人环境的严格控制之上,而非智能。相反,通用物理人工智能模型采用一种截然不同的方法,即通过智能而非限制来实现目标。正如威廉·詹姆斯(19 世纪末现代心理学的奠基人之一)所写,智能是指运用不同手段达到同一目标的能力。即兴智能使机器人能够在非结构化环境中茁壮成长,同时也提升了通用模型的可靠性和速度。

在评估机器人的掌握程度时,还必须考虑达到特定任务所需数据量。


性能

可靠性

GEN-1 能够在无需人工干预的情况下,长时间高可靠性地执行多项任务。在此展示 6 项任务:连续一小时以上组装汽车零部件、连续折叠 T 恤 86 次、连续维护扫地机器人 200 多次、连续包装积木 1800 多次、连续折叠纸箱 200 多次以及连续包装手机 100 多次。

未经预训练的从零开始训练的任务表现非常差(平均成功率 19%)。在这些任务上进行微调的 GEN-0 模型取得了更好的成绩,但成功率仍未达到生产级标准(平均成功率 64%),而 GEN-1 的成功率则达到了生产级标准(平均成功率 99%)。
请添加图片描述
请添加图片描述

请添加图片描述

如图所示:机器人吸尘器的维修任务,GEN-1 的成功率达到 99%,明显高于 GEN-0 (50%) 或未经预训练的 GEN-0 的全新版本 (2%)。

请添加图片描述
请添加图片描述
请添加图片描述

如图所示:折叠盒子任务,GEN-1 的成功率达到 99%,明显高于 GEN-0 (81%) 或未经预训练的 GEN-0 的初始版本 (13%)。
请添加图片描述
请添加图片描述

如图所示:手机打包任务,GEN-1 模型成功率高达 99%,显著高于 GEN-0 模型(62%)或未经预训练的 GEN-0 模型(42%)。注:这些比较是与2025 年 11 月发布的 GEN-0 模型版本进行的同等条件下的比较。在 2025 年 3 月的 GTC 大会上,针对类似任务展示一个经过预训练的 GEN-0 模型,该模型自 2025 年 11 月以来取得进一步的改进。
请添加图片描述

如果没有预训练,从头开始训练的任务表现非常差(平均 19%)。在这些任务上进行微调的 GEN-0 模型取得了更好的结果,但尚未达到生产就绪的成功率(平均 64%),而 GEN-1 模型则达到了生产级别的成功率(平均 99%)。

速度

如图所示:折叠盒子的速度比较,将 GEN-1 与之前的 SOTA 进行对比。为了简化比较,仅统计折叠盒子所花费的时间,从触摸盒子准备折叠的那一刻起,到折叠完成的那一刻。之前的 SOTA 中,GEN-0和 π0使用相同的盒子,耗时约 34 秒,与 π*0.6使用类似但不同的盒子所花费的时间相近。而 GEN-1 的速度提高了 2.8 倍,能够在约 12 秒内完成盒子折叠。
请添加图片描述

在两项具有挑战性的灵巧性任务中,GEN-1 的任务完成速度约为现有技术的 3 倍。重要的是,GEN-1 的任务完成速度可以比演示更快,并且能够以相应的速度对新的物体物理特性做出反应。GEN-1 可以在 12.1 秒内组装一个盒子——这比之前的最佳模型快 2.8 倍(GEN-0 和 π0 在组装相同的盒子上都耗时约 34 秒)。GEN-1 还可以在 15.5 秒内将手机装入手机壳,速度是 GEN-0 的 2.8 倍。

多种组件共同促成了这些速度水平。首先,模型通过经验学习来达到这些速度。此外,GEN-1引入了谐波推理,改进了推理方式。而且,由于配备了数据采集设备,模型可以访问大量预训练数据,这些数据记录了模型高速完成各种任务的过程(从而将经验迁移到实际应用中),这与传统的远程操作系统形成鲜明对比。传统的远程操作系统由于缺乏力反馈、延迟问题和可视性挑战,自然会产生速度较慢、不够流畅的数据。

即兴智能

这些模型在应对意外情况时展现出显著的创造性。例如,在一个长距离汽车套件组装的例子中,如果一个垫圈被撞到无法正确抓取,机器人可以将其放下重新抓取,或者将其部分插入缝隙中以利用外部灵巧性重新抓取,甚至可以使用另一只手进行双手抓取。对于大型可变形体,如果它们最终处于非常意外的状态,模型能够找到恢复方法。这些行为远远超出训练分布范围,直接有助于从意外的长尾事件中恢复。

局限性

GEN-1 模型并非完美无缺。例如,虽然已经展示几个灵巧性任务的成功率超过 99%,但并非所有尝试过的任务都能达到这样的成功率。此外,某些任务需要更高的成功率或速度才能在实际应用中发挥作用。尽管如此,期望下一代模型能够解锁更广泛、更复杂的任务,并且随着基础模型的改进,每个任务所需的数据量也会逐渐减少。

重新思考具身智能的对齐方式

一个值得注意的观察是,尽管基于大规模交互数据的预训练能够解锁涌现式的即兴行为(例如,摇晃袋子使物体就位、重新整理错放的物品或伸手去拿掉落的物体),但这些都是具有实际后果的物理动作。机器人领域的成功定义并非放之四海而皆准——它取决于具体任务、工作流程,最终由用户定义【13】。这不仅关乎机器人必须做什么,更重要的是,它不应该做什么。因此,涌现行为既可以是优势(例如,未经过明确训练的恢复行为),有时也可能成为劣势。随着具身基础模型的功能日益强大,我们的目标是改进对齐方法,并精准地引导它们实现用户真正想要的行为。

展望未来

构建 GEN-1 并非易事——其重新设计分布式训练基础设施,以支持 PB 级物理交互数据。花费数月时间提升训练稳定性,构建自定义内核,发明新型分页注意机制以实现实时推理,完善后训练技术(结合理论强化学习和多模态人类引导的基础),并强化控制,使其更加流畅和精准。设计了全新的硬件,并将数千只机器人手臂运送到新的地区,让它们体验独特的物理活动。这些进展将为未来的研究奠定基础,将继续扩展数据引擎,使其功能达到下一阶段。

源于物理世界的通用智能

GEN-1 不仅仅是一个模型。它捕捉到人工智能中一个重要的组成部分,这是目前聊天机器人所缺失的。这种人工智能源于在现实世界中的行动,它结合基于真实物理的知识、对空间和时间重要性的深刻理解,以及对行动后果的认知。正是这种能力赋予机器人自主应对意外情况的能力(在情况变得更糟之前),而无需人类在每一步都进行干预以避免不可逆转的失败。


Generalist AI Team, “GEN-1: Scaling Embodied Foundation Models to Mastery”, Generalist AI Blog, Apr 2026.

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐