25年9月来自上海 AI 实验室和哈工大(深圳)的论文“F1: A Vision-Language-Action Model Bridging Understanding And Generation To Actions”。

在动态视觉环境中执行语言条件任务仍然是具身人工智能的核心挑战。现有的视觉-语言-动作 (VLA) 模型主要采用反应式状态到动作的映射,这往往导致动态场景中的短视行为和较差的鲁棒性。本文 F1 是一个预训练的 VLA 框架,它将视觉前瞻生成集成到决策流程中。F1 采用混合 Transformer 架构,包含用于感知、前瞻生成和控制的专用模块,从而连接理解、生成和动作。F1 的核心是采用下一代预测机制,将目标条件下的视觉前瞻合成为明确的规划目标。通过预测可能的未来视觉状态,F1 将动作生成重新表述为前瞻引导的逆动力学问题,从而使能够隐式实现视觉目标的动作成为可能。为了赋予 F1 稳健且可泛化的能力,提出一个三阶段训练方案,该方案基于一个包含 136 个不同任务的超过 33 万条轨迹的庞大数据集。该训练方案增强模块化推理能力,并赋予模型可迁移的视觉预见能力,这对于复杂动态的环境至关重要。对现实世界任务和模拟基准的广泛评估表明,F1 始终优于现有方法,在任务成功率和泛化能力方面均取得了显著提升。


视觉-语言-动作模型

多模态大语言模型 (MLLM) 的快速发展 (Liu,2023b;OpenAI,2024;Yang,2025a;Bai,2025) 推动了视觉语言动作 (VLA) 模型的发展。VLA 模型融合了视觉语言模型,并添加了动作预测模块 (Black,2024;Kim,2024;Qu,2025b;Song,2025;Team,2025a;Cheang,2025;Bjorck,2025;Yang,2025b;Bu,2025;Qu,2025a)。它们利用预训练 VLM 强大的感知和语言基础,使机器人能够比纯粹的反应式策略更灵活地解释人类指令。尽管前景光明,但当前的 VLA 模型在稳健性方面仍然有限。大多数公式仍然根据当前状态被动地预测动作,而不推理场景将如何演变,从而导致在动态和长期任务中出现短视行为。尽管一些研究尝试结合时间记忆(Li et al., 2025a; Shi et al., 2025)并将训练后的 VLA 与强化学习方法(Zhang et al., 2025b; Lu et al., 2025)结合起来,但它们仍然难以应对复杂的场景。

逆动力学模型

由于将视觉观察和文本指令直接映射到动作空间具有挑战性,先前的研究(Deng et al., 2025b; Hu et al., 2024; Liao et al., 2025b; Zhong et al., 2025; Cen et al., 2025; Wang et al., 2025; Zhao et al., 2025; Gao et al., 2025)探索通过在训练期间注入辅助中间表征(例如抓取姿势、分割掩模、光流或未来图像)来增强动作预测,从而引导模型获得更结构化的输出。然而,这些表征通常针对特定领域,无法充分利用预训练大型语言模型的潜能力,导致策略在部署到训练分布之外时变得脆弱。逆动力学模型(Du et al., 2023)可以从两幅连续图像中提取潜在动作,从而降低从图像空间映射到动作空间的难度。近期的研究(Black et al., 2023;Li et al., 2025b;Zhu et al., 2025;Cen et al., 2025;Zhao et al., 2025;Wang et al., 2025;Zhang et al., 2025a)尝试将决策任务分解为首先生成未来图像或视频,然后预测动作。然而,他们在训练时大多使用未来预测目标作为正则化项,但很少在推理阶段生成视觉引导。

统一视觉语言模型

基于多级学习模型 (MLLM),近期研究探索了将视觉理解与生成功能结合于单一框架的统一模型。早期方法 (Lu et al., 2023; Zhou et al., 2024; Xie et al., 2024; Wang et al., 2024) 采用离散视觉标记化来实现联合建模,但存在信息丢失和语义弱化的问题。而一系列研究 (Wu et al., 2024; Pan et al., 2025; Chen et al., 2025; Lin et al., 2025) 则采用预训练多级学习模型 (MLLM) 和扩散模型的模块化组合,从而牺牲了真正的统一性。近期的研究(Deng et al., 2025a; Liao et al., 2025a)引入了混合 Transformer(MoT)架构,为文本和视觉生成配备独立的专家,但仍然继承扩散的延迟和对外部编码器的依赖。然而,现有的统一框架仍然以视觉理解和生成为中心,而将行动置于认知智能的范围之外。从具身人工智能的角度来看,智能不仅需要感知和想象,还需要与物理世界互动。与理解或生成相比,行动本质上更加复杂,要求更高。


视觉-语言-动作 (VLA) 模型 (Kim,2024;Team,2025a;Black,2024) 旨在使机器人能够在视觉丰富的环境中执行自然语言指令。通过将语言指令与感知输入对齐并将其映射到动作,此类模型能够实现语言引导操作和多样化的人机交互。然而,在现实环境中实现可靠的性能仍然难以实现:环境本质上是动态的,例如,物体会移动,上下文会变化,指令会随时间推移而展开,因此机器人必须能够理解模糊的语言,处理不同的物体,并在场景演变过程中保持长视域时间一致性。这些条件暴露了纯粹被动的状态到动作映射的核心局限性:如果没有对未来可能状态的预测性预见,在分布发生变化的情况下,策略会变得短视且脆弱。

先前在操作策略学习方面的努力大致可分为三种范式,如图所示。最早的研究方向仅采用动作专家进行端到端训练,从观察到低级动作(Zhao et al., 2023; Chi et al., 2023),但这种纯粹的反应式映射缺乏跨任务和具身的语义基础和泛化能力(图 (a))。为了克服这些限制,后续方法将视觉语言模型 (VLM) 集成到策略中,利用预训练的多模态知识来增强场景和指令理解(Black et al., 2024; Bjorck et al., 2025)(图 (b))。然而,它们缺乏时间演化建模,本质上仍然是反应式的,因此无法可靠地应对动态或长期操作任务。近期,基于视觉预测的策略(Hu,2024;Liao,2025b)尝试将未来的观察结果作为辅助信号进行预测(图 ©),但由于缺乏来自视觉语言模型(VLM)的语义理解,其预测缺乏语义基础,导致控制脆弱,鲁棒性和泛化能力有限。

请添加图片描述

这些范式的主要局限性在于它们依赖于被动的状态到动作映射,这导致在动态复杂的操作任务下出现短视行为和脆弱性。这引出了一个核心问题:需要哪些架构和训练原则才能超越被动模仿,走向稳健的、由预见驱动的策略?

受预测逆动力学模型 (Tian et al., 2024c; Black et al., 2023; Du et al., 2023) 的启发,本文引入 F1,一个 VLA 框架,将目标条件下的视觉预见融入感知-行动循环(上图 d)。PIDM 首先预测未来状态,然后将控制框架化为推断实现期望未来观察所需采取的行动。通过采用这一原则,F1 将行动生成重新表述为预见引导的逆动力学:行动不仅源于当前观察,还源于预期的视觉结果。具体而言,F1 采用混合 Transformer (MoT) (Liang et al., 2025) 架构,由三位专门的专家负责理解、预见生成和行动执行,从而将感知、预测和控制连接在一个统一的框架中。为了使模型具备稳健且可迁移的能力,设计了一个渐进的三阶段训练方案。

架构概述

如图所示,F1 由三位专职专家组成:理解专家、生成专家和行动专家。给定指令 l 和当前观察值 o_t,理解专家对语义和视觉信息进行编码,以建立共享的多模态表示。然后,该表示传递给预见生成专家,后者预测基于目标的视觉预见 oˆ_t+1。为了捕捉时间动态,预见模块还利用一系列过去的观察值 {o_t−m, …, o_t−1},从而将预测结果与历史背景和任务目标相结合。最后,预测的预见图像 oˆ_t+1 被输入到行动专家中,后者构建一个预测逆动力学建模问题,使模型能够生成一个动作块 aˆ_t:t+k,从而驱动机器人朝着合成的视觉目标前进。

请添加图片描述

统一的理解-生成-动作 Transformer

基于已证实的仅解码器 Transformer 在大型模型中的有效性(OpenAI,2024;Yang,2025a;Bai,2025;Liu,2023b),F1 使用通用的仅-解码器架构主干实例化所有三位专家,从而实现可扩展的自回归建模,同时保留专家特定的专业化。

理解专家。为了实现自然语言指令与感知输入之间的稳健对齐,理解专家由基于大规模文本-图像数据对预训练的视觉-语言模型初始化。在每个时间步,当前视觉观察 o_t 首先由 SigLIP 视觉编码器(Zhai,2023)编码,以生成高级感知特征。这些特征与语言提示融合,并由仅-解码器的 Transformer 处理,使专家能够捕捉任务目标与观察到的场景之间的语义对应关系。这种设计为理解专家提供了可靠的、语义一致的表征,为后续的预见生成和动作执行奠定了基础。

生成专家。生成专家旨在根据当前观察值 o_t 和语言目标 l 生成一个预见图像oˆ_t+1,作为后续控制的明确中间目标。与传统的反应式策略不同,该模块能够预测未来可能出现的视觉状态,从而在动态环境中实现更流畅、更自适应的行为。高效的预见预测具有挑战性,因为高保真视觉合成通常会产生大量的计算成本。为了解决这个问题,采用一种下一代预测策略,在计算效率和预测精度之间取得平衡。

具体而言,最近的观察{o_t−m,… ,o_t} 首先由多尺度残差矢量量化(VQ)编码器进行编码(Lee et al., 2022)。如图所示,每帧分解为跨 k 个空间尺度 {r_1, …,r_k} 的 16×16 个块,从而为每个 o_i 产生离散 token {z_i0, …,z_ik}。为避免跨多帧连接标记产生过长的序列,时间卷积网络将运动相关特征聚合为紧凑的表示。然后,该表示由仅-解码器 transformer 处理以自回归生成预见 token,随后将其解码为预测的未来图像 oˆ_t+1。通过这种设计,生成专家实现了一种有效的实时预见机制,提供了明确的视觉目标来指导逆动力学模型执行动作。

动作专家。动作专家负责将多模态上下文映射到可执行的机器人动作中。基于语言目标 l、当前观察 o_t 和生成的预见图像 oˆ_t+1,它预测短期动作序列 aˆ_t:t+k。通过明确地融入预见性,该策略不仅基于当前状态,还基于预期的视觉目标进行决策,从而支持目标导向和时间一致性的行为。在实践中,采用分块动作预测 (Zhao et al., 2023),它可以捕捉多个步骤中的运动模式,并在连续动作空间中实现流匹配目标。通过这种机制,动作专家可以制定准确连贯的行动规划,这些计划既能响应即时观察,又能与长期任务目标保持一致。

注意机制。为了协调这些异构专家,引入一种称为理解-生成-动作 (UGA) 渐进式注意机制的分层方案。在每个专家内部,双向专家内部注意机制能够实现全面的 token 交互。除了生成专家之外,在生成专家中,预见 token 遵循因果关系和尺度条件模式,以保持自回归一致性。在专家之间,专家间注意机制遵循因果层级结构:生成专家关注理解专家,而行动专家关注两者,但反向信息流不会流动。这种渐进式设计将预见作为一种明确的中间表征,防止信息从行动泄漏回预见,从而稳定训练,增强可解释性,并确保下游控制真正由预测的视觉结果而非捷径相关性引导。

训练方案

在开源数据集和特定任务数据集上训练 F1,涵盖 136 个任务和 5 个具体实例的 32 万多条轨迹。训练方案遵循三阶段范式,旨在逐步构建对齐、泛化和任务自适应:(i) 预训练阶段 I,将生成专家与理解专家对齐;(ii) 预训练阶段 II,在大规模公共机器人数据集上对完整模型进行预训练;以及 (iii) 后训练阶段,在特定任务的演示上进行后训练以实现具体实例自适应。

预训练阶段 I。理解专家从 π0 (Black,2024) 继承权重,而生成专家则随机初始化。然后,训练生成专家根据历史观察和语言指令合成未来的视觉 token,其输出与预训练理解专家建立的语义空间对齐。此阶段将生成式预见性注入模型,同时保留预训练的视觉-语言对齐。

形式上,给定一系列历史观测值 {o_t−m, …, o_t} 和一条指令 l,生成专家将预测一幅预见性图像 oˆ_t+1,其 VQ 标记表示与目标匹配。训练目标是最小化真值 token 的负对数似然估计。在此阶段,采用教师强制 (teacher forcing) 来稳定自回归训练。

预训练阶段 II 和后训练阶段。在第一阶段协调生成专家和理解专家之后,将在统一的框架下联合优化所有三位专家。该阶段包含两个步骤:第二阶段在大规模公共机器人数据集上对完整模型进行预训练,以进行基础视觉运动学习;后训练阶段则针对特定任务的演示进行微调,以实现具体化适应。此过程有两个目标:

(1) 自回归下一尺度预测。与第一阶段的教师强制机制不同,采用自回归公式,其中每个预见 token 都是基于先前预测的 token 生成的。给定历史观测值 {o_t−m, … , o_t} 和语言指令 l,该模型自回归生成未来的 VQ token zˆ_1:N,其中每个预测步骤都以先前生成的 token 为条件。这种自回归公式增强了训练和推理之间的分布一致性,从而增强了生成稳定性和长期一致性。

(2)基于流匹配的动作预测。为了在预见和运动控制之间建立原则性联系,采用流匹配(Lipman,2023)来模拟从高斯噪声到专家动作的连续转换。给定插值动作 aτ_t = (1−τ)ε + τa_t,其中 τ ∼ U (0, 1) 和 ε ∼ N (0, I),策略 π_θ 学习引导向目标动作转换的矢量场。
总体训练目标定义为两个部分的加权和:L_toal = Lpred_gen + λ · L_action,其中 λ 平衡目标。这种联合优化增强了专家之间的表征一致性,将预见性与控制性相结合,并促进了任务和具体实现的泛化。

实现细节

模型架构。F1 采用混合 Transformer 架构,包含一个理解专家、一个生成专家和一个行动专家。理解专家的架构实现方式与 PaliGemma(Beyer,2024)相同,而生成专家和行动专家则遵循相同的 Gemma 主干网络(Team,2025b)。该主干网络集成了 Swish 激活函数(Ramachandran,2017)、RMSNorm 正则化(Zhang & Sennrich,2019)和旋转位置嵌入(Su,2023)。在初始化方面,理解专家和行动专家继承自 π0(Black,2024),而生成专家则随机初始化,并配备一个来自 VAR 的预训练残差 VQ-VAE 用于图像量化(Tian,2024a)。

数据集。 F1 在一个包含约 33 万个事件的大规模机器人操作轨迹语料库上进行训练,涵盖 136 项任务。该语料库整合了广泛使用的公共基准,包括 LIBERO(Liu,2023a)、Open-X-Embodiment(Collaboration,2025)和 Agi-BotWorld(AgiBot-World-Contributors,2025)。它涵盖了从基本的拾取和放置到抓取、交接和推动等复杂行为的广泛技能,并涵盖了不同的时间尺度,事件长度从 10 秒到 2 分钟以上不等。任务复杂性和时间范围的多样性为开发稳健的视觉运动策略提供了丰富的监督。

训练与推理。训练分三个连续阶段进行。在训练前阶段 I,理解专家处于冻结状态,同时生成专家将接受 VAR 训练,以预测 10 种分辨率的未来图像。在阶段 II 和训练后阶段,所有专家将进行联合优化,以实现端到端的视觉运动学习。为了在推理过程中实现高效的实时控制,前瞻预测被限制在 4 个尺度内。

为了全面评估提出的 F1 模型,在模拟基准测试和实际任务中开展实验。评估不仅验证模型的核心性能,还考察其在各种挑战性场景下的鲁棒性和泛化能力。

首先将 F1 与现有主流的“视觉-语言-动作”模型(Black,2024;Kim,2024;Bjorck,2025)进行定量比较,以证明其卓越的性能。然后,进行一系列全面的简化研究,以论证每个关键组件的必要性和贡献。此外,为了更深入地了解模型的鲁棒性、泛化能力和快速适应性,还进行一些额外的实验。具体来说,搭建一个带有传送带的厨房环境,以评估其在涉及移动目标的具有挑战性的动态操控任务中的表现。还对各种机器人实例进行实验,以评估该模型快速适应新平台的能力。最后,通过长期任务评估其在复杂、连续场景中的长期稳健性。

如图所示:在三个不同的平台上进行 12 项真实世界机器人实验:Genie-1、Franka 和 ARX LIFT II。Genie-1 上的实验旨在评估模型处理任务多样性的能力。Franka 实验评估模型的快速适应能力,而 ARX LIFT II 任务则用于评估其在具有挑战性的长期操控问题上的性能。

请添加图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐