Alpamayo-R1:连接推理和动作预测,实现长尾环境下的可泛化自动驾驶
25年11月来自 Nvidia 的论文“Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail”。通过模仿学习训练的端到端架构通过扩展模型规模和数据量推动了自动驾驶技术的发展,但在安全至关重要的长尾场景中,由于监督信息稀疏且因果理解有限,其
25年11月来自 Nvidia 的论文“Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail”。
通过模仿学习训练的端到端架构通过扩展模型规模和数据量推动了自动驾驶技术的发展,但在安全至关重要的长尾场景中,由于监督信息稀疏且因果理解有限,其性能仍然脆弱。为了解决这个问题,本文引入 Alpamayo-R1 (AR1),这是一种视觉-语言-动作模型 (VLA),它将因果链推理与轨迹规划相结合,以增强复杂驾驶场景中的决策能力。其方法包含三个关键创新:(1) 因果链 (CoC) 数据集,该数据集通过混合自动标注和人机协同流程构建,生成与驾驶行为一致的、基于决策的因果推理轨迹;(2) 模块化 VLA 架构,该架构结合 Cosmos-Reason(一种预训练用于物理人工智能应用的视觉-语言模型)和基于扩散的轨迹解码器,后者可以实时生成动态可行的路线规划; (3) 采用多阶段训练策略,利用监督式微调来激发推理能力,并利用强化学习 (RL) 通过大型推理模型反馈来优化推理质量,从而确保推理与动作的一致性。评估结果表明,与仅基于轨迹的基线模型相比,AR1 在复杂案例中的规划精度提升高达 12%,在闭环仿真中,越野率降低 35%,近距离碰撞率降低 25%。强化学习后训练使推理质量提升 45%(以大型推理模型评价指标衡量),推理与动作的一致性提升 37%。模型参数从 0.5 亿扩展到 70 亿,性能持续提升。车载道路测试证实了其实时性能(延迟 99 毫秒)和成功的城市部署。通过将可解释的推理与精确控制相结合,AR1 展示一条通往 L4 级自动驾驶的实用路径。
构建一个高效且具备推理能力的自动驾驶VLA需要具备通用VLM(Achiam et al., 2023; Comanici et al., 2025)目前所不具备的几项新功能。
首先,自动驾驶车辆依赖于多摄像头、多时间步长的观测数据来实现360度全方位的态势感知,然而标准的VLM通常独立处理图像或视频帧,缺乏明确的时间或跨视角推理,导致数据量过大,无法在处理多摄像头输入时进行实时推理。其次,驾驶决策必须基于因果结构的推理(Wei et al., 2022),而非自由叙述;模型必须基于历史窗口中可观察的证据来解释某个操作为何安全合法。第三,模型必须实时生成精确的多模态轨迹预测;将路径点自回归解码为文本标记效率低下,且缺乏安全车辆控制所必需的几何和运动学约束(Driess et al., 2025)。此外,为确保长尾场景下的安全性,推理轨迹必须与执行的动作保持一致。
为了应对这些挑战,提出 Alpamayo-R1 (AR1),这是一种模块化的视觉语言动作模型 (VLA),它扩展 Alpamayo-VA (Wu, 2025),将推理与动作预测相结合,用于自动驾驶。设计理念强调灵活性和模块化:该架构可以采用任何现成的视觉语言骨干网,同时集成特定领域的组件,以实现高效的视觉编码和实时动作解码。这种模块化能够利用视觉-语言预训练的最新进展(NVIDIA et al., 2025; Bai et al., 2025),同时高效地将高层推理与底层控制相结合,从而实现自动驾驶。
如图展示 AR1 的端到端架构。该系统处理多摄像头、多时间步观测数据作为视觉输入,并可选择性地添加文本输入,例如用户命令和高级导航指令。所有输入,包括历史自我运动数据,都按照预定义的顺序被标记化为统一的多模态 token 序列。这些token随后由 Cosmos-Reason(NVIDIA,2025)骨干网络进行处理,生成代表推理轨迹、元动作和预测未来轨迹的输出 token。该模型分多个阶段进行训练,结合监督微调(SFT)和强化学习(RL)。
VLM骨干网:Cosmos-Reason
采用Cosmos-Reason(NVIDIA,2025)作为Alpamayo-R1的VLM骨干网。Cosmos-Reason是一款专为物理AI应用设计的VLM,它基于370万个视觉问答(VQA)样本进行后训练,以培养物理常识和具身推理能力。该模型整合2.47万个精选的驾驶场景视频VQA样本,包括场景描述、驾驶难度标注以及从DeepSeek-R1(DeepSeek-AI,2025)中提取的推理轨迹,用于预测下一步动作。
域特定适配
尽管 Cosmos-Reason 提供坚实的基础,但要真正应用于自动驾驶领域,仍然存在两个关键差距:一是针对多摄像头、多时间步输入的高效视觉编码,二是用于实时控制的精确轨迹解码。
视觉编码
视觉语言模型(VLM)中视觉编码器的主要作用是将输入图像转换为token流,以便后续由大语言模型(LLM)主干网进行处理。然而,由于VLA面向机载部署,其视觉编码器的一个关键要求是在保留环境中相关语义信息的前提下,尽可能减少生成的token数量。为了实现这一目标,人们提出了多种视觉token化方法,这些方法的主要区别在于每个推理步骤编码的信息量(即,将多少图像压缩成多少tokens),以及它们各自的架构选择。
轨迹解码
为了扩展VLM在物理世界中有效运行的能力,必须将对应于自动驾驶环境下未来行驶轨迹的物理动作融入到VLA的训练中。然而,具身化给动作解码带来独特的挑战:
(1) 动作表示必须准确,既要保持保真度,又要兼顾多模态信息;
(2) 解码过程必须足够快,以支持实时推理;
(3) 解码机制应无缝集成到VLA的训练流程中。
最初,在原始位置(即𝑥, 𝑦)路径点空间中训练模型容易受到传感器噪声的影响,这通常会降低模型的收敛速度。此外,下游的底层车辆控制器通常会对轨迹输出进行平滑处理,以确保车辆上执行的一致性和稳定性。因此,其并非直接在原始位置航点空间中学习 𝜏,而是采用由独轮车动力学控制的动作表示,从而获得更好的闭环性能。具体而言,采用一个独轮车动力学模型,控制输入为 𝑎 = {(𝑎𝑖, 𝜅𝑖)} (Lynch and Park, 2017),并应用欧拉离散化。
此外,为了使 AR1 能够理解和生成轨迹,将轨迹 𝜏 编码为离散token 或连续嵌入。在离散表示中,将 𝑎 中每个预定义范围内的连续值均匀量化到等间距的区间中,并将得到的索引表示为特殊token。对于连续表示,用正弦位置编码将 𝑎 映射到 AR1 的嵌入空间,然后进行 MLP 投影。具体来说,采用一种受 𝜋0.5-KI (Driess et al., 2025) 启发的策略,将 VLM 中学习到的离散轨迹 token与动作专家相结合,后者使用流匹配框架 (Lipman et al., 2023) 将相同的轨迹解码为连续表示。该框架简化 VLM 的训练,加速轨迹解码,并实现更好的闭环性能。
为了使推理型VLA模型能够解释驾驶行为的原因并提升其轨迹级性能,推理数据必须与车辆自身轨迹紧密相关。然而,自动驾驶领域现有的CoT推理数据集通常存在一些局限性:
(1)行为描述模糊:自由形式的CoT标注可能无法具体说明驾驶行为,或者使用的词语与车辆自身轨迹的相关性较弱;
(2)推理肤浅:一些推理轨迹主要描述上下文观察或假设因素,缺乏与车辆自身行为的直接因果联系,因此对提升后训练的驾驶性能帮助有限;
(3)因果混淆:推理轨迹可能包含未来时间窗口内发生的因果因素,而这些因素在模型训练期间无法被观测到。这是因为标注过程通常会暴露整个视频,而没有区分历史片段和未来片段。
为了弥补这些不足,引入一种标注框架,该框架在推理轨迹中强制执行明确的因果结构。首先定义一组全面的高层驾驶决策,这些决策直接对应于低层自我轨迹。每条推理轨迹都与一个明确的驾驶决策相关联,并且仅包含促使该驾驶决策的因果因素。通过精心选择关键帧来分割历史和未来的视频片段,确保所有因果因素都源于可观察的历史窗口,从而避免因果混淆。这种设计确保每条推理轨迹都基于决策且具有因果关联,捕捉简洁易懂的因果关系,而非冗长的描述性叙述。由此产生的数据集被称为因果链(CoC)数据集,它为学习决策因果关系提供清晰的监督,使推理型VLA能够在车载推理过程中高效地推断特定驾驶行为的原因。该标注流程概述如图所示:
结构化因果链
为了便于高效标注,标注框架将每个数据样本分解为三个结构化组成部分:驾驶决策、因果因素(关键组成部分)以及构成因果链的序列。因此,每个数据实例都构成一个包含这三个组成部分的结构化因果链样本。
驾驶决策。为确保CoC数据基于决策,定义一个封闭的高级驾驶决策集,如表所示。每个视频片段最多标注一个纵向决策和一个横向决策(或任一通道均不标注),对应于车辆在关键推理时刻之后立即采取的第一个动作。这种标准化的决策清单与低级轨迹直接对应,并消除对驾驶行为的自由、模糊描述,从而确保每个推理轨迹都明确地指明所采取的决策。为了保持语言的一致性和多样性,最终的CoC推理轨迹是使用与这些驾驶决策相对应的简洁动词集构建的。
关键组成部分。与封闭的驱动决策集不同,因果因素被定义为一个开放式集合,其类别和示例属性如表所示。这种设计允许人工标注者或自动标注流程灵活地指定直接影响驱动决策的关键要素,同时保持输出的结构化。
组合式因果关系轨迹。一旦识别出驾驶决策和关键组成部分,它们就会在语言上被组织成一个连贯的因果关系轨迹,该轨迹捕捉所选决策背后的因果逻辑。因此,结构化的因果关系协议强制执行:
(1) 决策落地:每个推理轨迹都锚定于关键时刻的单个明确决策;
(2) 因果局部性:所有证据必须源自观察的历史窗口;
(3) 标注经济性:仅包含与决策相关的因素。
数据管理
在定义CoC的结构化组成部分(驾驶决策、关键组件和CoC轨迹)之后,下一步是确定何时应该标注这些推理数据。并非每个视频片段都需要标注;只有当可观察因素与车辆后续决策之间能够建立清晰的因果关系时,才会触发标注。因此,数据标注框架的关键在于数据管理,即识别这些关键的推理时刻。
混合标注流程
为了确保质量和可扩展性,开发一种结合人工标注和自动标注的混合标注流程。虽然自动标注足以生成用于推理 VLA 模型的大规模训练数据,但高质量且经过人工验证的数据(约占总数据的 10%)对于后续的 SFT、自动标注评估和模型评估至关重要。其提出的混合标注方法兼顾效率和准确性,既支持大规模训练,也支持可靠的模型评估。
基于 Cosmos-Reason VLM 骨干网络(该网络通过域特定的 SFT 提供基础的物理推理能力),采用三阶段训练策略将 VLM 转化为具有推理能力的自动驾驶策略。如图所示,每个阶段逐步增强对稳健且可解释的驾驶至关重要的不同能力。1)通过使用离散轨迹 token 进行训练,并添加基于流匹配的动作专家,将动作模态注入 VLM,使模型能够预测车辆控制输出。2)通过在 CoC 数据集上进行 SFT 来提高模型的推理能力,教会模型生成基于因果关系的解释,从而做出更好的驾驶决策。3)最后,采用强化学习 (RL) 结合大量的推理模型反馈来改进推理质量,使推理轨迹与执行的动作保持一致,并优化轨迹质量,从而产生可解释且安全的驾驶行为。
动作模态注入
在训练过程中,通过离散token 将动作模态注入到 VLM 中,并使用交叉熵损失函数,基于定义的训练 token 序列来训练 VLM。根据基于控制的表示,每条轨迹由 64 个路径点组成,每个路径点有两个量化值(加速度 𝑎_𝑖 和曲率 𝜅_𝑖),因此每条轨迹共有 128 个离散 tokens。这些 tokens 使用一组专门用于动作表示的特殊 tokens 进行编码。
推理能力的激发
建立一个具备动作生成能力的VLA之后,下一个挑战是使模型能够进行结构化且基于因果关系的推理,从而解释特定驾驶决策的做出原因。这种能力对于处理复杂的、安全攸关的场景至关重要,因为纯粹的模仿学习模式匹配可能失效(Wei,2022)。为了实现这一目标,利用结构化 CoC 数据集,该数据集提供基于决策且具有因果关系的推理轨迹,并搭配专家的驾驶轨迹。对 CoC 数据集进行有监督训练 (SFT),以训练模型通过模仿生成推理轨迹,其中每个推理轨迹都锚定于明确的驾驶决策并基于关键场景组件。虽然 SFT 使模型能够构建基本的推理能力,但通过强化学习 (RL) 进一步提升推理质量并强化推理与动作的一致性。形式上,每个训练样本包含一个多摄像头驾驶场景观测 𝑜 = [𝑜_image , 𝑜_egomotion]、一个结构化的 CoC 推理轨迹 Reason(用于解释自车决策背后的因果因素)以及定义的相应基于控制真实轨迹表示 𝑎。
尽管SFT能够帮助VLA模型构建推理轨迹,但它本身仍受到以下几个因素的固有限制:
(1) 数据偏差和标注噪声:自动标注的数据可能包含不完善的因果关系,导致模型过拟合标注信息,而非学习稳健的因果推理。
(2) 泛化能力有限:模型可能仅记忆常见的推理模式,而未能发展出更深层次的因果理解,因此无法泛化到新的场景。
(3) 视觉基础薄弱:下一个token的预测并未强制执行视觉一致性;模型可能会臆想出场景中不存在的因果因素。
(4) 推理与行动不一致:联合优化并未明确强制执行所述推理与预测轨迹之间的一致性,这可能导致相互矛盾的解释。
基于强化学习的后训练
为了解决SFT 的局限性,引入如图所示的基于强化学习后训练框架,该框架优化三个互补的奖励信号:推理质量(通过大型推理模型反馈)、推理-动作一致性以及轨迹质量。与 SFT 不同,SFT 优化的是在教师强制下专家演示的概率,而没有针对测试-时推理错误的反馈,强化学习则提供关于模型自身部署的显式推理反馈,使优化目标与系统的实际部署方式保持一致。这种方法通过提供针对性的反馈直接解决 SFT 的不足,该反馈评估推理的因果正确性及其与已执行动作的一致性,并在相同的计算预算下获得不成比例的鲁棒性和泛化能力的显著提升。

更多推荐

所有评论(0)