我自己的原文哦~                                https://blog.51cto.com/whaosoft143/14402401

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#走向融合统一的VLA和世界模型......

最近自动驾驶的两大前沿方向:VLA和世界模型,已经有明显的融合趋势。这一想法是十月份看到中科院的DriveVLA-W0,因此笔者借这个机会分别调研了 VLA 和 World Model 相关的工作,并且思考一下这二者结合的可能性。太长不看版:

VLA和世界模型并不冲突,终极目标是一致的。世界模型可以作为数据引擎、闭环引擎,甚至可以参与到VLA的模型训练过程中,融合是大趋势,落地是我全都要。

经过几周的调研、分析,有了些成果和自己的心得,所以也想理一理,分享给xx的小伙伴们,主要分为以下几个部分:

  • 简单介绍 VLA
  • 简单介绍 World Model
  • 两者到底各有什么优缺点
  • 二者融合的可能性

自动驾驶技术诞生到发展至今,已经有十多年了,随着技术的不断迭代,以及大模型技术的蓬勃发展,如今的自动驾驶仿佛进入了一个“百家争鸣”的时代。如果说早期的模块化设计像是手工打造的传统汽车,那么如今以大模型为代表的技术路线,更像是试图直接给车装上“会思考的大脑”。

在这股浪潮中,两条路径尤为引人瞩目:一条是“能听会说还会开”的 VLA,另一条是擅长“在脑海中预演未来”的 World Model。它们就像两位风格截然不同的车手:一位善于沟通,能听懂指令、解释行为,像一位经验丰富的“老司机”;另一位则沉默专注,善于推演和预判,像一位精于计算的“战术大师”。

那么,这两个看似不同的技术路线,究竟哪条路线更胜一筹?它们是对手,还是最终会携手并进的伙伴?本文将给大家深度解析。首先,咱们聊一聊二者分别是什么。因为xx平台有发过这两个路线的详解,这里笔者就 high level 的概括一下,感兴趣地小伙伴可以翻翻之前的文章,讲地更为详细。

什么是 VLA?

VLA,全称 Vision-Language-Action,即“视觉-语言-行动”模型。 是一个多模态大脑,它能看得懂画面(Vision),听得懂语言(Language),并且能直接做出行动决策(Action)。换句话说,它的输入是摄像头画面(Vision)和人类语言指令(Language),输出则是直接的驾驶动作(Action),比如方向盘转角、油门刹车信号,或是一条未来行驶轨迹。

想象一下,你坐在一辆自动驾驶车里,对它说:“前面路口右转,注意那辆自行车。” 它不仅能准确执行,还能回答你:“好的,已识别到右侧有自行车,我会减速让行。”——这就是 VLA 试图实现的场景。

从系统的角度出发,主要分为:输出-中间层-输出的 “三明治架构”

输入端:融合多模态感知VLA的输入整合了视觉、传感器与语言等多模态的信息。核心视觉输入通过多摄像头图像生成BEV或体素表征,以理解空间结构;传感器(如激光雷达、毫米波雷达)提供几何与动态补充;语言输入则是关键创新,支持导航指令、交互问答与规则描述,使系统能理解人类意图与常识,构建出超越传统纯视觉感知的环境理解。

中间层:统一推理与决策生成中间层是VLA的“大脑”,由视觉编码器、语言处理器与动作解码器构成。视觉编码器(如DINOv2)提取特征;语言处理器(基于LLM)进行语义推理与链式思维分解;动作解码器则通过序列预测、扩散模型或分层控制,将推理结果转化为具体驾驶动作,实现感知、理解到行动生成的端到端映射。

输出端:直接驱动车辆输出端直接对应车辆控制,分为低层指令与轨迹规划两类。低层指令(如油门、方向盘转角)适用于需快速响应的场景;轨迹规划则输出未来数秒的连续路径,更注重平顺性与前瞻性,便于与控制系统集成。两类输出均旨在实现安全、流畅且可解释的驾驶行为。目前学术界和工业界的Action都定义在轨迹这一层面,因为轨迹是相对通用的,可以较容易转换为低层指令(不同车型之间有差异)。

总的来说, VLA 把视觉、语言和动作整合到一个统一框架里,既能理解人类的自然语言指令,比如“在路口礼让救护车”,也能基于视觉感知做出推理,并且直接生成具体的驾驶行为。换句话说,VLA 把“看、想、做”这三件事打通了,真正实现了从感知到推理再到控制的一体化。

什么是 World Model?

World Model,即世界模型,是一种生成式时空神经网络系统。它能将多传感器的高维观测数据压缩成一个紧凑的、包含几何与语义信息的内部状态,并在这个潜在空间中推演未来场景的演化。简单来说,它让自动驾驶车辆具备“在脑海中预演未来”的能力,通过内部仿真来评估不同决策的后果,从而做出更安全、更前瞻的规划。

想象一下,自动驾驶系统在左转前,会先在内部模型中快速模拟:如果现在转向,对向车辆是否会减速?行人是否会突然闯入车道?未来3秒的路口会呈现怎样的交通状态?——这就是 World Model 所实现的核心机制。

从系统架构出发,同样也可以划分为输入、核心模型与输出的 “三明治架构”

输入端:多模态时序观测与状态

World Model的输入侧重于时序的多模态传感器数据(如图像、激光雷达点云)以及自车状态。这些数据被编码为统一的表征,用于捕捉场景的几何结构、语义信息和动态变化。与上述VLA不同,其输入通常不直接包含语言指令,而是专注于对物理世界状态的建模与预测。

核心层:状态编码、记忆与生成式推演

核心层是World Model的“虚拟引擎”,通常由编码器、记忆模块和生成式预测模块构成。编码器将观测压缩为低维潜在状态;记忆模块(如RNN、Transformer)维持时间上下文;生成模块(如扩散模型、自回归模型)则根据当前状态与 World Model的输出是对未来场景的丰富表征,如生成图像序列、BEV地图、4D占据栅格或未来点云。这些输出并不直接控制车辆,而是为下游规划模块提供前瞻信息,用于轨迹评分、风险估计与策略优化。本质上,World Model充当了规划器的“内部仿真器”,提供可快速试错的决策支持。

总的来说,World Model通过构建一个可微分、可推演的虚拟世界,使自动驾驶系统能够进行基于“想象”的决策。它将“观测-压缩-预测”整合进一个统一的生成框架,旨在实现更安全、更鲁棒、具备物理常识的自动驾驶能力。

二者的区别与联系

在解释完二者大概的技术路线之后,为了更好的展示(也为了笔者自己记些笔记),我将两者的主要区别,从不同维度整理在下表中,与大家分享:

不同维度

VLA

World Model

目标不同

主要为了实现人车交互与可解释的端到端的自动驾驶。重点在于将人类语言融入到系统当中,与驾驶行为对齐,让系统“能听懂、会解释、直接开”。

构建内一个预测&仿真的系统。重点在于推演未来世界状态,为规划提供一个可以试错的仿真 world。

输入不同

传感器数据(可能是单帧 / 多帧) + 显式语言指令 or 交互。

传感器时序数据 + 自车假设动作。

输出不同

直接的动作控制信号 or 短轨迹。

未来的场景状态(如图像、占据栅格),而非直接驾驶动作。

核心技术不同

利用大模型的推理能力。关键在于将视觉特征与语言语义在统一空间中对齐,并利用LLM的推理能力分解任务。

状态编码与生成式预测。关键在于学习环境动态的压缩表示,并用扩散、自回归等模型生成物理合理的未来。

优势不同

交互自然、可解释性强、能利用语言常识处理复杂语义场景。(更人性化)

预测和仿真未来、方便量化风险,并且可以通过仿真生成大量 corner case 数据。

当前应对的挑战不同

“说做不一”,L 和 A 的对齐难题、并且算力需求大。

缺乏高级语义理解、实时高保真推演的计算成本高、本身不直接产出驾驶策略。

在总结完这么多的相异点之后,VLA 和 World Model 真的不存在一些相似的点吗?其实也是有的:

  1. 技术起源的 Background 是一致的
    两项技术都源于对传统模块化 pipeline(感知-预测-规划-控制)以及早期传统端到端模型(“黑箱”)的深刻反思,为了缓解“系统碎片化导致的信息损失” 以及“缺乏常识推理与长尾场景处理能力”这两大痛点。
  2. 终极目标是一致的
    两者都是让自动驾驶系统具备 “human-like”的认知与决策能力。无论是通过语言理解常识,还是通过内部仿真预见未来,其内核都是为了赋予机器主动理解环境、进行推理、并做出稳健规划的高级 Agent。
  3. 关键挑战是一致的
    都需要直面二八定律中的下半场难点:如何解决剩下的 20% 的 corner cases。虽然方法是不同的:VLA 试图利用大语言模型中嵌入的人类常识与语义知识来理解和应对;World Model 则试图通过物理仿真生成海量罕见场景数据来覆盖和准备,提升系统的鲁棒性。
  4. 技术底层是一致的
    两者都重度依赖“预训练+微调” 的现代深度学习范式,并建立在 Transformer 等核心架构之上。它们都需要从海量的多模态数据(图像、视频、文本、点云)中学习世界的通用表征,作为自身能力的基础。

纵观技术发展,VLA 和 World Model 是适应当下技术发展潮流中两个弄潮儿,共同承担着将原始感知提升至高层次认知,并为最终决策提供关键支持的战略性角色。而且也并非是水火不容的关系,而是高度的互补。 未来的趋势可以是两者的深度融合,塑造一个“既会思考,又会沟通”的终极驾驶大脑。

笔者自己整理了些可能的融合路径如下:

  1. 架构级融合:以 World Model 作为核心的“预测与仿真”,负责生成高保真的未来场景和风险评估;同时,将 VLA 作为“交互与决策解释层”,负责理解指令、进行高级语义推理,并基于 World Model 的推演结果做出最终决策并解释。
  2. 训练数据互补:可以用 World Model 生成的大量、多样、逼真(尤其是一些高风险)场景,来训练和增强 VLA 的决策鲁棒性。同时,VLA 产生的带有语言标注的交互数据,也可以反过来用于提升 World Model 对语义意图的理解。
  3. 形成闭环智能:VLA 根据指令和当前状态做出初步决策,World Model 对该决策进行快速“脑内推演”,预测结果并评估风险,再将信息反馈给 VLA 进行决策调整或生成解释。形成一个“感知-推理-仿真-决策-解释”的增强闭环。

其实,将 VLA 和 World Model 融合的工作也是有不少的,当然,为了总结的完备性,笔者也会列一些机器人领域的 paper, 提供一些思路。接下来,我们按时间顺序来看一些例子。 PS:这里也提一下,早期的一些二者融合都是在机器人领域的尝试,近期,自动驾驶领域越来越多相关的工作了。

相辅相成的例子

我们从xx领域的相关工作盘起,再延伸到自驾领域。

3D-VLA

图片

论文标题:3D-VLA: A 3D Vision-Language-Action Generative World Model

提出时间:2024.03

提出机构:东北大学、加州大学洛杉矶分校、麻省理工学院等

论文链接: https://arxiv.org/pdf/2403.09631

研究背景:现在的视觉-语言-动作模型大多还在“二次元”里打转——只处理2D图像,但咱们活在一个真实的三维世界。人类可是靠3D感知来理解环境、做决策的。虽然最近也有一些3D基础模型出现,但它们往往是“看到啥就动啥”,缺少对世界动态变化的想象能力,更不会像人一样先在大脑里模拟一下“如果我这么做,接下来会怎样”。这种“世界模型”能力对于机器人完成复杂任务至关重要。所以,这篇论文就想填上这个坑:搞一个能真正理解、想象并规划3D行动的xx模型。

论文内容:这篇论文的核心是提出了 3D-VLA,一个能打通3D感知、推理和动作生成的“世界模型”。它可不是简单地把2D模型升级成3D,而是从头设计了一套融合架构:

模型骨架以 3D-LLM 为基础,加入了各种交互token(比如物体、位置、场景、动作token),让模型能更自然地理解和表达3D环境中的元素和关系。

关键创新在于让模型学会“想象未来”:作者专门训练了一组扩散模型,用来生成执行指令后的目标图像、深度图和点云。然后通过一个投影器,把这些视觉生成能力和语言模型的推理能力对齐,让模型能根据指令“脑补”出目标状态。

数据方面,作者发现现有机器人数据集严重缺乏3D信息,于是自己动手整了一个超大规模的3Dxx指令数据集(约200万个样本),方法是从现有数据中提取或估算深度、点云、3D边界框等信息,再用ChatGPT增强语言描述。

实际效果上,3D-VLA在3D推理定位、多模态目标生成(图片和点云)和机器人动作规划等任务上,表现都远超之前的2D模型。比如,生成的目标图像更符合指令,动作预测也更准确,证明了这种“先想象再行动”的建模方式确实更接近人类的思维方式,更适合复杂的真实世界任务。

WorldVLA

图片

论文标题:WorldVLA: Towards Autoregressive Action World Model

提出时间:2025.06

提出机构:阿里巴巴集团达摩院、浙江大学等

论文链接: https://arxiv.org/pdf/2506.21539

研究背景:视觉-语言-动作(VLA)模型与世界模型,也是机器人领域的两大热点。VLA模型利用预训练的多模态大语言模型作为主干,能生成动作,但通常也只是输出动作,缺乏对动作输入进行深度理解。而世界模型能够基于当前状态与动作预测未来状态,理解环境物理规律,但无法直接生成动作指令,限制了其在需明确动作规划的场景中的应用。这二者功能互补却相互割裂,导致机器人系统在动作生成与环境理解之间存在语义与功能鸿沟,难以实现真正统一的理解与决策闭环。

论文内容标题就叫 WorldVLA,顾名思义,一个自回归动作世界模型,将VLA模型与世界模型统一于单一框架,实现动作与图像的联合理解与生成。模型采用三个独立的标记器(图像、文本、动作)将不同模态信息转换为共享词汇表中的离散标记,并在同一LLM架构中以自回归方式进行训练与推理。其中,世界模型基于当前图像与动作预测下一帧,学习环境物理规律;动作模型基于当前观测与指令生成动作,增强对视觉内容的理解。二者通过联合训练相互促进:世界模型为动作生成提供物理先验与结果模拟能力,动作模型则提升世界模型的视觉理解与生成质量。

针对自回归生成多步动作序列时错误累积导致性能下降的问题,论文还提出一种动作注意力掩码策略,在生成当前动作时屏蔽之前已生成的动作,使每个动作仅依赖于视觉与文本输入,从而减少错误传播,显著提升动作块生成的性能。

实验在LIBERO机器人操作基准上进行,结果表明WorldVLA在未使用大规模预训练数据的情况下,其动作生成成功率超过同类离散动作模型(如OpenVLA)约4%;同时,其视频生成质量(FVD指标)优于单纯世界模型约10%,验证了动作模型与世界模型相互增强的有效性。注意力掩码策略也在长序列动作生成任务中带来了4%至23%的性能提升。

IRL-VLA

图片

论文标题:IRL-VLA: Training an Vision-Language-Action Policy via Reward World Model for End-to-End Autonomous Driving

提出时间:2025.08

提出机构:清华大学AIR研究院、上海交通大学、博世企业研究所、上海大学等

论文链接: https://arxiv.org/pdf/2508.06571

研究背景:当前基于视觉-语言-动作(VLA)的端到端自动驾驶模型大多采用开环模仿学习,虽能复现数据中的驾驶行为,但易受数据分布限制,难以应对多目标(安全、效率、舒适等)与多模态(多种合理驾驶策略)的真实驾驶场景。闭环强化学习虽能通过环境交互提升策略,却严重依赖高保真传感器仿真,面临仿真-现实域差异大、计算开销高昂的瓶颈。因此,如何在不依赖重型仿真的前提下,实现VLA模型在闭环环境中的高效、稳定训练,成为推动其走向实际应用的关键难题。

论文内容:本文提出 IRL-VLA,一种基于逆强化学习奖励世界模型的闭环强化学习框架,用于训练端到端自动驾驶VLA策略。该框架采用三阶段训练范式

Step 1: 模仿策略学习:设计一个包含语义理解、三维几何推理与统一扩散规划器的VLA模型,并通过模仿学习进行预训练,建立基础驾驶行为理解。

Step 2: 逆环境学习:构建轻量级奖励世界模型(RWM),通过逆强化学习从多样化的策略轨迹中学习多目标奖励函数(如碰撞避免、道路合规、舒适性等),替代传统仿真器进行高效奖励计算。

Step 3: 闭环强化学习:利用RWM提供实时奖励信号,基于近端策略优化(PPO)对VLA策略进行微调,使其在安全、效率与舒适性等多目标间取得平衡,同时通过保留部分模仿损失避免策略退化。

实验表明,IRL-VLA在NAVSIM v2闭环驾驶基准上取得领先性能(EPDMS 74.9),并在CVPR 2025自动驾驶大挑战中获得亚军。该框架首次实现了不依赖仿真器的、包含传感器输入的闭环VLA强化学习,为自动驾驶VLA模型的实用化训练提供了可扩展、高效的解决方案。

DriveVLA-W0

图片

论文标题:DriveVLA-W0: WORLD MODELS AMPLIFY DATA SCALING LAW IN AUTONOMOUS DRIVING

提出时间:2025.10

提出机构:中国科学院自动化研究所等

论文链接: https://arxiv.org/pdf/2510.12796

研究背景:自动驾驶领域长期依赖基于鸟瞰图(BEV)的专用模型,这类模型虽在特定任务上有效,但其依赖几何先验、架构紧凑的特点限制了从非驾驶数据中学习与大规模扩展的能力。近年来,视觉-语言-动作(VLA)模型凭借其庞大的参数量与从互联网规模数据中预训练获得的基础能力,被视为实现更通用驾驶智能的有望路径。然而,VLA模型面临一个根本性瓶颈:其巨大的模型容量仅由极其稀疏、低维的专家动作信号进行监督,形成严重的“监督不足”。这导致模型无法充分学习丰富的世界表征,其扩展潜力远未发挥,甚至在有限数据下可能表现不如更小的BEV模型。

论文内容:本论文提出 DriveVLA-W0,一个通过世界建模来解决VLA模型“监督不足”问题的创新训练范式。核心思想是将未来图像预测作为一项密集的自监督任务,迫使模型学习驾驶环境的动态与因果规律。论文针对两类主流VLA架构设计了对应的世界模型:对于使用离散视觉令牌(如Emu3)的模型,提出了自回归世界模型,以预测未来图像的视觉令牌序列;对于使用连续视觉特征(如Qwen2.5-VL)的模型,则提出了扩散世界模型,在隐空间内生成未来帧。这种密集的视觉监督与原始的动作监督联合优化,显著提升了模型的表征能力。

大量实验验证了该范式的优越性。在NAVSIM v1/v2基准测试上,DriveVLA-W0仅使用单目前置摄像头,即超越了依赖多摄像头和激光雷达的BEV与VLA基线模型,刷新了最优性能。更重要的是,在一个包含7000万帧的大规模内部数据集上的实验表明,该方法能放大数据扩展定律——即随着训练数据量增长,模型性能的提升速度加快,这是单纯增加动作监督数据无法实现的。此外,为满足实时部署需求,论文引入了一个基于混合专家(MoE)的轻量级动作专家,将推理延迟降低至基线VLA的63.1%。利用此框架作为测试平台,论文揭示了一个“性能逆转”现象:在小规模数据上表现优异的复杂流匹配解码器,在超大规模数据下,其性能会被更简单的自回归解码器反超,这为大规模驾驶模型的动作解码器设计提供了关键洞见。

WM-MoE

图片

论文标题:Addressing Corner Cases in Autonomous Driving: A World Model-based Approach with Mixture of Experts and LLMs

提出时间:2025.10

提出机构:麻省理工、夏威夷大学、澳门大学等

论文链接: https://arxiv.org/pdf/2510.21867

研究背景:自动驾驶车辆的运动预测模型在常规场景下已取得显著进展,但其安全部署的核心瓶颈在于对罕见但高风险的“极端案例”的处理能力。这类场景(如紧急避让、复杂路口交互、突然制动)在现实数据中呈长尾分布,导致模型训练严重不均衡。现有解决方案,如数据重采样、代价敏感损失函数或对比学习,往往陷入“顾此失彼”的困境:提升极端案例性能的同时,常伴随常见场景预测精度的下降。此外,模仿学习等方法易受分布偏移影响,缺乏真正的因果推理能力。因此,如何构建一个能够像人类驾驶员一样,通过内部世界模型理解和推理复杂、罕见场景,并能同时兼顾常见与罕见场景性能的预测框架,成为提升自动驾驶系统安全性与可靠性的关键挑战。

论文内容:本文提出了首个基于世界模型,并融合专家混合网络与大型语言模型的运动预测框架——WM-MoE,目的是在系统性解决自动驾驶中的极端案例难题。该框架仿照人类认知机制,构建了由感知、记忆、决策三大模块组成的结构化世界模型。感知模块整合车辆历史轨迹、高清地图及鸟瞰图信息,编码为紧凑的时空场景表示。记忆模块是其核心创新之一,它通过一个轻量级时序分词器将轨迹数据映射到冻结的LLM(如GPT-2)特征空间,无需微调即可注入交通规则、社会常识等先验知识,从而增强了模型的长期推理与上下文理解能力。决策模块则引入了MoE架构,通过路由器将不同复杂度的场景动态分配给专门化的专家网络进行处理,实现了对常见模式的高效处理与对极端案例的专项优化。

作者还构建并发布了专注于极端案例的nuScenes-corner基准数据集。实验部分在nuScenes、NGSIM、HighD和MoCAD四个公开数据集上进行了全面验证。结果表明,WM-MoE不仅在整体预测精度上超越了现有先进方法,更在极端案例(如转弯、拥堵、急刹)和数据缺失的严苛条件下,展现出卓越的鲁棒性和泛化能力。消融研究进一步证实了LLM先验、时序分词器以及MoE架构各自的关键贡献。该工作为开发更安全、更适应真实世界复杂性的自动驾驶预测系统提供了新的有效范式。

FutureSightDrive

图片

论文标题:FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving

提出时间:2025.11

提出机构:西安交通大学、阿里巴巴集团达摩院等

论文链接: https://arxiv.org/pdf/2505.17685

研究背景:当前基于视觉-语言-动作(VLA)的端到端自动驾驶模型普遍采用文本链式思考(CoT)进行推理,但这将丰富的连续视觉信息压缩为离散的文本符号,导致空间-时间关系模糊、细粒度视觉细节丢失,造成感知与规划之间的“模态鸿沟”。这种符号化的推理方式难以支持对复杂动态驾驶环境的深度物理交互与前瞻性理解。人类驾驶员在规划时更倾向于在脑海中构建未来场景的视觉化表征,而非依赖语言描述进行推理。因此,如何让VLA模型像人一样进行“视觉化思考”,直接利用视觉表征进行时空推理,成为提升自动驾驶系统安全性、泛化性与可解释性的关键挑战。

论文内容:本文提出FSDrive,一个让VLA模型能够进行 “视觉思考” 的自动驾驶框架。核心创新是引入视觉时空链式思考(Spatio-Temporal CoT)作为中间推理步骤。具体而言,FSDrive首先充当世界模型,生成一个统一的未来帧,该帧不仅包含预测的背景,还叠加了具有物理合理性的先验信息(如未来车道线和3D物体框),从而在单一图像中同时编码时空关系。该生成的未来场景作为视觉CoT,为后续规划提供丰富的视觉推理依据。随后,同一VLA模型作为逆动力学模型,基于当前观测和此视觉CoT进行轨迹规划。

为实现上述能力,论文提出一种统一的预训练范式,通过扩展现有MLLM的词表融入视觉令牌,并联合优化语义理解(VQA)与未来帧预测任务。此外,设计了一种渐进式生成方法:先生成结构化先验(车道线、3D框)以强加物理约束,再在此基础上渲染完整场景,确保生成内容符合物理规律。

实验部分在nuScenes和NAVSIM数据集上验证了FSDrive在轨迹精度、碰撞率、未来帧生成质量(FID)以及场景理解(DriveLM)等方面的显著优势,表明其能够有效弥合感知与规划之间的模态鸿沟,推动自动驾驶向真正的视觉推理演进。

总结

内容大概就总结这么多,经过这阵子的调研,笔者觉得可能下一代自动驾驶的方向会沿着 VLA 和 World Model 融合的思路走下去,前者根据指令和当前状态做出初步决策 action,后者对该决策进行快速“推演”,预测结果并评估风险,再将信息反馈给 VLA 进行决策调整或生成解释。完整地形成一个“感知-推理-仿真-决策-解释”的增强闭环。工业界,华为鼓吹自己的 World Model 很牛,小鹏已经开始做所谓的 VLA2.0,前些日子,大家都在争论到底哪个方案才是终局,但其实两者并非水火不容,其实理想前一阵子的发布会也已经展示了这部分的理解,之后还会有多少玩家会陆陆续续入局呢?让我们拭目以待。

....

#Survey of General End-to-End Autonomous Driving

200多篇论文深度梳理!首个通用端到端自动驾驶(GE2E)综述发布,揭秘三大范式演进之路

自动驾驶的终极目标是构建一个能够无缝将原始传感器输入映射为驾驶决策的集成系统。为了克服传统模块化管道信息丢失和误差累积的局限性,也是为了追求更接近人类的驾驶智能,学术界和工业界正经历一场从模块化向数据驱动的端到端(End-to-End, E2E)范式的转变。

今天介绍的这篇综述论文来自上海交通大学AutoLab滴滴出行Voyager研究团队。这篇论文通过对200多篇相关论文的全面梳理,首次提出了“通用端到端自动驾驶”(General End-to-End, GE2E)的概念,并系统性地将现有方法划分为三大范式:传统端到端(Conventional E2E)以VLM为中心(VLM-centric E2E)以及混合端到端(Hybrid E2E)

这篇综述不仅深入剖析了这三大范式的架构设计、学习策略和核心差异,还通过在nuScenes、CARLA、NAVSIM等主流基准上的横向对比,揭示了各范式的优劣势及未来潜力。如果你正深陷于自动驾驶技术路线的选择困难症中,这篇综述绝对是你的破局指南。

  • 论文标题: Survey of General End-to-End Autonomous Driving: A Unified Perspective
  • 机构: 上海交通大学, 滴滴出行
  • 论文地址: https://www.techrxiv.org/doi/full/10.36227/techrxiv.176523315.56439138/v1
  • 项目主页/代码仓库: https://github.com/AutoLab-SAI-SJTU/GE2EAD

什么是GE2E?三大范式一图看懂

论文首先定义了“通用端到端”(GE2E)的概念:无论架构中是否包含大语言模型(VLM),只要是通过单一整体模型将原始传感器输入处理为规划轨迹或控制动作的范式,都属于GE2E。

基于此,作者将现有技术路线清晰地划分为三类:

  1. 传统端到端(Conventional E2E AD):通过联合优化专门的模块(如感知、预测、规划)来直接映射输入到输出。它可以进一步细分为“纯规划(Planning-only)”和“多任务(Multi-task)”两类。
  2. 以VLM为中心(VLM-centric E2E AD):利用预训练大模型(VLM/LLM)的世界知识和推理能力,将多模态数据投影到语言空间进行决策,强调泛化性和可解释性。
  3. 混合端到端(Hybrid E2E AD):结合前两者的优势,既利用VLM的高层推理指导,又保留传统E2E的低层执行能力,形成“慢思考、快行动”的系统。

传统端到端:从黑盒拟合到多任务协同

传统E2E方法早期多采用简单的CNN网络直接回归控制指令(如ALVINN, P3),虽然缓解了误差传播,但往往缺乏可解释性且难以处理复杂场景中的多模态不确定性。为了解决这些问题,研究者们引入了多任务学习架构。

场景建模与理解

除了基本的感知任务,现代E2E模型更注重构建高效的场景表征:

  • 稠密表征:如UniAD利用BEVFormer构建稠密BEV表征,但计算量大。
  • 稀疏表征SparseADSparseDrive直接对对象实例进行建模,显著降低了计算负担。
  • 时空推理GraphAD利用图模型描述交互,ReasonNet利用记忆库存储历史信息,增强对动态环境的理解。

轨迹生成策略

为了避免简单模仿学习带来的“因果混淆”和安全隐患,研究者提出了多种策略:

  • 后处理优化:利用预测的占用网格(Occupancy)或成本函数优化轨迹。
  • 概率规划VADv2从概率分布中采样动作,DiffusionDrive利用扩散模型生成多模态轨迹,在NVIDIA 4090上实现了45 FPS的实时推理。
  • 分层规划CogAD模仿人类的“粗到细”认知机制,先进行意图规划再生成具体轨迹。

学习策略的进化

为了突破数据瓶颈,除了模仿学习(Imitation Learning),还涌现了多种高级策略:

  • 知识蒸馏LBCRoach利用特权专家(Privileged Agent)指导学生模型。
  • 强化学习Drive in a Day引入RL进行探索,ReconDreamer-RL利用世界模型构建数字孪生进行大规模试错。
  • 自监督学习PPGeoUAD利用大规模无标签数据进行预训练,UAD甚至实现了零3D标注下的SOTA性能。

VLM-centric:让自动驾驶拥有“认知大脑”

传统E2E模型因缺乏世界知识,在长尾场景(Corner Case)面前往往束手无策。VLM-centric范式试图通过引入大模型的推理能力来填补这一“认知鸿沟”。

视觉-语言对齐

核心挑战在于如何将驾驶场景的视觉特征映射到LLM的语义空间:

  • 直接投影:使用MLP等轻量级投影器(如LMDrive)。
  • 查询压缩:使用Q-Former等结构提取关键信息(如DriveMLM)。
  • 任务驱动对齐GPVLDriving with LLMs设计了专门的预训练任务,将BEV特征或数值信息转化为LLM可理解的语言token。

推理与思维链(Chain-of-Thought)

VLM赋予了系统深度的因果推理能力:

  • 结构化逻辑CoTDriveLMSimpleLLM4AD将驾驶任务分解为感知、预测、规划的问答链(Graph VQA),使决策过程透明化。
  • 工具增强CoTAgent-Driver让LLM作为调度器调用外部工具(如专门的规划器),结合了各种模型的长处。
  • 动态CoTAutoVLA根据场景复杂度动态调整推理深度,平衡效率与性能。

效率优化

针对VLM推理延迟高的问题,研究者提出了多种方案:

  • 模型蒸馏CoT-Drive将大模型的推理知识蒸馏到轻量级边端模型中。
  • 结构优化FastDrive通过结构化数据输入消除了冗余信息,实现了10倍的推理加速。

Hybrid E2E:强强联合的终极形态?

混合范式旨在融合VLM的“慢思考”与传统E2E的“快直觉”。

在线分层融合

  • 规划层融合:VLM作为高层决策者生成“元动作”(如“向左变道”),指导传统E2E模型生成具体轨迹。DriveVLM实现了感知输出的双向验证和轨迹提示。
  • 感知层融合VLM-E2E利用VLM生成的注意力提示来增强BEV特征。

离线知识迁移(VLM辅助训练)

这种方式利用VLM作为“教师”在训练阶段指导E2E模型,推理时则仅使用E2E模型,实现了零推理成本的性能提升。

  • 对齐与蒸馏ALN-P3提出了全栈对齐框架,强制E2E模型的中间特征与VLM的语言表征一致,确保决策逻辑的合理性。

谁是王者?主流基准性能大比拼

论文在nuScenes、Bench2Drive、CARLA和NAVSIM等基准上进行了详尽的横向对比。

  • nuScenes (Open-loop)传统端到端方法(如TTOG, UAD) 虽然占据了榜单前列的大部分位置,证明了其在数值轨迹预测方面的优势 ;但目前性能最佳的方法(Top 1)实际上属于混合端到端(Hybrid E2E)范式 。
  • NAVSIM (Open-loop simulation):令人惊讶的是,传统端到端方法(如TransDiffuser) 在PDMS评分上甚至超过了人类驾驶员,展现了强大的潜力 。
  • Bench2Drive (Closed-loop):尽管SOTA方法表现出了一定的鲁棒性,但Bench2Drive中最好的方法路网完成率仍未超过70% ,处理多样化和长程路线仍然是一个关键瓶颈。
  • CARLA (Closed-loop):传统E2E方法在Town05 Long基准上仍占据主导地位,说明在需要精细操作控制的任务中,传统方法依然具有优势。

值得注意的是,ActiveAD仅利用30%的nuScenes数据就达到了全数据集的性能,凸显了在自动驾驶领域数据质量优于数量的重要性。

展望未来:通往AGI之路

论文最后指出了GE2E面临的四大挑战:长尾分布可解释性安全保证实时效率,并提出了未来的四个关键研究方向:

  1. 强化学习(RL):从模仿学习转向RL,利用世界模型进行大规模低成本试错。
  2. 基础模型(Foundation Models):在海量通用数据上预训练,解决Long-tail问题。
  3. Agent系统:模仿人类大脑皮层和小脑的协作,构建分层的Agent体系。
  4. 世界模型(World Models):作为自监督学习的引擎,利用海量无标签视频数据驱动模型进化。

从传统E2E的精准控制,到VLM-centric的认知推理,再到Hybrid的融合之道,通用端到端自动驾驶正朝着更类人、更安全的方向加速演进。

....

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐