【自动驾驶】《UniMM-V2X: MoE-Enhanced Multi-Level Fusion for End-to-End Cooperative Autonomous Driving》论文阅读
【摘要】UniMM-V2X提出了一种基于多级融合和混合专家(MoE)架构的端到端多智能体自动驾驶框架。该研究解决了单体智能感知局限性和现有合作方法忽视规划对齐的问题,通过感知/预测层信息共享和MoE动态特征生成,显著提升系统性能。实验表明,在DAIR-V2X数据集上,感知精度提升39.7%,预测误差降低7.2%,规划碰撞率下降52%,同时保持较高通信效率。多级融合与MoE的协同作用被验证是关键创新
0.参考
论文:https://arxiv.org/pdf/2511.09013
kimi.ai
1. 论文总结


UniMM-V2X 是一种新型的端到端多智能体合作自动驾驶框架,旨在通过多级融合和混合专家(MoE)架构,提升自动驾驶系统在感知、预测和规划任务中的性能。该框架通过在感知和预测层面进行信息融合,使智能体能够共享查询并协同推理,从而实现一致和安全的决策。此外,UniMM-V2X 引入 MoE 架构,动态生成任务特定的特征表示,进一步提升多级融合的质量。在 DAIR-V2X 数据集上的广泛实验表明,UniMM-V2X 在感知、预测和规划方面均达到了最先进的性能,与 UniV2X 相比,感知精度提高了 39.7%,预测误差降低了 7.2%,规划性能提高了 33.2%。
2. 解决的问题
-
单体智能的局限性:传统的自动驾驶系统受限于单体智能,感知范围有限,难以处理稀有关键事件和预测其他车辆的意图。
-
多智能体合作的不足:现有的多智能体合作方法主要集中在感知层面,忽视了与下游规划和控制的对齐,或未能充分利用端到端自动驾驶的潜力。
-
模型适应性和泛化能力:不同的下游任务(如感知、预测和规划)对特征表示有不同的需求,单一的特征表示难以满足所有任务的要求。
3. 属于的研究范畴
-
端到端自动驾驶(End-to-End Autonomous Driving):研究如何直接从原始传感器数据映射到最终控制指令,提高系统的整体性能。
-
多智能体合作(Multi-Agent Cooperation):通过车辆到一切(V2X)通信技术,实现多智能体之间的信息共享和协作,提升自动驾驶系统的性能。
-
多模态数据融合(Multi-Modal Data Fusion):整合多种传感器数据(如摄像头图像、激光雷达点云等),提高环境感知的准确性和可靠性。
-
混合专家模型(Mixture of Experts, MoE):利用MoE架构动态生成任务特定的特征表示,增强模型的适应性和泛化能力。
4. 达到的效果
-
感知性能提升:在DAIR-V2X数据集上,UniMM-V2X在感知任务上取得了显著的性能提升,mAP(平均精度均值)提高了39.7%,AMOTA(多目标跟踪精度)提高了77.2%。
-
预测性能提升:在运动预测任务上,UniMM-V2X的minADE(最小平均位移误差)和minFDE(最小最终位移误差)分别降低了7.2%和6.8%,显著提高了预测的准确性。
-
规划性能提升:在规划任务上,UniMM-V2X的平均L2误差降低了33.2%,碰撞率降低了52.0%,显著提高了规划的安全性和可靠性。
-
通信效率优化:尽管引入了多级融合和MoE机制,UniMM-V2X在通信成本上仅略有增加,同时保持了较高的推理速度(FPS),展现出良好的实用性和可扩展性。
5. 重要的细节
-
多级融合策略:UniMM-V2X 在感知和预测层面进行显式信息融合,通过共享轨迹查询、地图查询和占用概率图,增强下游规划的性能。
-
MoE 架构:MoE 被集成到 BEV 编码器和运动解码器中,动态生成任务特定的特征表示,并通过专家分支捕捉多样化的运动模式。
-
实验验证:在 DAIR-V2X 数据集上,UniMM-V2X 在感知、预测和规划任务中均取得了 SOTA 性能,显著优于现有的单智能体和多智能体合作方法。
-
消融研究:实验结果表明,多级融合和 MoE 机制的结合产生了显著的互补效应,单独使用任一技术均无法达到最佳性能。
-
系统实用性和可靠性:在不同的通信带宽约束下,UniMM-V2X 均优于现有的 SOTA 方法,展现出良好的实用性和可靠性。
更多推荐


所有评论(0)