VADv2论文阅读
直接使行动回归,可能会输出一个介于两者之间的动作,倾向于输出在训练数据中出现最多的主导轨迹,从而导致安全问题和性能下降。概率建模是处理规划不确定性的本质突破,通过离散词表+概率场实现人类驾驶的多模态决策,仅需相机即达CARLA SOTA。提出概率规划来应对规划的不确定性,设计了一个概率场,将动作空间映射到概率分布,并从大规模驾驶演示中学习动作的分布。Ltoken:场景token损失,地图元素预测,
1.摘要
background
面临一个场景,有不同的应对方法,但是现有的规划方法遵循确定性范式,直接使行动回归,可能会输出一个介于两者之间的动作,倾向于输出在训练数据中出现最多的主导轨迹,从而导致安全问题和性能下降。
innovation
提出概率规划来应对规划的不确定性,设计了一个概率场,将动作空间映射到概率分布,并从大规模驾驶演示中学习动作的分布。
2. 方法 Method
1.场景encoder
把多视角图片编码为四种token
2.概率规划
检索最有代表性的4096个动作,离散化作为词汇表,encode变成tokens。
planning阶段:
3.训练损失
Ldistribution:KL散度,预测分布与真实分布的差距
LconflictL:限制不要与其他agent冲突相撞
Ltoken:场景token损失,地图元素预测,agent规划跟踪,红绿灯颜色停车标志区域。
3. 实验 Experimental Results
实验设置
数据集:CARLA仿真(Town05长/短赛道),300万帧训练数据。
指标:驾驶得分(DS = 路线完成率 × 违规得分)、L2距离、碰撞率。
核心结论
SOTA性能(仅相机输入):
基准 DS 路线完成率 超越方案
Town05长赛道 85.1 98.4% DriveMLM(76.1)
Town05短赛道 89.7 93.0% VAD(64.3)
消融实验:
移除概率损失 → 规划误差↑300%;
冲突损失降低碰撞率(0% vs 基线0.7%);
交通灯Token提升复杂路口性能。
可视化:生成合理多模态轨迹。
4. 总结 Conclusion
概率建模是处理规划不确定性的本质突破,通过离散词表+概率场实现人类驾驶的多模态决策,仅需相机即达CARLA SOTA。
更多推荐
所有评论(0)