HiVT 和 QCNet AI 总结
为每个场景元素建立专属局部时空参考系,确保表征不随全局坐标变化:智能体状态:对智能体(i)在(t)时刻的状态,参考系由“时空位置+方向”定义:((p_i^t, t, \theta_i^t))((p_i^t)为空间位置,(t)为时间步,(\theta_i^t)为航向角);地图多边形(车道、人行道):参考系由“入口点位置+方向”定义:取多边形中心线的入口点(p_\xi^{entry})和入口方向(\t
一、HiVT(2022 CVPR):Hierarchical Vector Transformer for Multi-Agent Motion Prediction
1. 提出的问题
- 现有向量化方法忽略多智能体运动预测的对称性(平移/旋转),对参考系变换不鲁棒。
- 多智能体预测时需重复归一化场景和重计算特征,计算成本高昂,难以实时推理。
- 全对全交互建模导致计算量随实体(智能体、车道)数量激增,扩展性差。
2. 解决的问题
- 实现快速且准确的多智能体运动预测,兼顾实时性与预测性能。
- 突破参考系变换限制,无需重复计算即可单前向传播完成所有智能体预测。
- 降低模型参数规模,提升计算效率,适配自动驾驶实时需求。
3. 使用的方法
- 分层建模框架:分解为局部上下文提取(局部编码器)和全局交互建模(全局交互模块)。
- 平移/旋转不变性设计:采用相对位置表征场景(平移不变),旋转不变交叉注意力模块(旋转不变)。
- 局部编码器:依次建模智能体-智能体交互、时间依赖、智能体-车道交互,聚合局部信息。
- 全局交互模块:基于Transformer编码器,融合不同局部区域的长程依赖。
- 多模态解码器:以混合拉普拉斯分布建模未来轨迹,训练采用variety loss(回归+分类损失)。
4. 创新点
- 首次将多智能体预测拆解为“局部+全局”分层架构,平衡效率与表征能力。
- 引入几何对称性先验(平移/旋转不变),提升模型数据效率和鲁棒性。
- 单前向传播完成多智能体预测,避免重复计算,大幅降低推理延迟。
二、QCNet(2023 CVPR):Query-Centric Trajectory Prediction
1. 提出的问题
- 现有agent-centric建模在在线预测时,观测窗口滑动需重新归一化和编码,存在计算冗余。
- 长预测 horizon(如6秒)下,多模态捕捉困难:锚点法依赖手工锚点质量,无锚点法易模式崩溃。
- 多智能体解码难以并行,推理效率受限。
2. 解决的问题
- 实现流式场景编码,复用历史计算结果,显著降低在线推理延迟。
- 支持并行多智能体解码,提升批量预测效率。
- 突破长时多模态预测瓶颈,兼顾轨迹多样性与准确性。
3. 使用的方法
- 查询中心(query-centric)编码:为每个场景元素(智能体状态、车道)建立局部时空坐标系,学习全局坐标无关的表征,支持计算复用。
- 查询基解码 pipeline:锚点无关循环提议模块(生成动态锚点)+ 锚点相关细化模块(优化轨迹)。
- 注意力机制:Mode2Scene(融合场景上下文)和Mode2Mode(提升轨迹多样性)注意力。
- 训练目标:混合拉普拉斯分布建模,损失包含提议损失、细化损失和分类损失。
4. 创新点
- 提出query-centric编码范式,首次实现多智能体预测的流式处理和计算复用。
- 循环无锚点提议+锚点细化的双阶段解码,结合两者优势,解决多模态与长时预测难题。
- 全局坐标无关的表征设计,支持并行多智能体解码,进一步提升推理效率。
三、两篇论文的关联
- 核心目标一致:均聚焦自动驾驶场景的多智能体运动预测,核心诉求是平衡预测准确性、计算效率、多模态捕捉。
- 技术传承与演进:
- 作者重叠(Zikang Zhou、Jianping Wang),QCNet是HiVT的后续优化升级。
- HiVT的“分层建模”“几何不变性”为QCNet奠定基础,QCNet进一步解决HiVT未覆盖的“在线流式推理”“长时多模态”问题。
- 技术路线延续:
- 均基于Transformer架构,采用向量化场景表征(避免栅格化的效率/信息损失)。
- 均强调“坐标无关表征”,HiVT聚焦几何不变性,QCNet拓展为全局时空坐标无关,支持计算复用。
- 性能迭代:两者均在Argoverse 1/2数据集上取得SOTA性能,QCNet在长时预测(6秒)和在线推理效率上实现突破,是对HiVT的技术补全与升级。
=========================================================
一、HiVT(2022)模型结构:分层向量Transformer
HiVT 核心是**“局部上下文提取+全局交互建模”的分层架构**,通过几何对称性设计(平移/旋转不变)和高效注意力机制,实现多智能体实时预测。整体结构分为4个核心模块:场景表征层、局部编码器、全局交互模块、多模态解码器,各模块紧密围绕“降本增效”和“提升鲁棒性”设计。
1. 模块1:场景表征层(Scene Representation)
结构细节
- 向量化实体定义:将交通场景拆解为两类向量实体,避免栅格化的信息损失和计算冗余:
- 智能体轨迹:每个智能体(i)的历史轨迹用相对位移向量表示:({p_i^t - p_i^{t-1}}_{t=1}^T)((p_i^t)为(t)时刻位置,(T)为历史时间步);
- 车道片段:每个车道片段(\xi)用端点相对向量表示:(p_\xi^1 - p_\xi^0)((p_\xi^0)、(p_\xi^1)为车道起点/终点)。
- 相对位置补充:为保留实体间空间关系,额外计算两类相对位置向量(均为平移不变):
- 智能体-智能体:(p_j^t - p_i^t)(智能体(j)相对于(i)在(t)时刻的位置);
- 智能体-车道:(p_\xi^0 - p_i^T)(车道起点相对于智能体(i)当前时刻的位置)。
设计原因
- 解决现有向量化方法依赖绝对位置的问题:绝对位置会随参考系平移/旋转变化,导致模型需重复归一化场景(如每个智能体单独归一化),引入冗余计算;相对位置天然具备平移不变性,确保场景表征不随全局坐标移动而变化,为“单前向预测多智能体”奠定基础。
- 向量实体比栅格图像更紧凑:避免栅格化的像素冗余,降低后续注意力计算的复杂度。
2. 模块2:局部编码器(Local Encoder)
局部编码器是HiVT的“效率核心”,负责为每个智能体聚合局部时空信息(邻居智能体、历史轨迹、周边车道),避免全场景全对全交互的高计算量。分为3个串行子模块:智能体-智能体交互、时间依赖建模、智能体-车道交互。
子模块2.1:智能体-智能体交互(Agent-Agent Interaction)
结构细节
- 旋转不变交叉注意力:以每个智能体为中心划分局部区域(半径50米),先将局部向量旋转到中心智能体的参考系:
- 参考向量定义:取中心智能体(i)最新轨迹段(p_i^T - p_i^{T-1})的方向(\theta_i),构建旋转矩阵(R_i \in \mathbb{R}^{2×2});
- 嵌入生成:用MLP分别编码中心智能体和邻居智能体的旋转后特征:
- 中心嵌入:(z_i^t = \phi_{center}([R_i^\top (p_i^t - p_i^{t-1}), a_i]))((a_i)为智能体语义属性,如类型);
- 邻居嵌入:(z_{ij}^t = \phi_{nbr}([R_i^\top (p_j^t - p_j^{t-1}), R_i^\top (p_j^t - p_i^t), a_j]))(额外融入相对位置,增强空间感知);
- 门控注意力融合:将中心嵌入作为查询((q_i^t)),邻居嵌入作为键((k_{ij}^t))和值((v_{ij}^t)),通过门控机制控制环境特征的融合比例:
- 注意力权重:(\alpha_{ij}^t = softmax(\frac{q_i^t \cdot k_{ij}^t}{\sqrt{d_k}}));
- 环境特征:(m_i^t = \sum_{j \in \mathcal{N}i} \alpha{ij}^t v_{ij}^t)((\mathcal{N}_i)为邻居集合);
- 门控融合:(\hat{z}_i^t = g_i^t \odot W^{self} z_i^t + (1-g_i^t) \odot m_i^t)((g_i^t = sigmoid(W^{gate}[z_i^t, m_i^t])),控制自身特征与邻居特征的权重);
- 输出:经MLP和层归一化(LayerNorm)后得到空间嵌入(s_i^t)。
设计原因
- 解决旋转鲁棒性问题:通过旋转矩阵将所有局部向量对齐到中心智能体参考系,使嵌入不受全局旋转影响(如车辆掉头导致场景旋转),避免现有方法需重复旋转场景的冗余计算;
- 门控机制的必要性:部分场景中智能体与邻居交互弱(如空旷道路),门控可减少无关邻居信息的干扰,提升特征纯度;
- 局部区域限制(50米):将交互范围限定在物理意义上的“相关区域”,计算复杂度从(O(N^2T))降至(O(NkT))((k \ll N)为每个智能体的邻居数),大幅提升效率。
子模块2.2:时间依赖建模(Temporal Dependency)
结构细节
- 带时序掩码的Transformer编码器:
- 输入序列:将子模块2.1输出的空间嵌入({s_i^t}_{t=1}^T)拼接一个可学习的“总结token”(s^{T+1}),形成序列(S_i \in \mathbb{R}^{(T+1)×d_h});
- 时序掩码:添加下三角掩码(M)((M_{uv}=-\infty)若(u<v)),确保每个时间步只关注历史信息,避免未来信息泄露;
- 时序注意力:(\hat{S}_i = softmax(\frac{Q_i K_i^\top}{\sqrt{d_k}} + M) V_i)((Q_i=S_i W^{Q^{time}}),(K_i、V_i)类似);
- 输出:取更新后的“总结token”作为智能体(i)的时空融合特征,传递给下一个子模块。
设计原因
- 多智能体运动依赖历史动态(如前车减速会导致后车刹车):时序Transformer能捕捉长程时间依赖,比RNN类模型更擅长建模复杂时序模式;
- 时序掩码的必要性:严格限制“未来信息不可见”,符合自动驾驶场景中“基于历史预测未来”的逻辑,避免训练与推理的不一致;
- “总结token”设计:将T个时间步的特征压缩为1个向量,为后续全局交互模块降低维度(从(T×d_h)降至(d_h))。
子模块2.3:智能体-车道交互(Agent-Lane Interaction)
结构细节
- 与“智能体-智能体交互”结构类似,核心是车道特征的旋转不变编码与注意力融合:
- 车道嵌入:旋转当前时刻((T))的局部车道向量,用MLP编码:(z_{i\xi} = \phi_{lane}([R_i^\top (p_\xi^1 - p_\xi^0), R_i^\top (p_\xi^0 - p_i^T), a_\xi]))((a_\xi)为车道语义属性,如限速);
- 注意力融合:以子模块2.2输出的“时空融合特征”为查询,车道嵌入为键/值,重复子模块2.1的门控注意力逻辑;
- 输出:经MLP后得到局部嵌入(h_i \in \mathbb{R}^{d_h})(包含智能体的局部时空+车道信息)。
设计原因
- 交通智能体的运动受车道约束(如车辆沿车道行驶,不会横穿马路):融入车道信息能显著提升预测合理性,减少“违反交通规则”的预测;
- 保持旋转不变性:车道向量同样旋转到中心智能体参考系,确保局部嵌入在任何旋转场景下一致,避免模型对车道方向敏感。
3. 模块3:全局交互模块(Global Interaction Module)
结构细节
- 负责补全局部编码器的“短视”问题,捕捉跨局部区域的长程依赖(如十字路口对面车辆的转向对当前车辆的影响):
- 跨坐标系几何建模:计算任意两个智能体(i)和(j)的坐标系差异,用4D特征描述:
- 相对位置:(R_i^\top (p_j^T - p_i^T))((j)相对于(i)的位置,旋转到(i)的参考系);
- 相对角度:(\cos(\Delta\theta_{ij})、\sin(\Delta\theta_{ij}))((\Delta\theta_{ij} = \theta_j - \theta_i),用三角函数避免角度周期性问题);
- 成对嵌入:(e_{ij} = \phi_{rel}([R_i^\top (p_j^T - p_i^T), \cos(\Delta\theta_{ij}), \sin(\Delta\theta_{ij})]));
- 全局注意力:将局部嵌入(h_i)作为查询,(h_j)与(e_{ij})的拼接作为键/值:
- ({\bar{q}}i = W^{Q^{global}} h_i),({\bar{k}}{ij} = W^{K^{global}} [h_j, e_{ij}]),({\tilde{v}}{ij} = W^{V^{global}} [h_j, e{ij}]);
- 注意力更新后经MLP输出全局嵌入(\tilde{h}_i)。
- 跨坐标系几何建模:计算任意两个智能体(i)和(j)的坐标系差异,用4D特征描述:
设计原因
- 局部编码器的感受野有限(50米):无法捕捉远距离智能体的交互(如高速路上的前车变道),全局模块通过跨区域消息传递补充长程信息;
- 跨坐标系建模的必要性:每个局部嵌入基于不同智能体的参考系,直接交互会因坐标系差异导致特征错位;成对嵌入(e_{ij})能桥接坐标系差异,确保全局注意力的有效性;
- 低计算成本:全局模块复杂度为(O(N^2)),远低于全场景全对全交互的(O((NT+L)^2)),兼顾性能与效率。
4. 模块4:多模态解码器(Multimodal Future Decoder)
结构细节
- 建模未来轨迹的多模态不确定性(如车辆在路口可能直行或左转):
- 混合拉普拉斯分布:将未来轨迹参数化为(F)个混合分量(默认(F=6)),每个分量对应一条候选轨迹:
- 输出预测:对每个智能体(i)和分量(f),MLP输入(h_i + \tilde{h}i)(局部+全局特征),输出未来每个时间步的位置(\mu{i,f}^t)和不确定性(b_{i,f}^t)(拉普拉斯分布参数);
- 混合系数:另一个MLP输出每个分量的概率(\pi_{i,f})(经softmax归一化);
- 训练损失:采用“胜者全得”(winner-takes-all)策略,仅优化与真值最接近的候选轨迹:
- 回归损失:负对数似然(\mathcal{L}{reg} = -\frac{1}{NH} \sum{i,t} \log P(R_i^\top (p_i^t - p_i^T) | \hat{\mu}{i}^t, \hat{b}{i}^t));
- 分类损失:交叉熵损失(\mathcal{L}_{cls})优化混合系数;
- 总损失:(\mathcal{L} = \mathcal{L}{reg} + \mathcal{L}{cls})。
- 混合拉普拉斯分布:将未来轨迹参数化为(F)个混合分量(默认(F=6)),每个分量对应一条候选轨迹:
设计原因
- 拉普拉斯分布对异常值更鲁棒:自动驾驶场景中可能存在真值噪声(如GPS误差),拉普拉斯比高斯分布更能适应这种噪声;
- “胜者全得”策略:解决训练数据中“仅单模态标注”的问题(每个场景仅记录一种真实轨迹),通过优化最优候选轨迹,避免多模态训练的不稳定性;
- 单前向输出多智能体:基于全局一致的特征,一次性输出所有智能体的(F)条候选轨迹,无需为每个智能体单独推理,满足实时性需求。
二、QCNet(2023)模型结构:查询中心轨迹预测
QCNet 是 HiVT 的演进,核心是**“查询中心编码+双阶段查询解码”架构**,通过“计算复用”和“动态锚点”解决在线推理冗余和长时多模态预测难题。整体结构分为2个核心模块:查询中心场景编码器、查询基轨迹解码器(含提议+细化子模块)。
1. 模块1:查询中心场景编码器(Query-Centric Scene Encoder)
编码器的核心是学习全局坐标无关的场景表征,支持“流式计算复用”(观测窗口滑动时无需重编码)。分为4个关键子模块:局部时空坐标系定义、场景元素嵌入、相对位置嵌入、分层注意力融合。
子模块1.1:局部时空坐标系定义
结构细节
- 为每个场景元素建立专属局部时空参考系,确保表征不随全局坐标变化:
- 智能体状态:对智能体(i)在(t)时刻的状态,参考系由“时空位置+方向”定义:((p_i^t, t, \theta_i^t))((p_i^t)为空间位置,(t)为时间步,(\theta_i^t)为航向角);
- 地图多边形(车道、人行道):参考系由“入口点位置+方向”定义:取多边形中心线的入口点(p_\xi^{entry})和入口方向(\theta_\xi^{entry}),时间维度固定(地图静态)。
设计原因
- 解决现有agent-centric模型的计算冗余:agent-centric需为每个智能体归一化场景(如以智能体(i)为中心),观测窗口滑动时(时间步+1)需重归一化;而查询中心的局部坐标系是“元素专属”的,每个元素的表征永久固定,滑动窗口时仅需新增最新时间步的元素编码,复用历史计算结果(如图2中([A, T-1, D])为复用特征,仅新增([A, 1, D]))。
- 静态地图的预计算:地图多边形的参考系固定,可离线预编码,无需在线重复计算,进一步降低推理延迟。
子模块1.2:场景元素嵌入(Scene Element Embedding)
结构细节
- 将每个元素的几何/语义属性编码为坐标无关的向量:
- 极坐标转换:对所有几何属性(如智能体的速度(v_i^t)、运动向量(p_i^t - p_i^{t-1}),地图的采样点位置),计算其相对于元素自身局部坐标系的极坐标(距离+角度);
- 傅里叶特征映射:将极坐标转换为傅里叶特征((\sin(kx)、\cos(kx)),(k)为频率参数);
- MLP编码:拼接傅里叶特征与语义属性(如智能体类型、车道限速),经MLP输出嵌入:
- 智能体嵌入:(a_i^t \in \mathbb{R}^D),最终形成([A, T, D])((A)为智能体数,(D)为隐藏维度);
- 地图嵌入:对每个地图多边形的采样点嵌入,用注意力池化(Attention Pooling)得到多边形级嵌入(m_j \in \mathbb{R}^D),最终形成([M, D])((M)为地图多边形数)。
设计原因
- 傅里叶特征的优势:几何属性(如角度)是周期性的,原始数值难以建模高频变化(如车辆快速转向);傅里叶特征能将周期性信号转化为线性可分特征,提升模型对高频动态的捕捉能力;
- 注意力池化的必要性:地图多边形由多个采样点组成,池化能聚合采样点信息,得到紧凑的多边形级表征,避免后续注意力计算中地图元素维度过高。
子模块1.3:相对位置嵌入(Relative Spatiotemporal Positional Embedding)
结构细节
- 为元素对补充坐标系差异信息,确保注意力交互时特征对齐:
- 4D相对描述符:对任意两个元素(X)(如智能体(i)在(t)时刻)和(Y)(如智能体(j)在(s)时刻),计算:
- 相对距离:(|p_j^s - p_i^t|_2);
- 相对方向:(atan2(p_j^s - p_i^t) - \theta_i^t)((Y)相对于(X)局部系的方向);
- 相对角度:(\theta_j^s - \theta_i^t)((Y)与(X)的航向角差异);
- 时间差:(s - t);
- 嵌入生成:将4D描述符转傅里叶特征,经MLP输出相对位置嵌入(r_{j \to i}^{s \to t})(静态元素如地图省略时间差,记为(r_{j \to i}))。
- 4D相对描述符:对任意两个元素(X)(如智能体(i)在(t)时刻)和(Y)(如智能体(j)在(s)时刻),计算:
设计原因
- 元素嵌入是“局部坐标系专属”的,直接交互会因坐标系差异导致语义错位:相对位置嵌入能量化两个元素的坐标系差异,为注意力机制提供“对齐依据”,确保交互特征的物理意义一致;
- 4D描述符的完整性:涵盖空间(距离、方向、角度)和时间(时间差)维度,全面保留元素对的时空关系,避免信息丢失。
子模块1.4:分层注意力融合(Hierarchical Attention Fusion)
结构细节
- 分“地图自注意力”和“智能体分解注意力”,高效融合场景上下文:
- 地图自注意力:
- 目标:建模地图元素间的关系(如车道与交叉口的连接);
- 逻辑:对地图多边形(i),以(m_i)为查询,邻居多边形(j)的([m_j, r_{j \to i}])为键/值,经自注意力更新得到(m_i')(优化后地图嵌入);
- 特性:可离线预计算,在线复用。
- 智能体分解注意力(Factorized Attention):
- 目标:融合智能体的“时间、邻居、地图”信息,分3类注意力串行堆叠(L_{enc})层(默认2层):
- 时序注意力:智能体(i)在(t)时刻的查询,关注自身历史(s \in [t-\tau, t-1])的([a_i^s, r_{i \to i}^{s \to t}])((\tau)为时间窗口);
- 社交注意力:关注邻居智能体(j)的([a_j^t, r_{j \to i}^{t \to t}])(距离<50米);
- 智能体-地图注意力:关注邻居地图(j)的([m_j', r_{j \to i}]);
- 输出:得到智能体的时空上下文嵌入(a_i^t'),形成([A, T, D])。
- 目标:融合智能体的“时间、邻居、地图”信息,分3类注意力串行堆叠(L_{enc})层(默认2层):
- 地图自注意力:
设计原因
- 分解注意力的效率:相比全对全注意力((O((AT+M)^2))),分解注意力将复杂度拆分为(O(AT^2) + O(A^2T) + O(ATM)),且在线推理时复用历史特征,复杂度进一步降至(O(AT) + O(A^2) + O(AM))(如图2),满足实时性;
- 分层融合的合理性:时序注意力捕捉自身动态,社交注意力捕捉多智能体交互,地图注意力捕捉环境约束,三者串行融合能逐步丰富特征,避免单步注意力的信息过载。
2. 模块2:查询基轨迹解码器(Query-Based Trajectory Decoder)
解码器的核心是**“动态锚点生成+锚点优化”**,解决长时预测的多模态难题。分为2个串行子模块:锚点无关循环提议模块、锚点相关细化模块。
子模块2.1:锚点无关循环提议模块(Anchor-Free Recurrent Proposal)
结构细节
- 以“查询”为核心,递归生成高质量动态锚点(避免手工锚点的局限性):
- 初始查询:随机初始化(K)个锚点无关查询((K=6),对应6条候选轨迹),记为(q_k^0 \in \mathbb{R}^D);
- 循环解码((T_{rec})步,默认3步):
- 每步解码(T'/T_{rec})个waypoints((T')为预测时间步,如6秒→3步,每步2秒);
- Mode2Scene注意力:查询(q_k^t)跨注意力融合场景上下文(目标智能体历史嵌入(a_i^T')、邻居嵌入(a_j^T')、地图嵌入(m_j')),融入相对位置嵌入确保对齐;
- Mode2Mode注意力:(K)个查询间自注意力交互,提升轨迹多样性(避免模式崩溃);
- MLP预测:经MLP输出当前步的waypoints,更新查询为(q_k^{t+1});
- 输出:(K)条初始轨迹提议(锚点),记为({traj_k^{init}}_{k=1}^K)。
设计原因
- 递归解码的必要性:长时预测(如6秒)中,智能体周边环境会动态变化(如接近路口),单步解码难以覆盖所有场景上下文;递归分步骤解码,每步查询仅关注当前时段的关键上下文(如第一步关注“是否接近路口”,第二步关注“路口车道走向”),降低建模负担;
- 锚点无关的优势:手工锚点(如CoverNet的预定义轨迹集)难以覆盖所有场景(如特殊路口转向),动态锚点由数据驱动生成,适配不同场景的多样性需求;
- Mode2Mode注意力:避免查询间“同质化”(如多条轨迹预测为直行),通过自注意力促进查询分工(如部分查询关注直行,部分关注左转),提升多模态多样性。
子模块2.2:锚点相关细化模块(Anchor-Based Refinement)
结构细节
- 以提议轨迹为锚点,优化轨迹精度和不确定性估计:
- 锚点嵌入:用GRU编码每条提议轨迹(traj_k^{init})的waypoints序列,取GRU最终隐藏状态作为锚点查询(q_k^{anchor});
- 场景上下文再融合:重复Mode2Scene和Mode2Mode注意力逻辑,锚点查询进一步融合场景细节(如车道线位置、邻居车辆的实时动态);
- 偏移预测:MLP输出锚点轨迹的位置偏移(\Delta\mu_{i,k}^t)和不确定性更新(\Delta b_{i,k}^t),得到细化轨迹(traj_k^{refine} = traj_k^{init} + \Delta\mu_{i,k}^t);
- 概率估计:另一个MLP输出每条细化轨迹的概率(\pi_{i,k})(经softmax归一化)。
设计原因
- 锚点相关查询的优势:锚点查询基于提议轨迹,自带“空间先验”(如轨迹的大致走向),相比随机初始化查询,能更快定位到与真值相关的场景上下文,提升优化效率;
- 细化模块的必要性:提议模块的轨迹可能存在局部偏差(如waypoints偏移车道),细化模块通过二次场景融合和偏移预测,修正偏差并提升轨迹平滑性;
- 不确定性估计:为每条轨迹输出概率,为自动驾驶决策提供“置信度参考”(如低概率轨迹可视为风险选项)。
3. 训练目标(与结构匹配的损失设计)
- 总损失:(\mathcal{L} = \mathcal{L}{propose} + \mathcal{L}{refine} + \lambda \mathcal{L}_{cls})
- (\mathcal{L}_{propose}):提议轨迹的回归损失(负对数似然,仅优化与真值最接近的提议);
- (\mathcal{L}_{refine}):细化轨迹的回归损失(同样“胜者全得”,冻结提议轨迹梯度);
- (\mathcal{L}{cls}):交叉熵损失,优化细化轨迹的概率(\pi{i,k});
- (\lambda):平衡回归与分类(默认1.0)。
设计原因
- 冻结提议梯度:避免细化模块的误差反向传播污染提议模块,确保提议轨迹的动态锚点属性不受干扰;
- “胜者全得”策略:延续HiVT的设计,解决单模态标注的训练难题,同时通过分类损失优化概率估计,提升多模态的可靠性。
三、总结:HiVT与QCNet结构设计的核心差异与演进
| 维度 | HiVT(2022) | QCNet(2023) |
|---|---|---|
| 编码核心 | 智能体为中心的局部-全局分层 | 元素为中心的查询-centric流式编码 |
| 计算复用 | 无(需重编码滑动窗口) | 有(复用历史特征+地图预计算) |
| 解码逻辑 | 单步混合分布解码 | 双阶段(递归提议+锚点细化) |
| 长时预测适配 | 弱(3秒预测,无递归) | 强(6秒预测,递归分步骤解码) |
| 核心设计目标 | 解决“多智能体单前向+几何不变” | 解决“在线流式推理+长时多模态” |
更多推荐

所有评论(0)