HiVT 和 QCNet AI 总结

为每个场景元素建立专属局部时空参考系，确保表征不随全局坐标变化：智能体状态：对智能体(i)在(t)时刻的状态，参考系由“时空位置+方向”定义：((p_i^t, t, \theta_i^t))（(p_i^t)为空间位置，(t)为时间步，(\theta_i^t)为航向角）；地图多边形（车道、人行道）：参考系由“入口点位置+方向”定义：取多边形中心线的入口点(p_\xi^{entry})和入口方向(\t

35598426855055

804人浏览 · 2025-11-17 16:55:57

35598426855055 · 2025-11-17 16:55:57 发布

一、HiVT（2022 CVPR）：Hierarchical Vector Transformer for Multi-Agent Motion Prediction

1. 提出的问题

现有向量化方法忽略多智能体运动预测的对称性（平移/旋转），对参考系变换不鲁棒。
多智能体预测时需重复归一化场景和重计算特征，计算成本高昂，难以实时推理。
全对全交互建模导致计算量随实体（智能体、车道）数量激增，扩展性差。

2. 解决的问题

实现快速且准确的多智能体运动预测，兼顾实时性与预测性能。
突破参考系变换限制，无需重复计算即可单前向传播完成所有智能体预测。
降低模型参数规模，提升计算效率，适配自动驾驶实时需求。

3. 使用的方法

分层建模框架：分解为局部上下文提取（局部编码器）和全局交互建模（全局交互模块）。
平移/旋转不变性设计：采用相对位置表征场景（平移不变），旋转不变交叉注意力模块（旋转不变）。
局部编码器：依次建模智能体-智能体交互、时间依赖、智能体-车道交互，聚合局部信息。
全局交互模块：基于Transformer编码器，融合不同局部区域的长程依赖。
多模态解码器：以混合拉普拉斯分布建模未来轨迹，训练采用variety loss（回归+分类损失）。

4. 创新点

首次将多智能体预测拆解为“局部+全局”分层架构，平衡效率与表征能力。
引入几何对称性先验（平移/旋转不变），提升模型数据效率和鲁棒性。
单前向传播完成多智能体预测，避免重复计算，大幅降低推理延迟。

二、QCNet（2023 CVPR）：Query-Centric Trajectory Prediction

1. 提出的问题

现有agent-centric建模在在线预测时，观测窗口滑动需重新归一化和编码，存在计算冗余。
长预测 horizon（如6秒）下，多模态捕捉困难：锚点法依赖手工锚点质量，无锚点法易模式崩溃。
多智能体解码难以并行，推理效率受限。

2. 解决的问题

实现流式场景编码，复用历史计算结果，显著降低在线推理延迟。
支持并行多智能体解码，提升批量预测效率。
突破长时多模态预测瓶颈，兼顾轨迹多样性与准确性。

3. 使用的方法

查询中心（query-centric）编码：为每个场景元素（智能体状态、车道）建立局部时空坐标系，学习全局坐标无关的表征，支持计算复用。
查询基解码 pipeline：锚点无关循环提议模块（生成动态锚点）+ 锚点相关细化模块（优化轨迹）。
注意力机制：Mode2Scene（融合场景上下文）和Mode2Mode（提升轨迹多样性）注意力。
训练目标：混合拉普拉斯分布建模，损失包含提议损失、细化损失和分类损失。

4. 创新点

提出query-centric编码范式，首次实现多智能体预测的流式处理和计算复用。
循环无锚点提议+锚点细化的双阶段解码，结合两者优势，解决多模态与长时预测难题。
全局坐标无关的表征设计，支持并行多智能体解码，进一步提升推理效率。

三、两篇论文的关联

核心目标一致：均聚焦自动驾驶场景的多智能体运动预测，核心诉求是平衡预测准确性、计算效率、多模态捕捉。
技术传承与演进：
- 作者重叠（Zikang Zhou、Jianping Wang），QCNet是HiVT的后续优化升级。
- HiVT的“分层建模”“几何不变性”为QCNet奠定基础，QCNet进一步解决HiVT未覆盖的“在线流式推理”“长时多模态”问题。
技术路线延续：
- 均基于Transformer架构，采用向量化场景表征（避免栅格化的效率/信息损失）。
- 均强调“坐标无关表征”，HiVT聚焦几何不变性，QCNet拓展为全局时空坐标无关，支持计算复用。
性能迭代：两者均在Argoverse 1/2数据集上取得SOTA性能，QCNet在长时预测（6秒）和在线推理效率上实现突破，是对HiVT的技术补全与升级。

=========================================================

一、HiVT（2022）模型结构：分层向量Transformer

HiVT 核心是**“局部上下文提取+全局交互建模”的分层架构**，通过几何对称性设计（平移/旋转不变）和高效注意力机制，实现多智能体实时预测。整体结构分为4个核心模块：场景表征层、局部编码器、全局交互模块、多模态解码器，各模块紧密围绕“降本增效”和“提升鲁棒性”设计。

1. 模块1：场景表征层（Scene Representation）

结构细节

向量化实体定义：将交通场景拆解为两类向量实体，避免栅格化的信息损失和计算冗余：
- 智能体轨迹：每个智能体(i)的历史轨迹用相对位移向量表示：({p_i^t - p_i^{t-1}}_{t=1}^T)（(p_i^t)为(t)时刻位置，(T)为历史时间步）；
- 车道片段：每个车道片段(\xi)用端点相对向量表示：(p_\xi^1 - p_\xi^0)（(p_\xi^0)、(p_\xi^1)为车道起点/终点）。
相对位置补充：为保留实体间空间关系，额外计算两类相对位置向量（均为平移不变）：
- 智能体-智能体：(p_j^t - p_i^t)（智能体(j)相对于(i)在(t)时刻的位置）；
- 智能体-车道：(p_\xi^0 - p_i^T)（车道起点相对于智能体(i)当前时刻的位置）。

设计原因

解决现有向量化方法依赖绝对位置的问题：绝对位置会随参考系平移/旋转变化，导致模型需重复归一化场景（如每个智能体单独归一化），引入冗余计算；相对位置天然具备平移不变性，确保场景表征不随全局坐标移动而变化，为“单前向预测多智能体”奠定基础。
向量实体比栅格图像更紧凑：避免栅格化的像素冗余，降低后续注意力计算的复杂度。

2. 模块2：局部编码器（Local Encoder）

局部编码器是HiVT的“效率核心”，负责为每个智能体聚合局部时空信息（邻居智能体、历史轨迹、周边车道），避免全场景全对全交互的高计算量。分为3个串行子模块：智能体-智能体交互、时间依赖建模、智能体-车道交互。

子模块2.1：智能体-智能体交互（Agent-Agent Interaction）

结构细节

旋转不变交叉注意力：以每个智能体为中心划分局部区域（半径50米），先将局部向量旋转到中心智能体的参考系：
1. 参考向量定义：取中心智能体(i)最新轨迹段(p_i^T - p_i^{T-1})的方向(\theta_i)，构建旋转矩阵(R_i \in \mathbb{R}^{2×2})；
2. 嵌入生成：用MLP分别编码中心智能体和邻居智能体的旋转后特征：
  - 中心嵌入：(z_i^t = \phi_{center}([R_i^\top (p_i^t - p_i^{t-1}), a_i]))（(a_i)为智能体语义属性，如类型）；
  - 邻居嵌入：(z_{ij}^t = \phi_{nbr}([R_i^\top (p_j^t - p_j^{t-1}), R_i^\top (p_j^t - p_i^t), a_j]))（额外融入相对位置，增强空间感知）；
3. 门控注意力融合：将中心嵌入作为查询（(q_i^t)），邻居嵌入作为键（(k_{ij}^t)）和值（(v_{ij}^t)），通过门控机制控制环境特征的融合比例：
  - 注意力权重：(\alpha_{ij}^t = softmax(\frac{q_i^t \cdot k_{ij}^t}{\sqrt{d_k}}))；
  - 环境特征：(m_i^t = \sum_{j \in \mathcal{N}i} \alpha{ij}^t v_{ij}^t)（(\mathcal{N}_i)为邻居集合）；
  - 门控融合：(\hat{z}_i^t = g_i^t \odot W^{self} z_i^t + (1-g_i^t) \odot m_i^t)（(g_i^t = sigmoid(W^{gate}[z_i^t, m_i^t]))，控制自身特征与邻居特征的权重）；
4. 输出：经MLP和层归一化（LayerNorm）后得到空间嵌入(s_i^t)。

设计原因

解决旋转鲁棒性问题：通过旋转矩阵将所有局部向量对齐到中心智能体参考系，使嵌入不受全局旋转影响（如车辆掉头导致场景旋转），避免现有方法需重复旋转场景的冗余计算；
门控机制的必要性：部分场景中智能体与邻居交互弱（如空旷道路），门控可减少无关邻居信息的干扰，提升特征纯度；
局部区域限制（50米）：将交互范围限定在物理意义上的“相关区域”，计算复杂度从(O(N^2T))降至(O(NkT))（(k \ll N)为每个智能体的邻居数），大幅提升效率。

子模块2.2：时间依赖建模（Temporal Dependency）

结构细节

带时序掩码的Transformer编码器：
1. 输入序列：将子模块2.1输出的空间嵌入({s_i^t}_{t=1}^T)拼接一个可学习的“总结token”(s^{T+1})，形成序列(S_i \in \mathbb{R}^{(T+1)×d_h})；
2. 时序掩码：添加下三角掩码(M)（(M_{uv}=-\infty)若(u<v)），确保每个时间步只关注历史信息，避免未来信息泄露；
3. 时序注意力：(\hat{S}_i = softmax(\frac{Q_i K_i^\top}{\sqrt{d_k}} + M) V_i)（(Q_i=S_i W^{Q^{time}})，(K_i、V_i)类似）；
4. 输出：取更新后的“总结token”作为智能体(i)的时空融合特征，传递给下一个子模块。

设计原因

多智能体运动依赖历史动态（如前车减速会导致后车刹车）：时序Transformer能捕捉长程时间依赖，比RNN类模型更擅长建模复杂时序模式；
时序掩码的必要性：严格限制“未来信息不可见”，符合自动驾驶场景中“基于历史预测未来”的逻辑，避免训练与推理的不一致；
“总结token”设计：将T个时间步的特征压缩为1个向量，为后续全局交互模块降低维度（从(T×d_h)降至(d_h)）。

子模块2.3：智能体-车道交互（Agent-Lane Interaction）

结构细节

与“智能体-智能体交互”结构类似，核心是车道特征的旋转不变编码与注意力融合：
1. 车道嵌入：旋转当前时刻（(T)）的局部车道向量，用MLP编码：(z_{i\xi} = \phi_{lane}([R_i^\top (p_\xi^1 - p_\xi^0), R_i^\top (p_\xi^0 - p_i^T), a_\xi]))（(a_\xi)为车道语义属性，如限速）；
2. 注意力融合：以子模块2.2输出的“时空融合特征”为查询，车道嵌入为键/值，重复子模块2.1的门控注意力逻辑；
3. 输出：经MLP后得到局部嵌入(h_i \in \mathbb{R}^{d_h})（包含智能体的局部时空+车道信息）。

设计原因

交通智能体的运动受车道约束（如车辆沿车道行驶，不会横穿马路）：融入车道信息能显著提升预测合理性，减少“违反交通规则”的预测；
保持旋转不变性：车道向量同样旋转到中心智能体参考系，确保局部嵌入在任何旋转场景下一致，避免模型对车道方向敏感。

3. 模块3：全局交互模块（Global Interaction Module）

结构细节

负责补全局部编码器的“短视”问题，捕捉跨局部区域的长程依赖（如十字路口对面车辆的转向对当前车辆的影响）：
1. 跨坐标系几何建模：计算任意两个智能体(i)和(j)的坐标系差异，用4D特征描述：
  - 相对位置：(R_i^\top (p_j^T - p_i^T))（(j)相对于(i)的位置，旋转到(i)的参考系）；
  - 相对角度：(\cos(\Delta\theta_{ij})、\sin(\Delta\theta_{ij}))（(\Delta\theta_{ij} = \theta_j - \theta_i)，用三角函数避免角度周期性问题）；
  - 成对嵌入：(e_{ij} = \phi_{rel}([R_i^\top (p_j^T - p_i^T), \cos(\Delta\theta_{ij}), \sin(\Delta\theta_{ij})]))；
2. 全局注意力：将局部嵌入(h_i)作为查询，(h_j)与(e_{ij})的拼接作为键/值：
  - ({\bar{q}}i = W^{Q^{global}} h_i)，({\bar{k}}{ij} = W^{K^{global}} [h_j, e_{ij}])，({\tilde{v}}{ij} = W^{V^{global}} [h_j, e{ij}])；
  - 注意力更新后经MLP输出全局嵌入(\tilde{h}_i)。

设计原因

局部编码器的感受野有限（50米）：无法捕捉远距离智能体的交互（如高速路上的前车变道），全局模块通过跨区域消息传递补充长程信息；
跨坐标系建模的必要性：每个局部嵌入基于不同智能体的参考系，直接交互会因坐标系差异导致特征错位；成对嵌入(e_{ij})能桥接坐标系差异，确保全局注意力的有效性；
低计算成本：全局模块复杂度为(O(N^2))，远低于全场景全对全交互的(O((NT+L)^2))，兼顾性能与效率。

4. 模块4：多模态解码器（Multimodal Future Decoder）

结构细节

建模未来轨迹的多模态不确定性（如车辆在路口可能直行或左转）：
1. 混合拉普拉斯分布：将未来轨迹参数化为(F)个混合分量（默认(F=6)），每个分量对应一条候选轨迹：
  - 输出预测：对每个智能体(i)和分量(f)，MLP输入(h_i + \tilde{h}i)（局部+全局特征），输出未来每个时间步的位置(\mu{i,f}^t)和不确定性(b_{i,f}^t)（拉普拉斯分布参数）；
  - 混合系数：另一个MLP输出每个分量的概率(\pi_{i,f})（经softmax归一化）；
2. 训练损失：采用“胜者全得”（winner-takes-all）策略，仅优化与真值最接近的候选轨迹：
  - 回归损失：负对数似然(\mathcal{L}{reg} = -\frac{1}{NH} \sum{i,t} \log P(R_i^\top (p_i^t - p_i^T) | \hat{\mu}{i}^t, \hat{b}{i}^t))；
  - 分类损失：交叉熵损失(\mathcal{L}_{cls})优化混合系数；
  - 总损失：(\mathcal{L} = \mathcal{L}{reg} + \mathcal{L}{cls})。

设计原因

拉普拉斯分布对异常值更鲁棒：自动驾驶场景中可能存在真值噪声（如GPS误差），拉普拉斯比高斯分布更能适应这种噪声；
“胜者全得”策略：解决训练数据中“仅单模态标注”的问题（每个场景仅记录一种真实轨迹），通过优化最优候选轨迹，避免多模态训练的不稳定性；
单前向输出多智能体：基于全局一致的特征，一次性输出所有智能体的(F)条候选轨迹，无需为每个智能体单独推理，满足实时性需求。

二、QCNet（2023）模型结构：查询中心轨迹预测

QCNet 是 HiVT 的演进，核心是**“查询中心编码+双阶段查询解码”架构**，通过“计算复用”和“动态锚点”解决在线推理冗余和长时多模态预测难题。整体结构分为2个核心模块：查询中心场景编码器、查询基轨迹解码器（含提议+细化子模块）。

1. 模块1：查询中心场景编码器（Query-Centric Scene Encoder）

编码器的核心是学习全局坐标无关的场景表征，支持“流式计算复用”（观测窗口滑动时无需重编码）。分为4个关键子模块：局部时空坐标系定义、场景元素嵌入、相对位置嵌入、分层注意力融合。

子模块1.1：局部时空坐标系定义

结构细节

为每个场景元素建立专属局部时空参考系，确保表征不随全局坐标变化：
- 智能体状态：对智能体(i)在(t)时刻的状态，参考系由“时空位置+方向”定义：((p_i^t, t, \theta_i^t))（(p_i^t)为空间位置，(t)为时间步，(\theta_i^t)为航向角）；
- 地图多边形（车道、人行道）：参考系由“入口点位置+方向”定义：取多边形中心线的入口点(p_\xi^{entry})和入口方向(\theta_\xi^{entry})，时间维度固定（地图静态）。

设计原因

解决现有agent-centric模型的计算冗余：agent-centric需为每个智能体归一化场景（如以智能体(i)为中心），观测窗口滑动时（时间步+1）需重归一化；而查询中心的局部坐标系是“元素专属”的，每个元素的表征永久固定，滑动窗口时仅需新增最新时间步的元素编码，复用历史计算结果（如图2中([A, T-1, D])为复用特征，仅新增([A, 1, D])）。
静态地图的预计算：地图多边形的参考系固定，可离线预编码，无需在线重复计算，进一步降低推理延迟。

子模块1.2：场景元素嵌入（Scene Element Embedding）

结构细节

将每个元素的几何/语义属性编码为坐标无关的向量：
1. 极坐标转换：对所有几何属性（如智能体的速度(v_i^t)、运动向量(p_i^t - p_i^{t-1})，地图的采样点位置），计算其相对于元素自身局部坐标系的极坐标（距离+角度）；
2. 傅里叶特征映射：将极坐标转换为傅里叶特征（(\sin(kx)、\cos(kx))，(k)为频率参数）；
3. MLP编码：拼接傅里叶特征与语义属性（如智能体类型、车道限速），经MLP输出嵌入：
  - 智能体嵌入：(a_i^t \in \mathbb{R}^D)，最终形成([A, T, D])（(A)为智能体数，(D)为隐藏维度）；
  - 地图嵌入：对每个地图多边形的采样点嵌入，用注意力池化（Attention Pooling）得到多边形级嵌入(m_j \in \mathbb{R}^D)，最终形成([M, D])（(M)为地图多边形数）。

设计原因

傅里叶特征的优势：几何属性（如角度）是周期性的，原始数值难以建模高频变化（如车辆快速转向）；傅里叶特征能将周期性信号转化为线性可分特征，提升模型对高频动态的捕捉能力；
注意力池化的必要性：地图多边形由多个采样点组成，池化能聚合采样点信息，得到紧凑的多边形级表征，避免后续注意力计算中地图元素维度过高。

子模块1.3：相对位置嵌入（Relative Spatiotemporal Positional Embedding）

结构细节

为元素对补充坐标系差异信息，确保注意力交互时特征对齐：
1. 4D相对描述符：对任意两个元素(X)（如智能体(i)在(t)时刻）和(Y)（如智能体(j)在(s)时刻），计算：
  - 相对距离：(|p_j^s - p_i^t|_2)；
  - 相对方向：(atan2(p_j^s - p_i^t) - \theta_i^t)（(Y)相对于(X)局部系的方向）；
  - 相对角度：(\theta_j^s - \theta_i^t)（(Y)与(X)的航向角差异）；
  - 时间差：(s - t)；
2. 嵌入生成：将4D描述符转傅里叶特征，经MLP输出相对位置嵌入(r_{j \to i}^{s \to t})（静态元素如地图省略时间差，记为(r_{j \to i})）。

设计原因

元素嵌入是“局部坐标系专属”的，直接交互会因坐标系差异导致语义错位：相对位置嵌入能量化两个元素的坐标系差异，为注意力机制提供“对齐依据”，确保交互特征的物理意义一致；
4D描述符的完整性：涵盖空间（距离、方向、角度）和时间（时间差）维度，全面保留元素对的时空关系，避免信息丢失。

子模块1.4：分层注意力融合（Hierarchical Attention Fusion）

结构细节

分“地图自注意力”和“智能体分解注意力”，高效融合场景上下文：
1. 地图自注意力：
  - 目标：建模地图元素间的关系（如车道与交叉口的连接）；
  - 逻辑：对地图多边形(i)，以(m_i)为查询，邻居多边形(j)的([m_j, r_{j \to i}])为键/值，经自注意力更新得到(m_i')（优化后地图嵌入）；
  - 特性：可离线预计算，在线复用。
2. 智能体分解注意力（Factorized Attention）：
  - 目标：融合智能体的“时间、邻居、地图”信息，分3类注意力串行堆叠(L_{enc})层（默认2层）：
    - 时序注意力：智能体(i)在(t)时刻的查询，关注自身历史(s \in [t-\tau, t-1])的([a_i^s, r_{i \to i}^{s \to t}])（(\tau)为时间窗口）；
    - 社交注意力：关注邻居智能体(j)的([a_j^t, r_{j \to i}^{t \to t}])（距离<50米）；
    - 智能体-地图注意力：关注邻居地图(j)的([m_j', r_{j \to i}])；
  - 输出：得到智能体的时空上下文嵌入(a_i^t')，形成([A, T, D])。

设计原因

分解注意力的效率：相比全对全注意力（(O((AT+M)^2))），分解注意力将复杂度拆分为(O(AT^2) + O(A^2T) + O(ATM))，且在线推理时复用历史特征，复杂度进一步降至(O(AT) + O(A^2) + O(AM))（如图2），满足实时性；
分层融合的合理性：时序注意力捕捉自身动态，社交注意力捕捉多智能体交互，地图注意力捕捉环境约束，三者串行融合能逐步丰富特征，避免单步注意力的信息过载。

2. 模块2：查询基轨迹解码器（Query-Based Trajectory Decoder）

解码器的核心是**“动态锚点生成+锚点优化”**，解决长时预测的多模态难题。分为2个串行子模块：锚点无关循环提议模块、锚点相关细化模块。

子模块2.1：锚点无关循环提议模块（Anchor-Free Recurrent Proposal）

结构细节

以“查询”为核心，递归生成高质量动态锚点（避免手工锚点的局限性）：
1. 初始查询：随机初始化(K)个锚点无关查询（(K=6)，对应6条候选轨迹），记为(q_k^0 \in \mathbb{R}^D)；
2. 循环解码（(T_{rec})步，默认3步）：
  - 每步解码(T'/T_{rec})个waypoints（(T')为预测时间步，如6秒→3步，每步2秒）；
  - Mode2Scene注意力：查询(q_k^t)跨注意力融合场景上下文（目标智能体历史嵌入(a_i^T')、邻居嵌入(a_j^T')、地图嵌入(m_j')），融入相对位置嵌入确保对齐；
  - Mode2Mode注意力：(K)个查询间自注意力交互，提升轨迹多样性（避免模式崩溃）；
  - MLP预测：经MLP输出当前步的waypoints，更新查询为(q_k^{t+1})；
3. 输出：(K)条初始轨迹提议（锚点），记为({traj_k^{init}}_{k=1}^K)。

设计原因

递归解码的必要性：长时预测（如6秒）中，智能体周边环境会动态变化（如接近路口），单步解码难以覆盖所有场景上下文；递归分步骤解码，每步查询仅关注当前时段的关键上下文（如第一步关注“是否接近路口”，第二步关注“路口车道走向”），降低建模负担；
锚点无关的优势：手工锚点（如CoverNet的预定义轨迹集）难以覆盖所有场景（如特殊路口转向），动态锚点由数据驱动生成，适配不同场景的多样性需求；
Mode2Mode注意力：避免查询间“同质化”（如多条轨迹预测为直行），通过自注意力促进查询分工（如部分查询关注直行，部分关注左转），提升多模态多样性。

结构细节

以提议轨迹为锚点，优化轨迹精度和不确定性估计：
1. 锚点嵌入：用GRU编码每条提议轨迹(traj_k^{init})的waypoints序列，取GRU最终隐藏状态作为锚点查询(q_k^{anchor})；
2. 场景上下文再融合：重复Mode2Scene和Mode2Mode注意力逻辑，锚点查询进一步融合场景细节（如车道线位置、邻居车辆的实时动态）；
3. 偏移预测：MLP输出锚点轨迹的位置偏移(\Delta\mu_{i,k}^t)和不确定性更新(\Delta b_{i,k}^t)，得到细化轨迹(traj_k^{refine} = traj_k^{init} + \Delta\mu_{i,k}^t)；
4. 概率估计：另一个MLP输出每条细化轨迹的概率(\pi_{i,k})（经softmax归一化）。

设计原因

锚点相关查询的优势：锚点查询基于提议轨迹，自带“空间先验”（如轨迹的大致走向），相比随机初始化查询，能更快定位到与真值相关的场景上下文，提升优化效率；
细化模块的必要性：提议模块的轨迹可能存在局部偏差（如waypoints偏移车道），细化模块通过二次场景融合和偏移预测，修正偏差并提升轨迹平滑性；
不确定性估计：为每条轨迹输出概率，为自动驾驶决策提供“置信度参考”（如低概率轨迹可视为风险选项）。

3. 训练目标（与结构匹配的损失设计）

总损失：(\mathcal{L} = \mathcal{L}{propose} + \mathcal{L}{refine} + \lambda \mathcal{L}_{cls})
- (\mathcal{L}_{propose})：提议轨迹的回归损失（负对数似然，仅优化与真值最接近的提议）；
- (\mathcal{L}_{refine})：细化轨迹的回归损失（同样“胜者全得”，冻结提议轨迹梯度）；
- (\mathcal{L}{cls})：交叉熵损失，优化细化轨迹的概率(\pi{i,k})；
- (\lambda)：平衡回归与分类（默认1.0）。

设计原因

冻结提议梯度：避免细化模块的误差反向传播污染提议模块，确保提议轨迹的动态锚点属性不受干扰；
“胜者全得”策略：延续HiVT的设计，解决单模态标注的训练难题，同时通过分类损失优化概率估计，提升多模态的可靠性。

三、总结：HiVT与QCNet结构设计的核心差异与演进

维度	HiVT（2022）	QCNet（2023）
编码核心	智能体为中心的局部-全局分层	元素为中心的查询-centric流式编码
计算复用	无（需重编码滑动窗口）	有（复用历史特征+地图预计算）
解码逻辑	单步混合分布解码	双阶段（递归提议+锚点细化）
长时预测适配	弱（3秒预测，无递归）	强（6秒预测，递归分步骤解码）
核心设计目标	解决“多智能体单前向+几何不变”	解决“在线流式推理+长时多模态”

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

微信聊天记录查看与分析工具：AI智能摘要+可视化统计+隐私保护

2048 AI社区

从“只会聊天”到“替你干活”：2026年爆火的OpenClaw究竟改变了什么？

《OpenClaw：从对话到执行的AI革命》摘要 2026年诞生的开源项目OpenClaw彻底改变了AI范式，将大模型从"清谈家"转变为能直接操控系统的"数字员工"。其突破性在于：填补思维与行动的鸿沟，实现从建议到执行的跨越采用分布式架构，分离决策大脑（Gateway）与感知触手（Nodes）坚持"本地优先"原则，捍卫用户数据主权

2048 AI社区

LLM_Skills-2-Skills与Tools、MCP、sub-agent的对比

摘要：本文系统分析了Agent能力栈中Skills、MCP、Tools和Subagents四组件的对比关系。MCP解决数据访问问题，Tools提供基础功能，Skills传授专业知识，Subagents实现任务分解。四者形成"数据访问→做事方法→具体执行"的协作链：MCP作为桥梁连接外部系统，Skills作为大脑提供方法论，Tools和Subagents作为执行单元。通过客户洞察

2048 AI社区

所有评论(0)

查看更多评论

35598426855055

@weixin_42065546

已为社区贡献2条内容

HiVT 和 QCNet AI 总结

35598426855055

一、HiVT（2022 CVPR）：Hierarchical Vector Transformer for Multi-Agent Motion Prediction

1. 提出的问题

2. 解决的问题

3. 使用的方法

4. 创新点

二、QCNet（2023 CVPR）：Query-Centric Trajectory Prediction

1. 提出的问题

2. 解决的问题

3. 使用的方法

4. 创新点

三、两篇论文的关联

一、HiVT（2022）模型结构：分层向量Transformer

1. 模块1：场景表征层（Scene Representation）

结构细节

设计原因

2. 模块2：局部编码器（Local Encoder）

子模块2.1：智能体-智能体交互（Agent-Agent Interaction）

结构细节

设计原因

子模块2.2：时间依赖建模（Temporal Dependency）

结构细节

设计原因

子模块2.3：智能体-车道交互（Agent-Lane Interaction）

结构细节

设计原因

3. 模块3：全局交互模块（Global Interaction Module）

结构细节

设计原因

4. 模块4：多模态解码器（Multimodal Future Decoder）

结构细节

设计原因

二、QCNet（2023）模型结构：查询中心轨迹预测

1. 模块1：查询中心场景编码器（Query-Centric Scene Encoder）

子模块1.1：局部时空坐标系定义

结构细节

设计原因

子模块1.2：场景元素嵌入（Scene Element Embedding）

结构细节

设计原因

子模块1.3：相对位置嵌入（Relative Spatiotemporal Positional Embedding）

结构细节

设计原因

子模块1.4：分层注意力融合（Hierarchical Attention Fusion）

结构细节

设计原因

2. 模块2：查询基轨迹解码器（Query-Based Trajectory Decoder）

子模块2.1：锚点无关循环提议模块（Anchor-Free Recurrent Proposal）

结构细节

设计原因

子模块2.2：锚点相关细化模块（Anchor-Based Refinement）

结构细节

设计原因

3. 训练目标（与结构匹配的损失设计）

设计原因

三、总结：HiVT与QCNet结构设计的核心差异与演进

所有评论(0)

35598426855055