在动态感知的极限挑战下,三篇突破性的CVPR论文共同揭示了复杂场景中目标追踪的破局之道——当遮挡频发、轨迹突变、传感器受限时,传统模型往往溃败如山倒。它们不约而同地撕开“完美线性运动”的陈旧假设,直面现实世界中人体翻转的剧烈形变、车辆急转的非线性路径、密集遮挡下的信号丢失等核心痛点。

UMotion以不确定性为矛,深度融合惯性单元与超宽带距离感知,重构人体运动在遮挡中的隐形轨迹;MotionTrack借Transformer之力,将激光雷达与视觉特征在时空维度交织,让多目标在遮挡洪流中保持身份连贯;OC-SORT则以观测为锚点,逆击卡尔曼滤波的误差累积痼疾,在舞蹈的疾旋骤停间锁定每一段消失的身影。

这场感知革命的核心,正是通过多源信息融合与误差修正机制,让机器学会在残缺中推演完整,在混沌中捕捉秩序,为自动驾驶、人机交互等疆域开辟出更精准的感知通途。

UMotion: Uncertainty-driven Human Motion Estimation from Inertial and Ultra-wideband Units

方法:

文章首先通过集成六个身体佩戴的UWB传感器和IMU来测量节点间距离,以此推断空间关系并解决姿态歧义问题。接着,利用基于学习的形状和姿态估计器,结合人体测量数据和传感器数据来估计人体形状和姿态,并通过不确定性传播方法将传感器测量和姿态估计的不确定性结合起来。最后,通过无迹卡尔曼滤波器迭代细化IMU和UWB测量数据,将其与不确定的人体运动约束对齐,以实现实时最优估计。

图片

创新点:

  • 提出了一个基于不确定性驱动的在线融合状态估计框架,能够实时结合IMU和UWB传感器数据以及人体运动估计的不确定性,通过迭代优化来提高姿态估计的准确性和稳定性。

  • 首次将人体形状估计与姿态估计紧密结合,利用人体的个体特征和测量数据来优化传感器数据的融合过程,从而显著提高了运动估计的整体性能。

  • 设计了一种新颖的无迹卡尔曼滤波(UKF)框架,用于紧密耦合IMU和UWB传感器数据,通过考虑人体模型的约束来实时校正传感器数据中的误差。

图片

论文链接:

https://arxiv.org/pdf/2505.09393

MotionTrack: End-to-End Transformer-based Multi-Object Tracking with LiDAR-Camera Fusion

方法:

文章首先利用TransFusion模型进行多目标检测,支持LiDAR和LiDAR-图像融合两种输入方式。接着设计了一个基于Transformer的数据关联模块,通过自注意力和交叉注意力机制更新目标特征,并使用点积计算进行数据关联,实现多目标跟踪。最后,通过查询增强模块将历史跟踪特征与当前帧的检测特征融合,进一步提升检测性能,从而实现更准确的多目标跟踪。

图片

创新点:

  • 设计了一个基于Transformer的数据关联模块,能够处理多模态传感器输入,无需显式的运动预测和状态估计即可实现多目标跟踪。

  • 开发了一个查询增强模块(QEM),通过聚合历史跟踪特征来提升检测性能,从而提高多目标检测的准确性。

  • 在自动驾驶环境中为端到端Transformer的多目标检测和跟踪算法建立了基线,证明了Transformer架构在多类别目标跟踪中的有效性。

图片

论文链接:

https://arxiv.org/pdf/2306.17000

Observation-Centric SORT: Rethinking SORT for Robust Multi-Object Tracking

方法:

文章首先对传统的SORT算法进行了深入分析,识别出其在处理遮挡和非线性运动时的局限性。接着,通过设计ORU和OCM机制,从观察数据出发来修正和优化卡尔曼滤波器的状态估计。最后,将这些改进整合到一个完整的框架中,通过实验验证了其在多种复杂场景下的有效性和优越性。

图片

创新点:

  • 提出了观察中心重更新(ORU)机制,在目标重新被检测到时,通过虚拟轨迹修正卡尔曼滤波器在遮挡期间积累的误差,有效解决了传统方法中因遮挡导致的跟踪丢失问题。

  • 引入了观察中心动量(OCM)机制,将目标运动方向的一致性作为关联成本的一部分,增强了跟踪过程中对非线性运动的适应能力。

  • 保持了算法的简单性、在线性和实时性,同时在多个数据集上实现了与现有最先进方法相媲美甚至更优的性能,特别是在非线性运动和遮挡场景下表现突出。

图片

论文链接:

https://arxiv.org/pdf/2203.14360

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐