CVPR 2025震撼现场：三篇论文教会AI在遮挡中“开天眼”

【CVPR三篇突破性论文解决目标追踪难题】UMotion、MotionTrack和OC-SORT三篇CVPR论文针对复杂场景中的目标追踪提出了创新方案。UMotion融合惯性单元与超宽带传感，通过不确定性驱动框架解决遮挡问题；MotionTrack采用Transformer架构实现激光雷达与视觉的多模态融合；OC-SORT则通过观察中心机制改进卡尔曼滤波，应对非线性运动。这些方法在自动驾驶、人机交

Tulingjin

738人浏览 · 2025-08-20 16:56:56

Tulingjin · 2025-08-20 16:56:56 发布

在动态感知的极限挑战下，三篇突破性的CVPR论文共同揭示了复杂场景中目标追踪的破局之道——当遮挡频发、轨迹突变、传感器受限时，传统模型往往溃败如山倒。它们不约而同地撕开“完美线性运动”的陈旧假设，直面现实世界中人体翻转的剧烈形变、车辆急转的非线性路径、密集遮挡下的信号丢失等核心痛点。

UMotion以不确定性为矛，深度融合惯性单元与超宽带距离感知，重构人体运动在遮挡中的隐形轨迹；MotionTrack借Transformer之力，将激光雷达与视觉特征在时空维度交织，让多目标在遮挡洪流中保持身份连贯；OC-SORT则以观测为锚点，逆击卡尔曼滤波的误差累积痼疾，在舞蹈的疾旋骤停间锁定每一段消失的身影。

这场感知革命的核心，正是通过多源信息融合与误差修正机制，让机器学会在残缺中推演完整，在混沌中捕捉秩序，为自动驾驶、人机交互等疆域开辟出更精准的感知通途。

UMotion: Uncertainty-driven Human Motion Estimation from Inertial and Ultra-wideband Units

方法：

文章首先通过集成六个身体佩戴的UWB传感器和IMU来测量节点间距离，以此推断空间关系并解决姿态歧义问题。接着，利用基于学习的形状和姿态估计器，结合人体测量数据和传感器数据来估计人体形状和姿态，并通过不确定性传播方法将传感器测量和姿态估计的不确定性结合起来。最后，通过无迹卡尔曼滤波器迭代细化IMU和UWB测量数据，将其与不确定的人体运动约束对齐，以实现实时最优估计。

创新点：

提出了一个基于不确定性驱动的在线融合状态估计框架，能够实时结合IMU和UWB传感器数据以及人体运动估计的不确定性，通过迭代优化来提高姿态估计的准确性和稳定性。
首次将人体形状估计与姿态估计紧密结合，利用人体的个体特征和测量数据来优化传感器数据的融合过程，从而显著提高了运动估计的整体性能。
设计了一种新颖的无迹卡尔曼滤波（UKF）框架，用于紧密耦合IMU和UWB传感器数据，通过考虑人体模型的约束来实时校正传感器数据中的误差。

论文链接：

https://arxiv.org/pdf/2505.09393

MotionTrack: End-to-End Transformer-based Multi-Object Tracking with LiDAR-Camera Fusion

方法：

文章首先利用TransFusion模型进行多目标检测，支持LiDAR和LiDAR-图像融合两种输入方式。接着设计了一个基于Transformer的数据关联模块，通过自注意力和交叉注意力机制更新目标特征，并使用点积计算进行数据关联，实现多目标跟踪。最后，通过查询增强模块将历史跟踪特征与当前帧的检测特征融合，进一步提升检测性能，从而实现更准确的多目标跟踪。

创新点：

设计了一个基于Transformer的数据关联模块，能够处理多模态传感器输入，无需显式的运动预测和状态估计即可实现多目标跟踪。
开发了一个查询增强模块（QEM），通过聚合历史跟踪特征来提升检测性能，从而提高多目标检测的准确性。
在自动驾驶环境中为端到端Transformer的多目标检测和跟踪算法建立了基线，证明了Transformer架构在多类别目标跟踪中的有效性。

论文链接：

https://arxiv.org/pdf/2306.17000

Observation-Centric SORT: Rethinking SORT for Robust Multi-Object Tracking

方法：

文章首先对传统的SORT算法进行了深入分析，识别出其在处理遮挡和非线性运动时的局限性。接着，通过设计ORU和OCM机制，从观察数据出发来修正和优化卡尔曼滤波器的状态估计。最后，将这些改进整合到一个完整的框架中，通过实验验证了其在多种复杂场景下的有效性和优越性。

创新点：

提出了观察中心重更新（ORU）机制，在目标重新被检测到时，通过虚拟轨迹修正卡尔曼滤波器在遮挡期间积累的误差，有效解决了传统方法中因遮挡导致的跟踪丢失问题。
引入了观察中心动量（OCM）机制，将目标运动方向的一致性作为关联成本的一部分，增强了跟踪过程中对非线性运动的适应能力。
保持了算法的简单性、在线性和实时性，同时在多个数据集上实现了与现有最先进方法相媲美甚至更优的性能，特别是在非线性运动和遮挡场景下表现突出。

论文链接：

https://arxiv.org/pdf/2203.14360

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

工业视觉项目高效对接PLC/MES系统｜全协议通信联动落地实战方案

工业AI视觉项目落地核心在于设备联动与数据打通，而非算法训练。本文基于百条产线实战经验，提炼三大通信协议（TCP/IP、Modbus、RS232/RS485）的适用场景，提出五段式标准化联动流程（触发-抓拍-回传-执行-回执），并给出MES对接的数据字段规范。针对联调常见问题（信号丢包、格式错乱等）提供根治方案，包括双向心跳机制、统一报文格式等。通过全链路开发架构实现算法识别与设备联动的无缝衔接，

2048 AI社区

Gemini3.1ProAPI接入从零开始完整操作指南

2048 AI社区

从 “被动应对” 到 “主动掌控”：三维电子沙盘破解应急救援四大核心痛点

针对传统应急救援中信息孤岛、二维局限、协同低效和操作复杂等痛点，三维电子沙盘通过"实景可视化+数据一体化+AI智能化"实现突破。该方案整合多源数据，构建二三维联动场景，支持AI智能辅助决策，提供预案推演和事后复盘功能。实战证明，该技术可提升40%响应速度和60%协同效率，实现从被动应对到主动掌控的转变，成为应急指挥的"数字大脑"。未来将与数字孪生等技术深度融合，为现代化应急管理体系提供更强支撑。