CVPRW 2025 | Qualcomm AI提出基于不确定性的光流与立体深度估计改进方法！

CV实验室

360人浏览 · 2025-09-25 17:29:39

CV实验室 · 2025-09-25 17:29:39 发布

近期，由Qualcomm AI Research团队发布了一篇题为“Improving Optical Flow and Stereo Depth Estimation by Leveraging Uncertainty-Based Learning Difficulties”的研究成果，针对光流与立体深度估计任务提出了全新的训练损失函数。该文借鉴与改进了Regression Focal Loss（RFL），并首次将不确定性（confidence）与遮挡一致性（occlusion consistency）引入损失设计中，通过Difficulty Balancing（DB）与Occlusion Avoiding（OA）两种权重策略，有效提升了主流模型在Sintel、KITTI等数据集上的精度表现。

另外我给大家整理了计算机视觉必读20本电子书pdf清单资源合集，希望能帮到你。

原文这里哦~CV相关.姿.料也在这里哦

author

论文基本信息

论文标题：Improving Optical Flow and Stereo Depth Estimation by Leveraging Uncertainty-Based Learning Difficulties
作者：Jisoo Jeong, Hong Cai, Jamie Menjay Lin, Fatih Porikli
作者单位：Qualcomm AI Research
发布时间：2025年5月31日
论文来源：https://arxiv.org/abs/2506.00324

摘要

在传统的光流与立体深度估计训练中，常使用统一的L1或L2损失对所有像素赋予相同权重，忽略了像素或区域在学习过程中的差异化难度。本文针对这一问题，提出两类基于不确定性的辅助损失：一是Difficulty Balancing（DB）损失，通过误差驱动的置信度映射提升模型对难学像素的关注；二是Occlusion Avoiding（OA）损失，基于前向-后向一致性检测遮挡区域，从而调整遮挡像素的训练权重。作者在RAFT、FlowFormer与RAFT-Stereo等主流架构上进行了大规模对比实验，分别在Sintel、KITTI与ETH3D等数据集上验证了方法的通用性和效果。实验证明，DB和OA单独使用均能显著提升性能，而采用乘法或Mask-Sum的组合策略则带来更优的综合表现；在Sintel（clean）上Clean-EPE从1.43降低至1.35，在KITTI（train）Fl-all从17.4%降低至15.45%，展示了良好的泛化与鲁棒性。本文首次将不确定性和遮挡一致性相结合，为光流与立体深度估计的训练优化提供了新思路。

研究背景及相关工作

研究背景

光流（Optical Flow）和立体深度（Stereo Depth）估计是计算机视觉领域的基础任务，广泛应用于目标跟踪、自动驾驶、视频插帧和增强现实等场景。近年来，以RAFT等迭代回归为代表的方法取得了显著进展，但其训练损失往往对所有像素一视同仁，忽略了像素在不同运动大小、纹理复杂度和遮挡情况下面临的多样化学习难度。

随着对难样本挖掘（hard example mining）和自适应损失权重机制的关注，部分研究在二维图像分类与目标检测任务中引入Focal Loss或基于不确定性的权重策略，但在像素级密集预测任务上的探索尚较匮乏。尤其是遮挡区域，由于缺少真实对应关系，往往让模型在训练时产生过拟合风险或错误梯度。本文试图从不确定性置信度和遮挡一致性两个维度，系统地设计像素权重，提升模型对难学场景的适应性。

主要贡献

本文的核心创新可概括为三点：

引入Difficulty Balancing损失：基于误差驱动置信度映射，为光流和立体深度模型设计可调超参数(α,β)，在多模型和多数据集上实现显著精度提升；
提出Occlusion Avoiding损失：利用前向-后向一致性检测遮挡区域，并将一致性置信度纳入权重函数，避免模型在遮挡像素上的误导性学习；
系统对比不同组合策略：全面评估加法、乘法、Mask、Mask-Sum四种组合方式，揭示各策略在不同任务与场景下的优劣，为后续研究提供实践指南。

研究方法与基本原理

本文方法基于可微分渲染管线、循环一致性与置信度映射理论，设计DB和OA两类损失如下：

1. 问题定义与损失概述

设模型输出与真实值差异为残差r(x)，误差置信度 $M_db(x)=exp(−||r(x)||^2)$ ，一致性置信度 $M_oa(x)=exp(−||f_{forward(x)}+f_{backward(x+f_{forward(x)})}||^2/(γ1·…+γ2))$ 。

DB损失：

$L_DB = Σ_i || (1 + α·(1 − M_db(x_i))^β) · r(x_i) ||_1$

OA损失：

$L_OA = Σ_i || (1 + α·(M_oa(x_i))^β) · r(x_i) ||_1$

两者分别调整低置信度和低一致性区域的梯度权重。

2. 组合策略设计

本文比较了四种组合方式：sum、mul、mask、mask-sum，并通过实验确定乘法组合在光流任务中表现最佳，而Mask-Sum组合在立体深度任务中效果更优。

实验与结果分析

实验设置

光流模型在FlyingChairs、FlyingThings3D上训练，并在Sintel(train/test)与KITTI(train/test)上评估；立体深度模型在SceneFlow上训练，并在ETH3D、Middlebury、KITTI上测试。超参数(α,β)通过消融实验确定为(2.0,0.5)或(2.0,1.0)。

光流估计结果

在Sintel(clean)上，乘法组合将Clean-EPE从1.43降低至1.35；在KITTI(train)上，Fl-all从17.4%降低至15.45%，与FlowFormer基线相比也有稳定提升。

立体深度估计结果

在ETH3D的bad1.0指标上，从2.44%降至1.67%；在KITTI(train)的Dl-all指标上，从5.74%降至4.42%。Mask-Sum组合进一步优化了前景和背景区域的估计精度。

总结与展望

总结

本文提出基于不确定性学习难度的两类自适应损失策略(DB、OA)，并在光流与立体深度任务上进行系统评估。实验证明，单独使用或组合均能有效提升模型精度，尤其是乘法与Mask-Sum组合策略。

展望

未来可从以下方向拓展：

探索更细粒度的像素或区域注意力机制；
将不确定性权重引入其他密集预测任务，如场景流或语义分割；
结合多模态信息进一步提升模型对复杂动态场景的鲁棒性。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

产品经理入门指南：从互联网原理到大模型思维的全面解析

2048 AI社区

90%企业的私域焦虑：企业微信+企业微信AI SCRM解决方案（附案例数据）

【摘要】当前企业私域运营普遍面临三大痛点：客户留存难、社群活跃低、销售跟进慢。微盛AI·企微管家通过"AI标签+智能社群+客户画像"的解决方案，帮助企业实现精准运营：1）建立双重标签体系，实现客户需求精准识别；2）通过直播+积分+AI质检激活沉默社群；3）可视化客户行为轨迹，提升销售跟进效率。500强企业实践显示，该方案可使客户响应时间缩短50%，转化率提升40%。需注意三大避