近期,由Qualcomm AI Research团队发布了一篇题为“Improving Optical Flow and Stereo Depth Estimation by Leveraging Uncertainty-Based Learning Difficulties”的研究成果,针对光流与立体深度估计任务提出了全新的训练损失函数。该文借鉴与改进了Regression Focal Loss(RFL),并首次将不确定性(confidence)与遮挡一致性(occlusion consistency)引入损失设计中,通过Difficulty Balancing(DB)与Occlusion Avoiding(OA)两种权重策略,有效提升了主流模型在Sintel、KITTI等数据集上的精度表现。

另外我给大家整理了计算机视觉必读20本电子书pdf清单资源合集,希望能帮到你。

原文这里哦~CV相关.姿.料 也在这里哦

author

论文基本信息

论文标题:Improving Optical Flow and Stereo Depth Estimation by Leveraging Uncertainty-Based Learning Difficulties
作者:Jisoo Jeong, Hong Cai, Jamie Menjay Lin, Fatih Porikli
作者单位:Qualcomm AI Research
发布时间:2025年5月31日
论文来源:https://arxiv.org/abs/2506.00324

摘要

在传统的光流与立体深度估计训练中,常使用统一的L1或L2损失对所有像素赋予相同权重,忽略了像素或区域在学习过程中的差异化难度。本文针对这一问题,提出两类基于不确定性的辅助损失:一是Difficulty Balancing(DB)损失,通过误差驱动的置信度映射提升模型对难学像素的关注;二是Occlusion Avoiding(OA)损失,基于前向-后向一致性检测遮挡区域,从而调整遮挡像素的训练权重。作者在RAFT、FlowFormer与RAFT-Stereo等主流架构上进行了大规模对比实验,分别在Sintel、KITTI与ETH3D等数据集上验证了方法的通用性和效果。实验证明,DB和OA单独使用均能显著提升性能,而采用乘法或Mask-Sum的组合策略则带来更优的综合表现;在Sintel(clean)上Clean-EPE从1.43降低至1.35,在KITTI(train)Fl-all从17.4%降低至15.45%,展示了良好的泛化与鲁棒性。本文首次将不确定性和遮挡一致性相结合,为光流与立体深度估计的训练优化提供了新思路。

研究背景及相关工作

研究背景

光流(Optical Flow)和立体深度(Stereo Depth)估计是计算机视觉领域的基础任务,广泛应用于目标跟踪、自动驾驶、视频插帧和增强现实等场景。近年来,以RAFT等迭代回归为代表的方法取得了显著进展,但其训练损失往往对所有像素一视同仁,忽略了像素在不同运动大小、纹理复杂度和遮挡情况下面临的多样化学习难度。

随着对难样本挖掘(hard example mining)和自适应损失权重机制的关注,部分研究在二维图像分类与目标检测任务中引入Focal Loss或基于不确定性的权重策略,但在像素级密集预测任务上的探索尚较匮乏。尤其是遮挡区域,由于缺少真实对应关系,往往让模型在训练时产生过拟合风险或错误梯度。本文试图从不确定性置信度和遮挡一致性两个维度,系统地设计像素权重,提升模型对难学场景的适应性。

相关工作

  1. 误差驱动的权重策略:SCIFlow提出了基于回归焦点(Regression Focal Loss, RFL)的加权机制,为光流模型增强了对低置信度像素的关注。本工作在此基础上通过超参数α、β的微调,探索了更优的置信度映射和权重函数形式。
  2. 遮挡与一致性检测:前向-后向光流一致性已被用于无人监督学习和遮挡检测,但大多数方法选择忽略遮挡区域或填补伪标签,本研究将一致性置信度直接纳入训练损失,避免对不可靠像素施加过大梯度。
  3. 组合策略与通用性:部分研究尝试将多种权重策略进行加权组合,但鲜有系统评估不同组合方式对光流与立体深度两类任务的跨模型效果。本研究针对DB和OA设计了加法(sum)、乘法(mul)、Mask和Mask-Sum四种组合,揭示了乘法组合在光流任务中、Mask-Sum组合在立体深度任务中的最佳性能。

主要贡献

本文的核心创新可概括为三点:

  1. 引入Difficulty Balancing损失:基于误差驱动置信度映射,为光流和立体深度模型设计可调超参数(α,β),在多模型和多数据集上实现显著精度提升;
  2. 提出Occlusion Avoiding损失:利用前向-后向一致性检测遮挡区域,并将一致性置信度纳入权重函数,避免模型在遮挡像素上的误导性学习;
  3. 系统对比不同组合策略:全面评估加法、乘法、Mask、Mask-Sum四种组合方式,揭示各策略在不同任务与场景下的优劣,为后续研究提供实践指南。

研究方法与基本原理

本文方法基于可微分渲染管线、循环一致性与置信度映射理论,设计DB和OA两类损失如下:

1. 问题定义与损失概述

设模型输出与真实值差异为残差r(x),误差置信度 M d b ( x ) = e x p ( − ∣ ∣ r ( x ) ∣ ∣ 2 ) M_db(x)=exp(−||r(x)||^2) Mdb(x)=exp(∣∣r(x)2),一致性置信度 M o a ( x ) = e x p ( − ∣ ∣ f f o r w a r d ( x ) + f b a c k w a r d ( x + f f o r w a r d ( x ) ) ∣ ∣ 2 / ( γ 1 ⋅ … + γ 2 ) ) M_oa(x)=exp(−||f_{forward(x)}+f_{backward(x+f_{forward(x)})}||^2/(γ1·…+γ2)) Moa(x)=exp(∣∣fforward(x)+fbackward(x+fforward(x))2/(γ1+γ2))

DB损失:

L D B = Σ i ∣ ∣ ( 1 + α ⋅ ( 1 − M d b ( x i ) ) β ) ⋅ r ( x i ) ∣ ∣ 1 L_DB = Σ_i || (1 + α·(1 − M_db(x_i))^β) · r(x_i) ||_1 LDB=Σi∣∣(1+α(1Mdb(xi))β)r(xi)1

OA损失:

L O A = Σ i ∣ ∣ ( 1 + α ⋅ ( M o a ( x i ) ) β ) ⋅ r ( x i ) ∣ ∣ 1 L_OA = Σ_i || (1 + α·(M_oa(x_i))^β) · r(x_i) ||_1 LOA=Σi∣∣(1+α(Moa(xi))β)r(xi)1

两者分别调整低置信度和低一致性区域的梯度权重。

2. 组合策略设计

本文比较了四种组合方式:sum、mul、mask、mask-sum,并通过实验确定乘法组合在光流任务中表现最佳,而Mask-Sum组合在立体深度任务中效果更优。

实验与结果分析

实验设置

光流模型在FlyingChairs、FlyingThings3D上训练,并在Sintel(train/test)与KITTI(train/test)上评估;立体深度模型在SceneFlow上训练,并在ETH3D、Middlebury、KITTI上测试。超参数(α,β)通过消融实验确定为(2.0,0.5)或(2.0,1.0)。

光流估计结果

在Sintel(clean)上,乘法组合将Clean-EPE从1.43降低至1.35;在KITTI(train)上,Fl-all从17.4%降低至15.45%,与FlowFormer基线相比也有稳定提升。

 (a) Most existing methods (e.g., [19, 28]) predominately
treat training loss on each pixel equally for optical flow and Stereo
depth. (b) SCIFlow [18] utilizes a Regression Focal Loss, which
focuses more on low-confident samples, for training optical flow
models. (c) Our proposed approach more comprehensively considers two sources of learning difficulties in training, i.e., model
confidence and occlusion.

立体深度估计结果

在ETH3D的bad1.0指标上,从2.44%降至1.67%;在KITTI(train)的Dl-all指标上,从5.74%降至4.42%。Mask-Sum组合进一步优化了前景和背景区域的估计精度。

Overview of our method. Optical Flows (f1→2 and f2→1) or Disparity (dL→R and dR→L) are computed by the same model for
the consecutive or stereo image pair. Error map based Confidence map is obtained using prediction and ground truth (Eq. 3). Forward
backward consistency based Confidence map is computed by Eq. 6. These confidence maps are used in the training loss. ∗ represents
the combination of two losses.

总结与展望

总结

本文提出基于不确定性学习难度的两类自适应损失策略(DB、OA),并在光流与立体深度任务上进行系统评估。实验证明,单独使用或组合均能有效提升模型精度,尤其是乘法与Mask-Sum组合策略。

展望

未来可从以下方向拓展:

  1. 探索更细粒度的像素或区域注意力机制;
  2. 将不确定性权重引入其他密集预测任务,如场景流或语义分割;
  3. 结合多模态信息进一步提升模型对复杂动态场景的鲁棒性。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐