RSDet：学习用于旋转目标检测损失

Change_ZH

7117人浏览 · 2020-07-29 18:01:08

Change_ZH · 2020-07-29 18:01:08 发布

📝论文下载地址

[论文地址]

👨‍🎓论文作者

Youtian Lin，Pengming Feng，Jian Guan

📦模型讲解

[背景介绍]

根据目标框的方向，目标检测通常可以分为水平检测和旋转检测。具体来说，水平边界框检测通常更适合于一般自然场景图像，例如COCO和Pascal VOC。在场景文本，遥感图像，面部检测和车牌检测中，通常需要更精确的定位，并且需要有效的旋转目标检测模型。现有的基于区域的旋转目标检测通常会回归五个参数（中心点的坐标，宽度，高度，旋转角度）描述旋转边界框，并使用L1作为损失函数。但是，这种方法在实践中存在两个基本问题：

角度参数引起损失不连续性
举个例子，某次运行的情况如下表。预选框是一步网络中预先生成的anchors，或者是二步网络生成的proposal。网络预测的偏移量为 $[0, 0, 0, 0, 1 °]$ ，将预选框转为预测框。网络训练的目标是 $[0, 0, 50, - 50, 89 °]$ ，目标与网络预测的偏移量很多，所以损失会很大，但是网络输出的结果与真实结果是差不多的（只差2°）。这就是角度的周期性导致的损失不连续。

框	w	h	$\theta$
预选框/蓝色	50	100	-90°
真实框/红色	100	50	-1°
预测框/绿色	50	100	-89°

参数单位不同影响网络性能 在五参数系统中，角度，宽度，高度和中心点坐标具有不同的测量单位，并且它们与IoU显示出相当不同的关系，如下图所示。简单地将它们加起来会导致不一致的回归性能。八参数可以使用相同单位的角点坐标来缓解此问题。

回归模型	损失不连续问题	回归不一致问题
五参数回归	✅	✅
八参数回归	❌	✅

✅表示存在❌表示不存在。

[模型解读]

[旋转框参数化]

作者的五参数定义与OpenCV中的定义一致，如下图所示：
①沿水平方向定义参考线，该垂直线位于具有最小垂直坐标的顶点处。
②旋转参考线逆时针方向，与参考线接触的第一个矩形边的宽度被定义为宽 $w$ ，而与另一边为高 $h$ 。
③中心点坐标为 $(x, y)$ ，旋转角度为 $\theta$ 。

八个参数的定义更为简单：旋转边界框的四个顺时针顶点 $(a, b, c, d)$ 用于描述其位置。八参数回归方法具有参数一致性，这种方法可以描述任意四边形，可以在更复杂的应用场景中使用。

[旋转灵敏度误差]

如前所述，旋转灵敏度误差主要是由两个原因引起的：
①角度参数的采用以及由此引起的高度-宽度交换（在OpenCV中流行的五参数描述中）导致突然的损耗变化（增加）在边界情况下。
②五参数模型中存在度量单位的回归不一致。

[损失不连续性]

如上图所示，在五参数回归方法中，假设真实框为绿色信息为 $[0, 0, 25, 100, - 10 °]$ ，预选框为蓝色信息为 $[0, 0, 100, 25, - 90 °]$ ，经过网络的回归后对预选框进行逆时针旋转生成的预测框为红色 $[0, 0, 100, 25, - 100 °]$ ，但是这个角度并不在范围之内，虽然这个过程在物理上是连续的，但是对于损失计算将会很大。对于网络来说，网络会学习讲将预选框进行顺时针旋转，也就是灰色的过程，这是一个相对于逆时针变化更复杂的回归，增加了训练难度。

[回归不一致]

五参数的不同测量单位会使回归不一致。下图中研究了所有参数与IoU之间的关系。IoU和宽度（高度）之间的关系是线性函数和反比例函数的组合。中心点与IoU之间的关系是对称的线性函数，如b所示。角度参数和IoU之间的关系是一个多项式函数。这种回归不一致很可能使训练收敛性和检测性能恶化。

[五参数旋转损失]

损耗不连续仅在边界情况下发生，如下图a所示。

在本文中，作者设计了以下边界约束损失，以旋转损失 $l_{mr}$ 表示：
$l_{cp}=|x_1-x_2|+|y_1-y_2|\\l_{mr}^{5p}=\min \{l_{cp}+|w_1-w_2|+|h_1-h_2|+|\theta_1-\theta_2|,\\l_{cp}+|w_1-h_2|+|h_1-w_2|+|90-|\theta_1-\theta_2||\}$

$l_{cp}$ 是中心点损失。 $l_{mr}$ 的第一项是L1损失。第二项是通过消除角度周期性以及高度和宽度的交换性校正损失使其连续。当其未达到角度参数的范围边界时，该校正项大于L1损失。当L1损失突然发生不连续时，这种校正变得正常。换句话说，这种校正可以看作是对突变位置的L1-损失进行对称。最后，损失为最小的L1-损失和校正损失。 $l_{mr}$ 曲线是连续的，如上图b所示。

实际上，通常使用预测框回归的相对值来避免由不同比例尺上的对象引起的误差。
$\nabla l_{cp}=|t_{x1}-t_{x2}|+|t_{y1}-t_{y2}|\\l_{mr}^{5p}=\min\{|t_{w_1}-t_{w_2}|+|t_{h_1}-t_{h_2}|+|t_{\theta1}-t_{\theta2}|+\nabla l_{cp}\\|t_{w_1}-t_{h_2}-\log(r)|+|t_{h_1}-t_{w_2}+log(r)|+||t_{\theta1}-t_{\theta2}|-\frac{\pi}{2}|+\nabla l_{cp}\}$ 其中， $t_x=(x-x_a)/w_a\\t_y=(y-y_a)/h_a\\t_w=\log(w/w_a)\\t_h=\log(h/h_a)\\r=\frac{w}{h}\\t_\theta=\frac{\theta\pi}{180}$ 其中角度参数的度量单位为弧度， $r$ 表示宽高比。 $x$ 和 $x_a$ 分别是预测框和预选框。
但是这里可能存在问题，通过未归一化的公式可以看出。第一种情况下 $w_1=w_2$ 与 $h_1=h_2$ 是最好的。第二种情况下 $w_1=h_2$ 与 $h_1=w_2$ 是最好的。在作者的公式中推导可以得出第一种情况： $t_{w_1}-t_{w_2}|+|t_{h_1}-t_{h_2}|=|\log w_1-\log w_2|+|\log h_1-\log h_2|$ 也就是 $w_1=h_2$ 与 $h_1=w_2$ 是没问题的，与未归一化公式的目的相同。但是第二种情况应该修改为以下：
$r=\frac{w_a}{h_a}\\l_{mr}^{5p}=\min\{|t_{w_1}-t_{w_2}|+|t_{h_1}-t_{h_2}|+|t_{\theta1}-t_{\theta2}|+\nabla l_{cp}\\|t_{w_1}-t_{h_2}+\log(r)|+|t_{h_1}-t_{w_2}-log(r)|+||t_{\theta1}-t_{\theta2}|-\frac{\pi}{2}|+\nabla l_{cp}\}$
$t_{w_1}-t_{h_2}+\log(r)|+|t_{h_1}-t_{w_2}-\log(r)|=|\log w_1-\log h_2|+|\log h_1-\log w_2|$ 也就是在 $w_1=h_2$ 与 $h_1=w_2$ 最好。

[八参数旋转损失]

为了避免固有的回归不一致，最近八参数表示法比较流行。基于八参数回归的检测直接使对象的四个点回归，因此预测是四边形的。四边形回归的关键步骤是预先对四个角点进行排序。对于顶点顺序，作者采用基于叉积的算法来获得四个顶点的序列，算法如下所示。该算法仅适用于凸四边形，此处使用顺时针顺序进行输出。
向量叉积的特点就是： $AB\times AC>0$ 时，AC在AB的逆时针方向上； $AB\times AC=0$ 时，AC在AB同线； $AB\times AC<0$ 时，AC在AB的顺时针方向上。当找到最左边的点时，只有相对的点才满足 $CrossProduct(s_1−p_1^\prime,s_2−p_1^\prime)×CrossProduct(s_1−p_1^\prime,s_3−p_1^\prime)<0$ ，四边形的对角线两边的边一定与对角线是一个顺时针一个逆时针。

但是，损失不连续性在八参数回归模型中仍然存在。例如，假设用四个点顺序 $a\rightarrow b\rightarrow c\rightarrow d$ （参见下图中的红色框）来描述一个真实框。当真实框稍微顺时针旋转一个小角度时，四点顺序变为 $d\rightarrow a\rightarrow b\rightarrow c$ （请参见下图中的绿色框）。

如下图所示，从蓝色预选框到实际位置的回归过程。绿色真实框为 $\{(a\rightarrow a),(b\rightarrow b),(c\rightarrow c),(d\rightarrow d)\}$ ，但显然理想的回归过程应为 $\{(a\rightarrow b),(b\rightarrow c),(c\rightarrow d),(d\rightarrow a)\}$ 。这种情况也导致模型训练困难和回归不平滑。

作者设计了旋转损失的八参数版本，由三个部分组成：
①将预选框的四个顶点顺时针移动一个位置；
②保持预选框顶点的顺序不变；
③将预选框的四个顶点逆时针移动一个位置；
④在上述三种情况下取最小值。因此， $l_{mr}^{8p}$ 表示为： $\begin{array}{l} \qquad \ell_{m r}^{8 p}=\min \left\{\begin{array}{l}\sum_{i=0}^{3}\left(\left|x_{(i+3) \% 4}-x_{i}^{*}\right|+\left|y_{(i+3) \% 4}-y_{i}^{*}\right|\right) \\\sum_{i=0}^{3}\left(\left|x_{i}-x_{i}^{*}\right|+\left|y_{i}-y_{i}^{*}\right|\right) \\ \sum_{i=0}^{3}\left(\left|x_{(i+1) \%}-x_{i}^{*}\right|+\left|y_{(i+1) \% 4}-y_{i}^{*}\right|\right)\end{array}\right.\end{array}$
其中 $x_i$ 和 $y_i$ 分别表示预选框的第 $i$ 个顶点和参考框的第 $i$ 个顶点之间的坐标偏移。

[结果分析]

[数据集]

作者使用DOTA、ICDAR2015、HRSC2016、UCAS-AOD数据集进行有关实验。

[训练细节]

[损失消融研究]

作者使用RetinaNet进行有关实验。另外，作者得出八参数比五参数更容易回归。

[不同损失对比]

[DOTA数据集上不同方法对比]

作者使用数据增强操作包括随机水平翻转，随机垂直翻转，随机图像变灰和随机旋转。数据平衡是样本数少于10000的类别将其扩充至10000。

[ICDAR2015与HRSC2016数据集上性能对比]

[UCAS-AOD数据集上性能对比]

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

2025-12-28：位计数深度为 K 的整数数目Ⅰ。用go语言，给定两个正整数 n 和 k。对任意正整数 x，构造数列 a0 = x，ai+1 = f(ai)，其中 f(y) 表示 y 的二进制表示

2025-12-28：位计数深度为 K 的整数数目Ⅰ。用go语言，给定两个正整数 n 和 k。对任意正整数 x，构造数列 a0 = x，ai+1 = f(ai)，其中 f(y) 表示 y 的二进制表示中 1 的个数（例如 f(7)=3，因为 7 的二进制是 111）。反复应用 f 后，序列必然会落到 1。定义 x 的“二进制1的迭代次数”为使得 ad = 1 的最小非负整数 d（例如 x=7 的序

2048 AI社区

Java Web 社区待就业人员信息管理系统系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

2048 AI社区

AI重构与程序员新生：从“码农”到“智匠”的转型路线图

**摘要：生成式AI正引发软件工程行业的范式革命，将程序员角色从"编码执行者"重塑为"系统智匠"。本文提出四维转型路径：思维上从技术实现转向业务定义；技能上构建系统架构与AI协同的T型矩阵；工作流中深度融合AI智能体；组织层面推动敏捷进化。通过具体场景分析，展示如何通过人机协同提升高阶设计能力，将AI转化为效率杠杆，实现从被动编码到战略创新的职业跃迁。关键