[CVPR 2017]Improving Pairwise Ranking for Multi-label Image Classification

计算机-人工智能-神经网络预测多标签图像分类决策阈值和决策个数

夏莉莉iy

771人浏览 · 2025-12-21 18:31:07

夏莉莉iy · 2025-12-21 18:31:07 发布

论文网址：Improving Pairwise Ranking for Multi-label Image Classification | IEEE Conference Publication | IEEE Xplore

2.4.1. Label Prediction

2.4.2. Comparison to Related Loss Functions

2.4.3. Label Decision

2.4.4. Implementation Details

2.5. Theoretical Analysis

2.6. Experiments

2.6.1. Methodology

2.6.2. Baselines

2.6.3. Results and Discussion

2.7. Conclusion

1. 心得

（1）啊...很硬货...虽然方法很简单但是一堆证明

2. 论文逐段精读

2.1. Abstract

①以前多标签的损失都是不平滑的也很难优化

②作者设计了成对损失，很平滑

2.2. Introduction

①现有的方法可能把多标签转化为多个二标签分类

②多标签精准匹配：

$\min \sum_{i} \mathbb{I}[\hat{Y}_i == Y_i]$

其中 $\hat{Y}_i$ 是第 $i$ 个样本的预测标签， $Y_i$ 是第 $i$ 个样本的真实标签， $\mathbb{I}[\cdot ]$ 是indicator function（正确返回1不正确返回0），但这个指标太硬了，多标签错一个都0分

③稍微软一点的汉明距离：

$\min \sum_{i} |\hat{Y}_i \cup Y_i - \hat{Y}_i \cap Y_i|$

用真实和预测算并集得到合集减去正确预测的真实和预测的交集得到哪些错了（这句话我一口气写了好长），最小化预测错误的个数

④排序指标：

$\min \sum_{i} \sum_{y} \mathbb{I}\left[\operatorname{rank}(y_{\text{pos}}) < \operatorname{rank}(y_{\text{neg}})\right]$

对于一个样本，正类置信度应该高于负类

⑤排序分类示意：

这样分类忽视了图片内容

⑥作者设计了一个平滑近似的log-sum-up的损失

2.3. Related Work

①介绍了一些方法

2.4. Approach

①设数据集为 $\mathcal{D} = \left\{ (x_i, Y_i) \right\}_{i=1}^N$ ，其中 $x_i \in \mathbb{R}^d$ 是第 $i$ 个图像， $Y_i \subseteq \mathcal{Y}$ 是其对应的标签

②标签集： $\mathcal{Y} \triangleq \{1, 2, \cdots, K\}$ ，每个图片有不一样的标签个数 $k_i = |Y_i|$

③作者将求解流程分为两步 $F(x) = g(f(x))$ ，第一步是将样本特征维度映射到标签维度得到logits $f(x): \mathbb{R}^d \to \mathbb{R}^K$ ，第二步是决策 $g(f(x)): \mathbb{R}^K \to \mathbb{R}^K$

2.4.1. Label Prediction

①含有参数 $\theta$ 的标签预测模型 $f(x; \theta) \in \mathbb{R}^K$ 需要优化：

$\min_{\theta} \frac{1}{N} \sum_{i=1}^N l(f(x_i;\theta), Y_i) + \mathcal{R}(\theta)$

其中 $l\left ( \cdot \right )$ 是损失， $\mathcal{R}(\theta)$ 是正则化项

②对于样本的logits，正例的元素的值理应比负例元素的值大：

$f_u(x) > f_v(x),\ \forall u \in Y, v \notin Y$

其中下标代表第那么多个元素

③设计排名hinge损失函数：

$l_{\text{rank}} = \sum_{v \notin Y_i} \sum_{u \in Y_i} \max\left(0, \alpha + f_v(x_i) - f_u(x_i)\right)$

其中 $\alpha$ 是控制边缘的超参数，一般设置为1

④log-sum-exp pairwise (LSEP)平滑近似损失：

$l_{\text{sep}} = \log\left(1 + \sum_{v \notin Y_i} \sum_{u \in Y_i} \exp\left(f_v(x_i) - f_u(x_i)\right)\right)$

这个公式会渐进地逼近上一个hinge损失函数，且作者觉得这个函数不是线性突变的，是平滑的容易优化

⑤两两配对需要 $O\left ( K^2 \right )$ 的时间复杂度，对于过多标签来说计算量很大。作者想把自己的损失变成线性的，使用word2vec的负采样技术（负例太多了所以只采样部分来算损失），采样 $t$ 个记作 $\phi(Y_i; t) \subseteq Y_i \otimes (\mathcal{Y} - Y_i)$ 。新损失为：

$l_{\text{sep}} = \log\left(1 + \sum_{\phi(Y_i,t)} \exp\left(f_v(x_i) - f_u(x_i)\right)\right)$

⑥新损失的梯度：

$\frac{\partial l_{\text{sep}}}{\partial f(x_i)} = -\frac{1}{l_{\text{sep}}} \sum_{\phi(Y_i;t)} \Delta_{Y_i,u,v} e^{(-f(x_i) \Delta_{Y_i,u,v})}$

其中 $\Delta_{Y_i,u,v} = Y_{i,u} - Y_{i,v}$

asymptotically adv.渐近地

2.4.2. Comparison to Related Loss Functions

①WARP损失：

$l_{\text{warp}} = \sum_{v \notin Y_i} \sum_{u \in Y_i} w(r_i^u) \max\left(0, \alpha + f_v(x_i) - f_u(x_i)\right)$

其中 $r^u_i$ 是正类标签 $u$ 的预测排名， $w\left ( \cdot \right )$ 是单调函数。虽然这个有权重系数，但整体来说还是不平滑的

②Back-propagation for multi-label learning（BP-MLL）

$l_{\text{BP-MLL}} = \sum_{v \notin Y_i} \sum_{u \in Y_i} \exp\left(f_v(x_i) - f_u(x_i)\right)$

它可以渐进等于去掉e低的损失：

$l_{\text{BP-MLL}}^{\text{asym}} = \sum_{v \notin Y_i} \sum_{u \in Y_i} \left(f_v(x_i) - f_u(x_i)\right)$

monotonically adv.单调地；单调地，无变化地

2.4.3. Label Decision

①作者设计一个MLP $g\left ( \cdot \right )$ 去预测标签数和最佳阈值

②使用Softmax损失（还有这种玩意儿？？）：

$l_{\text{count}} = -\log\left( \frac{\exp\left(g_{k_i}\left(f'(x_i)\right)\right)}{\sum_{j=1}^n \exp\left(g_j\left(f'(x_i)\right)\right)} \right)$

其中 $g_j\left ( \cdot \right )$ 代表向量 $g\left ( \cdot \right )$ 的第 $j$ 个元素

③把阈值预测假设为一个 $K$ 维回归，去预测 $K$ 个类别每个的阈值：

$\hat{Y} = \left\{ l \mid f_k(x) > \theta_k,\ \forall k \in [1,K] \right\}$

其中 $\boldsymbol{\theta} \in \mathbb{R}^K$ 是MLP得到的决策向量

④缓解一下排序损失的交叉熵损失：

$l_{\text{thresh}} = -\sum_{k=1}^K Y_{i,k}\log\left(\delta_\theta^k\right) + (1-Y_{i,k})\log\left(1-\delta_\theta^k\right)$

其中 $\delta _\theta$ 是 $\text{sigmoid}\left(f_l(x_i) - \theta_l\right)$

2.4.4. Implementation Details

①主干：VGG 16

②数据集：ImageNet ILSVRC

③最大标签预测数量被设置为4因为NUS-WIDE和MS-COCO中88.6%和83.7%的标签数量小于或等于4

④Epoch：50

⑤参数优化：动量为0.9，学习率为0.001的SGD

2.5. Theoretical Analysis

①贝叶斯预测规则，表示对于任意图像 $x$ ，预测它的标签应该也遵从 $u$ 在标签集 $Y$ 中的分布：

$f_k(x) = P(u \in Y \mid x)$

$P(u \in Y \mid x) = \sum_{\substack{Y \subseteq \mathcal{Y}: u \in Y}} P(Y \mid x)$

其中 $u$ 表示标签集中第 $u$ 个标签

②对于最优解 $f_u^*(x)$ ，加上一个常数不会改变排序和概率比：

$f_u^*(x) = \log P(u \in Y \mid x) + c,\ \forall u \in \mathcal{Y}$

③最小化期望风险：

$R(f) = \mathbb{E}\left[l_{\text{sep}}\left(f(x), Y\right)\right] = \int l_{\text{sep}}\left(f(x), Y\right)$

④LSEP损失等价于：

$l_{\text{exp}} = \sum_{u \in Y} \sum_{v \notin Y} \exp\left(-\frac{1}{2} f(x)^T \Delta Y_{u,v}\right)$

定义 $\gamma_{u,v} = \exp\left(-\frac{1}{2} f(x)^T \Delta Y_{u,v}\right)$ 的话，可以改写期望风险：

$\begin{aligned} R(f|x) &= \mathbb{E}\left[l_{\text{exp}}(f(x),Y) \mid x\right] \\ &= \sum_{Y \subseteq \mathcal{Y}} P(Y|x) l_{\text{exp}}(f(x),Y) \\ &= \sum_{Y \subseteq \mathcal{Y}} P(Y|x) \sum_{\substack{u \in Y, v \notin Y}} \gamma_{u,v} \\ &= \sum_{u,v} \sum_{\substack{Y \subseteq \mathcal{Y}: u \in Y, v \notin Y}} P(Y|x) \gamma_{u,v} \\ &= \sum_{u,v} P(u \in Y, v \notin Y) \gamma_{u,v} \end{aligned}$

⑤改写后期望风险的导数：

$\begin{aligned} \frac{\partial R(f|x)}{\partial f(x)} &= -\frac{1}{2} \sum_{u,v} \beta_{u,v} \Delta Y_{u,v}^T \gamma_{u,v} \\ \frac{\partial^2 R(f|x)}{\partial f(x)^2} &= \frac{1}{4} \sum_{u,v} \beta_{u,v} \Delta Y_{u,v} \Delta Y_{u,v}^T \gamma_{u,v} \end{aligned}$

其中 $\beta_{u,v} = P(u \in Y, v \notin Y)$

⑥将导数置为0（最优解），全局最小值为：

$f^*(x)^T \Delta Y_{u,v} = \log \frac{P(u \in Y, v \notin Y|x)}{P(u \notin Y, v \in Y|x)},\ \forall u, v \in \mathcal{Y}$

logarithmic adj.对数（性，式）的

2.6. Experiments

①数据集：VOC2007，NUS-WIDE，MS-COCO

2.6.1. Methodology

①图片数量：VOC2007，NUS-WIDE，MS-COCO分别有10K图片（20个物体），260K图片（81个物体），120K图片（80个物体）

2.6.2. Baselines

①在标签预测方面，把LSEP和softmax, the standard pairwise ranking, WARP, 和BP-MLL对比

②在标签决策方面，与top k作对比

2.6.3. Results and Discussion

①对比实验：

②每个类在不同标签预测下的F1分数：

③

④和不同标签决策方法的对比：

⑤对于不同图片的预测阈值：

⑥不同方法下的预测情况，蓝色为TP，红色为FP，灰色是FN

2.7. Conclusion

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

免费薅国产旗舰 LLM！GLM-4.7+MiniMax-M2.1

2048 AI社区

Linux `epoll` 学习笔记：从原理到正确写法（含 ET 经典坑总结）

本文总结了Linux epoll的核心知识点与常见误区。首先对比了epoll与select/poll的性能差异，指出epoll通过内核维护就绪队列实现高效事件通知。接着详细解析epoll三大API的正确用法，包括epoll_create1参数设置、epoll_ctl操作和epoll_wait使用。重点分析了LT与ET模式的区别，强调ET模式必须配合非阻塞IO，必须循环读取直到EAGAIN。文章还提