论文网址:Improving Pairwise Ranking for Multi-label Image Classification | IEEE Conference Publication | IEEE Xplore

目录

1. 心得

2. 论文逐段精读

2.1. Abstract

2.2. Introduction

2.3. Related Work

2.4. Approach

2.4.1. Label Prediction

2.4.2. Comparison to Related Loss Functions

2.4.3. Label Decision

2.4.4. Implementation Details

2.5. Theoretical Analysis

2.6. Experiments

2.6.1. Methodology

2.6.2. Baselines

2.6.3. Results and Discussion

2.7. Conclusion

1. 心得

(1)啊...很硬货...虽然方法很简单但是一堆证明

2. 论文逐段精读

2.1. Abstract

        ①以前多标签的损失都是不平滑的也很难优化

        ②作者设计了成对损失,很平滑

2.2. Introduction

        ①现有的方法可能把多标签转化为多个二标签分类

        ②多标签精准匹配:

\min \sum_{i} \mathbb{I}[\hat{Y}_i == Y_i]

其中\hat{Y}_i是第i个样本的预测标签,Y_i是第i个样本的真实标签,\mathbb{I}[\cdot ]是indicator function(正确返回1不正确返回0),但这个指标太硬了,多标签错一个都0分

        ③稍微软一点的汉明距离:

\min \sum_{i} |\hat{Y}_i \cup Y_i - \hat{Y}_i \cap Y_i|

用真实和预测算并集得到合集减去正确预测的真实和预测的交集得到哪些错了(这句话我一口气写了好长),最小化预测错误的个数

        ④排序指标:

\min \sum_{i} \sum_{y} \mathbb{I}\left[\operatorname{rank}(y_{\text{pos}}) < \operatorname{rank}(y_{\text{neg}})\right]

对于一个样本,正类置信度应该高于负类

         ⑤排序分类示意:

这样分类忽视了图片内容

        ⑥作者设计了一个平滑近似的log-sum-up的损失

2.3. Related Work

        ①介绍了一些方法

2.4. Approach

        ①设数据集为\mathcal{D} = \left\{ (x_i, Y_i) \right\}_{i=1}^N,其中x_i \in \mathbb{R}^d是第i个图像,Y_i \subseteq \mathcal{Y}是其对应的标签

        ②标签集:\mathcal{Y} \triangleq \{1, 2, \cdots, K\},每个图片有不一样的标签个数k_i = |Y_i|

        ③作者将求解流程分为两步F(x) = g(f(x)),第一步是将样本特征维度映射到标签维度得到logitsf(x): \mathbb{R}^d \to \mathbb{R}^K,第二步是决策g(f(x)): \mathbb{R}^K \to \mathbb{R}^K

2.4.1. Label Prediction

        ①含有参数\theta的标签预测模型f(x; \theta) \in \mathbb{R}^K需要优化:

\min_{\theta} \frac{1}{N} \sum_{i=1}^N l(f(x_i;\theta), Y_i) + \mathcal{R}(\theta)

其中l\left ( \cdot \right )是损失,\mathcal{R}(\theta)是正则化项

        ②对于样本的logits,正例的元素的值理应比负例元素的值大:

f_u(x) > f_v(x),\ \forall u \in Y, v \notin Y

其中下标代表第那么多个元素

        ③设计排名hinge损失函数:

l_{\text{rank}} = \sum_{v \notin Y_i} \sum_{u \in Y_i} \max\left(0, \alpha + f_v(x_i) - f_u(x_i)\right)

其中\alpha是控制边缘的超参数,一般设置为1

        ④log-sum-exp pairwise (LSEP)平滑近似损失:

l_{\text{sep}} = \log\left(1 + \sum_{v \notin Y_i} \sum_{u \in Y_i} \exp\left(f_v(x_i) - f_u(x_i)\right)\right)

这个公式会渐进地逼近上一个hinge损失函数,且作者觉得这个函数不是线性突变的,是平滑的容易优化

        ⑤两两配对需要O\left ( K^2 \right )的时间复杂度,对于过多标签来说计算量很大。作者想把自己的损失变成线性的,使用word2vec的负采样技术(负例太多了所以只采样部分来算损失),采样t个记作\phi(Y_i; t) \subseteq Y_i \otimes (\mathcal{Y} - Y_i)。新损失为:

l_{\text{sep}} = \log\left(1 + \sum_{\phi(Y_i,t)} \exp\left(f_v(x_i) - f_u(x_i)\right)\right)

        ⑥新损失的梯度:

\frac{\partial l_{\text{sep}}}{\partial f(x_i)} = -\frac{1}{l_{\text{sep}}} \sum_{\phi(Y_i;t)} \Delta_{Y_i,u,v} e^{(-f(x_i) \Delta_{Y_i,u,v})}

其中\Delta_{Y_i,u,v} = Y_{i,u} - Y_{i,v}

asymptotically  adv.渐近地

2.4.2. Comparison to Related Loss Functions

        ①WARP损失:

l_{\text{warp}} = \sum_{v \notin Y_i} \sum_{u \in Y_i} w(r_i^u) \max\left(0, \alpha + f_v(x_i) - f_u(x_i)\right)

其中r^u_i是正类标签u的预测排名,w\left ( \cdot \right )是单调函数。虽然这个有权重系数,但整体来说还是不平滑的

        ②Back-propagation for multi-label learning(BP-MLL)

l_{\text{BP-MLL}} = \sum_{v \notin Y_i} \sum_{u \in Y_i} \exp\left(f_v(x_i) - f_u(x_i)\right)

它可以渐进等于去掉e低的损失:

l_{\text{BP-MLL}}^{\text{asym}} = \sum_{v \notin Y_i} \sum_{u \in Y_i} \left(f_v(x_i) - f_u(x_i)\right)

monotonically  adv.单调地;单调地,无变化地

2.4.3. Label Decision

        ①作者设计一个MLPg\left ( \cdot \right )去预测标签数和最佳阈值

        ②使用Softmax损失(还有这种玩意儿??):

l_{\text{count}} = -\log\left( \frac{\exp\left(g_{k_i}\left(f'(x_i)\right)\right)}{\sum_{j=1}^n \exp\left(g_j\left(f'(x_i)\right)\right)} \right)

其中g_j\left ( \cdot \right )代表向量g\left ( \cdot \right )的第j个元素

        ③把阈值预测假设为一个K维回归,去预测K个类别每个的阈值:

\hat{Y} = \left\{ l \mid f_k(x) > \theta_k,\ \forall k \in [1,K] \right\}

其中\boldsymbol{\theta} \in \mathbb{R}^K是MLP得到的决策向量

        ④缓解一下排序损失的交叉熵损失:

l_{\text{thresh}} = -\sum_{k=1}^K Y_{i,k}\log\left(\delta_\theta^k\right) + (1-Y_{i,k})\log\left(1-\delta_\theta^k\right)

其中\delta _\theta\text{sigmoid}\left(f_l(x_i) - \theta_l\right)

2.4.4. Implementation Details

        ①主干:VGG 16

        ②数据集:ImageNet ILSVRC

        ③最大标签预测数量被设置为4因为NUS-WIDE和MS-COCO中88.6%和83.7%的标签数量小于或等于4

        ④Epoch:50

        ⑤参数优化:动量为0.9,学习率为0.001的SGD

2.5. Theoretical Analysis

        ①贝叶斯预测规则,表示对于任意图像x,预测它的标签应该也遵从u在标签集Y中的分布:

f_k(x) = P(u \in Y \mid x)

P(u \in Y \mid x) = \sum_{\substack{Y \subseteq \mathcal{Y}: u \in Y}} P(Y \mid x)

其中u表示标签集中第u个标签

        ②对于最优解f_u^*(x),加上一个常数不会改变排序和概率比:

f_u^*(x) = \log P(u \in Y \mid x) + c,\ \forall u \in \mathcal{Y}

        ③最小化期望风险:

R(f) = \mathbb{E}\left[l_{\text{sep}}\left(f(x), Y\right)\right] = \int l_{\text{sep}}\left(f(x), Y\right)

        ④LSEP损失等价于:

l_{\text{exp}} = \sum_{u \in Y} \sum_{v \notin Y} \exp\left(-\frac{1}{2} f(x)^T \Delta Y_{u,v}\right)

定义\gamma_{u,v} = \exp\left(-\frac{1}{2} f(x)^T \Delta Y_{u,v}\right)的话,可以改写期望风险:

\begin{aligned} R(f|x) &= \mathbb{E}\left[l_{\text{exp}}(f(x),Y) \mid x\right] \\ &= \sum_{Y \subseteq \mathcal{Y}} P(Y|x) l_{\text{exp}}(f(x),Y) \\ &= \sum_{Y \subseteq \mathcal{Y}} P(Y|x) \sum_{\substack{u \in Y, v \notin Y}} \gamma_{u,v} \\ &= \sum_{u,v} \sum_{\substack{Y \subseteq \mathcal{Y}: u \in Y, v \notin Y}} P(Y|x) \gamma_{u,v} \\ &= \sum_{u,v} P(u \in Y, v \notin Y) \gamma_{u,v} \end{aligned}

        ⑤改写后期望风险的导数:

\begin{aligned} \frac{\partial R(f|x)}{\partial f(x)} &= -\frac{1}{2} \sum_{u,v} \beta_{u,v} \Delta Y_{u,v}^T \gamma_{u,v} \\ \frac{\partial^2 R(f|x)}{\partial f(x)^2} &= \frac{1}{4} \sum_{u,v} \beta_{u,v} \Delta Y_{u,v} \Delta Y_{u,v}^T \gamma_{u,v} \end{aligned}

其中\beta_{u,v} = P(u \in Y, v \notin Y)

        ⑥将导数置为0(最优解),全局最小值为:

f^*(x)^T \Delta Y_{u,v} = \log \frac{P(u \in Y, v \notin Y|x)}{P(u \notin Y, v \in Y|x)},\ \forall u, v \in \mathcal{Y}

logarithmic  adj.对数(性,式)的
 

2.6. Experiments

        ①数据集:VOC2007,NUS-WIDE,MS-COCO

2.6.1. Methodology

        ①图片数量:VOC2007,NUS-WIDE,MS-COCO分别有10K图片(20个物体),260K图片(81个物体),120K图片(80个物体)

2.6.2. Baselines

        ①在标签预测方面,把LSEP和softmax, the standard pairwise ranking, WARP, 和BP-MLL对比

        ②在标签决策方面,与top k作对比

2.6.3. Results and Discussion

        ①对比实验:

        ②每个类在不同标签预测下的F1分数:

        ③

        ④和不同标签决策方法的对比:

        ⑤对于不同图片的预测阈值:

        ⑥不同方法下的预测情况,蓝色为TP,红色为FP,灰色是FN

2.7. Conclusion

          ~

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐