论文网址:NeurIPS Poster Deciphering the Extremes: A Novel Approach for Pathological Long-tailed Recognition in Scientific Discovery

目录

1. 心得

2. 论文逐段精读

2.1. Abstract

2.2. Introduction

2.3. Related Work

2.3.1. Long-Tailed Phenomena in Scientific Tasks

2.3.2. Long-Tailed Learning (LTR)

2.4. Methodology: Balanced Contrastive Representation Learning under Dynamic Multi-Objective Constraints for Pathological Long-Tails

2.4.1. Formalizing Pathological Long-Tailed Recognition as a Multi-Objective Optimization Problem 

2.4.2. Derivation of the Training Objective from Multi-Objective Constraints

2.5. Experiments

2.5.1. Datasets, Metrics, and Pathological Imbalance

2.5.2. Experimental Setup 

2.5.3. Quantitative Results

2.5.4. Ablation Studies

2.5.5. Qualitative Analysis

2.5.6. Discussion of Experimental Findings

2.6. Conclusion

1. 心得

(1)写得很清楚

(2)创新性还好吧就

2. 论文逐段精读

2.1. Abstract

        ①作者想动态地重新加权尾类贡献(感觉也很常见?

2.2. Introduction

        ①科学类的数据集往往表现出极端的不平衡

        ②当前的长尾识别(Long-Tailed Recognition, LTR)方法有:重新采样,重新加权,解耦(就是两阶段)训练,损失设计

        ③当前方法的局限:在极端稀缺的情况下,重新加权可能过拟合噪声,重新采样可能丢失或冗余地添加信息,并且如果尾类的初始特征学习得不好,则解耦训练会很困难

        ④长尾分布示意图:

        ⑤作者提出的框架:

2.3. Related Work

2.3.1. Long-Tailed Phenomena in Scientific Tasks

        ①就说自然科学天体科学有很多长尾现象并且总样本量有限

2.3.2. Long-Tailed Learning (LTR)

        ①重采样策略:可能导致过拟合或信息丢失

        ②重加权策略:额

        ③解耦学习:性能更取决于初始表示

        ④迁移学习或知识蒸馏也行

        ⑤对比学习

2.4. Methodology: Balanced Contrastive Representation Learning under Dynamic Multi-Objective Constraints for Pathological Long-Tails

2.4.1. Formalizing Pathological Long-Tailed Recognition as a Multi-Objective Optimization Problem 

        ①数据集定义为\mathcal{D}=\{(x_i,y_i)\}_{i=1}^Nx_{i}\in\mathcal{X}y_{i}\in\{0,\ldots,C-1\}C为类别数量

        ②N_c代表每个类别的样本数,分布非常不均匀。样本不均匀指数由T=(\operatorname*{max}_{c}N_{c})/((\operatorname*{min}_{c}N_{c})\cdot C)确定,就是其中最大类越大最小类越小加上类别越多可能就越分布不均匀(但感觉不严谨哈比如样本数量为10,10,10,1这种或者10,1,1,1,还有10,7,4,1算出来都一样但实际上可能也有差别)

        ③作者目标:训练出包含\theta参数的特征提取器f_{backbone},投影头\pi_{proj},和分类头g_{cls}

(1)Robust Classification Performance (O1(θ))

        ①分类表现目标(Classification Performance Objective,CPO)损失:

\mathcal{L}_{\mathrm{CPO}}(\theta)=\mathbb{E}_{(x,y)\sim\mathcal{D}}\left[\ell_{\mathrm{CE}}(g_{\mathrm{cls}}(f_{\mathrm{backbone}}(x;\theta)),y)+\ell_{\mathrm{CE}}(g_{\mathrm{cls}}(f_{\mathrm{backbone}}(x^{\prime};\theta)),y)\right]

其中交叉熵损失\ell_{\mathrm{CE}}(\mathbf{o},y)=-\log(\mathrm{softmax}(\mathbf{o})_{u})(不用太在意那个期望\mathbb{E},因为后面那两项是针对单个样本的,期望加在前面只是为了说要求整个数据集样本的平均损失)。作者把上面的CPO损失简化成原始交叉熵损失项和增强交叉熵损失项:

\mathcal{L}_\mathrm{CPO}(\theta)=\mathcal{L}_{\mathrm{CE,orig}}(\theta)+\mathcal{L}_{\mathrm{CE,aug}}(\theta)

其中\mathcal{L}_{\mathrm{CE.orig}}(\theta)=\mathbb{E}\left[\ell_{\mathrm{CE}}(g_{\mathrm{cls}}(f_{\mathrm{backbone}}(x;\theta)),y)\right]\mathcal{L}_{\mathrm{CE,aug}}(\theta)=\mathbb{E}\left[\ell_{\mathrm{CE}}(g_{\mathrm{cls}}(f_{\mathrm{backbone}}(x^{\prime};\theta)),y)\right]

(2)Tail-Centric Discriminative Representation (O2(θ))

        ①平衡监督对比学习(Balanced Supervised Contrastive Learning,B-SCL)损失:

\mathcal{L}_{\mathrm{B-SC}}(\theta)=\lambda_{\mathrm{B-SC}}\cdot\frac{1}{2B}\sum_{\mathbf{z}_{j}\in\mathcal{S}_{\mathrm{batch}}}w_{y_{j}}\ell_{\mathrm{SC}}(\mathbf{z}_{j};\theta)

其中\ell_{\mathrm{SC}}(\mathbf{z}_{j};\theta)是每个锚点的SupCon损失,这个损失懒得单独敲了我截图在下面:

使用这个对比损失之后,作者还在外面加了一层权重,根据不同类别分配不同的权重:

w_{c}=\exp(s_{c}^{\prime})/\sum_{k}\exp(s_{k}^{\prime})

其中s_{k}^{\prime}=(N_{C-1-k})^{\alpha}(这是分布权重翻转,比如为最大样本类分配最少样本类的权重而为最小样本类分配最大样本类权重)

        ②交叉熵是尊重原始分布的而权重重分配会导致冲突,两个损失按理来说不能放在一起(要么就变成两阶段)。作者使用了帕累托最优去优化

(3)Optimization Target 1 (Constrained Multi-Objective Formulation) 

        ①最优化策略:

\begin{aligned} \min_{\theta} \, \, \, \, \, & \mathcal{L}_{CPO}(\theta)+\mathcal{L}_{B-SC}(\theta) \\ \mathrm{subject~to} \, \, \, \, \, & \mathcal{L}_{CE,orig}(\theta)\leq\epsilon_1 \\ & \mathcal{L}_{CE,aug}(\theta)\leq\epsilon_{2} \\ & \mathcal{L}_{B-SC}(\theta)\leq\epsilon_{3} \end{aligned}

其中\epsilon _i是动态调整的上限

2.4.2. Derivation of the Training Objective from Multi-Objective Constraints

        ①使用最大值函数的可微凸近似LogSumExp(LSE):

\mathrm{LSE}(\mathbf{v})=\log\sum_{i}\exp(v_{i})

这会对于有M的成分的向量\mathbf{v}有:

\max_iv_i\leq\mathrm{LSE}(\mathbf{v})\leq\max_{i}v_{i}+\log M

好妙啊这个LSE,得到一个向量里面最大值的近似:

  • 它总是大于或等于最大值。

  • 当最大值远大于其他值时,它无限接近最大值。

  • 当所有值相差不多时,它会比最大值大一个与数值分布有关的量。

        ②使用切比雪夫最大最小方法来实现多目标优化,使得:

\mathcal{L}_{\text{constituent}}(\theta)=[\mathcal{L}_{\mathrm{CE,orig}}(\theta),\mathcal{L}_{\mathrm{CE,aug}}(\theta),\mathcal{L}_{\mathrm{B-SC}}(\theta)]^T

        ③引入平滑目标正则(Smooth Objective Regularization,SOR)项:

\mathcal{L}_{\mathrm{SOR}}(\theta)=\lambda_{\mathrm{SOR}}\cdot\mathrm{LSE}(\mathcal{L}_{\text{constituent}}(\theta)/\tau_{\mathrm{SOR}})

其中\lambda_{\mathrm{SOR}}是正则强度,\tau_{\mathrm{SOR}}是温度系数

        ④作者令\tau_{\mathrm{SOR}}=1有:

\mathcal{L}_{\mathrm{SOR}}(\theta)=\lambda_{\mathrm{SOR}}\cdot\log\left(\exp(\mathcal{L}_{\mathrm{CE,orig}}(\theta))+\exp(\mathcal{L}_{\mathrm{CE,aug}}(\theta))+\exp(\mathcal{L}_{\mathrm{B-SC}}(\theta))\right)

        ⑤最终训练目标:

\mathcal{L}_{\mathrm{total}}(\theta)=\underbrace{\mathcal{L}_{\mathrm{CE,orig}}(\theta)+\mathcal{L}_{\mathrm{CE,aug}}(\theta)}_{\mathcal{L}_{\mathrm{CPO}}(\theta)}+\mathcal{L}_{\mathrm{B-SC}}(\theta)+\mathcal{L}_{\mathrm{SOR}}(\theta)

在之前的分类损失和对比权重损失前面又加了这个SOR,展开就是:

\begin{aligned} \mathcal{L}_{\mathrm{total}}(\theta) & =\mathcal{L}_{\mathrm{CPO}}(\theta)+\mathcal{L}_{\mathrm{B-SC}}(\theta) \\ & +\lambda_{\mathrm{SOR}}\cdot\log\left(\exp(\mathcal{L}_{\mathrm{CE,orig}}(\theta))+\exp(\mathcal{L}_{\mathrm{CE,aug}}(\theta))+\exp(\mathcal{L}_{\mathrm{B-SC}}(\theta))\right) \end{aligned}

2.5. Experiments

2.5.1. Datasets, Metrics, and Pathological Imbalance

        ①数据失衡指标:

\mathcal{T}=\frac{N_{\mathrm{majority}}}{N_{\mathrm{minority}}\cdot N_{\mathrm{classes}}}

        ②真实世界数据集:ZincFlour:

它的\mathcal{T}=137.54。统计展示:

        ③合成数据集:CIFAR-LT。统计展示:

        ④评估指标:top-k正确率

fluorescence  n. 荧光

2.5.2. Experimental Setup 

        ①损失消融:

2.5.3. Quantitative Results

        ①ZincFluor上的Top-1精度对比实验:

        ②CIFAR10-LT基准测试中的性能:

        ③CIFAR100-LT基准测试中的性能:

2.5.4. Ablation Studies

        上面放了这里不放了

2.5.5. Qualitative Analysis

        ①CIFAT10-LT上原始样本及增强样本的特征:

2.5.6. Discussion of Experimental Findings

        ①CIFAR-10-LT上原始的类间相似性和作者约束后的:

2.6. Conclusion

        ~

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐