[NeurIPS 2025]Deciphering the Extremes: A Novel Approach for Pathological Long-tailed Recognition in

计算机-人工智能-长尾分布损失约束

夏莉莉iy

353人浏览 · 2025-11-13 00:52:04

夏莉莉iy · 2025-11-13 00:52:04 发布

论文网址：NeurIPS Poster Deciphering the Extremes: A Novel Approach for Pathological Long-tailed Recognition in Scientific Discovery

2.3.1. Long-Tailed Phenomena in Scientific Tasks

2.3.2. Long-Tailed Learning (LTR)

2.4. Methodology: Balanced Contrastive Representation Learning under Dynamic Multi-Objective Constraints for Pathological Long-Tails

2.4.1. Formalizing Pathological Long-Tailed Recognition as a Multi-Objective Optimization Problem

2.4.2. Derivation of the Training Objective from Multi-Objective Constraints

2.5. Experiments

2.5.1. Datasets, Metrics, and Pathological Imbalance

2.5.2. Experimental Setup

2.5.3. Quantitative Results

2.5.4. Ablation Studies

2.5.5. Qualitative Analysis

2.5.6. Discussion of Experimental Findings

2.6. Conclusion

1. 心得

（1）写得很清楚

（2）创新性还好吧就

2. 论文逐段精读

2.1. Abstract

①作者想动态地重新加权尾类贡献（感觉也很常见？

2.2. Introduction

①科学类的数据集往往表现出极端的不平衡

②当前的长尾识别（Long-Tailed Recognition, LTR）方法有：重新采样，重新加权，解耦（就是两阶段）训练，损失设计

③当前方法的局限：在极端稀缺的情况下，重新加权可能过拟合噪声，重新采样可能丢失或冗余地添加信息，并且如果尾类的初始特征学习得不好，则解耦训练会很困难

④长尾分布示意图：

⑤作者提出的框架：

2.3. Related Work

2.3.1. Long-Tailed Phenomena in Scientific Tasks

①就说自然科学天体科学有很多长尾现象并且总样本量有限

2.3.2. Long-Tailed Learning (LTR)

①重采样策略：可能导致过拟合或信息丢失

②重加权策略：额

③解耦学习：性能更取决于初始表示

④迁移学习或知识蒸馏也行

⑤对比学习

2.4. Methodology: Balanced Contrastive Representation Learning under Dynamic Multi-Objective Constraints for Pathological Long-Tails

2.4.1. Formalizing Pathological Long-Tailed Recognition as a Multi-Objective Optimization Problem

①数据集定义为 $\mathcal{D}=\{(x_i,y_i)\}_{i=1}^N$ ， $x_{i}\in\mathcal{X}$ ， $y_{i}\in\{0,\ldots,C-1\}$ ， $C$ 为类别数量

② $N_c$ 代表每个类别的样本数，分布非常不均匀。样本不均匀指数由 $T=(\operatorname*{max}_{c}N_{c})/((\operatorname*{min}_{c}N_{c})\cdot C)$ 确定，就是其中最大类越大最小类越小加上类别越多可能就越分布不均匀（但感觉不严谨哈比如样本数量为10，10，10，1这种或者10，1，1，1，还有10，7，4，1算出来都一样但实际上可能也有差别）

③作者目标：训练出包含 $\theta$ 参数的特征提取器 $f_{backbone}$ ，投影头 $\pi_{proj}$ ，和分类头 $g_{cls}$

（1）Robust Classification Performance (O1(θ))

①分类表现目标（Classification Performance Objective，CPO）损失：

$\mathcal{L}_{\mathrm{CPO}}(\theta)=\mathbb{E}_{(x,y)\sim\mathcal{D}}\left[\ell_{\mathrm{CE}}(g_{\mathrm{cls}}(f_{\mathrm{backbone}}(x;\theta)),y)+\ell_{\mathrm{CE}}(g_{\mathrm{cls}}(f_{\mathrm{backbone}}(x^{\prime};\theta)),y)\right]$

其中交叉熵损失 $\ell_{\mathrm{CE}}(\mathbf{o},y)=-\log(\mathrm{softmax}(\mathbf{o})_{u})$ （不用太在意那个期望 $\mathbb{E}$ ，因为后面那两项是针对单个样本的，期望加在前面只是为了说要求整个数据集样本的平均损失）。作者把上面的CPO损失简化成原始交叉熵损失项和增强交叉熵损失项：

$\mathcal{L}_\mathrm{CPO}(\theta)=\mathcal{L}_{\mathrm{CE,orig}}(\theta)+\mathcal{L}_{\mathrm{CE,aug}}(\theta)$

其中 $\mathcal{L}_{\mathrm{CE.orig}}(\theta)=\mathbb{E}\left[\ell_{\mathrm{CE}}(g_{\mathrm{cls}}(f_{\mathrm{backbone}}(x;\theta)),y)\right]$ ， $\mathcal{L}_{\mathrm{CE,aug}}(\theta)=\mathbb{E}\left[\ell_{\mathrm{CE}}(g_{\mathrm{cls}}(f_{\mathrm{backbone}}(x^{\prime};\theta)),y)\right]$

（2）Tail-Centric Discriminative Representation (O2(θ))

①平衡监督对比学习（Balanced Supervised Contrastive Learning，B-SCL）损失：

$\mathcal{L}_{\mathrm{B-SC}}(\theta)=\lambda_{\mathrm{B-SC}}\cdot\frac{1}{2B}\sum_{\mathbf{z}_{j}\in\mathcal{S}_{\mathrm{batch}}}w_{y_{j}}\ell_{\mathrm{SC}}(\mathbf{z}_{j};\theta)$

其中 $\ell_{\mathrm{SC}}(\mathbf{z}_{j};\theta)$ 是每个锚点的SupCon损失，这个损失懒得单独敲了我截图在下面：

使用这个对比损失之后，作者还在外面加了一层权重，根据不同类别分配不同的权重：

$w_{c}=\exp(s_{c}^{\prime})/\sum_{k}\exp(s_{k}^{\prime})$

其中 $s_{k}^{\prime}=(N_{C-1-k})^{\alpha}$ （这是分布权重翻转，比如为最大样本类分配最少样本类的权重而为最小样本类分配最大样本类权重）

②交叉熵是尊重原始分布的而权重重分配会导致冲突，两个损失按理来说不能放在一起（要么就变成两阶段）。作者使用了帕累托最优去优化

（3）Optimization Target 1 (Constrained Multi-Objective Formulation)

①最优化策略：

$\begin{aligned} \min_{\theta} \, \, \, \, \, & \mathcal{L}_{CPO}(\theta)+\mathcal{L}_{B-SC}(\theta) \\ \mathrm{subject~to} \, \, \, \, \, & \mathcal{L}_{CE,orig}(\theta)\leq\epsilon_1 \\ & \mathcal{L}_{CE,aug}(\theta)\leq\epsilon_{2} \\ & \mathcal{L}_{B-SC}(\theta)\leq\epsilon_{3} \end{aligned}$

其中 $\epsilon _i$ 是动态调整的上限

2.4.2. Derivation of the Training Objective from Multi-Objective Constraints

①使用最大值函数的可微凸近似LogSumExp(LSE)：

$\mathrm{LSE}(\mathbf{v})=\log\sum_{i}\exp(v_{i})$

这会对于有 $M$ 的成分的向量 $\mathbf{v}$ 有：

$\max_iv_i\leq\mathrm{LSE}(\mathbf{v})\leq\max_{i}v_{i}+\log M$

好妙啊这个LSE，得到一个向量里面最大值的近似：

它总是大于或等于最大值。

当最大值远大于其他值时，它无限接近最大值。

当所有值相差不多时，它会比最大值大一个与数值分布有关的量。

②使用切比雪夫最大最小方法来实现多目标优化，使得：

$\mathcal{L}_{\text{constituent}}(\theta)=[\mathcal{L}_{\mathrm{CE,orig}}(\theta),\mathcal{L}_{\mathrm{CE,aug}}(\theta),\mathcal{L}_{\mathrm{B-SC}}(\theta)]^T$

③引入平滑目标正则（Smooth Objective Regularization，SOR）项：

$\mathcal{L}_{\mathrm{SOR}}(\theta)=\lambda_{\mathrm{SOR}}\cdot\mathrm{LSE}(\mathcal{L}_{\text{constituent}}(\theta)/\tau_{\mathrm{SOR}})$

其中 $\lambda_{\mathrm{SOR}}$ 是正则强度， $\tau_{\mathrm{SOR}}$ 是温度系数

④作者令 $\tau_{\mathrm{SOR}}=1$ 有：

$\mathcal{L}_{\mathrm{SOR}}(\theta)=\lambda_{\mathrm{SOR}}\cdot\log\left(\exp(\mathcal{L}_{\mathrm{CE,orig}}(\theta))+\exp(\mathcal{L}_{\mathrm{CE,aug}}(\theta))+\exp(\mathcal{L}_{\mathrm{B-SC}}(\theta))\right)$

⑤最终训练目标：

$\mathcal{L}_{\mathrm{total}}(\theta)=\underbrace{\mathcal{L}_{\mathrm{CE,orig}}(\theta)+\mathcal{L}_{\mathrm{CE,aug}}(\theta)}_{\mathcal{L}_{\mathrm{CPO}}(\theta)}+\mathcal{L}_{\mathrm{B-SC}}(\theta)+\mathcal{L}_{\mathrm{SOR}}(\theta)$

在之前的分类损失和对比权重损失前面又加了这个SOR，展开就是：

$\begin{aligned} \mathcal{L}_{\mathrm{total}}(\theta) & =\mathcal{L}_{\mathrm{CPO}}(\theta)+\mathcal{L}_{\mathrm{B-SC}}(\theta) \\ & +\lambda_{\mathrm{SOR}}\cdot\log\left(\exp(\mathcal{L}_{\mathrm{CE,orig}}(\theta))+\exp(\mathcal{L}_{\mathrm{CE,aug}}(\theta))+\exp(\mathcal{L}_{\mathrm{B-SC}}(\theta))\right) \end{aligned}$

2.5. Experiments

2.5.1. Datasets, Metrics, and Pathological Imbalance

①数据失衡指标：

$\mathcal{T}=\frac{N_{\mathrm{majority}}}{N_{\mathrm{minority}}\cdot N_{\mathrm{classes}}}$

②真实世界数据集：ZincFlour：

它的 $\mathcal{T}=137.54$ 。统计展示：

③合成数据集：CIFAR-LT。统计展示：

④评估指标：top-k正确率

fluorescence n. 荧光

2.5.2. Experimental Setup

①损失消融：

2.5.3. Quantitative Results

①ZincFluor上的Top-1精度对比实验：

②CIFAR10-LT基准测试中的性能：

③CIFAR100-LT基准测试中的性能：

2.5.4. Ablation Studies

上面放了这里不放了

2.5.5. Qualitative Analysis

①CIFAT10-LT上原始样本及增强样本的特征：

2.5.6. Discussion of Experimental Findings

①CIFAR-10-LT上原始的类间相似性和作者约束后的：

2.6. Conclusion

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

记一次Java程序总是宕机但应用日志无任何错误信息排查过程

2048 AI社区

【Transformer】从零训练一个LLaMA2大模型（二）

本文摘要：本文系统介绍了自然语言处理中Tokenizer的训练方法及其在预训练语言模型中的应用。首先详细讲解了三种分词方法：基于词的分词（Word-based）简单直观但泛化性差；基于字符的分词（Character-based）灵活但语义丢失；子词分词（Subword）则在两者间取得平衡，重点介绍了BPE、WordPiece和Unigram三种子词算法。随后文章展示了如何使用HuggingFa

2048 AI社区

【Transformer】主流的大模型训练框架

本文介绍了从零构建LLaMA2模型的全过程，涵盖预训练到微调的完整流程。首先通过手写实现LLaMA的预训练和微调，深入理解模型原理；然后转向主流训练框架Transformers，解决手写实现存在的扩展性问题。详细讲解了使用Transformers+DeepSpeed+PEFT的高效训练方案，包括模型初始化、数据集处理、分布式训练配置等关键技术点。特别介绍了高效微调方法LoRA的原理与实现，通过低秩