AAAI 2026 Oral | 东南大学提出DOC：增强CLIP对抗鲁棒性的方向正交反攻击

本文提出了一种名为“方向正交反攻击”(DOC)的新方法，用于增强视觉-语言预训练模型(VLP)对抗对抗样本的鲁棒性。针对现有测试时反攻击(TTC)方法扰动单一的问题，DOC通过引入正交梯度增强和动量机制，生成更具多样性的反攻击扰动，有效中和多种对抗攻击。

CV炼丹术 · 2025-11-18 10:19:04 发布

视觉-语言预训练模型（Vision-Language Pretraining, VLP），例如 CLIP，在多模态理解和零样本泛化任务中表现卓越，然而它们对对抗样本（即恶意添加的干扰）的敏感性，引发了对其实际可靠性的广泛关注。

目前一种称为“测试时反攻击”（Test-Time Counterattack, TTC）的防御策略，试图通过主动生成扰动将受攻击的输入“推离”危险区域。然而，由于优化目标不统一，该方法生成的扰动缺乏变化，难以应对多样化的攻击方式。

为解决这一问题，本文提出一种名为“方向正交反攻击”（Directional Orthogonal Counterattack, DOC）的新方法。该方法通过在梯度更新过程中引入正交方向与动量机制，增强反攻击扰动的多样性，从而更有效地抵消对抗性扰动的影响。

实验结果显示，DOC 在多个数据集上显著提升了模型的对抗鲁棒性，同时保持了较高的干净样本识别准确率。

论文标题：Diversifying Counterattacks: Orthogonal Exploration for Robust CLIP Inference
作者：Chengze Jiang, Minjing Dong, Xinli Shi, Jie Gui
单位：东南大学、香港城市大学等
论文来源：AAAI-2026 Oral
代码链接：https://github.com/bookman233/DOC

DOC 的核心思路是：在生成反攻击扰动时，不仅沿着梯度方向更新，还引入正交方向的随机扰动和动量机制，以增强扰动多样性，从而更有效地中和对抗攻击。

正交梯度增强（Orthogonal Gradient Augmentation）
首先计算归一化梯度：

其中。接着生成一个随机向量，并计算其正交分量：

最终更新方向为：
动量更新机制
引入动量项以平滑更新方向：

反攻击扰动更新为：
方向敏感度评分（Directional Sensitivity Score）
对输入样本生成个噪声版本，计算平均余弦相似度：

使用 sigmoid 函数自适应调节反攻击强度：

最终扰动为。