【CVPR】SAIST: Segment Any Infrared Small Target Model Guided by Contrastive Language-ImagePretraining

论文期刊：CVPR论文作者：Mingjin Zhang, Xiaolong Li, Fei Gao, Jie Guo, Xinbo Gao, Jing Zhang发布年份：2025论文代码：未公开。

柿子花

1421人浏览 · 2025-10-24 17:04:11

柿子花 · 2025-10-24 17:04:11 发布

论文期刊：CVPR
论文作者：Mingjin Zhang, Xiaolong Li, Fei Gao, Jie Guo, Xinbo Gao, Jing Zhang
发布年份：2025
论文代码：未公开

论文创新点

• 我们提出了SAIST，这是首个将多模态视觉与语言集成用于IRSTD的方法。在具有挑战性的基准测试中，它优于最先进的方法，在客观指标和主观评估中均表现出色。
• 我们设计了两个关键组件，即SR-CLIP和CG-SAM，以有效融合多模态信息，并在复杂场景中分离目标与背景。
• 我们创建了一个新颖的多模态IRSTD数据集，该数据集结合了红外图像和文本数据，为训练和评估多模态学习方法提供了丰富的资源。

方法架构

在这里插入图片描述

整体架构

SR-CLIP的文本编码器将文本描述转换为特征表示，而图像编码器则处于冻结状态。接下来，SR-CLIP采用跨模态交互机制来整合视觉和文本描述集，优化文本特征并缩小视觉与语言之间的领域差距，从而生成精确的文本提示和视觉提示。随后，经过预训练且处于冻结状态的SAM图像编码器提取图像嵌入，并通过低秩适应（LoRA）进行微调，以增强模型对特定任务的适应性。最后，生成的文本提示和图像嵌入被输入到SAM掩码解码器中，结合专门设计的红外成像模型，有效抑制背景噪声并精确检测小目标。

SR-CLIP

SR-CLIP 的流程可以分为三步：
构建视觉与文本描述集（Visual / Text description set）
建立跨模态交互机制（Cross-Modal Interaction Mechanism）
使用 MMD 损失对齐分布
最终输出两个结果：
TPrompt（文本提示）：富含视觉语义的文本嵌入。
VPrompt（视觉提示）：语义增强的视觉嵌入。

Visual / Text description set

文本描述集（Textual Description Set）
使用场景级与物体级信息构造：
在这里插入图片描述
示例：
“a photo of a cloudy sky with an airplane and a mountain ridge.”
这种描述兼顾了场景语义（scene-level）与目标语义（object-level）。
视觉描述集（Visual Description Set）
从 CLIP 的图像编码器中提取局部（对象）与全局（场景）特征：
在这里插入图片描述
这些视觉特征通过图像字幕生成器（Image Captioning）或 Learnable Projection Layer 转换为语义描述。
为了捕捉红外图像中场景-物体之间的结构关系，SR-CLIP 定义了两个矩阵：
① 对象-对象相似矩阵

表示不同对象特征间的语义相似性。

② 场景-对象相关矩阵
在这里插入图片描述
用于衡量某个对象对整个场景语义的贡献。

文本解码器（Text Decoder）

输入：CLIP 文本编码器的嵌入（来自 Description）与视觉特征。
子模块：
Text-to-Text：挖掘并增强文本内部语义关系（例如把 [scene] 和 [object] 之间的组合暗示编码到上下文向量）。
Visual-to-Text：把视觉特征映射到文本域（cross-attention），将视觉信息注入文本嵌入，从而得到增强后的文本提示 TPrompt。
输出形态：T_{Prompt}（向量或向量序列，供 SAM 解码器使用）

视觉解码器（Visual Decoder）

输入：视觉特征 + 文本嵌入（融合后）。
子模块：
Visual-to-Visual：从视觉流中提取背景信息 A(z) 的语义表征（背景先验）。
Text-to-Visual：把文本语义回写到视觉特征，改善视觉语义空间的一致性（得到 VPrompt）。
输出：V_{Prompt}（用于引导 SAM 的 mask decoder，对背景建模尤其重要）。

MMDLoss

为缩小文本提示与视觉提示在高维特征空间的分布差异，SR-CLIP 使用 Maximum Mean Discrepancy（MMD）：
在这里插入图片描述

效果：让 TPrompt 与 VPrompt 在特征分布上更接近，增强跨模态一致性，从而提高提示在 SAM 中的利用率。
MLP 是英文 Multi-Layer Perceptron（多层感知机）的缩写。
它是一种最基础的前馈神经网络（Feed-Forward Neural Network）。
可以理解为：
把输入向量通过几层「线性变换 + 激活函数」映射到新的特征空间。

CG-SAM Mask Decoder

在这里插入图片描述

在原 SAM Mask Decoder 基础上增加了跨模态交互与物理约束模块：

（a）Cross-Attention 层（Decoder Layers）

用于融合图像特征与提示特征。
在这里插入图片描述
这使得 mask decoder 对小目标具有语义聚焦能力
（b）Transformer Interaction Layer（特征交互层）
利用 Transformer 块进一步整合融合特征，使模型捕获局部与全局上下文。
结构：
多层 Transformer Block（通常 3~6 层）；
每层包含：
Self-Attention（局部–全局特征交互）；
Feed Forward 网络（非线性变换）；
残差连接 + LayerNorm。

Infrared Imaging Equation

红外图像成像方程（Beer-Lambert 模型）
在这里插入图片描述
I(z)：z位置处红外观测图像的像素强度，其中包括背景辐射和干扰。
J(z)：位置z处目标的真实红外辐射强度，代表目标在红外光谱中的亮度。
t(z)：传输系数，表示从目标到观察者的红外辐射能量衰减，其值在[0, 1]范围内。
A(z)：背景辐射指的是位置z处来自背景的红外强度
论文中模型求解：
由 CG-SAM Decoder 估计出 A(z)；
通过独立模块 F(I(z)) 估计深度 d(z)；
利用上述方程反算 J(z)：
在这里插入图片描述
输出：J(z)：目标辐射恢复图；
最终 Mask：通过 J(z) 与 𝐼(z) 的差异生成二值掩码

实验

表1. 在NUDT-SIRST、IRSTD-1k和NUAA-SIRST数据集上与现有IRSTD方法的比较。评估指标为IoU（((10^{{-2}))、(P_{d}(10}{-2}))和(F_{a}(10^{-6}))），最佳结果已突出显示。
在这里插入图片描述
图4. 不同IRSTD方法的视觉结果。红色、黄色和蓝色框分别代表正确检测、漏检和误检。角落处显示了特写视图。

表2. 在NUAA-SIRST上对(I o U(%))、(P_{d}(%))、(F_{a}(10^{-6}))中的SR-CLIP和CG-SAM进行的消融研究。

表3. 不同模型在MIRSTD上的比较。
在这里插入图片描述
表4. CLIP、CoOp和SR-CLIP在NUAA-SIRST上的IoU（%）消融研究，

表5. 在NUAA-SIRST上SAM、HQ-SAM和CG-SAM的消融研究。

结论

本文提出了SAIST，这是一个集成视觉和文本模态以增强红外小目标检测（IRSTD）的新型框架。该框架利用SR-CLIP捕捉跨模态关系，生成精确提示以克服仅基于图像的方法的局限性。在这些提示的引导下，CG-SAM采用可解释的红外成像方程来提取目标，同时抑制噪声。我们还引入了MIRSTD，这是首个包含丰富图像-文本对的多模态红外小目标检测数据集。实验证明了多模态集成在红外小目标检测中的有效性。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【电商剪辑如何人效提升效率？分镜素材库智能匹配替代人工繁琐剪辑】

2048 AI社区

小白实操 OpenClaw2.7.9，5 分钟完成本地 AI 环境部署指南

2048 AI社区

AI框架的资源管理：多模型适配、负载均衡、故障隔离

本文探讨了AI应用在多模型场景下的运维挑战及解决方案。核心问题是单点接入模型服务存在的高风险，以及多模型管理带来的复杂性。文章提出两大设计思路：通过统一接口抽象层屏蔽厂商差异，业务代码仅需调用资源SN；采用均衡组模式实现负载均衡和故障隔离，确保服务高可用。具体实现包括：资源项与均衡组两种组织形式、失败计数隔离机制、维度一致的Embedding资源管理、统一VDB接口等。最终目标是建立生产级稳定的A