论文期刊:CVPR
论文作者:Mingjin Zhang, Xiaolong Li, Fei Gao, Jie Guo, Xinbo Gao, Jing Zhang
发布年份:2025
论文代码:未公开

论文创新点

• 我们提出了SAIST,这是首个将多模态视觉与语言集成用于IRSTD的方法。在具有挑战性的基准测试中,它优于最先进的方法,在客观指标和主观评估中均表现出色。
• 我们设计了两个关键组件,即SR-CLIP和CG-SAM,以有效融合多模态信息,并在复杂场景中分离目标与背景。
• 我们创建了一个新颖的多模态IRSTD数据集,该数据集结合了红外图像和文本数据,为训练和评估多模态学习方法提供了丰富的资源。

方法架构

在这里插入图片描述

整体架构

SR-CLIP的文本编码器将文本描述转换为特征表示,而图像编码器则处于冻结状态。接下来,SR-CLIP采用跨模态交互机制来整合视觉和文本描述集,优化文本特征并缩小视觉与语言之间的领域差距,从而生成精确的文本提示和视觉提示。随后,经过预训练且处于冻结状态的SAM图像编码器提取图像嵌入,并通过低秩适应(LoRA)进行微调,以增强模型对特定任务的适应性。最后,生成的文本提示和图像嵌入被输入到SAM掩码解码器中,结合专门设计的红外成像模型,有效抑制背景噪声并精确检测小目标。

SR-CLIP

SR-CLIP 的流程可以分为三步:
构建视觉与文本描述集(Visual / Text description set)
建立跨模态交互机制(Cross-Modal Interaction Mechanism)
使用 MMD 损失对齐分布
最终输出两个结果:
TPrompt(文本提示):富含视觉语义的文本嵌入。
VPrompt(视觉提示):语义增强的视觉嵌入。

Visual / Text description set

文本描述集(Textual Description Set)
使用场景级与物体级信息构造:
在这里插入图片描述
示例:
“a photo of a cloudy sky with an airplane and a mountain ridge.”
这种描述兼顾了场景语义(scene-level)与目标语义(object-level)。
视觉描述集(Visual Description Set)
从 CLIP 的图像编码器中提取局部(对象)与全局(场景)特征:
在这里插入图片描述
这些视觉特征通过图像字幕生成器(Image Captioning)或 Learnable Projection Layer 转换为语义描述。
为了捕捉红外图像中场景-物体之间的结构关系,SR-CLIP 定义了两个矩阵:
① 对象-对象相似矩阵
在这里插入图片描述
表示不同对象特征间的语义相似性。

② 场景-对象相关矩阵
在这里插入图片描述
用于衡量某个对象对整个场景语义的贡献。
在这里插入图片描述

文本解码器(Text Decoder)

输入:CLIP 文本编码器的嵌入(来自 Description)与视觉特征。
子模块:
Text-to-Text:挖掘并增强文本内部语义关系(例如把 [scene] 和 [object] 之间的组合暗示编码到上下文向量)。
Visual-to-Text:把视觉特征映射到文本域(cross-attention),将视觉信息注入文本嵌入,从而得到增强后的文本提示 TPrompt。
输出形态:T_{Prompt}(向量或向量序列,供 SAM 解码器使用)

视觉解码器(Visual Decoder)

输入:视觉特征 + 文本嵌入(融合后)。
子模块:
Visual-to-Visual:从视觉流中提取背景信息 A(z) 的语义表征(背景先验)。
Text-to-Visual:把文本语义回写到视觉特征,改善视觉语义空间的一致性(得到 VPrompt)。
输出:V_{Prompt}(用于引导 SAM 的 mask decoder,对背景建模尤其重要)。

MMDLoss

为缩小文本提示与视觉提示在高维特征空间的分布差异,SR-CLIP 使用 Maximum Mean Discrepancy(MMD):
在这里插入图片描述

效果:让 TPrompt 与 VPrompt 在特征分布上更接近,增强跨模态一致性,从而提高提示在 SAM 中的利用率。
MLP 是英文 Multi-Layer Perceptron(多层感知机) 的缩写。
它是一种最基础的 前馈神经网络(Feed-Forward Neural Network)。
可以理解为:
把输入向量通过几层「线性变换 + 激活函数」映射到新的特征空间。

CG-SAM Mask Decoder

在这里插入图片描述

在原 SAM Mask Decoder 基础上增加了跨模态交互与物理约束模块:

(a)Cross-Attention 层(Decoder Layers)

用于融合图像特征与提示特征。
在这里插入图片描述
这使得 mask decoder 对小目标具有语义聚焦能力
(b)Transformer Interaction Layer(特征交互层)
利用 Transformer 块进一步整合融合特征,使模型捕获局部与全局上下文。
结构:
多层 Transformer Block(通常 3~6 层);
每层包含:
Self-Attention(局部–全局特征交互);
Feed Forward 网络(非线性变换);
残差连接 + LayerNorm。

Infrared Imaging Equation

红外图像成像方程(Beer-Lambert 模型)
在这里插入图片描述
I(z):z位置处红外观测图像的像素强度,其中包括背景辐射和干扰。
J(z):位置z处目标的真实红外辐射强度,代表目标在红外光谱中的亮度。
t(z):传输系数,表示从目标到观察者的红外辐射能量衰减,其值在[0, 1]范围内。
A(z):背景辐射指的是位置z处来自背景的红外强度
论文中模型求解:
由 CG-SAM Decoder 估计出 A(z);
通过独立模块 F(I(z)) 估计深度 d(z);
利用上述方程反算 J(z):
在这里插入图片描述
输出:J(z):目标辐射恢复图;
最终 Mask:通过 J(z) 与 𝐼(z) 的差异生成二值掩码

实验

表1. 在NUDT-SIRST、IRSTD-1k和NUAA-SIRST数据集上与现有IRSTD方法的比较。评估指标为IoU(((10{-2}))、(P_{d}(10{-2}))和(F_{a}(10^{-6}))),最佳结果已突出显示。
在这里插入图片描述
图4. 不同IRSTD方法的视觉结果。红色、黄色和蓝色框分别代表正确检测、漏检和误检。角落处显示了特写视图。
在这里插入图片描述
表2. 在NUAA-SIRST上对(I o U(%))、(P_{d}(%))、(F_{a}(10^{-6}))中的SR-CLIP和CG-SAM进行的消融研究。
在这里插入图片描述
表3. 不同模型在MIRSTD上的比较。
在这里插入图片描述
表4. CLIP、CoOp和SR-CLIP在NUAA-SIRST上的IoU(%)消融研究,
在这里插入图片描述
表5. 在NUAA-SIRST上SAM、HQ-SAM和CG-SAM的消融研究。
在这里插入图片描述

结论

本文提出了SAIST,这是一个集成视觉和文本模态以增强红外小目标检测(IRSTD)的新型框架。该框架利用SR-CLIP捕捉跨模态关系,生成精确提示以克服仅基于图像的方法的局限性。在这些提示的引导下,CG-SAM采用可解释的红外成像方程来提取目标,同时抑制噪声。我们还引入了MIRSTD,这是首个包含丰富图像-文本对的多模态红外小目标检测数据集。实验证明了多模态集成在红外小目标检测中的有效性。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐