水下图像模糊难分析？华科、国防科大提出NAUTILUS：首个水下多模态大模型，融合物理先验，带来清晰视角！

华中科技大学与国防科技大学联合提出首个水下多模态大模型NAUTILUS，突破传统水下视觉任务的局限。该研究创新性地构建了包含145万图像-文本对的NautData数据集，并设计了基于物理成像模型的视觉特征增强模块（VFE），在特征空间显式恢复水下退化图像信息。实验表明，NAUTILUS在8类水下任务中表现优异，显著提升识别准确性，且VFE模块可兼容主流多模态模型。研究成果为水下场景理解提供了新思路

CV炼丹术

939人浏览 · 2025-11-10 09:57:07

CV炼丹术 · 2025-11-10 09:57:07 发布

一、导读

水下探索对了解地球生态和资源开发至关重要，但传统方法通常只能完成单一任务，难以全面理解复杂的水下场景。

此外，水下图像常因光线散射和吸收而模糊不清，影响识别效果，而现有的大规模多模态模型（LMM）在直接应用于水下场景时表现不佳。

为解决这些问题，华中科大联手国防科大提出了NAUTILUS模型，这是一个专门针对水下场景设计的大规模多模态模型。

它通过引入视觉特征增强模块（VFE），结合水下成像物理先验，有效恢复因水下环境退化的图像信息。实验表明，该模型在多个水下任务中表现优异，显著提升了识别和理解的准确性。

二、论文基本信息

论文标题：Nautilus: A Large Multimodal Model for Underwater Scene Understanding
作者：Wei Xu, Cheng Wang, Dingkang Liang, Zongchuang Zhao, Xingyu Jiang, Peng Zhang, Xiang Bai
单位：华中科技大学（Huazhong University of Science and Technology）、国防科技大学（National University of Defense Technology）
论文来源：NeurIPS 2025
代码链接：https://github.com/H-EmbodVis/NAUTILUS

点击原文，查看更多CV论文精读

三、主要贡献与创新

构建了首个大规模水下多任务指令数据集NautData，包含145万图像-文本对，覆盖8类任务。
提出首个支持八任务的水下多模态模型NAUTILUS，实现图像、区域和对象三级理解。
设计了基于物理成像模型的视觉特征增强模块（VFE），在特征空间中显式恢复退化信息。
验证了VFE模块的通用性，可嵌入LLaVA-1.5和Qwen2.5-VL等主流模型并提升性能。
在多个水下基准测试中取得最优或次优结果，展示了优异的泛化能力和鲁棒性。

四、研究方法与原理

NAUTILUS的核心思路是：利用水下成像物理模型，在特征空间中显式去除图像退化影响，提升模型对水下场景的理解能力。

模型主要由图像编码器、深度编码器、视觉-语言投影器、VFE模块和大语言模型（LLM）组成。给定水下图像，图像编码器提取视觉特征，深度编码器提取深度特征。VFE模块利用这些输入，输出增强后的视觉特征，其中表示暗像素位置。

VFE模块的关键步骤基于水下成像模型：

其中是观测图像，是目标反射，是后向散射，是未被衰减的原始颜色。VFE模块通过以下步骤实现特征增强：

去除后向散射：定位暗像素，提取其对应的视觉特征切片，通过跨注意力机制估计纯后向散射响应，并从视觉特征中减去：。
恢复光吸收：使用轻量级MLP从深度特征预测吸收权重，最终增强特征计算为：

其中表示逐元素除法。该公式与成像模型中的相对应，实现了在特征空间中的显式信息恢复。

五、实验设计与结果分析

实验设置

论文使用自建数据集NautData（158K图像，1.45M QA对）和公开数据集MarineInst20M、IOCfish5k进行评估。评测指标包括准确率、METEOR、mIoU、PR@0.5、mAP等。模型基于LLaVA-1.5和Qwen2.5-VL构建，使用LoRA进行参数高效微调，训练1个epoch，耗时约3天（4张A800 GPU）。