一、导读

水下探索对了解地球生态和资源开发至关重要,但传统方法通常只能完成单一任务,难以全面理解复杂的水下场景。

此外,水下图像常因光线散射和吸收而模糊不清,影响识别效果,而现有的大规模多模态模型(LMM)在直接应用于水下场景时表现不佳。

为解决这些问题,华中科大联手国防科大提出了NAUTILUS模型,这是一个专门针对水下场景设计的大规模多模态模型。

它通过引入视觉特征增强模块(VFE),结合水下成像物理先验,有效恢复因水下环境退化的图像信息。实验表明,该模型在多个水下任务中表现优异,显著提升了识别和理解的准确性。

二、论文基本信息

  • 论文标题:Nautilus: A Large Multimodal Model for Underwater Scene Understanding

  • 作者:Wei Xu, Cheng Wang, Dingkang Liang, Zongchuang Zhao, Xingyu Jiang, Peng Zhang, Xiang Bai

  • 单位:华中科技大学(Huazhong University of Science and Technology)、国防科技大学(National University of Defense Technology)

  • 论文来源:NeurIPS 2025

  • 代码链接:https://github.com/H-EmbodVis/NAUTILUS

点击原文,查看更多CV论文精读

三、主要贡献与创新

  1. 构建了首个大规模水下多任务指令数据集NautData,包含145万图像-文本对,覆盖8类任务。

  2. 提出首个支持八任务的水下多模态模型NAUTILUS,实现图像、区域和对象三级理解。

  3. 设计了基于物理成像模型的视觉特征增强模块(VFE),在特征空间中显式恢复退化信息。

  4. 验证了VFE模块的通用性,可嵌入LLaVA-1.5和Qwen2.5-VL等主流模型并提升性能。

  5. 在多个水下基准测试中取得最优或次优结果,展示了优异的泛化能力和鲁棒性。

四、研究方法与原理

NAUTILUS的核心思路是:利用水下成像物理模型,在特征空间中显式去除图像退化影响,提升模型对水下场景的理解能力。

模型主要由图像编码器、深度编码器、视觉-语言投影器、VFE模块和大语言模型(LLM)组成。给定水下图像 ,图像编码器提取视觉特征 ,深度编码器提取深度特征 。VFE模块利用这些输入,输出增强后的视觉特征 ,其中  表示暗像素位置。

VFE模块的关键步骤基于水下成像模型:

其中  是观测图像, 是目标反射, 是后向散射, 是未被衰减的原始颜色。VFE模块通过以下步骤实现特征增强:

  1. 去除后向散射:定位暗像素,提取其对应的视觉特征切片 ,通过跨注意力机制估计纯后向散射响应 ,并从视觉特征中减去:。

  2. 恢复光吸收:使用轻量级MLP从深度特征预测吸收权重 ,最终增强特征计算为:

其中  表示逐元素除法。该公式与成像模型中的  相对应,实现了在特征空间中的显式信息恢复。

五、实验设计与结果分析

实验设置

论文使用自建数据集NautData(158K图像,1.45M QA对)和公开数据集MarineInst20M、IOCfish5k进行评估。评测指标包括准确率、METEOR、mIoU、PR@0.5、mAP等。模型基于LLaVA-1.5和Qwen2.5-VL构建,使用LoRA进行参数高效微调,训练1个epoch,耗时约3天(4张A800 GPU)。

对比实验

在NautData测试集上,NAUTILUS在多数任务上优于GPT-4o、Gemini 2.0 Flash等通用LMM,尤其在细粒度分类、检测、定位等任务中提升显著。

在MarineInst20M上的零样本定位任务(表4)中,NAUTILUS也表现出良好的泛化能力。

可视化对比

图5展示了NAUTILUS在八类任务上的多粒度输出,包括图像描述、区域定位、目标检测等,显示出模型对复杂水下场景的准确理解能力。

消融实验

表5展示了VFE模块各组件的作用,依次加入深度编码器、光吸收恢复、后向散射去除后,模型在多数任务上性能逐步提升。

表6比较了图像增强与特征增强的效果,显示VFE在保持原始信息方面更具优势。

表7评估了模型在不同退化条件(如低光、浑浊、色偏)下的鲁棒性,NAUTILUS在恶劣环境下仍保持较高性能。

六、论文结论与评价

总结

NAUTILUS通过引入物理先验的视觉特征增强模块,有效缓解了水下图像退化问题,在多个任务和数据集上显著提升了水下场景理解性能。其构建的大规模指令数据集NautData为后续研究提供了重要基础。

评价

该研究首次将物理模型与多模态学习结合,为水下AI任务提供了新思路。模型具有良好的实用性和可扩展性,代码与数据开源也促进了领域发展。

然而,论文也指出当前数据集尚未覆盖所有水下物种与环境,模型在开放词汇和少样本学习方面仍有提升空间。未来可进一步探索模型在真实水下机器人等场景中的应用。

点击原文,查看更多CV论文精读

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐