多模态实在是太火了!最近,多模态推理与深度学习模型的结合成为人工智能领域的重要研究方向,直接把跨模态理解与融合推向了新高度!

清华大学提出的Spatial-MLLM框架,采用双编码器架构结合语义与3D结构特征,通过空间感知型帧采样策略提取关键帧,显著提升了多模态大语言模型在视觉空间推理任务中的表现。还有HydraInfer系统,针对多模态大语言模型推理,采用Hybrid Encode-Prefill-Decode(EPD)架构,将编码、预填充和解码三个阶段分离调度,显著提升了推理效率。

这些成果不仅在技术上取得了突破,还为多模态在实际应用中的落地提供了更多可能性。因此我特意整理了10篇多模态推理的相关论文,都是顶会顶刊成果,部分论文附上了代码便于大家复现,全部论文PDF版+开源代码,工种号 沃的顶会 扫码回复 “多模态推理” 领取。

RINGMO-AGENT:A UNIFIED REMOTE SENSING FOUNDATION MODEL FOR MULTI-PLATFORM AND MULTI-MODAL REASONING

文章解析

针对现有遥感视觉-语言模型在多源数据(如光学、SAR、红外,卫星与无人机平台)和高级推理任务上的局限性,本文提出RingMo-Agent,一个支持多模态、多平台、多任务的统一遥感基础模型。

该模型基于大规模视觉-语言数据集RS-VL3M(包含300万图像-文本对),通过模态感知的视觉编码器、任务特定token设计以及基于token的高维隐状态解码机制,实现从基础感知到复杂空间推理的统一建模。实验表明,RingMo-Agent在多种遥感视觉-语言任务中表现出色,具备跨平台与跨模态的强泛化能力。

创新点

构建了大规模多模态多平台遥感视觉-语言数据集RS-VL3M,覆盖光学、SAR、红外三种模态及卫星与无人机两大平台,支持八类感知与推理任务。

提出模态感知的视觉编码器,采用分离的嵌入层学习各模态独立特征,减少跨模态干扰,提升异构数据下的特征提取鲁棒性。

引入任务特定token与基于token的高维隐状态解码机制,支持长视野空间推理等复杂任务建模。

首次实现统一框架下遥感多模态、多平台的感知与高级推理能力,突破传统模型局限于单一模态与基础识别任务的瓶颈。

推动遥感视觉-语言模型从静态感知向动态理解与自主决策演进,向遥感智能体系统迈出关键一步。

研究方法

基于大规模自建数据集RS-VL3M进行指令微调,涵盖300万遥感图像-文本对,覆盖多模态、多平台与多任务场景。

采用分离的模态嵌入层构建模态自适应表示,以应对不同传感器与平台带来的分布偏移。

在Transformer架构基础上,引入任务特定token以区分不同任务类型,并通过高维隐状态解码机制建模长序列空间推理过程。

结合先进的大语言模型(如LLaMA、DeepSeek)进行语言理解与生成,实现基于文本指令的端到端视觉-语言推理。

在多个公开与自建多源遥感数据集上进行综合实验,评估模型在跨模态、跨平台任务中的泛化性能。

研究结论

RingMo-Agent在遥感多模态、多平台环境下展现出强大的视觉理解与复杂推理能力。

模型在跨模态和跨平台任务中表现出优异的泛化性能,显著优于现有方法。

通过统一建模框架,成功将遥感模型从基础感知扩展到高级语义推理与决策任务。

大规模高质量视觉-语言数据(如RS-VL3M)对推动遥感基础模型发展至关重要。

RingMo-Agent为构建具备自主认知能力的遥感智能体提供了可行路径。

7cc3b175-90e1-4285-8d2a-50c7edbfaa85.png

Real-Time Out-of-Distribution Failure Prevention via Multi-Modal Reasoning

文章解析

本文提出FORTRESS,一个通过多模态推理防止机器人在开放世界环境中发生分布外(OOD)故障的框架。该框架利用大型视觉语言模型(VLM)在正常运行期间低频地生成语义上安全的备选目标并预测故障模式,构建语义安全成本函数。

当运行时监测器触发回退响应时,系统可快速生成动态可行且语义安全的回退路径,无需依赖人工设计的回退策略或人类干预,实现了语义安全与动力学感知规划的结合。

创新点

提出FORTRESS框架,首次将多模态大模型的语义推理能力与实时运动规划结合,用于预防OOD故障。

通过离线或低频多模态推理生成语义安全成本函数,实现对危险区域的快速在线识别。

无需人工编写回退策略,系统可自主生成语义上安全且动力学可行的备选路径。

在真实无人机和ANYmal机器人上验证了框架在城市导航中的实时性与安全性提升。

在合成基准和真实数据上优于直接调用慢速推理模型的即时提示方法。

研究方法

使用Vision-Language Models(VLM)将抽象语义策略转化为具体的物理回退目标建议。

通过多模态推理识别潜在故障模式,并校准嵌入空间以构建语义安全成本函数。

设计低频-高频分层架构:正常运行时进行慢速语义推理,触发回退时快速生成安全轨迹。

将语义安全成本函数集成到现有运动规划器中,实现实时动态感知的语义安全规划

通过运行时监控器检测异常并触发回退机制,实现闭环安全控制。

研究结论

FORTRESS能有效防止开放环境中因分布外场景导致的机器人故障。

相比直接使用大模型进行实时推理,该方法显著提升了安全分类准确性和规划成功率。

框架在仿真和真实机器人(无人机与四足机器人)上均验证了其实时性与实用性。

语义安全与运动规划的结合可减少对人工干预和硬编码策略的依赖。

为基于基础模型的机器人安全推理提供了可扩展的实时解决方案。

image.png

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐