荣登NeurIPS！Agent规划 + 多模态大模型取得新突破，这波操作杀疯了！

多模态Agent研究前沿综述当前研究聚焦于将多模态大模型与Agent规划能力结合，以突破单一模型的被动响应局限。最新成果如FusionAgent和LCVN框架展现了三大创新方向：动态模型选择：通过强化学习实现样本级最优模型组合（如FusionAgent的ACT分数融合方法）；语言条件导航：华盛顿大学提出的LCVN任务结合扩散模型与自回归架构，实现开放环路的语言引导导航；世界建模优化：引入扩

LLM精进之路

385人浏览 · 2026-04-14 15:16:28

LLM精进之路 · 2026-04-14 15:16:28 发布

最近圈子里聊得最多的方向之一，就是 Agent规划 + 多模态大模型。很多人会问：多模态模型本身已经很能打了，为什么还要给它叠一个Agent层？本质上是因为，单模型再强也只是"被动响应"，而真正的落地场景（具身智能、复杂任务自动化）需要模型能自主规划执行路径、灵活调用工具、跨模态协同推理。HuggingGPT、VisualChatGPT这些工作已经证明，让多模态大模型学会"Plan-Before-Act"是通往实用化的必经之路。

从发文角度看，这个方向的创新点主要在三个地方：任务分解策略（如何把模糊需求拆成可执行步骤）、工具选择与调用机制（减少幻觉、提高成功率）、以及规划与执行的闭环反馈。审稿人现在特别关注规划合理性验证和跨模态对齐问题，纯"搭积木"式的拼接已经不好发了。建议大家在方法论上多想一步，比如怎么让规划过程更可解释、工具库怎么动态扩展。

为帮助更高效切入这个方向，整理了该方向核心baseline的复现教程 + 改进注释版代码，改几行就能跑自己的实验，含详细注释，需要可取~

标题: FusionAgent: A Multimodal Agent with Dynamic Model Selection for Human Recognition

关键词: 多模态Agent, 动态模型选择, 人体识别, 分数融合, 强化微调
单位: 密歇根州立大学 (Michigan State University)
方法:
- 针对现有全身人体识别系统中模型融合策略通常是静态的，即对所有样本调用所有模型，导致效率低下且性能次优的问题，本文提出了一个名为 FusionAgent 的新型智能体框架。该框架利用多模态大语言模型（MLLM）作为智能体，将每个生物识别模型视为一个“工具”。通过基于度量奖励的强化微调（RFT），智能体学会为每个测试样本动态地、自适应地选择最优的模型组合，从而实现更高效、更精准的识别。

创新点:
1. 提出了 FusionAgent，一个基于MLLM的智能体框架，实现了可解释的、样本级的动态模型选择。
2. 创新地设计了 Anchor-based Confidence Top-k (ACT) 分数融合方法，解决了动态模型选择带来的分数未对齐和嵌入异构性问题。
3. 设计了一种新颖的 基于度量的奖励函数 (Metric-based Reward) ，将智能体的模型选择策略与最终的识别性能指标（如TAR, mAP, Rank-1, FNIR）直接对齐进行优化。
4. 首次将基于MLLM的Agent框架与多模态生物识别任务相结合，系统性地验证了动态、自适应模型融合相较于传统静态融合策略的优越性。
关键公式:
1. 基于度量的奖励 (Metric-based Reward) 函数 R_mat，它将智能体选择的模型组合 o_i 的整体性能作为奖励信号：
2. ACT 方法计算最终融合分数向量 s'_q 的公式，其中 m_a 是锚点模型，M_q 是选定的模型子集：

标题: Language-Conditioned World Modeling for Visual Navigation

关键词: 语言条件导航, 世界模型, 具身智能, 轨迹预测, 扩散模型
单位: 华盛顿大学 (University of Washington)
方法:
- 针对具身智能体在仅有初始观测和自然语言指令，而无中间环境反馈的情况下进行视觉导航的挑战，本文提出了 语言条件视觉导航 (LCVN) 任务。为解决此问题，论文开发了两套互补的LCVN框架：第一套结合了基于扩散的世界模型 LCVN-WM 和在潜空间中训练的行动者-评论家智能体 LCVN-AC；第二套是名为 LCVN-Uni 的一体化自回归多模态模型，它在单次前向传播中联合预测动作和未来观测。

创新点:
1. 提出并构建了 语言条件视觉导航 (LCVN) 任务及其配套的大规模 LCVN数据集，为在开放环路（open-loop）设置下研究语言引导的导航提供了标准化基准。
2. 创新地设计了两种互补的语言条件世界模型范式：LCVN-WM + LCVN-AC（分离式）和 LCVN-Uni（一体化），系统地探索了感知、想象和决策制定的不同耦合方式。
3. 通过在世界模型中引入 扩散强制 (Diffusion Forcing) 机制，对上下文窗口中的每个潜状态施加独立噪声，从而有效增强了模型在长时序任务中的建模能力。
4. 首次在开放环路设置下系统地研究语言、想象和决策在具身导航中的相互作用，并验证了不同架构（扩散模型 vs. 自回归模型）在泛化性和时序连贯性上的互补优势。
关键公式:
1. LCVN-AC 智能体训练中用于对齐专家规划和学习者规划的 KL散度损失 L_KL：
2. LCVN-AC 的 行动者损失函数 L(θ)，该函数旨在最大化预期回报，同时通过KL散度和语言对齐损失进行正则化：

为帮助更高效切入这个方向，整理了该方向核心baseline的复现教程 + 改进注释版代码，改几行就能跑自己的实验，含详细注释，需要可取~

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

初识SpringAl:Chat篇

2048 AI社区

怎么查看olama是否用到了显卡加速

当我们使用springai开发一个对话机器人之后，如何确定后台运行的ollama使用了gpu加速了呢？这里有几种方法，分别来介绍。本文使用方案一做一下验证。要查看 Ollama 是否用上了显卡加速，最简单直接的方法是使用命令查看已加载模型的设备分配情况，也可以用这类系统工具实时监控 GPU 的占用率。

2048 AI社区

AI Agent Harness Engineering 的核心价值主张

在我们大谈特谈“价值主张”之前，我们必须先把一些最基本的概念掰扯清楚。这就好比在建房子之前，我们得先知道什么是“砖头”，什么是“钢筋”。AI Agent（人工智能智能体）是一个具备自主感知环境、做出理性决策、并采取行动以实现特定目标的计算系统。听起来很抽象？我们可以把它想象成一个简化的“数字人”。通过各种接口（API、传感器、文本输入）接收外部环境的信息。通常由大语言模型（LLM）担任，负责推理、