原力灵机提出ManiAgent！会 “动手”，会 “思考”，还会“采数据”！

ManiAgent场景感知智能体：以场景图像和用户提供的指令作为输入，调用视觉语言模型（VLM）生成与任务相关的场景描述，为后续任务处理提供环境信息基础。推理智能体：接收感知智能体输出的场景描述与初始任务指令，通过查询**大型语言模型（LLM）**对当前任务状态进行评估，提出明确可以完成的子任务。物品级别感知智能体：在子任务执行过程中，感知智能体采用目标检测方法，精准识别场景中的目标物体，并提取其

Tom Hardy

421人浏览 · 2026-01-01 15:38:23

Tom Hardy · 2026-01-01 15:38:23 发布

在机器人操作领域，Vision-Language-Action（VLA）模型虽已展现出一定技术潜力，但其在复杂推理与长程任务规划场景下的性能，仍受限于数据稀缺与模型容量两大核心问题。为此，我们提出了 ManiAgent —— 一种面向通用机器人操作任务的智能体架构，该架构可实现从任务描述、环境输入到机器人操作动作的端到端输出。

在 ManiAgent 框架中，多个智能体通过协同交互分别承担环境感知、子任务分解与动作生成功能，能够高效应对复杂操作场景。我们通过实验评估发现，ManiAgent 在 SimplerEnv 基准测试中的任务成功率达86.8%，在真实世界拾取 - 放置任务中的成功率更高达95.8%。值得注意的是，依托其高任务成功率，ManiAgent 还可作为高效数据采集工具，基于该工具获取的训练数据所构建的 VLA 模型，性能能够与基于人工标注数据集训练的 VLA 模型相媲美，这为机器人操作领域的技术优化与落地提供了重要支撑。

图1: ManiAgent的整体工作流程示例

论文题目：ManiAgent: An Agentic Framework for General Robotic Manipulation
论文链接：https://arxiv.org/abs/2510.11660
项目主页：https://yi-yang929.github.io/ManiAgent/
论文时间：Oct, 13, 2025
作者单位：北京工业大学，南京大学，中国科学技术大学，原力灵机

原文链接：原力灵机提出ManiAgent！会 “动手”，会 “思考”，还会“采数据”！

🌟 研究亮点概览

提出全新的端到端机器人操作解决方案：ManiAgent 可直接接收任务描述与环境输入，输出机器人可执行的操作动作，实现从任务指令到机械臂动作的端到端闭环，大幅简化算法部署流程。
构建通用操作任务分解机制：ManiAgent 将通用操作任务拆解为环境感知、推理规划、动作生成三大核心环节，分别由对应的智能体各司其职，通过智能体间的协作高效应对复杂操作场景。
高成功率验证与数据采集赋能：大量实验表明，ManiAgent 在 SimplerEnv 仿真基准测试中成功率达86.8%，在真实世界拾取 - 放置任务中成功率高达95.8%；依托其高可靠性，ManiAgent 还可作为高效的自动化数据采集工具，生成的训练数据能支撑 VLA 模型训练，且训练出的 VLA 模型性能可与人工标注数据集训练的模型媲美，显著降低数据采集成本并为 VLA 技术落地提供数据支撑。

🤖 方法概述

图2: ManiAgent方法示意图

ManiAgent 由4个智能体组成：

场景感知智能体：以场景图像和用户提供的指令作为输入，调用视觉语言模型（VLM）生成与任务相关的场景描述，为后续任务处理提供环境信息基础。
推理智能体：接收感知智能体输出的场景描述与初始任务指令，通过查询**大型语言模型（LLM）**对当前任务状态进行评估，提出明确可以完成的子任务。
物品级别感知智能体：在子任务执行过程中，感知智能体采用目标检测方法，精准识别场景中的目标物体，并提取其详细信息（如3D位置、抓取姿态等），为动作生成提供关键数据。
控制器智能体：控制器智能体先依据当前子任务查询缓存，若存在匹配的已缓存动作序列，则直接调用该序列；若未找到匹配项，便结合子任务描述与感知到的物体细节查询 LLM，生成可直接执行的完整动作序列。

🔍 实现细节

ManiAgent 框架通过工具调用、上下文工程、实时性优化与自动数据采集四大关键技术突破，构建了从环境感知到动作执行的完整技术链路，以下为各模块具体实现逻辑：

🔧 工具调用

ManiAgent 通过多工具协同支撑全流程操作：

视觉语言模型（VLM）：用于场景感知与物体筛选，如调用 Qwen-VL 生成任务相关场景描述，借助 Florence-v2 实现开放词汇目标检测，精准定位物体像素坐标并转换为3D 空间坐标；
大型语言模型（LLM）：负责推理规划与动作生成，例如通过 GPT-5 完成子任务分解、历史任务记忆存储，以及结合物体位置 / 抓取姿态信息生成可执行动作序列；
专用感知工具：采用 AnyGrasp 生成全场景抓取姿态，结合深度图与相机参数计算物体 3D坐标，解决机械臂抓取精度问题。

🖋 上下文工程

围绕 “提升任务相关性与信息有效性” 设计上下文处理机制：

场景描述优化：在提示词（Prompt） 的设计过程中，优先确保覆盖场景中所有任务相关真实信息，再剔除冗余内容，避免干扰后续推理；
子任务上下文管理：推理智能体采用增量式子任务分解，不一次性拆解全流程，而是结合实时场景动态调整，同时存储历史子任务作为记忆，防止局部循环；
物体信息格式化：将感知到的物体中心坐标、抓取姿态等关键数据转换为统一文本格式，作为 LLM 生成动作序列的输入上下文，确保信息传递一致性，避免格式偏差导致的动作失效。

⚡️ 实时性优化

通过缓存机制降低动作生成延迟，提升任务执行效率：

参数化动作缓存：控制器智能体将已执行子任务的动作序列参数化存储（如抓取姿态、移动轨迹模板），当新任务与缓存任务提示完全匹配时，直接调用缓存序列并结合当前物体坐标生成具体动作，无需重复查询LLM；
缓存一致性保障：依托物体感知阶段固定的物体索引，确保缓存动作序列与当前场景中物体信息的匹配性，避免因物体位置变化导致的动作错位；
轻量验证逻辑：在采集数据等相对可控的场景下，采用规则化任务成功判定（如物体最终位置与目标位置距离 < 15cm），替代耗时的 VLM 二次验证，减少流程冗余。

🎮 自动数据采集

基于高任务成功率构建端到端自动化数据采集体系：

场景重置机制：支持随机或规则化场景重置，例如通过规则生成物体坐标，使物体沿固定轨迹排列，确保数据采集的位置多样性；
数据记录与筛选：在控制器中集成数据集记录功能，自动采集机械臂动作轨迹、场景图像、物体位置等数据，在采集阶段，系统借助规则化的任务验证逻辑即可完成对数据的筛选；
低干预运维：整个采集过程仅需少量人工介入（如处理逆运动学规划失败导致的物体移位，平均每 46 分钟 1 次干预），大幅降低人力成本；采集数据可直接用于 VLA 模型训练，如用其训练的 CogACT 模型，性能可媲美人工标注数据集训练模型。

图3: 自动采集流程的示例及表现

✍️ 实验设计

我们分别在 SimplerEnv 仿真环境、真实场景中对 ManiAgent 的表现进行了评估。值得注意的是，在整个实验中（包含仿真和实物实验），我们使用的 prompt 完全保持一致，没有针对任何特殊任务做调整。与此同时，针对自动化数据采集，我们也设计了对应的实验。

1. SimplerEnv（高拟真仿真平台）

任务：4项典型的抓取-放置任务（将绿色方块堆叠到黄色方块上、把胡萝卜放在盘子里、将勺子置于毛巾上、把茄子从水槽移至篮子中）。
实验流程：每组任务重复 3 次（含不同随机种子），每次实验以 24 次操作尝试为单位，最终取平均值作为结果，确保数据稳定性。
评价指标：各任务的平均成功率及整体平均成功率。

2. 真实场景（使用 WidowX 250S 机械臂）

任务：设计 8 项覆盖多能力维度的代表性任务，包括基础抓取 - 放置（如将特定物品放入对应容器）、较复杂的抓取 - 放置（如堆叠方块）、意图推理（如从模糊指令 “我饿了” 中识别拿取的物品）、常识知识应用（如按餐桌礼仪将刀叉分别放在左右手边）、长序列任务（如按食谱摆放多种食材）。
实验设定：两个Realsense D435相机，分别提供正向视角和侧向视角的RGBD信息，其中正向视角作为各智能体推理输入，侧向视角用于进行更细致的点云生成补充。
评价指标：成功率。

3. 自动化数据采集（使用 WidowX 250S 机械臂）

在简单的抓取放置任务上对 ManiAgent 的数据采集功能进行验证，
流程：自动布置环境（随机或规则化方法）➡️ 自动采集 ➡️ 标记采集数据
评价指标：人工干预频率、采集成功率、采集速度

📊 实验结果

图4: SimplerEnv仿真环境中的表现

图5: 实物实验的任务定义以及成功率

主要结论：

SimplerEnv 中最高取得86.8%的平均成功率。
在包含各类复杂推理任务的实物实验中最高取得95.8%的平均成功率。
通过ManiAgent自动采集的数据可以达到与人工采集数据相同的训练效果。

📍 研究意义与展望

ManiAgent 的价值在于突破传统VLA模型在意图推理以及长程任务上的瓶颈，通过多个智能体的相互配合实现在仿真与真实任务场景下，以较高的成功率完成通用操作任务，无需额外训练数据；同时，ManiAgent 也可以自动采集高质量数据，大幅降低 VLA 技术落地成本，并打通 “感知 - 推理 - 控制” 技术链路，为机器人操作框架提供参考。在未来的工作中，我们将重点聚焦于强化实时反馈以适配动态场景，将算法拓展至移动机器人等多平台，优化算法的人机交互体验，提升算法中指令理解部分的灵活性，进一步拓展应用边界。

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

异步编程在C#中通过async/await极大简化了并发代码的编写，但也引入了一些常见陷阱，可能导致性能问题、死锁或未预期的行为

异步编程在C#中通过async/await极大简化了并发代码的编写，但也引入了一些常见陷阱，可能导致性能问题、死锁或未预期的行为。以下是一些C#异步编程的常见陷阱，结合问题分析和安全高效的解决方案，附带简洁的示例。正确写法：在不需要上下文时使用ConfigureAwait(false)。正确写法：使用 async Task 确保异常可捕获。正确写法：使用SemaphoreSlim限制并发。正