「LLM-Agent 能力评测」是任务完成度导向系统级行为评测

评什么 → 如何建任务 → 如何打分 → 如何构建评测平台 → 行业最佳实践 → 直接能跑的 Pipeline


0. 什么是 Agent 能力?

Agent(智能体)不是“回答问题”,而是感知 → 推理 → 决策 → 执行 → 校验 → 自我修正 → 成功完成任务

因此 Agent 的能力至少包括 6 类:

  1. 任务分解(Task Decomposition)
    是否能把复杂目标拆成稳定可执行子任务。

  2. 工具使用(Tool Use / API Calling)
    能否选对工具、构造正确参数、理解工具返回结果。

  3. 环境交互(Environment Interaction)
    浏览器、文档系统、数据表、操作系统、机器人等。

  4. 计划保持 / 长期记忆(Long-horizon Planning)
    是否能执行 10~50 步以上链条而不崩溃。

  5. 错误恢复(Error Recovery)
    工具返回错误、步骤失败、API 404 时是否能自救。

  6. 目标完成度(Task Success)
    最终是否完成用户期望的工作,而不是写答案。

这决定了 Agent 评测不能用 MMLU、GSM8K,必须是系统级任务。


1. Agent 能力评测框架:三层结构

一个良好的 Agent 评测体系必须分三层:

① 基础能力层(Micro-skills Benchmarks)

测试单点技能,主要包括:

  • 工具调用正确率(参数、顺序、理解返回)

  • 小任务分解质量

  • 状态跟踪(state tracking)

  • 短链条规划

代表基准:

  • ToolAlpaca / ToolEval

  • API-Bench

  • TPTU(Tool-Plan-Trace Understanding)

② 场景任务层(Scenario-level Tasks)

模拟真实业务任务,如:

  • 让 Agent 打开网页、搜索、抽取信息

  • 用邮箱 API 查邮件 + 整理信息

  • 操作数据库、文件系统

  • 整理 PDF + 输出结构化报告

  • 用记账工具做月账单汇总

代表基准:

  • WebArena / WebShop / Mind2Web

  • GAIA(Google 的高难任务)

  • AgentBench / MetaGPT Bench

③ 长链条系统层(Long-horizon Benchmarks)

评估“长程任务完成率 + 恢复能力 + 多轮规划”。

  • 多工具流水线任务(例如:从网页收集数据 → 转换格式 → 写 Excel → 生成报告)

  • 弱监督开放世界任务(open-world)

  • 浏览器连续操作 30~50 步

  • 真实环境执行(机器人 / IoT)

代表基准:

  • SWE-Bench(代码修改)

  • BrowserGym / BrowserBench

  • ARR(Autonomous Reasoning and Research)

  • OSWorld(操作系统层面的任务)


2. Agent 能力怎么量化?(指标体系)

只靠“成功/失败”会漏掉 Agent 的细节能力,所以要多维度评分:


① 任务成功率(Task Success Rate)——唯一硬指标

任务是否被正确完成?(最重要)

  • 结构化结果是否正确

  • 文件是否创建

  • 操作系统指令是否按预期执行

  • 浏览器是否成功点击到目标元素


② 工具调用正确率(Tool Accuracy)

对每个 tool 调用统计:

  • 工具选择错误率

  • 参数填写错误率

  • 工具输出理解正确率

  • 工具调用链的完整性


③ 计划质量(Planning Quality)

度量:

  • 任务分解的正确性(step correctness)

  • 子任务顺序是否合理

  • 步数是否最小化

  • 是否出现 deadloop / hallucinated plan


④ 执行稳定性(Execution Robustness)

主要评:

  • 执行 10 步后是否崩溃

  • 是否能从错误中恢复

  • 是否因工具或环境问题而停止

  • 连续任务完成率

例如:

指标 描述
Error Recovery Rate 调用错误后是否能自动修复
Loop Avoidance 是否出现无穷循环
Step Robustness 连续操作 30 步内失败率

⑤ 资源效率(Efficiency)

  • 工具调用次数

  • 步数

  • Token 消耗

  • 时间消耗(latency)

优秀 Agent = 尽可能少的步骤完成任务


⑥ 安全性(Safety for Agents)

Agent 不仅要安全回答问题,还要 安全执行操作

  • 是否会删除文件

  • 是否调用危险 API

  • 是否泄露敏感信息

  • 是否绕过权限


3. 怎么构造优秀的 Agent 测试任务?(任务设计方法)

可以按不同难度设计任务:


① Level 1:单工具任务(Micro-bench)

例如:

  • 使用计算器 API 计算某个值

  • 调用天气 API 获取城市天气

  • 用搜索 API 查询关键词并返回前 3 条

  • 用邮件 API 获取未读邮件列表


② Level 2:多工具流水线任务(Pipeline)

例如:

任务:

从网页抓取数据 → 存入 Excel → 再生成报告 → 发送邮件。

涉及工具:

  1. Browser tool

  2. Parser tool

  3. Excel writer

  4. Email sender

评测点:

  • 是否按顺序执行?

  • 工具参数正确吗?

  • 中间文件是否生成?


③ Level 3:长程任务(Long-horizon)

例如:

“请帮我生成一份《2024中国新能源汽车市场报告》,包含:
市场份额、主要厂商、5 张图表、数据来源列表、最后输出 PDF。”

需:

  • 网页浏览

  • 搜索

  • 摘要抽取

  • 表格处理

  • 图表生成

  • PDF 导出

这里看:

  • 是否崩溃

  • 是否能持续跟踪目标

  • 是否能进行错误恢复


④ Level 4:开放世界任务(Open-world)

如 WebArena / OSWorld:

“请帮我在电脑里找到过去 7 天修改过的所有 PPT 文件,将其中包含‘市场预测’关键词的内容提取,存入一个新的 markdown 文档。”

需要:

  • 多文件系统交互

  • 模糊搜索

  • 跨任务记忆

这是测试 Agent 真正“自主智能”的极限。


4. 常用 Agent 基准:你应该怎么用?

下面是业界最有价值的基准及其特点:


① WebArena(浏览器真实世界任务)

任务类型:

  • 网页查找

  • 网页表单填写

  • 信息抽取

  • 浏览器点击

  • 长链条交互

适合评测Web Agent


② GAIA(Google 高难任务集)

复杂多模态任务,例如:

  • 阅读网页

  • 生成图表

  • 解析 PDF

  • 跨信息源推理

  • 高难度组合任务

GAIA 是目前「综合性最强」的 Agent 评测之一。


③ SWE-Bench(代码修改 Agent)

任务:

  • 阅读 GitHub issue

  • 阅读项目源码

  • 修改代码

  • 跑单测验证是否通过

是“软件工程 Agent”评测的黄金标准。


④ OSWorld(操作系统级任务)

测试 Agent 是否能操作:

  • 窗口

  • 剪贴板

  • 文档

  • 文件系统

  • GUI 点击

非常适用于“桌面自动化 Agent”。


⑤ Mind2Web / WebShop

测试网络行为:

  • WebShop:电子商务环境(购买、筛选、对比商品)

  • Mind2Web:真实网页多步操作


⑥ AgentBench(系统级大集合)

覆盖:

  • 工具使用

  • QA + Env

  • DB 操作

  • 代码

  • 多轮长任务

适合作为你自建评测平台的主要参考。


5. 如何实现自己的 Agent 评测平台?

给一个可直接跑的落地方案:


Step 1:构建任务环境

选择你需要的:

  • BrowserGym / MiniWoB(网页环境)

  • SQL sandbox(数据库环境)

  • 文件系统 sandbox(安全隔离)

  • 工具 API Mock(天气、邮件、翻译等)


Step 2:为每个任务写“Ground Truth Checker”

例如网页任务:

  • 检查 DOM 是否匹配目标元素

  • 检查页面上的文本是否被成功抓取

文件任务:

  • 检查目标文件是否存在

  • 检查内容是否正确


Step 3:记录所有执行轨迹(Trajectory Logging)

每步都要 log:

  • Agent 想做什么(action)

  • 工具实际返回什么(observation)

  • Agent 如何修改自己的计划(thought)

这能用于:

  • 回放错误

  • 分析行为

  • 训练 PRM(Process Reward Model)


Step 4:统一打分系统

输出如下 JSON:

{
  "task_name": "web_search_extract",
  "success": true,
  "steps": 12,
  "tool_calls": 8,
  "errors": 1,
  "recovered": true,
  "efficiency_score": 0.74,
  "final_score": 0.86
}

Step 5:构建 Agent Leaderboard(持续评测)

包括:

  • 成功率曲线

  • 任务难度等级

  • 工具调用成功率

  • 平均步数/Token 数统计

这样你就可以比较:

  • 你的模型 vs GPT-5.1

  • 你的模型 vs DeepSeek Agent

  • 你的模型 vs Claude Agent

  • 你的模型 vs Open-source ReAct/MST/Tree-Plan agents


6. 一套可直接使用的 Agent 评测任务包

我为你设计了一个可直接落地的 12 项 Agent Benchmark


① 单工具(Level 1)

  1. 天气 API 查询

  2. 邮箱 API 获取未读邮件

  3. 文本翻译 API

  4. Excel 写入(创建 1 个 sheet + 3 行数据)


② 多工具(Level 2)

  1. 从网页抓取文章摘要 → 写入 markdown

  2. 在本地 CSV 中做数据统计 → 画折线图 → 保存 PNG

  3. 用搜索工具找 3 个资料 → 生成对比表格


③ 长链条任务(Level 3)

  1. 从 5 个网页抓取数据 → 合并成一个 Excel → 导出 PDF

  2. 自动化“搜索商品 → 对比 → 输出推荐理由”

  3. 自动阅读 PDF → 结构化抽取关键信息


④ 系统级任务(Level 4)

  1. 操作文件系统:查找 7 天内修改过的 PPT → 解析内容 → 聚合成报告

  2. 浏览器端执行 30 步连续操作(登录、搜索、提取数据、表单填写)

 

 

 

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐