Agent 能力评测怎么做

LLM-Agent 能力评测」是。

10％光速

483人浏览 · 2025-11-29 08:54:36

10％光速 · 2025-11-29 08:54:36 发布

「LLM-Agent 能力评测」是任务完成度导向、系统级行为评测。

评什么 → 如何建任务 → 如何打分 → 如何构建评测平台 → 行业最佳实践 → 直接能跑的 Pipeline

0. 什么是 Agent 能力？

Agent（智能体）不是“回答问题”，而是感知 → 推理 → 决策 → 执行 → 校验 → 自我修正 → 成功完成任务。

因此 Agent 的能力至少包括 6 类：

任务分解（Task Decomposition）
是否能把复杂目标拆成稳定可执行子任务。
工具使用（Tool Use / API Calling）
能否选对工具、构造正确参数、理解工具返回结果。
环境交互（Environment Interaction）
浏览器、文档系统、数据表、操作系统、机器人等。
计划保持 / 长期记忆（Long-horizon Planning）
是否能执行 10～50 步以上链条而不崩溃。
错误恢复（Error Recovery）
工具返回错误、步骤失败、API 404 时是否能自救。
目标完成度（Task Success）
最终是否完成用户期望的工作，而不是写答案。

这决定了 Agent 评测不能用 MMLU、GSM8K，必须是系统级任务。

1. Agent 能力评测框架：三层结构

一个良好的 Agent 评测体系必须分三层：

① 基础能力层（Micro-skills Benchmarks）

测试单点技能，主要包括：

工具调用正确率（参数、顺序、理解返回）
小任务分解质量
状态跟踪（state tracking）
短链条规划

代表基准：

ToolAlpaca / ToolEval
API-Bench
TPTU（Tool-Plan-Trace Understanding）

② 场景任务层（Scenario-level Tasks）

模拟真实业务任务，如：

让 Agent 打开网页、搜索、抽取信息
用邮箱 API 查邮件 + 整理信息
操作数据库、文件系统
整理 PDF + 输出结构化报告
用记账工具做月账单汇总

代表基准：

WebArena / WebShop / Mind2Web
GAIA（Google 的高难任务）
AgentBench / MetaGPT Bench

③ 长链条系统层（Long-horizon Benchmarks）

评估“长程任务完成率 + 恢复能力 + 多轮规划”。

多工具流水线任务（例如：从网页收集数据 → 转换格式 → 写 Excel → 生成报告）
弱监督开放世界任务（open-world）
浏览器连续操作 30～50 步
真实环境执行（机器人 / IoT）

代表基准：

SWE-Bench（代码修改）
BrowserGym / BrowserBench
ARR（Autonomous Reasoning and Research）
OSWorld（操作系统层面的任务）

2. Agent 能力怎么量化？（指标体系）

只靠“成功/失败”会漏掉 Agent 的细节能力，所以要多维度评分：

① 任务成功率（Task Success Rate）——唯一硬指标

任务是否被正确完成？（最重要）

结构化结果是否正确
文件是否创建
操作系统指令是否按预期执行
浏览器是否成功点击到目标元素

② 工具调用正确率（Tool Accuracy）

对每个 tool 调用统计：

工具选择错误率
参数填写错误率
工具输出理解正确率
工具调用链的完整性

③ 计划质量（Planning Quality）

度量：

任务分解的正确性（step correctness）
子任务顺序是否合理
步数是否最小化
是否出现 deadloop / hallucinated plan

④ 执行稳定性（Execution Robustness）

主要评：

执行 10 步后是否崩溃
是否能从错误中恢复
是否因工具或环境问题而停止
连续任务完成率

例如：

指标	描述
Error Recovery Rate	调用错误后是否能自动修复
Loop Avoidance	是否出现无穷循环
Step Robustness	连续操作 30 步内失败率

⑤ 资源效率（Efficiency）

工具调用次数
步数
Token 消耗
时间消耗（latency）

优秀 Agent = 尽可能少的步骤完成任务。

⑥ 安全性（Safety for Agents）

Agent 不仅要安全回答问题，还要 安全执行操作：

是否会删除文件
是否调用危险 API
是否泄露敏感信息
是否绕过权限

3. 怎么构造优秀的 Agent 测试任务？（任务设计方法）

可以按不同难度设计任务：

① Level 1：单工具任务（Micro-bench）

例如：

使用计算器 API 计算某个值
调用天气 API 获取城市天气
用搜索 API 查询关键词并返回前 3 条
用邮件 API 获取未读邮件列表

② Level 2：多工具流水线任务（Pipeline）

例如：

任务：

从网页抓取数据 → 存入 Excel → 再生成报告 → 发送邮件。

涉及工具：

Browser tool
Parser tool
Excel writer
Email sender

评测点：

是否按顺序执行？
工具参数正确吗？
中间文件是否生成？

③ Level 3：长程任务（Long-horizon）

例如：

“请帮我生成一份《2024中国新能源汽车市场报告》，包含：
市场份额、主要厂商、5 张图表、数据来源列表、最后输出 PDF。”

需：

网页浏览
搜索
摘要抽取
表格处理
图表生成
PDF 导出

这里看：

是否崩溃
是否能持续跟踪目标
是否能进行错误恢复

④ Level 4：开放世界任务（Open-world）

如 WebArena / OSWorld：

“请帮我在电脑里找到过去 7 天修改过的所有 PPT 文件，将其中包含‘市场预测’关键词的内容提取，存入一个新的 markdown 文档。”

需要：

多文件系统交互
模糊搜索
跨任务记忆

这是测试 Agent 真正“自主智能”的极限。

4. 常用 Agent 基准：你应该怎么用？

下面是业界最有价值的基准及其特点：

① WebArena（浏览器真实世界任务）

任务类型：

网页查找
网页表单填写
信息抽取
浏览器点击
长链条交互

适合评测Web Agent。

② GAIA（Google 高难任务集）

复杂多模态任务，例如：

阅读网页
生成图表
解析 PDF
跨信息源推理
高难度组合任务

GAIA 是目前「综合性最强」的 Agent 评测之一。

③ SWE-Bench（代码修改 Agent）

任务：

阅读 GitHub issue
阅读项目源码
修改代码
跑单测验证是否通过

是“软件工程 Agent”评测的黄金标准。

④ OSWorld（操作系统级任务）

测试 Agent 是否能操作：

窗口
剪贴板
文档
文件系统
GUI 点击

非常适用于“桌面自动化 Agent”。

⑤ Mind2Web / WebShop

测试网络行为：

WebShop：电子商务环境（购买、筛选、对比商品）
Mind2Web：真实网页多步操作

⑥ AgentBench（系统级大集合）

覆盖：

工具使用
QA + Env
DB 操作
代码
多轮长任务

适合作为你自建评测平台的主要参考。

5. 如何实现自己的 Agent 评测平台？

给一个可直接跑的落地方案：

Step 1：构建任务环境

选择你需要的：

BrowserGym / MiniWoB（网页环境）
SQL sandbox（数据库环境）
文件系统 sandbox（安全隔离）
工具 API Mock（天气、邮件、翻译等）

Step 2：为每个任务写“Ground Truth Checker”

例如网页任务：

检查 DOM 是否匹配目标元素
检查页面上的文本是否被成功抓取

文件任务：

检查目标文件是否存在
检查内容是否正确

Step 3：记录所有执行轨迹（Trajectory Logging）

每步都要 log：

Agent 想做什么（action）
工具实际返回什么（observation）
Agent 如何修改自己的计划（thought）

这能用于：

回放错误
分析行为
训练 PRM（Process Reward Model）

Step 4：统一打分系统

输出如下 JSON：

{
  "task_name": "web_search_extract",
  "success": true,
  "steps": 12,
  "tool_calls": 8,
  "errors": 1,
  "recovered": true,
  "efficiency_score": 0.74,
  "final_score": 0.86
}

Step 5：构建 Agent Leaderboard（持续评测）

包括：

成功率曲线
任务难度等级
工具调用成功率
平均步数/Token 数统计

这样你就可以比较：

你的模型 vs GPT-5.1
你的模型 vs DeepSeek Agent
你的模型 vs Claude Agent
你的模型 vs Open-source ReAct/MST/Tree-Plan agents

6. 一套可直接使用的 Agent 评测任务包

我为你设计了一个可直接落地的 12 项 Agent Benchmark：

① 单工具（Level 1）

天气 API 查询
邮箱 API 获取未读邮件
文本翻译 API
Excel 写入（创建 1 个 sheet + 3 行数据）

② 多工具（Level 2）

从网页抓取文章摘要 → 写入 markdown
在本地 CSV 中做数据统计 → 画折线图 → 保存 PNG
用搜索工具找 3 个资料 → 生成对比表格

③ 长链条任务（Level 3）

从 5 个网页抓取数据 → 合并成一个 Excel → 导出 PDF
自动化“搜索商品 → 对比 → 输出推荐理由”
自动阅读 PDF → 结构化抽取关键信息

④ 系统级任务（Level 4）

操作文件系统：查找 7 天内修改过的 PPT → 解析内容 → 聚合成报告
浏览器端执行 30 步连续操作（登录、搜索、提取数据、表单填写）

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Django安全最佳实践：防范常见Web攻击

2048 AI社区

Winform+WPF双框架实战：喷涂工艺SCADA上位机从0到1搭建（附采集监控源码+车间踩坑实录）

2048 AI社区

C#轻量级上位机实战：从0到1打通MES与视觉检测系统（附通信源码）

2048 AI社区

所有评论(0)

查看更多评论

10％光速

@m0_66858441

已为社区贡献41条内容