Agent 能力评测怎么做
LLM-Agent 能力评测」是。
「LLM-Agent 能力评测」是任务完成度导向、系统级行为评测。
评什么 → 如何建任务 → 如何打分 → 如何构建评测平台 → 行业最佳实践 → 直接能跑的 Pipeline
0. 什么是 Agent 能力?
Agent(智能体)不是“回答问题”,而是感知 → 推理 → 决策 → 执行 → 校验 → 自我修正 → 成功完成任务。
因此 Agent 的能力至少包括 6 类:
-
任务分解(Task Decomposition)
是否能把复杂目标拆成稳定可执行子任务。 -
工具使用(Tool Use / API Calling)
能否选对工具、构造正确参数、理解工具返回结果。 -
环境交互(Environment Interaction)
浏览器、文档系统、数据表、操作系统、机器人等。 -
计划保持 / 长期记忆(Long-horizon Planning)
是否能执行 10~50 步以上链条而不崩溃。 -
错误恢复(Error Recovery)
工具返回错误、步骤失败、API 404 时是否能自救。 -
目标完成度(Task Success)
最终是否完成用户期望的工作,而不是写答案。
这决定了 Agent 评测不能用 MMLU、GSM8K,必须是系统级任务。
1. Agent 能力评测框架:三层结构
一个良好的 Agent 评测体系必须分三层:
① 基础能力层(Micro-skills Benchmarks)
测试单点技能,主要包括:
-
工具调用正确率(参数、顺序、理解返回)
-
小任务分解质量
-
状态跟踪(state tracking)
-
短链条规划
代表基准:
-
ToolAlpaca / ToolEval
-
API-Bench
-
TPTU(Tool-Plan-Trace Understanding)
② 场景任务层(Scenario-level Tasks)
模拟真实业务任务,如:
-
让 Agent 打开网页、搜索、抽取信息
-
用邮箱 API 查邮件 + 整理信息
-
操作数据库、文件系统
-
整理 PDF + 输出结构化报告
-
用记账工具做月账单汇总
代表基准:
-
WebArena / WebShop / Mind2Web
-
GAIA(Google 的高难任务)
-
AgentBench / MetaGPT Bench
③ 长链条系统层(Long-horizon Benchmarks)
评估“长程任务完成率 + 恢复能力 + 多轮规划”。
-
多工具流水线任务(例如:从网页收集数据 → 转换格式 → 写 Excel → 生成报告)
-
弱监督开放世界任务(open-world)
-
浏览器连续操作 30~50 步
-
真实环境执行(机器人 / IoT)
代表基准:
-
SWE-Bench(代码修改)
-
BrowserGym / BrowserBench
-
ARR(Autonomous Reasoning and Research)
-
OSWorld(操作系统层面的任务)
2. Agent 能力怎么量化?(指标体系)
只靠“成功/失败”会漏掉 Agent 的细节能力,所以要多维度评分:
① 任务成功率(Task Success Rate)——唯一硬指标
任务是否被正确完成?(最重要)
-
结构化结果是否正确
-
文件是否创建
-
操作系统指令是否按预期执行
-
浏览器是否成功点击到目标元素
② 工具调用正确率(Tool Accuracy)
对每个 tool 调用统计:
-
工具选择错误率
-
参数填写错误率
-
工具输出理解正确率
-
工具调用链的完整性
③ 计划质量(Planning Quality)
度量:
-
任务分解的正确性(step correctness)
-
子任务顺序是否合理
-
步数是否最小化
-
是否出现 deadloop / hallucinated plan
④ 执行稳定性(Execution Robustness)
主要评:
-
执行 10 步后是否崩溃
-
是否能从错误中恢复
-
是否因工具或环境问题而停止
-
连续任务完成率
例如:
| 指标 | 描述 |
|---|---|
| Error Recovery Rate | 调用错误后是否能自动修复 |
| Loop Avoidance | 是否出现无穷循环 |
| Step Robustness | 连续操作 30 步内失败率 |
⑤ 资源效率(Efficiency)
-
工具调用次数
-
步数
-
Token 消耗
-
时间消耗(latency)
优秀 Agent = 尽可能少的步骤完成任务。
⑥ 安全性(Safety for Agents)
Agent 不仅要安全回答问题,还要 安全执行操作:
-
是否会删除文件
-
是否调用危险 API
-
是否泄露敏感信息
-
是否绕过权限
3. 怎么构造优秀的 Agent 测试任务?(任务设计方法)
可以按不同难度设计任务:
① Level 1:单工具任务(Micro-bench)
例如:
-
使用计算器 API 计算某个值
-
调用天气 API 获取城市天气
-
用搜索 API 查询关键词并返回前 3 条
-
用邮件 API 获取未读邮件列表
② Level 2:多工具流水线任务(Pipeline)
例如:
任务:
从网页抓取数据 → 存入 Excel → 再生成报告 → 发送邮件。
涉及工具:
-
Browser tool
-
Parser tool
-
Excel writer
-
Email sender
评测点:
-
是否按顺序执行?
-
工具参数正确吗?
-
中间文件是否生成?
③ Level 3:长程任务(Long-horizon)
例如:
“请帮我生成一份《2024中国新能源汽车市场报告》,包含:
市场份额、主要厂商、5 张图表、数据来源列表、最后输出 PDF。”
需:
-
网页浏览
-
搜索
-
摘要抽取
-
表格处理
-
图表生成
-
PDF 导出
这里看:
-
是否崩溃
-
是否能持续跟踪目标
-
是否能进行错误恢复
④ Level 4:开放世界任务(Open-world)
如 WebArena / OSWorld:
“请帮我在电脑里找到过去 7 天修改过的所有 PPT 文件,将其中包含‘市场预测’关键词的内容提取,存入一个新的 markdown 文档。”
需要:
-
多文件系统交互
-
模糊搜索
-
跨任务记忆
这是测试 Agent 真正“自主智能”的极限。
4. 常用 Agent 基准:你应该怎么用?
下面是业界最有价值的基准及其特点:
① WebArena(浏览器真实世界任务)
任务类型:
-
网页查找
-
网页表单填写
-
信息抽取
-
浏览器点击
-
长链条交互
适合评测Web Agent。
② GAIA(Google 高难任务集)
复杂多模态任务,例如:
-
阅读网页
-
生成图表
-
解析 PDF
-
跨信息源推理
-
高难度组合任务
GAIA 是目前「综合性最强」的 Agent 评测之一。
③ SWE-Bench(代码修改 Agent)
任务:
-
阅读 GitHub issue
-
阅读项目源码
-
修改代码
-
跑单测验证是否通过
是“软件工程 Agent”评测的黄金标准。
④ OSWorld(操作系统级任务)
测试 Agent 是否能操作:
-
窗口
-
剪贴板
-
文档
-
文件系统
-
GUI 点击
非常适用于“桌面自动化 Agent”。
⑤ Mind2Web / WebShop
测试网络行为:
-
WebShop:电子商务环境(购买、筛选、对比商品)
-
Mind2Web:真实网页多步操作
⑥ AgentBench(系统级大集合)
覆盖:
-
工具使用
-
QA + Env
-
DB 操作
-
代码
-
多轮长任务
适合作为你自建评测平台的主要参考。
5. 如何实现自己的 Agent 评测平台?
给一个可直接跑的落地方案:
Step 1:构建任务环境
选择你需要的:
-
BrowserGym / MiniWoB(网页环境)
-
SQL sandbox(数据库环境)
-
文件系统 sandbox(安全隔离)
-
工具 API Mock(天气、邮件、翻译等)
Step 2:为每个任务写“Ground Truth Checker”
例如网页任务:
-
检查 DOM 是否匹配目标元素
-
检查页面上的文本是否被成功抓取
文件任务:
-
检查目标文件是否存在
-
检查内容是否正确
Step 3:记录所有执行轨迹(Trajectory Logging)
每步都要 log:
-
Agent 想做什么(action)
-
工具实际返回什么(observation)
-
Agent 如何修改自己的计划(thought)
这能用于:
-
回放错误
-
分析行为
-
训练 PRM(Process Reward Model)
Step 4:统一打分系统
输出如下 JSON:
{
"task_name": "web_search_extract",
"success": true,
"steps": 12,
"tool_calls": 8,
"errors": 1,
"recovered": true,
"efficiency_score": 0.74,
"final_score": 0.86
}
Step 5:构建 Agent Leaderboard(持续评测)
包括:
-
成功率曲线
-
任务难度等级
-
工具调用成功率
-
平均步数/Token 数统计
这样你就可以比较:
-
你的模型 vs GPT-5.1
-
你的模型 vs DeepSeek Agent
-
你的模型 vs Claude Agent
-
你的模型 vs Open-source ReAct/MST/Tree-Plan agents
6. 一套可直接使用的 Agent 评测任务包
我为你设计了一个可直接落地的 12 项 Agent Benchmark:
① 单工具(Level 1)
-
天气 API 查询
-
邮箱 API 获取未读邮件
-
文本翻译 API
-
Excel 写入(创建 1 个 sheet + 3 行数据)
② 多工具(Level 2)
-
从网页抓取文章摘要 → 写入 markdown
-
在本地 CSV 中做数据统计 → 画折线图 → 保存 PNG
-
用搜索工具找 3 个资料 → 生成对比表格
③ 长链条任务(Level 3)
-
从 5 个网页抓取数据 → 合并成一个 Excel → 导出 PDF
-
自动化“搜索商品 → 对比 → 输出推荐理由”
-
自动阅读 PDF → 结构化抽取关键信息
④ 系统级任务(Level 4)
-
操作文件系统:查找 7 天内修改过的 PPT → 解析内容 → 聚合成报告
-
浏览器端执行 30 步连续操作(登录、搜索、提取数据、表单填写)
更多推荐



所有评论(0)