2025 年 12 月,Google 在开源社区投下一颗重磅炸弹:DeepSearchQA —— 一个专为评估“深度研究型智能体”(Deep Research Agent)而设计的新基准。它不仅刷新了 SOTA,更重新定义了“什么是好的研究 Agent”

与传统问答评测不同,DeepSearchQA 的核心不是“答案是否正确”,而是:

Agent 是否能像人类研究员一样,按逻辑链条逐步求证?

本文将深入剖析 DeepSearchQA 的设计哲学、任务结构与评估逻辑,并探讨它对下一代 Agent 开发的启示。


一、为什么传统评估方法失效?

当前主流 Agent 评测(如 HotpotQA、MuSiQue)多聚焦于:

  • 多跳问答准确率
  • 引用来源数量
  • 报告流畅度

但这些指标无法回答关键问题:

  • Agent 是真正检索验证,还是靠 LLM 先验“编”出来的?
  • 它是否遗漏了关键推理环节(比如未确认事实就直接归因)?
  • 当问题复杂时,能否长期保留上下文并迭代修正

Google 指出:研究型任务的本质是“过程可信”,而非“结果漂亮”。为此,DeepSearchQA 应运而生。


二、DeepSearchQA 的三大创新

1. 900 个手工构造的“隐式因果链任务”

每个任务由专家精心设计,问题本身编码了严格的多跳依赖。例如:

主问题:特斯拉 2024 Q2 汽车毛利率为何下降?是否影响能源业务?

要正确回答,Agent 必须完成一系列隐含步骤

  1. 获取 Q2 汽车毛利率具体数值(事实确认);
  2. 对比 Q1 与去年同期数据(上下文分析 ← 依赖 1);
  3. 检索财报或电话会记录,找出管理层归因(归因分析 ← 依赖 1);
  4. 获取能源业务当季盈利数据(跨域验证);
  5. 判断是否存在战略联动(因果推演 ← 依赖 3+4)。

关键点:虽然 DSQA 不显式列出这些步骤,但跳过任何一环都极可能导致答案错误。这种“隐式因果链”正是其评估深度研究能力的核心机制。

2. 强调“答案完整性”而非“报告长度”

DSQA 不奖励冗长描述,而是要求 Agent 精确命中所有正确实体。其答案分为两类:

  • Single Answer:唯一正确值(如 "Italy");
  • Set Answer:多个正确项组成的集合(如 "Philippines, Vietnam, India")。

评估时采用严格集合匹配——漏掉一项即不得分。

3. 支持“思考效率”度量

Google 内部发现:允许 Agent 执行更多搜索与推理步骤时,性能显著提升。因此 DSQA 也隐含评估“单位思考成本下的信息获取效率”。


三、真实数据格式与评估方式(基于社区样本)

通过 Google分享的 DSQA-full.csv 可知,任务以简洁 CSV 格式呈现:

"Query text...",Domain,"Answer A, Answer B",Set Answer

示例(真实还原):

"According to CDC and World Population Review, which states had <1000 homicide deaths in 2022 and contain a city with >1M population in 2020?",Politics & Government,"Arizona, New York",Set Answer

自动化评估逻辑

  • Single Answer:字符串完全匹配;
  • Set Answer:标准化后集合相等(忽略顺序、大小写、括号注释等)。

💡 注意:Kaggle Leaderboard 接受最终答案提交,不强制提供中间步骤。但高质量 Agent 往往因具备可靠推理过程而胜出。


四、对开发者的意义:从“生成”走向“可验证的研究系统”

DeepSearchQA 的出现,标志着 Agent 开发进入新阶段:

  • 不再追求“端到端黑盒”,而是构建可观测、可干预、可验证的研究流水线;
  • 能力内建:Agent 需原生支持多工具调用、中间结果缓存、引用溯源;
  • 评估驱动设计:在架构初期就考虑如何应对 DSQA 这类“隐式多跳”挑战。

五、实践呼应:一个开源方向的尝试

受 DSQA 启发,我近期也在探索如何构建支持深度研究的 Agent 基础设施。在个人开源项目 Deep Research Agent 中,我尝试通过 LangGraph 实现:

  • 多步规划与反思循环
  • 细粒度引用生成
  • Human-in-the-Loop 干预机制

目前项目仍在重构中(feat/multi-agent-v1 分支),尚未集成 DSQA 评估模块,但已预留扩展点。欢迎关注进展,也期待未来能基于 DSQA 思想贡献一套开源评估方案。

🔗 项目地址:https://github.com/changflow/deep-research-agent
(仅为技术探索,非生产推荐)


六、结语

DeepSearchQA 不只是一个 benchmark,更是一套研究型 AI 的方法论。它提醒我们:

真正的智能,不在于说出正确答案,而在于走对通往答案的每一步。

作为开发者,我们应当拥抱这种“过程导向”的评估范式,推动 Agent 从“聊天高手”进化为“可靠协作者”。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐