DeepResearch Bench是一个深度研究智能体设计的综合性基准,衡量系统从检索到报告生成的全流程能力。可以从这个榜单上面找个效果好的模型看看思路。

2025和2026,AI正处于从简单交互的大语言模型向智能体Agent发展,Agent 不断落地和狂野生长。从简单的指令响应式交互,转向具备复杂逻辑调度能力的自主认知过程。真正做研究做调查的时候需要的是真实可靠的资料、步骤清晰的分析。抛出一个问题给大模型自主生成肯定是不行,太容易乱猜和有幻觉,需要的是DeepSearch。

这玩意儿和普通大模型对话最大的区别就在于,它不再是简单的对话一个一个往外输出token,而是具备思考能力和调研能力,先思考、再拆解、最后才动笔。DeepResearch Bench是一个深度研究智能体设计的综合性基准,衡量系统从检索到报告生成的全流程能力。可以从这个榜单上面找个效果好的模型看看思路。百度千帆也在2月4日发布了一个DeepResearch Agent,在DeepReasearch Bench榜单中超越了所有的其他的竞争对象,直接登顶。

图片

深度研究Deep Research是当前人工智能领域的重要研究和探索方向。与通用聊天机器人或单一功能的研究辅助工具存在本质区别:

特征维度

通用聊天机器人 (如ChatGPT)

单一功能研究工具 (如文献管理器)

深度研究系统

核心能力

对话与内容生成

特定功能(检索、管理、分析)

端到端工作流自动化与自主推理

工作流

单轮或有限轮次对话

固定、线性

动态、多步骤、可迭代、具备规划与反思

工具使用

有限或需人工介入

专用、孤立

自主协调多种工具(搜索、计算、API等)

输出成果

即时回答或短文

数据列表或分析图表

结构化、可验证的综合研究报告

Qianfan-DeepResearch是基于Qianfan Agent Foundry构建的端到端Deep Research Agent,采用的是Agentic设计架构,通过“任务理解分析-任务思考规划-任务调度执行”的循环式agentic执行设计,实现复杂的研究任务的端到端交付。

图片

想知道这个千帆深度研究Agent是不是真的会搜索资料,准备了一个题目,看看它的反应:

prompt:“调研一下固态电池。我需要知道这东西什么时候能成,谁最厉害,以及这里面有没有什么坑,特别是跟地缘政治和原材料相关的。最后给我一份详细的报告。”

这个指令看起来平平无奇,其实还隐藏着一些坑。看看他是如何解决的:

第一步:确认一些关键的细节,比如 固态电池的“成”有很多定义,它主动澄清边界,判断标准、地缘政治和原材料的“坑”也注意到了,还有行文的侧重点也考虑到了。

图片

第二步,继续确认时间、国家政策、其他坑、和详细程度的细节。

图片

第三步:列出大纲,用户确认大纲

图片

第四步:Agent开始规划文档,按照待办清单的step逐步进行,查阅网络资料并整理

图片

图片

图片

挖的坑:固态电池“成”的边界,多个问题并发执行等基本都避开了。

从技术上看,有两个点做的很好:

Qianfan-DeepResearch 构建了“分层演进式”的研究路径展开机制。系统首先通过首轮全域信息检索建立宏观认知锚点,快速沉淀调研基调并勾勒初步研究框架。随后,依托 Agentic 自主规划能力,系统将宏观框架拆解为高颗粒度的执行路径。在全局唯一任务调度器的精密编排下,各个研究节点能够根据实时获取的信息进行自适应调整与逻辑重构。这种设计不仅确保了复杂任务在多线程并发下的连贯性,更从底层架构上消解了调研任务中的不确定性。

图片

Qianfan-DeepResearch设计了“深度执行路径图规划+反思”的机制,在底层架构上实现了全链路闭环评估。 系统在每一个研究节点均开启全局一致性校验:通过内省机制评估当前阶段产出的信息增量是否契合核心研究目标;基于实时反馈对后续的路径图进行动态启发式重构;将调整后的策略精准映射至每一个子任务的执行细则中。这种“规划-反思-重构”的迭代机制,从根本上确保了研究逻辑的科学性,使复杂任务的交付具备了极高的确定性。

图片

很多人调戏 AI 时喜欢给个模糊指令,普通 AI 拿起来就搜,结果南辕北辙。但千帆的 Agent 触发的是“需求澄清”机制——它会先停下来问你:你要调研的这个边界到底在哪?是想看技术原理,还是想看商业变现?这种“知道自己不知道”的智能度,瞬间就拉开了专业和业余的差距。

而且它不会像没头苍蝇一样乱撞,而是先利用百度搜索那套强大的信息检索系统,搞清楚大框架。随后,它会像剥洋葱一样,把任务拆成技术路线、市场份额、供应链风险等 N 个子任务,并行调度执行。

最让我觉得靠谱的是它的“路径图反思”。做研究最怕搜到相互矛盾的信息,普通 AI 往往选择“和稀泥”,但这个 Agent 会在每一个节点进行全局视角的复盘。如果搜到了两个打架的数据,它会通过反思机制动态调整路径,专门去核实谁在说谎。这种实时纠偏的能力,才是解决 AI “幻觉”和逻辑断层的杀手锏。

说到这,Qianfan-DeepResearch确实可以在一定程度上,把我们从那些耗时数天的枯燥桌面研究里捞出来。学会了规划、反思,不再是一个简单的对话框,而是一个能帮你过滤简单重复的信息,直接进行深度分析的好工具。

现在的测评圈已经开始用 DeepResearch Bench 这种博士级别的题库来考验 AI 了,甚至还整出了一套叫 RACE 的评价框架,从全面性、深度、指令遵循和可读性四个维度去打分。这说明,AI 做研究这事儿,真的要进入“深水区”了。

想试一下也很简单,千帆深度研究Agent(DeepResearch)的体验入口:

https://console.bce.baidu.com/qianfan/studio/officialApp/deepResearch/69a72b3f-a18c-2f02-9ba0-007beb95b315

图片

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐