Deep Research技术全解析：从Reasoning到Research with Reasoning的AI进化之路（值得收藏）

当前智能体正推动AI从随机生成文本转向围绕明确目标、依托可靠知识来解决问题。比较明确的技术路径是把像思维树（ToT）这样的多路径规划方法，和ReAct这类“思考–行动–观察”的执行循环结合起来。ToT负责在抽象层面尝试不同解法，选出可行方向；ReAct则一步步具体执行每个步骤，并根据反馈调整。这种组合让系统既能探索多种可能，又能稳扎稳打地完成任务。不过还是能看到一些实际的问题存在• 1、复杂规划和

m0_48891301

385人浏览 · 2025-11-28 13:42:07

m0_48891301 · 2025-11-28 13:42:07 发布

本文详细剖析了Deep Research技术架构，探讨其如何通过多模块交互系统解决LLM的闭卷推理和幻觉问题。从查询分解、动态规划到信息检索与执行引擎，文章解析了Research with Reasoning的转型路径，对比了不同规划技术（CoT、ToT等）与执行框架（ReAct），并介绍了通义DeepResearch的实现方案，展望了AI从文本生成向目标解决进化的未来方向。

Deep Research 是从 Reasoning 到 Research with Reasoning 的一次转型， Deep Research 系统并非是单一模型，而是由用于规划、信息检索、状态化执行和综合的多个独立交互模块构成。本文通过对核心架构原则的详细分析，以及对通义千文的实现路径分析，尝试对 Deep Research 的整体技术实现思路进行剖析，以便于帮助各位读者更好的理解其背后的知识。

Research with Reasoning

简单来说，Deep Research 的出现，是对 LLM 固有局限性的直接回应。LLM 在语言生成和知识复现方面表现出的能力大家有目共睹，但它们本质上仍是一种 “闭卷” 推理系统，即所有答案都依赖于训练时内化的静态知识，无法动态核实或更新信息；这种模式在面对需要多步推理、事实交叉验证或高准确度保障的复杂任务时，就暴露出其可靠性问题。即使是最强的 LLM，在涉及时效性、专业深度或逻辑严密性的问题上，也容易产生看似合理却事实错误的“幻觉”输出。要真正实现稳健、可信、可审计的推理能力，关键在于打破模型内部知识的封闭性，建立起与外部、可验证知识源之间持续且动态的连接。

纯推理（Reasoning）的脆弱性

在独立 LLM 的语境中，推理（Reasoning）是指完全基于模型参数内存储的证据或前提来推导结论的认知过程。这种 “参数化知识” 是模型训练数据的产物，是一个庞大但最终静态的语料库。这种静态性质是导致其在解决现实世界问题时能力受限的根源所在。我在前面几篇关于 RAG 和上下文工程的文章中也多次提到过关于 信息过时 和幻觉（hallucination）问题，这里就不再过于的赘述。

复杂多步推理中能力缺失

在需要长链逻辑推理的任务中，Reasoning 的挑战被进一步放大。尽管像 CoT 这样的技术可以引导模型外化其推理过程，但这种透明度并不能保证逻辑的有效性。对于涉及到多个步骤的任务，LLM 经常表现出逻辑不一致、偏离正确的推理路径，或得出自相矛盾的结论。

这种不可靠性源于两个基本的架构特性：

1、随机性：由于 token 生成过程中涉及随机采样，一个完全相同的 prompt 在后续运行中可能会产生不同的推理路径和结论，这种缺乏确定性的特点使其不适用于要求可证明的正确演绎的任务，而这一标准在形式符号推理系统中几十年来早已实现。
2、缺乏显式记忆：与知识图谱或基于规则的系统不同，LLM 缺乏一个结构化的、长期的记忆存储介质，这使得在一个复杂的推理任务中维持一致性、跟踪依赖关系和在先前结论的基础上进行迭代逻辑变得极其困难。

与 RAG 的区别

针对上述所提到的模型的局限性问题，相较于 RAG， Research with Reasoning 从一个被动的检索文本合成者，转变为一个主动的、对外部信息进行 审查评估 的角色。在每一步，模型都必须在将其纳入其逻辑链之前，对检索到的数据的质量、相关性和潜在偏见进行推理，这意味着它是一种更复杂、更稳健的智能体行为形式。

剖析 `Deep Research`

Deep Research系统并非单一的 LLM，而是复杂的、由多个组件构成的架构，其设计思路反映了对复杂Research 任务所需认知意图的细致分解；通过将特定功能分配给专门的模块，这些系统实现了单一通用模型无法达到的稳健性和能力水平。

查询分解与意图分析

Deep Research 流程始于 查询分解与意图分析 模块。

我们在使用时，通常是以一个高层次、复杂且常常模糊的 prompt 来启动任务，例如 “帮我生成一份关于 Deep Research 的技术报告”，单一的 LLM 一般是直接基于现有知识直接进行推理，然后输出结果，但是这个结果往往不是我们所预期的。

Deep Research Agent 的首要任务是解析此 prompt ，以识别用户的潜在意图，并将这个 overarching 问题分解为一系列更小、离散且可独立研究的问题；这个分解是关键的第一步，将一个棘手的问题转化为一组可管理的任务。像 Perplexity 的 “Pro Search” 这样的实现明确执行了此功能，将一个复杂的提示分解为多个子查询，以指导后续的 Research 过程。

动态任务规划

一旦子问题被定义，动态任务规划 模块就会制定一个多步骤的执行计划。这不是一个静态的、预先确定的脚本，而是一个可以根据 Research 过程中发现的信息进行动态更新的策略。

这个计划是一个程序性的行动大纲，例如执行网络搜索、查询学术数据库、分析上传的 PDF 文件或执行代码片段进行数据分析等等。这个模块的一个关键功能是识别任务之间的依赖关系，确定哪些可以并行执行以提高效率，哪些必须按顺序执行。

像谷歌的 Deep Research 在执行任务之前，就会将规划的执行步骤公开出来，在执行开始前将生成的 “多点研究计划” 呈现给用户进行审查和完善。这给予了用户一定程度的控制，并确保智能体的策略与他们的目标保持一致。

信息检索

信息检索 模块负责执行计划中概述的信息收集步骤，通常涉及到多个阶段。

查询扩展（Query Expansion）： 初始的子问题一般比较简单，无法进行有效检索，此阶段通过生成同义词、相关概念，甚至假设性答案来增强它们，从而实现扩大搜索范围并提高召回率的目的。
查询分发（Query Fan-Out）： 针对多样化的数据源执行多个并行的查询，确保数据层面全面的覆盖。
重排序与过滤（Re-ranking and Filtering）： 对原始检索结果进行处理以确保质量；对冗余信息进行去重，过滤掉低质量或不可信的来源数据，并根据其与特定子问题的语义相关性对剩余数据进行重排序。只有这组经过筛选的高质量信息才会被传递给执行引擎。

执行引擎

执行器 是智能体的操作核心，负责执行计划。它使用一个受约束的迭代循环进行操作，主流范式是 ReAct（推理与行动） 框架。ReAct 框架在一个连续的循环中交织了三个不同的阶段：

思考（Thought）： Agent 的内部推理逻辑，它在这里思考其 当前状态、已收集的信息以及根据计划应采取的下一个逻辑行动。
行动（Action）： 执行一个具体的工具调用，例如调用搜索引擎 API 或代码解释器。
观察（Observation）： 分析工具返回的结果，然后为下一个 “思考” 阶段提供信息，从而闭合循环。

这个循环本质上是 有状态的，Agent 必须维护其先前所有思考、行动和观察的完整历史，以建立上下文、从结果中学习并动态调整其行为。这种有状态的迭代过程使 Agent 具有弹性，例如，如果初始搜索查询结果不佳，它可以重新制定查询。

综合器（信息融合、自我批判与报告生成）

最后的模块是 综合器，与执行器协同工作，构建最终的输出。随着来自检索模块的新的、经过验证的信息流入，综合器将其与已经收集的知识进行整合。

其作用不是简单的信息 Summary ，它通过评估融合后的信息，识别总体主题，突出不同来源之间的矛盾或不一致之处，并对完整的上下文进行推理，以得出在任何单一源文档中可能不明确的新颖、更高层次的结果。

一个比较好的 Deep Research 系统的标志是包含了自我批判；在确定最终输出之前，模型会对其自己生成的文本进行一次或多次审查，包括 清晰度、逻辑连贯性和准确性。这种递归的优化过程提高了最终报告的质量；输出是一份全面的、结构化的文档，并附有将每个论断追溯到其原始来源的引文，确保了可验证性和信任。

这种模块化架构通过分离关注点，将规划、搜索和执行分配给专门的逻辑模块，从而有效的避免了单个上下文窗口的过载，并允许每个组件都能专注于其本身的任务。相对于 RAG 而言，信息流不是一个简单的线性管道，而是一个动态的、循环的过程，其中来自执行器的观察不断反馈以告知和完善规划器的策略，从而实现真正的适应性。

规划制定

这个模块可以说是 Deep Research 任务的认知架构师，其制定连贯有效计划的能力对 agent 的效果非常重要；基于LLM 的智能体中规划技术的演进，反映了一条从简单的线性思维过程到复杂、探索性和层级化策略的技术路径。

线性与顺序规划

最早也是最基础的规划技术，为模型的推理过程施加了一种线性的、逐步的结构。

• 思维链（Chain-of-Thought, CoT）： 在提供答案前提示 LLM 进行 “一步一步思考”，能明显提高其在推理任务上的表现，CoT 暴露了模型的中间推理过程，但是问题在于其贪婪的、单向的性质；它只遵循单一的推理路径，如果早期出现错误，它没有机制可以回溯或纠正自己，错误将会在链条的其余部分传播。
• 自问（Self-Ask）：Self-Ask 是 CoT 的一个更结构化的演进，模型不再是进行自由形式的内部独白，而是被明确提示将一个复杂问题分解为一系列更简单的、必须先回答的后续问题。

上图强制执行了一种系统性的分解，确保在最终综合之前收集所有必要的前提知识。其实现遵循明确的阶段：问题分析、子问题生成、顺序处理和答案整合。尽管对于组合性问题比 CoT 更稳健，但它仍然是一个线性过程。

多路径规划

在针对单路径推理的脆弱性问题上，允许智能体并行探索多个潜在的解决方案成为一种必要的趋势和方向。

思维树（Tree-of-Thoughts, ToT）：ToT 不再遵循单一链条，而是使模型能够同时探索多个不同的推理路径，创建一个树状结构，其中每个节点代表一个部分解决方案或 “思想”。在问题解决过程的每一步，模型都会生成几个潜在的下一步（分支）。然后，它使用自我评估机制或基于启发式的投票来评估每个分支的前景。这使得智能体能够“向前看”，修剪没有希望的路径，从死胡同中回溯，并将更多资源投入到最可行的路线上。

这种审慎的、多路径的探索使得ToT 对于那些最优路径不明显或初始步骤可能具有误导性的复杂问题更为有效。例如，在像 “24点游戏” 这样的数学谜题中，需要尝试多种组合，ToT 探索多种可能性的能力优于 CoT 的单轨方法。但是这种稳健性是以高昂的代价换来的：生成和评估众多路径的计算开销可能使 ToT 的成本比单个 CoT 提示高出 50 到 100 倍。

层级与模块化规划

对于涉及多个不同阶段的真正复杂、长远的任务，即使是 ToT 的扁平化探索也可能变得计算上难以处理或偏离总体目标。更激进的方式是采用层级和模块化规划，这种模式一定程度上来说更加符合人类专家的认知。

在这种方法中，一个高层规划器首先将主要目标分解为一组高层次、抽象的子目标。然后，这些子目标被委托给专门的子智能体或模块，由它们负责解决问题的特定部分。这创建了一个递归结构，其中一个子智能体可能会将其自己的子目标进一步分解为更小的任务。

受认知神经科学启发的框架，如 模块化智能体规划器 就体现了这种设计思路。这种架构具有功能专门化的不同模块

• 一个 任务分解器 生成并维护高层子目标。
• 一个 执行者 为实现给定子目标提出具体行动。
• 一个 监控器 评估所提行动的有效性并检测错误，向执行者提供反馈。

这种模块化将失败隔离在特定的子任务中，防止智能体偏离全局目标，并实现更高效的问题解决。ReAcTree 框架是最近一个明确将这种层级分解与 ReAct 执行循环相结合的例子，它创建了一个动态的智能体节点树，每个节点负责在更大的计划中实现一个特定的子目标。

规划与分解技术对比

规划策略的选择涉及计算成本、稳健性和任务适用性之间的平衡，下表总结了主流规划方案的核心特征。

特性	思维链 (CoT)	自问 (Self-Ask)	思维树 (ToT)	层级分解
推理结构	线性序列	结构化问答序列	多路径树	递归层级
关键机制	逐步生成	显式子问题提问	广度/深度优先搜索与自我评估	目标分解与委托给子智能体
对错误的稳健性	低（无法从错误中回溯）	中（结构化但仍为线性）	高（允许回溯和探索替代方案）	非常高（将失败隔离到特定子模块）
计算成本	低（基准 1x）	低-中（1-2x）	高（10-100x）	可变（取决于任务深度和复杂性）
理想用例	简单的推理任务、算术问题	组合性事实查找、多跳问答	路径不明显的复杂问题（如谜题、策略游戏）	具有明确子目标的长期、多阶段任务（如撰写报告、规划项目）

对于一个简单的聊天机器人，CoT 或 Self-Ask 的效率是合适的，对于一个准确性至上且必须考虑多种情景的高风险任务，ToT 的高计算成本可能因其卓越的稳健性而变得合理，而对于协调一个复杂的软件开发项目，层级化方法则是有效管理不同阶段和依赖关系的必要手段。

执行引擎

一旦总体计划制定完成，执行引擎就会将其转化为一系列与外部世界互动的具体行动。这个模块是 agent 的手和脚，负责收集信息、执行计算并动态响应环境。其操作由一个迭代循环定义，该循环将内部推理与外部工具使用紧密耦合，这一过程由复杂的状态和记忆管理系统实现。

ReAct

执行循环的主流范式是 ReAct（推理与行动） 框架，它的目标在于克服纯推理方法（如 CoT）可能产生事实幻觉和纯行动方法难以规划的局限性。ReAct 通过创建一个连续、迭代的 思考 -> 行动 -> 观察 循环，将这两种能力协同起来。

1. 思考（Thought）： 考虑其总体目标、当前计划、先前步骤的历史以及最近的观察，基于这些上下文，它形成其内部独白并决定下一步的行动。
1. 行动（Action）： 根据其思考执行一个具体的、程序化的工具调用，这不是文本生成，而是对外部工具（如搜索引擎 API、数据库查询工具、代码解释器或自定义企业 API）的实际函数调用。
1. 观察（Observation）： 接收来自工具的输出——搜索结果、数据库记录或执行代码的输出。这部分新信息随后被附加到历史记录中，并作为下一个 “思考” 步骤的主要输入，从而闭合循环。

这种紧密的耦合是 ReAct 强大的关键，推理（思考）将工具使用置于大的上下文背景下，防止了随机或不相关的行动。工具的输出（观察）则将后续的推理锚定在外部、可验证的事实上，极大地降低了幻觉的风险，并允许agent 根据真实情况的反馈动态调整计划。

状态管理

ReAct 循环本质上也是 有状态的；每一步都依赖于所有先前步骤的完整历史；但是因为底层的 LLM API 本质上是无状态的，也就是说每次调用都是独立的，没有前一次的记忆，这种局限性会使得可能涉及数十次这样的调用、持续数分钟的 deep research 任务，在状态管理这块异常复杂、易错且低效。

主流的模型供应商提供的解决方案是一个关键的抽象层，它将无状态的模型转变为一个持久的、有状态的智能体。这些状态管理架构不仅仅是为开发者提供便利，也是使长期运行的自主智能体成为可能的基本前提。

• 有状态的 API 架构：OpenAI 的平台，以其现已弃用的 Assistants API 及其后继者 Responses API 为例，均提供了这种方法的典型案例。状态通过一个持久化对象的层级来管理：

• Assistant： 一个配置对象，定义了智能体的身份、指令、模型和可用工具。
• Thread： 核心的状态管理对象，代表一个单一的对话或任务会话。它存储了消息、工具调用和输出的完整历史，自动处理上下文窗口的截断，从而减轻了我们研发的负担。
• Run： 在特定 Thread 上对 Assistant 的一次调用。API 管理 Run 的生命周期（例如，queued、in_progress、requires_action、completed），实现了异步执行，我们可以启动一个长期运行的任务并轮询其状态，而无需维持一个开放的连接。

• 异步任务管理器： 对于可能需要几分钟的任务，例如一份全面的研究报告，即使是基于轮询的 API 模型也可能很繁琐。谷歌为其 deep research 功能采用的方法是一种新的 异步任务管理器。这个后端系统在规划模型和执行模型之间维护一个共享的、持久的状态。这种架构具有高度的容错性；一次模型调用中的短暂失败不需要从头开始重启整个任务。它也是真正的异步，允许用户启动一个研究任务，完全关闭应用程序，并在最终报告准备好时收到通知。

记忆与反思

虽然有状态的线程在单个任务中提供了强大的记忆功能，但智能体系统的前沿在于开发能够跨任务持续存在的长期记忆和学习机制。

• 长期记忆架构： 针对对话线程的简单“短期记忆”，各家提出的架构包括外部向量数据库，用于存储过去任务执行的摘要，使智能体在面对新的、相似的问题时能够检索相关的先前经验；
• 反思机制： 更进一步，像 Reflexion 和 SAGE 这样的框架则是引入了一个元认知循环，能够主动从错误中学习；当完成一个任务（或子任务）后，智能体会停下来反思执行过程，特别是失败之处（例如，“我的初始计划失败了，因为我没有考虑到可能缺少数据源，将来在进行分析之前，我应该首先验证所有必需数据的存在。”）。这些反思随后被总结并存储在长期记忆中。在后续任务中，这个 “元策略记忆” 被用来指导智能体的规划和决策，帮助它避免重复过去的错误，并随着时间的推移提高其能力。

通义 DeepResearch 解析

通义 DeepResearch 的核心技术方法论围绕构建高性能、可扩展、全开源的 Web 智能体展开，形成了一套从数据生成到模型训练再到推理部署的完整闭环体系。

首先，在训练流程上，他们提出了一种端到端的三阶段智能体训练范式：Agentic CPT（智能体增量预训练）→ Agentic SFT（有监督微调）→ Agentic RL（强化学习）。这个流程以合成数据驱动的增量预训练为起点，构建具备基础工具使用能力的强基座模型；随后通过高质量专家轨迹进行监督微调，实现冷启动；最后借助 on-policy 强化学习，使模型在与环境的交互中持续自我进化。

其次，在数据层面，qwen 开发了名为 AgentFounder 的大规模合成数据生成框架，构建“数据飞轮”机制。这个框架融合知识图谱、网页爬取数据、工具调用轨迹等多源信息，以实体为锚点构建开放世界的知识记忆，并据此生成覆盖多样真实场景的问答对。

在推理与部署方面，模型支持两种模式：ReAct 模式和深度模式（IterResearch）。ReAct 模式遵循经典的“思考–行动–观察” 循环，凭借 128K 上下文长度实现高可扩展性，且无需提示工程即可展现强大能力，作为评估模型本征能力的基准。而深度模式则针对极端复杂的多步研究任务，提出 IterResearch 范式——将任务解构为多个 Research 阶段，每轮仅基于上一轮核心输出重建精简工作空间，通过 “综合与重构”机制维持清晰认知焦点。在此基础上，进一步引入 Research-Synthesis 框架，并行多个 IterResearch Agent 探索同一问题并融合结论。

这套方法论不仅强调算法创新，更注重工程落地的稳定性与可复现性，为开源社区提供了首个在性能上可与顶尖闭源系统媲美的全栈式 Deep Research 解决方案。

总结

当前 Deep Research 智能体正推动 AI 从随机生成文本转向围绕明确目标、依托可靠知识来解决问题。比较明确的技术路径是把像思维树（ToT）这样的多路径规划方法，和 ReAct 这类“思考–行动–观察”的执行循环结合起来。ToT 负责在抽象层面尝试不同解法，选出可行方向；ReAct 则一步步具体执行每个步骤，并根据反馈调整。这种组合让系统既能探索多种可能，又能稳扎稳打地完成任务。

不过还是能看到一些实际的问题存在

• 1、复杂规划和长上下文带来高昂计算和 token 成本，难以规模化；
• 2、即使有推理过程，智能体仍可能被错误或模糊信息误导，最终结果的真实性难以完全保障；
• 3、随着任务增多，记忆中会堆积大量无用甚至错误信息，影响后续判断。

这三者相互牵制，提升准确性往往增加开销，压缩记忆又可能丢失关键内容。那么就给下一代提出了新的要求，比如能主动发现问题、自主发起研究，而不只是响应指令，不过这依赖于对自身知识边界的理解，以及从经验中持续学习的能力，最终从工具转变为可独立开展任务的强大助手。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】