上海交大团队发布首篇LLM搜索智能体系统性综述,从"如何搜索、优化、应用、评估"四维度构建分析框架。文章揭示了搜索范式从传统搜索到LLM增强搜索再到搜索智能体的演变,详细介绍了搜索智能体的三种结构、优化方法、应用场景及评估体系,并探讨了信息源融合、多模态发展等未来挑战,为该领域研究提供了清晰路线图。


首次对 LLM 搜索智能体进行了多维度、系统性分析和分类。

作者丨上海交大团队

本文系统性地梳理了搜索智能体这一新兴研究领域,从四个核心维度——如何搜索、如何优化、如何应用、如何评估——构建了一个完整的分析框架,揭示了从传统搜索向动态、自主信息获取的重大转变。

随着大语言模型( LLMs )的兴起,网络搜索领域正在经历一场深刻的变革。传统的搜索模式依赖用户手动处理大量信息,而早期的LLM辅助搜索(如 RAG )虽然能增强查询或总结结果,但其方法通常是静态的,难以应对复杂的动态搜索场景。因此,学界业界的研究重心正转向一种更自主、更动态的新范式——搜索智能体 Search Agent 。近期非常热门的 Deep Search 和 Deep Research 等均属于该范式,虽然这一范式展现出巨大的潜力并且很多研究者在探索了很多方案,但该领域仍缺乏统一的研究视角与评估框架。

近期,来自上海交通大学的研究者发布了首篇系统性的 Search Agent 综述,首次对 LLM 搜索智能体进行了多维度、系统性分析和分类,为该领域研究提供了清晰的路线图。

论文标题: A Survey of LLM-based Deep Search Agents: Paradigm, Optimization, Evaluation, and Challenges

**arXiv 链接:**https://arxiv.org/abs/2508.05668

项目链接: https://github.com/YunjiaXi/Awesome-Search-Agent-Papers

01

背景介绍

在信息爆炸的今天,我们每天都被海量数据包围。你是否曾有过这样的体验:为了一个复杂的问题,不得不在搜索引擎中反复切换关键词,打开数十个网页,手动筛选、整合信息,最终耗费大量时间却依然一知半解?

幸运的是,这一局面正在被悄然改变。随着大语言模型( LLM )的崛起,我们熟悉的搜索模式正在经历一场深刻的革命。它已经从简单的传统网络搜索,进化到由大模型辅助的 LLM 增强搜索,并最终迈向一个更令人兴奋的未来——搜索智能体( Search Agents )

图1 搜索范式的演变:从(a)传统网络搜索到(b)LLM增强搜索到(c)搜索智能体

上图中可以清晰地看到信息搜索范式的三个主要阶段,这恰好也对应了我们日常体验的变迁:

  • 阶段一:传统网络搜索**(Traditional Web Search)**是我们最熟悉的模式。用户输入查询词,搜索引擎返回一个长长的文档链接列表。用户需要手动点击、阅读、筛选和整合信息。这个过程完全依赖人的判断力和劳动,效率低下且难以处理复杂问题。
  • 阶段二:LLM增强搜索**(LLM-enhanced Search)**以集成了搜索功能的 ChatGPT 为代表,这个阶段引入了大语言模型。 LLM 可以帮助用户改写查询词以提高搜索准确性,或者将搜索到的结果进行总结,生成一个简明的答案。这种模式,也就是我们熟知的“检索增强生成”( RAG ),极大地提升了信息获取的效率。然而,它的交互通常是静态的、单轮的,LLM主要扮演“优化者”或“总结者”的角色,难以应对需要多步骤、动态调整的复杂调研任务。
  • 阶段三:搜索智能体**(Search Agents)**是当前发展的最前沿。搜索智能体标志着一个根本性的转变:搜索本身变成了一种由AI主导的主动行为。这些智能体被赋予了“自主性”,能够完全掌控整个搜索流程。一个搜索智能体可以被定义为:

一个能够理解用户意图和环境上下文,自主规划搜索策略,从包括网页、本地数据、私有知识库在内的多样化来源执行多轮动态检索,并整合信息以提供全面洞察的 LLM 智能体。

这些智能体不再是被动的信息检索工具,而是能够理解用户的深层意图、自主规划搜索步骤、跨越多渠道动态搜寻并深度整合信息,最终为用户生成一份全面洞察报告的“智能伙伴” ,大大节省用户的时间和认知成本。像 OpenAI 、谷歌的 Gemini 和 Perplexity 等前沿应用中的 Deep Research 功能,也已经展示了搜索智能体在深度信息挖掘和商业化上的巨大潜力。

02

框架探秘

那么,这样一个强大的搜索智能体,其内部是如何运作的呢?论文从四个核心维度——如何搜索、如何优化、如何应用、如何评估——构建了一个完整的分析框架。

图2 综述架构:如何搜索、如何优化、如何应用、如何评估

如何搜索 ( How to Search )

智能体的“行动指南”

智能体的核心在于它能根据用户意图和当前情境,自主决定“何时搜索”以及“搜索什么”。这背后依赖于三种主要的搜索结构:

  • 并行结构 ( Parallel Structure ): 将一个复杂问题分解成多个可以同时执行的子问题,并将它们的搜索结果汇总。这就像一个团队分头行动,适合处理需要从多个角度探索的问题。
  • 顺序结构 ( Sequential Structure ): 以更动态和灵活的方式决定下一步的内容。智能体会在每一步搜索后,根据得到的结果进行“反思”,然后决定下一步是继续搜索还是调整方向。这种“边搜边想”的模式适应性更强,能够处理搜索过程中出现的意外情况。
  • 混合结构 ( Hybrid Structure ): 结合了并行和顺序的优点,通常以“树”或“图”的形态展开。它允许智能体同时探索多条搜索路径,并在需要时进行回溯和修正,极大地增加了找到最佳答案的可能性。

如何优化 ( How to Optimize )

让智能体“更聪明”

为了让智能体表现得更出色,研究者们采用了两大类优化方法:

  • Tuning-Free : 主要依赖于精巧的提示工程( Prompt )和预设的工作流来引导智能体。
  • 单智能体( Single-Agent ):在这种架构下,一个智能体处理整个搜索过程包括规划、搜索词生成和最终答案生成。这种架构通常高度依赖预先设定的工作流,比如搜索-生成-评估是否继续搜索的循环结构。
  • 多智能体( Multi-Agent ):为了避免单智能体同时处理多种任务带来的挑战性,“多智能体架构”将复杂任务拆解,让不同的智能体扮演特定角色,如规划者、搜索者、评估者、总结者等,协同完成复杂任务。
  • 测试时扩展( Test-time Scaling ):通过在推理时分配更多的计算资源来提升只能提的表现,这里包括以推理为中心的扩展(提升推理的长度和次数)、以搜索为中心的扩展(提升搜索的次数)和将两者结合的复杂扩展。
  • Tuning-based : 通过训练模型,让智能体“学会”如何更好地将思考和搜索结合。
  • 监督微调 ( SFT ): 用高质量的“搜索轨迹”数据集来训练模型,用于模型的自我提升或者为强化学习训练做 warmup 。这些轨迹通常来自外部更强大的 LLM 或者模型本身,通过拒绝采样等方式保留正确的轨迹,有时还会通过信息量、多样性和高效性进行进一步的过滤。
  • 强化学习 ( RL ): 让智能体在模拟或真实的环境中不断探索和试错,并通过一个复杂的“奖励函数”来引导其学习最优策略。这个奖励函数不仅要考虑最终答案的正确性,还可能包括搜索效率、信息多样性、证据质量等多个目标。在这个奖励的基础上,研究者通常会 PPO 、GRPO 和 Reinforce ++等算法进行训练。
  • **混合方案:**通常会结合多种微调方案,比如预训练、 SFT 、 RL 等,最简单的方式是将 SFT 作为 RL 的 warmup 阶段,提供一个比较好的初始化。进阶方案包括交替进行 SFT 和 RL 训练和引入预训练等方案来进一步提升模型能力。

如何应用 ( How to Apply )

智能体的“用武之地”

搜索智能体的应用范围远超传统搜索,可分为对内和对外两个层面。

  • **外部应用:**将深度信息搜索拓展到各类垂直领域
  • AI 助手与深度研究: 这是最核心的应用,如集成到聊天机器人中,或作为专门的深度研究工具,为用户撰写专业报告。
  • 垂直领域: 在金融、电商、医疗、生物、编码等专业领域,搜索智能体可以结合领域知识,提供高度专业化的信息服务。
  • **内部应用:**通过深度信息搜寻提升智能体本身的一些能力
  • 增强工具使用 ( Tool Use ): 当智能体拥有大量可用工具( API )时,它可以通过内部深入搜索来找到最适合当前任务的工具。
  • 增强记忆 ( Memory ): 随着与用户交互增多,智能体的记忆库会变得庞大。它可以通过内部深入搜索,精准地从历史记录中找到最相关的信息。
  • 增强推理 ( Reasoning ): 智能体可以将过往的成功经验作为内部知识库,通过搜索这些经验来辅助当前问题的推理,实现自我进化。

如何评估 ( How to Evaluate )

智能体的“期末考试”

评价一个搜索智能体的好坏至关重要,但同样非常复杂,和传统搜索的评价方案有本质差异。评估体系主要围绕“用什么考”(数据集)和“谁来判”(评判者)两个核心问题展开。

  • 评估用的“考卷” ( Datasets ):
  • 封闭式问答: 这类问题有明确、唯一的答案,便于自动评判。为了考验智能体,研究者设计了需要整合多个来源信息的“多跳问答”、包含长尾和干扰信息的“挑战性问答”以及验证事实真伪的“事实核查”任务。
  • 开放式问答: 这类问题没有标准答案,更像是“论文题”,旨在评估智能体进行深度研究、产出全面报告的能力。评估维度包括关键点覆盖度、信息量、连贯性、组织结构和引用准确性等。
  • 领域专用数据集: 考察智能体在特定专业领域(如医学、金融、物理学)解决复杂问题的能力。
  • 担当“考官”的评判者 ( Judge ):
  • 基于规则的评判者 ( Rule-based ): 使用精确匹配( EM) 、 F1 分数等硬性指标进行评判。优点是客观,缺点是过于死板,无法理解语义上的相似。
  • LLM即评判者 ( LLM-as-a-Judge ): 利用一个强大的 LLM 来评估答案的质量。这种方法更灵活,能很好地处理语义相近但表述不同的答案,对于封闭式和开放式问题都有效。
  • 智能体即评判者 ( Agent-as-a-Judge ): 这是最新的趋势,即使用一个专门的评估智能体来评价另一个搜索智能体的“整个搜索过程”而不仅仅是最终结果,从而提供更深度的评估。
  • 人类评估: 毫无疑问,人类专家是最终的“黄金标准”,但由于成本高昂,通常只用于小范围抽样,以验证上述自动化评估方法的可靠性。

03

挑战与未来

尽管搜索智能体已经取得了长足的进步,但前方的道路依然充满挑战。论文指出了几个关键的未来方向:

  • 信息源的融合与甄别: 未来的智能体需要整合更多元的信源,如私有数据库和内部经验。同时,它们必须学会处理信息冲突和辨别网络上的不实信息,提升对信息的批判性评估能力。
  • 从文本到多模态: 当前的智能体大多以文本为中心。未来的研究重点是让智能体能够理解和处理图像、音视频等多种形式的信息,实现真正的多模态搜索与推理。
  • 定制化的强化学习: 通用的强化学习算法并不完全适用于复杂的搜索任务。开发专门为搜索场景优化的 RL 算法,特别是为没有唯一正确答案的开放式问题设计有效的奖励机制,是未来的一个重要研究方向。
  • 强大的基础设施: 高效的智能体需要强大的底层设施支持,包括更高召回率的检索系统、更智能的任务调度机制以及更高效的 RL 训练框架。
  • 真正的自我进化: 终极目标是让搜索智能体能够实现“自我进化”——自主发现自身缺陷,设计新的策略,并在没有人类持续干预的情况下不断迭代和完善自己。

从被动检索到主动探索,搜索智能体正在开启一个全新的信息获取时代。它不仅是技术的飞跃,更预示着未来我们与信息交互方式的根本性变革。虽然挑战依然存在,但随着研究的不断深入,一个更智能、更自主、更能洞察万物的“超级搜索大脑”正离我们越来越近。

如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
在这里插入图片描述

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型实战项目&项目源码👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战项目来学习。(全套教程文末领取哈)
在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
在这里插入图片描述

为什么分享这些资料?

只要你是真心想学AI大模型,我这份资料就可以无偿分享给你学习,我国在这方面的相关人才比较紧缺,大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐