本文来源公众号“极市平台”,仅用于学术分享,侵权删,干货满满。

原文链接:一文看懂AI搜索与Web智能体:从RAG到Deep Research全景综述

极市导读

一文带你了解Deep Research和Web Agent背后的原理。

1.  摘要

随着互联网技术的发展,信息搜索变得日益重要;高效的检索、评估、筛选和管理信息资源已成为必备技能。传统搜索引擎往往难以准确把握复杂的人类意图,因此获取最终答案常常耗时费力。近年来,大型语言模型(LLMs)在语言理解与生成方面表现突出,但在获取外部知识和最新信息上仍存在局限。AI搜索和Web智能体通过将 LLMs 能力融入传统互联网搜索流程,能够更好地应对复杂用户问题,显著提升信息浏览与检索的效率与准确性。

如图1所示,本文对近些年AI搜索相关80余篇工作进行了深入回顾。重点涵盖(1)基于文本的 AI 搜索、(2)Web智能体、(3)多模态 AI 搜索与Web智能体、(4)基准评测、(5)AI搜索软件与产品。

详细可参考论文链接:

https://www.preprints.org/frontend/manuscript/79453d62cbbfce9ac42239071098a3d9/download_pub

图1. 近年来AI搜索和Web智能体相关工作概览

图1. 近年来AI搜索和Web智能体相关工作概览

2.  文本AI搜索

基于文本的AI搜索代表了信息检索系统的重大变革,它从传统搜索引擎发展到融合检索增强生成(RAG)工作流和深度搜索能力的复杂方法。这种技术的核心在于将LLMs的强大语言理解和生成能力与搜索引擎的海量信息获取能力相结合,以解决复杂的现实世界信息检索挑战。一种高效且经典的workflow如图2所示,包含有几个重要模块:意图模型,问题改写模型,搜索引擎,网页重排模型,总结模型。

图2. 基于文本的AI搜索经典工作流图

图2. 基于文本的AI搜索经典工作流图

检索增强生成(RAG)工作流

朴素的AI搜索采用类似RAG的思路,如图3所示,本质上是检索(Retrieval)全网知识库来增强(Augment)大模型的生成(Generate)准确答案的能力。传统的RAG方法通过预定义的工作流程运行,主要包含四种范式。(1)顺序RAG采用线性的"检索-然后-生成"工作流,首先获取相关文档,然后基于这些文档生成最终回答。(2)分支RAG通过多个并行管道处理输入查询,每个管道都可能涉及自己的检索和生成步骤,然后合并输出以获得全面的答案。(3)条件RAG引入决策模块来自适应地确定给定查询是否需要检索,提高了系统的灵活性和鲁棒性。(3)循环RAG具有迭代和交互式的检索-生成循环,能够进行深度推理并处理复杂查询。

图3. 基于RAG的AI搜索流程图

图3. 基于RAG的AI搜索流程图

端到端深度搜索方法

与传统RAG工作流不同,深度搜索方法通过在端到端连贯推理过程中调用搜索引擎来获取外部知识,以解决复杂的信息检索问题。这种方法的核心优势在于不需要预定义的工作流程,模型可以在推理过程中自主决定何时调用与搜索相关的工具,使其更加灵活和有效。深度搜索方法能够让模型在遇到不确定信息时自主检索外部知识,有效解决了长链式思维推理中的知识空白问题,在数学、科学、编程和多跳问答任务中都表现出显著的性能提升。

(1)无需训练的框架设计

如图4所示,无需训练的方法通过精心设计的指令来增强推理模型的搜索能力,使模型能够意识到其任务性质以及如何正确使用搜索工具。Search-o1等代表性工作提出了智能体RAG机制,允许推理模型在主要推理过程中遇到不确定信息时自主检索外部知识。这些方法还引入了文档深度推理过程,在每次搜索调用后深度分析检索到的文档内容,将简洁有用的信息返回到主推理链中。后续的WebThinker、WebDancer、ManuSearch等工作进一步发展了这一范式,通常引入对收集的网页URL的浏览功能,以实现深度网络探索。此外,一些工作如WebThinker还探索了在收集信息的同时自主撰写研究报告,为用户提供更全面和前沿的知识。

图4. 无需训练的端到端基于深度搜索的AI搜索流程图

图4. 无需训练的端到端基于深度搜索的AI搜索流程图

(2)基于后训练的方法

如图5所示,基于训练的方法设计各种训练策略来激励或增强LLM在推理过程中的搜索能力,这些策略涵盖预训练、监督微调(SFT)和强化学习(RL)等多个层面。在预训练阶段,MaskSearch框架引入检索增强掩码预测任务,训练模型使用搜索工具来填充被掩码的文本。在监督微调方面,多种方法专注于合成包含搜索动作的长链式思维数据,如CoRAG通过拒绝采样自动生成检索链,ReaRAG通过策略蒸馏构建专门的数据集。强化学习训练最近获得了显著关注,包括基于直接偏好优化(DPO)的方法和基于PPO、GRPO等的训练策略。这些方法通过设计先进的奖励函数、结合结果和过程奖励、提高训练效率等方式,不断优化模型对搜索工具的使用效率和准确性,使其能够更有效地处理复杂的信息检索和推理任务。

图5. 有后训练的端到端基于深度搜索的AI搜索流程图

图5. 有后训练的端到端基于深度搜索的AI搜索流程图

3.  Web Agent

Agent是一种自主的智能体,能够响应输入、执行和上下文相关的动作,其核心目标是模拟人类的决策过程。而Web Agent是Agent在垂直领域的应用。不同于AI搜索,Web智能体模拟人类浏览网页的过程,在当前网络环境上获取信息决定后续操作。

基于提示词的Web Agent

如图6,基于提示词的Web Agent这种方法不需要对模型的参数进行调整,所以方便快捷,所需的资源也较少。这类Web Agent致力于精心设计的提示词(Prompt)工程,将输入的信息通过筛选、拼接、结构化等方式进行处理,形成特定格式的Prompt,便于通用LLM进行理解以获取结果。例如WebVoyager对网页的截图和网页的结构化数据结合,形成Prompt输入GPT-4V进行处理,输出下一步操作,直至获取最终答案。

图6. 基于提示词的Web智能体

图6. 基于提示词的Web智能体

基于后训练的Web Agent

鉴于Web Agent实际使用时网络环境和网页浏览任务的复杂性,如图7所示,Web Agent需要通过后训练如SFT或RL来微调模型网页知识,从而返回下一步的决策。WebAgent-R1就是利用强化学习,以DeepSeek-R1为基础模型,通过改进的GRPO构建纯端到端Web Agent。另外一种常用方法就是SFT,比如Falcon自主构建图形用户界面(GUI)数据集,再通过微调使LLM可以更好地处理GUI信息,增强Web Agent浏览GUI的能力。

图7. 基于后训练的Web智能体

图7. 基于后训练的Web智能体

4.  多模态AI搜索与Web智能体

当用户的问题或答案中包含图片时,就需要多模态 AI 搜索;另外互联网上的信息往往以图文交织的形式呈现。如图8所示,你在博物馆拍下一件古董的照片,想要了解它背后的历史背景或相关人物,这就需要多模态AI搜索。近来,多模态大语言模型(MLLMs)在视觉感知,理解和推理中应用广泛。经典的模型如GPT-4V,LLaVA等在学术界和工业界应用广泛。

图8. 多模态AI搜索流程示例图

图8. 多模态AI搜索流程示例图

多模态AI搜索的代表工作包括MMSearch和MMSearch-R1。如图9所示,MMSearch将AI搜索流程中三个阶段requery,rerank,summarization里的LLM都替换成了MLLM。MMSearch-R1采用强化学习和多轮搜索的方式来进一步提升基于搜索的图片问答能力。

图9. 两种多模态AI搜索方法

图9. 两种多模态AI搜索方法

此外还有多模态Web Agent,这种Web Agent模拟人类视觉通过辅助输入网页截图实现拟人化操作,显著提升在复杂网络环境中的任务完成效率。代表作有SEEACT,WebVoygar,WebWatcher。例如如下任务:在xx汽车租赁网站上“以最低的价格租一辆轻型卡车”。多模态Web智能体利用类似GPT-4v的MLLM来视觉感知网页图片中不同类型的汽车,生成思维链,输出可执行的网页操作。

5.  评测集

(1)文本AI搜索评测集

对AI搜索模型进行科学评估,是推动其技术发展的关键一环。为此,研究者们构建了一系列评测基准来衡量模型在真实场景下的检索与推理能力。

传统评测基准及其局限性 传统的评测基准,如Natural Questions (NQ)、HotpotQA、FEVER等,主要用于评估模型在多跳推理、事实核验等任务上的表现,其数据源通常是维基百科等结构化知识库。然而,随着大模型能力的飞速提升,这些传统评测集已逐渐“饱和”,顶尖模型在这些任务上接近满分,难以有效地区分出模型间的真实能力差距。

现代浏览基准的挑战 为了更真实地反映现实世界的信息检索挑战,研究者们开发了新一代的现代浏览基准,如BrowseComp、BrowseComp-ZH和Mind2Web 2。这些评测集的核心特点是高度复杂且贴近真实应用场景。它们要求模型不再是简单地进行单次查询,而是像人类一样,在复杂的互联网环境中进行持续的导航、推理和信息整合,解决需要多步骤才能找到答案的难题。

如图10提到的BrowseComp-ZH中的一个问题就极具代表性。要解决此问题,AI模型必须具备以下能力:

  1. 问题分解:将一个复杂问题拆解为三个关于不同角色的独立信息线索。

  2. 多轮搜索:针对每个线索执行独立的网络搜索,如“1993年出道的女演员”、“丈夫是湖州人的女演员”等。

  3. 信息整合与推理:将多轮搜索得到的分散信息进行交叉验证和关联,最终推理出所有线索共同指向的唯一答案。

这类高难度的评测任务,能够更精准地检验AI搜索模型在开放环境下的真实能力,从而推动技术向着更智能、更实用的方向演进。

图10. AI搜索评测集

图10. AI搜索评测集

(2)Web智能体评测集

Web Agent 基准测试模拟了现实世界网络环境中的交互式任务,评估Agent在导航、操作和推理方面的能力。主要分为两类,第一类是通用评测基准,评估Web Agent在多样网站完成任务的能力,如Mind2Web和WebArena。Mind2Web部分网站和任务如图11所示。第二类是针对特定网站和任务的专用评测基准,如DeepShop和SafeArena,分别在电子商务和恶意浏览两个方面对Web Agent进行评估。

图11. Mind2Web评测集

图11. Mind2Web评测集

(3)多模态AI搜索评测集

对于多模态AI搜索评测集,MMsearch评估了MLLM在AI搜索流程中的三个任务的能力。LIVEVQA是图片知识问答,如图12所示,对于一些复杂或者实时问题需要借助互联网搜索才能回答准确。VisualWebArena是评估多模态Web智能体的评测集。

图12. LIVEVQA评测集

图12. LIVEVQA评测集

6.  AI搜索软件与产品

AI搜索产品已迅速分化为全球通用型产品、垂直领域产品和集成化助手三大类别。下文将分别介绍这三个类别的核心产品。

(1)全球通用型AI搜索产品

作为深度研究的先驱,OpenAI的ChatGPT DeepResearch。Perplexity 的DeepResearch使用最为广泛且效果优异,可以追踪热点话题,特别适用于学术调研,文献综述与技术写作。其他广泛使用的软件和产品还有:Google的Gemini DeepResearch,字节豆包,腾讯元宝等。豆包和元宝通过融入自家生态内容为用户提供更为丰富的内容。我们还调研了其他产品,有些是学术研究,包括:Nano AI,Kimi,DeepSeek,夸克,MiroMind ODR和Manus。

(2)垂直领域AI搜索产品

MediSearch提供循证医学解答,如药物相互作用、治疗方案,大量医疗从业者将其用于临床决策支持。Devv.ai作为代码专用搜索引擎,提供实时调试代码片段与GitHub集成,该工具支持中文查询但仅限于编程场景。Consensus覆盖2亿余篇科学论文,运用自然语言处理技术提取研究假设与方法论,在文献综述环节可节省50%时间。

(3)集成化AI搜索助手

WallesAI作为浏览器侧边栏助手,支持解析PDF、视频及网页内容,实现跨文档问答与内容导出功能。必应聊天深度集成Edge浏览器生态,通过实时网络索引与来源标注提供附带引文的答案,构建了搜索-浏览一体化体验。

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐