2025大模型新趋势！一文读懂Agentic RAG：智能体如何增强检索增强型生成 | 程序员必学必收藏

Agentic RAG描述了基于AI智能体实现的RAG。具体来说，它将AI智能体纳入RAG流程中，以协调其组件并执行超出简单信息检索和生成的额外行动，以克服非智能体流程的局限性。Agentic RAG描述了基于AI智能体实现的RAG。Agentic RAG如何工作？尽管智能体可以被纳入RAG流程的不同阶段，智能体RAG最常用于检索组件中的智能体。

学网安的喵桑

860人浏览 · 2025-11-17 12:01:20

学网安的喵桑 · 2025-11-17 12:01:20 发布

本文详细介绍了Agentic RAG技术，即将AI智能体融入RAG流程，克服了传统RAG的局限性。Agentic RAG通过智能体协调不同检索工具、验证检索信息并实现多步骤检索，显著提升了系统的灵活性和能力。文章对比了单智能体与多智能体架构，并提供了两种实现路径：函数调用的语言模型和智能体框架，为构建更强大、健壮的LLM应用提供了新思路。

在2023年，检索增强型生成（RAG）技术占据了主导地位，而在2024年，智能体工作流程正在推动巨大的进步。使用AI智能体为构建更强大的、健壮的、多功能的大型语言模型（LLM）驱动的应用开辟了新的可能性。其中一个可能性是在智能体RAG流程中增强RAG流程中的AI智能体。

1、智能体RAG的基础知识

什么是检索增强型生成（RAG）

检索增强型生成（RAG）是一种构建LLM驱动应用的技术。它利用外部知识源为LLM提供相关上下文，减少幻觉现象。

一个简单的RAG流程包括一个检索组件（通常由一个嵌入模型和一个向量数据库组成）和一个生成组件（一个LLM）。在推理时，用户查询用于在索引文档上运行相似性搜索，检索与查询最相似的文档，并为LLM提供额外的上下文。

典型的RAG应用有两个相当大的局限性：

简单的RAG流程只考虑一个外部知识源。然而，一些解决方案可能需要两个外部知识源，一些解决方案可能需要外部工具和API，例如网络搜索。
它们是一次性解决方案，这意味着上下文只检索一次。没有对检索到的上下文的质量进行推理或验证。

AI系统中的智能体是什么

随着LLM的流行，AI智能体和多智能体系统的新范式已经出现。AI智能体是具有角色和任务的LLM，它们可以访问内存和外部工具。LLM的推理能力帮助智能体规划所需的步骤并采取行动来完成手头的任务。

因此，AI智能体的核心组件包括：

LLM（具有角色和任务）
内存（短期和长期）
规划（例如，反思、自我批评、查询路由等）
工具（例如，计算器、网络搜索等）

一个流行的框架是ReAct框架。ReAct智能体可以在保持状态（在内存中）的同时处理顺序多部分查询，通过将路由、查询规划和工具使用结合为一个单一实体。

ReAct = 推理 + 行动（使用LLM）

这个过程包括以下步骤：

思考：在接收到用户查询后，智能体推理下一步行动
行动：智能体决定行动并执行它（例如，工具使用）
观察：智能体观察行动的反馈
这个过程一直迭代，直到智能体完成任务并响应用户。

2、什么是Agentic RAG？

Agentic RAG描述了基于AI智能体实现的RAG。具体来说，它将AI智能体纳入RAG流程中，以协调其组件并执行超出简单信息检索和生成的额外行动，以克服非智能体流程的局限性。

Agentic RAG描述了基于AI智能体实现的RAG。

Agentic RAG如何工作？

尽管智能体可以被纳入RAG流程的不同阶段，智能体RAG最常用于检索组件中的智能体。

具体来说，检索组件通过使用具有访问不同检索工具的检索智能体而变得智能体化，例如：

向量搜索引擎（也称为查询引擎），它在向量索引上执行向量搜索（像典型的RAG流程中一样）
网络搜索
计算器
任何用于以编程方式访问软件的API，例如电子邮件或聊天程序
等等。

然后RAG智能体可以在以下示例检索场景中进行推理和行动：

决定是否检索信息
决定使用哪个工具检索相关信息
制定查询本身
评估检索到的上下文，并决定是否需要重新检索。

Agentic RAG架构

与顺序的简单RAG架构相比，智能体RAG架构的核心是智能体。智能体RAG架构可以有不同程度的复杂性。在最简单的形式中，单智能体RAG架构是一个简单的路由器。然而，你也可以将多个智能体添加到多智能体RAG架构中。本节讨论了两个基本的RAG架构。

单智能体RAG（路由器）

在其最简单的形式中，智能体RAG是一个路由器。这意味着你至少有两个外部知识源，智能体决定从哪一个检索额外的上下文。然而，外部知识源不必局限于（向量）数据库。你也可以从工具中检索更多信息。例如，你可以进行网络搜索，或者你可以使用API从Slack频道或你的电子邮件账户中检索额外的信息。

多智能体RAG系统

正如你可以猜到的，单智能体系统也有其局限性，因为它仅限于一个智能体进行推理、检索和答案生成。因此，将多个智能体链入多智能体RAG应用是有益的。

例如，你可以有一个主智能体，它协调多个专业检索智能体之间的信息检索。例如，一个智能体可以从专有的内部数据源检索信息。另一个智能体可以专门从你的个人账户（如电子邮件或聊天）检索信息。另一个智能体也可以专门从网络搜索中检索公共信息。

超越检索智能体

上述示例显示了使用不同的检索智能体。然而，你也可以使用智能体用于检索之外的其他目的。智能体在RAG系统中的可能性是多种多样的。

3、Agentic RAG与（普通）RAG

虽然RAG（发送查询、检索信息、生成响应）的基本概念保持不变，但工具使用扩展了它，使其更加灵活和强大。

可以这样想：普通的（普通）RAG就像在图书馆（在智能手机出现之前）回答一个具体问题。另一方面，智能体RAG就像手中有一部带有网络浏览器、计算器、电子邮件等的智能手机。

普通RAG智能体RAG访问外部工具否是查询预处理否是多步骤检索否是验证检索到的信息否是

实施智能体RAG

如前所述，智能体由多个组件组成。要构建智能体RAG流程，有两种选择：具有函数调用的语言模型或智能体框架。两种实现都能达到相同的结果，只是取决于你想要的控制和灵活性。

具有函数调用的语言模型

语言模型是智能体RAG系统的主要组件。另一个组件是工具，它们使语言模型能够访问外部服务。具有函数调用的语言模型提供了一种构建智能体系统的方法，允许模型与预定义的工具进行交互。语言模型提供商已将此功能添加到他们的客户端中。

2023年6月，OpenAI为gpt-3.5-turbo和gpt-4发布了函数调用。它使这些模型能够可靠地将GPT的能力与外部工具和API连接起来。开发人员迅速开始构建应用程序，将gpt-4插入代码执行器、数据库、计算器等。

Cohere进一步推出了他们的连接器API，为Command-R模型套件添加工具。此外，Anthropic和Google为Claude和Gemini发布了函数调用。通过为这些模型提供外部服务，它可以访问并引用网络资源，执行代码等。

函数调用不仅适用于专有模型。Ollama为流行的开源模型如Llama3.2、nemotron-mini等引入了工具支持。

要构建一个工具，你首先需要定义一个函数。在这个片段中，我们正在编写一个使用Weaviate的混合搜索从数据库检索对象的函数：

def get_search_results(query: str) -> str:
    """Sends a query to Weaviate's Hybrid Search. Parses the response into a {k}:{v} string."""
    
    response = blogs.query.hybrid(query, limit=5)
    
    stringified_response = ""
    for idx, o in enumerate(response.objects):
        stringified_response += f"Search Result: {idx+1}:\n"
        for prop in o.properties:
            stringified_response += f"{prop}:{o.properties[prop]}"
        stringified_response += "\n"
    
    return stringified_response

然后我们将函数通过tools_schema传递给语言模型。该模式然后在提示中用于语言模型：

tools_schema=[{
    'type': 'function',
    'function': {
        'name': 'get_search_results',
        'description': 'Get search results for a provided query.',
        'parameters': {
          'type': 'object',
          'properties': {
            'query': {
              'type': 'string',
              'description': 'The search query.',
            },
          },
          'required': ['query'],
        },
    },
}]

由于你直接连接到语言模型API，你需要编写一个循环，该循环在语言模型和工具之间进行路由：

def ollama_generation_with_tools(user_message: str,
                                 tools_schema: List, tool_mapping: Dict,
                                 model_name: str = "llama3.1") -> str:
    messages=[{
        "role": "user",
        "content": user_message
    }]
    response = ollama.chat(
        model=model_name,
        messages=messages,
        tools=tools_schema
    )
    if not response["message"].get("tool_calls"):
        return response["message"]["content"]
    else:
        for tool in response["message"]["tool_calls"]:
            function_to_call = tool_mapping[tool["function"]["name"]]
            print(f"Calling function {function_to_call}...")
            function_response = function_to_call(tool["function"]["arguments"]["query"])
            messages.append({
                "role": "tool",
                "content": function_response,
            })
    
    final_response = ollama.chat(model=model_name, messages=messages)
    return final_response["message"]["content"]

然后你的查询将如下所示：

ollama_generation_with_tools("How is HNSW different from DiskANN?",
                            tools_schema=tools_schema, tool_mapping=tool_mapping)

智能体框架

DSPy、LangChain、CrewAI、LlamaIndex和Letta等智能体框架的出现，为使用语言模型构建应用程序提供了便利。这些框架通过将预构建的模板组合在一起，简化了构建智能体RAG系统的过程。

DSPy支持ReAct智能体和Avatar优化。Avatar优化描述了使用自动化提示工程来描述每个工具的使用。
LangChain为使用工具提供许多服务。LangChain的LCEL和LangGraph框架进一步提供了内置工具。
LlamaIndex进一步引入了QueryEngineTool，这是一个用于检索工具的模板集合。
CrewAI是开发多智能体系统的领先框架之一。用于工具使用的一个关键概念是智能体之间共享工具。
Swarm是由OpenAI构建的多智能体协调框架。Swarm同样专注于智能体之间如何共享工具。
Letta将反映和提炼内部世界模型作为函数。这意味着可能使用搜索结果来更新聊天机器人用户的智能体内存，除了回答问题。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要 《AI大模型入门+进阶学习资源包》，下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

在这里插入图片描述

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述