5.3 进阶RAG架构：Agentic与Multi-modal RAG架构解析

为RAG系统注入了主动性和推理能力，使其从“信息搬运工”变为“问题解决者”。则扩展了RAG系统的感知维度，使其能从丰富多彩的现实世界中获取和整合信息。两者都是传统RAG面向复杂现实应用场景的必然演进。当前的技术发展正迅速将两者结合，朝着构建更通用、更强大、更像“人”的AI助手方向迈进。在设计这类系统时，需要重点考虑模块化（便于扩展新工具或模态）、评估体系（如何评估复杂交互的性能）和成本控制（多模态

北京地铁1号线

589人浏览 · 2026-02-04 20:23:13

北京地铁1号线 · 2026-02-04 20:23:13 发布

一、Agentic RAG：让 RAG 拥有“大脑”和“工具”

传统RAG（检索增强生成）已广泛应用于知识库问答，但它在处理复杂问题和多模态数据时显得力不从心。Agentic RAG 和 Multi-modal RAG 正是为解决这些局限性而生的两种核心进阶架构。

本文将详细介绍它们的设计思路、核心组件、工作流程以及代表模式。

一、Agentic RAG：让 RAG 拥有“大脑”和“工具”

核心理念：将传统RAG的线性“检索->生成”流程，转变为由一个智能体（Agent） 驱动的、具有规划、反思、迭代能力的动态过程。智能体可以决定何时检索、检索什么、如何整合信息以及何时调用外部工具。

设计思路

问题复杂性感知：传统RAG对所有问题“一视同仁”。Agentic RAG首先判断问题的复杂性（例如，是否需要多步推理、分解、调用计算工具等）。
自主规划与执行：智能体将复杂问题分解为子任务，并制定执行计划（Plan）。这类似于人类的“先想后做”。
工具使用能力：智能体不仅能检索向量数据库，还能调用各种API和工具，如计算器、代码解释器、搜索引擎、专业数据库等。
自我反思与验证：智能体可以对中间结果或最终答案进行批判性评估，检查其与检索内容的一致性、逻辑性，并在发现问题时重新规划或检索。

核心架构组件

智能体（Agent）：通常基于大语言模型，负责整体协调。其核心是推理能力。
规划器（Planner）：分析用户查询，将其分解为一系列可执行的步骤或子问题。
工具集（Tools）：扩展系统能力的外部资源，至少包括：
- 检索工具（Retriever Tool）：访问向量数据库或传统搜索引擎。
- 计算工具、代码执行器、知识图谱查询器等。
执行器（Executor）：按照规划调用相应的工具并获取结果。
反思器（Reflector / Verifier）：评估已获得信息的质量和充分性，判断是否需要进一步行动。

典型工作模式

用户提出复杂问题：“我们公司去年Q3在华东区的销售额增长率是多少？结合当前市场趋势，预测下个季度的表现。”
规划：智能体分析后，规划步骤：a) 检索“去年Q3华东区销售额”报告；b) 检索“当前市场趋势”分析；c) 调用计算工具计算增长率；d) 调用数据分析工具/模型进行预测。
迭代执行与反思：
- 执行步骤a，获得一份报告。
- 反思：报告中的数据是否足够？是否需要更细粒度的月度数据？可能需要发起第二次检索。
- 执行步骤b，获得多份市场分析。
- 反思：这些分析结论是否一致？是否需要优先选择某个权威来源？
- 整合信息，执行步骤c和d。
生成最终答案：将所有中间结果、计算数据和推理过程整合，生成一个结构清晰、有据可依的最终报告。

代表框架/模式

Self-RAG：通过特殊训练，让LLM自身学会在生成过程中判断是否需要检索（发出[Retrieve]标记），并对检索到的文档进行相关性评估，最终生成附有引用的、可靠的答案。
Agent-based RAG with ReAct范式：智能体在Thought -> Act（调用Tool）-> Observation的循环中运作，将推理与行动明确结合。
LangChain / LlamaIndex Agent：这些框架提供了构建Agentic RAG的高层抽象，方便开发者组装规划器、工具和记忆模块。

核心理念：将检索和生成的对象从单一的文本，扩展到图像、音频、视频、表格、代码等多种模态。核心挑战在于如何让不同模态的数据在同一个语义空间中被理解和关联。

设计思路

多模态数据统一编码：使用多模态大模型（如CLIP、BLIP、GPT-4V）的编码器，将图像、文本等不同模态的数据映射到同一个共享的向量空间。这样，一张“狗在草地上奔跑”的图片和一段“犬只在草坪上运动”的文字，其向量表示是相近的。
跨模态检索：支持使用任意模态的查询，来检索所有模态的相关内容。例如：
- 以文搜图：“找一张展示团队协作的示意图。”
- 以图搜文：上传一张产品截图，找到对应的用户手册章节。
- 以图搜图 + 文：上传一张旧海报，找到类似风格的设计及其设计理念说明。
多模态上下文生成：将检索到的多模态内容（如图片+描述文本+相关数据表）作为上下文，输入给多模态大语言模型（MLLM，如GPT-4V, Gemini, Claude-3），让它生成融合了多模态信息的答案。

核心架构组件

多模态编码器：如CLIP（用于图文），将不同模态数据转换为对齐的向量。
多模态向量数据库：存储所有模态数据的向量及其原始文件（图片、音频、文档等）。每条数据需有元数据记录其模态类型。
多模态检索器：根据查询的模态，选择合适的编码器进行处理，并在向量数据库中进行跨模态的相似性搜索。
多模态大语言模型：能够理解并生成包含多模态内容的响应。

典型工作流程（以图文为例）

数据预处理与入库：
- 对于文本：用文本编码器生成向量。
- 对于图像：用视觉编码器（如CLIP的Image Encoder）生成向量。同时，可以使用MLLM为图像生成详细的文本描述，作为补充文本信息一并存储。
- 将所有向量和原始文件存入多模态向量数据库。
查询与检索：
- 用户输入：“用图表说明一下牛顿第二定律。”
- 系统将文本查询通过文本编码器向量化。
- 在向量数据库中执行检索，返回最相关的图像（可能是物理教材中的受力分析图）和文本（定律的公式和解释）。
生成与呈现：
- 将检索到的图片和文本作为上下文，输入给MLLM。
- MLLM生成答案：“牛顿第二定律 F=ma，表示力等于质量乘以加速度。如下图所示[插入/引用检索到的图片]，该图清晰地展示了如何对物体进行受力分析并应用此定律进行计算...”
- 系统在最终界面中，可以同时呈现生成的文本和检索到的关键图片。

对比与融合趋势

特性	传统RAG	Agentic RAG	Multi-modal RAG
核心目标	精准引用知识库文本	解决复杂、动态问题	处理和理解多类型数据
关键能力	语义检索、文本生成	规划、工具调用、反思	跨模态编码、多模态理解
数据模态	主要为文本	主要为文本（但工具可处理其他模态）	文本、图像、音频、视频等
流程	线性、静态	循环、动态、迭代	线性或简单交叉
适用场景	事实性问答、文档摘要	复杂分析、决策支持、需外部验证的任务	多媒体内容管理、视觉问答、跨模态创意

终极融合：多模态智能代理（Multi-modal Agentic RAG）
这是最前沿的方向，结合了两者的优势：

一个能看、能听、能思考、会使用工具的超级助手。

示例场景：用户上传一张生锈的机器零件照片，问：“这是什么问题？如何维修？需要哪些零件和预算？”

智能体规划：识别问题->诊断原因->查找维修方案->查询零件库存和价格->生成预算。

多模态检索：用零件图片检索维修手册（图文）、故障案例（视频）、零件目录（表格）。

工具调用：调用零件库存查询API、价格计算器。

反思与整合：判断检索到的方案是否与图片故障匹配，预算是否合理。

生成报告：输出一份包含故障分析、维修步骤、所需零件清单及总价的多媒体报告。

总结

Agentic RAG 为RAG系统注入了主动性和推理能力，使其从“信息搬运工”变为“问题解决者”。
Multi-modal RAG 则扩展了RAG系统的感知维度，使其能从丰富多彩的现实世界中获取和整合信息。

两者都是传统RAG面向复杂现实应用场景的必然演进。当前的技术发展正迅速将两者结合，朝着构建更通用、更强大、更像“人”的AI助手方向迈进。在设计这类系统时，需要重点考虑模块化（便于扩展新工具或模态）、评估体系（如何评估复杂交互的性能）和成本控制（多模态模型和频繁的Agent调用成本较高）。