RAG（Retrieval-Augmented Generation、检索增强生成）

RAG（检索增强生成）是结合信息检索与生成式AI的技术框架，通过检索外部知识库提升生成内容的准确性。其发展经历了三个阶段：2020年Meta提出的朴素RAG（基于关键词匹配）、2021-2023年的进阶RAG（引入反馈闭环和模块化设计）、以及当前的知识增强与多模态融合阶段（采用知识图谱和智能体决策）。技术实现分为离线索引（文档分块和向量化）和在线生成（检索相关块并生成答案）两大流程，关键优化策略包

xin.cheng

609人浏览 · 2025-11-19 09:09:14

xin.cheng · 2025-11-19 09:09:14 发布

什么是RAG

RAG（Retrieval-Augmented Generation，检索增强生成）是一种将信息检索技术与生成式人工智能相结合的技术框架。其核心思想是让大模型在生成答案前，先通过检索外部知识库获取相关资料，从而提升生成内容的准确性、可靠性和时效性。

核心价值

解决知识滞后：通过实时检索外部知识库，弥补大模型训练数据过时的缺陷。
减少幻觉生成：生成内容以检索到的真实信息为依据，降低虚构风险。
增强专业性：适用于医疗、法律等需要领域知识的场景。

核心原理

RAG的工作原理主要分为三个步骤：

检索（Retrieval）：当模型接收到一个问题时，它会首先通过向量检索技术从外部知识库（如文档、数据库）中快速定位与问题相关的文档或信息片段。
增强（Augmentation）：将检索到的相关文档或信息片段作为上下文，与原始问题一起输入到大语言模型中。
生成（Generation）：大模型基于检索到的上下文信息和原始问题，生成针对性的回答。
这种机制能有效减少大模型的“幻觉”现象（即生成看似合理但实际上不准确或无意义的答案），使回答更具事实依据。

与传统生成模型的差异

与传统生成模型（如文心一言）相比，RAG在知识来源、准确性和可靠性等方面有显著差异：

知识来源：传统模型依赖预训练阶段固化在模型参数中的知识，而RAG依赖外部实时更新的知识库。
准确性：RAG通过检索真实信息为生成过程提供依据，显著减少了“编答案”的幻觉现象。
响应速度：由于需要先进行检索操作，RAG的响应速度相对较慢，但通过优化检索算法和硬件设施可提高效率。

技术优势

RAG技术的核心优势在于其知识融合与智能生成能力。它不仅能利用大模型的生成能力，还能通过检索外部知识库获取最新、最权威的信息，从而生成更准确、可靠的回答。这种技术特别适用于需要专业知识的垂直领域，如医疗健康、企业知识管理等。

RAG 的前世今生

RAG（检索增强生成）技术自2020年由Meta提出以来，经历了从基础架构到复杂系统的快速演进，其发展历程可概括为以下关键阶段：

2020年——技术起源与朴素RAG阶段

Meta在2020年首次提出RAG框架，其核心逻辑是通过“检索-生成”二元架构，将外部知识库与大模型结合，解决传统大模型知识滞后和幻觉问题。这一阶段的朴素RAG主要依赖关键词匹配（如TF-IDF、BM25算法）进行文档检索，适用于轻量级问答场景，但存在语义理解不足的局限。

2021-2023年——架构优化与进阶RAG阶段

为解决朴素RAG的精度问题，技术演进聚焦于检索策略和生成流程的优化：

纠正型RAG：引入反馈闭环机制，通过用户评价或专业校验修正生成结果，应用于医疗、教育等高精度需求领域。
推测型RAG：通过预生成假设问题优化检索效率，提升长上下文处理能力。
模块化RAG：将数据流、控制流与知识流解耦，支持异构数据源（如PDF、图像）的深度解析，典型代表如RAGFlow的一体化流水线设计。

2024-2025年——知识增强与多模态融合阶段

技术路径进一步向结构化知识整合拓展：

GraphRAG：利用知识图谱优化检索，解决传统RAG因文档分块导致的语义碎片化问题，增强跨域推理能力。
REFRAG：Meta于2025年提出的效率优化框架，通过令牌级嵌入和轻量级强化学习压缩上下文，降低解码延迟。
Agentic RAG：引入智能体决策机制，支持递归检索和复杂任务拆解（如多源信息对比分析），推动RAG向自主化演进。

产业落地与未来方向

当前RAG已从实验室技术发展为构建企业级智能应用的核心范式，其落地挑战集中于异构数据解析、长上下文管理及跨域推理。未来技术将更注重知识表示效率（如压缩嵌入）与生成可控性（如溯源机制）的平衡。

技术实现

RAG（检索增强生成）技术的具体实现和优化策略是一个系统性的工程，涉及从数据准备到生成输出的全链路优化。以下将结合其核心流程和关键优化策略进行说明。

核心实现流程

RAG技术主要分为离线索引和在线生成两大阶段：

离线索引：原始文档通过文本切割器（如按字符、句子或语义分块）拆分为更小的知识块（chunks），再通过嵌入模型（embedding model）转换为向量表示，最终存入向量数据库。
在线生成：用户提问时，系统将问题转换为查询向量，在向量数据库中检索语义最相近的知识块，随后将问题与检索结果结合，通过提示词模板输入大模型生成最终答案。

关键优化策略

优化RAG效果需从索引和生成两个阶段入手，以下是一些核心策略：

索引阶段优化

分块策略：采用语义分块（Semantic Chunking）而非固定长度分块，通过分析句子间语义相似度合并相关文本，避免信息碎片化。例如，将相邻且语义相关的句子合并为更完整的上下文块。
数据清洗：确保原始数据整洁（如去除特殊字符）和准确（避免冲突信息），这是提升检索质量的基础。
嵌入模型选择：使用领域内数据微调嵌入模型，或采用基于大模型的嵌入模型（如LLM-based embedding），以提升语义理解能力。

生成阶段优化

查询转换：通过多查询（Multi Query）或问题分解（Decomposition）策略，从不同角度重写或拆解用户问题，提升检索覆盖率。例如，将复杂问题拆解为多个子问题并行检索。
结果融合：采用RAG-Fusion等策略，对多个检索结果列表进行融合排序（如倒数排名融合RRF），生成更统一的答案。
重排序（Reranking）：在检索后引入重排序模型，对召回文档进行相关性评分，筛选出最相关的信息输入大模型。

高级架构演进

Modular RAG：将检索和生成模块解耦，支持组件化替换和领域适配，成为当前主流实现方式。
Graph RAG：利用知识图谱增强多跳检索能力，通过实体关系挖掘更丰富的上下文。
Agentic RAG：引入智能体（Agent）进行递归检索和任务拆解，例如通过多工具协同完成复杂工作流（如自动追踪科研文献并生成报告）。

实践建议

分块长度调整：根据场景需求动态设置分块大小。问答场景可能需要更短的、具体的块，而摘要任务可能需要更长的上下文块。
评估与迭代：需持续评估检索准确率和生成效果，通过实验调整分块策略、嵌入模型和提示词模板等参数。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

EverMemOS：开启AI长期记忆新时代，重构人机交互的时空纽带

2048 AI社区

Agentic AI上下文工程实体识别技术：提示工程架构师的独家见解

Agentic AI（智能体人工智能）的核心优势在于自主感知上下文、持续决策与行动，而上下文工程是其“感知能力”的基石。实体识别（Entity Recognition, ER）作为上下文构建的核心环节，需突破传统静态模型的局限，适配智能体的动态环境、多模态输入与长时记忆需求。本文从提示工程架构师的视角，结合第一性原理与实践经验，系统拆解Agentic AI上下文工程中实体识别的理论框架、架构设计、