RAG大揭秘：从“外挂知识库“到“可编程系统“，小白也能玩转的大模型增强技术

本文对检索增强生成(RAG)技术进行了系统性综述，基于5大数据库筛选的128篇高被引文献和343个数据集，构建了RAG技术地图和评估框架。RAG已从简单的"外挂知识库"演进为"可编程、可解释、可审计"的复杂系统，涵盖检索前处理、混合检索、后处理优化、迭代控制、记忆增强、多智能体协作等关键技术，并提出了完整的评估指标体系，为RAG研究和应用提供了全面指导。

程序猿李巡天

969人浏览 · 2025-12-31 11:04:16

程序猿李巡天 · 2025-12-31 11:04:16 发布

检索增强生成（RAG）自 2020 年 Meta “DPR+T5” 论文起，已从“外挂知识库”演进到“可编程、可解释、可审计”的复杂系统。然而，领域缺乏一份PRISMA 级的系统性综述来梳理：

通过 5 大数据库、128 篇高被引文献、343 个数据集的系统筛选，给出技术地图 + 评估框架 + 未来路线。

一、研究方法：PRISMA 2020 流程图

图 1：文献筛选流程，共识别 4,721 条记录，最终纳入 128 篇高被引研究。

二、技术全景：从“一条检索链”到“多智能体系统”

阶段	关键创新	名称
检索前	结构感知分块（100→4000 tokens）、元数据增强、长检索单元	Chunking
检索中	混合检索（BM25+Dense+KG）、图遍历、动态触发	Hybrid Retrieval
检索后	重排序、上下文压缩、噪声注入、Token 预算	Post Retrieval
迭代控制	FLARE、RIND、Self-RAG 反射 token	!Self-RAG
记忆增强	用户级向量库、对话缓存、知识图谱	Memory
多智能体	工具链编排（RALLE、MEDRAG）、ReAct-Chain	Agentic
效率压缩	xRAG 单 token 表示、PipeRAG 流水调度	Efficiency
多模态	MuRAG、Wiki-LLaVA，图像+文本同空间检索	Multimodal

128篇纳入的RAG论文按领域划分的研究特征：数据集、分块机制、检索机制、向量空间编码器和生成模型。

三、评估指标：从 EM 到 LLM-as-Judge

类别	代表指标	适用场景
检索	Recall@k、MAP@k、Hit@K	检索召回率
生成	EM、F1、BLEU、ROUGE、BERTScore	文本质量
幻觉	Support、Hallucination Rate、RAGTruth	事实一致性
人类	正确性、相关性、用户满意度	主观体验
LLM-Judge	GPT-4 打分、G-EVAL、SelfCheckGPT	可扩展评估

四、343个主流数据集

高频数据集	样本量	任务	引用次数
Natural Questions (NQ)	323k	开放域 QA	27
HotPotQA	113k	多跳 QA	26
Wikipedia	6M 文章	通用语料	19
MS MARCO	1M 段落	检索 + QA	8
StrategyQA	2.8k	隐式推理	8

包含的研究所使用的数据集概览。该表概述了每个数据集的关键特征和来源，提供了对研究文章中所使用数据的总体了解。这一总结支持对RAG特定趋势和方法论的分析，展示了该研究领域中应用的数据集的多样性和范围。

“RAG 不再是检索 + 生成的简单拼接，而是一个需要资源调度、版本管理、安全治理的分布式操作系统。”

https://arxiv.org/pdf/2508.06401
A Systematic Literature Review of Retrieval-Augmented Generation: Techniques, Metrics, and Challenges

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述