检索增强生成(RAG)技术作为连接大语言模型与外部知识的关键桥梁,已成长为AI应用落地的核心支撑。本文系统梳理了RAG的技术演进脉络与核心架构创新,聚焦2025年的突破性成果,如多模态语义理解与检索、动态知识管理、语义增强检索等,并分析了金融、法律、医疗等典型应用场景。文章还对比了主流RAG框架,探讨了当前挑战与未来研究方向,为相关领域的研究与工程应用提供全面参考。

一、RAG 技术核心原理与演进脉络

1.1 基础架构与核心逻辑

检索增强 LLM ( Retrieval Augmented LLM ),简单来说,就是给 LLM 提供外部数 据库,对于用户问题 ( Query ),通过一些信息检索 ( Information Retrieval, IR ) 的 技术,先从外部数据库中检索出和用户问题相关的信息,然后让 LLM 结合这些相关 信息来生成结果。下图是一个检索增强 LLM 的简单示意图。

传统的信息检索工具,比如 Google/Bing 这样的搜索引擎,只有检索能力 ( Retrieval-only ),现在 LLM 通过预训练过程,将海量数据和知识嵌入到其巨大的模 型参数中,具有记忆能力 ( Memory-only )。从这个角度看,检索增强 LLM 处于中 间,将 LLM 和传统的信息检索相结合,通过一些信息检索技术将相关信息加载到 LLM 的工作内存 ( Working Memory ) 中,即 LLM 的上下文窗口 ( Context Window ),亦即 LLM 单次生成时能接受的最大文本输入。

RAG 的核心思想是将 “检索” 与 “生成” 两大模块有机融合,通过外部知识库为 LLM 提供实时、准确的知识支撑,其经典架构包含三大核心环节:

  • 知识预处理:对非结构化数据(文本、图像、音频等)进行清洗、结构化处理,通过嵌入模型(Embedding Model)转化为向量表示并构建索引;
  • 检索阶段:根据用户查询意图,从知识库中精准召回相关知识片段,作为生成阶段的上下文补充;
  • 生成阶段:LLM 结合检索到的外部知识与自身参数化知识,生成符合查询需求、事实准确的回应。

这一架构从根本上解决了传统 LLM 的两大痛点:一是知识时效性问题,通过知识库动态更新实现最新信息的快速接入;二是事实准确性问题,借助可追溯的外部知识降低模型幻觉率。

RAG 解决的问题:

(1)长尾知识:

对于一些相对通用和大众的知识,LLM 通常能生成比较准确的结果,而对于一些长尾知识,LLM 生成的回复通常并不可靠。ICML 会议上的这篇论文 Large Language Models Struggle to Learn Long-Tail Knowledge,就研究了 LLM 对基于事实的问答的准确性和预训练数据中相关领域文档数量的关系,发现有很强的相关性,即预训练数据中相关文档数量越多,LLM 对事实性问答的回复准确性就越高。从这个研究中可以得出一个简单的结论 ——** LLM 对长尾知识的学习能力比较弱**。

为了提升 LLM 对长尾知识的学习能力,容易想到的是在训练数据加入更多的相关长尾知识,或者增大模型的参数量,虽然这两种方法确实都有一定的效果,上面提到的论文中也有实验数据支撑,但这两种方法是不经济的,即需要一个很大的训练数据量级和模型参数才能大幅度提升 LLM 对长尾知识的回复准确性。而通过检索的方法把相关信息在 LLM 推断时作为上下文 ( Context ) 给出,既能达到一个比较好的回复准确性,也是一种比较经济的方式。

(2)私有数据

ChatGPT 这类通用的 LLM 预训练阶段利用的大部分都是公开的数据,不包含私有数据,因此对于一些私有领域知识是欠缺的。比如问 ChatGPT 某个企业内部相关的知识,ChatGPT 大概率是不知道或者胡编乱造。虽然可以在预训练阶段加入私有数据或者利用私有数据进行微调,但训练和迭代成本很高。此外,有研究和实践表明,通过一些特定的攻击手法,可以让 LLM 泄漏训练数据,如果训练数据中包含一些私有信息,就很可能会发生隐私信息泄露。如果把私有数据作为一个外部数据库,让 LLM 在回答基于私有数据的问题时,直接从外部数据库中检索出相关信息,再结合检索出的相关信息进行回答。这样就不用通过预训练或者微调的方法让 LLM 在参数中记住私有知识,既节省了训练或者微调成本,也一定程度上避免了私有数据的泄露风险。

(3)数据新鲜度

由于 LLM 中学习的知识来自于训练数据,虽然大部分知识的更新周期不会很快,但依然会有一些知识或者信息更新得很频繁。LLM 通过从预训练数据中学到的这部分信息就很容易过时。如果把频繁更新的知识作为外部数据库,供 LLM 在必要的时候进行检索,就可以实现在不重新训练 LLM 的情况下对 LLM 的知识进行更新和拓展,从而解决 LLM 数据新鲜度的问题。

(4)来源验证和可解释性

通常情况下,LLM 生成的输出不会给出其来源,比较难解释为什么会这么生成。而通过给 LLM 提供外部数据源,让其基于检索出的相关信息进行生成,就在生成的结果和信息来源之间建立了关联,因此生成的结果就可以追溯参考来源,可解释性和可控性就大大增强。即可以知道 LLM 是基于什么相关信息来生成的回复。利用检索来增强 LLM 的输出,其中很重要的一步是通过一些检索相关的技术从外部数据中找出相关信息片段,然后把相关信息片段作为上下文供 LLM 在生成回复时参考。有人可能会说,随着 LLM 的上下文窗口 ( Context Window ) 越来越长,检索相关信息的步骤是不是就没有必要了,直接在上下文中提供尽可能多的信息。

1.2 技术演进的三个关键阶段

RAG 的发展可划分为三个具有里程碑意义的阶段:

  • 第一阶段(2020-2022):文本单模态时代,核心特征是基于关键词和简单向量匹配的检索方式,代表框架如 LangChain RAG、Haystack 早期版本,主要解决文本类知识的补充问题,但检索准确性和知识融合能力有限;
  • 第二阶段(2023-2024):语义检索升级,引入稠密检索(Dense Retrieval)、交叉注意力机制,实现查询意图与知识语义的深度匹配,同时开始探索多模态数据的初步支持,系统可解释性和生成质量显著提升;
  • 第三阶段(2025 至今):多模态融合与动态智能时代,以 RAGFlow 等新一代框架为代表,实现文本、图像、音频、视频等多模态数据的统一处理,动态知识管理和语义增强检索成为核心突破点,全面解决传统 RAG 面临的时效性、准确性、扩展性难题。

二、2025 年 RAG 技术核心突破与创新实践

2.1 多模态语义理解与检索:打破数据类型边界

传统 RAG 系统多局限于文本数据处理,难以满足实际应用中多模态查询的需求。2025 年,多模态 RAG 架构实现关键突破,其核心创新在于构建了统一的多模态语义表示空间:

  • 跨模态注意力机制:通过将视觉模型(如 CLIP 的进阶版本)、音频模型与 LLM 深度融合,实现不同模态数据的关联检索,例如用户可通过 “查找与这份设计图风格一致的产品说明书” 这类跨模态查询获取精准结果;
  • 多模态数据统一编码:采用分层编码策略,对文本、图像、音频等数据进行模态特异性特征提取后,通过跨模态适配器(Adapter)映射到统一向量空间,确保不同类型知识的可比较性;
  • 模态自适应检索策略:系统可根据查询类型自动调整检索权重,文本主导型查询侧重语义匹配,视觉主导型查询强化特征相似度计算,显著提升复杂场景下的检索准确率。

RAGFlow 的测试数据显示,其多模态检索准确率达到 92.3%,较传统文本 RAG 框架提升 15%-20%,为医疗影像分析、多媒体内容创作等场景提供了技术支撑。

2.2 动态知识管理:解决知识时效性难题

静态知识库导致的知识过时,是长期制约 RAG 应用的关键瓶颈。2025 年推出的动态知识管理机制,通过全流程自动化实现知识的实时更新与优化:

  • 事件驱动的知识抓取:基于预设规则和实时监测机制,自动从指定网站、API、数据库等数据源抓取最新信息,支持增量更新和全量更新的灵活切换;
  • 智能质量评估与过滤:引入 LLM 辅助的知识审核模块,对抓取到的信息进行可信度评估、冗余度检测和错误修正,确保入库知识的准确性;
  • 自适应索引更新:采用增量索引技术,避免全量索引重建带来的资源消耗,实现新知识的快速检索可达,索引更新延迟控制在分钟级。

这一机制使 RAG 系统能够及时吸收行业动态、政策法规、技术文献等最新信息,尤其适用于金融市场分析、法律实务咨询等对知识时效性要求极高的领域。

2.3 语义增强检索:提升复杂查询理解能力

检索准确性是 RAG 系统的核心性能指标,2025 年在检索算法层面的创新主要体现在混合检索策略的深度优化:

  • 多策略融合检索:整合向量检索、关键词检索、语义检索的优势,针对不同查询类型动态调整各检索方式的权重,例如对事实性查询强化关键词匹配,对开放性查询侧重语义理解;
  • LLM 辅助的查询扩展与重写:通过 LLM 解析用户查询的深层意图,自动补充相关实体、扩展查询维度,解决查询表述模糊、信息不全导致的检索偏差;
  • 动态检索参数调优:基于查询历史和反馈数据,自适应调整检索阈值、召回数量等参数,实现检索性能的持续优化。

实验数据表明,采用语义增强检索的 RAG 系统,在复杂领域查询中的相关知识召回率提升 30% 以上,有效减少了 “检索遗漏” 导致的生成质量下降问题。

2.4 生成优化与融合:实现知识与表达的自然衔接

检索到的知识如何与 LLM 生成过程有机融合,直接影响最终回应的连贯性和准确性。2025 年的技术突破主要体现在:

  • 注意力机制驱动的知识融合:在生成过程中,通过跨注意力层动态关注检索知识中的关键信息,实现知识与上下文的精准匹配,避免生硬拼接;
  • 多阶段生成策略:采用 “初稿生成 - 知识验证 - 修正优化” 的三阶段流程,第一阶段基于检索知识生成初步回应,第二阶段验证知识的准确性和适用性,第三阶段优化表达逻辑和语言流畅度;
  • 生成结果自动校验:引入事实性检测模块,对生成内容中的关键结论、数据进行溯源验证,降低幻觉率,同时提供知识来源标注,提升结果可解释性。

2.5 RAG关键模块

为了构建检索增强 LLM 系统,需要实现的关键模块和解决的问题包括:

数据和索引模块:将多种来源、多种类型和格式的外部数据转换成一个统一的文档对象 ( Document Object ),便于后续流程的处理和使用。文档对象除了包含原始的文本内容,一般还会携带文档的元信息 ( Metadata ),可以用于后期的检索和过滤。

查询和检索模块:如何准确高效地检索出相关信息

响应生成模块:如何利用检索出的相关信息来增强 LLM 的输出

三、主流 RAG 框架对比与应用场景分析

3.1 2025 年主流 RAG 框架多维度对比

随着 RAG 技术的快速发展,各类框架层出不穷,下表从核心功能、性能表现等维度对比了当前主流框架的特点:

从对比结果可见,RAGFlow 在多模态支持、动态知识更新和可解释性方面具有显著优势,更适用于复杂场景的企业级应用;而 LangChain RAG、LlamaIndex 等框架则凭借成熟的生态和易用性,仍是中小规模项目的优选。

3.2 典型应用场景与实践价值

RAG 技术的应用已渗透到多个领域,其核心价值在于实现了 LLM 在特定场景的精准落地:

  • 金融与商业:支持实时市场数据整合、财报分析、投资策略生成,动态知识管理机制可及时捕捉政策变化和市场波动;
  • 法律实务:实现法律法规、案例文书的快速检索与解读,生成法律意见时可追溯具体法条和案例依据,提升专业性和可信度;
  • 医疗健康:整合最新临床指南、病例数据、药物信息,辅助医生进行诊断参考和患者咨询,多模态支持使医学影像与文本报告的联合分析成为可能;
  • 教育科研:为科研人员提供文献检索、实验数据整合、研究思路生成的一站式支持,动态更新的知识库确保研究内容的前沿性;
  • 企业知识管理:将企业内部文档、流程规范、历史经验转化为可检索的知识资产,助力新员工培训和业务高效开展。

模式一: 非结构化数据通过Embedding Model把非结构化数据进行embedding存到向量数据库中,然后形成Construct Prompts给到LLM。LLM返回结果给到用户。

模式二: 用户提出问题,下一步把问题通过Embedding Model向量化,然后保存到长时记忆数据库(向量数据库)中,然后调用LLM完成问题的回答,接下来将大模型的回答存到长时记忆数据库中,最后返回给用户。

模式三: 用户问问题,下一步把问题通过Embedding Model向量化,然后从Cache中(向量数据库)查询类似的问题和答案,返回给用户。如果没有命中,则去和LLM交互。然后把LLM的回答存到Cache中,最后把回答返回给用户。

这三种形式就是典型的RAG的调用模式。它可以解决不同类型的数据如何让大模型知道的问题,同时在性能和效率上得到了提高,解决了长时记忆的问题,幻觉问题也有很大改善。

四、RAG vs. SFT

与预训练或微调基础模型等传统方法相比,RAG 提供了一种经济高效的替代方法。RAG 从根本上增强了大语言模型在响应特定提示时直接访问特定数据的能力。为了说明 RAG 与其他方法的区别,请看下图。雷达图具体比较了三种不同的方法:预训练大语言模型、预训练 + 微调 LLM 、预训练 + RAG LLM。

五、当前挑战与未来研究方向

尽管 RAG 技术已取得显著进展,但在实际应用中仍面临诸多挑战:

  • 大规模知识库的检索效率:随着知识库规模扩大,检索延迟和资源消耗呈指数级增长,如何在保证准确性的前提下提升检索效率仍是关键问题;
  • 低资源领域的适配性:专业领域的高质量标注数据稀缺,导致 RAG 系统在小众领域的检索准确性和生成质量有待提升;
  • 多模态数据的处理复杂度:不同模态数据的特征差异大,统一表示和高效检索仍需更优的算法支撑;
  • 可解释性与监管合规:生成结果的知识溯源仍需细化,尤其在医疗、法律等敏感领域,需满足严格的合规要求。

针对这些挑战,未来的研究方向可聚焦于:

  • 高效检索算法创新:探索基于量子计算、稀疏编码的新型检索技术,提升大规模知识库的检索性能;
  • 少样本 / 零样本领域适配:结合元学习、迁移学习方法,降低 RAG 系统在专业领域的部署成本;
  • 跨模态知识融合的深度优化:构建更高效的多模态语义表示模型,实现不同类型知识的无缝融合;
  • 可解释性与合规性增强:设计细粒度的知识溯源机制和合规检测模块,满足各行业的监管要求;
  • 轻量化部署方案:针对边缘设备和低资源环境,开发轻量化 RAG 框架,扩大技术应用范围。

结语

检索增强生成技术的发展,正在重构大语言模型与外部知识的交互方式,为 AI 应用的落地提供了更可靠、更灵活的技术路径。2025 年多模态融合、动态知识管理等核心突破,进一步拓宽了 RAG 的应用边界,使其从文本领域走向更复杂的真实场景。作为科研工作者,我们既要关注技术创新带来的性能提升,也要重视实际应用中的落地挑战。未来,随着算法优化、架构创新和行业实践的不断深入,RAG 技术必将在更多领域发挥核心支撑作用,推动 AI 技术向更智能、更可靠、更实用的方向发展。

最后

对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?

答案只有一个:人工智能(尤其是大模型方向)

当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应聘者,月基础工资也能稳定在4万元左右

再看阿里、腾讯两大互联网大厂,非“人才计划”的AI相关岗位应聘者,月基础工资也约有3万元,远超其他行业同资历岗位的薪资水平,对于程序员、小白来说,无疑是绝佳的转型和提升赛道。
图片
图片
对于想入局大模型、抢占未来10年行业红利的程序员和小白来说,现在正是最好的学习时机:行业缺口大、大厂需求旺、薪资天花板高,只要找准学习方向,稳步提升技能,就能轻松摆脱“低薪困境”,抓住AI时代的职业机遇。

如果你还不知道从何开始,我自己整理一套全网最全最细的大模型零基础教程,我也是一路自学走过来的,很清楚小白前期学习的痛楚,你要是没有方向还没有好的资源,根本学不到东西!

下面是我整理的大模型学习资源,希望能帮到你。

图片

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

最后

1、大模型学习路线

img

2、从0到进阶大模型学习视频教程

从入门到进阶这里都有,跟着老师学习事半功倍。

在这里插入图片描述

3、 入门必看大模型学习书籍&文档.pdf(书面上的技术书籍确实太多了,这些是我精选出来的,还有很多不在图里)

在这里插入图片描述

4、 AI大模型最新行业报告

2026最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

img

5、面试试题/经验

img

【大厂 AI 岗位面经分享(107 道)】

img

【AI 大模型面试真题(102 道)】

img

【LLMs 面试真题(97 道)】

img

6、大模型项目实战&配套源码

img

适用人群

在这里插入图片描述

四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型

  • 带你了解全球大模型

  • 使用国产大模型服务

  • 搭建 OpenAI 代理

  • 热身:基于阿里云 PAI 部署 Stable Diffusion

  • 在本地计算机运行大模型

  • 大模型的私有化部署

  • 基于 vLLM 部署大模型

  • 案例:如何优雅地在阿里云私有部署开源大模型

  • 部署一套开源 LLM 项目

  • 内容安全

  • 互联网信息服务算法备案

  • 👇👇扫码免费领取全部内容👇👇

    在这里插入图片描述

3、这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
在这里插入图片描述
在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐