在大语言模型(LLM)惊艳世界的背后,一直隐藏着两个难以根除的顽疾:一是**“幻觉”,它偶尔会一本正经地胡编乱造;二是“时效性”**,它永远不知道训练结束后的新闻,也无法触及你企业的内部数据。

为了解决这个问题,RAG(检索增强生成) 技术应运而生。简单来说,它就是给 LLM 外挂了一个**“图书馆”**。当你要考试时,模型不再死记硬背,而是学会了翻书找资料。

但这并不是一项静态的技术。从 2020 年诞生至今,RAG 为了回答更难的问题,经历了一场跨越数年的进化旅程。今天,我们就顺着时间的脉络,看看它是如何一步步变强的。

在这里插入图片描述


第一阶段:起源与奠基(2020年 - Naive RAG)

时代的痛点: 模型太贵,知识太旧。

故事要从 2020 年说起。当时,GPT-3 刚刚展示了惊人的能力,但人们发现了一个尴尬的现实:想要让模型学会新知识(比如最新的总统是谁),唯一的办法就是重新训练模型(Fine-tuning)。这既昂贵又慢。

就在这一年,Facebook AI Research(FAIR)的 Lewis 等人发表了一篇里程碑式的论文《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》,正式提出了 RAG 的概念。

最初的灵光一现

这篇论文的核心思想非常朴素:与其让模型把所有知识都记在脑子里(参数里),不如给它一本参考书。

这就是 Naive RAG(朴素 RAG) 的雏形。它的工作流奠定了后来几年的行业标准:

  1. 切片(Indexing): 把文档切成小块。
  2. 向量化(Embedding): 把文字变成计算机能读懂的数字坐标。
  3. 检索(Retrieval): 当用户提问时,计算问题的坐标,去数据库里找“距离最近”的文档片段。
  4. 生成(Generation): 把找到的片段贴给 LLM,让它照着回答。

这一阶段的里程碑意义在于: 它把“知识存储”和“语言推理”解耦了。我们不需要更新模型,只需要更新数据库,AI 就能知道今天的头条新闻。


第二阶段:结构的跃迁(GraphRAG)

进化的动力: 碎片化检索带来的“盲人摸象”。

随着 RAG 的普及,技术人员发现了一个新问题:Naive RAG 太依赖“关键词匹配”了。

如果你问:“这本书里,张三和李四的关系是如何导致最终悲剧的?”
Naive RAG 会机械地把包含“张三”和“李四”的片段找出来。但这些碎片往往是孤立的,模型读完后只能看到,看不见线,更看不懂。它就像盲人摸象,摸到了腿和鼻子,却拼凑不出大象。

为了解决**“全局理解”“复杂关系”的问题,技术界开始引入知识图谱(Knowledge Graph)**,GraphRAG 应运而生。

从“点”到“网”的进化

GraphRAG 不再满足于把文档切碎,它开始像侦探一样整理线索:

  1. 抽取实体: 它可以识别出人名、地名、事件。
  2. 建立连接: 它会在数据库里画线,标记出“张三是李四的仇人”、“事件 A 导致了 事件 B”。
  3. 社区摘要: 微软最近提出的 GraphRAG 更是引入了“社区”概念,预先将相关联的信息聚类并写好总结。

这一阶段的进步在于: RAG 开始懂逻辑了。它不再是简单的“根据相似度找那句话”,而是能顺着关系网进行多跳推理(Multi-hop Reasoning),回答那些需要综合全书内容的宏大问题。


第三阶段:自主性的觉醒(Agentic RAG)

进化的动力: 流程太死板,缺乏“反思”能力。

时间来到 2023 年底和 2024 年,随着 Agent(智能体)概念的爆发,RAG 迎来了第三次跃迁。

前两代 RAG 都有一个共同死穴:“一锤子买卖”。检索一次,回答一次。如果第一次检索错了(比如搜到了同名同姓的人),整个回答就废了,模型不会自己纠正。

于是,Agentic RAG(智能体 RAG) 出现了。它不再是一个固定的流水线,而变成了一个会思考的项目经理

从“流水线”到“循环思考”

Agentic RAG 赋予了模型**“自我反思”“主动规划”**的权利:

  1. 自我修正(Self-Correction):
    模型检索完资料后,会先看一眼:“诶?这些资料好像跟用户问的无关啊。
    如果是传统 RAG,它会硬着头皮乱答。但 Agentic RAG 会说:“不行,我得换个关键词重新搜一次。

  2. 任务拆解(Planning):
    遇到“对比 2023 和 2024 年财报”这种难题,它不会傻傻地去搜整句话。它会像人一样思考:

    • 步骤一: 先搜 2023 财报,读数据。
    • 步骤二: 再搜 2024 财报,读数据。
    • 步骤三: 调用计算器工具算差值。
    • 步骤四: 最后写回答。

这一阶段的本质变化: RAG 从一个单纯的“查阅工具”,进化成了一个具备“认知能力”的系统。它开始像人类专家一样,懂得从错误中调整,懂得如何分步解决复杂问题。


未来展望:不仅仅是文字

进化的脚步并未停止。未来的 RAG 正在向两个方向突围:

  1. 多模态化: 以前我们只检索文字,现在 RAG 已经开始尝试“看懂”复杂的 PDF 表格、检索图片甚至视频片段。
  2. 与长窗口共存: 虽然现在的模型(如 Gemini 1.5)能一次性读完几百万字,但这并不意味着 RAG 会消失。RAG 将变成一种更经济、更精准的手段,帮助模型在海量数据中快速定位核心信息。

结语

回顾这段历程,RAG 的变化其实很像一个人的成长史:

  • Naive RAG 像是一个刚识字的小学生,你问什么,他就在书里找相同的词念给你听。
  • GraphRAG 像是一个经验丰富的大学生,他能理解书里的逻辑,把散落的知识点串联成一张网。
  • Agentic RAG 则像是一个懂得变通的研究员,他不仅会查资料,还懂得拆解任务,发现查错了会自我纠正,直到给你最准确的答案。

技术名词在不断翻新,但目的只有一个:让 AI 不再只是机械地堆砌文字,而是真正听懂你的问题,并给出值得信赖的答案。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐