在之前的文章中,我们已经介绍了从经典transformer到最新的模型架构的变化。不过在实际的工作中,其实大部分同学都很少参与模型的训练,或者直接拿开源的框架就可以轻松实现这一过程,对于底层逻辑不求甚解即可。在后面的内容中,我们会逐步去介绍RAG、Agent构建等和实际场景落地相关的内容,从理论到实践以及场景调优的手段,由浅入深的了解整个落地的过程。本文主要针对RAG,先进行系统性的介绍。

一、为什么会有 RAG?

大模型很强,但也有两个“硬伤”:

    1. 记忆过时:比如 GPT-4 训练截止在 2023 年,你问它“苹果最新发布的iphone17怎么样”,它可能答不上来。
    1. 容易胡编:模型有时会一本正经地“编故事”,也就是我们所谓的“幻觉”。

RAG(Retrieval-Augmented Generation,检索增强生成)解决办法就像是让模型开卷考试

  • • 不是光靠“死记硬背”,而是先去查资料库(检索),再结合记忆和推理去回答问题(生成)。
  • • 举个例子:问“苹果最新发布的手机有哪些亮点?”——普通模型可能答一堆 2023 年的旧机型,而带 RAG 的模型会先去“翻资料”(新闻/官网),再写出答案,还能标注来源。

二、RAG 的核心流程:三步走,像人查资料一样

虽然实际系统很复杂,但本质可以简化为三步:

    1. 检索(Retriever)
      像搜索引擎一样,从数据库或向量库里找出跟问题最相关的几段文字。
  • • 关键在于“切分文档 + 语义检索”——比如把一篇论文切成几百字的chunk,才能更精准匹配。
    1. 筛选(Reranker / Selector)
      就像翻书时先挑重点,把不靠谱的资料过滤掉。
  • • 过去大家用简单的打分排名,现在的新趋势是集合选择:不是只挑“top-5”,而是让模型自己决定需要几条数据、哪些组合最合理。
    1. 生成(Generator)
      最后,模型拿到这些“资料”,再根据提问写答案。
  • • 随着模型能力和上下文窗口的增加,相较于传统的“精挑细选”,我们可以给与模型更多的数据去进行对比分析、加工。

你会发现:整个过程和人类写论文差不多——先搜集资料,再精选参考文献,最后写作。


三、RAG 的优势与挑战

优势:

  • 知识实时更新:外部文档随时更新,模型不用频繁重训。
  • 减少幻觉:回答更“脚踏实地”,可以溯源。
  • 经济实用:小模型 + 好检索 ≈ 大模型的一部分能力,成本更低。
    在实际场景落地的过程中,前两者的作用不言而喻,特别是对一些信息安全要求比较高如金融这样的行业。

挑战:

  • 垃圾进垃圾出:检索错了,答案也会错。
  • 系统复杂:要维护索引、嵌入、检索参数,工程成本比单一模型高。数据治理非常重要。
  • 延迟问题:多环节串联,会比直接调用模型慢。

四、RAG 的工作流程:从提问到回答的“流水线”

RAG 系统并不是一个黑箱,而是一个清晰的“流水线”,大致可以分为 五个环节。理解这五步,有助于你判断自己业务里该如何落地。

1. 数据准备(Data Ingestion)

企业的知识文档、PDF、网页、数据库……首先要统一抽取成可检索的文本,并切成合适大小的段落(chunk)。
👉 比如一份 100 页的报告,不可能整份丢给模型,要切成 500 字左右的小段落,才能保证检索精准。

2. 向量化与建库(Embedding & Indexing)

把每个段落转成向量,存到向量数据库里(常见如 FAISS、Milvus)。这样,当用户提问时,系统就能通过语义相似度快速找出“最像的问题”的段落。

3. 检索与筛选(Retrieve & Rerank)

当用户发出问题,系统会在向量库里检索出最相近的一批候选段落,再用更强的打分器(Reranker)重新排序,保证前几条真的最相关。
👉 就像你用搜索引擎,第一页前几条才是重点,后面很多其实没那么靠谱。

4. 与模型对话(Augment & Generate)

把“问题 + 检索到的数据”一起送进大模型,模型基于证据来生成回答。
👉 这就像学生开卷考试:带着参考资料写答案,而不是凭空回忆。

5. 答案后处理(Post-processing)

最后,答案会附带引用来源,有的系统还会进行二次验证:如果数据不足,直接拒答或提示“资料不足”。这样既减少幻觉,也方便追溯。

五、最新进展:几个值得关注的方向

过去两年(2023–2025),RAG 的研究非常火,有几个方向特别典型:

1. 从“排名”到“集合选择”

传统 RAG 固定取前 5 条文档,有时会漏掉关键证据。
新的研究(如 METEORA、RE-RAG)让模型自己决定要哪些证据、多少条最合适,并能生成理由(rationale)。这让答案更可靠,也更容易解释。

2. 更聪明的负样本训练

检索器训练时,需要区分“相关”和“不相关”的段落。以前靠 BM25 随便找点负样本,现在很多团队用 LLM 自动生成“以假乱真”的负样本来训练,显著提升检索准确率。

3. 多模态 RAG

不再只检索文本,还能检索视频、图片。比如问“这段会议视频里 CEO 提到的战略重点是什么?”——模型会先在视频转录+字幕里检索,再总结生成。对企业和媒体分析场景特别有用。

4. 动态检索规模

不是一刀切地“取 top-5”,而是根据问题难度动态调整。简单问题可能 1 条就够,复杂问题需要 10 条。这样能在保证准确的同时减少延迟。


六、提升 RAG 效果的实操技巧

如果你要自己做一个 RAG 系统,下面这几招非常实用:

1. Chunk 要合理切

文本块太大 → 检索不准;太小 → 上下文断裂。经验值是 200–500 tokens,重叠 50–100 tokens。可以根据不同的文档类型去动态的设置阈值。而且随着模型能力的增强,语义分割等方式反而不如固定切割来的效果更好。现在也有很多产品通过OCR的手段,直接进行板式分析从而获得对应的文本块。

2. 混合检索

不要只用向量检索,结合例如BM25 + Dense 往往效果更稳。类似BM25这样的算法擅长关键词精确匹配,Dense 擅长语义模糊匹配。之前我们使用ES + milvus的方式实现了混合检索,现在的主流库也逐渐适配两种方式的并行。

3. 加一层 Reranker

在检索的时候可以适当加大召回的数量,然后通过Reranker模型进行重新排序,取目标数量的块。虽然会增加一点延迟,但准确率通常大幅提升。

4. Prompt 模板要清晰

明确要求模型“必须基于检索到的证据回答,并在答案里标注出处”,必要可以在前面增加一些交叉验证的模块,确保数据的准确性。这样能减少幻觉,并方便人工审查。

5. 拒答机制

如果证据不够,允许模型说“我不知道”。很多最新研究强调了这一点——比胡编要好得多。


七、结语

RAG 并不是“万能钥匙”,但它确实解决了大模型在真实业务里最头疼的两个问题:过时幻觉
未来我们会看到更多:

  • • 检索从“文档”扩展到“图像/视频/多模态”;
  • • 生成不仅回答,还能解释为什么选这些数据
  • • 工程上更智能的动态检索与拒答策略。

一句话总结:RAG 就是让模型学会“查资料”,从死记硬背变成灵活开卷。

普通人如何抓住AI大模型的风口?

领取方式在文末

为什么要学习大模型?

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:
在这里插入图片描述

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!

最后

只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!

在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

图片

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!

01 教学内容

图片

  • 从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!

  • 大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

02适学人群

应届毕业生‌: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

image.png

vx扫描下方二维码即可
在这里插入图片描述

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!

03 入门到进阶学习路线图

大模型学习路线图,整体分为5个大的阶段:
图片

04 视频和书籍PDF合集

图片

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

图片

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)
图片

05 行业报告+白皮书合集

收集70+报告与白皮书,了解行业最新动态!
图片

06 90+份面试题/经验

AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)图片
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐