AI人工智能-RAG方法-第十四周(小白)
RAG 不是替代大模型,而是 “给大模型装了一个可更新、可溯源的‘外置大脑’”—— 既保留了大模型的生成能力(能说人话、会总结),又解决了大模型的知识过时、容易瞎编、不可控的问题。不管是企业做智能客服、医生做辅助诊断,还是学生做学习辅导,只要需要 “基于权威资料的准确回答”,RAG 都是目前最实用的方案。
一、RAG到底是什么?
RAG是 Retrieval Augmengted Generation(检索增强生成)的缩写,核心逻辑特别好理解——就像我们写作文时,先查资料再动笔,而不是凭脑子硬记硬写。
简单说:AI回答问题时,不会只靠自己“记住”的知识,而是从外部文档库(或搜索引擎)里检索出和问题相关的“参考资料”,再把这些资料和问题一起传给大模型,让大模型基于“参考资料”生成回答。
它解决的核心问题是大模型的痛点——模型幻觉(就是AI瞎编答案)
二、RAG的核心流程

- 用户提问:比如“RAG怎么提升回答准确性”
- 检索相关信息:系统从文档库/搜索引擎里,找出和问题相关的文本片段(比如RAG的原理、优势文档)
- 增强上下文:把“用户问题+检索到的相关资料”整合起来,形成“增强版提问”
- 大模型生成:大模型只看“增强版提问”,基于里面的事实资料写回答
- 输出结果:不仅给答案,还能标注资料来源(比如“来自《RAG技术白皮书》第5页”)
三、RAG的5大核心优势(为什么要用RAG)
- 可扩展性强:不用把AI模型做的超大(省成本),想加新知识直接更新文档库,不用重新训练模型。比如公司出了新产品,直接把产品手册放进文档库,AI 就会回答相关问题,不用改模型。
- 准确性高:回答基于真实文档,少瞎编。比如医疗 AI 用 RAG 查《柳叶刀》论文,不会乱给治疗建议。
- 可控性好:知识能随时更、定制化。比如政策变了,替换文档库里的旧政策文档,AI 就会按新政策回答。
- 可解释性强:能告诉用户“答案来自哪”(比如某本书某页、某份表格),不像纯大模型“凭感觉”回答,适合需要溯源的场景(比如医疗、法律)
- 多功能性:能做回答、总结、聊天等。比如既能回答 “什么是 RAG”,也能总结 RAG 的优势,还能和用户聊 RAG 的应用场景。
四、RAG的难点

(图片里红色框是“容易出错的地方”,下划线是“必须做的步骤”,分两大流程)
1.索引阶段(相当于“整理资料”,开发时做)
- 文档拆分错了:比如把一个完整的知识点拆成两段,导致检索时找不到完整信息
- 向量转换不准:其纳入模型把文字转成向量时出错,语义相近的文字没被识别
- 数据库存错了:处理后的文档没有正确存入向量数据库,后续检索不到
2.查询阶段(相当于“找资料+用资料”,用户使用时做)
- 检索不到相关资料:比如用户问“RAG时检索模块怎么工作”,但文档库里没有相关内容
- 召回的资料不相关:嵌入模型找了一堆“看起来像”但实际无关的文档(比如把“RAG训练”当成"RAG检索")
- 重排序排错了:把不相关的文档排在前面,有用的排在后面
- 资料格式不对:检索到的资料是表格,但没有转换成文字,大模型看不懂
五、RAG的关键步骤:从文档到回答的全流程
第一步:文档数据预处理(把“杂乱文档”变“好用的资料”)
原始文档可能是PDF,Word,Excel,网页等,格式乱、内容杂,必须先“整理”,目标是3个:
- 结构化:每个片段都要有“来源标识” + “核心内容”
- 短文本化:每个片段100-500字,比如一本1000页的书,拆成2000个小片段
- 去冗余:删除广告、重复内容、格式标记,只留有用的意思
处理后是这样:
{
"source":"G技术白皮书.pdf(页码:5)",
"content":"RAG系统的检索模块需解决两个问题:如何快速找到与问题相关的文本,以及如何过滤噪声信息。"
},
{
"source":"产品信息表.xlsx(行ID:2)",
"content":"产品ID:P003;名称:智能音箱;价格:599元;库存:80台"
}
第二步:文档拆分(Chunking)——怎么“切资料”才合理

- 固定长度切分:按字数切(比如每 300 字一段),简单省事,但可能把一个完整知识点切开(比如把 “猫喜欢吃鱼,狗喜欢啃骨头” 切成 “猫喜欢吃鱼” 和 “狗喜欢啃骨头”,没问题;但把 “猫喜欢吃鱼,尤其是海鱼” 切成 “猫喜欢吃鱼” 和 “尤其是海鱼”,就破坏语义了);
- 文章段落切分:按自然段落切,尊重文档结构,适合有清晰段落的文本(比如小说、散文);
- 循环递归切分:先按大分隔符切(比如标题),如果切出来的片段太大,再按小分隔符切(比如句子),直到符合长度要求,适合复杂文档(比如多栏 PDF);
- 语义向量切分:先把文字转成向量,语义相近的向量放一起形成片段,不会破坏语义,适合专业文档(比如医学论文);
- LLM 辅助切分:让 AI 帮忙切,AI 会判断 “哪里是语义边界”,切得最准但费算力;
- 后切分:先把整个文档转成向量,再拆分向量(不是先切文字再转向量),适合超长文档(比如 10 万字的报告)。
第三步:嵌入模型(Embedding Model)——把文字变成“电脑能懂的语言”
电脑看不懂文字,只能看懂 “数字向量”(比如 [0.12, 0.34, -0.05,...]),嵌入模型的作用就是 “文字→向量” 的转换器。
核心原理:语义相近的文字,向量距离越近。比如:
- “猫喜欢吃鱼” 的向量是 [0.1, 0.2, 0.3]
- “猫咪爱吃鱼” 的向量是 [0.11, 0.21, 0.32](距离近,语义像)
- “狗喜欢啃骨头” 的向量是 [0.8, 0.7, 0.6](距离远,语义不像)
流程:
- 文档嵌入:把处理好的文档片段转成向量,存进向量数据库(比如 Milvus、Pinecone);
- 问题嵌入:用户提问转成向量;
- 初步检索:数据库计算 “问题向量” 和 “所有文档向量” 的相似度,返回 Top10(或 TopN)最像的文档片段。
常见模型:OpenAI 的 text-embedding-ada-002、BGE 系列、Sentence-BERT(不用记名字,知道它们是 “文字转向量” 的工具就行)。
第四步:重排序模型(Reranker Model)——给“候选资料”挑最优
嵌入模型召回的 Top10 文档,可能有不相关的(比如用户问 “RAG 的检索模块”,嵌入模型召回了 “RAG 的训练方法”),这时候需要重排序模型 “精挑细选”。
核心原理:和嵌入模型 “单独看文字转向量” 不同,重排序模型会同时看用户问题和文档,理解两者的细粒度关联,给每篇文档打分(0-1 分),按分数排序。
流程:
- 输入:用户问题 “RAG 与传统问答的区别是什么?” + 嵌入模型召回的 3 篇文档;
- 打分:模型给 3 篇文档打分:B(0.92 分,“传统问答依赖自身知识,难处理时效性内容”)> A(0.85 分,“RAG 通过检索外部知识回答,无需改模型参数”)> C(0.61 分,“RAG 的检索模块用向量数据库”);
- 输出:按分数返回 Top3,作为大模型的 “参考资料”。
常见模型:轻量型(cross-encoder/ms-marco-MiniLM-L-6-v2,适合实时场景,比如智能客服)、高精度型(BAAI/bge-reranker-large,适合需要高准确性的场景,比如医疗)。
嵌入模型和重排序模型的关系:
- 嵌入模型:“广撒网”,快速从百万级文档里召回可能相关的(效率优先);
- 重排序模型:“精挑细选”,从召回的候选里挑最相关的(精度优先);
- 结合起来:又快又准,能处理海量文档的同时,保证答案质量。
流程总结:用户问题→嵌入模型→向量数据库召回 Top100→重排序模型→输出 Top5→大模型生成回答。
六、RAG+搜索引擎:让AI“懂实时、懂海量”
RAG不仅能用自己的文档库,还能结合搜索引擎,解决“文档库知识过时”“知识不够全”的问题,有两种用法:
1.搜索引擎当“外部知识库”
流程:
用户问题->调用搜索引擎获取最新资讯->预处理资讯(提取核心内容、去重、分块)->RAG检索+重排->大模型生成回答
例子:用户问 “2024 年人工智能领域的重大突破”,自己的文档库没有 2024 年的资料,就调用搜索引擎找 2024 年的 GPT-5、多模态模型相关资讯,处理后生成结构化总结。
2.RAG优化搜索引擎结果
流程:
搜索引擎返回10条网页链接->RAG处理链接(提取核心内容、按语义分类)->把链接变成“问题-答案”形式的摘要
例子:用户搜 “如何预防流感”,搜索引擎返回 10 个医学网站链接,RAG 把链接内容整理成 “症状识别→预防措施→治疗方法” 的结构化回答,而不是让用户一个个点链接看。
注意事项:
- 选权威来源:优先.gov(政府网站)、.edu(教育网站)或行业知名网站(比如医学领域的《柳叶刀》官网);
- 平衡性能:常见问题(比如 “如何退货”)缓存答案,不用每次都调用搜索引擎;
- 合规标注:告诉用户答案来自哪(比如 “参考某医学网站 2024 年 3 月文章”),遵守数据保护法规。
七、RAG的应用场景:在哪里能用到?
RAG 的核心是 “用外部知识增强 AI”,所以只要需要 “准确、权威、可溯源” 知识的场景,都能用,PPT 重点讲了 4 个行业:
1. 医疗健康行业(最需要 “准确”)
核心需求:知识专业(医学文献、指南)、不能出错(避免误诊)、个性化(患者病历不同)。
应用场景:
- 辅助诊断:医生输入 “患者症状 + 基因检测结果”,RAG 查相似病例、《柳叶刀》最新研究、WHO 治疗指南,辅助制定诊疗方案(例子:梅奥诊所、阿里健康);
- 患者自助问答:患者问 “糖尿病患者能吃苹果吗”,RAG 查《中国居民膳食指南》,给出答案并标注来源(例子:春雨医生、平安好医生);
- 医学教育:医学生问 “肺癌的鉴别诊断步骤”,RAG 查医学教材、手术视频脚本,生成教学内容(例子:哈佛医学院、丁香园)。
2. 电商与零售行业(最需要 “高效”)
核心需求:产品信息杂(规格、售后)、用户问题碎(“尺寸偏小吗”“多久发货”)、要实时信息(库存、活动)。
应用场景:
- 智能客服:用户问 “这款手机支持 5G 吗”,RAG 查产品详情页、实时库存,回答的同时,若库存不足推荐相似产品(例子:亚马逊、京东);
- 商家运营助手:商家想优化商品标题,RAG 查竞品热销关键词、平台规则,给出 “添加‘XX 材质’‘买一送一’” 的建议(例子:Shopify、拼多多)。
3. 教育行业(最需要 “个性化”)
核心需求:因材施教、知识结构化(教材、题库)、实时答疑(学生问题多样)。
应用场景:
- 智能学习辅导:学生问 “二次函数怎么求最值”,RAG 查教材、历年考题,给出步骤并推送同类练习题(例子:可汗学院、新东方);
- 教师备课辅助:老师备 “初中物理浮力” 课,RAG 查教学大纲、优质教案、实验视频,生成课堂设计(例子:好未来、麦格劳 - 希尔)。
4. 内容与媒体行业(最需要 “合规 + 高效”)
核心需求:素材多(文章、视频脚本)、创作快(快速写稿)、不违规(避免抄袭、敏感内容)。
应用场景:
- 内容创作:记者写 “AI 行业 2024 年度总结”,RAG 查历史报道、融资数据,生成初稿 + 关键事件时间线(例子:纽约时报、字节跳动);
- 版权审查:平台审核新上传的视频,RAG 查版权库,提示 “背景音乐未授权”“画面含敏感内容”(例子:华纳音乐、腾讯视频)。
5.金融行业(合规优先,实时性强,风险可控)
核心需求
金融行业对合规性要求极高(需符合监管政策、反洗钱规则),信息实时性强(市场行情、汇率、政策变动快),同时需要精准的风险控制(信贷评估、欺诈识别)和专业的金融知识支撑(产品规则、理财方案)。
应用场景
1.智能投顾与理财咨询
- 企业示例:高盛(Goldman Sachs)、蚂蚁集团(蚂蚁财富)、招商银行(招银理财)
- 功能:整合实时市场数据(股票、基金行情)、监管政策(如理财新规)、用户风险测评结果,为用户回答 “某基金的风险等级”“如何配置资产抵御通胀” 等问题,生成个性化理财方案,并标注 “参考 2024 年公募基金监管细则第 X 条”“数据来源:沪深交易所实时行情”。
2.风险管控与欺诈识别
- 企业示例:平安银行、支付宝(蚂蚁集团)、花旗银行
- 功能:检索用户交易历史、风控规则库(如反洗钱黑名单)、行业欺诈案例,实时监测 “大额异地转账”“异常消费频次” 等行为,提示 “该交易符合欺诈案例特征(参考案例 ID:FR202405)”,辅助风控人员决策;同时为信贷审批提供依据,比如检索企业征信报告、行业违约数据,回答 “某中小企业的信贷风险等级”。
3.客户服务与业务咨询
- 企业示例:工商银行、京东金融、微众银行
- 功能:整合银行产品手册(如信用卡权益、贷款申请条件)、业务流程(如开户、转账限额)、费率标准,回答用户 “信用卡分期利率多少”“公积金贷款怎么申请” 等问题,若用户符合业务条件,自动推送申请入口;同时处理售后疑问,如 “理财产品亏损了怎么办”,结合产品合同条款给出合规解释。
4.合规审查与政策解读
- 企业示例:摩根大通、中信证券、证监会信息科技中心
- 功能:检索金融监管政策(如《证券法》修订内容、央行货币政策)、行业合规标准,为金融机构生成 “2024 年反洗钱合规自查清单”,或解读 “最新房贷利率调整政策对业务的影响”,确保机构业务操作符合监管要求,避免违规风险。
6.法律行业(权威溯源、检索高效、文书规范)
核心需求
法律行业依赖权威的法律依据(法条、司法解释、判例),需要从海量法律文献中快速精准检索相关内容,同时要求法律文书格式规范(合同、起诉状),且所有结论需可溯源(明确法律依据来源)。
应用场景
1.法条与判例检索
- 企业示例:北大法宝、LexisNexis(律商联讯)、盈科律师事务所
- 功能:整合全国人大发布的法律条文、最高法判例库、司法解释文件,律师输入 “民间借贷纠纷中利息上限的规定”,RAG 快速返回《民法典》第 680 条、相关判例(如 “(2024) 最高法民终 XX 号”),并标注 “法条来源:《民法典》(2021 年施行)”“判例来源:中国裁判文书网”,辅助律师快速构建案件论据。
2.法律文书生成与审查
- 企业示例:金杜律师事务所、法大大、智谱 AI(法律版)
- 功能:检索各类标准文书模板(如劳动合同、借款合同)、法律风险点库(如合同无效情形),为律师 / 企业生成 “股权质押合同” 初稿,自动包含核心条款(如质押期限、违约责任);同时审查已拟文书,提示 “该条款可能违反《劳动合同法》第 19 条(试用期约定过长)”,并给出修改建议。
3.合规咨询与风险预警
- 企业示例:德勤(法律合规部)、华为法律部、腾讯合规中心
- 功能:检索行业合规政策(如数据安全法、反垄断法)、企业内部合规手册,为企业回答 “用户数据跨境传输需要哪些合规手续”“企业合并是否构成垄断” 等问题,生成 “合规风险评估报告”,明确 “高风险点:未获得用户数据授权跨境传输” 及应对措施。
4.普法与公众法律咨询
- 企业示例:中国法律服务网、百度法律、华律网
- 功能:基于通俗化的法律解读资料(如《民法典》科普手册)、典型案例,回答公众 “离婚时财产怎么分割”“被辞退后能要多少赔偿金” 等问题,用生活化语言解释法律依据,同时提示 “具体案件需结合实际情况,建议咨询专业律师”。
7.制造业与工业行业(技术密集、运维实时、协同高效)
核心需求
制造业涉及复杂的技术文档(设备手册、维修指南),需要实时响应生产运维需求(设备故障排查),同时依赖供应链信息协同(物料库存、订单进度)和严格的质量管控(生产标准、检测数据)。
应用场景
1.设备运维与故障排查
- 企业示例:西门子(Siemens)、三一重工、海尔卡奥斯(COSMOPlat)
- 功能:整合设备操作手册、维修案例库(如 “机床主轴故障处理记录”)、传感器实时数据,工人 / 工程师输入 “机床加工精度偏差大”,RAG 返回匹配的故障原因(如 “刀具磨损”“参数设置错误”)、处理步骤(如 “更换刀具后重新校准参数”),并标注 “参考设备手册第 3 章第 2 节”“相似案例:2024 年 5 月上海工厂故障处理记录”,缩短故障停机时间。
2.供应链与生产协同
- 企业示例:富士康、宁德时代、博世(Bosch)
- 功能:检索供应链数据库(物料库存、供应商资质)、生产计划(订单交付周期)、物流信息,回答 “某型号电池物料库存还能支撑多少订单”“供应商 A 的交货延迟是否影响生产线” 等问题,辅助生产管理者调整计划;同时为采购人员提供 “物料替代方案”,如 “物料 B 缺货时,可选用物料 C(参考技术参数匹配表第 5 页)”。
3.生产质量管控与标准查询
- 企业示例:丰田汽车、格力电器、中国商飞(C919 生产链)
- 功能:整合行业生产标准(如 ISO 9001)、企业内部质量检测规范、产品缺陷案例,实时检索生产过程中的检测数据,提示 “某批次零部件尺寸偏差超出标准(参考 GB/T XXXX-2023 第 4.3 条)”,并追溯偏差原因(如 “模具磨损”);同时为质检人员提供 “缺陷判定标准”,如 “表面划痕≤0.5mm 为合格”。
4.技术培训与知识传承
- 企业示例:GE(通用电气)、徐工集团、比亚迪工业大学
- 功能:检索设备操作视频脚本、技术教材、老工程师经验文档(如 “焊接工艺技巧”),为新员工生成 “机器人焊接操作培训手册”,包含操作步骤、安全注意事项、常见问题解答;同时支持 “经验问答”,如 “如何解决焊接时的气孔问题”,返回老工程师的实操经验和相关技术标准。
八、RAG的延伸技术

MemWalker:处理超长文本(比如 10 万字的报告),先把文本拆成小片段,再建 “记忆树”(片段摘要→层级汇总),用户提问时,先导航到记忆树的相关层级,再找具体片段,不会遗漏关键信息;

ReadAgent:像 “AI 读者”,先把长文本按页拆分,生成每一页的 “摘要”(gist),用户提问时,先找相关的摘要页,再从页里找具体内容,适合处理多页文档(比如 PDF 书籍);

Corrective RAG:能 “自我纠错”,如果生成的回答有错误,会重新检索资料、修正答案;

Self-RAG:让 AI 自己 “判断要不要检索”“检索的资料有没有用”“回答好不好用”,比如用户问一个简单问题(“1+1 等于几”),AI 判断 “不用检索,直接回答”;如果问复杂问题(“2024AI 突破”),AI 判断 “需要检索”,检索后还会自己检查 “资料相关吗”“回答有用吗”,全程自主决策。
总结:RAG 的核心价值
RAG 不是替代大模型,而是 “给大模型装了一个可更新、可溯源的‘外置大脑’”—— 既保留了大模型的生成能力(能说人话、会总结),又解决了大模型的知识过时、容易瞎编、不可控的问题。
不管是企业做智能客服、医生做辅助诊断,还是学生做学习辅导,只要需要 “基于权威资料的准确回答”,RAG 都是目前最实用的方案。
更多推荐


所有评论(0)