在大型语言模型(LLM)发展早期,“微调” 是扩展模型能力的常用手段,随着 LLM 技术发展,微调暴露出局限性。我将保留关键案例和结论,精简描述性语句,突出核心观点。
在大型语言模型(LLM)发展初期,开发者常通过 “微调” 适配新数据、扩展模型能力。当时模型参数与训练数据量有限,微调尚能以低成本满足基础需求。但随着 LLM 技术迭代,模型参数量达万亿级,训练数据指数级增长,传统微调的局限性逐渐显现:它更适合调整输出风格,却难以快速注入海量新知识。

以 ChatGPT 为例,询问 “寒冷天气专用帐篷设计特点” 时,早期模型仅机械扩展提示,升级后模型则给出专业回答。这说明其优化重点在于交互逻辑,而非更新知识库。可见微调虽能处理风格调整,但面对企业级场景的实时知识更新需求却力不从心。

此外,有效微调需满足高质量标注数据集、百万级计算资源和数天至数周训练周期三大前提,这对中小企业和个人开发者而言门槛过高。因此,2021 年 FAIR 提出的检索增强生成(RAG)技术,为大模型知识扩展提供了新方案。

1、 什么是RAG(检索增强生成)?

检索增强生成(RAG)是一种融合“外部知识检索”与“语言生成”的创新技术,其核心目标是通过引入权威、实时的外部知识源,弥补大型语言模型在“事实准确性”和“知识时效性”上的固有缺陷。

从技术本质来看,LLM的核心竞争力在于“对语言规律的参数化理解”——它通过数十亿甚至万亿级参数,学习人类语言的语法结构、语义关联和表达逻辑,从而具备流畅生成文本的能力。这种能力让LLM能高效应对通用对话、创意写作等场景,但当用户需要获取“2024年新能源汽车补贴政策”“某款新药的三期临床试验数据”等具体、专业、时效性强的信息时,仅依赖模型训练时固化的参数化知识就会“力不从心”。毕竟,任何LLM的训练数据都有时间截止点(如GPT-4训练数据截止到2023年10月),无法覆盖实时更新的知识;同时,模型参数量有限,也难以存储所有细分领域的专业细节,这就导致LLM在处理特定查询时可能出现“幻觉”(生成错误信息)或“信息滞后”问题。

RAG技术的出现,正是为了破解这一困境。它的核心逻辑并非改变LLM本身的参数,而是为LLM搭建一个“外部知识接口”:当用户提出查询时,系统先从海量外部知识库中检索出与问题高度相关的信息,再将这些信息与原始查询结合,作为提示输入LLM,最终让模型基于“内部语言能力+外部事实知识”生成响应。

img
高级RAG 架构参考示意图

尽管不同场景下的RAG系统在技术实现上存在差异(如检索算法选择、知识库类型),但从通用流程来看,其核心环节可归纳为五步:

  1. 查询输入:用户提出具体问题或需求(如“如何解决某型号打印机卡纸问题”);
  2. 知识检索:系统基于查询语义,从预设知识库(如产品手册、技术文档库)中筛选出最相关的文本片段;
  3. 提示构建:将检索到的知识片段与原始查询融合,形成“问题+上下文”的增强型提示(如“根据某型号打印机手册第5章内容,解决该设备卡纸问题的步骤如下:……请结合这些信息,为用户提供操作指南”);
  4. 响应生成:LLM基于增强提示,生成准确、具体的回答;
  5. 反馈优化:用户对响应质量进行评价(如“准确”“遗漏关键步骤”),系统根据反馈调整检索策略或提示构建逻辑,持续提升性能。

此外,RAG的一大优势在于“高度可定制化”:开发者可根据业务需求选择知识库类型(如PDF文档库、数据库、API接口数据)、优化检索算法(如基于向量相似性、关键词匹配,或混合检索),甚至调整提示构建方式(如按重要性排序知识片段、添加领域术语解释),从而让系统更好地适配垂直场景(如医疗、法律、工业制造)。

2、为什么大模型必须依赖RAG?

大型语言模型凭借其强大的文本生成能力,已在客服、创作、代码开发等领域广泛应用,但在“可靠性”和“实用性”上仍存在明显短板,而RAG正是弥补这些短板的关键技术。

LLM的核心缺陷之一是“输出一致性不足”。由于模型本质是基于训练数据中的“词语统计关联”生成文本,而非真正“理解”语义,因此在面对相同或相似问题时,可能会给出矛盾的答案。例如,询问“某款保健品是否能治疗高血压”,LLM有时会称“有辅助调节作用”,有时又会表示“无治疗效果”——这种不确定性源于模型对训练数据中模糊信息的随机调用,而非基于明确事实的推理。

另一个核心缺陷是“知识固化与滞后”。LLM的训练数据有明确的时间窗口,一旦训练完成,就无法自主更新知识。例如,2023年训练的模型无法知晓2024年的新政策、新科研成果;同时,模型参数量有限,无法存储所有细分领域的细节知识(如某家企业的内部流程、某款设备的维修手册),这导致LLM在垂直业务场景中“实用性不足”。

RAG技术通过“外部知识融合”,从根本上解决了这两大问题:

  • 提升可靠性:RAG让LLM的回答严格基于检索到的权威知识源(如官方文档、学术论文、行业标准),减少“幻觉”产生的概率;同时,用户可通过追溯知识来源(如“答案来自某法规第3条”)验证响应准确性,增强系统可信度。
  • 突破知识边界:只要持续更新外部知识库(如定期上传新政策文件、产品手册),LLM就能实时获取最新知识,无需重新训练;此外,通过对接垂直领域知识库,LLM可快速适配专业场景(如让通用模型具备“解读医疗影像报告”“起草法律合同”的能力)。

具体来看,RAG系统的运作围绕“检索”与“生成”两大核心环节展开,二者相辅相成:

  • 检索(Retrieval):这是RAG的“知识输入口”。系统首先将知识库中的文档拆分为语义连贯的片段(如每200-500字为一个单元),通过嵌入模型(如Sentence-BERT)将每个片段转换为“语义向量”,存储到向量数据库中。当用户提出查询时,系统会将查询也转换为向量,通过计算向量相似度,从数据库中快速筛选出Top N个最相关的知识片段。值得注意的是,优质的知识库是检索质量的前提——通常需要包含权威、结构化的信息(如经过审核的技术文档、官方发布的政策文件),而非杂乱的网络文本。
  • 生成(Generation):这是RAG的“价值输出口”。系统将检索到的知识片段与原始查询结合,构建出“信息充分”的提示,再输入LLM进行处理。此时,LLM不再是“凭空生成”,而是基于明确的上下文进行推理,既能保证回答的准确性,又能保持语言的流畅性和逻辑性。例如,当用户询问“某城市2024年最低工资标准”时,RAG会先检索该城市人社局发布的2024年通知,再让LLM基于通知内容生成具体数字和执行时间,避免模型因知识滞后给出2023年的旧数据。

当前,RAG的应用已从“通用问答”向更多垂直领域延伸:在医疗领域,RAG可对接电子病历库和医学文献,辅助医生生成诊断建议;在金融领域,RAG可整合市场数据和监管政策,为投资者提供合规的分析报告;在工业领域,RAG可链接设备维修手册和故障案例,帮助工程师快速定位问题。随着技术发展,RAG还在与其他技术融合——例如,结合“记忆增强生成(Memory Augmented Generation)”,让系统能记住用户历史查询,提供更连贯的服务;结合“知识追踪(Knowledge Tracing)”,让系统主动识别知识库中的缺失信息,触发更新机制。可以说,RAG不仅是当前增强LLM能力的核心手段,更是推动大模型从“通用工具”向“行业解决方案”演进的关键桥梁。

3、 RAG的工作流程:从查询到响应的完整链路

与传统微调“修改模型参数”的思路不同,RAG采用“模块化集成”的设计——将LLM作为“生成器”,搭配“文档存储库”“检索引擎”“向量数据库”等组件,形成完整的知识处理闭环。这种设计既保留了LLM的语言生成优势,又避免了重新训练模型的高昂成本,同时实现了知识的动态更新。

img
RAG(检索增强生成)基本工作原理参考示意图

从用户发起查询到系统输出响应,RAG的完整工作流程可分为四个核心阶段,每个阶段都有其关键技术细节:

阶段1:文档预处理与向量存储(离线准备)

在用户发起查询前,RAG需要完成“知识库构建”的离线工作,这是后续高效检索的基础,具体包括三步:

  1. 文档拆分:将原始文档(如PDF、Word、TXT)拆分为语义完整的“文本块(Chunks)”。拆分逻辑需兼顾“语义连贯性”和“检索精度”——若文本块过短(如100字以内),可能丢失上下文;若过长(如2000字以上),则会包含冗余信息,降低检索相关性。常见的拆分方式有“固定长度拆分(如每300字一段)”“按段落/章节拆分”“基于语义断点拆分(如通过句子相似度判断拆分位置)”。
  2. 语义向量转换:使用嵌入模型(如OpenAI的text-embedding-3-small、开源的BERT-base)将每个文本块转换为高维向量。这些向量能精准表征文本的语义内涵——例如,“寒冷天气帐篷”和“冬季露营装备”的向量会高度相似,而与“夏季防晒衣”的向量差异较大。
  3. 向量存储:将生成的语义向量及其对应的元数据(如文本块来源、页码、更新时间)存储到向量数据库中(如Pinecone、Milvus、FAISS)。向量数据库支持高效的“相似性搜索”,能在毫秒级从百万级甚至亿级向量中找到与查询向量最匹配的结果,这是RAG实现“实时响应”的关键。

阶段2:基于查询的知识检索(在线匹配)

当用户输入查询(如“如何选择寒冷天气专用帐篷”)后,系统进入在线检索阶段:

  1. 查询向量化:将用户查询转换为与文本块相同维度的语义向量,确保二者可进行相似度计算。
  2. 相似性检索:向量数据库基于“余弦相似度”“欧氏距离”等指标,计算查询向量与所有文本块向量的匹配度,筛选出Top 5-20个最相关的文本块(具体数量可根据场景调整,数量过少可能遗漏关键信息,过多则会增加LLM处理负担)。
  3. 检索结果过滤:部分RAG系统会增加“二次过滤”步骤——例如,通过关键词匹配(如查询中包含“防风设计”,则优先保留包含该关键词的文本块)、元数据筛选(如优先选择2023年后更新的文档),进一步提升检索结果的精准度。

阶段3:增强型提示构建(上下文优化)

获取相关文本块后,系统需要将其与原始查询融合,构建出能引导LLM精准生成的提示。这一步的核心是“让LLM清晰理解知识边界和生成要求”,常见的构建策略包括:

  • 上下文拼接:将检索到的文本块按相关性排序,依次拼接在查询后,例如:“用户问题:如何选择寒冷天气专用帐篷?相关知识:1. 寒冷天气帐篷需具备防风、防水、隔热三大核心性能……2. 面料选择上,210D牛津布比150D面料更耐磨,适合低温环境……请基于上述信息,给出具体选购建议。”
  • 指令注入:在提示中添加明确的生成规则,例如:“请严格基于提供的知识回答,若知识中未提及相关内容,需明确说明‘该信息未在参考资料中找到’,不得编造信息。”
  • 信息汇总:对于过长的文本块,先通过LLM进行摘要处理,再融入提示,避免提示长度超出模型限制(如GPT-4的上下文窗口为128k tokens,但若文本块总长度接近上限,仍需精简)。

阶段4:LLM响应生成与反馈(结果输出与优化)

  1. 响应生成:增强提示输入LLM后,模型会结合自身的语言理解能力和外部知识,生成结构化、准确的回答。例如,针对“寒冷天气帐篷选购”的查询,LLM会基于检索到的知识,从“性能参数”“面料选择”“品牌推荐”等维度展开回答,同时避免提及知识中未包含的内容。
  2. 结果输出与溯源:部分RAG系统会在输出响应时,附带“知识来源标注”——例如,在回答末尾注明“上述信息来自《冬季露营装备选购指南》第3章、某品牌2024年产品手册”,方便用户验证信息真实性。
  3. 用户反馈与系统优化:用户可对响应质量进行评价(如“准确”“遗漏隔热性能说明”“知识过时”),系统会根据反馈调整关键参数——例如,若用户反馈“遗漏信息”,则增加检索时的文本块数量;若反馈“知识过时”,则触发知识库更新提醒。长期来看,这种“反馈-优化”闭环能持续提升RAG系统的性能。

4、 RAG架构的核心组成元素

RAG并非单一技术,而是由多个模块协同工作的完整架构。这些模块既相互独立(可根据需求替换),又紧密关联(任一模块性能不足都会影响整体效果),共同构成了RAG的技术底座。

1. 向量数据库(Vector Database)

向量数据库是RAG的“知识仓库”,负责存储和管理文本块的语义向量。其核心优势在于“高效相似性搜索”——相比传统关系型数据库(如MySQL)基于关键词的查询方式,向量数据库能捕捉文本的语义关联,即使查询与文本块表述不同(如查询“冬季帐篷”与文本块“寒冷天气露营装备”),也能精准匹配。目前主流的向量数据库可分为三类:

  • 云原生向量数据库:如Pinecone、Weaviate,支持弹性扩容,适合大规模企业级应用;
  • 开源向量数据库:如Milvus、FAISS(Facebook开源),部署灵活,适合中小团队或科研场景;
  • 嵌入式向量数据库:如Chroma、Qdrant,可嵌入应用内部,适合轻量级场景(如个人知识库)。

2. 提示工程(Prompt Engineering)

提示工程是RAG的“导航系统”,负责将查询和检索到的知识转化为LLM能理解的指令。优秀的提示能让LLM在“遵循知识边界”的同时,生成流畅、结构化的回答。除了前文提到的“上下文拼接”“指令注入”策略,提示工程还需关注以下细节:

  • 角色设定:在提示中为LLM设定明确角色,例如“你是专业的冬季露营装备顾问,请基于提供的知识,为用户解答选购问题”,帮助模型定位回答风格;
  • 格式引导:指定回答的结构,例如“请分点回答,每个要点包含‘核心建议’和‘理由’两部分”,提升回答的可读性。

3.ETLPipeline数据管道

数据提取、转换和加载(ETL)管道负责处理原始数据,包括去重、更新插入(Upsert)等操作,并进行必要的转换,如文本分块、元数据提取等,以确保数据以最优格式存储在向量数据库中。

4.LLM大型语言模型

RAG架构可与各种LLM模型兼容,包括商业闭源模型和开源模型。开发者可根据具体需求选择合适的LLM作为RAG系统的核心生成引擎。

5.Semantic Cache语义缓存

语义缓存(如GPT Cache)通过存储LLM的历史响应,降低了系统的计算开销,提高了响应性能。这对于大规模应用以及成本敏感的场景来说尤为重要。

6.RAG工具集

第三方RAG工具集(如LangChain、LLamaIndex、Semantic Kernel等)为构建和部署RAG模型提供了便利,这些工具通常具有良好的LLM兼容性。

7.评估工具和指标

评估工具和指标(如TruLens、DeepEval、LangSmith、Phoenix等)对于监控和优化RAG系统的性能至关重要。它们结合了多种评价指标和辅助LLM,帮助全面分析系统输出的质量。

上述各个元素相互协同,构筑了RAG架构的完整闭环。其中,向量数据库和语义缓存为LLM提供了高效获取外部知识的途径;提示工程确保了LLM能够充分利用所提供的上下文信息;ETL管道负责清理和预处理原始数据,为系统提供高质量的知识源;第三方工具集简化了RAG系统的构建和部署;而评估工具和指标则支撑了系统的持续优化和改进。

值得一提的是,RAG架构不仅为LLM注入了外部知识获取能力,更重要的是为其开辟了持续学习和自我进化的大门。未来,随着记忆增强、元学习、自动知识库构建等前沿技术的加入,RAG有望赋予语言模型真正的主动学习能力,使其能够不断吸收新知识,持续扩充和优化内部知识库,最终突破静态知识库的限制,成为具备通用智能的学习智能体。

此外,RAG架构本身也在不断演进。越来越多的创新机制和技术正在被引入,如多模态知识融合、上下文感知提示优化、分布式异构知识库集成、基于人类反馈的交互式学习等,极大拓展了RAG的应用场景和能力边界。

5、RAG优势及挑战

RAG架构为LLM提供了一种全新的知识注入和更新机制,有助于解决传统LLM固有的一些局限性。

在传统的LLM训练过程中,模型的参数化知识是静态的、固定的,一旦训练完成便无法直接更新。这意味着:即便基础知识库发生变化,LLM也无法自主吸收新知识,唯一的方式是从头开始重新训练模型,这无疑代价高昂、效率低下。

而RAG架构则为LLM提供了一种动态获取外部知识的新路径。通过与先进的语义检索和向量数据库技术相结合,RAG使LLM能够在回答查询时直接访问最新、最相关的知识源,而无需对模型本身进行任何修改或重新训练。只要持续更新知识库,LLM的输出响应就会自动反映最新的知识状态,保持了极高的时效性和准确性。

更重要的是,RAG架构赋予了LLM一种新的响应模式——基于源知识生成(Source-grounded Generation)。在这种模式下,LLM的回复将严格限制在提供的上下文知识范围内,有助于降低幻觉(Hallucination)风险,提高输出的可信赖性。

该特性不仅可应用于大型通用LLM,更有利于催生出一类特定领域的小型高效LLM。这些模型在训练时仅需获取通用语言知识,而专门的领域知识则来自于RAG管道提供的动态知识源,从而实现了模型结构的精简和训练成本的降低,同时保留了输出的高质量和专业性。

另一个突出优势在于,RAG架构能够为LLM的输出响应提供清晰的源跟踪(Source Tracing)功能。也就是说,系统不仅会生成高质量的答复内容,还会同时输出贡献该答复的具体知识源和证据路径。这一方面提高了系统输出的可解释性和可追溯性,有助于发现和诊断LLM可能产生的幻觉行为;另一方面,也为敏感领域的监管合规提供了坚实的技术支撑,确保了知识来源的可审计性。

然而,在实践应用和未来发展过程中,这一创新技术仍然面临着一系列重大挑战需要我们亟待攻克。

这些挑战涉及到知识库构建、检索算法、提示工程、解释技术、隐私与安全、系统效率等多个关键领域。我们需要投入更多的研究和开发资源,持续关注并深入研究这些关键领域,以推动技术的进一步突破和创新。只有通过不断攻克这些挑战,才能实现技术的全面应用和发展。

6、如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

在这里插入图片描述

7、为什么要学习大模型?

我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。

在这里插入图片描述

在这里插入图片描述

8、大模型入门到实战全套学习大礼包

1、大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

img


2、大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

在这里插入图片描述

3、AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

img

4、大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

img

5、大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

img

适用人群

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐