概述

RAG(Retrieval-Augmented Generation)技术在AI客服场景中的基本流程包含三个核心阶段:检索增强生成。系统首先检索相关知识文档,然后将其作为上下文增强提示,最终生成准确可靠的回答。


一、以AI客服SOP为例:

二、基础概念解析

1.模型参数配置

  • 生成模型的温度参数通常设置在0.1-0.3范围内,此设置确保答案内容在保持提示词严格约束的前提下,仅在表述方式上存在细微差异。

2.问题重写的必要性

  • 由于每次知识检索都是无状态的,而当前问题往往与历史对话相关,因此需要通过问题重写技术,结合历史上下文重构查询语句,以获取更相关的知识。

3.多路检索

  • 向量查询:将文本转换为高维向量表示,通过余弦相似度或欧几里得距离等数学计算方法实现语义层面的相似性匹配。
  • 词频查询:基于BM25算法,通过关键词定位实现传统检索。
  • 元数据查询:基于规则查询和过滤。

4.结果融合策略

  • 采用RRF(Reciprocal Rank Fusion) 算法,对文档在各召回列表中的顺序进行加权计算,得出最终排序结果。

5.精排的作用

  • 通过交叉编码模型对问题与候选答案进行精细匹配,优化排序结果。

三、技术选型指南

  • LangChain:适用于流程复杂的业务场景,优势在于出色的可扩展性。
  • LlamaIndex:适合纯RAG场景且数据量大的情况,性能表现优异但不适合复杂业务逻辑。

四、质量评估体系

Ragas评估框架主要从四个维度衡量RAG系统质量:

  1. 忠实度 (0-1)
  • 评估生成答案与给定上下文的事实一致性,重点检测幻觉现象。分数越高,一致性越好。
  1. 答案相关性 (0-1)
  • 衡量答案与原始问题的关联程度,评估回答的直接性和完整性。
  1. 上下文精度 (0-1)
  • 评估检索结果中相关条目的排名质量,分数越高表明相关条目排名越靠前。
  1. 上下文召回率 (0-1)
  • 衡量检索结果覆盖真实答案的程度,需要人工标注基准,计算方式为:
    (被上下文覆盖的事实数量)/(总事实数量)
  1. 上下文相关性 (0-1)
  • 综合评估检索器性能,衡量检索内容与问题的相关程度及噪声控制能力。

五、数据集管理原则

  • 测试数据集必须控制在训练数据范围内,训练集与测试集的推荐比例为8:1
  • 测试集的主要目的是检测模型是否过拟合。

六、核心挑战与解决方案

索引阶段挑战

  1. 内容缺失
  • 深层原因:检索模型语义理解局限、知识库覆盖不全、查询表述模糊、索引预处理过度。
  • 表现:生成模型基于不完整上下文产生答案。
  1. 错过排名靠前文档
  • 深层原因:排序算法缺陷、k值选择经验化、查询多样性挑战、主观判断干扰。
  • 表现:相关文档因排名靠后而未被纳入最终结果。
  1. 上下文整合失败
  • 深层原因:上下文长度限制、信息整合困难、检索质量不均、生成模型偏好。
  • 表现:答案文档虽被检索但未被有效整合到生成上下文中。

生成阶段挑战

  1. 信息未提取
  • 深层原因:注意力机制偏移、信息冲突与模型偏好、提示工程不佳、答案位置偏差。
  • 表现:答案存在于上下文中但未被模型提取利用。
  1. 答案不完整 & 格式错误
  • 根本原因:指令遵循能力不足、提示模糊歧义、上下文整合挑战、格式指令冲突。
  • 表现:答案部分缺失或未遵守指定输出格式。
  1. 幻觉现象
  • 本质原因:模型补全特性、训练数据偏差放大、用户取悦倾向、上下文质量低下。
  • 表现:生成上下文中不存在的事实信息。

七、工程实践指南

资源分配建议

数据处理(60%)、业务工程匹配(30%)、模型与查询(10%)。

技术选型策略

基于答案确定性选择技术路径:

  • 微调:内容变化不超过60%,要求相对宽松。
  • RAG:内容变化不超过80%,需要依据且相对固定。
  • 直接返回:内容不允许变化,大模型仅承担问题匹配职责。

索引建立阶段

  • 复杂文档采用层级架构。
  • 元数据由业务专家定义。
  • 特殊文档类型需要特别处理:表格和代码块应该提前提取单独chunk 避免被切碎,标题要合并到后续内容而不是单独成 chunk,列表要保持完整性不在中间切断。
  • chunk_sizes 的overlap 建议设置为 size 的 5-10%来防止切断完整语义,太大浪费存储太小丢失上下文。
  • 对于技术文档(代码多)可以用更大的 chunk 如[4096, 2048, 1024, 256]

索引查询阶段

  • 缩写查询:建立领域专用缩写数据库。
  • 精确查询:结合关键词与元数据。
  • 元数据过滤应该越早越好。
  • 专业名词场景启用混合检索,延迟大概会增加20%-30%,可设置混合检索开关。
  • 实现多路召回并行执行。
  • RRF权重经验值:通用场景(0.7:0.3)、精确查询多(0.5:0.5)、语义查询多(0.8:0.2)。

生成阶段

  • 参数规模不低于1.8B,1.8B-7B范围内参数越大精度越高
  • 缓存高频查询结果。

八、总结

RAG系统复杂点在于数据的多样性和一整套完整的需求-监测-调整的流程,对各个阶段问题的处理。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐