本文详细介绍了RAG系统的可观测性与评估指标体系,提出了评估四象限矩阵,并详解了六项关键指标:忠实度、回答相关性、上下文相关性、答案正确性、上下文召回率和上下文精确率。文章强调"检索决定上限,生成决定下限"的评估哲学,指出忠实度是企业级应用的"生命线",帮助开发者从Demo阶段迈向生产级应用,实现RAG系统的科学评估与持续优化。


RAG的可观测性:如何定量监测RAG系统

在当前企业级 AI 应用中,RAG系统已成为不可或缺的核心模块

通过将私有知识库与大语言模型(LLM)深度融合,RAG 不仅显著提升了回答的准确性与专业性,更在抑制模型幻觉、保障输出可信度方面扮演着关键角色。无论是企业知识库、智能客服、法律咨询助手,还是金融合规审查、医疗辅助决策等高风险场景,RAG 都是确保 AI 回答有据可依的第一道防线。

然而,一个常被忽视的问题是:你的 RAG 系统表现到底好不好呢?

一、为什么评估 RAG 系统很重要?

很多团队在部署 RAG 后,仅凭 Vibe Check来判断系统好坏。这种方式在处理前几个测试案例时或许有效,但一旦面对真实的生产流量,你会发现自己陷入了无数的未知中:

  • 用户问的问题是否都被正确理解?
  • 检索到的文档是否真正相关?
  • 生成的答案是否忠实于原文、没有编造?
  • 系统在哪些场景下容易失效?

有效评估和优化基于 LLM 的 RAG 系统,决定了你的系统是一个好看的Demo还是一个高度可用、值得信赖的 AI 产品。系统性地思考,提前布局并建设评估体系,是将 AI 应用真正推向生产环境的必经之路,也是作者一直以来的理念。

我们需要更严谨的方法和指标,才能确保 LLM 应用真正达到最优性能。

即,建立一套系统性的 RAG 可观测性体系。通过可量化可追踪可归因的指标,持续监控系统运行状态,并驱动迭代优化。

二、 RAG 的评估指标

RAG过程有两个主要环节需要进行评价:检索阶段(Retrieval)与生成阶段(Generation)

生产过程中,如果想评价RAG系统表现,最难的点是什么呢?

没有足够的人工数据集参考答案

由于 LLM 系统本质上是生成式的,我们往往期待其做出更多创意性的回复。这意味着,对于同一个问题,可能存在无数种正确的表达方式,我们无法通过简单的文本比对来判定对错。

我们可以在开发期间建立有限多的人工数据(黄金数据集)进行测试,但是在实际生产中,面对海量且多变的真实用户查询,没有足够的资源和时间去构建完善的数据集。

所以在这里,各位可以评估一下自己项目的系统:将评估维度拆解为检索与生成两个阶段,并根据企业内是否有足够资源建设标准数据集作为参照,由此衍生出评价的四象限矩阵

RAG 评价指标四象限矩阵

附带企业中常用的评估维度,各位可以参考酌情使用:

  • 检索阶段 (Retrieval)
  • 上下文精确度(Context Precision):检索到的内容中,真正有用的信息占比。
  • 上下文回忆率(Context Recall):衡量检索到的内容是否完整覆盖了回答问题所需的事实。
  • MRR(平均倒数排名):关注第一个相关结果是否排在最前面。
  • NDCG(归一化折损累计增益):全面评估整个排序列表的质量。
  • 生成阶段 (Generation)
  • 忠实度(Faithfulness):检查答案中的声明是否都能在上下文中找到依据。非常灵敏的幻觉监测指标
  • 答案相关性(Answer Relevancy):评估答案是否直接针对用户问题,不包含无关信息。
  • 答案正确性(Answer Correctness):将生成答案与标准答案进行语义和事实的双重对比。

三. 什么是断言(Assertion / Statement)?

在具体讲每个评估指标之前,先讲一下,什么是断言

断言(记作S),是指从模型生成的回答中提取出来的原子事实或独立主张。

为什么要提取断言呢?模型生成的原始回答通常很长,包含多个从句和复杂的逻辑。直接判断一整个段落是否忠实很难。因此,我们利用 LLM 将长句拆解成一个个一句话只说一个事实的短句。举个例子:

  • 原始回答: RAG 系统通过结合检索与生成提高了准确性,且适用于高风险场景。
  • 拆解后的断言 s_1:RAG 系统结合了检索与生成。
  • 拆解后的断言 s_2:RAG 系统提高了准确性。
  • 拆解后的断言 s_3:RAG 系统适用于高风险场景。

这些拆分出来的s_1、s_2、s_3 就是断言。它们是可验证的最小单位。

**断言在评估中有什么用呢?**我们以测试忠实度为例:

为了计算忠实度(Faithfulness),系统会进行以下操作:

  1. 拆分:把回答 a(q) 拆成断言集合S,*S*={*s*_1,s_2,...,*s_n*}
  2. 核对:逐个检查 S里的每个断言s_n.是否能从检索到的上下文 c(q)中找到证据(原文)支持。
  3. 计数
  • 统计 S 中总共有多少个断言(即 |S| )。
  • 统计其中有多少个断言是能被证明正确的(记作 |V| ,即 Verified)。
  1. 算分

    忠实度得分被证实的断言数总断言数

通过这种方法,可以精准地捕捉到模型是否夹带私货

如果一个回答有 10 个断言,其中 8 个在文档里有,2 个是模型原生的,那么它的忠实度就是 0.8。这种量化方式比人工主观判断或者不好要科学得多。

四、 RAG 系统评估指标:自洽性评估

企业在推进 RAG 落地时面临的核心痛点在于:当缺乏充足的人工标注数据集(Ground Truth)作为基准时,如何科学、客观地量化系统的性能表现?

针对这一问题,我们建议采用自洽性评估(Self-contained)无需参考答案(Reference-free)的评价指标。这些指标不依赖人工编写的标准答案,而是通过分析系统内部各环节的逻辑一致性来捕捉生成回答的质量。这也是 AI 系统从 Demo 阶段走向生产级过程中,应对测试地狱的最佳实践。

在此,我们首先定义后续章节中使用的缩写:

  • : 用户输入的查询或问题。

  • : 检索器检索到的上下文。

  • : 模型生成的最终答案。

  • : 从答案中提取的断言(Assertions)集合,。

1) 忠实度(Faithfulness)

顾名思义,忠实度衡量生成的回答 是否忠实于所检索到的上下文 。它通过检查答案中呈现的所有主张或信息,判断其是否都能直接从检索到的上下文中推断出来。

理想情况下,高忠实度得分意味着生成的文本使用了检索文档中提供的信息,而没有引入无关或虚构的细节,从而有效避免幻觉

我们采用多步法来评估忠实度:利用 LLM 将生成的回答拆解为若干独立的陈述,每个陈述代表一个聚焦的断言。这种分解的目的是将冗长复杂的句子简化为更小、易于验证的逻辑单元。

  • **步骤 1:提取断言(Extract assertions)**给定问题及其生成的回答,LLM 首先提取一组断言集合 ,其中每个断言 都是一个具体的主张。

    **提示词示例:**给定一个问题和回答,请从回答的每一句话中提取一个或多个断言。 问题:[在此插入问题] 回答:[在此插入生成的回答]

  • **步骤 2:验证断言(Verify assertions)**对于 中的每个断言 ,LLM 评估其是否可以从上下文 中推断出来。这通过验证函数 来实现,以确定该主张是否与检索上下文中的信息保持一致。

    **提示词示例:**请结合给定的上下文和以下陈述,判断每个陈述是否得到了上下文中信息的支持。在得出结论(是/否)之前,请先为每个陈述提供简要解释。最后按顺序给出每个陈述的最终结论,请勿偏离指定的格式。 陈述 1:[内容] … 陈述 n:[内容]

  • 步骤 3:计算忠实度得分完成所有断言的评估后,即可计算忠实度得分 。该得分代表 中完全受上下文支持的陈述所占的比例。 若 代表受支持的陈述数量, 为总陈述数,则计算公式为:

高忠实度得分表明答案中的绝大多数或全部主张在上下文中都是可验证的,这意味着答案与检索到的信息高度一致。

2) 回答相关性(Answer Relevance)

该指标衡量生成的回答 是否以有意义且完整的方式直接回应了用户的查询。需要注意的是,该指标关注的是回答的切题程度,而非其事实准确性。

在评估回答相关性时,我们旨在确认响应是否完全覆盖了用户的意图。因此,它会惩罚那些虽然技术上正确,但表述过于宽泛、部分离题或包含冗余信息的回答。

  • 工作原理:

    最终的回答相关性(AR)得分为所有余弦相似度的平均值:

  • **步骤 1:生成代理问题(Proxy Questions)**对于给定的回答 ,我们提示 LLM 生成一系列可能引出该回答的替代问题 ()。

    **提示词示例:**请为给定的回答反向生成一个对应的问题。 回答:[在此插入生成的回答]

  • 步骤 2:计算相似度得分获得原始问题 和生成的代理问题集 后,利用嵌入模型(Embeddings)计算原始问题 与每个代理问题 之间的余弦相似度 。该相似度反映了代理问题与原始问题在语义上的接近程度。

高 AR 得分表明生成的回答与原始问题高度契合,因为它能匹配多种反映相同意图的问题变体。

3) 上下文相关性(Context Relevance)

该指标衡量检索到的上下文 对回答特定问题 的支撑程度。它旨在识别并惩罚上下文中包含的无关细节,因为这些噪声可能会在生成阶段误导 LLM。

  • 评估方法:
  • 步骤 1:提取相关句子给定问题 及其对应的检索上下文 ,要求 LLM 仅识别出回答 所需的关键句子。这些句子构成了 的子集 。

    提示词示例:请从提供的上下文中提取有助于回答以下问题的相关句子。如果未找到相关内容,或者你认为无法从给定上下文中回答该问题,请返回短语信息不足。在提取句子时,必须保持原文,不得做任何修改。

  • 步骤 2:计算上下文相关性得分提取子集 后,上下文相关性(CR)得分计算为提取的句子数量与原始上下文中总句子数量的比率:

    提取的句子数量上下文总句子数量

高 CR 得分表示检索到的上下文中大部分内容都与问题直接相关;低 CR 得分则表明检索模块存在优化空间,返回了过多干扰信息。


提示词驱动的灵活性:以上三种指标均由提示词驱动,这意味着你可以根据业务需求设计自定义提示词,以捕捉对应用尤为重要的相关性、准确性或上下文特征。

五、 RAG 系统评估指标:显式评估方法(需参考答案)

如果你拥有查询的标准答案(Ground Truth),可以使用以下显式方法进行更深度的对齐:

4) 回答正确性(Answer Correctness)

该指标综合考虑两个关键维度:生成答案与标准答案之间的语义相似度,以及事实相似度

  • 评价模型单元(Critic LLM):设立一个新的LLM单元,通过对比生成答案与标准答案来确定事实层面的正确性。

  • 嵌入模型:计算生成答案与标准答案的余弦相似度,以确定语义层面的接近程度。

  • 事实正确性评估逻辑: 分析回答中的每个陈述并将其归类为:

    事实正确性得分计算公式:

  • TP(真阳性):同时存在于回答和标准答案中的陈述。
  • FP(假阳性):存在于回答中但不在标准答案中的陈述。
  • FN(假阴性):存在于标准答案中但在回答中被遗漏的相关陈述。
5) 上下文召回率(Context Recall)

利用评价模型衡量检索到的上下文与标准答案的一致程度。它通过分析标准答案中的每一句话,核实是否都能在检索到的上下文中找到对应的信息支撑。

6) 上下文精确率(Context Precision)

衡量检索到的上下文(Contexts)中,相关项是否被排在了较高的位置。它用于验证检索到的上下文对于得出最终答案的贡献质量,即好钢是否用在了刀刃上

AI时代,未来的就业机会在哪里?

答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具,到自然语言处理、计算机视觉、多模态等核心领域,技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。

在这里插入图片描述

掌握大模型技能,就是把握高薪未来。

那么,普通人如何抓住大模型风口?

AI技术的普及对个人能力提出了新的要求,在AI时代,持续学习和适应新技术变得尤为重要。无论是企业还是个人,都需要不断更新知识体系,提升与AI协作的能力,以适应不断变化的工作环境。

因此,这里给大家整理了一份《2025最新大模型全套学习资源》,包括2025最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题等,带你从零基础入门到精通,快速掌握大模型技术!

由于篇幅有限,有需要的小伙伴可以扫码获取!

在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

5. 大模型行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

为什么大家都在学AI大模型?

随着AI技术的发展,企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。

同时很多人面临优化裁员,近期科技巨头英特尔裁员2万人,传统岗位不断缩减,因此转行AI势在必行!

在这里插入图片描述

这些资料有用吗?

这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

大模型全套学习资料已整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费】

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐