摘要和查询改写的评测

考虑到上下文历史中，agent回复内容较多，需要对该部分进行摘要。所以摘要评估应该是业务导向的。Agent 上下文压缩摘要的评估应同时关注：（1）对 Agent 行为的业务价值（端到端层面）（2）摘要内容本身的质量（微观层面）

灵海之森

547人浏览 · 2025-11-19 22:39:56

灵海之森 · 2025-11-19 22:39:56 发布

在维护agent长上下文时，通常需要对冗长的回答内容进行摘要，以此缩减上下文长度，使模型专注于核心问题，并提高回复效率。
现在一般使用大模型进行摘要，方便快捷。
为了衡量摘要质量，一般有BLEU、ROUGE、BERTScore等方法，也有基于大模型的方法，以及人工评估。

下面逐步介绍每种方法的优缺点，最后说明在特定任务下的评估方法。

1.BLEU（Bilingual Evaluation Understudy）

定义：最早为机器翻译设计的自动评估指标，衡量候选摘要与参考摘要在 n-gram 层面的精确匹配。为避免短句投机取巧，BLEU 使用了剪枝的 n-gram 精确度和长度惩罚（Brevity Penalty, BP），并对不同 n 的精度取加权几何平均。
优点：简单；对精确复述类型生成敏感。
缺点：以精确匹配为导向，难以衡量语义或事实一致性；在单句或短文本上方差大（需要大样本更稳定）。

2.ROUGE（Recall-Oriented Understudy for Gisting Evaluation）

定义：主要为文本摘要设计的指标，强调覆盖率（recall），测量候选摘要与参考摘要在 n-gram／子序列／最长公共子序列等层面的重合。
优点：ROUGE-L 能部分反映句子顺序与整体连贯。
缺点：语义不敏感；重召回设计会鼓励冗长摘要。

3.BERTScore

定义：用 BERT、RoBERTa、DeBERTa 等把句子中每个 token 映射成上下文向量，然后用向量相似度（通常是余弦）做 token-to-token 的最大匹配（greedy matching），再从 token-level 的最大匹配构造 precision、recall、F1。
优点：从语义上评估，能体现上下文信息；分别给出 P/R/F1，便于分析候选是否冗余或遗漏信息。
缺点：仍不能完全衡量事实一致性（模型嵌入相似 ≠ 事实正确）；计算成本高；对编码器敏感。

4.大模型和人工评估

放在一起是因为使用大模型评估，首先得评估人员知道如何评估。
定义：直接把大语言模型当作评审者：给定 reference与 candidate（摘要），通过提示词方法让 LLM 输出分数、等级或解释。实现方式多样：直接评分、对比打分、解释性打分等。
优点：能理解语义、上下文、推理关系，以及事实一致性；可输出自然语言解释，便于诊断错误原因。
缺点：人工和大模型存在偏见；评分结果严重依赖提示词、示例、上下文长度等；闭源模型成本高。

5.agent上下文压缩中摘要评估

考虑到上下文历史中，agent回复内容较多，需要对该部分进行摘要。所以摘要评估应该是业务导向的。
Agent 上下文压缩摘要的评估应同时关注：
（1）对 Agent 行为的业务价值（端到端层面）
（2）摘要内容本身的质量（微观层面）

①端到端层面（业务导向）

衡量摘要在实际会话中是否促进了 Agent 的稳定运行，包括：

对话一致性
回答的准确性
任务链条的延续性
用户意图保留情况
上下文长度减少带来的性能提升
系统回归检测（摘要错误是否导致 agent 失常）

②微观层面（内容导向）

衡量摘要是否忠实、紧凑、覆盖关键内容：

关键实体 / 数据 / 意图是否保留
与原文一致
信息组织是否清晰、可供 agent 使用
去除噪音并保持任务状态

6.查询改写的评估

查询改写的目的是为了提高agent意图识别准确率。因此评估就是测试意图识别准确率是否有提升。
这类只能做ab测试，或者让大模型/人工评估。

①a/b test

测试查询改写是否有利于RAG检索准确率；检索准确率需要先人工生成查询，再进行检索，由大模型判别相关性，再由人工校正，形成检索测试集。
测试是否有利于意图识别准确率。

②大模型/人工评估：

可以打 4 个分项：
意图保持（0–5）：是否改变了任务意图 / 问题类型？
信息完整（0–5）：是否保留关键实体、限制条件？
表达更加清晰（0–5）：语义是否更明确？
是否有助于检索（0–5）：是否更适合 RAG 召回？

参考：
https://blog.csdn.net/qq_43814415/article/details/140823902?fromshare=blogdetail&sharetype=blogdetail&sharerId=140823902&sharerefer=PC&sharesource=qq_41517071&sharefrom=from_link
https://zhuanlan.zhihu.com/p/656460071

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

ragflow v0.23.0 全面发布：Memory、Agent、Ingestion Pipeline、数据源与模型支持重大升级详解

代码地址：github.com/infiniflow/ragflowragflow v0.23.0 是一个里程碑式的大版本更新，在 Memory、Agent、多检索器、语音、多模态、数据源、模型支持与系统稳定性方面实现了全面提升。该版本为复杂 RAG 应用、企业级数据接入、多智能体与长期记忆场景奠定了坚实基础，标志着 ragflow 在工程成熟度与功能完整性上迈入新阶段。