在维护agent长上下文时,通常需要对冗长的回答内容进行摘要,以此缩减上下文长度,使模型专注于核心问题,并提高回复效率。
现在一般使用大模型进行摘要,方便快捷。
为了衡量摘要质量,一般有BLEU、ROUGE、BERTScore等方法,也有基于大模型的方法,以及人工评估。

下面逐步介绍每种方法的优缺点,最后说明在特定任务下的评估方法。

1.BLEU(Bilingual Evaluation Understudy)

定义:最早为机器翻译设计的自动评估指标,衡量候选摘要与参考摘要在 n-gram 层面的精确匹配。为避免短句投机取巧,BLEU 使用了剪枝的 n-gram 精确度和长度惩罚(Brevity Penalty, BP),并对不同 n 的精度取加权几何平均。
优点:简单;对精确复述类型生成敏感。
缺点:以精确匹配为导向,难以衡量语义或事实一致性;在单句或短文本上方差大(需要大样本更稳定)。

2.ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

定义:主要为文本摘要设计的指标,强调覆盖率(recall),测量候选摘要与参考摘要在 n-gram/子序列/最长公共子序列等层面的重合。
优点:ROUGE-L 能部分反映句子顺序与整体连贯。
缺点:语义不敏感;重召回设计会鼓励冗长摘要。

3.BERTScore

定义:用 BERT、RoBERTa、DeBERTa 等把句子中每个 token 映射成上下文向量,然后用向量相似度(通常是余弦)做 token-to-token 的最大匹配(greedy matching),再从 token-level 的最大匹配构造 precision、recall、F1。
优点:从语义上评估,能体现上下文信息;分别给出 P/R/F1,便于分析候选是否冗余或遗漏信息。
缺点:仍不能完全衡量事实一致性(模型嵌入相似 ≠ 事实正确);计算成本高;对编码器敏感。

4.大模型和人工评估

放在一起是因为使用大模型评估,首先得评估人员知道如何评估。
定义 :直接把大语言模型当作评审者:给定 reference与 candidate(摘要),通过提示词方法让 LLM 输出分数、等级或解释。实现方式多样:直接评分、对比打分、解释性打分等。
优点:能理解语义、上下文、推理关系,以及事实一致性;可输出自然语言解释,便于诊断错误原因。
缺点:人工和大模型存在偏见;评分结果严重依赖提示词、示例、上下文长度等;闭源模型成本高。

5.agent上下文压缩中摘要评估

考虑到上下文历史中,agent回复内容较多,需要对该部分进行摘要。所以摘要评估应该是业务导向的。
Agent 上下文压缩摘要的评估应同时关注:
(1)对 Agent 行为的业务价值(端到端层面)
(2)摘要内容本身的质量(微观层面)

①端到端层面(业务导向)

衡量摘要在实际会话中是否促进了 Agent 的稳定运行,包括:

  • 对话一致性
  • 回答的准确性
  • 任务链条的延续性
  • 用户意图保留情况
  • 上下文长度减少带来的性能提升
  • 系统回归检测(摘要错误是否导致 agent 失常)

②微观层面(内容导向)

衡量摘要是否忠实、紧凑、覆盖关键内容:

  • 关键实体 / 数据 / 意图是否保留
  • 与原文一致
  • 信息组织是否清晰、可供 agent 使用
  • 去除噪音并保持任务状态

6.查询改写的评估

查询改写的目的是为了提高agent意图识别准确率。因此评估就是测试意图识别准确率是否有提升。
这类只能做ab测试,或者让大模型/人工评估。

①a/b test

测试查询改写是否有利于RAG检索准确率;检索准确率需要先人工生成查询,再进行检索,由大模型判别相关性,再由人工校正,形成检索测试集。
测试是否有利于意图识别准确率。

②大模型/人工评估:

可以打 4 个分项:
意图保持(0–5):是否改变了任务意图 / 问题类型?
信息完整(0–5): 是否保留关键实体、限制条件?
表达更加清晰(0–5):语义是否更明确?
是否有助于检索(0–5): 是否更适合 RAG 召回?

参考:
https://blog.csdn.net/qq_43814415/article/details/140823902?fromshare=blogdetail&sharetype=blogdetail&sharerId=140823902&sharerefer=PC&sharesource=qq_41517071&sharefrom=from_link
https://zhuanlan.zhihu.com/p/656460071

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐