文本摘要评估方法之BLEU和ROUGE
BLEU(Bilingual Evaluation Understudy)是一种用于评估机器翻译和文本摘要等生成式模型任务质量的指标。核心点:BLEU 作为一种评估指标,特别适合用于衡量那些可能存在多个正确翻译结果的任务中的模型精确度。在评估文本摘要模型中,将模型给出的摘要与对应的几条人工摘要文本作比较, 算出来一个综合的分数. 这个综合分数越高说明模型的摘要表现越好。BLEU值范围,两个句子完美
BLEU
BLEU(Bilingual Evaluation Understudy)是一种用于评估机器翻译和文本摘要等生成式模型任务质量的指标。
核心点:BLEU 作为一种评估指标,特别适合用于衡量那些可能存在多个正确翻译结果的任务中的模型精确度。
在评估文本摘要模型中,将模型给出的摘要与对应的几条人工摘要文本作比较, 算出来一个综合的分数. 这个综合分数越高说明模型的摘要表现越好。
BLEU值范围
,两个句子完美匹配取1,完美不匹配则取0
计算公式:
是 n-gram 的精确度;n-gram 包括 unigram(单个词)、bigram(两个连续词)等
是各个 n-gram 精确度的权重,通常各 n-gram 权重均等
惩罚因子,如果模型摘要长度小于最短人工摘要,则
小于1
ROUGE
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 是一种常用于文本摘要任务的评估指标。它通过计算自动生成的摘要与参考摘要之间的重叠部分来评估生成摘要的质量。
评价标准主要有:
ROUGE-N——主要统计n-gram上的召回率, 比较人工摘要和模型摘要分别计算n-gram的结果
ROUGE-L——比较人工摘要和模型摘要的最长公共子序列(Longest Common Subsequence, LCS)
计算公式:
ROUGE-N = 模型摘要和人工摘要中共同拥有的n-gram数量 / 人工摘要中的n-gram数量
(如果有多个人工摘要,取最大值)
计算ROUGE-L时不要求词的连续匹配,只要求按词的顺序匹配
,召回率
,精确率
,ROUGE-L分数
更多推荐



所有评论(0)