目录

Abstract摘要

Introduction&Related Work

Score Tuning

Overview

Data Construction

Loss for Training

Experiment


论文链接

Abstract摘要

为了在缺乏优质样本(Good Samples)的情况下改进会议摘要,提出了Score Tuning,一种冷启动调优框架,该框架利用不同程度的坏样本逐步增强摘要生成性能,而无需初始的优质样本。

Score Tuning利用asynchronous和numerical的人类反馈来衡量生成摘要的质量。将数据格式化为(转录文本、摘要、评分)三元组,指导预训练模型学习摘要质量与人类评分之间的关联,从而生成对应更高评分的更好摘要。

实验结果表明,与现有对齐方法相比,Score Tuning在英语和中文语料库上均能有效提升会议摘要性能,同时需要更少的标注数据和训练资源。此外,还探索了Score Tuning在机器翻译任务中的可迁移性,并展示了其在未来其他领域发展和应用中的潜力。

asynchronous异步:每次针对一个案例分配独立评分

numerical数值:即评分

关键词:Score Tuning,Abstractive Meeting Summarization,Human Feedback

Introduction&Related Work

SFT(监督微调)和RLHF(基于人类反馈的强化学习)是两种被广泛采用且成熟的对齐方法。SFT仅需要positively-rated示例,RLHF、 CoH(一种上下文学习方法)需要positively-rated and negatively-rated的示例对。

然而,1. 大多数据集是英语,AMI、ICSI、ELITR、QMSum、VCSum(中)、ORCHID(中)。2. 而且在现实工业环境中,所需数据难以获取(权限、隐私、用户选择方式不友好、成本),so希望utilize collectible yet atypical 数据(like向真实用户请求评分反馈)

假设:(1)除了“chosen”和“rejected”的生成对之外,其他形式的人类反馈也能提供信息丰富的表示。以总结任务为例,在不同源转录文本生成的总结上进行异步测量(每次针对一个案例分配独立评分)是合理的;(2)语言模型在接触到质量上可区分的“较差”样本及其对应的人类评分后,能够学习数值评分与生成质量之间的关联。

基于假设、CoH,最小化置信度感知损失(给定转录文本和摘要,比较模型预测评分与人类分配评分之间的差异)和 hindsight-评分损失(给定转录文本和人类分配评分,比较新生成摘要与初始模型生成摘要之间的差异)来调优模型。(具体见Loss for Training

在1个内部数据集(中)和2个公开数据集(VCSum(中)、TL;DR(英))上进行了测试。

本文贡献:

  • 提出了Score Tuning框架,这是一种利用异步和数值化人类反馈来持续改进会议摘要生成的冷启动调优方法。
  • 构建了一个包含人类反馈的真实世界会议摘要数据集,并将我们的方法与内部数据集以及英文和中文的公开语料库进行了基准测试。结果表明,该方法在减少标注需求的情况下取得了比现有方法更好的性能。
  • 将Score Tuning迁移至机器翻译任务;实验结果表明,Score Tuning具有向其他自然语言处理任务迁移的潜力,为未来的研究奠定了基础。

SFT:在预训练模型基础上,用少量人类标注的高质量数据(如指令-响应对)进行微调。

RLHF:RLHF结合强化学习与人类反馈来调优奖励模型、策略。大多基于PPO。PPO是RLHF中实现策略优化的核心算法,而RLHF是PPO在复杂任务(如语言模型对齐)中的典型应用场景

Score Tuning

Overview

Notation:

M: meeting transcript produced by ASR

C: low-quality summaries

S: Human feedback scores

Aim: 同时衡量生成结果的质量并利用不同质量摘要之间的差异,持续改进摘要生成

步骤:收集数据训练Inference

Data Construction

TBD

Loss for Training

  • Confidence-Aware Loss

 

  • Hindsight-Score Loss

Experiment

 

 

 

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐