【论文解读】Learning from Failure: Improving Meeting Summarization without Good Samples

晓山清

709人浏览 · 2025-12-22 15:39:19

晓山清 · 2025-12-22 15:39:19 发布

Abstract摘要

Introduction&Related Work

Abstract摘要

为了在缺乏优质样本（Good Samples）的情况下改进会议摘要，提出了Score Tuning，一种冷启动调优框架，该框架利用不同程度的坏样本逐步增强摘要生成性能，而无需初始的优质样本。

Score Tuning利用asynchronous和numerical的人类反馈来衡量生成摘要的质量。将数据格式化为（转录文本、摘要、评分）三元组，指导预训练模型学习摘要质量与人类评分之间的关联，从而生成对应更高评分的更好摘要。

实验结果表明，与现有对齐方法相比，Score Tuning在英语和中文语料库上均能有效提升会议摘要性能，同时需要更少的标注数据和训练资源。此外，还探索了Score Tuning在机器翻译任务中的可迁移性，并展示了其在未来其他领域发展和应用中的潜力。

asynchronous异步：每次针对一个案例分配独立评分

numerical数值：即评分

关键词：Score Tuning，Abstractive Meeting Summarization，Human Feedback

Introduction&Related Work

SFT（监督微调）和RLHF（基于人类反馈的强化学习）是两种被广泛采用且成熟的对齐方法。SFT仅需要positively-rated示例，RLHF、 CoH（一种上下文学习方法）需要positively-rated and negatively-rated的示例对。

然而，1. 大多数据集是英语，AMI、ICSI、ELITR、QMSum、VCSum（中）、ORCHID（中）。2. 而且在现实工业环境中，所需数据难以获取（权限、隐私、用户选择方式不友好、成本），so希望utilize collectible yet atypical 数据（like向真实用户请求评分反馈）

假设：（1）除了“chosen”和“rejected”的生成对之外，其他形式的人类反馈也能提供信息丰富的表示。以总结任务为例，在不同源转录文本生成的总结上进行异步测量（每次针对一个案例分配独立评分）是合理的；（2）语言模型在接触到质量上可区分的“较差”样本及其对应的人类评分后，能够学习数值评分与生成质量之间的关联。

基于假设、CoH，最小化置信度感知损失（给定转录文本和摘要，比较模型预测评分与人类分配评分之间的差异）和 hindsight-评分损失（给定转录文本和人类分配评分，比较新生成摘要与初始模型生成摘要之间的差异）来调优模型。（具体见Loss for Training）

在1个内部数据集（中）和2个公开数据集（VCSum（中）、TL;DR（英））上进行了测试。

本文贡献：

提出了Score Tuning框架，这是一种利用异步和数值化人类反馈来持续改进会议摘要生成的冷启动调优方法。
构建了一个包含人类反馈的真实世界会议摘要数据集，并将我们的方法与内部数据集以及英文和中文的公开语料库进行了基准测试。结果表明，该方法在减少标注需求的情况下取得了比现有方法更好的性能。
将Score Tuning迁移至机器翻译任务；实验结果表明，Score Tuning具有向其他自然语言处理任务迁移的潜力，为未来的研究奠定了基础。

SFT：在预训练模型基础上，用少量人类标注的高质量数据（如指令-响应对）进行微调。

RLHF：RLHF结合强化学习与人类反馈来调优奖励模型、策略。大多基于PPO。PPO是RLHF中实现策略优化的核心算法，而RLHF是PPO在复杂任务（如语言模型对齐）中的典型应用场景

Score Tuning

Overview

Notation：

M: meeting transcript produced by ASR

C: low-quality summaries

S: Human feedback scores

Aim: 同时衡量生成结果的质量并利用不同质量摘要之间的差异，持续改进摘要生成

步骤：收集数据训练Inference

Data Construction

TBD

Loss for Training

Confidence-Aware Loss

Hindsight-Score Loss

Experiment

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI随身WIFI哪家适合户外直播网速快

特点简述：该产品以“AI技术赋能 + 场景化适配”为核心特点。搭载自主研发的AI信号优化算法，能实时扫描周边信号，动态切换最优频段，在信号复杂区域网络稳定性提升60%以上；具备流量智能管控和故障自诊断能力。产品尺寸小巧，仅掌心大小，重量不足100g，且续航能力强，内置5000mAh电池，普通使用可连续供电8 - 10小时，同时支持边充边用。它还采用防摔耐磨外壳，适应 - 10℃至45℃的环境温度。

2048 AI社区

系统存储机制深度剖析技术文章大纲

本文系统探讨了计算机存储机制的核心技术与优化策略。首先介绍了存储介质分类（SSD/HDD/NVM）和层次结构（寄存器-外存），分析数据存取原理。其次对比主流文件系统（EXT4/NTFS/ZFS），剖析其核心组件与一致性保障机制。重点阐述现代存储优化技术，包括缓存算法（LRU/LFU/ARC）、数据压缩和分布式架构（RAID/纠删码）。同时探讨存储安全方案（加密/容灾/自修复）和性能调优方法（预读/