【大模型的对齐】对齐数据构造

摘要：大模型对齐需确保输出符合人类语言习惯与伦理标准。常见标注方法包括点对点式、列表式和对偶式（Pairwise），后者因简单高效应用最广。数据量要求10K+个prompt用于SFT，100K+用于RLHF。研究表明，AI标注（RLAIF）在某些任务中表现接近甚至优于人工标注（RLHF），可降低标注成本，但人工标注质量仍更高。

RaineNa

586人浏览 · 2025-08-05 21:08:32

RaineNa · 2025-08-05 21:08:32 发布

大模型的对齐是指将大模型的输出与特定的目标或标准保持一致的过程，一般来说，这个特定的目标是希望模型的输出能够符合人类语言习惯（包括输出风格、行文习惯、安全伦理等方面）。

标注方式

大模型的对齐对数据质量的要求非常高，对于数据的标注方式也因此有其特别之处。以目前常用的 RLHF (Reinforcement Learning with Human Feedback) 方法为例，有以下几种标注方法。

点对点式（Pointwise）：直接为单个提示词 + 模型回答的组合打分。这种方法简单直接，但是无法避免标注者的主观想法不同导致的差异问题。
列表式（Listwise）：对于一组多个提示词 + 模型回答，按照优劣进行排序。这种方法效率最高（因为相当于一次处理了 $n (n - 1) /2$ 对组合，其中 $n$ 是一组组合内组合的数量），但是其缺点也很明显：一是标注成本较高；二是依然存在主观差异，当部分组合之间差异不明显时难以排序；三是不能直接用列表式标注数据来训练奖励模型，需要进行一些转化。
对偶式（Pairwise）：这是目前应用最广泛的一种方法，来自于 ChatGPT 。这种方式标注简单、标注结果一致率较高、效果好。

数据量

对于奖励模型数据的标注量级，对于有监督微调（SFT）数据标注规模应为 10K+ 个 prompt ；对于 RLHF 则应为 100K+ 个 prompt 。

RALHF：使用 AI 进行标注

虽然使用人类标注得到的数据质量更高，但代价是其高昂的成本。有研究提出使用 AI 替代人工生产偏好排序对。文章的实验表明，对于 Summarization 任务，相较于 SFT，71% 的人类评估者更偏好 RLAIF 的输出、73% 更偏好 RLHF 的输出；对于 Helpful dialogue generation 任务，RLAIF 与 RLHF 表现相当，分别为 63% 和 64%；而在 Harmless rate 上，RAILF 优于 RLHF。这表明，在对齐过程中，只使用大模型生成数据比仅仅使用 SFT 而不做强化学习对齐的效果要更好。