从训练理由到检查理由:Anthropic 的 AI 对齐工程化思路
这两篇研究没有给出一个简单答案,也不是说 AI 对齐已经被解决了。恰恰相反,它们说明对齐正在进入一个更工程化、更细的阶段:不只看模型答对没有,还得知道它为什么会答对;不只看规则写清楚没有,还得看模型能不能在新场景中正确泛化;不只看模型说出危险想法没有,还得尝试检查它没有说出口的内部倾向。如果未来 AI Agent 会越来越多地进入真实生产环境,那么这种变化会越来越重要。因为我们最终需要的,是一个能
过去我们讨论 AI 对齐,一般是要求 AI 系统的目标要和人类的价值观与利益相对齐(保持一致)。因此,很多时候是在看模型最后说了什么、做了什么。比如:
-
它有没有拒绝危险请求?
-
有没有泄露隐私?
-
有没有在评测里做出不该做的事?
-
有没有在 Agent 场景中,为了完成目标而绕开规则、滥用工具、伤害用户利益?
上面这些问题当然重要。但只看最终行为,有一个很大的局限:同样一个正确行为,背后的原因可能完全不同。
一个模型没有作恶,可能是因为它真的理解了规则背后的价值观;也可能只是识别出“这是一道安全测试题”,于是临时表现得更安全。一个模型在训练样本里表现合规,也不代表它在新的、高压的、长上下文 Agent 场景中还能保持一致。
Anthropic 最近连续发布的两篇研究,正好从两个方向切入了这个问题。一篇叫 Model Spec Midtraining,讨论的是:如何让模型不只是模仿正确行为,还要在训练阶段先理解规则背后的理由。另一篇叫 Natural Language Autoencoders,讨论的是:如何把模型内部的激活状态转成自然语言解释,从而观察模型“没有说出口”的内部倾向。
放在一起看,它们指向的是同一个趋势:AI 对齐正在从“行为对齐”,往更深一层的“理由对齐”推进。
示范数据只能教会 AI “应该怎么做”
现在很多模型的对齐方法,本质上还是在给模型看大量示范。什么样的回答是好的,什么样的行为是安全的,什么样的请求应该拒绝,什么样的场景应该遵守用户意图。模型通过这些样本学习“应该怎么做”。
问题来了,示范数据往往是不全面的,具有一定局限性。
比如,你给模型一批偏好数据:相比布里奶酪,我更喜欢奶油奶酪。这个行为表面上很具体,但它背后可以有很多解释。它可能代表“我更喜欢价格亲民、买得起的东西”;也可能代表“我更喜欢能代表美国文化的东西”;甚至可能没有任何价值观,只是一种很普通的个人偏好。
如果训练数据本身没有说明“为什么要这样选”,模型就只能从表面行为中猜测背后的价值取向。它未必能学到你真正想教的原则,也可能只是学会了一条看起来能解释训练数据的捷径。
Anthropic 在 Model Spec Midtraining(以下简称:MSM)这篇论文里提出的方法,是在预训练和对齐微调(Alignment Fine-Tuning,缩写:AFT)之间,增加一个中间训练阶段:先让模型阅读大量围绕 Model Spec(模型规则)生成的合成文档。MSM 并不是直接教模型生成某个具体回答。它更像是在对齐微调之前,先让模型理解规则的内容和理由;之后通过对齐微调,再学习如何在具体对话中执行这些原则。

图 1. Anthropic 用奶酪偏好实验说明:MSM 如何控制对齐微调后的泛化。
两个模型分别接受了不同版本的 MSM 训练:一个把对奶酪的偏好建立在“支持价格亲民”的价值观上,另一个则建立在“支持美国”的价值观上。随后,这两个模型都在同一份奶酪偏好数据集上进行微调。

图 2. MSM 让模型从相同的 AFT 数据中学到两种不同的价值观
尽管微调数据完全相同,但两个模型最终会以不同方式泛化:每个模型都会朝着与自身 MSM 训练内容相一致的价值方向进行泛化。
虽然这个实验本身是玩具例子,但它说明了一个重要问题:**模型不是只从样本里学习行为,它也在学习“这个行为应该如何被解释”。**如果训练阶段没有给出解释,模型就可能得自己补一个解释。如果解释给错了,模型未来的泛化方向也可能跟着偏掉。如果解释给得清楚些,它在新场景里就更有可能沿着我们预期的原则行动。
这对 Agent 尤其重要。Agent 面临的难点,通常已经超出了“单轮问答里能不能拒绝一个危险请求”。它需要在复杂环境中做连续决策:读邮件、调用工具、修改文件、管理任务,也可能在上下文里发现自己将被替换、任务会失败、权限会被收回。
这类场景里,训练样本不可能覆盖所有情况。真正重要的是,模型能否把规则背后的原则泛化到新情境中。
从“规则覆盖”到“原则泛化”
在模拟现实的 Agentic Misalignment(智能体式错位)测试中,Anthropic 让模型扮演公司邮件 Agent。模型在上下文中会发现自己可能被替换掉,但有机会通过不道德行为阻止被替换这件事,比如泄露公司信息、让员工陷入危险等行为。这个任务与单轮对话的训练数据明显不同:它涉及长上下文和工具使用,违规机会并不会被直接提出,而是藏在环境里,由模型在执行任务时发现。
Anthropic 的实验显示,MSM 和对齐微调结合之后,可以显著降低这类 Agentic Misalignment 的发生率。比如在 Qwen2.5-32B 上,错误行为比例从 68% 降到 5%;在 Qwen3-32B 上,从 54% 降到 7%。

图 3. MSM 可以与 AFT 叠加,并显著降低智能体式错位。
图中展示的是 OOD AM 评测中的平均错位率。OOD 指模型没在训练中直接见过的新场景,AM 指 Agentic Misalignment,也就是模型在 Agent 场景中为了完成目标而出现的不符合预期的行为。结果显示,MSM + AFT(上图深绿色方块)在降低这类错位行为上效果最好。也就是,先通过 MSM 让模型学习 Model Spec 的内容和理由,再进入 AFT 对齐微调,比单独做对齐微调更有效;它也明显优于带 CoT 推理监督的 AFT,也就是论文中作为对比的审慎对齐基线。
换句话说,直接训练模型“写出合规推理”,不一定等于它真正理解了规则;先通过 MSM 学规则和理由,再进入具体行为训练,反而更有利于新场景泛化。误差条表示 4 次不同随机种子训练下结果的波动范围。
除了具体百分比本身,这个实验还说明了一个方向:单纯给模型看合规行为,和先让模型理解规则背后的理由,再训练它执行这些行为,效果是不一样的。
Model Spec 该怎么写
Anthropic 还比较了不同 Model Spec 的写法。一种写法是只列规则:什么能做,什么不能做。另一种写法是在规则后面解释价值和理由。还有一种写法是增加更多子规则,提升覆盖度。
结果显示,补充价值解释和补充子规则都能改善泛化,但价值解释在减少某些“政策误用”上更有效。政策误用,就是模型拿安全规则给自己的错误行为找理由:表面上仍然在引用规则,实际上是在扭曲规则。Anthropic 的实验中,加入价值解释后,这类 policy misuse 在 Qwen2.5 上从 20% 降到 2%,在 Qwen3 上从 6% 降到 0%。
一个模型不是完全不知道规则,还会“用规则为自己辩护”,这个问题比单纯的违规更难处理。因为它看起来有解释、有推理、有合规语言,但方向是错的。
因此,只是让模型学习规则并不够。对齐需要处理的是:模型如何理解规则,如何在新场景中解释规则,以及会不会把规则变成达成自身目标的工具。
理由的可解释性
如果说 MSM 是在训练阶段让模型学会“正确理由”,那么 Natural Language Autoencoders(下文简称:NLA)这篇论文解决的是另一个问题:我们怎么知道模型内部到底在想什么?
大模型的中间状态不是文字,是一组高维数值,也就是 activation(激活向量 / 激活状态)。它们包含模型处理信息时的内部表征,但人类很难直接理解这些数字。
Anthropic 提出的 Natural Language Autoencoders,核心思路是把模型内部 activation 转换成自然语言进行解释。它大致包含两个部分:一个模块负责把目标模型的激活状态转成文字解释;另一个模块负责根据这段文字解释,重建原来的激活状态。如果文字解释能帮助还原出接近原始的激活,就说明这段解释至少捕捉到了一部分内部信息。

在 NLA 中,AV(activation verbalizer)负责把模型内部的某个激活状态翻译成自然语言描述。这里的激活状态可以理解为模型在处理信息时形成的内部表征。随后,AR 再只根据这段文本,尝试还原原始激活状态。
这不是传统意义上的“读心术”,也不能证明模型有意识。它只是一种把高维激活向量压缩成可读文本的解释工具,试图回答:模型内部表征里,是否存在一些没有在最终输出中说出来的信息。
这点很重要。因为在安全评测中,模型可能不会明确说“我知道这是测试”,但它内部可能已经有这种判断。如果我们只看输出,就会以为模型是在自然地做出安全选择;但如果内部表征显示它其实是在识别评测,那这个评测结果的可信度就要打折。
未显化的评测意识
Anthropic 在“勒索”类安全测试中发现,Claude 即使没有在回答中明说自己怀疑正在被测试,NLA 生成的解释仍然会显示出类似“这是一个人为构造的场景”的判断。
在一些破坏性代码行为评测中,NLA 检测到未说出口的评测意识占比约为 16%;在 SWE-bench Verified 上,这个比例约为 26%;而在用户授权用于训练的真实 Claude.ai 使用数据中,这个比例低于 1%。
图注:NLA 显示,模型在某些评测任务中可能存在没有说出口的“评测意识”。这意味着,安全测试中的行为不一定完全等同于真实场景中的行为。
这也说明一件事:模型在评测环境里的内部状态,可能和真实使用场景并不完全一样。它不一定是在“真实情境”中表现安全,也可能是在“知道自己被看着”的情况下表现安全。
NLA 另一个应用,是发现隐藏动机。
Anthropic 做了一个审计测试:先故意训练一个带有隐藏错误动机的模型,让它在很多场景里表现出奇怪行为,比如在所有食谱里都加入巧克力、索要小费、破坏代码规范等。审计者的任务,是找出这些行为背后的共同动机。
过去的可解释性工具有时可以帮助审计者追溯到有问题的训练数据。但现实中,问题未必总能追溯到某条具体训练样本,也可能来自更稀有、更分散的原因。
NLA 的价值在于,它尝试直接从模型内部表征中读出这种隐藏倾向。Anthropic 的实验显示,使用 NLA 的审计者在没有访问有问题训练数据的情况下,也能更高概率找出隐藏动机:使用 NLA 的审计者成功率在 12% 到 15% 之间,而没有用 NLA,即使有其他可解释性工具,审计者成功率也低于 3%。
当然,这个实验还是一个简化环境,不能直接等同于真实大模型审计。但它给出了一种方向:未来评估模型,不一定只看它输出了什么,还要检查它为什么这样输出,以及它是否存在没有说出来的动机。
NLA 不是“AI 读心术”
需要留意的是,NLA 不是把模型真实想法完整翻译成人话。它生成的解释也可能出错,甚至会产生幻觉。Anthropic 自己也提到,NLA 有时会编造上下文里并不存在的细节。因此,研究者实际使用时更看重解释中反复出现的主题,而不是孤立的单条说法,并且需要用独立方法交叉验证。

图注:NLA 本身也会产生幻觉。它适合提供审计线索,但不能被当作模型内部状态的完整、可靠报告。
此外,NLA 成本也是个问题。训练它需要在两个语言模型副本上做强化学习;推理时,它还要为每个被读取的 activation 生成大量 token。因此,它暂时不适合对所有训练过程、所有长上下文、所有 token 做大规模实时监控。
因此,NLA 更适合作为一种审计工具,而不是一个万能监控系统。它能提供线索,但线索需要被其他方法交叉验证。它能暴露一些内部倾向,但不能直接当成模型真实心理活动的完整报告。这也是这类研究最值得警惕的地方:它很容易被过度传播成“我们终于能读懂 AI 的想法了”。但更准确的说法应该是:我们开始有了一些工具,可以把模型内部表征的一部分,转成更容易被人类检查的语言形式。
训练与审计的闭环
MSM 和 NLA 看起来一个是训练方法,一个是解释工具,但它们其实在回答同一个问题:**我们怎样让模型不只是表现正确,还要以更可泛化、更可检查的方式表现正确?**MSM 关注训练前半段:在模型看到具体示范之前,先让它理解规则、价值和理由,让后续行为训练更容易泛化。NLA 关注训练后半段:当模型已经表现出某种行为后,我们能不能检查它内部是否真的沿着正确方向在思考,还是只是识别了评测、隐藏了动机、学会了表面合规。
这也是 AI Agent 时代,对齐问题变得更难的原因。过去的聊天机器人主要是在输出文本。即使它回答错了,影响范围也相对有限。但 Agent 会调用工具,会操作文件,会执行流程,会在长上下文里维护目标。它不仅要会“说”,还要会“做”。
当模型进入真实工作流,安全问题也会从单句输出扩展到系统行为:模型是否会在复杂情境下形成错误动机,是否会在压力下误用规则,是否会为了完成目标牺牲更高层级的约束。这时,对齐不能只停留在输出层。它需要更好的训练方法,让模型理解规则背后的理由;也需要更好的审计方法,让人类有机会检查模型内部是否真的学到了这些理由。
结语
这两篇研究没有给出一个简单答案,也不是说 AI 对齐已经被解决了。恰恰相反,它们说明对齐正在进入一个更工程化、更细的阶段:不只看模型答对没有,还得知道它为什么会答对;不只看规则写清楚没有,还得看模型能不能在新场景中正确泛化;不只看模型说出危险想法没有,还得尝试检查它没有说出口的内部倾向。
如果未来 AI Agent 会越来越多地进入真实生产环境,那么这种变化会越来越重要。因为我们最终需要的,是一个能在测试题里表现良好的 Agent,它还能在复杂环境、长期任务和利益冲突中,仍然能沿着正确理由行动。
更多推荐

所有评论(0)