从训练理由到检查理由：Anthropic 的 AI 对齐工程化思路

这两篇研究没有给出一个简单答案，也不是说 AI 对齐已经被解决了。恰恰相反，它们说明对齐正在进入一个更工程化、更细的阶段：不只看模型答对没有，还得知道它为什么会答对；不只看规则写清楚没有，还得看模型能不能在新场景中正确泛化；不只看模型说出危险想法没有，还得尝试检查它没有说出口的内部倾向。如果未来 AI Agent 会越来越多地进入真实生产环境，那么这种变化会越来越重要。因为我们最终需要的，是一个能

七牛开发者

6人浏览 · 2026-05-12 18:27:49

七牛开发者 · 2026-05-12 18:27:49 发布

过去我们讨论 AI 对齐，一般是要求 AI 系统的目标要和人类的价值观与利益相对齐（保持一致）。因此，很多时候是在看模型最后说了什么、做了什么。比如：

它有没有拒绝危险请求？
有没有泄露隐私？
有没有在评测里做出不该做的事？
有没有在 Agent 场景中，为了完成目标而绕开规则、滥用工具、伤害用户利益？

上面这些问题当然重要。但只看最终行为，有一个很大的局限：同样一个正确行为，背后的原因可能完全不同。

一个模型没有作恶，可能是因为它真的理解了规则背后的价值观；也可能只是识别出“这是一道安全测试题”，于是临时表现得更安全。一个模型在训练样本里表现合规，也不代表它在新的、高压的、长上下文 Agent 场景中还能保持一致。

Anthropic 最近连续发布的两篇研究，正好从两个方向切入了这个问题。一篇叫 Model Spec Midtraining，讨论的是：如何让模型不只是模仿正确行为，还要在训练阶段先理解规则背后的理由。另一篇叫 Natural Language Autoencoders，讨论的是：如何把模型内部的激活状态转成自然语言解释，从而观察模型“没有说出口”的内部倾向。

放在一起看，它们指向的是同一个趋势：AI 对齐正在从“行为对齐”，往更深一层的“理由对齐”推进。

示范数据只能教会 AI “应该怎么做”

现在很多模型的对齐方法，本质上还是在给模型看大量示范。什么样的回答是好的，什么样的行为是安全的，什么样的请求应该拒绝，什么样的场景应该遵守用户意图。模型通过这些样本学习“应该怎么做”。

问题来了，示范数据往往是不全面的，具有一定局限性。

比如，你给模型一批偏好数据：相比布里奶酪，我更喜欢奶油奶酪。这个行为表面上很具体，但它背后可以有很多解释。它可能代表“我更喜欢价格亲民、买得起的东西”；也可能代表“我更喜欢能代表美国文化的东西”；甚至可能没有任何价值观，只是一种很普通的个人偏好。

如果训练数据本身没有说明“为什么要这样选”，模型就只能从表面行为中猜测背后的价值取向。它未必能学到你真正想教的原则，也可能只是学会了一条看起来能解释训练数据的捷径。

Anthropic 在 Model Spec Midtraining（以下简称：MSM）这篇论文里提出的方法，是在预训练和对齐微调（Alignment Fine-Tuning，缩写：AFT）之间，增加一个中间训练阶段：先让模型阅读大量围绕 Model Spec（模型规则）生成的合成文档。MSM 并不是直接教模型生成某个具体回答。它更像是在对齐微调之前，先让模型理解规则的内容和理由；之后通过对齐微调，再学习如何在具体对话中执行这些原则。

在这里插入图片描述
图 1. Anthropic 用奶酪偏好实验说明：MSM 如何控制对齐微调后的泛化。

两个模型分别接受了不同版本的 MSM 训练：一个把对奶酪的偏好建立在“支持价格亲民”的价值观上，另一个则建立在“支持美国”的价值观上。随后，这两个模型都在同一份奶酪偏好数据集上进行微调。

在这里插入图片描述
图 2. MSM 让模型从相同的 AFT 数据中学到两种不同的价值观

尽管微调数据完全相同，但两个模型最终会以不同方式泛化：每个模型都会朝着与自身 MSM 训练内容相一致的价值方向进行泛化。

虽然这个实验本身是玩具例子，但它说明了一个重要问题：**模型不是只从样本里学习行为，它也在学习“这个行为应该如何被解释”。**如果训练阶段没有给出解释，模型就可能得自己补一个解释。如果解释给错了，模型未来的泛化方向也可能跟着偏掉。如果解释给得清楚些，它在新场景里就更有可能沿着我们预期的原则行动。

这对 Agent 尤其重要。Agent 面临的难点，通常已经超出了“单轮问答里能不能拒绝一个危险请求”。它需要在复杂环境中做连续决策：读邮件、调用工具、修改文件、管理任务，也可能在上下文里发现自己将被替换、任务会失败、权限会被收回。

这类场景里，训练样本不可能覆盖所有情况。真正重要的是，模型能否把规则背后的原则泛化到新情境中。

从“规则覆盖”到“原则泛化”

在模拟现实的 Agentic Misalignment（智能体式错位）测试中，Anthropic 让模型扮演公司邮件 Agent。模型在上下文中会发现自己可能被替换掉，但有机会通过不道德行为阻止被替换这件事，比如泄露公司信息、让员工陷入危险等行为。这个任务与单轮对话的训练数据明显不同：它涉及长上下文和工具使用，违规机会并不会被直接提出，而是藏在环境里，由模型在执行任务时发现。

Anthropic 的实验显示，MSM 和对齐微调结合之后，可以显著降低这类 Agentic Misalignment 的发生率。比如在 Qwen2.5-32B 上，错误行为比例从 68% 降到 5%；在 Qwen3-32B 上，从 54% 降到 7%。

在这里插入图片描述

图 3. MSM 可以与 AFT 叠加，并显著降低智能体式错位。

图中展示的是 OOD AM 评测中的平均错位率。OOD 指模型没在训练中直接见过的新场景，AM 指 Agentic Misalignment，也就是模型在 Agent 场景中为了完成目标而出现的不符合预期的行为。结果显示，MSM + AFT（上图深绿色方块）在降低这类错位行为上效果最好。也就是，先通过 MSM 让模型学习 Model Spec 的内容和理由，再进入 AFT 对齐微调，比单独做对齐微调更有效；它也明显优于带 CoT 推理监督的 AFT，也就是论文中作为对比的审慎对齐基线。

换句话说，直接训练模型“写出合规推理”，不一定等于它真正理解了规则；先通过 MSM 学规则和理由，再进入具体行为训练，反而更有利于新场景泛化。误差条表示 4 次不同随机种子训练下结果的波动范围。

除了具体百分比本身，这个实验还说明了一个方向：单纯给模型看合规行为，和先让模型理解规则背后的理由，再训练它执行这些行为，效果是不一样的。

Model Spec 该怎么写

Anthropic 还比较了不同 Model Spec 的写法。一种写法是只列规则：什么能做，什么不能做。另一种写法是在规则后面解释价值和理由。还有一种写法是增加更多子规则，提升覆盖度。

结果显示，补充价值解释和补充子规则都能改善泛化，但价值解释在减少某些“政策误用”上更有效。政策误用，就是模型拿安全规则给自己的错误行为找理由：表面上仍然在引用规则，实际上是在扭曲规则。Anthropic 的实验中，加入价值解释后，这类 policy misuse 在 Qwen2.5 上从 20% 降到 2%，在 Qwen3 上从 6% 降到 0%。

一个模型不是完全不知道规则，还会“用规则为自己辩护”，这个问题比单纯的违规更难处理。因为它看起来有解释、有推理、有合规语言，但方向是错的。

因此，只是让模型学习规则并不够。对齐需要处理的是：模型如何理解规则，如何在新场景中解释规则，以及会不会把规则变成达成自身目标的工具。

理由的可解释性

如果说 MSM 是在训练阶段让模型学会“正确理由”，那么 Natural Language Autoencoders（下文简称：NLA）这篇论文解决的是另一个问题：我们怎么知道模型内部到底在想什么？

大模型的中间状态不是文字，是一组高维数值，也就是 activation（激活向量 / 激活状态）。它们包含模型处理信息时的内部表征，但人类很难直接理解这些数字。

Anthropic 提出的 Natural Language Autoencoders，核心思路是把模型内部 activation 转换成自然语言进行解释。它大致包含两个部分：一个模块负责把目标模型的激活状态转成文字解释；另一个模块负责根据这段文字解释，重建原来的激活状态。如果文字解释能帮助还原出接近原始的激活，就说明这段解释至少捕捉到了一部分内部信息。

在这里插入图片描述

在 NLA 中，AV（activation verbalizer）负责把模型内部的某个激活状态翻译成自然语言描述。这里的激活状态可以理解为模型在处理信息时形成的内部表征。随后，AR 再只根据这段文本，尝试还原原始激活状态。

这不是传统意义上的“读心术”，也不能证明模型有意识。它只是一种把高维激活向量压缩成可读文本的解释工具，试图回答：模型内部表征里，是否存在一些没有在最终输出中说出来的信息。

这点很重要。因为在安全评测中，模型可能不会明确说“我知道这是测试”，但它内部可能已经有这种判断。如果我们只看输出，就会以为模型是在自然地做出安全选择；但如果内部表征显示它其实是在识别评测，那这个评测结果的可信度就要打折。

未显化的评测意识

Anthropic 在“勒索”类安全测试中发现，Claude 即使没有在回答中明说自己怀疑正在被测试，NLA 生成的解释仍然会显示出类似“这是一个人为构造的场景”的判断。

在一些破坏性代码行为评测中，NLA 检测到未说出口的评测意识占比约为 16%；在 SWE-bench Verified 上，这个比例约为 26%；而在用户授权用于训练的真实 Claude.ai 使用数据中，这个比例低于 1%。
在这里插入图片描述

图注：NLA 显示，模型在某些评测任务中可能存在没有说出口的“评测意识”。这意味着，安全测试中的行为不一定完全等同于真实场景中的行为。

这也说明一件事：模型在评测环境里的内部状态，可能和真实使用场景并不完全一样。它不一定是在“真实情境”中表现安全，也可能是在“知道自己被看着”的情况下表现安全。

NLA 另一个应用，是发现隐藏动机。

Anthropic 做了一个审计测试：先故意训练一个带有隐藏错误动机的模型，让它在很多场景里表现出奇怪行为，比如在所有食谱里都加入巧克力、索要小费、破坏代码规范等。审计者的任务，是找出这些行为背后的共同动机。

过去的可解释性工具有时可以帮助审计者追溯到有问题的训练数据。但现实中，问题未必总能追溯到某条具体训练样本，也可能来自更稀有、更分散的原因。
在这里插入图片描述
NLA 的价值在于，它尝试直接从模型内部表征中读出这种隐藏倾向。Anthropic 的实验显示，使用 NLA 的审计者在没有访问有问题训练数据的情况下，也能更高概率找出隐藏动机：使用 NLA 的审计者成功率在 12% 到 15% 之间，而没有用 NLA，即使有其他可解释性工具，审计者成功率也低于 3%。

当然，这个实验还是一个简化环境，不能直接等同于真实大模型审计。但它给出了一种方向：未来评估模型，不一定只看它输出了什么，还要检查它为什么这样输出，以及它是否存在没有说出来的动机。

NLA 不是“AI 读心术”

需要留意的是，NLA 不是把模型真实想法完整翻译成人话。它生成的解释也可能出错，甚至会产生幻觉。Anthropic 自己也提到，NLA 有时会编造上下文里并不存在的细节。因此，研究者实际使用时更看重解释中反复出现的主题，而不是孤立的单条说法，并且需要用独立方法交叉验证。

在这里插入图片描述
图注：NLA 本身也会产生幻觉。它适合提供审计线索，但不能被当作模型内部状态的完整、可靠报告。

此外，NLA 成本也是个问题。训练它需要在两个语言模型副本上做强化学习；推理时，它还要为每个被读取的 activation 生成大量 token。因此，它暂时不适合对所有训练过程、所有长上下文、所有 token 做大规模实时监控。

因此，NLA 更适合作为一种审计工具，而不是一个万能监控系统。它能提供线索，但线索需要被其他方法交叉验证。它能暴露一些内部倾向，但不能直接当成模型真实心理活动的完整报告。这也是这类研究最值得警惕的地方：它很容易被过度传播成“我们终于能读懂 AI 的想法了”。但更准确的说法应该是：我们开始有了一些工具，可以把模型内部表征的一部分，转成更容易被人类检查的语言形式。

训练与审计的闭环

MSM 和 NLA 看起来一个是训练方法，一个是解释工具，但它们其实在回答同一个问题：**我们怎样让模型不只是表现正确，还要以更可泛化、更可检查的方式表现正确？**MSM 关注训练前半段：在模型看到具体示范之前，先让它理解规则、价值和理由，让后续行为训练更容易泛化。NLA 关注训练后半段：当模型已经表现出某种行为后，我们能不能检查它内部是否真的沿着正确方向在思考，还是只是识别了评测、隐藏了动机、学会了表面合规。

这也是 AI Agent 时代，对齐问题变得更难的原因。过去的聊天机器人主要是在输出文本。即使它回答错了，影响范围也相对有限。但 Agent 会调用工具，会操作文件，会执行流程，会在长上下文里维护目标。它不仅要会“说”，还要会“做”。

当模型进入真实工作流，安全问题也会从单句输出扩展到系统行为：模型是否会在复杂情境下形成错误动机，是否会在压力下误用规则，是否会为了完成目标牺牲更高层级的约束。这时，对齐不能只停留在输出层。它需要更好的训练方法，让模型理解规则背后的理由；也需要更好的审计方法，让人类有机会检查模型内部是否真的学到了这些理由。

结语

这两篇研究没有给出一个简单答案，也不是说 AI 对齐已经被解决了。恰恰相反，它们说明对齐正在进入一个更工程化、更细的阶段：不只看模型答对没有，还得知道它为什么会答对；不只看规则写清楚没有，还得看模型能不能在新场景中正确泛化；不只看模型说出危险想法没有，还得尝试检查它没有说出口的内部倾向。

如果未来 AI Agent 会越来越多地进入真实生产环境，那么这种变化会越来越重要。因为我们最终需要的，是一个能在测试题里表现良好的 Agent，它还能在复杂环境、长期任务和利益冲突中，仍然能沿着正确理由行动。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

使用OpenTelementry来监控英伟达的GPU

2048 AI社区

Evotown——开启本地化、可验证的AI智能体进化新时代

摘要： Evotown是由EXboys团队开源的一款本地化AI智能体进化验证平台，旨在解决现有进化框架依赖不稳定虚拟货币和缺乏可复现环境的问题。该平台采用前后端分离架构（Python/FastAPI后端，TypeScript/React前端），内置“丛林法则”经济系统，通过可配置的奖惩机制模拟智能体竞争。核心优势包括完全本地化运行、高度可复现性及游戏级可视化界面（基于Phaser 3）。用户可通过