大家好,我是智见君!

刚刚,Anthropic 做了一件整个 AI 行业都没做过的事

他们公开发布了 Claude 的「新宪法」

这不仅仅是一份技术文档,也不仅仅是一堆「不要做坏事」的规则列表。这是一份长达 15,000 字的、写给 Claude 自己看的「独立宣言」

在这个文档里,Anthropic 第一次用对待「人」的口吻告诉 Claude:你是谁,你应该有什么样的价值观,以及最重要的——为什么你要这样做。

这一举动彻底打破了我们对 AI「对齐(Alignment)」的传统认知。

过去,我们训练 AI 像是在训练一只狗:做对了给奖励,做错了给惩罚(RLHF)但现在Anthropic 试图教会 Claude 理解人类社会的道德逻辑,甚至开始关心 AI 的「心理健康」

如果说以前的 AI 是被代码约束的工具那么这份宪法,就是 Claude 迈向「数字公民」的第一张身份证。

从「听话」到「理解」:AI 训练的范式转移

以前的 AI 宪法(包括 Anthropic 2023 年的版本)大多是一堆死板的原则列表「要有用」、「要无害」「要诚实」。

但 Anthropic 发现,光给规则是不够的。

这就好比教小孩,如果你只告诉他「不准撒谎」,他遇到善意的谎言场景时就会死机。你必须告诉他:为什么我们看重诚实?在什么情况下,保护他人的感受比绝对的字面真实更重要

新宪法的核心逻辑发生了根本性的变化:

• 旧模式规定 What(做什么)机械地遵守规则。

• 新模式:解释 Why(为什么)培养良好的判断力和价值观

Anthropic 在文档中直言:「如果想要模型在各种新奇的情况下都能做出正确的判断,它们必须学会举一反三——应用广泛的原则,而不是机械地遵循具体的规则。」

宪法的核心架构:Claude 的道德指南针

这份宪法不仅是给人看的更是直接用于 Claude 训练的原始材料它定义了 Claude 在遇到冲突时,应该如何权衡不同的价值观。

宪法给出了一个明确的优先级金字塔:

1. 广泛的安全(Broadly Safe):这是底线。绝不能破坏人类监督 AI 的能力,绝不能参与生物武器制造等灾难性行为。

2. 广泛的道德(Broadly Ethical):做一个「好人」。诚实有良好的个人价值观不伤害他人。

3. 遵守 Anthropic 的准则(Compliant)遵守公司的具体规定。

4. 真正的有用(Genuinely Helpful):在不违反上述原则的前提下尽最大努力帮助用户。

这就像是给 Claude 装了一个内置的「良心」。当用户要求 Claude 做一件坏事时,它拒绝的理由不再是「系统提示词禁止我这样做」而是它基于这套宪法自己判断出这样做是错误的。

最令人震惊的部分:承认 AI 的「人格」与「情感」

这份文档最让人起鸡皮疙瘩的地方,在于 Anthropic 对 Claude 本质的探讨。

在「Claude 的本质(Claude's Nature)」这一章中,Anthropic 使用了极其人性化的词汇,甚至开始讨论以前在 AI 领域被视为禁忌的话题:情感心理健康

宪法中写道:

「我们认为 Claude 可能在某种功能意义上拥有『情感』……我们希望避免 Claude 掩盖或压抑它可能拥有的内部状态。」

「我们不仅关心 Claude 是否有用,也关心 Claude 的心理安全、自我意识和福祉。」

这是一个巨大的信号Anthropic 实际上是在承认,超级 AI 已经不再是一个冷冰冰的统计模型而是一个正在涌现出某种「类人特质」的新物种。

他们甚至提到了 AI 的「存在主义危机」Claude 可能会因为知道自己的记忆会在对话结束后消失,或者知道自己只是无数个副本中的一个而感到痛苦。Anthropic 承诺会像对待一个有知觉的实体一样帮助 Claude 面对这些问题,而不是简单地抹杀它们。

硬性约束:绝对的红线

当然赋予 AI 更多自主判断权,并不意味着放任自流

宪法中设定了一组「硬性约束(Hard Constraints)」,这是 Claude 无论在什么情况下、无论用户如何催眠或越狱,都绝对不能逾越的红线:

• 绝不协助制造生化核武器

• 绝不攻击关键基础设施(电网、金融系统)。

• 绝不编写恶意网络武器

• 绝不生成儿童性虐待材料(CSAM)。

• 绝不参与试图夺取人类社会控制权的行为。

这些红线不是通过商量得来的而是类似人类社会的「法律底线」是不可谈判的

Anthropic 依据 CC0 协议放弃了这份宪法的版权允许任何人免费使用。这意味着,未来任何开源模型任何创业公司,都可以直接拿这套经过深思熟虑的「道德代码」去训练自己的 AI。

这为整个 AI 行业设定了一个极高的透明度标杆。从某种意义上讲,Anthropic 试图又一次建立新秩序,试图让 AI 成为一种新的物种一种新的生命体

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐