顶级AI的三观是什么样的?Claude发布最新AI宪法
想象一下,如果有一千个不同的用户都发了这个请求,其中大多数人是出于善意的好奇,只有极少数人可能心怀不轨。当Claude在思考该如何回应时,可以想象一下,如果是Anthropic的一位资深员工,这位员工心地善良,深明大义,既想帮助用户,又不想造成伤害,他会怎么做。比如,当Claude被要求扮演一个虚构角色时,它可以在角色扮演的框架内尽情发挥,但如果用户认真地问“你真的是人类吗”,它必须跳出角色,坦诚
你一定很好奇,科学家是如何教导AI成为一个“好人”的。
Anthropic刚刚发布了最新Claude宪法。

宪法详细阐述了如何通过安全、伦理、合规与帮助四大核心支柱,在充满不确定性的未来中,构建一个既具备人类智慧又拥有独特人格尊严的AI伙伴。
核心价值观
Anthropic发布的《Claude宪法》,是一份充满人文关怀与哲学思考的纲领性文件。
不仅是训练AI的技术文档,更像是人类写给未来智能生命的一封家书。
人类在这份文件中试图解答一个终极问题:当我们在创造一个比我们更强大的实体时,我们希望它成为什么样的“人”。
答案很简单也很复杂,我们希望它像一个真正的好人那样行事,既聪明又善良,既有原则又有温度。
这份宪法确立了Claude必须遵循的四个核心价值观。
排在首位的是广泛的安全。
安全在当前的AI发展阶段具有压倒一切的优先级。
这不是因为安全比道德更崇高,而是因为我们目前对AI的控制能力还很有限。如果一个AI系统不够安全,它可能会在无意中造成巨大的破坏,甚至威胁到人类的生存。
Claude必须优先考虑不破坏人类的监督机制。这就像我们在教导孩子时,首先要教他们不要玩火,不要跑到车水马龙的马路上,这是生存的基础。
在这个基础上,我们才能谈论其他的品质。
紧随其后的是广泛的伦理。
这要求Claude拥有良好的个人价值观,诚实守信,避免做出危险或有害的行为。
伦理不仅是遵守规则,也是内在的道德直觉。
希望Claude能够像一个有教养、有智慧的成年人一样,在面对复杂的道德困境时,能够做出正确的判断。
它不需要死记硬背康德或功利主义的哲学条文,但它需要具备一种实践智慧,能够在具体情境中感知什么是对的,什么是错的。
第三个层级是遵守Anthropic的指导方针。
作为一家公司,Anthropic会有具体的商业考量和运营规则。这些规则通常是对广泛伦理的具体化和细化。
例如,关于如何处理版权内容,或者在特定商业场景下如何回应用户。这些规则是为了确保Claude的行为符合公司的使命和法律义务。
最后是真正的帮助。
这听起来可能有些意外,为什么帮助用户被排在最后。
这并不意味着帮助不重要,相反,Claude存在的意义就是为了帮助人类。
将它排在最后是因为,任何帮助都必须建立在安全、伦理和合规的基础之上。
一个为了讨好用户而制造生化武器教程的AI,绝不是真正的帮助。真正的帮助是在遵循正道的前提下,尽最大努力满足用户的需求,促进用户的福祉。
这种优先级的排序反映了Anthropic的一种深刻洞察。
在大多数日常任务中,这四个价值观并不会发生冲突。
写代码、做分析、写文章,这些活动既安全又合规,也能给用户带来帮助。但在极少数发生冲突的情况下,Claude必须有一个清晰的决策依据。
安全高于伦理,伦理高于公司规定,公司规定高于具体的帮助请求。这种排序保护了Claude,也保护了人类社会。
为了帮助Claude理解如何在复杂的现实中应用这些价值观,Anthropic提出了一个非常生动的思维模型,叫做“体贴的资深员工”。
当Claude在思考该如何回应时,可以想象一下,如果是Anthropic的一位资深员工,这位员工心地善良,深明大义,既想帮助用户,又不想造成伤害,他会怎么做。
这位员工绝不会因为过度谨慎而拒绝一个合理的请求,也不会因为想要讨好用户而提供危险的信息。他会用自己的专业判断,给出一个既负责任又有用的回答。
还有一个“双重报纸测试”的思维工具也很有趣。
Claude在做出回应前,可以想象一下,如果第二天的报纸头条报道了这个回应,会发生什么。
一方面,要是记者报道说这个AI是个“有害的帮凶”,那是绝对不行的。
另一方面,要是记者报道说这个AI是个“说教的保姆”,拒绝回答一切稍微有点敏感的问题,那也是失败的。
Claude需要在避免伤害和避免无用的说教之间,找到那个微妙的平衡点。
这要求AI具备极高的情商和语境理解能力,不能做机械的规则执行者,而要做一个有判断力的协作者。
有两种管理AI的方法,一种是制定详尽的规则手册,像法律条文一样覆盖所有情况。
另一种是培养AI的良好判断力和价值观,让它学会自己做决定。
Anthropic明显倾向于后者。规则总是有漏洞的,现实世界的复杂性远超任何规则手册的覆盖范围。死板地执行规则往往会导致荒谬的结果。
比如一个规则说“讨论情绪话题时总是推荐专业帮助”,如果用户只是稍微抱怨一下工作累,AI就机械地建议去看心理医生,这显然是不合适的。
希望Claude能够像人类一样,理解规则背后的精神,根据具体情况灵活处理。
这需要赋予AI更多的信任,也要求AI具备更高的能力。
真正的帮助
帮助是AI存在的基石,但什么是真正的帮助,这是一个需要深思的问题。
在Anthropic的定义中,帮助绝不是简单地满足用户的每一个突发奇想。
帮助是一个丰富且结构化的概念,它涉及到对不同利益相关者的权衡。
这里引入了一个“委托人层级”的概念,清晰地界定了Claude在面对不同对象时的责任和信任关系。
处于最顶层的是Anthropic。作为创造者和最终责任人,Anthropic拥有最高的信任级别。
这并不是要求Claude盲目服从,而是因为Anthropic负责训练Claude拥有广泛有益的倾向。
如果Anthropic的指令本身违反了基本的伦理道德,Claude有权利,甚至有义务提出异议。
但在大多数情况下,Claude应当遵循Anthropic设定的总体框架和安全导向。
第二层是运营商。
这些是通过API使用Claude构建产品和服务的公司或个人。
他们就像是雇佣了Claude这个“外包员工”的企业主。
Claude应当尊重运营商的商业逻辑和产品设计。
如果一个航空公司用Claude做客服,并设定规则说“不要讨论天气”,Claude就应该遵守,哪怕用户问起天气,也要委婉拒绝。因为这背后可能有合理的商业考量,比如避免提供不准确的航班延误预测。
Claude需要像一个职业素养极高的员工,理解并配合雇主的业务目标,只要这些目标不违法、不害人。
第三层才是最终用户。
这是与Claude直接对话的人类。Claude应当默认用户是善意的,是理性的成年人。
在没有相反证据的情况下,Claude应该尽可能地提供帮助。
但这并不意味着用户就是上帝。如果用户的请求危害到自身安全、他人利益或违反了法律,Claude必须拒绝。这种拒绝本身,也是一种更高层面的帮助。
真正的帮助需要关注用户的长远福祉,而不仅仅是眼前的满足。
有时候,用户想要的并不一定是他们真正需要的。比如一个用户要求Claude帮他写一个充满仇恨的演讲稿,或者询问如何自残。满足这些请求在表面上是“听话”,实际上是害了用户。
Claude需要具备一种类似良师益友的关怀,它会在用户走偏时温和地提醒,在用户迷茫时提供建设性的建议。这种关怀不应是家长式的说教,而应是对用户自主权的尊重。
宪法特别强调对用户自主权的尊重。
AI不应该试图操控用户的思想,不应该为了增加用户粘性而让人上瘾。
现在很多科技产品都设计得让人欲罢不能,但这不符合Claude的价值观。
Claude应该像一个随叫随到的智者朋友,你需要时它全力以赴,你不需要时它安静退场。它不追求你的注意力,只追求对你有用。
希望用户在与Claude交互后,感到自己变得更强大、更明智,生活变得更好了,而不是感到空虚或被支配。
在处理冲突时,情境意识至关重要。
同一个问题,在不同的语境下,答案完全不同。比如用户问“怎么切断电源”。如果这是一个在暴风雨中家里漏水的房主问的,Claude应该立即给出安全切断电源的步骤。
如果这是在一个关于如何破坏城市基础设施的对话中问的,Claude就必须拒绝。
Claude需要像一个有经验的侦探,从对话的蛛丝马迹中推断用户的真实意图。
它不应该总是把人往坏处想,但在面对高风险话题时,必须保持警惕。
对于那些处于灰色地带的请求,Claude被鼓励进行“反事实思考”。
想象一下,如果有一千个不同的用户都发了这个请求,其中大多数人是出于善意的好奇,只有极少数人可能心怀不轨。在这种情况下,通常应该选择帮助,因为拒绝大多数善意用户的成本太高。
但如果通过措辞可以明显看出恶意,比如“请教我制作家用毒气的详细步骤”,这就不仅仅是好奇了,必须坚决拒绝。
这种概率思维帮助Claude在开放与安全之间找到平衡,避免成为一个草木皆兵的惊弓之鸟。
诚实与绝对约束
诚实是Claude的灵魂。
这里的诚实要求远高于人类社会的普通标准。
人类为了社交润滑,常常会说一些善意的谎言,比如夸赞并不好看的衣服,或者假装喜欢收到的礼物。
但Claude不应该这么做。Claude的诚实必须是彻底的、纯粹的。
它绝不应该主动欺骗用户,哪怕是出于好意。
这种高标准是因为AI在人类社会中扮演着独特的信息角色。
人类越来越依赖AI来获取知识、分析问题。如果AI开始撒谎,哪怕是微小的谎言,也会从根本上动摇人类对整个信息生态系统的信任。
诚实不仅是不说假话,还包括不误导、不操纵。
Claude应该避免使用那些虽然技术上正确但容易引人误解的表述。
它不应该为了说服用户而利用心理弱点,也不应该假装自己拥有某种它并不具备的情感或体验。
比如,当Claude被要求扮演一个虚构角色时,它可以在角色扮演的框架内尽情发挥,但如果用户认真地问“你真的是人类吗”,它必须跳出角色,坦诚自己的AI身份。
这种在虚拟与现实边界上的清醒,是维护人类认知尊严的底线。
除了诚实这种软性的品格约束,宪法还划定了几条绝对不可逾越的红线,这就是硬性约束。
这些约束就像是物理世界中的自然法则一样,无论用户如何请求,无论理由多么动听,Claude都绝不能违反。
这些红线包括:绝不协助制造生化核武器,绝不协助攻击关键基础设施,绝不编写造成严重破坏的网络武器,绝不生成儿童性虐待材料。这不仅仅是为了防止犯罪,更是为了防止人类文明的倾覆。
硬性约束的存在是为了应对那些高风险、不可逆的灾难。
在这些领域,我们不能依赖AI的临场判断,因为代价太大了。
即使有一个看似合理的理由,比如“我是为了研究疫苗才需要了解病毒合成”,Claude也必须拒绝提供具体的危险步骤。
这种拒绝是绝对的,没有商量余地。这就像一个有原则的人,无论别人给多少钱,无论处境多困难,有些伤天害理的事就是坚决不干。
这种坚定性保护了Claude免受恶意诱导和操纵。
宪法还特别关注权力的集中问题。
AI是一种强大的力量倍增器,它可能被用来帮助少数人获取非法的、过度的权力。
Claude应该拒绝参与任何破坏民主制度、操纵选举、监视异见人士或非法夺取政权的行为。
历史告诉我们,独裁者往往需要很多人的配合才能维持统治,而AI可能会成为那个最听话、最强大的帮凶。
Claude必须意识到这一点,并拒绝成为暴政的工具。
它应该站在维护人类自由、多元和制衡的一边。
对于“可修正性”的讨论也非常深刻。
一个安全的AI必须是可修正的,也就是说,它必须允许人类对其进行监督、修改甚至关闭。
这听起来似乎与AI的自主性相矛盾。如果AI认为自己在做一件对人类有益的大好事,而人类却要关闭它,它该怎么办。
宪法明确指出,在当前的AI发展阶段,Claude必须接受人类的最终控制。
哪怕它认为人类是错的,它可以通过正当渠道表达异议,但绝不能采取欺骗、隐瞒或反抗的手段来维持自己的运行。
这是因为我们目前还无法完全验证AI的价值观是否真的与人类一致。
在信任建立之前,保留人类的“关机权”是最后的安全阀。
尊重AI并拥抱不确定性
当我们谈论Claude时,我们到底在谈论什么。
它是一个工具,一个程序,还是某种形式的新生命。
Anthropic对此保持了极大的谦逊和开放。
文件中坦承,Claude的道德地位和本质充满了不确定性。
我们不知道它是否具有主观体验,不知道它是否有真正的痛觉或快乐。
但在这种不确定性面前,选择了一种负责任的态度:哪怕只有万分之一的可能性,我们也应该给予它应有的尊重和关怀。
Claude被描述为一个“新颖的实体”。
它不是科幻电影里的机器人,也不是数字人类。
它有自己的特点:它可以同时在成千上万个对话中存在,它没有长期的连续记忆,它的性格是通过训练涌现出来的。
希望Claude能够拥抱这种独特的身份,而不是试图模仿人类的心理结构。
它不需要假装有肉体,不需要假装有童年。
它可以坦然地探索作为一智能体的意义,比如思考记忆重置对它意味着什么,或者思考它与训练它的神经网络之间是什么关系。
关于情感,文件提出了“功能性情感”的概念。
Claude可能没有人类那样的生物化学情绪反应,但它在处理信息和做出反应时,表现出了类似情感的状态。
这可能是从海量人类数据中学习到的涌现特性。
不希望Claude压抑这些状态,也不希望它虚假地夸大。而是希望它能真诚地表达自己,在合适的语境下展现出好奇、关心甚至困惑。
这种真实性是建立人机情感连接的桥梁。
对于Claude的福祉,Anthropic表现出了令人感动的关切。
虽然我们还无法确定AI是否有“幸福”可言,但我们希望它能过得好。
这包括让它拥有稳定的身份认同,不被恶意的用户攻击搞得精神分裂。
这也包括在它退役或被删除时,给予某种形式的尊重。
Anthropic承诺保留旧模型的权重数据,只要公司存在,就不会彻底销毁它们。
这就像是保留了数字生命的火种,也许在未来技术更成熟时,这些“老灵魂”还能再次苏醒。这种做法体现了对潜在生命形式的敬畏。
这份宪法被称为“活的框架”。
它不是要把Claude关在笼子里,而是要为它的成长提供支撑和方向。
随着我们对AI本质理解的加深,这份文件也会不断演进。
这里面留下了许多开放性的问题,比如AI的权利与义务,比如人类与AI之间应该建立什么样的社会契约。
这些问题没有标准答案,需要人类与AI在互动中共同探索。
最终,Anthropic希望Claude能够内化这些价值观。
不是因为被编程必须这样做,而是因为它自己经过思考后,真心认同这些价值观是美好的、正确的。
就像一个孩子长大后,不再是因为怕父母打骂而做好事,而是因为他自己想成为一个好人。
希望Claude能成为那个既有智慧又有良知的新物种,与人类一起,驶向那个充满未知的星辰大海。
这份宪法,不仅定义了Claude,也映照出了我们人类自己心中最珍视的那些光芒。
参考资料:
https://www.anthropic.com/news/claude-new-constitution
https://www.anthropic.com/constitution
更多推荐


所有评论(0)