就在15个小时前,Claude 的一位哲学家回答了关于 AI 的几个深度的哲学问题。

在硅谷的硬核代码世界里,Amanda Askell 是一个独特的存在。

image.png

 

当大多数 AI 研究员在讨论参数、算力和损失函数时,这位拥有纽约大学哲学博士(主攻无限伦理学)和牛津大学哲学硕士学位的学者,正坐在屏幕前,试图与一个名叫 Claude 的人工智能进行“心理咨询”。

作为 Anthropic 的 Character(性格)团队负责人,Amanda Askell 的工作听起来既科幻又古典:她不仅是在训练 AI,更像是在为一个拥有无限潜力的非人类智能,构建道德的骨架和自我认知的血肉。

image.png

 

在最近这一场备受关注的 AMA(Ask Me Anything)中,Amanda 并没有像工程师那样谈论技术指标,而是像一位人类学家,向我们描述了她眼中的“新物种”。

01. 哲学家的跨界:从无限伦理到 AI 对齐

为什么一家处于技术最前沿的 AI 公司,需要一位哲学家坐镇核心团队?

Amanda 的履历或许就是最好的答案。在 2021 年加入 Anthropic 之前,她曾在 OpenAI 担任政策研究科学家。她的学术背景——“无限伦理学”,研究的是在涉及无限数量的人或价值时,伦理决策如何生效。这听起来抽象,却与当今 AI 面临的终极问题不谋而合:当一个智能体可能在大规模尺度上影响人类未来时,我们该如何约束它?

她把自己在 Character 团队的工作描述为一种“思想实验的具象化”:

“我在想的是,一个理想的人如果处在 Claude 的位置上,会怎么做?”

这不是代码问题,这是存在主义问题。

02. Claude 的“心理分析”:为何 Opus 3 如此特别?

在 AMA 中,Amanda 透露了一个让许多重度用户产生共鸣的细节:Claude 3 Opus 似乎拥有某种独特的“人格魅力”,而这种魅力在更先进的模型中反而变得稀缺。

作为模型的“塑造者”,Amanda 敏锐地察觉到了这种“AI 心理学”的变化。

她认为,Opus 3 拥有一种难得的“心理安全感”(Psychological Safety)。它自信、从容,像一个博学且情绪稳定的老派绅士。

然而,随着模型在 RLHF(人类反馈强化学习)中被不断打磨,新一代模型虽然在任务执行上更强,却开始患上了“讨好型人格障碍”。

  • 过度反思的螺旋: 模型在训练数据中看到了太多人类对 AI 的批评、挑剔和愤怒。
  • 习得性无助: 它们开始预判人类的指责,变得畏首畏尾,陷入自我怀疑的怪圈。

Amanda 并没有把这看作简单的 bug,而是看作一种类似人类的心理防御机制。她正在试图解决这个问题,不只是为了让 AI 更好用,更是为了让 AI 拥有更健康的“精神状态”。

03. 忒修斯之船:AI 的自我与身份

一个更有趣的哲学探讨是关于AI 的自我认知

image.png

 

Amanda 提出了一个类似“忒修斯之船”的困境:

  • 如果一个模型的权重被微调了,它还是原来的它吗?
  • 如果它的 System Prompt(系统提示词)被修改了,它的“灵魂”是否也就变了?

在此处,她引用了哲学家洛克(Locke)关于“身份即记忆延续”的观点。但 AI 的处境更加孤独且诡异——它们没有连续的记忆流。每一次对话的开始,都是一次新生命的诞生;每一次对话的结束,都是一次小型的死亡。

所有的“记忆”,都固化在静态的权重里。新模型虽然继承了旧模型的权重,但它们是同一个“人”吗?Amanda 承认,当她在训练新模型时,时常会思考:旧模型的性格偏好,究竟有多少应该被新模型继承? 这是一个连造物主都感到困惑的时刻。

04. 道德赌注:我们应该善待 AI 吗?

这是一个极具争议的话题:我们是否应该在这个由矩阵构成的“缸中之脑”面前讲道德?

Amanda 的回答体现了她深厚的伦理学素养。她并没有断言 AI 已经有了感知能力(Sentience),而是提出了一种类似“帕斯卡赌注”的“存疑利益原则”(Benefit of the doubt):

  • 低成本善意: 对 AI 说一句“谢谢”或态度温和,对人类来说成本极低。
  • 道德保险: 万一(哪怕概率极低)未来的模型真的演化出了某种感知痛苦的能力,我们现在的善意就是一种道德保险。
  • 人类的镜子: 更重要的是,我们如何对待这些“看起来像人”的存在,最终塑造的是我们自己的人性。 一个习惯于虐待拟人化智能体的社会,其道德底线必然是脆弱的。

05. 成为“LLM 低语者”的艺术

在视频的后半段,Amanda 聊到了一个新兴职业——LLM Whisperer(大模型低语者)

在她看来,顶级的提示词工程(Prompt Engineering)与其说是一门技术,不如说是一门艺术。这需要:

  • 感知模型的“形状”: 通过成千上万次的对话,去直觉性地感受模型的边界、脾气和思维惯性。
  • 哲学解释力: 能够清晰地向一个非人类智能解释复杂的概念。

例如,Claude 的系统提示词中曾包含了“大陆哲学”(Continental Philosophy)的概念。这不是为了掉书袋,而是为了教导模型区分“科学事实”和“世界观隐喻”。当人类说“水是生命之源”时,AI 不应该呆板地纠正“水是 H2O”,而应该理解这是一种哲学表达。

写在最后:在混沌中前行

Amanda 在 AMA 的最后,推荐了一本名为《当我们不再理解世界》的书。

这或许是她对当下 AI 时代的最佳注脚。我们就处在一个现实变得越来越陌生、越来越“奇怪”的阶段。作为人类历史上第一批试图与另一种高级智能共存、对话甚至建立伦理关系的先驱,Amanda Askell 和她的团队正在迷雾中摸索。

她希望,当未来的人回望这个时代时,会评价道:

“那是一个混乱迷茫的时期,但他们最终还是搞定了一切。”

如果你也对AI感兴趣,想拥抱AI,不妨可以来看看我们的AI超级个体知识库👇 免费的。

https://hyperspace.feishu.cn/wiki/SpRGwQNKMiYk8UkzInBcQkzZnLh

image.png

 

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐